Pandas

STUDY/Pandas

[pandas] 데이터 생략없이 전체 출력하기

판다스 데이터프레임 생략 없이 전체 출력하기 # row 생략 없이 출력 pd.set_option('display.max_rows', None) # col 생략 없이 출력 pd.set_option('display.max_columns', None)

STUDY/Pandas

[pandas] 데이터프레임에 전처리 일괄 적용하기 (map, apply)

이런 데이터셋에서 '감동/감탄' 등 텍스트만 뽑기 위한 전처리 전체 데이터프레임의 컬럼들을 for문으로 돌면서 apply for col in emotion_df.columns: emotion_df[col] = emotion_df[col].apply(lambda x: x[1:-1].split(',')[0]) 정규표현식 적용하기 - '/'문자를 살리기위해 "\/" 추가 - progress_apply와 tqdm을 사용하면 진행도 표시 가능 import re def preprocessing(text): # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다. text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\/]', '', text) return text # tqdm 으로 전처리 진행 상태를 표시..

STUDY/Pandas

[Pandas] pivot_table, crosstab, group by

피벗 테이블이란, 데이터를 요약한 통계표라고 볼 수 있으며, 기존 데이터를 활용해서 새로운 테이블을 만든 것을 말한다. 같은 목적의 기능이지만 쓰는 형태는 달라 쓰다보면 헷갈리는 판다스 문법 3가지를 한 번에 비교해보려고 한다. 1. 크로스탭 crosstab 주로 두 개의 변수의 빈도수 구할때 사용하기 쉽다. pd.crosstab(컬럼명1, 컬럼명2) # 두 개의 변수의데이터 빈도수 구하기 df_p = pd.crosstab(df["제주 중분류"], df["월"]) df_p.iloc[:5][:5] 2. 피벗테이블 pivot_table pd.pivot_table(data=df, index=컬럼1, , values=컬럼3) columns는 스킵 가능 df.pivot_table(index=["alive","cl..

TIL/멋사_AI스쿨_TIL

221013 AI스쿨 TIL 의약품처방정보 EDA

20일차 멋사 AI스쿨 main lecture by 박조은 강사님 Seaborn 복습 https://seaborn.pydata.org/tutorial.html relplot, displot, catplot 큰 범주는 외우기! 한글폰트 적용 설정 import koreanize_matplotlib # 그래프에 retina display 적용 %config InlineBackend.figure_format = 'retina' # 제대로 적용 되었는지 확인해보기 pd.Series([1,-1]).plot(title="한글") 의약품 처방데이터 분석 (100만명의 데이터 중 33만명 파일 활용) csv 파일 위치 찾아서 불러오기 (glob) from glob import glob # glob("data/HP_*.c..

TIL/멋사_AI스쿨_TIL

221012 AI스쿨 TIL 아파트 분양가 EDA

19일차 멋사 AI스쿨 main lecture by 박조은 강사님 EDA 실습 전국 신규 민간 아파트 분양가 데이터 분석 (전혀 다른 형태의 데이터 합치기) 통계청 KOSIS 데이터 분석 (깔끔한 데이터의 이해와 국가통계포털 이용법) 전국 신규 민간 아파트 분양가 데이터 분석 melt (열에 있는 데이터를 행으로 녹이기) id_vars = 에 지정하는 값은 녹이지 않고 남길 컬럼 지정 https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-by-melt # 아래 두 개는 같은 결과 # df.melt(id_vars="지역") df_melt = pd.melt(df, id_vars="지역") 데이터를 녹인 다음엔 variable, value 컬럼..

TIL/멋사_AI스쿨_TIL

221011 AI스쿨 TIL Tidy data

18일차 멋사 AI스쿨 main lecture by 박조은 강사님 - 서울시 코로나 확진자 데이터 분석 실습 마무리 - 분석하기 좋은 데이터란 (Tidy Data) - 아파트 분양가 데이터 분석 실습 시작 describe(include = ‘object’) count 결측치를 제거한 빈도수 unique 중복값을 제거한 유일값 top 최빈값 freq 최빈값의 빈도수 replace 메서드 - 데이터 프레임, 시리즈에 모두 사용 - replace는 완전히 일치해야 적용 → regex=True를 통해 일부만 가능하게 바꿀 수 있다. str.replace - 시리즈에만 사용가능 - str.replace는 해당 텍스트만 포함되면 바뀌게 된다 - str.contains도 시리즈에만 사용가능 (str이 series a..

STUDY/Pandas

[Pandas] 판다스 치트 시트, 공식 문서

Pandas Cheat Sheet https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf Pandas Documentation https://pandas.pydata.org/pandas-docs/stable/index.html pandas documentation — pandas 1.5.0 documentation The reference guide contains a detailed description of the pandas API. The reference describes how the methods work and which parameters can be used. It assumes that you have an understanding of the key ..

TIL/멋사_AI스쿨_TIL

220927 AI스쿨 TIL 범주형 데이터 EDA, Seaborn

오늘의 회고 사실(Fact) : seaborn 범주형 변수 시각화 실습, FinanceDataReader 실습, 네이버 금융 뉴스 웹크롤링 실습 느낌(Feeling) : Seaborn과 Pandas dataframe에 좀 익숙해진 것 같다. 코드가 이제 낯설게 보이지 않는다. 근데 크롤링을 해보니 또 다시 새로웠다. 교훈(Finding) : seaborn example다른 그래프도 읽어보고 그려봐야겠다. 웹크롤링 부분 다시 자세히 복습해봐야겠다. 범주형 데이터 EDA, Seaborn # mpg 데이터셋을 불러옵니다. df = sns.load_dataset("mpg") df.shape # shape는 어트리뷰트라서 ()를 안붙여도 된다. 매서드가 아니다 df.head() df.tail() df.info()..

TIL/멋사_AI스쿨_TIL

220926 AI스쿨 TIL Pandas와 Seaborn EDA

오늘의 회고 사실(Fact) : 지난주에 이어서 Pandas, Seaborn 실습을 진행했다. EDA 과정을 추상화된 도구를 사용하는 방법과 직접 작성하는 방법을 학습했다. 느낌(Feeling) : 코드를 보고 따라하는 건 할 수 있지만, 그래프마다 다른 용도나 필요한 값들, 기술 통계 안에 있는 수치의 의미를 정확히 이해하기 어려워서, 공부하고 나서 개운하지 않았다. 교훈(Finding) : 통계 관련 자료나 책을 더 찾아서 읽어보자 멋사 AI스쿨 main lecture by 박조은 강사님 mpg 데이터셋을 활용한 EDA 분석, 시각화 EDA란? Exploratory data analysis (탐색적 자료 분석) 1. 추상화된 EDA 도구 활용 pandas profiling, Sweetviz, Auto..

둥둥런
'Pandas' 태그의 글 목록