정규표현식

STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(2) - 문자 전처리(정규표현식 등)

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 사용 데이터셋 출처: 뉴스 토픽 분류 AI 경진대회 - DACON KLUE Benchmark(https://klue-benchmark.com/) 문자 길이 세기 len 문장 길이 word_count 단어 수 unique_word_count 중복 제거 단어수 # apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기 # df["len"] = df["title"].map(lambda x: len(x)) df["len"] = df["title"].str.len() df["word_count"] = df["title"].map(lambda x : len(x.split())) # 형태소 분석기를 사용하면 단어의 수를 셀때..

TIL/멋사_AI스쿨_TIL

221012 AI스쿨 TIL 아파트 분양가 EDA

19일차 멋사 AI스쿨 main lecture by 박조은 강사님 EDA 실습 전국 신규 민간 아파트 분양가 데이터 분석 (전혀 다른 형태의 데이터 합치기) 통계청 KOSIS 데이터 분석 (깔끔한 데이터의 이해와 국가통계포털 이용법) 전국 신규 민간 아파트 분양가 데이터 분석 melt (열에 있는 데이터를 행으로 녹이기) id_vars = 에 지정하는 값은 녹이지 않고 남길 컬럼 지정 https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-by-melt # 아래 두 개는 같은 결과 # df.melt(id_vars="지역") df_melt = pd.melt(df, id_vars="지역") 데이터를 녹인 다음엔 variable, value 컬럼..

둥둥런
'정규표현식' 태그의 글 목록