자연어처리(NLP) 정리(2) - 문자 전처리(정규표현식 등)
해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 사용 데이터셋 출처: 뉴스 토픽 분류 AI 경진대회 - DACON KLUE Benchmark(https://klue-benchmark.com/) 문자 길이 세기 len 문장 길이 word_count 단어 수 unique_word_count 중복 제거 단어수 # apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기 # df["len"] = df["title"].map(lambda x: len(x)) df["len"] = df["title"].str.len() df["word_count"] = df["title"].map(lambda x : len(x.split())) # 형태소 분석기를 사용하면 단어의 수를 셀때..