Done is better than Perfect

자연어처리(NLP) 정리(3) 형태소 분석기 KoNLpy, 토크나이저 Tokenizer

2022.12.16

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 형태소 분석 KoNLPy: 파이썬 한국어 NLP — KoNLPy documentation KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.6.0 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가 konlpy.org - 형태소 분석 전 문자 전처리 (map을 통해 일괄 적용 후 사용) # 정규표현식 import re def preprocessing(text): # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다. text = re.sub(..

STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(2) - 문자 전처리(정규표현식 등)

2022.12.16

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 사용 데이터셋 출처: 뉴스 토픽 분류 AI 경진대회 - DACON KLUE Benchmark(https://klue-benchmark.com/) 문자 길이 세기 len 문장 길이 word_count 단어 수 unique_word_count 중복 제거 단어수 # apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기 # df["len"] = df["title"].map(lambda x: len(x)) df["len"] = df["title"].str.len() df["word_count"] = df["title"].map(lambda x : len(x.split())) # 형태소 분석기를 사용하면 단어의 수를 셀때..

STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(1) BOW, TF-IDF

2022.12.15

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. NLP 단어 벡터화하기 BOW(bag of words) 가장 간단하지만 효과적이라 널리쓰이는 말뭉치 방법 각 단어가 이 말뭉치에 몇 번 나타나는지 파악(출현 회수 카운트) BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. it's bad, not good at all. it's good, not bad at all. 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다. 이를 보완하기 위해 n-gram을 사용한다. (n-gram은 n개의 토큰을 사용한다.) CountVectorizer CountVectorizer 는 사이킷런에서 제공하는 bag of words 를 만들 수 있는 방법이다 (https://scik..

TIL/멋사_AI스쿨_TIL

221213 NLP 텍스트 전처리 + 데이터리안 세미나

2022.12.13

회고 사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등) 느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다 교훈(Finding): 아직 할만할 때 복습 철저히 해놓기 국어 좋아하고 문정과 출신인 나한테는 CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다. 전반적인 내용은 한번에 공부방에 정리해봐야겠다 오늘의 키워드 TF/ DF 사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer() ***정규표현식(regular expression(regex)) word cloud concat -> merge(how, on) 불용어 (stop wo..

회고

프로그래머스 100문제 해결!!

2022.12.12

11월 말 67,272등 (예전에 sql고득점키트 풀고, 파이썬 몇문제 푼 상태) 12월 12일 5만등 안으로 들어왔다!! 초기 유저가 이젠 10만등이 넘어가는데 3만등대라니!!....ㅋㅋㅋㅋㅋㅋ 레벨0 100문제 풀기 계속하고 있는데, 50문제를 넘어가니까 조금씩 어려워서 속도가 느려지고 있지만 꼭 완료해야징~~!! lv.0만 다풀어도 등수가 꽤나 올라갈 것 같다. 파이썬이 재밌어서 욕심이 더 생긴다 꾸준히 풀어서 파이썬 잘하는 데이터 분석가가 되야지!!

STUDY/Python

프로그래머스 문제풀이 (lv.1~2) 정규표현식, 스택 큐

2022.12.09

1209 TIL 코딩 테스트 연습 멘토님 선별 문제, 별은 난이도 코딩테스트 연습으로 lv.0을 계속 풀다가 윗단계를 도전하니 확실히 시간도 오래걸리고 어려웠지만, 수업시간에 배웠던 스택과 큐를 직접 사용해보니까 재밌었다. 두 정수 사이의 합🌟 (https://school.programmers.co.kr/learn/courses/30/lessons/12912) def solution(a, b): answer = 0 number = [a,b] number.sort() for i in range(number[0],number[1]+1): answer += i return answer 문자열 내 p와 y의 개수🌟 (https://school.programmers.co.kr/learn/courses/30/les..

전체 글