전체 글

대학원생의 UX, 데이터분석, 개발 공부 기록장📁
STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(2) - 문자 전처리(정규표현식 등)

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 사용 데이터셋 출처: 뉴스 토픽 분류 AI 경진대회 - DACON KLUE Benchmark(https://klue-benchmark.com/) 문자 길이 세기 len 문장 길이 word_count 단어 수 unique_word_count 중복 제거 단어수 # apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기 # df["len"] = df["title"].map(lambda x: len(x)) df["len"] = df["title"].str.len() df["word_count"] = df["title"].map(lambda x : len(x.split())) # 형태소 분석기를 사용하면 단어의 수를 셀때..

STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(1) BOW, TF-IDF

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. NLP 단어 벡터화하기 BOW(bag of words) 가장 간단하지만 효과적이라 널리쓰이는 말뭉치 방법 각 단어가 이 말뭉치에 몇 번 나타나는지 파악(출현 회수 카운트) BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. it's bad, not good at all. it's good, not bad at all. 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다. 이를 보완하기 위해 n-gram을 사용한다. (n-gram은 n개의 토큰을 사용한다.) CountVectorizer CountVectorizer 는 사이킷런에서 제공하는 bag of words 를 만들 수 있는 방법이다 (https://scik..

TIL/멋사_AI스쿨_TIL

221213 NLP 텍스트 전처리 + 데이터리안 세미나

회고 사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등) 느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다 교훈(Finding): 아직 할만할 때 복습 철저히 해놓기 국어 좋아하고 문정과 출신인 나한테는 CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다. 전반적인 내용은 한번에 공부방에 정리해봐야겠다 오늘의 키워드 TF/ DF 사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer() ***정규표현식(regular expression(regex)) word cloud concat -> merge(how, on) 불용어 (stop wo..

회고

프로그래머스 100문제 해결!!

11월 말 67,272등 (예전에 sql고득점키트 풀고, 파이썬 몇문제 푼 상태) 12월 12일 5만등 안으로 들어왔다!! 초기 유저가 이젠 10만등이 넘어가는데 3만등대라니!!....ㅋㅋㅋㅋㅋㅋ 레벨0 100문제 풀기 계속하고 있는데, 50문제를 넘어가니까 조금씩 어려워서 속도가 느려지고 있지만 꼭 완료해야징~~!! lv.0만 다풀어도 등수가 꽤나 올라갈 것 같다. 파이썬이 재밌어서 욕심이 더 생긴다 꾸준히 풀어서 파이썬 잘하는 데이터 분석가가 되야지!!

STUDY/Python

프로그래머스 문제풀이 (lv.1~2) 정규표현식, 스택 큐

1209 TIL 코딩 테스트 연습 멘토님 선별 문제, 별은 난이도 코딩테스트 연습으로 lv.0을 계속 풀다가 윗단계를 도전하니 확실히 시간도 오래걸리고 어려웠지만, 수업시간에 배웠던 스택과 큐를 직접 사용해보니까 재밌었다. 두 정수 사이의 합🌟 (https://school.programmers.co.kr/learn/courses/30/lessons/12912) def solution(a, b): answer = 0 number = [a,b] number.sort() for i in range(number[0],number[1]+1): answer += i return answer 문자열 내 p와 y의 개수🌟 (https://school.programmers.co.kr/learn/courses/30/les..

STUDY/Python

코딩테스트 대비 Python 기초 공부

멋쟁이사자처럼 ai school 7기 이호준 강사님(제주코딩베이스캠프) 강의를 바탕으로 작성하였습니다. 리스트 리스트 컴프리헨션 출처_코딩도장 https://wikidocs.net/22805 # 2의 배수 출력 [ 2*x for x in range(1, 10+1) ] [2, 4, 6, 8, 10, 12, 14, 16, 18, 20] # if 문 함께 사용 [x for x in range(1, 10+1) if x % 2 == 0] [2, 4, 6, 8, 10] 메서드 (리스트) #리스트 메서드 확인 # dir([1,2,3]) """ 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort..

둥둥런
Done is better than Perfect