전체 글

대학원생의 UX, 데이터분석, 개발 공부 기록장📁
STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(1) BOW, TF-IDF

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. NLP 단어 벡터화하기 BOW(bag of words) 가장 간단하지만 효과적이라 널리쓰이는 말뭉치 방법 각 단어가 이 말뭉치에 몇 번 나타나는지 파악(출현 회수 카운트) BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. it's bad, not good at all. it's good, not bad at all. 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다. 이를 보완하기 위해 n-gram을 사용한다. (n-gram은 n개의 토큰을 사용한다.) CountVectorizer CountVectorizer 는 사이킷런에서 제공하는 bag of words 를 만들 수 있는 방법이다 (https://scik..

TIL/멋사_AI스쿨_TIL

221213 NLP 텍스트 전처리 + 데이터리안 세미나

회고 사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등) 느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다 교훈(Finding): 아직 할만할 때 복습 철저히 해놓기 국어 좋아하고 문정과 출신인 나한테는 CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다. 전반적인 내용은 한번에 공부방에 정리해봐야겠다 오늘의 키워드 TF/ DF 사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer() ***정규표현식(regular expression(regex)) word cloud concat -> merge(how, on) 불용어 (stop wo..

회고

프로그래머스 100문제 해결!!

11월 말 67,272등 (예전에 sql고득점키트 풀고, 파이썬 몇문제 푼 상태) 12월 12일 5만등 안으로 들어왔다!! 초기 유저가 이젠 10만등이 넘어가는데 3만등대라니!!....ㅋㅋㅋㅋㅋㅋ 레벨0 100문제 풀기 계속하고 있는데, 50문제를 넘어가니까 조금씩 어려워서 속도가 느려지고 있지만 꼭 완료해야징~~!! lv.0만 다풀어도 등수가 꽤나 올라갈 것 같다. 파이썬이 재밌어서 욕심이 더 생긴다 꾸준히 풀어서 파이썬 잘하는 데이터 분석가가 되야지!!

STUDY/Python

프로그래머스 문제풀이 (lv.1~2) 정규표현식, 스택 큐

1209 TIL 코딩 테스트 연습 멘토님 선별 문제, 별은 난이도 코딩테스트 연습으로 lv.0을 계속 풀다가 윗단계를 도전하니 확실히 시간도 오래걸리고 어려웠지만, 수업시간에 배웠던 스택과 큐를 직접 사용해보니까 재밌었다. 두 정수 사이의 합🌟 (https://school.programmers.co.kr/learn/courses/30/lessons/12912) def solution(a, b): answer = 0 number = [a,b] number.sort() for i in range(number[0],number[1]+1): answer += i return answer 문자열 내 p와 y의 개수🌟 (https://school.programmers.co.kr/learn/courses/30/les..

STUDY/Python

코딩테스트 대비 Python 기초 공부

멋쟁이사자처럼 ai school 7기 이호준 강사님(제주코딩베이스캠프) 강의를 바탕으로 작성하였습니다. 리스트 리스트 컴프리헨션 출처_코딩도장 https://wikidocs.net/22805 # 2의 배수 출력 [ 2*x for x in range(1, 10+1) ] [2, 4, 6, 8, 10, 12, 14, 16, 18, 20] # if 문 함께 사용 [x for x in range(1, 10+1) if x % 2 == 0] [2, 4, 6, 8, 10] 메서드 (리스트) #리스트 메서드 확인 # dir([1,2,3]) """ 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort..

TIL/멋사_AI스쿨_TIL

221207 AI스쿨 TIL 전이학습, 이미지전처리 없이 CNN

오늘의 회고 사실(Fact): CNN 날씨 이미지 학습, 전이학습 느낌(Feeling): 이제 실습 순서가 이해된다. 개별 코드는 아직 어려워서 미니프로젝트때 열심히 해야겠다 교훈(Finding): 복습, 과제 열심히 해보자! 멋사 AI스쿨 7기 박조은 강사님 전이학습(trasfer learning) pre-trained 된 모델을 가져다 사용하는 것. 기존 유명한 논문의 CNN 모델이 이미 TF, keras, PyTorch 등에 구현이 되어있다. 그래서 해당 모델을 직접 구현하지 않고 가져다 쓸 수 있는게 전이학습이다. 여기에서 미세조정 등을 해주게 되면 직접 모델을 구현했을 때에 조금 더 나은 성능을 내기도 한다. VGG16 API 공식문서 참고 tf.keras.applications.vgg16.VG..

둥둥런
Done is better than Perfect