해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. NLP 단어 벡터화하기 BOW(bag of words) 가장 간단하지만 효과적이라 널리쓰이는 말뭉치 방법 각 단어가 이 말뭉치에 몇 번 나타나는지 파악(출현 회수 카운트) BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. it's bad, not good at all. it's good, not bad at all. 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다. 이를 보완하기 위해 n-gram을 사용한다. (n-gram은 n개의 토큰을 사용한다.) CountVectorizer CountVectorizer 는 사이킷런에서 제공하는 bag of words 를 만들 수 있는 방법이다 (https://scik..
회고 사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등) 느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다 교훈(Finding): 아직 할만할 때 복습 철저히 해놓기 국어 좋아하고 문정과 출신인 나한테는 CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다. 전반적인 내용은 한번에 공부방에 정리해봐야겠다 오늘의 키워드 TF/ DF 사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer() ***정규표현식(regular expression(regex)) word cloud concat -> merge(how, on) 불용어 (stop wo..
11월 말 67,272등 (예전에 sql고득점키트 풀고, 파이썬 몇문제 푼 상태) 12월 12일 5만등 안으로 들어왔다!! 초기 유저가 이젠 10만등이 넘어가는데 3만등대라니!!....ㅋㅋㅋㅋㅋㅋ 레벨0 100문제 풀기 계속하고 있는데, 50문제를 넘어가니까 조금씩 어려워서 속도가 느려지고 있지만 꼭 완료해야징~~!! lv.0만 다풀어도 등수가 꽤나 올라갈 것 같다. 파이썬이 재밌어서 욕심이 더 생긴다 꾸준히 풀어서 파이썬 잘하는 데이터 분석가가 되야지!!
1209 TIL 코딩 테스트 연습 멘토님 선별 문제, 별은 난이도 코딩테스트 연습으로 lv.0을 계속 풀다가 윗단계를 도전하니 확실히 시간도 오래걸리고 어려웠지만, 수업시간에 배웠던 스택과 큐를 직접 사용해보니까 재밌었다. 두 정수 사이의 합🌟 (https://school.programmers.co.kr/learn/courses/30/lessons/12912) def solution(a, b): answer = 0 number = [a,b] number.sort() for i in range(number[0],number[1]+1): answer += i return answer 문자열 내 p와 y의 개수🌟 (https://school.programmers.co.kr/learn/courses/30/les..
멋쟁이사자처럼 ai school 7기 이호준 강사님(제주코딩베이스캠프) 강의를 바탕으로 작성하였습니다. 리스트 리스트 컴프리헨션 출처_코딩도장 https://wikidocs.net/22805 # 2의 배수 출력 [ 2*x for x in range(1, 10+1) ] [2, 4, 6, 8, 10, 12, 14, 16, 18, 20] # if 문 함께 사용 [x for x in range(1, 10+1) if x % 2 == 0] [2, 4, 6, 8, 10] 메서드 (리스트) #리스트 메서드 확인 # dir([1,2,3]) """ 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort..
오늘의 회고 사실(Fact): CNN 날씨 이미지 학습, 전이학습 느낌(Feeling): 이제 실습 순서가 이해된다. 개별 코드는 아직 어려워서 미니프로젝트때 열심히 해야겠다 교훈(Finding): 복습, 과제 열심히 해보자! 멋사 AI스쿨 7기 박조은 강사님 전이학습(trasfer learning) pre-trained 된 모델을 가져다 사용하는 것. 기존 유명한 논문의 CNN 모델이 이미 TF, keras, PyTorch 등에 구현이 되어있다. 그래서 해당 모델을 직접 구현하지 않고 가져다 쓸 수 있는게 전이학습이다. 여기에서 미세조정 등을 해주게 되면 직접 모델을 구현했을 때에 조금 더 나은 성능을 내기도 한다. VGG16 API 공식문서 참고 tf.keras.applications.vgg16.VG..