해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 사용 데이터셋 출처: 뉴스 토픽 분류 AI 경진대회 - DACON KLUE Benchmark(https://klue-benchmark.com/) 문자 길이 세기 len 문장 길이 word_count 단어 수 unique_word_count 중복 제거 단어수 # apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기 # df["len"] = df["title"].map(lambda x: len(x)) df["len"] = df["title"].str.len() df["word_count"] = df["title"].map(lambda x : len(x.split())) # 형태소 분석기를 사용하면 단어의 수를 셀때..
해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. NLP 단어 벡터화하기 BOW(bag of words) 가장 간단하지만 효과적이라 널리쓰이는 말뭉치 방법 각 단어가 이 말뭉치에 몇 번 나타나는지 파악(출현 회수 카운트) BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. it's bad, not good at all. it's good, not bad at all. 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다. 이를 보완하기 위해 n-gram을 사용한다. (n-gram은 n개의 토큰을 사용한다.) CountVectorizer CountVectorizer 는 사이킷런에서 제공하는 bag of words 를 만들 수 있는 방법이다 (https://scik..
회고 사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등) 느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다 교훈(Finding): 아직 할만할 때 복습 철저히 해놓기 국어 좋아하고 문정과 출신인 나한테는 CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다. 전반적인 내용은 한번에 공부방에 정리해봐야겠다 오늘의 키워드 TF/ DF 사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer() ***정규표현식(regular expression(regex)) word cloud concat -> merge(how, on) 불용어 (stop wo..
11월 말 67,272등 (예전에 sql고득점키트 풀고, 파이썬 몇문제 푼 상태) 12월 12일 5만등 안으로 들어왔다!! 초기 유저가 이젠 10만등이 넘어가는데 3만등대라니!!....ㅋㅋㅋㅋㅋㅋ 레벨0 100문제 풀기 계속하고 있는데, 50문제를 넘어가니까 조금씩 어려워서 속도가 느려지고 있지만 꼭 완료해야징~~!! lv.0만 다풀어도 등수가 꽤나 올라갈 것 같다. 파이썬이 재밌어서 욕심이 더 생긴다 꾸준히 풀어서 파이썬 잘하는 데이터 분석가가 되야지!!
1209 TIL 코딩 테스트 연습 멘토님 선별 문제, 별은 난이도 코딩테스트 연습으로 lv.0을 계속 풀다가 윗단계를 도전하니 확실히 시간도 오래걸리고 어려웠지만, 수업시간에 배웠던 스택과 큐를 직접 사용해보니까 재밌었다. 두 정수 사이의 합🌟 (https://school.programmers.co.kr/learn/courses/30/lessons/12912) def solution(a, b): answer = 0 number = [a,b] number.sort() for i in range(number[0],number[1]+1): answer += i return answer 문자열 내 p와 y의 개수🌟 (https://school.programmers.co.kr/learn/courses/30/les..
멋쟁이사자처럼 ai school 7기 이호준 강사님(제주코딩베이스캠프) 강의를 바탕으로 작성하였습니다. 리스트 리스트 컴프리헨션 출처_코딩도장 https://wikidocs.net/22805 # 2의 배수 출력 [ 2*x for x in range(1, 10+1) ] [2, 4, 6, 8, 10, 12, 14, 16, 18, 20] # if 문 함께 사용 [x for x in range(1, 10+1) if x % 2 == 0] [2, 4, 6, 8, 10] 메서드 (리스트) #리스트 메서드 확인 # dir([1,2,3]) """ 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort..