회고 사실(Fact) : RNN(시계열 데이터) 주가 분석 실습, 비즈니스 데이터 분석 실습 느낌(Feeling) : RNN이 뭔지 이제야 조금 알 거같고(?), 비즈니스 데이터 분석으로 pandas를 다시 복습하니까 좋았다. 교훈(Finding) : 인간은 계속 까먹으니까 계속 복습 정리하기!! RNN 시계열 데이터 분석 실습 공식문서 참고: https://www.tensorflow.org/tutorials/structured_data/time_series 시계열 데이터에서는 섞어서 나누지 않고 순서를 고려해서 나누게 된다. 자연어 텍스트를 시퀀스 인코딩 했던 것처럼 시계열 데이터에서도 순서가 중요하다. 예를 들어 지난 일년 간의 데이터를 통해 앞으로 일주일 간의 데이터를 예측한다고 했을 때 윈도우를 ..
자연어 처리 모델 참고 영상 https://www.youtube.com/watch?v=fTQRplbzI1o&t=89s GPT 데이터 플로우 단방향 두 단계로 나누어 학습 (비지도 학습 pre-training, fine tuning) 시퀀스 투 시퀀스 모델링에서의 디코더 Pre-training 단어들의 관계를 최대화 시키는 과정 뒤에 나올 단어의 확률을 최대화시킴 Fine-tuning: 학습 과정. task에 맞춰서 파라미터를 튜닝함. GPT의 구조 left to right 문장이 흘러가는 방향대로 attention GPT2, GPT3 BERT Bidirectional Encoder Representation from Transformers 단방향 학습하는 GPT와 다르게 데이터 플로우 양방향 GPT와 유..
파이토치로 시작하는 딥러닝기초 출처: https://www.boostcourse.org/ai214 순환신경망(Recurrent Neural Network) Sequence-To-Sequence 시퀀스를 입력받아서 시퀀스를 출력 대표적인 사용처: 번역이나 챗봇 Encoder - Decoder 구조 인코더로 압축된 벡터를 디코더에 전달 스타트 플래그와 함께 모델 시작 아웃풋을 reply에 첫번째에 두고, 이 아웃풋이 다음으로 또 들어간다. -> 완전한 문장 생성 모든 문장을 들은 후에 답변을 생성한다 RNN 2개를 생성해서 중간을 연결한 형태 pytorch로 구현 가능 마지막 10줄의 코드가 전체 200줄 정도의 내용을 압축하고 있는 코드 이 예시는 번역 task를 수행하는 모델 source text (영문..
해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 형태소 분석 KoNLPy: 파이썬 한국어 NLP — KoNLPy documentation KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.6.0 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가 konlpy.org - 형태소 분석 전 문자 전처리 (map을 통해 일괄 적용 후 사용) # 정규표현식 import re def preprocessing(text): # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다. text = re.sub(..
해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 사용 데이터셋 출처: 뉴스 토픽 분류 AI 경진대회 - DACON KLUE Benchmark(https://klue-benchmark.com/) 문자 길이 세기 len 문장 길이 word_count 단어 수 unique_word_count 중복 제거 단어수 # apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기 # df["len"] = df["title"].map(lambda x: len(x)) df["len"] = df["title"].str.len() df["word_count"] = df["title"].map(lambda x : len(x.split())) # 형태소 분석기를 사용하면 단어의 수를 셀때..