분류 전체보기

TIL/멋사_AI스쿨_TIL

[비즈니스 데이터 분석] 온라인 리테일 데이터 분석

12월 19일 TIL 코호트, 잔존률, RFM, 군집 분석, KPI 등 online retail data 실습 순서 EDA(리텐션) => RFM(segmentation)을 판다스로 구하고 => 군집화로 고객 세분화(segmentation) => 유사도를 통한 추천시스템 대시보드 샘플 참고하기!! [SaaS 비즈니스 대시보드 템플릿] - 방문자 수 (신규) - 월간 성장률 - 신규 회원가입 수 - 오거닉 - 유료 마케팅 - 방문자 중 회원가입한 사람 비율 - 유료고객 수 - 취소율(Churn rate) - 월간 반복매출(MRR) - 고객획득비용(CAC) --> 마케팅 비용 오거닉이란? 쉽게 이해하면, 비용을 쓰지 않고 알아서 우리 사이트에 방문한 이용자들 오가닉 트래픽(Organic Traffic)이란 광..

STUDY/Pandas

[pandas] 비즈니스 데이터 분석 실습 (1)

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 기술통계 df.describe() df.describe(include="object") 결측치 # 결측치 합계를 구합니다. df.isnull().sum() # 결측치 비율을 구합니다. df.isnull().mean() * 100 # 결측치를 시각화 합니다. plt.figure(figsize=(12, 4)) sns.heatmap(df.isnull()) 히스토그램으로 전체 수치변수 시각화 df.hist(figsize=(12,5)) 매출액 상위 국가 # 국가별 매출액의 평균과 합계를 구합니다. # TotalPrice를 통해 매출액 상위 10개만 가져옵니다. df.groupby("Country")["TotalPrice"].agg([..

TIL/멋사_AI스쿨_TIL

TIL 12.19 RNN 시계열 데이터 실습

회고 사실(Fact) : RNN(시계열 데이터) 주가 분석 실습, 비즈니스 데이터 분석 실습 느낌(Feeling) : RNN이 뭔지 이제야 조금 알 거같고(?), 비즈니스 데이터 분석으로 pandas를 다시 복습하니까 좋았다. 교훈(Finding) : 인간은 계속 까먹으니까 계속 복습 정리하기!! RNN 시계열 데이터 분석 실습 공식문서 참고: https://www.tensorflow.org/tutorials/structured_data/time_series 시계열 데이터에서는 섞어서 나누지 않고 순서를 고려해서 나누게 된다. 자연어 텍스트를 시퀀스 인코딩 했던 것처럼 시계열 데이터에서도 순서가 중요하다. 예를 들어 지난 일년 간의 데이터를 통해 앞으로 일주일 간의 데이터를 예측한다고 했을 때 윈도우를 ..

STUDY/머신러닝 | 딥러닝

[study] BERT, GPT, GAN 개념 이해하기

자연어 처리 모델 참고 영상 https://www.youtube.com/watch?v=fTQRplbzI1o&t=89s GPT 데이터 플로우 단방향 두 단계로 나누어 학습 (비지도 학습 pre-training, fine tuning) 시퀀스 투 시퀀스 모델링에서의 디코더 Pre-training 단어들의 관계를 최대화 시키는 과정 뒤에 나올 단어의 확률을 최대화시킴 Fine-tuning: 학습 과정. task에 맞춰서 파라미터를 튜닝함. GPT의 구조 left to right 문장이 흘러가는 방향대로 attention GPT2, GPT3 BERT Bidirectional Encoder Representation from Transformers 단방향 학습하는 GPT와 다르게 데이터 플로우 양방향 GPT와 유..

STUDY/머신러닝 | 딥러닝

[부스트코스] RNN seq2seq

파이토치로 시작하는 딥러닝기초 출처: https://www.boostcourse.org/ai214 순환신경망(Recurrent Neural Network) Sequence-To-Sequence 시퀀스를 입력받아서 시퀀스를 출력 대표적인 사용처: 번역이나 챗봇 Encoder - Decoder 구조 인코더로 압축된 벡터를 디코더에 전달 스타트 플래그와 함께 모델 시작 아웃풋을 reply에 첫번째에 두고, 이 아웃풋이 다음으로 또 들어간다. -> 완전한 문장 생성 모든 문장을 들은 후에 답변을 생성한다 RNN 2개를 생성해서 중간을 연결한 형태 pytorch로 구현 가능 마지막 10줄의 코드가 전체 200줄 정도의 내용을 압축하고 있는 코드 이 예시는 번역 task를 수행하는 모델 source text (영문..

STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(3) 형태소 분석기 KoNLpy, 토크나이저 Tokenizer

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 형태소 분석 KoNLPy: 파이썬 한국어 NLP — KoNLPy documentation KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.6.0 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가 konlpy.org - 형태소 분석 전 문자 전처리 (map을 통해 일괄 적용 후 사용) # 정규표현식 import re def preprocessing(text): # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다. text = re.sub(..

STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(2) - 문자 전처리(정규표현식 등)

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 사용 데이터셋 출처: 뉴스 토픽 분류 AI 경진대회 - DACON KLUE Benchmark(https://klue-benchmark.com/) 문자 길이 세기 len 문장 길이 word_count 단어 수 unique_word_count 중복 제거 단어수 # apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기 # df["len"] = df["title"].map(lambda x: len(x)) df["len"] = df["title"].str.len() df["word_count"] = df["title"].map(lambda x : len(x.split())) # 형태소 분석기를 사용하면 단어의 수를 셀때..

STUDY/머신러닝 | 딥러닝

자연어처리(NLP) 정리(1) BOW, TF-IDF

해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. NLP 단어 벡터화하기 BOW(bag of words) 가장 간단하지만 효과적이라 널리쓰이는 말뭉치 방법 각 단어가 이 말뭉치에 몇 번 나타나는지 파악(출현 회수 카운트) BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. it's bad, not good at all. it's good, not bad at all. 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다. 이를 보완하기 위해 n-gram을 사용한다. (n-gram은 n개의 토큰을 사용한다.) CountVectorizer CountVectorizer 는 사이킷런에서 제공하는 bag of words 를 만들 수 있는 방법이다 (https://scik..

TIL/멋사_AI스쿨_TIL

221213 NLP 텍스트 전처리 + 데이터리안 세미나

회고 사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등) 느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다 교훈(Finding): 아직 할만할 때 복습 철저히 해놓기 국어 좋아하고 문정과 출신인 나한테는 CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다. 전반적인 내용은 한번에 공부방에 정리해봐야겠다 오늘의 키워드 TF/ DF 사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer() ***정규표현식(regular expression(regex)) word cloud concat -> merge(how, on) 불용어 (stop wo..

둥둥런
'분류 전체보기' 카테고리의 글 목록 (7 Page)