TIL/멋사_AI스쿨_TIL

TIL/멋사_AI스쿨_TIL

[비즈니스 데이터 분석] 온라인 리테일 데이터 분석

12월 19일 TIL 코호트, 잔존률, RFM, 군집 분석, KPI 등 online retail data 실습 순서 EDA(리텐션) => RFM(segmentation)을 판다스로 구하고 => 군집화로 고객 세분화(segmentation) => 유사도를 통한 추천시스템 대시보드 샘플 참고하기!! [SaaS 비즈니스 대시보드 템플릿] - 방문자 수 (신규) - 월간 성장률 - 신규 회원가입 수 - 오거닉 - 유료 마케팅 - 방문자 중 회원가입한 사람 비율 - 유료고객 수 - 취소율(Churn rate) - 월간 반복매출(MRR) - 고객획득비용(CAC) --> 마케팅 비용 오거닉이란? 쉽게 이해하면, 비용을 쓰지 않고 알아서 우리 사이트에 방문한 이용자들 오가닉 트래픽(Organic Traffic)이란 광..

TIL/멋사_AI스쿨_TIL

TIL 12.19 RNN 시계열 데이터 실습

회고 사실(Fact) : RNN(시계열 데이터) 주가 분석 실습, 비즈니스 데이터 분석 실습 느낌(Feeling) : RNN이 뭔지 이제야 조금 알 거같고(?), 비즈니스 데이터 분석으로 pandas를 다시 복습하니까 좋았다. 교훈(Finding) : 인간은 계속 까먹으니까 계속 복습 정리하기!! RNN 시계열 데이터 분석 실습 공식문서 참고: https://www.tensorflow.org/tutorials/structured_data/time_series 시계열 데이터에서는 섞어서 나누지 않고 순서를 고려해서 나누게 된다. 자연어 텍스트를 시퀀스 인코딩 했던 것처럼 시계열 데이터에서도 순서가 중요하다. 예를 들어 지난 일년 간의 데이터를 통해 앞으로 일주일 간의 데이터를 예측한다고 했을 때 윈도우를 ..

TIL/멋사_AI스쿨_TIL

221213 NLP 텍스트 전처리 + 데이터리안 세미나

회고 사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등) 느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다 교훈(Finding): 아직 할만할 때 복습 철저히 해놓기 국어 좋아하고 문정과 출신인 나한테는 CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다. 전반적인 내용은 한번에 공부방에 정리해봐야겠다 오늘의 키워드 TF/ DF 사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer() ***정규표현식(regular expression(regex)) word cloud concat -> merge(how, on) 불용어 (stop wo..

TIL/멋사_AI스쿨_TIL

221207 AI스쿨 TIL 전이학습, 이미지전처리 없이 CNN

오늘의 회고 사실(Fact): CNN 날씨 이미지 학습, 전이학습 느낌(Feeling): 이제 실습 순서가 이해된다. 개별 코드는 아직 어려워서 미니프로젝트때 열심히 해야겠다 교훈(Finding): 복습, 과제 열심히 해보자! 멋사 AI스쿨 7기 박조은 강사님 전이학습(trasfer learning) pre-trained 된 모델을 가져다 사용하는 것. 기존 유명한 논문의 CNN 모델이 이미 TF, keras, PyTorch 등에 구현이 되어있다. 그래서 해당 모델을 직접 구현하지 않고 가져다 쓸 수 있는게 전이학습이다. 여기에서 미세조정 등을 해주게 되면 직접 모델을 구현했을 때에 조금 더 나은 성능을 내기도 한다. VGG16 API 공식문서 참고 tf.keras.applications.vgg16.VG..

TIL/멋사_AI스쿨_TIL

221206 AI스쿨 TIL CNN 이미지 전처리

오늘의 회고 사실(Fact): 꽃 이미지 분류 예제 학습, 이미지전처리(PIL, OpenCV), 말라리아 감염 이미지 데이터셋 실습 느낌(Feeling): 어제보다 복잡하게 느껴졌다. 미니프로젝트로 잘할 수 있을지 걱정되지만 파이팅! 교훈(Finding): 겁먹지 말고 계속 반복해보기 멋사 AI스쿨 7기 박조은 강사님 CNN 두번째 시간 TF 공식예제의 이미지 분류 튜토리얼 꽃 5가지 이미지를 학습하고 분류하는 예제 ['daisy', 'dandelion', 'roses', 'sunflowers', 'tulips'] -> 이미지 전처리 필요 이미지 전처리 도구 PIL OpenCV 참고하기 좋은 사이트 Python OpenCV 강좌 : 제 1강 - OpenCV 설치 OpenCV 076923.github.io..

TIL/멋사_AI스쿨_TIL

221205 AI스쿨 TIL CNN

사실(Fact): 딥러닝 CNN(합성곱 신경망) 예제(The CIFAR-10 dataset) 학습 느낌(Feeling): cnn explainer 홈페이지를 통해 시각적으로 확인할 수 있어서 이해도가 높아졌다. 개념이 확실하진 않지만 앞으로 실습해가면 조금 더 알 수 있을 거 같다. 교훈(Finding): 조금 더 성실하게 정리해보자 멋사 AI스쿨 7기 박조은 강사님 오늘 수업의 핵심: 합성곱 층을 만드는 것 CNN의 합성곱(Convolution)을 구성하는 핵심요소 필터(Filter) & 활성화함수(Activation Function) 레이어 미리보기 model = models.Sequential() model.add(layers.Conv2D(filters=32, kernel_size=(3, 3), a..

TIL/멋사_AI스쿨_TIL

221125 AI스쿨 TIL 코딩테스트 강의 (1주차)

멋사 AI School 7기 Special Lecture by 이호준 강사님(제주코딩베이스캠프) 9월에 스터디를 통해서 코딩테스트란 무엇인지 살짝 맛을 봤었는데, 재밌지만 안풀리는 문제를 만나니 코딩이 너무 어려운건 아닐지 두렵기도 했었다. 그 후로 약 두 달간 코드를 쓰는 것에 대해 조금 내공이 쌓이면서도, 데이터 EDA와 머신러닝에 집중하느라 파이썬 자체는 오히려 감을 좀 잃었었는데, 이번에 이호준 강사님 강의를 들으니 코딩 테스트라는게 완전 새롭게 다가왔다. 똑같이 어렵긴 하지만, 코테도 다른 시험처럼 노하우와 공식이 있는 거구나!! 한줄기 희망을 본 느낌?! 그리고 파이썬을 후다닥 배워서 map을 배워도 어떻게 써야할지, list를 알아도 어떻게 쓰는건지 잘 모르는 그런 상태였다가, 이번 강의를 ..

TIL/멋사_AI스쿨_TIL

221116 AI스쿨 TIL Benz 데이터셋 실습, GBT 트리계열 모델

오늘의 회고 사실(Fact) : 그레디언트 부스팅 트리 모델 (GBT), 엑스트라 트리 모델, XG Boost 느낌(Feeling) : 관련 용어가 낯설어서 다시 어렵게 느껴졌다. XG Boost 관련 수업 시간이 짧아서 아쉽다 교훈(Finding) : 복습 시간에 꼼꼼히 읽어봐야겠다 Hold-Out-Validation cross-validation 을 사용하지 않고 hold-out-validation 사용 hold-out-validation이 속도가 더 빠르다는 장점이 있지만, 그 대신 신뢰도가 떨어짐 train 과 valid 로 데이터 분리 valid 를 만드는 이유는 제출 전 어느 정도의 스코어가 나올지 확인하기 위함 배깅vs부스팅 배깅은 훈련세트에서 중복을 허용해서 샘플링하여 여러개 모델을 훈련 ..

TIL/멋사_AI스쿨_TIL

221115 AI스쿨 TIL House Price | Mercedes-Benz Greener Manufacturing

멋사 AI스쿨 main lecture by 박조은 강사님 회고 사실 Fact: 주택 데이터 실습 캐글 제출, 벤츠 데이터셋 실습 시작 느낌 Feeling: 피처엔지니어링의 다양한 방법을 학습하고 반복을 통해 꾹꾹 다지고 있는 것 같다 교훈 Finding: TIL 정리를 좀 더 성실하게 해서 지나간 내용은 찾기 쉽게 하자 수치데이터의 결측치를 0으로 채우면 안되는 값 -> 현실 세계를 바탕으로 고려하기 나이, 키, 몸무게, 혈당 수치, 인슐린 수치 등 주택 데이터에서 화장실 수, 2층면적, 지하면적, 주차장면적은 해당 시설이 없다면 0이 될 수 있음 로그 변환 수치형 데이터라도, 피처의 .nunique()를 확인해서 특정 숫자 이하의 빈도수를 가지고 있는 데이터는 범주형으로 간주 범주형 변수 보기 df.s..