이런 데이터셋에서 '감동/감탄' 등 텍스트만 뽑기 위한 전처리 전체 데이터프레임의 컬럼들을 for문으로 돌면서 apply for col in emotion_df.columns: emotion_df[col] = emotion_df[col].apply(lambda x: x[1:-1].split(',')[0]) 정규표현식 적용하기 - '/'문자를 살리기위해 "\/" 추가 - progress_apply와 tqdm을 사용하면 진행도 표시 가능 import re def preprocessing(text): # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다. text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\/]', '', text) return text # tqdm 으로 전처리 진행 상태를 표시..
해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 중복제거하기 # 중복 데이터 중 첫번째 것만(keep='first') 봅니다. # keep은 중복 데이터 발견시에 어떤 데이터를 유지하고 제외할지 결정해주는 변수입니다. ('first', 'last','False'로 선택적 입력 가능) raw_valid[raw_valid.duplicated(keep='first')].sort_values(by=["InvoiceNo","StockCode"]) # 중복데이터 모두 출력(keep = False) 합니다. # raw_valid[raw_valid.duplicated(keep=False)].sort_values(by=["InvoiceNo","StockCode"]) # drop_dupli..
멋사 AI스쿨 special lecture by 강승일 강사님 실습 결과물 기록 위주의 정리. 1번 실습 My Average steps per day 대시보드 일간 걸음 수 추이 https://public.tableau.com/app/profile/younghyun.kim/viz/averagesteps_16687468181240/MyAnnualAverageSteps?publish=yes average steps average steps public.tableau.com 테이블계산함수 테이블 기준이다 방향이 다른 경우에는 편집 (예시 테이블 옆으로→ 테이블 아래로 등) 2번 실습 분산형 차트를 활용한 고객 분석 - 고객별 구매 정보 대시보드 분산형 차트의 점을 클릭하면 고객별 구매정보를 자세히 볼 수 있는..
12월 19일 TIL 코호트, 잔존률, RFM, 군집 분석, KPI 등 online retail data 실습 순서 EDA(리텐션) => RFM(segmentation)을 판다스로 구하고 => 군집화로 고객 세분화(segmentation) => 유사도를 통한 추천시스템 대시보드 샘플 참고하기!! [SaaS 비즈니스 대시보드 템플릿] - 방문자 수 (신규) - 월간 성장률 - 신규 회원가입 수 - 오거닉 - 유료 마케팅 - 방문자 중 회원가입한 사람 비율 - 유료고객 수 - 취소율(Churn rate) - 월간 반복매출(MRR) - 고객획득비용(CAC) --> 마케팅 비용 오거닉이란? 쉽게 이해하면, 비용을 쓰지 않고 알아서 우리 사이트에 방문한 이용자들 오가닉 트래픽(Organic Traffic)이란 광..