사용 데이터셋 https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce Brazilian E-Commerce Public Dataset by Olist 100,000 Orders with product, customer and reviews info www.kaggle.com 참고 블로그 https://velog.io/@heezeo/Olist-%EC%9E%AC%EA%B5%AC%EB%A7%A4-%EC%9C%A0%EB%8F%84%EA%B0%80-%EC%9E%98-%EC%95%88%EB%90%98%EB%84%A4%EC%9A%94 Olist, 재구매 유도가 잘 안 되네요? 데이터는 캐글의 데이터를 활용해보았다. Brazilian E-Commerce Olist의 ..
이런 데이터셋에서 '감동/감탄' 등 텍스트만 뽑기 위한 전처리 전체 데이터프레임의 컬럼들을 for문으로 돌면서 apply for col in emotion_df.columns: emotion_df[col] = emotion_df[col].apply(lambda x: x[1:-1].split(',')[0]) 정규표현식 적용하기 - '/'문자를 살리기위해 "\/" 추가 - progress_apply와 tqdm을 사용하면 진행도 표시 가능 import re def preprocessing(text): # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다. text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\/]', '', text) return text # tqdm 으로 전처리 진행 상태를 표시..
해당 내용은 멋쟁이사자처럼 AI School 오늘코드 박조은 강사의 자료입니다. 중복제거하기 # 중복 데이터 중 첫번째 것만(keep='first') 봅니다. # keep은 중복 데이터 발견시에 어떤 데이터를 유지하고 제외할지 결정해주는 변수입니다. ('first', 'last','False'로 선택적 입력 가능) raw_valid[raw_valid.duplicated(keep='first')].sort_values(by=["InvoiceNo","StockCode"]) # 중복데이터 모두 출력(keep = False) 합니다. # raw_valid[raw_valid.duplicated(keep=False)].sort_values(by=["InvoiceNo","StockCode"]) # drop_dupli..
멋사 AI스쿨 special lecture by 강승일 강사님 실습 결과물 기록 위주의 정리. 1번 실습 My Average steps per day 대시보드 일간 걸음 수 추이 https://public.tableau.com/app/profile/younghyun.kim/viz/averagesteps_16687468181240/MyAnnualAverageSteps?publish=yes average steps average steps public.tableau.com 테이블계산함수 테이블 기준이다 방향이 다른 경우에는 편집 (예시 테이블 옆으로→ 테이블 아래로 등) 2번 실습 분산형 차트를 활용한 고객 분석 - 고객별 구매 정보 대시보드 분산형 차트의 점을 클릭하면 고객별 구매정보를 자세히 볼 수 있는..