분류 전체보기

STUDY/머신러닝 | 딥러닝

Gradient Boosting 모델 비교 (XGBoost, LightGBM, Catboost)

Gradient Boosting이란 1. Gradient 기울기(gradient) 경사하강법(Gradient Descent)의 목적은 손실함수(loss function)의 최적화(Optimization)이다. 최적화는 손실 함수를 최소화 하는 파라미터 조합을 구하는 과정을 말한다. 경사하강법이란 함수의 기울기를 이용해 x값을 어디로 옮겼을때 함수가 최소값을 찾는지 알아보는 방법으로, 반복적인 방법(iterative)으로 해를 구하면 효율적이기 때문에 사용한다 손실함수란? 머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수 대체로 이 값은 0에 가까울수록 모델의 정확도가 높고, 반대로 0에서 멀어질수록 모델의 정확도가 낮다. 손실함수의 결과값(오차)를 가장..

TIL/멋사_AI스쿨_TIL

221116 AI스쿨 TIL Benz 데이터셋 실습, GBT 트리계열 모델

오늘의 회고 사실(Fact) : 그레디언트 부스팅 트리 모델 (GBT), 엑스트라 트리 모델, XG Boost 느낌(Feeling) : 관련 용어가 낯설어서 다시 어렵게 느껴졌다. XG Boost 관련 수업 시간이 짧아서 아쉽다 교훈(Finding) : 복습 시간에 꼼꼼히 읽어봐야겠다 Hold-Out-Validation cross-validation 을 사용하지 않고 hold-out-validation 사용 hold-out-validation이 속도가 더 빠르다는 장점이 있지만, 그 대신 신뢰도가 떨어짐 train 과 valid 로 데이터 분리 valid 를 만드는 이유는 제출 전 어느 정도의 스코어가 나올지 확인하기 위함 배깅vs부스팅 배깅은 훈련세트에서 중복을 허용해서 샘플링하여 여러개 모델을 훈련 ..

TIL/멋사_AI스쿨_TIL

221115 AI스쿨 TIL House Price | Mercedes-Benz Greener Manufacturing

멋사 AI스쿨 main lecture by 박조은 강사님 회고 사실 Fact: 주택 데이터 실습 캐글 제출, 벤츠 데이터셋 실습 시작 느낌 Feeling: 피처엔지니어링의 다양한 방법을 학습하고 반복을 통해 꾹꾹 다지고 있는 것 같다 교훈 Finding: TIL 정리를 좀 더 성실하게 해서 지나간 내용은 찾기 쉽게 하자 수치데이터의 결측치를 0으로 채우면 안되는 값 -> 현실 세계를 바탕으로 고려하기 나이, 키, 몸무게, 혈당 수치, 인슐린 수치 등 주택 데이터에서 화장실 수, 2층면적, 지하면적, 주차장면적은 해당 시설이 없다면 0이 될 수 있음 로그 변환 수치형 데이터라도, 피처의 .nunique()를 확인해서 특정 숫자 이하의 빈도수를 가지고 있는 데이터는 범주형으로 간주 범주형 변수 보기 df.s..

TIL

221113 TIL 일요일

과제 - Diamons EDA practice ploty 연습 - House EDA tutorial 필사 자습 - 프로그래머스 1문제에서 멘탈 탈탈 털리고 (옹알이(1) 난이도 lv.0 맞아?) 다른 정답률 높은 문제로 치유 - 인프런 SQL 인강 프로젝트1 수강

회고

8주차 후기: 이주의 멋쟁이 선정!

멋사에서는 매주 설문 조사로 칭찬해주고 싶은 동기를 뽑는다. 라는 제도가 있다는 걸 알고부터 수업 기간 중 한 번은 선정되보자고 목표를 세웠고 최대한 적극적으로 참여하려고 노력했는데 예상도 못한 때에 진짜로 선정되서 넘넘 기뻤다 저번주따라 발표도 있고 새로운 팀 팀장을 하면서 좋게 봐주었던 팀원들 덕분인 것 같다. 셀프 칭찬 고고!! 머신러닝을 배우는 단계로 넘어가고, 관련 Job description을 보면서 점점 통계와 수학의 중요성과, AI 관련 석사의 필요성이 보이고 있다. 지금이야 경험해보는 게 목표니까 괜찮지만 진지하게 이쪽 길로 나가려면 어느정도 추가적인 공부는 필수인 듯하다. 그러면서 나의 진로도 데이터 엔지니어보단 SQL, 태블로를 주로 활용하는 데이터 분석가 쪽으로 준비해보려고 하는데 ..

STUDY/태블로

221104 AI스쿨 TIL (35일차) 태블로 대시보드

멋쟁이사자처럼 AI스쿨 7기 Special Lecture by 강승일 강사님 오늘 한 내용 - 오전 테킷 인강 - 오후 실습 1. NIKE Revenue 2. 코로나 데이터 관계 설정 및 테이블 시각화 3. 매개 변수 활용하기 4. 스타벅스 매장데이터 맵 시각화 (이후 일정이 있어 조퇴로 못들었당) 배운 내용 간단 기록하기 누르면 각 지역을 더 자세히 볼 수 있는 지도 대시보드 만들기 맵차트를 3개 만들어서 필터 동작을 통해 선택된 곳만 나오게 만들었다 맵 차트는 맵-> 백그라운드 레이어를 통해 배경을 제거해 주었다. 영역차트 영역 차트 구분을 위한 그룹 만들기 색상에 고객 추가, 레이블 추가, 정렬 계층 만들기 계층을 바탕으로 상세 정보까지 접근하는 예시 이 항목만 유지 선택 시각화를 통해 어떤 데이터..

STUDY/태블로

태블로 기초

멋쟁이사자처럼 AI스쿨 7기 Special Lecture by 강승일 강사님 강의 저작권은 강사님께 있으며, 포스팅에는 일부 내용만 담고 있습니다. 태블로 설치: Tableau Public [데이터 타입] 아이콘 눌러서 다른 타입으로 변경 가능 #: 숫자 Abc: 문자 달력그림: 날짜 [필드명 변경] 더블클릭 또는 세모 옵션 세모 옵션: 사용하지 않을 필드 숨기기 가능 [필터 추가] 오른쪽 상단 닐짜 - Null이 아닌 날짜 [피벗 테이블] [데이터 해석기 사용] 널 값이 왜 나타나는지 보기 1. 원본 데이터에서 셀 병합이 되어있는 경우: 상단행에 null값이 나타날 수 있다 2. 필드명이 4번째 행에 위치한다 → 이럴때 데이터 해석기를 사용 [차원 VS 측정값] 차원: 그 숫자들로 만들어진 차트를 어떻..

STUDY/Pandas

[Pandas] 수치 변수 그룹 나누기

이산화 pd.cut() VS pd.qcut() bins == 그룹 개수 q == quantile # SalePrice - cut, qcut train["SalePrice_cut"] = pd.cut(train["SalePrice"], bins=4, labels=[1,2,3,4]) # q == quantile train["SalePrice_qcut"] = pd.qcut(train["SalePrice"], q=4, labels=[1,2,3,4]) 차이 알아보기 # "SalePrice_cut", "SalePrice_qcut" - value_counts display(train["SalePrice_cut"].value_counts()) display(train["SalePrice_qcut"].value_count..

TIL/멋사_AI스쿨_TIL

221108 AI스쿨 TIL 머신러닝: 주택가격 예측

오늘의 회고 사실(Fact) : bike 실습 마무리, 주택가격 예측실습 (피처엔지니어링 연습) 느낌(Feeling) : 지수 로그도 반복하다보니 익숙해진다. 당뇨병이나 타이타닉보다 배경지식이 덜 필요한 bike데이터로 여러번 실습하다보니 피처 선택 이해가 좀 더 잘 되었다. 교훈(Finding) : 지금은 수업 복습만이라도 제대로 하는 것이 제일 좋은 공부인 것 같다. dt.accessor 요일 변환 실습 : 의약품 처방 내역, 코로나 분석 참고 train["year"] = train["datetime"].dt.year train["month"] = train["datetime"].dt.month train["day"] = train["datetime"].dt.day train["hour"] = tra..

둥둥런
'분류 전체보기' 카테고리의 글 목록 (10 Page)