멋사 AI스쿨 7기 강승일 강사님 강의 저작권은 강사님께 있으며, 어떤 실습을 했는지 결과물 위주로 정리 작성하였습니다. 대시보드를 만드는 이유는 정보가 필요한 상대방을 위한 것이다. 보는 사람을 기준으로 만들어야 하고, 시야의 흐름을 고려해서 읽기 쉽게 만들어야 한다. 보는 사람의 환경(PC인지, 대형화면인지, 모바일인지 등)도 고려해야한다. 결과물1. 매출 대시보드 매개변수 매개변수와 계산된 필드는 항상 세트 매개변수 표시 필터 → 계산된 필드 (필터) → 참 체크 계산된 필드 만들기 IIF(조건, 참, 거짓) 예시) IIF([f.당월], [매출], NULL) 전월과 비교하는 계산된 필드 Datediff('month',[주문 일자],dateparse('yyyyMM',[p. year]+[p. month..
선형대수학 [선형대수학 강의] Essence of linear algebra (3b1b) : 시각적으로 잘 이해되는 직관적 설명. 선형대수학 큰 그림 파악에 좋은 가이드 강의. 미적분 [미적분 강의] Essence of calculus (3b1b) 미적분의 핵심이 되는 개념들을 시각적으로 직관적으로 이해할 수 있다. 머신러닝 책&강의 추천 출처_ https://www.philgineer.com/2020/10/awesome-machine-learning.html [책&강의] 직접 보고 추천하는 머신러닝 & 딥러닝 & 수학 총정리 (2022) 머신러닝 딥러닝 입문, 밑바닥부터 시작하는 딥러닝, 모두를 위한 딥러닝, 코세라 머신러닝, 파이썬 라이브러리를 활용한 머신러닝, 선형대수학 머신러닝, 딥러닝 선형대수학..
Gradient Boosting이란 1. Gradient 기울기(gradient) 경사하강법(Gradient Descent)의 목적은 손실함수(loss function)의 최적화(Optimization)이다. 최적화는 손실 함수를 최소화 하는 파라미터 조합을 구하는 과정을 말한다. 경사하강법이란 함수의 기울기를 이용해 x값을 어디로 옮겼을때 함수가 최소값을 찾는지 알아보는 방법으로, 반복적인 방법(iterative)으로 해를 구하면 효율적이기 때문에 사용한다 손실함수란? 머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수 대체로 이 값은 0에 가까울수록 모델의 정확도가 높고, 반대로 0에서 멀어질수록 모델의 정확도가 낮다. 손실함수의 결과값(오차)를 가장..
오늘의 회고 사실(Fact) : 그레디언트 부스팅 트리 모델 (GBT), 엑스트라 트리 모델, XG Boost 느낌(Feeling) : 관련 용어가 낯설어서 다시 어렵게 느껴졌다. XG Boost 관련 수업 시간이 짧아서 아쉽다 교훈(Finding) : 복습 시간에 꼼꼼히 읽어봐야겠다 Hold-Out-Validation cross-validation 을 사용하지 않고 hold-out-validation 사용 hold-out-validation이 속도가 더 빠르다는 장점이 있지만, 그 대신 신뢰도가 떨어짐 train 과 valid 로 데이터 분리 valid 를 만드는 이유는 제출 전 어느 정도의 스코어가 나올지 확인하기 위함 배깅vs부스팅 배깅은 훈련세트에서 중복을 허용해서 샘플링하여 여러개 모델을 훈련 ..
멋사 AI스쿨 main lecture by 박조은 강사님 회고 사실 Fact: 주택 데이터 실습 캐글 제출, 벤츠 데이터셋 실습 시작 느낌 Feeling: 피처엔지니어링의 다양한 방법을 학습하고 반복을 통해 꾹꾹 다지고 있는 것 같다 교훈 Finding: TIL 정리를 좀 더 성실하게 해서 지나간 내용은 찾기 쉽게 하자 수치데이터의 결측치를 0으로 채우면 안되는 값 -> 현실 세계를 바탕으로 고려하기 나이, 키, 몸무게, 혈당 수치, 인슐린 수치 등 주택 데이터에서 화장실 수, 2층면적, 지하면적, 주차장면적은 해당 시설이 없다면 0이 될 수 있음 로그 변환 수치형 데이터라도, 피처의 .nunique()를 확인해서 특정 숫자 이하의 빈도수를 가지고 있는 데이터는 범주형으로 간주 범주형 변수 보기 df.s..