27일차 멋사 AI스쿨 main lecture by 박조은 강사님
오전/오후엔 미드프로젝트 발표 및 회고로 2시간 정도 수업 진행하였다.
머신러닝 입문
머신러닝 프레임워크 캐글 설문조사 결과(2020)
- Scikit-learn
(가장 많이쓰임 / 주로 정형데이터에 많이 쓰임)
- Tensor Flow
- Keras
- xgboost
- Pytorch
- Caret 등등
캐글 설문조사 리포트는 트렌드를 파악하기 좋으므로 최신 것도 한번 읽어보기
프레임워크, 도구, 에디터, 알고리즘, Automated ML 등
2022 결과보기: https://www.kaggle.com/competitions/kaggle-survey-2022
프레임워크, 라이브러리 등 용어 참고: https://www.castingn.com/sourcing/kkultip_detail/110
ML Tools
scikit-learn
공식 페이지: https://scikit-learn.org/stable/index.html
사이킷런의 장점
- 간단하고 효율적으로 예측 데이터 분석 가능, 오픈소스
- 다른 많은 Python 라이브러리와 통합이 잘된다.
(Numpy, Pandas, Scipy, Matplotlib, plotly 등)
사이킷런의 단점
- 딥러닝 및 강화학습을 지원하지 않는다.
사이킷런으로 할 수 있는 6가지 일
<공식 문서 참고해서 좀 더 이해해보기>
1. 분류 Classification
Identifying which category an object belongs to.
Applications: Spam detection, image recognition.
지도학습 - 범주형 예측
2. 회귀 Regression
Predicting a continuous-valued attribute associated with an object.
Applications: Drug response, Stock prices.
지도학습 - 수치형 예측
3. 군집화 Clustering
Automatic grouping of similar objects into sets.
Applications: Customer segmentation, Grouping experiment outcomes
비지도학습 - 범주형 예측
분류와 군집의 차이점은? 지도학습-비지도학습 (미리 훈련을 시킨다, 안시킨다)
정답(label, 속성에 대한 정보) 없이 분류가 된다 -> 군집
4. 차원 축소 Dimensionality reduction
Reducing the number of random variables to consider.
Applications: Visualization, Increased efficiency
비지도학습 - 수치형 다룸
고차원 데이터를 차원을 축소해서 한눈에 볼수있게 해줍니다
어떻게 효율을 높일까 -> 속도 개선, 분석할 속성이 줄어든다(?)
5. 모델선택 및 평가 Model selection
Comparing, validating and choosing parameters and models.
Applications: Improved accuracy via parameter tuning
학습이 잘 된 최적의 모델을 고를때 사용
미리 지정되있는 디테일한 설정값 조절을 알고리즘에다가 시키는 것
ex. 마이크를 조절할때 어떤 옵션을 어떻게 조작해야 소리가 잘 나는 지 알고리즘이 알아서 해준다
6. 전처리 Preprocessing
Feature extraction and normalization.
Applications: Transforming input data such as text for use with machine learning algorithms.
Feature extraction and normalization.
Normalization 정규화 (0~1, 전체합이 1이 되게 변환)
User-Guide: https://scikit-learn.org/stable/user_guide.html
- Supervised learning
- Unsupervised learning
다른 도구들
- XGBoost (gradient boosting machine)
- LightGBM
- Catboost
- 파이캐럿(PyCaret)
- PROPHET
- H2O
DL Tools
파이토치가 텐서플로우를 이겼다?!
참고: http://www.aitimes.com/news/articleView.html?idxno=132756
- 파이토치는 페이스북이 개발한 프레임워크
- 실제 비즈니스에서는 텐서플로우 많이 사용된다
- 케라스: 한번 추상화된 라이브러리
-> 파이토치와 텐서플로우가 양대산맥이다
설명가능한 인공지능(XAI: Explainable Artificial Inteligence)
기존 ai 블랙박스 문제 해결
도구: Yellow brick, 순열중요도(permutation), ELI5(= explain like i'm 5) 등
더 많은 내용 슬라이드 참고 (일단 이런것도 있다 정도로 알고있기)
머신러닝 기초
사이킷-런 치트시트
오늘의 회고
사실(Fact): 미드프로젝트 발표 & 머신러닝 기초 학습
느낌(Feeling): 미드프로젝트가 잘 마무리되서 기뻤다. 머신러닝 용어가 무슨뜻인지 이해하기가 어려워서 막막했다.
교훈(Finding): 이번주에 머신러닝 관련 자료, 영상을 많이 읽어봐야겠다