지도학습
독립변수 x를 이용해서 종속변수 y를 예측하는 것
- 독립변수 (x): 예측에 바탕이 되는 정보, 인과관계의 원인, 입력값
- 종속변수 (y): 예측의 대상, 인과관계의 결과, 출력값
지도학습의 구분
- 회귀분석 Regression
- 분류분석 Classification
선형 모형
회귀 방정식
𝑦̂ = 𝑤𝑥 + 𝑏
- 𝑦̂: y값의 예측치
- 𝑥: 독립변수
- 𝑤: 기울기 또는 가중치
- 𝑏: y절편 x=0일때. y의 예측치
잔차 residual
- 𝑦̂와 y의 차이 (실제값과 예측값의 차이)
- 잔차를 그대로 더하면 부호로 인해 값이 작아지므로, 제곱합의 평균을 계산하게 됨 -> 잔차분산
- 잔차 분산이 작을 수록 예측이 잘 맞는다.
최소제곱법 Ordinary Least Squares
최소제곱법: 잔차분산이 최소가 되게 하는 w,b 등 계수를 추정
결정계수(R2)
이미지출처_https://www.scribbr.com/statistics/coefficient-of-determination/
결정계수는 회귀분석의 정밀도를 나타냅니다.
파이썬 회귀분석
# 가져오기
from statsmodels.formula.api import ols
# 분석
m = ols("price ~ mileage", data=df).fit()
# 결과
m.summary()
#범주가 2개인 경우
ols('price ~ model', df).fit().summary()
다중회귀분석
- 독립변수 2개 이상인 회귀분석
- 기호 +로 변수를 구분해서 표시
m = ols("rating ~ marriage + overtime", data = hr).fit()
m.summary()
출처
멋쟁이사자처럼 AI스쿨 7기 유재명강사님 특강 자료
누워서 읽는 통계학 (한빛아카데미)