상관 분석
상관계수 Correlation coefficient
- 두 변수의 연관성을 -1 부터 1 사이의 수치로 나타낸 것이다.
- 두 변수의 연관성을 파악하기 위해 사용한다
- 0일땐 두 변수가 독립, 1일땐 변수 간의 변화가 정확히 일치한다고 볼 수 있다.
기울기(a)
y = ax + b 라는 식에서
x가 1만큼 변할 때 y의 변화량을 나타낸다. -> 상관계수와는 다른 개념이다.
공분산 Covariance
- 두 변수의 상관관계를 양과 음으로 판단
- 두 변수의 편차를 곱한 것의 평균값 (x, y 변수가 같다면 분산과 같음)
- 양의 상관 관계가 있을 땐 영수, 음의 상관관계가 있을땐 음수로 나타남
피어슨 적률 상관계수
- 가장 대표적인 상관 계수
- 공분산을 두 변수의 표준편차로 나눔
더 읽어보기: https://ko.wikipedia.org/wiki/피어슨_상관_계수
(0일때 분포를 보면 상관계수가 낮다고 해서 관계가 없는 것은 아니다)
파이썬 상관 분석
import pingouin as pg
pg.corr(df.price, df.mileage)
sns.scatterplot(x='mileage', y='price', data=df)
상관분석의 통계적 가설검정
먼저 p값과 a값(유의수준, 보통 0.05)을 비교한 후,
p < a 라면, 신뢰구간을 확인한다.
-~-라면 음의 상관관계
+~+라면 양의 상관관계
-~+라면 -,0,+ 모두 가능
상관계수의 크기는 여러 기준이 있으나 실제 의사결정에서는 상대적으로 비교하는 것이 바람직하다.
권장 기준 예시
낮음: ~ 0.1
중간: 0.1~0.5
높음: 0.5 ~
그 외 상관계수 종류
스피어만 상관계수 spearman
켄달 상관계수 kendall
상관관계와 인과관계 correlation vs causation
상관관계가 있다고 반드시 인과관계가 있는 것은 아니다.
- 제 3의 변인, 극단적인 이상치, 심슨의 역설 등의 이유
참고자료
멋쟁이사자처럼 AI스쿨 7기 유재명강사님 특강 자료
누워서 읽는 통계학 (한빛아카데미)