STUDY/통계

[통계] 상관분석 | 피어슨 상관 계수

둥둥런 2023. 2. 7. 21:29

상관 분석

상관계수 Correlation coefficient

  • 두 변수의 연관성을 -1 부터 1 사이의 수치로 나타낸 것이다.
  • 두 변수의 연관성을 파악하기 위해 사용한다
  • 0일땐 두 변수가 독립, 1일땐 변수 간의 변화가 정확히 일치한다고 볼 수 있다.

기울기(a)

y = ax + b 라는 식에서

x가 1만큼 변할 때 y의 변화량을 나타낸다. -> 상관계수와는 다른 개념이다.

 

공분산 Covariance

  • 두 변수의 상관관계를 양과 음으로 판단
  • 두 변수의 편차를 곱한 것의 평균값 (x, y 변수가 같다면 분산과 같음)
  • 양의 상관 관계가 있을 땐 영수, 음의 상관관계가 있을땐 음수로 나타남

 

피어슨 적률 상관계수

  • 가장 대표적인 상관 계수
  • 공분산을 두 변수의 표준편차로 나눔

더 읽어보기: https://ko.wikipedia.org/wiki/피어슨_상관_계수

 

피어슨 상관 계수 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

(0일때 분포를 보면 상관계수가 낮다고 해서 관계가 없는 것은 아니다)

 

파이썬 상관 분석

import pingouin as pg
pg.corr(df.price, df.mileage)

r이 상관계수값

sns.scatterplot(x='mileage', y='price', data=df)

같은 두 변수의 관계를 산점도로 나타냈을때 그래프

상관분석의 통계적 가설검정

먼저 p값과 a값(유의수준, 보통 0.05)을 비교한 후, 

p < a 라면, 신뢰구간을 확인한다.

-~-라면 음의 상관관계

+~+라면 양의 상관관계

-~+라면 -,0,+ 모두 가능

 

상관계수의 크기는 여러 기준이 있으나 실제 의사결정에서는 상대적으로 비교하는 것이 바람직하다.

권장 기준 예시

낮음: ~ 0.1

중간: 0.1~0.5

높음: 0.5 ~

 

그 외 상관계수 종류

스피어만 상관계수 spearman

켄달 상관계수 kendall

상관관계와 인과관계 correlation vs causation

상관관계가 있다고 반드시 인과관계가 있는 것은 아니다.

- 제 3의 변인, 극단적인 이상치, 심슨의 역설 등의 이유


참고자료

멋쟁이사자처럼 AI스쿨 7기 유재명강사님 특강 자료

누워서 읽는 통계학 (한빛아카데미)