상관 분석 상관계수 Correlation coefficient 두 변수의 연관성을 -1 부터 1 사이의 수치로 나타낸 것이다. 두 변수의 연관성을 파악하기 위해 사용한다 0일땐 두 변수가 독립, 1일땐 변수 간의 변화가 정확히 일치한다고 볼 수 있다. 기울기(a) y = ax + b 라는 식에서 x가 1만큼 변할 때 y의 변화량을 나타낸다. -> 상관계수와는 다른 개념이다. 공분산 Covariance 두 변수의 상관관계를 양과 음으로 판단 두 변수의 편차를 곱한 것의 평균값 (x, y 변수가 같다면 분산과 같음) 양의 상관 관계가 있을 땐 영수, 음의 상관관계가 있을땐 음수로 나타남 피어슨 적률 상관계수 가장 대표적인 상관 계수 공분산을 두 변수의 표준편차로 나눔 더 읽어보기: https://ko.wik..
통계적 가설검정 반증주의 철학에 기반하고 있는 통계적 검정 절차 초록 글씨의 출처는 도서 귀무가설 H0 (null hypothesis) - 검정하는 사람이 '옳지 않다'고 생각하는 가설 - 기각하고자 하는 가설 - 특별한 증거가 없으면 참으로 간주한다. 대립가설 H1 (alternative hypothesis) -검정하는 사람이 '옳다'라고 생각하는 가설 - 주장하고자 하는 가설 - 충분한 증거가 필요하다 통계적 가설 검정의 흐름 (1) 귀무 가설 H0이 옳다고 한다 (2) 데이터를 분석한다 (3) 얻은 결과에 대해 다음과 같이 생각한다. 1️⃣ 귀무가설 아래에서 이 데이터가 일어나기 어려운 것이라면 귀무가설이 비정상적이라고 하여 귀무 가설을 기각하고, 대립가설을 채택한다. 2️⃣ 귀무가설 아래에서 이 ..
오늘은 스페셜 강의로 기초 통계 용어 이해와 판다스 실습을 할 수 있는 날이었다. 통계 기초에 대해 목말라 있어서 재미있게 학습할 수 있었다. TIL에서는 어떤 내용을 다루었는지 간단히 정리하고, 자세히 공부하며 글을 써봐야겠다. 데이터 분석을 위한 통계 기초 t. 유재명 강사님 통계학 데이터 분석의 목적은 의사결정권자의 결정에 도움을 주기 위함이다. 통계 분석의 깊이를 더하기 위해선 데이터의 양과 질이 중요하다. 기업에서 데이터 분석을 할때, 분야별, 서비스 형태별로 데이터의 절대적인 양과 질은 차이날 수 있다. 통계학 용어는 어려우니, 상식을 버리고, 뜻을 짐작하지 말고 그냥 외우기! 범주형 변수 VS 연속형 변수 범주형 변수는 종류, 이름 등으로 수치 데이터의 경우 연산이 의미가 없다. 연속형 변수..