오늘은 스페셜 강의로 기초 통계 용어 이해와 판다스 실습을 할 수 있는 날이었다.
통계 기초에 대해 목말라 있어서 재미있게 학습할 수 있었다.
TIL에서는 어떤 내용을 다루었는지 간단히 정리하고, 자세히 공부하며 글을 써봐야겠다.
데이터 분석을 위한 통계 기초
t. 유재명 강사님
통계학
데이터 분석의 목적은 의사결정권자의 결정에 도움을 주기 위함이다.
통계 분석의 깊이를 더하기 위해선 데이터의 양과 질이 중요하다.
기업에서 데이터 분석을 할때, 분야별, 서비스 형태별로 데이터의 절대적인 양과 질은 차이날 수 있다.
통계학 용어는 어려우니, 상식을 버리고, 뜻을 짐작하지 말고 그냥 외우기!
범주형 변수 VS 연속형 변수
범주형 변수는 종류, 이름 등으로 수치 데이터의 경우 연산이 의미가 없다.
연속형 변수는 일반적인 숫자 데이터를 생각하면된다. 연산이 의미가 있다.
두 구분이 애매하다면 평균을 내었을때 그것이 의미가 있는 지 생각하기.
예) 성별 구분 남자1, 여자2 평균 1.5 -> 의미 없음 / 자녀수 평균 1.5명 -> 의미 있음
통계 분석 도구로 '엑셀'을 활용하지 않는 이유
- 열 수 있는 데이터 크기의 한계 (영국 코로나 확진자 16000명 누락 사례)
- 복잡한 계산에 한계
- 쓸 수 있는 함수가 제한적
-> 그래서 보통 R, Python을 주로 사용한다.
기술통계 (descriptive statistics)
중심경향치
평균: 극단값에 영향을 크게 받음 -> 노스캐롤라니아 대학 졸업생 초봉 1위는 지리학과, 마이클조던 때문
중앙값(median): 크기 순으로 정렬했을때 중간에 위치한 값 = 중위수
최빈값(mode): 가장 많이 관찰된 값, 연속형 변수의 경우엔 구간을 나눠서 최빈값을 구하는 경우가 많음
분위수(quantile): 정렬된 데이터를 q개로 나누는 위치의 값 (사분위수-quartile, 백분위수-percentile)
# 25퍼센트값
df.컬럼명.quantile(0.25)
사분위간 범위 IQR (InterQuartile Range): Q3-Q1 / 주로 상자수염그림(boxplot)으로 시각화
편차(deviation): 값 - 평균
분산(variance): 편차 제곱의 평균 / 제곱은 부호를 제거하는 효과 / 크기가 커지므로, 표준편차를 많이 사용
#분산 .var()
#표준편차 .std()
모집단과 표본
모집단 population: 연구의 관심이 되는 집단 전체
표본 sample: 선택된 모집단의 부분 집단
우리가 분석하는 데이터셋 전체가 표본이라고 생각하면 쉽다. 모집단은 관찰하기도 어렵고, 데이터를 수집하기도 어렵다
모수 population parameter 모집단의 특성을 나타내는 값 ex) 모평균, 모분산
<분모나 전체 인원 수처럼 쓰이는 사례는 잘못된 사용이다./ 반면 모수 개혁은 옳은 활용>
통계량 sample statistic (= 통계치): 표본에서 얻은 수로 계산한 값 (a.k.a 표본수)
표집: 모집단에서 표본 추출하는 절차
추정 estimation
통계량으로부터 모수를 추측하는 절차 (점 추정, 구간 추정)
신뢰 구간 confidence interval
대표적인 구간 추정 방법, 신뢰라는 단어에 갇혀서 생각하지 말자.
신뢰구간 = 통계량+- 오차범위
95%, 99% 신뢰구간 주로 활용
신뢰수준이 높다면 많은 표본을 포함하고, 오차범위는 더 넓어져서 얻을 수 있는 정보는 적다
예를 들어 배달음식이 30분+-1시간안에 도착한다고 하는 상황 생각해보기
-> 정확히 언제 도착할지 예측할 수 없다.
신뢰구간이 좁을 수록 유용한 정보/ 표본의 크기를 키우는 것이 가장 쉬운 방법이다.
# pingouin 활용
import pingouin as pg
pg.ttest(df.column1, 0, confidence = 0.95)
추가로 통계적 가설검정, 상관 계수, 회귀분석에 관해 이론을 학습하고
파이썬으로 실습했다. 공부방에 자세히 정리해야 겠다!