부트캠프를 통해 데이터를 공부하면서, 내 수준이 어느 정도인지 궁금했고,
다른 사람들은 어떻게 준비하고, 어떤 일을 하고 있는지 궁금해서 네트워킹 겸 참가했다.
행사는 [ 패널 토크(양승준 대표님) + 팀 빌딩 + 점심 식사 + 하트카운트를 활용한 EDA 프로젝트 + 발표 ] 순서로 진행되었다.
같은 팀원 분들이 다른 부트캠프 공부중이거나 공부하셨던 분, 기존의 회사를 다니면서 데이터 공부를 새롭게 시작하는 분 등
같은 관심사를 가지고 있어서 공부하면서 어려웠던 점이나 소소한 공감(머신러닝 모델 뭐 배웠는지...ㅋㅋㅋ),
DA/DE/DS 취업 준비에 대해 이야기 나눌 수 있어서 좋았다.
또한 한파의 날씨로 장소가 엄청 추웠는데, 그래도 운영진분들이 신경써서 따뜻한 커피도 채워주시고, 핫팩도 사다주시며 신경써주시는게 느껴져서 감사했다. 럭키드로우 이벤트도 진행했는데 1등 당첨되서 넘 기뻤다😆
오프닝 토크 (데이터분석)
데이터 분석가
- 데이터에서 찾은 패턴을 활용하는사람
- 의사결정을 위한 보고 위주(보고서 작성 등)
Full time VS Part time
→ 도메인 지식이 중요하고, 데이터 분석 허들이 낮아져서
실무자들이 데이터를 하게 된 사례가 많음 (part time 느낌)
→ 데이터 분석결과를 실행까지 함
데이터 사이언티스트는 모델링 위주
Analytics
→ 전공/비전공 구분 X
→ EDA면 족함
→ 충분한 EDA 이후에나 다양한 분석기법 적용
→ 도메인 지식이 중요할 수 있음
그러나 도메인에 상관없이 데이터의 모양은 똑같다
분석의 목적은 모두 → 회사의 비즈니스 지표를 개선하기 위함
분야 구분
통계 - 가설 검증, 일반화, 인과관계 파악 등
AI - Auto ML(모델의 성능, 예측정확도)가 이슈, 개인화, 추천
Analytics - 의사 결정, 실용적인 패턴 발견, 어떤 사실(현상)에 대한 원인 파악
→ 지금은 나눠져있지만 풀스택으로 가는 경향이 있으므로 다 알아놓는 것이 유리할 것.
일할 때 데이터 엔지니어, 사이언티스트에게 매번 부탁해야하는 것 쉽지않음, 구분이 모호해지고 있음
데이터 분석의 목적
데이터로 조직의 운명을 바꾸기 위해
운명: 운과 의사결정의 질
사람 → 데이터 → 인사이트 → 의사결정 → 결과 ( ← 운 )
좋은 의사결정 ≠ 좋은 결과
운이 영향을 미치고, 결과가 좋으면 과정이 좋아보이는 함정 있음
의사 결정 도구로서 Data-driven Decision
동일한 인풋데이터 동일한 아웃풋
↔
Gut decision: black box 설명할 수 없는 의사결정
의사 결정 과정에 사람의 판단력, 통찰력이 영향을 미침
Ad-hoc analysis = EDA = 분석가의 역할
→ 그때 그때의 질문에 대해 데이터를 보고 빠르게 정량적 답변을 찾는 일
(케바케이긴 하다 정량적 데이터만 뽑아달라 or 결론도 내려달라 등)
중요한 것
- 알 수 있는 걸 제때에 알아야 한다(1)
- 알 수 없는 것에 매달리지 말자(2)
1. Tidy data으로 만들 수 있는 능력
결과가 왜 나타났을까 wide dataset 확인
인사이트 발견, 문장 뽑아내기
(예시 - 22시에 40대 여성 TV주문 취소율이 40%로 높았다. fact) why, how는 해석의 영역이다
2. know when to finish
알 수 없는 것을 알려는 비용은 너무 크다
하트 카운트 소개
- 특징; 이유 발견
- HEARTCOUNT Public for EDA
- 데이터 구조 파악, 요약, 시각화, 가설 검증? (모델링은 X)
- 데이터 교육 목적, 실습 도구로 활용
→ 자동화기능이 많으므로 이거로 EDA를 해보고 파이썬으로 그래프 따라해보는 식으로 활용해도 좋을 듯 하다.
배운 점
EDA를 그동안 파이썬(판다스)로만 주로 했는데, “코드를 어떻게 짜야 원하는 그래프를 출력할까.”에만 집중을 하고,
어떤 변수를 독립, 종속으로 설정해서 확인 할지, 어떤 옵션을 설정할 지에 대한 고민이나 연습은 부족했다는 생각이 들었다.
하트카운트와 태블로 처럼 비전공자도 쉽게 데이터시각화를 할 수 있는 툴이 발달하고 있는 만큼,
데이터에서 어떤 내용을 뽑아내서 어떻게 효과적으로 보여줄 것인가를 더 고민해야겠다.
우리팀은 HR데이터를 정했는데, 어려웠던 점은 세운 가설과 다르게 데이터가 나타날때 해석이 어려웠던 것과, 데이터 정의서가 없을 때 시각화 결과를 해석하는데 의견 차이가 많이 발생헀다는 것이었다. 나중에 현업에서 데이터를 본다면, 캐글처럼 데이터 설명이 자세하지 않은 경우도 많을 테니, 데이터 그 자체를 파악하는 과정이 매우 중요하겠다는 생각이 들었다.
다른 분들의 결과물을 보면서도 많이 배웠는데, 의료비와 걸음수간의 통계적 가설 검정을 통해 의미있는 상관관계를 확인한 뒤,
나이대별 적정 걸음수를 달성하면 보상을 제공하는 정책을 제안한 팀도 인상깊었다. (국민 건강 증진, 의료비 감소 목적)
이번 실습을 통해서 데이터를 오래 붙잡고 고민해보는 동안 한 단계 성장한 것 같다.
그리고 앞으로 평소에 좀 더 연습해야겠다는 깨달음을 얻었다.
→ 슈퍼스토어 데이터를 이용해서 가설 세우고, eda로 검증하는 연습 해보기
-> 주장을 뒷받침하는 차트 만들기