오늘의 회고 사실(Fact): 캐글 자전거 수요 예측 실습 느낌(Feeling): 데이터EDA로 꼼꼼하게 살펴보면서 이상한 데이터를 찾는 게 재밌었다. 로그 개념이 아직 완전히 이해하기 어렵지만 사용하는 이유는 알 것 같다 교훈(Finding): 오늘 수업 복습 철저히! 특히 RMSLE! Cross validation: 속도가 오래걸린다는 단점이 있기도 하지만 validation의 결과에 대한 신뢰가 중요할 때 사용한다. hold out validation: 한번만 나눠서 학습하고 검증하기 때문에 빠르다는 장점이 있다. 하지만 신뢰가 떨어지는 단점이 있다. 경진대회 참가할때 꼼꼼히 확인할 것 Data Fields (도메인 지식 있으면 좋음) evaluation 측정기준 무엇을 예측하는 문제인지 데이터 E..
피벗 테이블이란, 데이터를 요약한 통계표라고 볼 수 있으며, 기존 데이터를 활용해서 새로운 테이블을 만든 것을 말한다. 같은 목적의 기능이지만 쓰는 형태는 달라 쓰다보면 헷갈리는 판다스 문법 3가지를 한 번에 비교해보려고 한다. 1. 크로스탭 crosstab 주로 두 개의 변수의 빈도수 구할때 사용하기 쉽다. pd.crosstab(컬럼명1, 컬럼명2) # 두 개의 변수의데이터 빈도수 구하기 df_p = pd.crosstab(df["제주 중분류"], df["월"]) df_p.iloc[:5][:5] 2. 피벗테이블 pivot_table pd.pivot_table(data=df, index=컬럼1, , values=컬럼3) columns는 스킵 가능 df.pivot_table(index=["alive","cl..
복습Day 벌써 일주일이지나다니 정말 빠르다. 머신러닝도 벌써 2주차지만, 아직도 머신러닝이 낯설다. 예상과는 달리 머신러닝 자체는 이라는 간단한 단계로 이루어지지만 그 전 필수단계인 부터 까지에 필요한 개념이 어마어마하고, 정답이 있는 게 아니라서 더 어렵고, 모호하게 느껴지는 것 같다. 답은 캐글 필사인가.... 하지만 판다스도 낯설었지만 익숙해진 것처럼 반복하다보면 익숙해지겠지! 오늘 포스팅은 이번주에 공부한 여러 자료를 모아서 정리해보았다. Matplotlib 출처: 혼란한 Matplotlib에서 질서 찾기, 이제현 - PyCon Korea 2022 https://www.youtube.com/watch?v=ZTRKojTLE8M 안 예쁜 Matplotlib 그림을 예쁘게 → Seaborn 설정으로 ..
강승일 강사님께 태블로Tableau 첫 번째 특강을 들었다. 총 4회로 한달동안 수업을 듣게 되었다. Tableau Public 버전을 다운받아 실습에 활용했다. 식을 입력하는 부분에서 태블로가 시각화로 특화된 엑셀 같다는 느낌을 받았는데, 드래그와 같은 액션을 통해서 색 지정, 레이블 표시, 행 열 추가 등을 자유롭게 할 수 있다는 점에서 직관적이고, 재미있었다. 원본데이터를 연결해서 변화하는 데이터를 실시간으로 시각화에 반영시켜 대시보드를 꾸밀 수 있다는 점도 흥미로웠고, 강사님이 수업자료를 대시보드로 만들어 프레젠테이션처럼 활용하신 점도 인상 깊었다. 이래서 현업에서 태블로를 많이 활용하는 구나하고 단번에 이해할 수 있었다. 오늘은 테킷 인강을 통해 0. 태블릿 기초 활용법에 대해 학습했고 1. 출..
기계는 어떻게 생각하고 학습하는가 6인의 위대한 AI 석학이 조망하는 인공지능의 현재와 미래 한빛미디어 도서관에서 우연히 고른 책으로, 인공지능에 관해 그동안 대충 들어보기만 헀지 어떻게 머신러닝을 하고, 그 기술을 어떻게 사용할 수 있는 건지 원리에 대해 잘 몰랐는데, AI의 발전 과정에 대한 이해나 AI에 대한 새로운 관점을 가질 수 있게 되서 읽기 잘했다고 생각한다. 이 책을 통해서 인공지능에 대한 이해 없이 무분별하게 활용되는 것이 옳지 않은 이유 (ex. 윤리적 문제, 블랙박스 모델), 반대로 인공지능을 어떻게 사용해야 하는지(ex. 인간이 빠른 시간에 하기 힘든 결정들)에 대해 생각해볼 수 있었다. 그리고 이 책을 읽을 당시만해도 머신 러닝에 관해서 배우기 전이라 "아니, 머신러닝으로 학습하고..
오늘은 아주 오랜만에 인싸데이로 진행되서 오전엔 키워드 복습을 진행했다. 우리 조의 주제는 결정 트리(Decision Tree) 였고, 다른 조의 주제도 머신러닝 관련 주제라서 새롭게 알게된 내용을 정리해보려고 한다. 주제1. 결정트리 Decision Tree 결정트리란? 결정 트리는 분류와 회귀 문제에 널리 사용하는 모델이다. 결정 트리를 학습한다는 것은 정답에 가장 빨리 도달하는 예/아니오 질문 목록을 학습한다는 뜻이다. 트리를 만들 때 알고리즘은 가능한 모든 테스트에서 타깃 값에 대해 가장 많은 정보를 가진 것을 고른다. 일반적으로 트리 만들기를 모든 리프 노드가 순수 노드가 될 때까지 진행하면 모델이 매우 복잡해지고 훈련 데이터에 과대적합된다. 사진의 각 노드에 적힌 samples는 각 노드에 있..