til

TIL/멋사_AI스쿨_TIL

221025 AI스쿨 TIL 머신러닝: 분류

28일차 멋사 AI스쿨 main lecture by 박조은 강사님 오늘의 회고 사실(Fact): 머신러닝 결정트리학습법, 당뇨병 예측 실습 느낌(Feeling): 어제보다는 지도학습, 비지도학습에 대해 이해가 되는데, 지니불순도나 엔트로피 같은 용어가 단번에 이해하기 어려웠다 교훈(Finding): 오늘 과제를 해결하면서 복습하고, 유튜브 영상을 많이 참고해야겠다. +) 그리고 TIL 쓰는 스타일을 바꿔보려고 하는데 좀 어렵다 자세한 내용보단 뭘배웠는지 위주로 적고, 자세한 내용은 스스로 실습을 하면서 정리하면 좋을 거같다. 머신러닝을 통한 현실세계의 문제 해결 1. 지도학습 VS 비지도학습 (정답 == label == target) 있으면 지도학습, 없으면 비지도 학습 2. 지도 학습이라면, 그 중에서..

TIL/멋사_AI스쿨_TIL

221024 AI스쿨 TIL 머신러닝 첫시간

27일차 멋사 AI스쿨 main lecture by 박조은 강사님 오전/오후엔 미드프로젝트 발표 및 회고로 2시간 정도 수업 진행하였다. 머신러닝 입문 머신러닝 프레임워크 캐글 설문조사 결과(2020) - Scikit-learn (가장 많이쓰임 / 주로 정형데이터에 많이 쓰임) - Tensor Flow - Keras - xgboost - Pytorch - Caret 등등 캐글 설문조사 리포트는 트렌드를 파악하기 좋으므로 최신 것도 한번 읽어보기 프레임워크, 도구, 에디터, 알고리즘, Automated ML 등 2022 결과보기: https://www.kaggle.com/competitions/kaggle-survey-2022 프레임워크, 라이브러리 등 용어 참고: https://www.castingn.c..

TIL/멋사_AI스쿨_TIL

221019-24 AI스쿨 TIL 미드프로젝트 기간 중 회고

221019 수요일 (첫날) 서울시 상권 분석이라는 주제를 정하고 본격적으로 전처리 하기 시작했다. 머릿속에 그리는 것을 시각화하기 위해 오랜만에 피그마를 다시 사용했다. 확실히 시각적인 결과물을 팀원들과 공유하고 소통하니, 각자 좀 더 어떤 과업을 수행해야하는지 명확하게 보였다. 전처리 과정에서 막연했던 것을 화면 공유를 통해 라이브 코딩을 하니까 비교적 빠르게 해결되었다! 역시 시각화가 어려웠는데 다양한 사례를 참고해봐야겠다 #데이터_전처리 #데이터_시각화 #데이터_EDA 221020 목요일 (둘째날) 수업을 들을때와 실제로 무언가를 만들때의 커다란 차이를 느꼈다. 프로젝트 시간의 50%는 구글링하느라 시간 다쓰고, 직접 코드 짜는 거 10%, 복붙 10초, 다듬는데 50000만초, 머리싸매기 30%..

TIL/멋사_AI스쿨_TIL

221017 AI스쿨 TIL downcast, parquet

22일차 멋사 AI스쿨 main lecture by 박조은 강사님 오늘의 키워드는 절약 1) 메모리절약 => downcast, 2) 스토리지 절약(디스크공간) => parquet Downcast 실습 먼저 자료형에 대해 자세히 알아보았다. int64와 int32의 차이, uint, float 등 같은 숫자 자료형 안에서도 정수형인지 실수형인지만 구분할 뿐만 아니라, 표현할 수 있는 범위가 다르다. 예를 들어 어떤 일련번호의 원래 데이터형은 int64이고, 최소값은 666668, 최대값은 999987 이고 앞으로 음수는 사용하지 않는다고 가정할 때 어떤 데이터 타입을 사용하면 적절할까? -> unit32가 적절하다. 데이터의 범위(int64, uint32 등)에 따라 메모리에서 차지하는 용량이 다르다. 현..

TIL/멋사_AI스쿨_TIL

221013 AI스쿨 TIL 의약품처방정보 EDA

20일차 멋사 AI스쿨 main lecture by 박조은 강사님 Seaborn 복습 https://seaborn.pydata.org/tutorial.html relplot, displot, catplot 큰 범주는 외우기! 한글폰트 적용 설정 import koreanize_matplotlib # 그래프에 retina display 적용 %config InlineBackend.figure_format = 'retina' # 제대로 적용 되었는지 확인해보기 pd.Series([1,-1]).plot(title="한글") 의약품 처방데이터 분석 (100만명의 데이터 중 33만명 파일 활용) csv 파일 위치 찾아서 불러오기 (glob) from glob import glob # glob("data/HP_*.c..

TIL/멋사_AI스쿨_TIL

221012 AI스쿨 TIL 아파트 분양가 EDA

19일차 멋사 AI스쿨 main lecture by 박조은 강사님 EDA 실습 전국 신규 민간 아파트 분양가 데이터 분석 (전혀 다른 형태의 데이터 합치기) 통계청 KOSIS 데이터 분석 (깔끔한 데이터의 이해와 국가통계포털 이용법) 전국 신규 민간 아파트 분양가 데이터 분석 melt (열에 있는 데이터를 행으로 녹이기) id_vars = 에 지정하는 값은 녹이지 않고 남길 컬럼 지정 https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-by-melt # 아래 두 개는 같은 결과 # df.melt(id_vars="지역") df_melt = pd.melt(df, id_vars="지역") 데이터를 녹인 다음엔 variable, value 컬럼..

TIL/멋사_AI스쿨_TIL

221011 AI스쿨 TIL Tidy data

18일차 멋사 AI스쿨 main lecture by 박조은 강사님 - 서울시 코로나 확진자 데이터 분석 실습 마무리 - 분석하기 좋은 데이터란 (Tidy Data) - 아파트 분양가 데이터 분석 실습 시작 describe(include = ‘object’) count 결측치를 제거한 빈도수 unique 중복값을 제거한 유일값 top 최빈값 freq 최빈값의 빈도수 replace 메서드 - 데이터 프레임, 시리즈에 모두 사용 - replace는 완전히 일치해야 적용 → regex=True를 통해 일부만 가능하게 바꿀 수 있다. str.replace - 시리즈에만 사용가능 - str.replace는 해당 텍스트만 포함되면 바뀌게 된다 - str.contains도 시리즈에만 사용가능 (str이 series a..

STUDY/통계

221007 AI스쿨 TIL (17일차) 데이터 분석을 위한 통계 기초

오늘은 스페셜 강의로 기초 통계 용어 이해와 판다스 실습을 할 수 있는 날이었다. 통계 기초에 대해 목말라 있어서 재미있게 학습할 수 있었다. TIL에서는 어떤 내용을 다루었는지 간단히 정리하고, 자세히 공부하며 글을 써봐야겠다. 데이터 분석을 위한 통계 기초 t. 유재명 강사님 통계학 데이터 분석의 목적은 의사결정권자의 결정에 도움을 주기 위함이다. 통계 분석의 깊이를 더하기 위해선 데이터의 양과 질이 중요하다. 기업에서 데이터 분석을 할때, 분야별, 서비스 형태별로 데이터의 절대적인 양과 질은 차이날 수 있다. 통계학 용어는 어려우니, 상식을 버리고, 뜻을 짐작하지 말고 그냥 외우기! 범주형 변수 VS 연속형 변수 범주형 변수는 종류, 이름 등으로 수치 데이터의 경우 연산이 의미가 없다. 연속형 변수..

TIL/멋사_AI스쿨_TIL

221006 AI스쿨 TIL 코로나 확진자 수 분석

오늘의 회고 사실(Fact) : Plotly 마무리, 판다스 문법 & 시각화 실습 (코로나 확진자 공공데이터) 느낌(Feeling) : 판다스 문법을 복습해서 좋았고, 배울 수록 유용해보여서 더 잘하고싶다. 교훈(Finding) : 이번주 수업 복습 꼼꼼히! 블로그 TIL 밀린 것 잘 정리해보자! 중복확인, 제거 duplicated() drop_duplicates() 유니크값의 개수(nuniqur) .nunique() 유니크(unique) df["퇴원현황"].unique() #unique값에는 nan(결측치)은 포함되지 않는다 unique()는 serise에만 사용 가능하고 nunique()는 dataframe, series에 모두 사용 가능 인덱스 설정, 정렬하기 - set_index → 인덱스로 지정..

둥둥런
'til' 태그의 글 목록 (3 Page)