오늘의 회고 사실(Fact): 꽃 이미지 분류 예제 학습, 이미지전처리(PIL, OpenCV), 말라리아 감염 이미지 데이터셋 실습 느낌(Feeling): 어제보다 복잡하게 느껴졌다. 미니프로젝트로 잘할 수 있을지 걱정되지만 파이팅! 교훈(Finding): 겁먹지 말고 계속 반복해보기 멋사 AI스쿨 7기 박조은 강사님 CNN 두번째 시간 TF 공식예제의 이미지 분류 튜토리얼 꽃 5가지 이미지를 학습하고 분류하는 예제 ['daisy', 'dandelion', 'roses', 'sunflowers', 'tulips'] -> 이미지 전처리 필요 이미지 전처리 도구 PIL OpenCV 참고하기 좋은 사이트 Python OpenCV 강좌 : 제 1강 - OpenCV 설치 OpenCV 076923.github.io..
사실(Fact): 딥러닝 CNN(합성곱 신경망) 예제(The CIFAR-10 dataset) 학습 느낌(Feeling): cnn explainer 홈페이지를 통해 시각적으로 확인할 수 있어서 이해도가 높아졌다. 개념이 확실하진 않지만 앞으로 실습해가면 조금 더 알 수 있을 거 같다. 교훈(Finding): 조금 더 성실하게 정리해보자 멋사 AI스쿨 7기 박조은 강사님 오늘 수업의 핵심: 합성곱 층을 만드는 것 CNN의 합성곱(Convolution)을 구성하는 핵심요소 필터(Filter) & 활성화함수(Activation Function) 레이어 미리보기 model = models.Sequential() model.add(layers.Conv2D(filters=32, kernel_size=(3, 3), a..
멋사 AI School 7기 Special Lecture by 이호준 강사님(제주코딩베이스캠프) 9월에 스터디를 통해서 코딩테스트란 무엇인지 살짝 맛을 봤었는데, 재밌지만 안풀리는 문제를 만나니 코딩이 너무 어려운건 아닐지 두렵기도 했었다. 그 후로 약 두 달간 코드를 쓰는 것에 대해 조금 내공이 쌓이면서도, 데이터 EDA와 머신러닝에 집중하느라 파이썬 자체는 오히려 감을 좀 잃었었는데, 이번에 이호준 강사님 강의를 들으니 코딩 테스트라는게 완전 새롭게 다가왔다. 똑같이 어렵긴 하지만, 코테도 다른 시험처럼 노하우와 공식이 있는 거구나!! 한줄기 희망을 본 느낌?! 그리고 파이썬을 후다닥 배워서 map을 배워도 어떻게 써야할지, list를 알아도 어떻게 쓰는건지 잘 모르는 그런 상태였다가, 이번 강의를 ..
오늘의 회고 사실(Fact) : 그레디언트 부스팅 트리 모델 (GBT), 엑스트라 트리 모델, XG Boost 느낌(Feeling) : 관련 용어가 낯설어서 다시 어렵게 느껴졌다. XG Boost 관련 수업 시간이 짧아서 아쉽다 교훈(Finding) : 복습 시간에 꼼꼼히 읽어봐야겠다 Hold-Out-Validation cross-validation 을 사용하지 않고 hold-out-validation 사용 hold-out-validation이 속도가 더 빠르다는 장점이 있지만, 그 대신 신뢰도가 떨어짐 train 과 valid 로 데이터 분리 valid 를 만드는 이유는 제출 전 어느 정도의 스코어가 나올지 확인하기 위함 배깅vs부스팅 배깅은 훈련세트에서 중복을 허용해서 샘플링하여 여러개 모델을 훈련 ..
멋사 AI스쿨 main lecture by 박조은 강사님 회고 사실 Fact: 주택 데이터 실습 캐글 제출, 벤츠 데이터셋 실습 시작 느낌 Feeling: 피처엔지니어링의 다양한 방법을 학습하고 반복을 통해 꾹꾹 다지고 있는 것 같다 교훈 Finding: TIL 정리를 좀 더 성실하게 해서 지나간 내용은 찾기 쉽게 하자 수치데이터의 결측치를 0으로 채우면 안되는 값 -> 현실 세계를 바탕으로 고려하기 나이, 키, 몸무게, 혈당 수치, 인슐린 수치 등 주택 데이터에서 화장실 수, 2층면적, 지하면적, 주차장면적은 해당 시설이 없다면 0이 될 수 있음 로그 변환 수치형 데이터라도, 피처의 .nunique()를 확인해서 특정 숫자 이하의 빈도수를 가지고 있는 데이터는 범주형으로 간주 범주형 변수 보기 df.s..
오늘의 회고 사실(Fact): 캐글 자전거 수요 예측 실습 느낌(Feeling): 데이터EDA로 꼼꼼하게 살펴보면서 이상한 데이터를 찾는 게 재밌었다. 로그 개념이 아직 완전히 이해하기 어렵지만 사용하는 이유는 알 것 같다 교훈(Finding): 오늘 수업 복습 철저히! 특히 RMSLE! Cross validation: 속도가 오래걸린다는 단점이 있기도 하지만 validation의 결과에 대한 신뢰가 중요할 때 사용한다. hold out validation: 한번만 나눠서 학습하고 검증하기 때문에 빠르다는 장점이 있다. 하지만 신뢰가 떨어지는 단점이 있다. 경진대회 참가할때 꼼꼼히 확인할 것 Data Fields (도메인 지식 있으면 좋음) evaluation 측정기준 무엇을 예측하는 문제인지 데이터 E..
복습Day 벌써 일주일이지나다니 정말 빠르다. 머신러닝도 벌써 2주차지만, 아직도 머신러닝이 낯설다. 예상과는 달리 머신러닝 자체는 이라는 간단한 단계로 이루어지지만 그 전 필수단계인 부터 까지에 필요한 개념이 어마어마하고, 정답이 있는 게 아니라서 더 어렵고, 모호하게 느껴지는 것 같다. 답은 캐글 필사인가.... 하지만 판다스도 낯설었지만 익숙해진 것처럼 반복하다보면 익숙해지겠지! 오늘 포스팅은 이번주에 공부한 여러 자료를 모아서 정리해보았다. Matplotlib 출처: 혼란한 Matplotlib에서 질서 찾기, 이제현 - PyCon Korea 2022 https://www.youtube.com/watch?v=ZTRKojTLE8M 안 예쁜 Matplotlib 그림을 예쁘게 → Seaborn 설정으로 ..
강승일 강사님께 태블로Tableau 첫 번째 특강을 들었다. 총 4회로 한달동안 수업을 듣게 되었다. Tableau Public 버전을 다운받아 실습에 활용했다. 식을 입력하는 부분에서 태블로가 시각화로 특화된 엑셀 같다는 느낌을 받았는데, 드래그와 같은 액션을 통해서 색 지정, 레이블 표시, 행 열 추가 등을 자유롭게 할 수 있다는 점에서 직관적이고, 재미있었다. 원본데이터를 연결해서 변화하는 데이터를 실시간으로 시각화에 반영시켜 대시보드를 꾸밀 수 있다는 점도 흥미로웠고, 강사님이 수업자료를 대시보드로 만들어 프레젠테이션처럼 활용하신 점도 인상 깊었다. 이래서 현업에서 태블로를 많이 활용하는 구나하고 단번에 이해할 수 있었다. 오늘은 테킷 인강을 통해 0. 태블릿 기초 활용법에 대해 학습했고 1. 출..
오늘은 아주 오랜만에 인싸데이로 진행되서 오전엔 키워드 복습을 진행했다. 우리 조의 주제는 결정 트리(Decision Tree) 였고, 다른 조의 주제도 머신러닝 관련 주제라서 새롭게 알게된 내용을 정리해보려고 한다. 주제1. 결정트리 Decision Tree 결정트리란? 결정 트리는 분류와 회귀 문제에 널리 사용하는 모델이다. 결정 트리를 학습한다는 것은 정답에 가장 빨리 도달하는 예/아니오 질문 목록을 학습한다는 뜻이다. 트리를 만들 때 알고리즘은 가능한 모든 테스트에서 타깃 값에 대해 가장 많은 정보를 가진 것을 고른다. 일반적으로 트리 만들기를 모든 리프 노드가 순수 노드가 될 때까지 진행하면 모델이 매우 복잡해지고 훈련 데이터에 과대적합된다. 사진의 각 노드에 적힌 samples는 각 노드에 있..