오늘부터 조은 강사님과 함께 실시간 강의로 진행되었다.
실시간 강의가 교시제로 운영되서 마음이 더 편하고 인강보다 집중도 더 잘된다.
이제야 줌 강의 시스템과 디스코드에 적응했다. 이번주도 화이팅!!
데이터 사이언스 개요
탐색적데이터분석 (EDA Exploratory Data Analysis) - 존 튜키
데이터 파이프라인 구축 (ETL, ELT)
https://www.striim.com/blog/etl-vs-elt-differences/
ETL (Extract -> Transformation -> Loading)
- 데이터를 추출해서 처리, 가공을 통해 변환해서 저장하는 기술
- Data Warehouse(DW)에서 꺼내서 data analysis에 활용
ELT (Extract -> Loading -> Transformation )
- 추출하고 DW에 저장, 분석과정에서 가공, Cloud기반, Datalake구축
AI VS 머신러닝 VS 딥러닝
공공데이터 제공 사이트
- AI Hub https://aihub.or.kr/
- 공공데이터포털 https://www.data.go.kr/
- 서울 열린데이터 광장 https://data.seoul.go.kr/
- 통게청 마이크로 데이터 https://kostat.go.kr/portal/korea/index.action
- 건강보험심사평가원 https://www.hira.or.kr/main.do
- 보건의료빅데이터 개방시스템 https://opendata.hira.or.kr/home.do
- 공공누리 https://www.kogl.or.kr/index.do
- kaggle https://www.kaggle.com/competitions
- 데이콘 https://dacon.io/
오늘의 실습은 구글colab에서 이뤄졌다.
구글 Colab 단축키
- shift + Enter : 셀 실행후 다음셀로 이동
- ctrl + Enter : 셀 실행
- Ctrl(cmd) + M + B : 현재 셀 아래에 새로운 셀을 생성하는 단축키
코랩을 쓰면서 그동안 왜 이런걸 몰랐나
코딩공부를 진작 이렇게 했으면 쉬웠을텐데
그동안 파이썬 설치하다가 보낸 세월만 생각하면 눈물이.. 흐른다
데이터 분석 엑셀도 충분한데, 파이썬을 배우는 이유
- 대용량 데이터의 로딩 속도와 처리속도가 빠르다
- 엑셀과 호환되지 않는 파일 포맷도 처리할 수 있다 (예: json)
- 배우기 쉽고, 표준 라이브러리가 다양하고 뛰어나다
- 활용도가 높다. 웹 개발, 게임 개발, 이미지, 영상 등등등
파이썬 기본 문법
- 자료형을 확인할 수 있는 함수는 type()
- Bool (True. False)
- 숫자 [ int(정수), float(실수) ... ]
- 사칙연산 [ +, -, *, /, //(몫), %(나머지) ]
- 변수 ("-"를 제외한 특수문자 불가, 숫자로 시작 불가, 한글은 가능)
- 문자열
- 집합 자료형 https://wikidocs.net/1015 (리스트,딕셔너리,셋,튜플)
파이썬 줄바꿈
- 엔터 효과 내고 싶을떈 '''를 쓰거나 \n 이라는 이스케이프 코드를 입력하면 가능하다.
'''문자열
줄바꿈
가능'''
"문자열\n줄바꿈\n가능"
이스케이프코드 https://wikidocs.net/13
- 자주 사용되는 이스케이프코드 [ \n, \t , \ , \' , \" ]
문자열 인덱싱 / 슬라이싱
- 매우 중요하다. 자유롭게 쓸 수 있어야함
- 인덱싱: 위치 표시 기능 0부터 시작, 맨 뒷글자는 -1
- 슬라이싱: 문자 잘라서 일부만 가져오기 [숫자:숫자]
set 자료형: 주로 중복값 제거에 활용됨
- list의 unique값을 보고 싶을때, set을 씌우고 len 함수를 써서 확인한다.
참고 자료
각각 자료형의 특징과 주요 매서드는 암기: 점프 투 파이썬
- 문자열 관련 함수들 https://wikidocs.net/13#_19
- 리스트 관련 함수들 https://wikidocs.net/14#_11
- 딕셔너리 관련 함수들 https://wikidocs.net/16#_8
오늘부터 회고 추가
사실(Fact) : 구글 코렙 환경에서 파이썬의 자료형을 배웠다.
느낌(Feeling) : 지난주에 다뤘던 부분이라 듣기 수월했다. 근데 퀴즈는 어려웠다 ㅠㅠ
교훈(Finding) : 지난주에 다뤘던 내용임에도 각각 자료형에 쓰이는 함수들을 더 자세히 공부해야 될 것같다. 그리고 TIL을 쓸때 배운 내용을 다 포함해서 키워드로 정리하면 좋을 것 같다.