오늘은 스페셜 강의로 기초 통계 용어 이해와 판다스 실습을 할 수 있는 날이었다. 통계 기초에 대해 목말라 있어서 재미있게 학습할 수 있었다. TIL에서는 어떤 내용을 다루었는지 간단히 정리하고, 자세히 공부하며 글을 써봐야겠다. 데이터 분석을 위한 통계 기초 t. 유재명 강사님 통계학 데이터 분석의 목적은 의사결정권자의 결정에 도움을 주기 위함이다. 통계 분석의 깊이를 더하기 위해선 데이터의 양과 질이 중요하다. 기업에서 데이터 분석을 할때, 분야별, 서비스 형태별로 데이터의 절대적인 양과 질은 차이날 수 있다. 통계학 용어는 어려우니, 상식을 버리고, 뜻을 짐작하지 말고 그냥 외우기! 범주형 변수 VS 연속형 변수 범주형 변수는 종류, 이름 등으로 수치 데이터의 경우 연산이 의미가 없다. 연속형 변수..
EDA map: 시리즈만 가능, df[”column1”].map(함수 or dictionary) apply: 시리즈와 df둘 다 가능, df.apply(함수) applymap df만 가능, df.applymap(함수) lamda함수: 이름 없는 함수 간단한 기능은 함수를 만들지 않고, lamda 활용 간단한 전처리에 유용 # map과 lamda 연습 def find_year(x): return x[:4] #df1["생산연도"] = df1["생산일"].map(lamda x : x[:4]) df1["생산연도"] = df1["생산일"].map(find_year) df1 tqdm 오래 걸리는 작업 진행 상황을 파악하기 위해 사용 from tqdm.notebook import tqdm tqdm.pandas() m..
오늘의 회고 사실(Fact) : 서울정보소통광장 120 데이터 수집하기 (목록, 내용) 느낌(Feeling) : 이해도가 조금 높아지니까 흥미가 더 생겨서 다른 페이지도 웹스크래핑에 도전해보고 싶어졌다. 교훈(Finding) : 오늘 수업 복습, 과제로 전체 데이터 가져와보는 것을 해봐야겠다. 멋사 AI스쿨 main lecture by 박조은 강사님 지난 주 복습 웹스크래핑은 requests로 수집하고 bs로 파싱하고 해석한다고 표현한다. with 구문은 메모리를 할당 → 파일을 오픈할 때 주로 사용한다 로봇배제 표준 robot.txt 네트워크탭 Headers에서 get인지 post인지 확인 가능 프로그램을 구현하기 전에 과정을 정리해보는 단계가 중요하다. 팀플을 할 때도 이런 과정을 미리 공유해보고 시..
데이터리안 SQL 특강 두번째 시간이었다. SQL 기본 문법은 잘 알고있어서 지난주엔 수월했는데, 이번주에 배운 조건문은 조금 생소했다. RFM분석과 같은 비즈니스 분석을 할때 조건문이 잘 쓰일 거 같아서 수업 복습 겸 블로그에 포스팅을 남겼다. [SQL중급] 조건문 활용하기 (CASE문, IF문) 데이터 분석을 위한 중급 SQL SQL 조건문 CASE 문 SELECT CASE WHEN id = 1 THEN "음료" WHEN id = 2 THEN "조미료" ELSE "기타" END as 'categoryName', * -- 아스타로 전체 테이블 확인 FROM products WHEN안에 조건 여러 개 작성 dogplot42-6.tistory.com
문과생의_코딩공부_2주차_느낌.jpg 저작권 걱정 없이 직접 그린 짤 겨우 2주차지만, 앞으로 공부를 하면서, 내가 공부한 것들에 대해 100% 이해나 확신이란 없을 것 같다. 알면 알수록 알아야 할 것의 범위가 계속 늘어나고 있다. 요기 조금 저기 조금 알다보면 갑자기 이어지는 기분이 들 때는 있다! 이전까지 했던 정해진 시험범위를 외우는 공부랑은 확실히 느낌이 다르다. 새로운 뇌를 써야한다. 부트캠프 과정 중에 알게 된 것은, 그 전엔 혼자서 어떻게 코딩을 공부해야 될 지 모르겠고, 진입장벽이 높다고 느꼈는데, 알고보니 양질의 무료 자료가 엄청나게 많다는 것을 알게 되었다. (유튜브나 위키독스만해도 방대하다) [언젠가 봐야할 참고 자료 리스트]를 적어봤는데 끝이 없다. 그리고 계속 추가되겠지... 볼..
목요일은 인싸이트데이, 우리팀의 발표 주제는 API였다. 발표팀으로 선정되서 정말 오랜만에 발표를 했는데 1~2분 정도의 짧은 분량이지만 떨리기도하고, 또 어떻게 잘 전달할까 고민하면서 의사소통 스킬을 조금 더 키울 수 있는 기회였던 것 같다! API API란? API(Application Programming Interface)는 클라이언트, 서버와 같은 서로 다른 프로그램에서 요청과 응답을 주고 받을 수 있게 만든 체계이다. API의 정의, 요청과 응답 부분은 비전공자를 위한 이해할 수 있는 IT지식 도서를 참고했다. (비전공자를 위한 이해할 수 있는 IT 지식) 요청과 응답(request, response) 클라이언트는 요청(request)을 보내고, 서버는 요청을 받아서 응답(response)을 ..
오늘의 회고 사실(Fact) : 네이버 금융 페이지 웹 스크랩핑, Beautiful Soup, 수집 함수 만들기 느낌(Feeling) : 웹크롤링도 반복하다보니까 익숙해지고 있는 것 같다. 교훈(Finding) : 미니프로젝트할때 열심히 적용시켜봐야겠다 웹크롤링 (웹스크랩핑) 네이버 금융 페이지 실습 웹페이지에서 필요한 URL 주소를 찾는 법 '뉴스', '일간시세' 테이블 정보 가져오기 (requests, get방식, BeautifulSoup, JSON) 가져온 데이터 파일로 저장하기 데이터 가져오는 과정을 모두 포함한 사용자 함수 정의하기 미니프로젝트1: 원하는 웹 페이지 크롤링 실습 어제 오늘 학습한 웹크롤링 관련 내용은 별도의 포스팅으로 자세하게 복습해볼 예정이다.
오늘의 회고 사실(Fact) : seaborn 범주형 변수 시각화 실습, FinanceDataReader 실습, 네이버 금융 뉴스 웹크롤링 실습 느낌(Feeling) : Seaborn과 Pandas dataframe에 좀 익숙해진 것 같다. 코드가 이제 낯설게 보이지 않는다. 근데 크롤링을 해보니 또 다시 새로웠다. 교훈(Finding) : seaborn example다른 그래프도 읽어보고 그려봐야겠다. 웹크롤링 부분 다시 자세히 복습해봐야겠다. 범주형 데이터 EDA, Seaborn # mpg 데이터셋을 불러옵니다. df = sns.load_dataset("mpg") df.shape # shape는 어트리뷰트라서 ()를 안붙여도 된다. 매서드가 아니다 df.head() df.tail() df.info()..