'beautifulsoup' 태그의 글 목록

221004 AI스쿨 TIL 웹스크래핑

2022.10.04

오늘의 회고 사실(Fact) : 서울정보소통광장 120 데이터 수집하기 (목록, 내용) 느낌(Feeling) : 이해도가 조금 높아지니까 흥미가 더 생겨서 다른 페이지도 웹스크래핑에 도전해보고 싶어졌다. 교훈(Finding) : 오늘 수업 복습, 과제로 전체 데이터 가져와보는 것을 해봐야겠다. 멋사 AI스쿨 main lecture by 박조은 강사님 지난 주 복습 웹스크래핑은 requests로 수집하고 bs로 파싱하고 해석한다고 표현한다. with 구문은 메모리를 할당 → 파일을 오픈할 때 주로 사용한다 로봇배제 표준 robot.txt 네트워크탭 Headers에서 get인지 post인지 확인 가능 프로그램을 구현하기 전에 과정을 정리해보는 단계가 중요하다. 팀플을 할 때도 이런 과정을 미리 공유해보고 시..

STUDY/Pandas

[웹크롤링] 웹 데이터 수집해서 저장하기 (Pandas, BeautifulSoup)

2022.09.29

웹크롤링이란 용어가 널리 사용되서 웹크롤링이라고 썼지만 스크래핑에 더 가까운 실습입니다. 본 실습 과정은 멋쟁이사자처럼 AI스쿨에 저작권이 있습니다. 네이버 금융 뉴스 기사 수집하기 수집할 URL가져오기 웹페이지 전체가 아니라 일부 데이터만을 가져올 것이기 때문에 해당 부분의 링크를 찾아내는 것이 필요하다 구글 크롬 웹브라우저의 검사(inspector) - 네트워크 - Doc를 참고하면 Requests URL 주소를 알 수 있다. 가져온 URL주소에서 변하는 부분과 변하지 않는 부분을 구분하여 f스트링을 통해 변수를 넣어주면 준비 완료 item_code = "035420" item_name = "네이버" page_no = 1 url=f"https://finance.naver.com/item/news_ne..

TIL/멋사_AI스쿨_TIL

220928 AI스쿨 TIL 웹크롤링

2022.09.28

오늘의 회고 사실(Fact) : 네이버 금융 페이지 웹 스크랩핑, Beautiful Soup, 수집 함수 만들기 느낌(Feeling) : 웹크롤링도 반복하다보니까 익숙해지고 있는 것 같다. 교훈(Finding) : 미니프로젝트할때 열심히 적용시켜봐야겠다 웹크롤링 (웹스크랩핑) 네이버 금융 페이지 실습 웹페이지에서 필요한 URL 주소를 찾는 법 '뉴스', '일간시세' 테이블 정보 가져오기 (requests, get방식, BeautifulSoup, JSON) 가져온 데이터 파일로 저장하기 데이터 가져오는 과정을 모두 포함한 사용자 함수 정의하기 미니프로젝트1: 원하는 웹 페이지 크롤링 실습 어제 오늘 학습한 웹크롤링 관련 내용은 별도의 포스팅으로 자세하게 복습해볼 예정이다.

221004 AI스쿨 TIL 웹스크래핑

[웹크롤링] 웹 데이터 수집해서 저장하기 (Pandas, BeautifulSoup)

220928 AI스쿨 TIL 웹크롤링

티스토리툴바