python
python day07 (웹 데이터 수집(크롤링))
이건중
2022. 5. 3. 12:57
728x90
셀레니움
- 셀레니움: 웹 자동화 및 웹의 소스코드를 수집하는 모듈
- cmd -> pip install selenium (셀레늄 라이브러리 다운로드)


셀레니움은 최초 1회 인스톨함


========================
뷰티풀숩
- 뷰티풀숩(Beautiful Soup)은 스크린 스크래핑(screen-scraping) 프로젝트를 위해 설계된 파이썬 라이브러리
- 구문 분석, 트리 탐색, 검색 및 수정을 위한 몇 가지 간단한 방법과 파이썬 관용구를 제공하 며 문서를 분석하고 필요한 것을 추출하는 도구
- 들어오는 문서를 유니코드로 보내고 문서를 UTF-8로 자동 변환
공식 사이트
https://www.crummy.com/software/BeautifulSoup/Documentation https://www.crummy.com/software/BeautifulSoup/bs4/doc



---------------------------------
예제로 50개의 책정보를 각각 출력하기



---------------------------------
1~500개 책정보 데이터 가져오기


반복문의 들여쓰기 위치를 잘봐가면서 처리해야함
화면에 띄워지는 페이지별로 데이터를 수집함
------------------------------
수집한 데이터를 날짜별로 csv파일로 처리하기



파일생성문 안으로 전부 들여쓰기 넣어준다
출력문은 필요가 없으니 엑셀에 내용을 적어줄 csv.writer를 활용하여 내용을 작성해준다