python

python day07 (웹 데이터 수집(크롤링))

이건중 2022. 5. 3. 12:57
728x90

셀레니움

- 셀레니움: 웹 자동화 및 웹의 소스코드를 수집하는 모듈

- cmd -> pip install selenium (셀레늄 라이브러리 다운로드)

셀레니움은 최초 1회 인스톨함

========================

뷰티풀숩

- 뷰티풀숩(Beautiful Soup)은 스크린 스크래핑(screen-scraping) 프로젝트를 위해 설계된 파이썬 라이브러리

- 구문 분석, 트리 탐색, 검색 및 수정을 위한 몇 가지 간단한 방법과 파이썬 관용구를 제공하 며 문서를 분석하고 필요한 것을 추출하는 도구

- 들어오는 문서를 유니코드로 보내고 문서를 UTF-8로 자동 변환

 

공식 사이트

https://www.crummy.com/software/BeautifulSoup/Documentation https://www.crummy.com/software/BeautifulSoup/bs4/doc

---------------------------------

예제로 50개의 책정보를 각각 출력하기

 

---------------------------------

1~500개 책정보 데이터 가져오기

반복문의 들여쓰기 위치를 잘봐가면서 처리해야함

화면에 띄워지는 페이지별로 데이터를 수집함

------------------------------

수집한 데이터를 날짜별로 csv파일로 처리하기

파일생성문 안으로 전부 들여쓰기 넣어준다

출력문은 필요가 없으니 엑셀에 내용을 적어줄 csv.writer를 활용하여 내용을 작성해준다