본문 바로가기

bs42

네이버 영화리뷰 크롤링 bs4 전에 한 네이버 평점 크롤링과 비슷하다 다른 건 그때는 간단한 한마디? 와 평점이 리스트로 여러 개 있었지만 이건 그 평점에 대한 자세한 리뷰가 있다 한 페이지에 15개의 목록이 있으니까 이건 15배 정도 url을 가져와야 한다 당연히 시간도 더 많이 걸리고 그래서 빠르게 해결하기 위해 multiprocessing을 사용한다 한 번에 하나의 url 요청을 하고 요청이 올 때까지 기다리다 완료되면 다음 걸 하는 게 아니라 하나 요청하고 기다릴 동한 다음 걸 요청하고 이런 식으로 동작해서 훨씬 빠르다 사용법은 대충 객체 하나 만들고 프로세스 몇 개 쓸지 정해주고 그냥 map 함수로 실행시킬 함수에 변수를 대입하면 된다 multiprocessing 을 사용하지 않았을 때보다 10배 이상은 빠른 듯 참고로 이전.. 2023. 3. 30.

네이버 영화평점 크롤링 (python) bs4 네이버 영화 평점 크롤링 requests로 주소를 받아오는데 페이지 번호만 하나씩 증가시켜 주면서 다음 페이지를 가져온다 페이지 조작이 필요 없기 때문에 BeautifulSoup를 사용해서 selenuim보다 빠르게 정보를 가져온다. 원하는 정보의 태그 값을 확인해서 각각 받아오고 하나의 리스트에 넣어 수집이 끝나면 데이터 베이스로 저장 중간에 에러가 나면은 에러 정보를 출력하고 데이터 베이스를 재접속한다 주의할 점은 무한 루프이기 때문에 이상한 에러가 나도 계속 돌아간다 무한 루프 사용 시 주의 import requests from bs4 import BeautifulSoup import sqlite3 import time import datetime # sqlite3 데이터 베이스 사용 conn=sq.. 2023. 3. 29.

이전 1 다음

티스토리툴바