scraping - Cómo raspar las páginas siguientes en Python usando Beautifulsoup

python web scraping example (1)

Determine la última página extrayendo el argumento de page del elemento "Ir a la última página". Y recorra todas las páginas manteniendo una sesión de raspado web mediante requests.Session() :

import re import requests from bs4 import BeautifulSoup with requests.Session() as session: # extract the last page response = session.get("http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-India?sort_filter=alpha") soup = BeautifulSoup(response.content, "html.parser") last_page = int(re.search("page=(/d+)", soup.select_one("li.pager-last").a["href"]).group(1)) # loop over every page for page in range(last_page): response = session.get("http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-India?sort_filter=alpha&page=%f" % page) soup = BeautifulSoup(response.content, "html.parser") # print the title of every search result for result in soup.select("li.search-result"): title = result.find("div", class_="title").get_text(strip=True) print(title)

Huellas dactilares:

A C S College of Engineering, Bangalore A1 Global Institute of Engineering and Technology, Prakasam AAA College of Engineering and Technology, Thiruthangal ...

Supongamos que estoy raspando una url

http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-India?sort_filter=alpha

y no contiene páginas que contengan los datos que quiero borrar. Entonces, ¿cómo puedo raspar los datos de todas las páginas siguientes? Estoy usando Python 3.5.1 y Beautifulsoup. Nota: No puedo usar scrapy y lxml, ya que me está dando un error de instalación.