example scrapy web-crawler

example - scrapy python 3



Arrastre incrementalmente un sitio web con Scrapy (3)

Respuesta corta: no.

Respuesta más larga: lo que podría hacer es escribir la identificación del artículo o la url del artículo en un archivo y, durante el raspado, debe coincidir con la identificación o la url con los registros en el archivo.

Recuerde cargar su archivo solo una vez y asígnelo a una variable. No lo cargue durante su iteración al raspar.

Soy nuevo en el rastreo y me gustaría saber si es posible utilizar Scrapy para rastrear un sitio, como CNBC.com, de forma incremental. Por ejemplo, si hoy rastreé todas las páginas de un sitio, a partir de mañana solo quiero recopilar las páginas que se han publicado recientemente en este sitio, para evitar el rastreo de todas las páginas anteriores.

Gracias por cualquier información. o entrada en esto.


Sí, puedes y en realidad es bastante fácil. Cada sitio web de noticias tiene algunas páginas de índice muy importantes, como la página de inicio y las categorías (por ejemplo, política, entretenimiento, etc.). No hay ningún artículo que no pase por estas páginas durante al menos unos minutos. Escanee esas páginas cada minuto más o menos y guarde solo los enlaces. Luego haga una diferencia con lo que ya tiene en sus bases de datos y algunas veces al día ejecute un rastreo para eliminar todos los enlaces faltantes. Práctica muy estándar.