robotstxt_obey requests item drop default_request_headers data python database export scrapy pipeline

python - item - scrapy requests



Almacenamiento de la base de datos: ¿Por qué Pipeline es mejor que Feed Export? (2)

Esta es una pregunta acerca de la terapia .

Al almacenar elementos en una base de datos, ¿por qué es convencional implementar a través de una canalización en lugar del mecanismo de exportación de piensos?

Exportaciones de piensos: genere sus datos raspados utilizando diferentes formatos y almacenamientos

Una de las características más requeridas al implementar raspadores es poder almacenar los datos raspados correctamente

Tubería del artículo: proceso posterior y almacenar sus datos raspados

El uso típico de las tuberías de artículos es ... almacenar el artículo raspado en una base de datos

¿Cuál es la diferencia, pros / contras entre los dos, y (por qué) es la tubería más adecuada?

Gracias


Feed Export es útil si puede usar los formatos predeterminados. Si necesita un formato personalizado, debe escribir un Exportador personalizado, que es más trabajo que simplemente almacenar los datos en su canalización.


Hasta donde yo entiendo:

Pipeline es una solución universal: realiza la conexión db, conoce la estructura db, comprueba duplicados, tiene control sobre todo el proceso de almacenamiento de los elementos raspados.

Los exportadores son formas predefinidas de almacenar datos raspados. Cita :

Si tiene prisa y solo quiere usar un Exportador de elementos para generar datos recortados, consulte las exportaciones de Feed.