Scrapy - Exportaciones de piensos

Descripción

Las exportaciones de feeds son un método para almacenar los datos extraídos de los sitios, lo que genera una "export file".

Formatos de serialización

Utilizando múltiples formatos de serialización y backends de almacenamiento, Feed Exports utiliza exportadores de artículos y genera un feed con artículos raspados.

La siguiente tabla muestra los formatos admitidos

No Señor Formato y descripción
1

JSON

FEED_FORMAT es json

El exportador utilizado es la clase scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT es jsonlines

El exportador utilizado es la clase scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT es CSV

El exportador utilizado es la clase scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT es xml

El exportador utilizado es la clase scrapy.exporters.XmlItemExporter

Utilizando FEED_EXPORTERS configuración, los formatos compatibles también se pueden ampliar -

No Señor Formato y descripción
1

Pickle

FEED_FORMAT es pickel

El exportador utilizado es la clase scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT es mariscal

El exportador utilizado es la clase scrapy.exporters.MarshalItemExporter

Backends de almacenamiento

El backend de almacenamiento define dónde almacenar el feed mediante URI.

La siguiente tabla muestra los backends de almacenamiento admitidos:

No Señor Backend de almacenamiento y descripción
1

Local filesystem

El esquema de URI es un archivo y se usa para almacenar los feeds.

2

FTP

El esquema de URI es ftp y se usa para almacenar los feeds.

3

S3

El esquema de URI es S3 y los feeds se almacenan en Amazon S3. Se requieren bibliotecas externas botocore o boto .

4

Standard output

El esquema de URI es stdout y las fuentes se almacenan en la salida estándar.

Parámetros de URI de almacenamiento

Los siguientes son los parámetros de la URL de almacenamiento, que se reemplaza mientras se crea el feed:

  • % (time) s: este parámetro se reemplaza por una marca de tiempo.
  • % (name) s: este parámetro se reemplaza por el nombre de la araña.

Configuraciones

La siguiente tabla muestra la configuración con la que se pueden configurar las exportaciones de feeds:

No Señor Configuración y descripción
1

FEED_URI

Es el URI del feed de exportación que se utiliza para habilitar las exportaciones de feed.

2

FEED_FORMAT

Es un formato de serialización utilizado para el feed.

3

FEED_EXPORT_FIELDS

Se utiliza para definir campos que se deben exportar.

4

FEED_STORE_EMPTY

Define si exportar feeds sin elementos.

5

FEED_STORAGES

Es un diccionario con backends de almacenamiento de feeds adicionales.

6

FEED_STORAGES_BASE

Es un diccionario con backends de almacenamiento de feeds integrados.

7

FEED_EXPORTERS

Es un diccionario con exportadores de feeds adicionales.

8

FEED_EXPORTERS_BASE

Es un diccionario con exportadores de feeds integrados.