Scrapy - Exportaciones de piensos
Descripción
Las exportaciones de feeds son un método para almacenar los datos extraídos de los sitios, lo que genera una "export file".
Formatos de serialización
Utilizando múltiples formatos de serialización y backends de almacenamiento, Feed Exports utiliza exportadores de artículos y genera un feed con artículos raspados.
La siguiente tabla muestra los formatos admitidos
No Señor | Formato y descripción |
---|---|
1 | JSON FEED_FORMAT es json El exportador utilizado es la clase scrapy.exporters.JsonItemExporter |
2 | JSON lines FEED_FROMAT es jsonlines El exportador utilizado es la clase scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT es CSV El exportador utilizado es la clase scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT es xml El exportador utilizado es la clase scrapy.exporters.XmlItemExporter |
Utilizando FEED_EXPORTERS configuración, los formatos compatibles también se pueden ampliar -
No Señor | Formato y descripción |
---|---|
1 | Pickle FEED_FORMAT es pickel El exportador utilizado es la clase scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT es mariscal El exportador utilizado es la clase scrapy.exporters.MarshalItemExporter |
Backends de almacenamiento
El backend de almacenamiento define dónde almacenar el feed mediante URI.
La siguiente tabla muestra los backends de almacenamiento admitidos:
No Señor | Backend de almacenamiento y descripción |
---|---|
1 | Local filesystem El esquema de URI es un archivo y se usa para almacenar los feeds. |
2 | FTP El esquema de URI es ftp y se usa para almacenar los feeds. |
3 | S3 El esquema de URI es S3 y los feeds se almacenan en Amazon S3. Se requieren bibliotecas externas botocore o boto . |
4 | Standard output El esquema de URI es stdout y las fuentes se almacenan en la salida estándar. |
Parámetros de URI de almacenamiento
Los siguientes son los parámetros de la URL de almacenamiento, que se reemplaza mientras se crea el feed:
- % (time) s: este parámetro se reemplaza por una marca de tiempo.
- % (name) s: este parámetro se reemplaza por el nombre de la araña.
Configuraciones
La siguiente tabla muestra la configuración con la que se pueden configurar las exportaciones de feeds:
No Señor | Configuración y descripción |
---|---|
1 | FEED_URI Es el URI del feed de exportación que se utiliza para habilitar las exportaciones de feed. |
2 | FEED_FORMAT Es un formato de serialización utilizado para el feed. |
3 | FEED_EXPORT_FIELDS Se utiliza para definir campos que se deben exportar. |
4 | FEED_STORE_EMPTY Define si exportar feeds sin elementos. |
5 | FEED_STORAGES Es un diccionario con backends de almacenamiento de feeds adicionales. |
6 | FEED_STORAGES_BASE Es un diccionario con backends de almacenamiento de feeds integrados. |
7 | FEED_EXPORTERS Es un diccionario con exportadores de feeds adicionales. |
8 | FEED_EXPORTERS_BASE Es un diccionario con exportadores de feeds integrados. |