scraping scrap library follow example docs crawler python beautifulsoup scrapy web-crawler

python - library - ¿Diferencia entre BeautifulSoup y Scrapy crawler?



scrapy ruby (5)

Ambos están usando para analizar datos.

Scrapy :

  • Scrapy es un veloz marco de rastreo y raspado web de alto nivel, que se usa para rastrear sitios web y extraer datos estructurados de sus páginas.
  • Pero tiene algunas limitaciones cuando los datos provienen de un script java o se cargan dinámicamente, podemos superarlo usando paquetes como splash, selenio, etc.

BeautifulSoup :

  • Beautiful Soup es una biblioteca de Python para extraer datos de archivos HTML y XML.

  • podemos usar este paquete para obtener datos del script java o cargar páginas dinámicamente.

Scrapy con BeautifulSoup es uno de los mejores combo con el que podemos trabajar para descifrar contenidos estáticos y dinámicos

Quiero hacer un sitio web que muestre la comparación entre Amazon y el precio del producto e-bay. ¿Cuál de estos funcionará mejor y por qué? Estoy familiarizado con BeautifulSoup pero no tanto con Scrapy crawler .


Con el uso de scrapy puede ahorrar toneladas de código y comenzar con la programación estructurada. Si no le gusta ninguno de los métodos preescritos de Scapy, entonces se puede usar BeautifulSoup en lugar del método de scrapy. El gran proyecto tiene ambas ventajas.


Creo que ambos son buenos ... estoy haciendo un proyecto ahora que uso ambos. Primero elimino todas las páginas usando scrapy y las guardo en una colección de mongodb usando sus tuberías, también descargando las imágenes que existen en la página. Después de eso uso BeautifulSoup4 para hacer un posprocesamiento donde debo cambiar los valores de los atributos y obtener algunas etiquetas especiales.

Si no sabe qué páginas de productos desea, una buena herramienta será e scrapy ya que puede usar sus rastreadores para ejecutar todos los sitios web de amazon / ebay buscando los productos sin tener que hacer un ciclo explícito.

Eche un vistazo a la documentación de scrapy, es muy simple de usar.

¡Buena suerte!


La forma en que lo hago es usar la API de eBay / Amazon en lugar de scrapy, y luego analizar los resultados usando BeautifulSoup.

Las API le brindan una forma oficial de obtener los mismos datos que obtendría del rastreador de scrapy, sin necesidad de preocuparse por ocultar su identidad, desordenar con proxies, etc.


Scrapy es un araña web o un marco de web scraper , le da a Scrapy una URL raíz para comenzar a rastrear, luego puede especificar restricciones sobre la cantidad (número de) URLs que desea rastrear y buscar, etc. Es un marco completo para raspar web o gatear .

Mientras

BeautifulSoup es una biblioteca de análisis que también hace un buen trabajo al obtener contenidos de la URL y le permite analizar ciertas partes de ellos sin problemas. Solo recupera el contenido de la URL que usted brinda y luego se detiene. No se arrastra a menos que lo coloque manualmente dentro de un ciclo infinito con ciertos criterios.

En palabras simples, con Beautiful Soup puedes construir algo similar a Scrapy. Beautiful Soup es una biblioteca, mientras que Scrapy es un marco completo .

fuente: http://www.quora.com/Python-programming-language-1/How-is-BeautifulSoup-different-from-Scrapy