tutorial script scraping how data con code search-engine web-scraping web-crawler

search-engine - script - web scraper python 3



¿Cuál es la diferencia entre el rastreo web y el web scraping? (6)

AFAIK Web Crawling es lo que hace Google: se trata de un sitio web que busca enlaces y crea una base de datos del diseño de ese sitio y los sitios a los que vincula.

Web Scraping sería el análisis progamático de una página web para cargar algunos datos, por ejemplo, cargando el clima de la BBC y rasgando (raspando) el clima para sacarlo de allí y colocarlo en otro lugar o usarlo en otro programa.

Esta pregunta ya tiene una respuesta aquí:

¿Hay alguna diferencia entre rastreo y raspado de la web?

Si existe una diferencia, ¿cuál es el mejor método para recopilar algunos datos web para suministrar una base de datos para su uso posterior en un motor de búsqueda personalizado?


Arrastramos sitios para tener una perspectiva amplia de cómo está estructurado el sitio, cuáles son las conexiones entre páginas, para calcular cuánto tiempo necesitamos para visitar todas las páginas que nos interesan. Raspar es a menudo más difícil de implementar, pero es una esencia de extracción de datos. Pensemos en el raspado al cubrir el sitio web con una hoja de papel con algunos rectángulos recortados. Ahora podemos ver solo las cosas que necesitamos, ignorando por completo las partes del sitio web que son comunes para todas las páginas (como navegación, pie de página, anuncios) o información extraña como comentarios o migas de pan. Más acerca de las diferencias entre rastreo y desguace que se encuentran aquí: https://tarantoola.io/web-scraping-vs-web-crawling/


Definitivamente hay una diferencia entre estos dos. Uno se refiere a visitar un sitio, el otro a extraer.


Hay una diferencia fundamental entre estos dos. Para aquellos que buscan cavar más profundo, sugiero que lean esto: raspador Web, Web Crawler

Esta publicación entra en detalles. Un buen resumen está en esta tabla del artículo:


Rastrear sería básicamente lo que hacen Google, Yahoo, MSN, etc., en busca de CUALQUIER información. El raspado generalmente está dirigido a ciertos sitios web, para datos específicos, por ejemplo, para la comparación de precios, por lo que están codificados de manera bastante diferente.

Por lo general, un raspador se hará a medida de los sitios web que se supone que debe raspar, y estaría haciendo cosas que un (bueno) rastreador no haría, es decir:

  • No tiene respeto por robots.txt
  • Identificarse a sí mismo como un navegador
  • Presentar formularios con datos
  • Ejecute Javascript (si es necesario para actuar como un usuario)

Sí, son diferentes. En la práctica, es posible que necesite usar ambos.

(Tengo que saltar porque, hasta el momento, las otras respuestas no llegan a la esencia. Usan ejemplos pero no hacen las distinciones claras. ¡De acuerdo, son del 2010!)

El raspado web , para usar una definición mínima, es el proceso de procesar un documento web y extraer información de él. Puede hacer raspado de la web sin rastrear la web.

El rastreo web , para usar una definición mínima, es el proceso de búsqueda iterativa y búsqueda de enlaces web a partir de una lista de URL de origen. Estrictamente hablando, para rastrear la web, tienes que hacer un cierto grado de raspado web (para extraer la URL).

Para aclarar algunos conceptos mencionados en las otras respuestas:

  • robots.txt está destinado a aplicarse a cualquier proceso automatizado que acceda a una página web. Por lo tanto, se aplica tanto a los rastreadores como a los raspadores.

  • Los rastreadores y raspadores ''adecuados'', ambos, deben identificarse con precisión.

Algunas referencias: