web-crawler - crawler - scrapy vs beautifulsoup

rastreador contra raspador (4)

El rastreador web obtiene enlaces (Urls - Pages) en una lógica y scrapper obtiene valores (extracción) de HTML.

Hay tantas herramientas de rastreo web. Visita la página para ver algunos. Cualquier analizador XML - HTML puede usarse para extraer (desechar) datos de páginas rastreadas. (Recomiendo Jsoup para analizar y extraer datos)

¿Alguien puede distinguir entre un rastreador y un raspador en términos de alcance y funcionalidad?

En general, los rastreadores seguirían los enlaces para llegar a numerosas páginas, mientras que los raspadores, en cierto sentido, solo tirarían de los contenidos que se muestran en línea y no llegarían a los enlaces más profundos.

El rastreador más común es Google Bots, que seguiría los enlaces para llegar a todas las páginas web de su sitio web e indexaría los contenidos si lo encontraran útil (es por eso que necesita el archivo robots.txt para indicar qué contenidos no desea que sean). indexado). Entonces, podríamos buscar ese tipo de contenido en su sitio web. Si bien el propósito de los raspadores es simplemente tirar de los contenidos para uso personal y no tendría muchos efectos en los demás.

Sin embargo, ahora no hay una diferencia clara sobre los rastreadores y los raspadores ya que algunas herramientas de raspado web automatizadas también le permiten rastrear el sitio web siguiendo los enlaces, como Octoparse e import.io. No son los rastreadores como los bots de Google, pero pueden rastrear automáticamente los sitios web para obtener numerosos datos sin codificación.

Los rastreadores navegan por la web siguiendo los enlaces. Un ejemplo sería el robot de Google que obtiene páginas para indexar. Los raspadores extraen valores de los formularios, pero no necesariamente tienen nada que ver con la web.

Un rastreador obtiene páginas web, es decir, con una dirección inicial (o un conjunto de direcciones iniciales) y algunas condiciones (por ejemplo, cuántos enlaces hay que recorrer, tipos de archivos que ignorar) descarga todo lo que está vinculado desde el punto de partida ( s).

Un raspador toma las páginas que se han descargado o, en un sentido más general, los datos formateados para mostrar, y (intenta) extraer datos de esas páginas, para que pueda (por ejemplo) almacenarse en una base de datos y manipularse como se desee. .

Dependiendo de cómo utilice el resultado, el rozamiento puede violar los derechos del propietario de la información y / o los acuerdos del usuario sobre el uso de los sitios web (el rastreo infringe el último en algunos casos también). Muchos sitios incluyen un archivo llamado robots.txt en su raíz (es decir, tienen la URL http://server/robots.txt ) para especificar cómo (y si) los rastreadores deben tratar ese sitio, en particular, puede listar (parcial) URL que un rastreador no debe intentar visitar. Estos se pueden especificar por separado por rastreador (user-agent) si lo desea.