web-crawler - example - scrapy python 3

Qué es una buena herramienta Web Crawler (6)

Necesito indexar un montón de páginas web, ¿qué buenas utilidades webcrawler hay? Preferiblemente estoy buscando algo con lo que .NET pueda hablar, pero eso no es nada sensacional.

Lo que realmente necesito es algo que pueda darle a la url de un sitio y seguirá cada enlace y almacenará el contenido para su indexación.

HTTrack - http://www.httrack.com/ - es una muy buena copiadora de sitios web. Funciona bastante bien Lo he usado por mucho tiempo.

Nutch es un rastreador web (rastreador es el tipo de programa que está buscando) - http://lucene.apache.org/nutch/ - que utiliza una utilidad de búsqueda de primera clase lucene.

No he usado esto todavía, pero parece interesante. El autor lo escribió desde cero y publicó cómo lo hizo. El código para ello está disponible para descargar también.

Searcharoo.NET contiene una araña que rastrea e indexa el contenido, y un motor de búsqueda para usarlo. Debería poder orientarse en el código Searcharoo.Indexer.EXE para atrapar el contenido tal como se descarga y agregar su propio código personalizado desde allí ...

Es muy básico (todo el código fuente está incluido y se explica en seis artículos de CodeProject, el más reciente es Searcharoo v6 ): la araña sigue enlaces, imágenes, imágenes, obedece directivas ROBOTS, analiza algunos tipos de archivos que no son HTML. . Está destinado a sitios web únicos (no a toda la web).

Nutch / Lucene es casi seguro una solución más robusta / de grado comercial, pero no he visto su código. No estoy seguro de lo que quiere lograr, pero ¿también ha visto Microsoft Search Server Express ?

Descargo de responsabilidad: soy el autor de Searcharoo; solo ofreciéndolo aquí como una opción.

Sphider es bastante bueno. Es PHP, pero podría ser de alguna ayuda.

Uso el software Mozenda''s Web Scraping . Puede hacer que rastree fácilmente todos los enlaces y obtener toda la información que necesita y es un gran software para el dinero.

Crawler4j es un rastreador de código abierto de Java que proporciona una interfaz simple para rastrear la Web. Puede configurar un rastreador web multiproceso en 5 minutos.

Puede configurar su propio filtro para visitar páginas o no (URL) y definir alguna operación para cada página rastreada según su lógica.

Algunas razones para seleccionar crawler4j;

Estructura multi-roscada,
Puede establecer la profundidad para rastrear,
Está basado en Java y en código abierto,
Control para enlaces redundantes (urls),
Puede establecer el número de páginas que se rastrearán,
Puede configurar el tamaño de página para ser rastreado,
Suficiente documentación