search-engine - descargar - motores de busqueda

Un rastreador web alternativo a Nutch (5)

Estoy tratando de construir un sitio web especializado en motores de búsqueda que indexe un número limitado de sitios web. La solución que se me ocurrió es:

usando Nutch como el rastreador web,
utilizando Solr como motor de búsqueda,
El front-end y la lógica del sitio están codificados con Wicket.

El problema es que me parece que Nutch es bastante complejo y es un gran software para personalizar, a pesar del hecho de que no existe una documentación detallada (libros, tutoriales recientes, etc.).

Preguntas ahora:

¿Alguna crítica constructiva sobre la idea del hoyo del sitio?
¿Existe una alternativa buena pero simple a Nutch (como la parte de rastreo del sitio)?

Gracias

Creo que el nutch es la mejor opción para su aplicación, pero si lo desea, hay una herramienta simple: Heritrix . Además de eso, recomiendo js para el lenguaje front-end, porque solr devuelve json, que es fácilmente manejado por js.

Depende de la cantidad de sitios web y las URL que creas que rastrean. Apache Nutch almacena los documentos de la página en Apache HBase (que se basa en Apache Hadoop), es sólido pero muy difícil de configurar y administrar.

Dado que un rastreador es solo una búsqueda de página (como un CURL) y recuperar una lista de enlaces para alimentar su base de datos de URL, estoy seguro de que puede escribir un rastreador por su cuenta (especialmente si tiene algunos sitios web), use un simple Base de datos MySQL (tal vez un software de cola como RabbitMQ para programar los trabajos de rastreo).

Por otro lado, un rastreador podría ser más sofisticado, querría eliminar de su documento HTML la parte HEAD y conservar solo el "contenido" real de la página, etc.

Además, Nutch puede clasificar sus páginas, con un PageRank algo., Podría usar Apache Spark para hacer lo mismo (más eficientemente porque Spark puede almacenar datos en la memoria caché).

En C #, pero mucho más sencillo y puedes comunicarte directamente con el autor. (yo)

Solía usar Nutch y tienes razón; Es un oso para trabajar.

http://arachnode.net

Para la parte de rastreo, realmente me gusta anemone y crawler4j . Ambos le permiten agregar su lógica personalizada para la selección de enlaces y el manejo de páginas. Para cada página que decida conservar, puede agregar fácilmente la llamada a Solr.

Scrapy es una biblioteca de python que rastrea sitios web. Es bastante pequeño (en comparación con Nutch) y está diseñado para rastreos de sitios limitados. Tiene un estilo MVC tipo Django que me pareció bastante fácil de personalizar.