solr - Apache Nutch para indexar solo parte del contenido de la página

(3)

Voy a utilizar Apache Nutch v1.3 para extraer solo contenido específico de las páginas web. Comprobado el plugin parse-html. Parece que normaliza cada página html usando tags o nekohtml. Esto es bueno. Necesito extraer solo texto dentro de <span class=''xxx''> y <span class=''yyy''> elemetns en la página web. Sería genial si los textos extraídos se guardan en diferentes campos (por ejemplo, content_yyy , content_yyy ). Mi pregunta es: ¿debería escribir mi propio plugin o esto podría hacerse usando una forma estándar?

La mejor manera sería aplicar XSLT en la página web normalizada y obtener el resultado. ¿Es eso posible?

Construir su propio ParsingFilter e IndexingFilter es fácil. Nutch le proporciona el documento DOM, que solo necesita recorrer y buscar su div. Luego simplemente agrega los nuevos campos a su índice y esquema y listo.

Hay algunos ejemplos sobre cómo hacer esto:

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

Buena suerte

En lugar de escribir sus propios complementos, también puede usar estos complementos personalizados que se pueden configurar para extraer partes de las páginas:

Por defecto, el contenido es plano después del análisis. Por lo tanto, no creo que pueda hacer lo que quiera, a menos que pueda extraer su contenido en el paso de indexación, es decir, una vez que el contenido haya sido aplanado.