solr - Apache Nutch para indexar solo parte del contenido de la página
(3)
Voy a utilizar Apache Nutch v1.3
para extraer solo contenido específico de las páginas web. Comprobado el plugin parse-html. Parece que normaliza cada página html usando tags o nekohtml. Esto es bueno. Necesito extraer solo texto dentro de <span class=''xxx''>
y <span class=''yyy''>
elemetns en la página web. Sería genial si los textos extraídos se guardan en diferentes campos (por ejemplo, content_yyy
, content_yyy
). Mi pregunta es: ¿debería escribir mi propio plugin o esto podría hacerse usando una forma estándar?
La mejor manera sería aplicar XSLT en la página web normalizada y obtener el resultado. ¿Es eso posible?
Construir su propio ParsingFilter e IndexingFilter es fácil. Nutch le proporciona el documento DOM, que solo necesita recorrer y buscar su div. Luego simplemente agrega los nuevos campos a su índice y esquema y listo.
Hay algunos ejemplos sobre cómo hacer esto:
http://wiki.apache.org/nutch/HowToMakeCustomSearch
http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html
Buena suerte
En lugar de escribir sus propios complementos, también puede usar estos complementos personalizados que se pueden configurar para extraer partes de las páginas:
Por defecto, el contenido es plano después del análisis. Por lo tanto, no creo que pueda hacer lo que quiera, a menos que pueda extraer su contenido en el paso de indexación, es decir, una vez que el contenido haya sido aplanado.