solr nutch

solr - Apache Nutch para indexar solo parte del contenido de la página



(3)

Voy a utilizar Apache Nutch v1.3 para extraer solo contenido específico de las páginas web. Comprobado el plugin parse-html. Parece que normaliza cada página html usando tags o nekohtml. Esto es bueno. Necesito extraer solo texto dentro de <span class=''xxx''> y <span class=''yyy''> elemetns en la página web. Sería genial si los textos extraídos se guardan en diferentes campos (por ejemplo, content_yyy , content_yyy ). Mi pregunta es: ¿debería escribir mi propio plugin o esto podría hacerse usando una forma estándar?

La mejor manera sería aplicar XSLT en la página web normalizada y obtener el resultado. ¿Es eso posible?




Por defecto, el contenido es plano después del análisis. Por lo tanto, no creo que pueda hacer lo que quiera, a menos que pueda extraer su contenido en el paso de indexación, es decir, una vez que el contenido haya sido aplanado.