tutorial ejemplos solr nutch apache-tika

ejemplos - cómo analizar html con nutch y indexar etiqueta específica a solr?



apache solr ejemplos (4)

He instalado nutch y solr para rastrear un sitio web y buscar en él; como saben, podemos indexar metaetiquetas de páginas web en solr con parse meta tags plugin of nutch. (http://wiki.apache.org/nutch/IndexMetatags) ahora quiero saber si hay alguna manera de rastrear otra etiqueta html para solr que no es meta? (plugin o de todos modos) como este:

<div id=something> me specific tag </div>

de hecho, quiero agregar un campo a solr (algo) que tenga el valor de "me tag específico" en esta página.

¿alguna idea?


Es posible que desee comprobar Nutch Plugin, que debería permitirle extraer un elemento de una página web.


Hice mi propio plugin para algo similar que desea. El archivo de configuración para mapear NutchDocument a SolrDocument está en $ NUTCH_HOME / conf / solrindex-mapping.xml . Aquí puedes agregar tus propias etiquetas. Pero aún tienes que llenar tus propias etiquetas en algún lugar.

Aquí hay algunos consejos para el complemento:

  • lee http://wiki.apache.org/nutch/WritingPluginExample , aquí puedes encontrar cómo hacer que tu plugin sea muy simple
  • en su complemento extienda el ParseFilter y el IndexingFilter.
  • en YourParseFilter puedes usar NodeWalker para encontrar tu div específico
  • su información analizada pone en metadatos de página como este

    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));

  • en YourIndexingFilter agrega los metadatos de la página (page.getMetadata) a NutchDocument

    doc.add("your_specific_tag", value);

  • ¡¡¡¡¡lo más importante!!!!!

  • pon tu etiqueta_específica a los archivos de:

    • Archivo de configuración Solr schema.xml (y reiniciar Solr)

    nombre del campo = "your_specific_tag" type = "string" stored = "true" indexed = "true"

    • Archivo de configuración de Nutch schema.xml (no sé si es realmente necesario)
    • Archivo de configuración de Nutch solrindex-mapping.xml

    campo dest = "your_specific_tag" source = "your_specific_tag"