ejemplos - cómo analizar html con nutch y indexar etiqueta específica a solr?
apache solr ejemplos (4)
He instalado nutch y solr para rastrear un sitio web y buscar en él; como saben, podemos indexar metaetiquetas de páginas web en solr con parse meta tags plugin of nutch. (http://wiki.apache.org/nutch/IndexMetatags) ahora quiero saber si hay alguna manera de rastrear otra etiqueta html para solr que no es meta? (plugin o de todos modos) como este:
<div id=something>
me specific tag
</div>
de hecho, quiero agregar un campo a solr (algo) que tenga el valor de "me tag específico" en esta página.
¿alguna idea?
Es posible que desee comprobar Nutch Plugin, que debería permitirle extraer un elemento de una página web.
Hice mi propio plugin para algo similar que desea. El archivo de configuración para mapear NutchDocument a SolrDocument está en $ NUTCH_HOME / conf / solrindex-mapping.xml . Aquí puedes agregar tus propias etiquetas. Pero aún tienes que llenar tus propias etiquetas en algún lugar.
Aquí hay algunos consejos para el complemento:
- lee http://wiki.apache.org/nutch/WritingPluginExample , aquí puedes encontrar cómo hacer que tu plugin sea muy simple
- en su complemento extienda el ParseFilter y el IndexingFilter.
- en YourParseFilter puedes usar NodeWalker para encontrar tu div específico
su información analizada pone en metadatos de página como este
page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));
en YourIndexingFilter agrega los metadatos de la página (page.getMetadata) a NutchDocument
doc.add("your_specific_tag", value);
¡¡¡¡¡lo más importante!!!!!
pon tu etiqueta_específica a los archivos de:
- Archivo de configuración Solr schema.xml (y reiniciar Solr)
nombre del campo = "your_specific_tag" type = "string" stored = "true" indexed = "true"
- Archivo de configuración de Nutch schema.xml (no sé si es realmente necesario)
- Archivo de configuración de Nutch solrindex-mapping.xml
campo dest = "your_specific_tag" source = "your_specific_tag"
tienes que probar http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.html el tutorial dice img tag cómo obtener y cuáles son todos los pasos que mencionamos ... .
Puede usar uno de estos complementos personalizados para analizar archivos xml basados en xpath (o selectores css):