drupal solr apache-tika solr-cell

drupal - Conseguir que ExtractingRequestHandler funcione en Solr



apache-tika solr-cell (1)

Si está ejecutando Solr desde el directorio de ejemplo con la configuración de embarcadero, debería ejecutarse tal cual sin cambios.

Sin embargo, para la configuración multinúcleo, deberá copiar los archivos jar en el directorio lib .

Si comprueba solrconfig en las carpetas de ejemplo, incluye los archivos jar para la celda de solr y las bibliotecas de extracción.

solrconfig.xml -

Descomenta esta línea para incluir todas las jarras lib -

<lib dir="./lib" />

Copie los archivos jar de estas carpetas a su carpeta lib multicore. Estos frascos para utilizar para la extracción. (Apache pdfbox, poi, fontbox, etc.)

<lib dir="../../dist/" regex="apache-solr-cell-/d.*/.jar" /> <lib dir="../../contrib/extraction/lib" />

Cuando inicies Solr, deberías ver todos los frascos cargados. Debería hacerte trabajar.

Intento que Solr trabaje con Tika para poder indexar documentos Word y PDF en mi sitio web Drupal. Miré la página Wiki y esta página e indican que agregan un requestHandler en solrconfig.xml. Lo hice y ahora Solr arroja una excepción:

org.apache.solr.common.SolrException: Error al cargar la clase ''org.apache.solr.handler.extraction.ExtractingRequestHandler''

Hice algunas búsquedas y veo que otros han tenido este problema pero no ven una solución fácil. Estoy usando Solr 3.4.0 en Windows Server 2003. ¿Alguna idea sobre cómo resolver esto?

Como nota al margen, tengo a Drupal usando Solr para buscar y eso está funcionando. Pero lo que no puedo hacer es tener documentos PDF y Word de índice Solr. Estoy seguro de que esta es una necesidad común para la mayoría de los sitios web, pero he pasado días en esto y no puedo creer que esté tan mal documentada y sea tan difícil de descifrar.