usa tutorial que puerto para instalar index español elastic crear comandos aplicaciones pdf solr elasticsearch ms-office

tutorial - Uso de ElasticSearch y/o Solr como almacén de datos para documentos de MS Office y PDF



para que se usa elastic search (4)

Actualmente estoy diseñando un sistema de búsqueda de texto completo en el que los usuarios realizan consultas de texto en los documentos MS Office y PDF, y el resultado arroja una lista de los documentos que mejor se ajustan a la consulta. Luego, el usuario seleccionará cualquier documento devuelto y verá ese documento dentro de MS Word, Excel o un visor de PDF.

¿Puedo usar ElasticSearch o Solr para importar los documentos binarios sin formato (es decir, archivos .docx, .xlsx, .pdf) en su "almacén de datos" y luego exportar el documento al dispositivo del usuario con el comando para verlo.

Previamente, utilicé MongoDB 2.6.6 para importar los archivos sin procesar en GridFS y el texto extraído en una colección separada (la colección contenía un índice de texto) y eso funcionó bien. Sin embargo, la búsqueda de texto completo de MongoDB es bastante básica y, por lo tanto, ahora estoy buscando Solr o ElasticSearch para realizar búsquedas de texto más complejas.

Mella


En cuanto a solr:

Si solo es necesario devolver los documentos en las búsquedas de metadatos, Solr presenta un tipo de campo BinaryField, al que puede enviar datos binarios64 codificados.Ten en cuenta que, en general, la gente recomienda no hacerlo, ya que puede aumentar su índice (requisitos de RAM / rendimiento), y si es posible una configuración en la que almacene los archivos externamente (y la ruta al archivo en solr) podría ser una mejor opción.

Si quiere que solr indexe automáticamente el texto dentro del pdf / doc, eso es posible con extractingrequesthandler: https://wiki.apache.org/solr/ExtractingRequestHandler


Intentaría con el complemento de archivo adjunto Elasticsearch. Detalles pueden ser encontrados aqui:

https://www.elastic.co/guide/en/elasticsearch/plugins/2.2/mapper-attachments.html

https://github.com/elasticsearch/elasticsearch-mapper-attachments

Está construido encima de Apache Tika:

http://tika.apache.org/1.7/formats.html

Tipo de Adjunto

El tipo de archivo adjunto permite indexar diferentes campos de tipo "archivo adjunto" (codificados como base64), por ejemplo, formatos de Microsoft Office, formatos de documentos abiertos, ePub, HTML, etc. (la lista completa se puede encontrar aquí).

El tipo de archivo adjunto se proporciona como una extensión de complemento. El complemento es un archivo zip simple que se puede descargar y ubicar en $ ES_HOME / plugins location. Se detectará automáticamente y se agregará el tipo de archivo adjunto.

Formatos de documentos admitidos

  • Lenguaje de marcado de hipertexto

  • XML y formatos derivados

  • Formatos de documentos de Microsoft Office
  • Formato OpenDocument
  • formatos de documentos de iWorks
  • Formato de Documento Portable
  • Formato de publicación electrónica
  • Formato de texto enriquecido
  • Formatos de compresión y empaque
  • Formatos de texto
  • Formatos de alimentación y sindicación
  • Formatos de ayuda
  • Formatos de audio
  • Formatos de imagen
  • Formatos de video
  • Archivos de clase Java y archivos
  • Código fuente
  • Formatos de correo
  • Formatos CAD
  • Formatos de fuente
  • Formatos científicos
  • Programas ejecutables y bibliotecas
  • Formatos criptográficos

Tanto Solr como Elasticsearch indexarán el contenido del documento. Solr tiene ese built-in, Elasticsearch necesita un complemento. De cualquier manera, ambos usan Tika bajo las sábanas.

Ninguno de ellos almacenará el documento en sí. Puedes intentar hacer que lo hagan, pero no están diseñados para eso y sufrirás.

Además, ni Solr ni Elasticsearch se recomiendan actualmente como almacenamiento primario. Pueden hacerlo, pero no es tan crítico para ellos como, digamos, para la implementación de un sistema de archivos.

Por lo tanto, recomendaría tener los archivos en otro lugar y usar Solr / Elasticsearch solo para buscar. Ahí es donde brillan.


Elasticsearch do almacena documentos (.pdfs, .docs por ejemplo) en el campo _source . Se puede utilizar como un datastore NoSQL (igual que MongoDB).