lucene - instalar - solr vs elasticsearch

¿Cómo creamos un motor de búsqueda simple usando Lucene, Solr o Nutch? (10)

Nuestra empresa tiene miles de documentos PDF. ¿Cómo creamos un motor de búsqueda simple usando Lucene, Solr o Nutch? Proporcionaremos una página web básica de Java / JSP donde las personas pueden escribir en palabras y realizar consultas básicas y / o consultas, y luego mostrarles los enlaces a los documentos de todos los PDF correspondientes.

Eche un vistazo a eprints . Incluye un flujo de trabajo para agregar nuevos documentos, automáticamente indexa y miniaturas en PDF y tiene una funcionalidad bastante completa de búsqueda de texto completo. También se puede personalizar y marcar fácilmente.

Por qué reinventar la rueda. De nuevo.

Google Search Appliance http://www.google.com/enterprise/gsa/

He tenido buena suerte con lucene, pero no es hacer clic, instalar y buscar, requiere un poco de trabajo.
Si necesita algo que pueda descargar e instalar, y esté buscando dentro de los 10 minutos, mire la versión gratuita de Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/ , usa Lucene, pero está empaquetado de manera tal que está configurado y listo para funcionar luego de la instalación, una forma mucho más fácil de probar Lucene.

Responder una pregunta tan amplia en este foro será difícil. Te recomendaría que revises el libro Lucene in Action , que trata los aspectos básicos de la indexación y la búsqueda de una manera bastante legible.

Dada su solicitud, parece que Nutch y Solr probablemente no sean necesarios. Dado que todos sus documentos están disponibles localmente, Nutch probablemente no sea útil. Solr puede ayudarlo a administrar un conjunto de buscadores si tiene una alta carga de consultas, pero Lucene tiene un alto rendimiento y maneja grandes conjuntos de documentos de una manera muy escalable.

La única área que podría consumir mucho de su esfuerzo es el uso de PDF. Es posible indexar documentos PDF, y existen contribuciones de Lucene para facilitar la extracción de texto en bruto de archivos PDF , pero dependiendo del documento, la calidad de los resultados puede variar. A menudo, el contexto de una palabra clave en un documento PDF no está claro debido a las instrucciones de formato, y eso puede hacer que sea difícil hacer búsquedas de proximidad o mostrar el contexto de un golpe.

Si tiene un servidor Linux, podría usar Beagle para indexarlos, y luego simplemente usar la funcionalidad de búsqueda que viene con él. Tiene una interfaz de búsqueda web (experimental) y también puede engancharse en el cuadro de búsqueda de Firefox.

Indexa automáticamente los archivos tal como están incluidos, y sospecho que será mucho más eficiente mejorar o reparar Beagle que escribir tu propia interfaz de búsqueda en Lucene.

Teniendo la ventaja (imho) distinta de estar en una Mac, utilizo SearchLight en un G5 algo más antiguo. buena interfaz web para destacar, el servicio de indexación incorporado de Mac OS.

Ninguno de los proyectos de la familia Lucene puede procesar archivos PDF de forma nativa, pero hay utilidades que puede incluir y ejemplos bien escritos sobre cómo implementar los suyos propios.

Lucene hará prácticamente todo lo que necesites para hacer, pero hay una sobrecarga en términos de tu tiempo, como dijo Tony anteriormente. Miles de documentos realmente no son tantos, por lo que es posible que pueda salirse con la suya con una alternativa más ligera.

Dicho esto, aún recomendaría mirar a Solr: es mucho, mucho más fácil de configurar que Lucene, tiene soporte para copias de seguridad, replicación, etc., así como una ingeniosa interfaz JSON que se ajustaría muy bien a su caso de uso: http: //wiki.apache.org/solr/SolJSON

El plugin Nutch + Lucene + Pdf habilitado en Nutch es su solución. Nutch le permite analizar pdfs habilitando el plugin pdf.

Lucene le permitirá indexar los datos rastreados y analizados y Nutch tiene servicio que le proporciona una interfaz de búsqueda.

Usamos lo mismo para nuestras líneas internas.

Una gran tecnología de búsqueda gratuita que puede ver es IBM Yahoo! búsqueda gratuita. No estoy seguro de si siguieron los planes para usar Lucene bajo las sábanas, pero sigue siendo uno de los mejores para usar las tecnologías de búsqueda gratuitas en el este. Maneja hasta 500K documentos, creo, y es compatible con PDF y otros formatos que no sean de texto. Interfaz gráfica de usuario; fácil de personalizar resultados de búsqueda y análisis de búsqueda básicos. Tesauro básico y poderosa API para que pueda hacer prácticamente lo que quiera si los resultados inmediatos no son de su agrado. Hemos sugerido esto a una serie de clientes donde había menos de medio millón de documentos, y les encanta.

Creo que quieres un sistema para administrar tu archivo PDF. Intenta usar el sistema dspace. Dspace es una biblioteca digital, admite Lucene basado en. www.dspace.org.