search lucene google-search-appliance

Apache Lucene vs Google Search Appliance



google-search-appliance (1)

¿Alguien ha encontrado las características de Apache Lucene? Escuché que es incluso comparable a Google Search Appliance (GSA). Estaba buscando una comparación definitiva entre los dos, si es posible?

Esas comparaciones disponibles en línea son bastante vagas.


Probablemente sea difícil encontrar una comparación entre Apache Lucene y Google Search Appliance porque son cosas muy diferentes. Si bien Lucene es un componente de software para la indexación de documentos con relevancia básica "reforzada" incorporada, GSA es un producto de búsqueda empresarial (dispositivo / hardware físico) con gran cantidad de funcionalidades listas para usar para optimizar y optimizar los resultados de búsqueda basados ​​en del algoritmo de búsqueda de Google.

Básicamente, son dos grandes herramientas con diferentes escenarios de implementación. Pero, por supuesto, se superponen, especialmente si se utilizan para proporcionar búsquedas en su sitio web promedio.

De la parte superior de mi cabeza algunos temas con los que podrías comenzar para una comparación:

Despliegue / Arquitectura

  • Lucene es un componente de software que se puede integrar profundamente en su propio software y proporciona un índice (generalmente basado en archivos, a veces en la memoria) para indexar y recuperar contenido rápidamente.
  • El proyecto lucene proporciona una lista bastante grande de analizadores para realizar una correcta indexación de diferentes idiomas (idiomas occidentales, árabe, asiático, etc.) pero tiene espacio para mejoras con los analizadores
  • Lucene para .Net es un puerto bastante popular para integrarse en las plataformas de Microsoft .Net.
  • Software y hardware de GSA agrupados y vendidos como un dispositivo con una interfaz HTTP (s) que proporciona los resultados de búsqueda en HTML (a través de sus propios XSLT) o XML (para una mejor integración en su sitio web)
  • GSA viene con paquetes de idiomas (instalados y descargables). Tendrías que elegir uno de los paquetes. Si necesita soporte para más idiomas, es posible que necesite agregar otra GSA a la infraestructura (si todos los idiomas requeridos no están en un solo paquete)
  • GSA se está desempeñando excelente y requiere muy poco mantenimiento
  • GSA le permite escalar casi sin esfuerzo de ingeniería. distribuidos globalmente, pero los GSA conectados se pueden configurar a través de la interfaz web
  • GSA se puede hacer HA mediante la compra de un módulo de copia de seguridad en caliente más barato

Indexación

  • Lucene proporciona rastreadores (y una API de rastreador) para indexar contenido. No importa si su rastreador realmente rastrea el sitio web como Google o si rastrea una base de datos basada en sentencias de SQL o proporciona una secuencia de texto leída desde archivos planos. Pero normalmente tiene que implementar el rastreador si el proporcionado no se ajusta a sus necesidades
  • GSA utiliza la tecnología de rastreo utilizada por Google, respetando las instrucciones de Robots (en las etiquetas TXT o Meta), proporciona una API de feed para las fuentes que no pueden ser rastreadas (es decir, sin vinculación entre ellas) y admite la configuración de consultas SQL para todos los DB principales. para recuperar el nivel de datos de una base de datos (ya sean las direcciones URL para rastrear o los datos en sí)

Recuperación / ajuste de relevancia

  • Lucene no apunta y no tiene un buen soporte para el ajuste de relevancia (excepto para aumentar las entradas en el índice). Depende de la aplicación que utilice los resultados del índice para realizar la optimización.
  • Lucene es el índice utilizado por SOLR que proporciona ajustes y arquitecturas más similares a una GSA (incluido el nivel de resultados a través de HTTP (s))
  • GSA le permite sesgar los conjuntos de resultados en función de metadatos, fecha y patrones de URL. En la última versión, incluso puede configurar sus propias entidades y sesgar los resultados en función de ellas.
  • GSA soporta facetas listas para usar para metadatos y algunas cosas más sofisticadas en su interfaz, como imágenes de vista previa de documentos, autosugerencias, etc.

Cosas comerciales

  • Lucene es un producto de código abierto (sin costo), pero requiere que se compre hardware
  • GSA comienza en alrededor de $ 20k para 500k documentos / URL
  • Google proporciona varios niveles de soporte
  • Las licencias de GSA se deben renovar cada 2 o 3 años (se obtiene un nuevo hardware)
  • GSA no requiere ningún hardware adicional (el dispositivo está incluido)

... hay mucho más que agregar, pero espero que entiendas el punto.

Actualización febrero 2016:

Google ha informado a los socios que la GSA se suspenderá alrededor de 2019. El mejor sitio para enlazar en este momento parece ser http://fortune.com/2016/02/04/google-ends-search-appliance/ .