hadoop - elk - suite elasticsearch
elasticsearch vs hbase/hadoop para estadísticas en tiempo real (1)
Estoy iniciando millones de pequeños documentos de registro semanalmente para hacer:
- consultas ad hoc para la minería de datos
- unir, comparar, filtrar y calcular valores
- muchos muchos búsqueda de texto completo con python
- ejecutar estas operaciones con todos los millones de documentos, algunas veces todos los días
Mi primer pensamiento fue poner todos los documentos en HBase / HDFS y ejecutar trabajos de Hadoop generando resultados de estadísticas.
El problema es que algunos de los resultados deben ser casi en tiempo real.
Entonces, después de algunas investigaciones, descubrí ElasticSearch y ahora estoy pensando en transferir todos los millones de documentos y usar DSL-Queries para generar resultados de estadísticas.
¿Es esta una buena idea? ElasticSearch parece ser tan fácil de manejar con millones / miles de millones de documentos.
- Para la búsqueda en tiempo real Analytics Elastic Search es una buena opción.
- Definitivamente más fácil de instalar y manejar que Hadoop / HBase / HDFS.
- Comparación de Elastic-Search vs HBase Good: http://db-engines.com/en/system/Elasticsearch%3BHBase