the elk elastic hadoop elasticsearch hbase hdfs bigdata

hadoop - elk - suite elasticsearch



elasticsearch vs hbase/hadoop para estadísticas en tiempo real (1)

Estoy iniciando millones de pequeños documentos de registro semanalmente para hacer:

  • consultas ad hoc para la minería de datos
  • unir, comparar, filtrar y calcular valores
  • muchos muchos búsqueda de texto completo con python
  • ejecutar estas operaciones con todos los millones de documentos, algunas veces todos los días

Mi primer pensamiento fue poner todos los documentos en HBase / HDFS y ejecutar trabajos de Hadoop generando resultados de estadísticas.

El problema es que algunos de los resultados deben ser casi en tiempo real.

Entonces, después de algunas investigaciones, descubrí ElasticSearch y ahora estoy pensando en transferir todos los millones de documentos y usar DSL-Queries para generar resultados de estadísticas.

¿Es esta una buena idea? ElasticSearch parece ser tan fácil de manejar con millones / miles de millones de documentos.