hadoop - ¿Qué es Dremel de Google? ¿Cómo es diferente de Mapreduce?
google-bigquery abstraction (3)
MapReduce es un algoritmo abstracto para dividir un problema, distribuirlo y combinar los resultados. Dremel parece ser una herramienta específica para consultar y analizar conjuntos de datos.
Google Dremel se describe aquí . ¿Cuál es la diferencia entre Dremel y Mapreduce?
Mira este article . Dremel es lo que el futuro de la colmena debe ser (y será).
El principal problema de MapReduce y las soluciones, como Pig, Hive, etc., es que tienen una latencia inherente entre ejecutar el trabajo y obtener la respuesta. Dremel utiliza un enfoque totalmente novedoso (salió en 2010 en ese papel de Google) que ...
... usa un motor de ejecución de consultas novedoso basado en árboles agregadores ...
... para ejecutar casi en tiempo real , interactivas y consultas adhoc, que MapReduce no puede. Y Pig y Hive no son tiempo real
Deberías estar atento a los projects que surjan de esto. Es muy nuevo para mí también ... ¡así que cualquier otro comentario experto es bienvenido!
Edit: Dremel es lo que debería ser el futuro de HIVE (y no MapReduce como mencioné antes). Hive en este momento proporciona una interfaz similar a SQL para ejecutar trabajos de MapReduce. La colmena tiene una latencia muy alta, por lo que no es práctica en el análisis de datos ad-hoc. Dremel proporciona una interfaz similar a SQL muy rápida para los datos mediante el uso de una técnica diferente a la de MapReduce.
Dremel y MapReduce no son directamente comparables, sino que son tecnologías complementarias.
MapReduce no está específicamente diseñado para analizar datos, sino que es un marco de software que permite que una colección de nodos aborde los problemas computacionales distribuidos para grandes conjuntos de datos.
Dremel es una herramienta de análisis de datos diseñada para ejecutar rápidamente consultas en conjuntos de datos masivos y estructurados (como archivos de registro o de eventos). Es compatible con una sintaxis similar a SQL, pero aparte de las tablas anexas, es de solo lectura. No es compatible con la actualización o creación de funciones, ni tiene índices de tabla. Los datos están organizados en un formato "columnar", lo que contribuye a una velocidad de consulta muy rápida. El producto BigQuery de Google es una implementación de Dremel accesible a través de la API RESTful.
Hadoop (una implementación de código abierto de MapReduce) junto con el software de almacenamiento de datos "Hive", también permite el análisis de datos para conjuntos de datos masivos utilizando una sintaxis de estilo SQL. Hive esencialmente convierte las consultas en funciones de MapReduce. A diferencia del uso de un formato ColumIO, Hive intenta hacer consultas rápidas mediante el uso de técnicas como la indexación de tablas.