hadoop - Rendimiento de Apache Drill

hive impala (2)

Hay algunos números de rendimiento en el sitio http://allegro.tech/fast-data-hackathon.html .

En general, vemos que Drill e Impala son comparables en rendimiento para las consultas interactivas, con la diferencia de que Drill es su capacidad de consulta sin definiciones de metadatos y su facilidad de uso al trabajar con datos JSON.

Tenga en cuenta que estas pruebas se encuentran en versiones mucho más antiguas en Drill como 0.8 / 0.9 (tampoco configuradas adecuadamente para la localidad de datos). Ahora Drill es 1.1 con muchas mejoras en SQL (funciones de ventana, etc.) y en el rendimiento.

¿Hay algún punto de referencia de rendimiento (genuinos) que compare Stinger vs Impala vs Drill? Además, lo que es preferible, mi caso de uso será principalmente hacia consultas interactivas ad-hoc en la parte superior de Hive. Gracias.

No se puede hacer un punto de referencia como este, no tiene sentido y nunca se debe confiar en un punto de referencia.

Todo dependerá de sus propios datos, ¿tiene archivos JSON? Prefiero Taladrar. Desea consultar más de 1TB, prefiere Hive y más.

Además, puede considerar el formato de archivo, JSON, Kudu, Parquet o ORC.

Luego viene la optimización, Hive + Tez parece mejor para las consultas de parrarel, pero muy lento para una sola consulta. Mientras que Impala es lo opuesto (MapReduce versus MassiveParrarelProcessing).

Además, debe considerar el recurso de hardware, disco SSD o no, etc.

Lo recomiendo, comience con el archivo Apache Drill + JSON, luego pruebe Apache Drill con Parquet u ORC.

Si desea ayuda, describa exactamente lo que tiene (datos + hardware) y lo que desea.