hadoop - example - ¿Es Hive más rápido que Spark?
apache hive (2)
Después de leer ¿Qué es la colmena, es una base de datos? , un colega de ayer mencionó que fue capaz de filtrar una tabla de 15B, unirla a otra tabla después de hacer un "grupo por", lo que dio como resultado registros de 6B, ¡en solo 10 minutos! Me pregunto si esto sería más lento en Spark, ya que ahora con los DataFrames, pueden ser comparables, pero no estoy seguro, de ahí la pregunta.
¿Es Hive más rápido que Spark? O esta pregunta no tiene sentido? Lo siento, por mi ignorancia.
Utiliza el último Hive, que parece estar usando Tez.
Hive es solo un marco que le da funcionalidad SQL a cargas de trabajo de tipo MapReduce.
Estas cargas de trabajo pueden ejecutarse en mapreduce o hilo.
Entonces, comparando colmena en tez vs colmena en chispa. Buen artículo a continuación que discute esto Cuándo ir con ETL en Hive usando Tez VS ¿Cuándo ir con Spark ETL? (Gist usa colmena en chispa si no está seguro).
Bajar el mejor
Spark es conveniente, pero no maneja correctamente la escala en lo que respecta al rendimiento de SQL.
Hive tiene un soporte increíble para uniones compartidas. Cuando las tablas que se unen tienen cientos de millones o miles de millones de filas, realmente apreciarán el soporte de unión de grano fino a través de:
- similar
distribute by
ysort by
(ocluster by
) -
bucketed joins
Hive tiene un amplio soporte para metadata-only queries
de metadata-only queries
: Spark solo ha tenido un atisbo de él desde 2.1
Spark se agota rápidamente cuando la cantidad de particiones supera los 10K +. Hive no sufre de esta limitación.