cluster aws hadoop amazon-web-services

hadoop - aws - cluster emr



Hadoop en EC2 vs Elastic Map Reduce (2)

Estoy tratando de evaluar las diferencias entre estas dos opciones. Aquí hay algunos pros y contras que puedo pensar:

Elastic Map Reduce => Mejor soporte de Amazon, No es necesario administrar el clúster, Más costoso (?) EC2 + Hadoop => Más control de su configuración de hadoop, Más barato (?)

Me pregunto si alguien podría haber evaluado el rendimiento de EC2 + Hadoop vis a vis EMR? ¿Hay alguna diferencia significativa en el costo para las implementaciones de clúster de gran tamaño? ¿Qué otras diferencias existen?


Usamos ambos enfoques (EMR y EC2) en mi trabajo.

Las ventajas de EMR que mencionó Amar son más o menos ciertas: así que si quieres simplicidad, puede ser el camino a seguir.

Pero hay otras consideraciones:

  • la versión de EMR está muy por detrás de apache head. es aproximadamente 0.20.205 mientras que la cabeza está en 2.X, que es esencialmente 3 versiones arriba (1.0, 1.1, 2.0 ..)

hadoop @ domU-12-31-39-07-B9-97: ~ $ ll hadoop * .jar lrwxrwxrwx 1 hadoop hadoop 73 feb 5 12:00 hadoop-examples-0.20.205.jar -> / home / hadoop /. versiones / 0.20.205 / share / hadoop / hadoop-examples-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 feb 5 12:00 hadoop-test-0.20.205.jar -> /home/hadoop/.versions/0.20. 205 / share / hadoop / hadoop-test-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 feb 5 12:00 hadoop-core-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/ hadoop / hadoop-core-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 70 feb 5 12:00 hadoop-tools-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop- herramientas-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 68 feb 5 12:00 hadoop-ant-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-ant-0.20. 205.jar

  • Como consecuencia directa tuve que volver a codificar / reestructurar mi programa Map / reduce debido a la falta de módulos contrib en la versión anterior que se ejecuta en EMR

  • No tiene la oportunidad de utilizar algoritmos que no sean Map / Reduce como si estuviera usando una versión actualizada de M / R.

  • Flexibilidad para mezclar y combinar versiones del ecosistema hadoop.


Bueno, administrar / monitorear / mantener un clúster no es una tarea pequeña en sí misma. Al usar EMR realmente puede configurar las máquinas configuradas y en funcionamiento con su código de arranque personalizado en muy poco tiempo. Además de hacer todo esto, EMR ofrece muchas otras herramientas / opciones / instalaciones.

Aquí no tiene que preocuparse por la terminación de un clúster una vez finalizados los trabajos, seguramente puede implementar una forma para usted en la configuración de EC2 + Hadoop, pero EMR lo hace por usted de una manera ordenada.

¡También tiene la posibilidad de cambiar el tamaño del clúster incluso mientras sus trabajos se están ejecutando!

El Pig y Hive que están disponibles con EMR también contienen parches que facilitan el trabajo con archivos en S3.

Incluso aquí, en esta respuesta, puede encontrar que EMR ha tenido una ventaja.