Servicios web de Amazon - Elastic MapReduce

Amazon Elastic MapReduce (EMR) es un servicio web que proporciona un marco administrado para ejecutar marcos de procesamiento de datos como Apache Hadoop, Apache Spark y Presto de una manera fácil, rentable y segura.

Se utiliza para análisis de datos, indexación web, almacenamiento de datos, análisis financiero, simulación científica, etc.

¿Cómo configurar Amazon EMR?

Siga estos pasos para configurar Amazon EMR:

Step 1 - Inicie sesión en la cuenta de AWS y seleccione Amazon EMR en la consola de administración.

Step 2- Cree un bucket de Amazon S3 para registros de clúster y datos de salida. (El procedimiento se explica en detalle en la sección Amazon S3)

Step 3 - Lanzar el clúster de Amazon EMR.

Los siguientes son los pasos para crear un clúster y lanzarlo a EMR.

  • Deje las opciones de la sección Etiquetas como predeterminadas y continúe.

  • En la sección Configuración de software, nivele las opciones por defecto.

  • En la sección Configuración del sistema de archivos, deje las opciones para EMRFS como están configuradas de forma predeterminada. EMRFS es una implementación de HDFS, permite a los clústeres de Amazon EMR almacenar datos en Amazon S3.

  • En la sección Configuración de hardware, seleccione m3.xlarge en el campo de tipo de instancia EC2 y deje las demás configuraciones como predeterminadas. Haga clic en el botón Siguiente.

  • En la sección Seguridad y acceso, para el par de claves EC2, seleccione el par de la lista en el campo Par de claves EC2 y deje las demás configuraciones como predeterminadas.

  • En la sección Acciones de Bootstrap, deje los campos como están configurados por defecto y haga clic en el botón Agregar. Las acciones de arranque son scripts que se ejecutan durante la configuración antes de que Hadoop se inicie en cada nodo del clúster.

  • En la sección Pasos, deje la configuración como predeterminada y continúe.

  • Haga clic en el botón Crear clúster y se abrirá la página Detalles del clúster. Aquí es donde deberíamos ejecutar el script de Hive como un paso de clúster y usar la interfaz web de Hue para consultar los datos.

Step 4 - Ejecute el script de Hive siguiendo los siguientes pasos.

  • Abra la consola de Amazon EMR y seleccione el clúster deseado.

  • Vaya a la sección Pasos y expándala. Luego haga clic en el botón Agregar paso.

  • Se abre el cuadro de diálogo Agregar paso. Complete los campos obligatorios, luego haga clic en el botón Agregar.

  • Para ver la salida del script de Hive, siga los siguientes pasos:

    • Abra la consola de Amazon S3 y seleccione el bucket de S3 utilizado para los datos de salida.

    • Seleccione la carpeta de salida.

    • La consulta escribe los resultados en una carpeta separada. Seleccioneos_requests.

    • La salida se almacena en un archivo de texto. Este archivo se puede descargar.

Beneficios de Amazon EMR

Los siguientes son los beneficios de Amazon EMR:

  • Easy to use - Amazon EMR es fácil de usar, es decir, es fácil de configurar el clúster, la configuración de Hadoop, el aprovisionamiento de nodos, etc.

  • Reliable - Es confiable en el sentido de que vuelve a intentar las tareas fallidas y reemplaza automáticamente las instancias de bajo rendimiento.

  • Elastic- Amazon EMR permite calcular una gran cantidad de instancias para procesar datos a cualquier escala. Aumenta o disminuye fácilmente el número de instancias.

  • Secure - Configura automáticamente la configuración del firewall de Amazon EC2, controla el acceso a la red a las instancias, lanza clústeres en una Amazon VPC, etc.

  • Flexible- Permite un control completo sobre los clústeres y el acceso root a cada instancia. También permite la instalación de aplicaciones adicionales y personaliza su clúster según los requisitos.

  • Cost-efficient- Su precio es fácil de estimar. Cobra cada hora por cada instancia utilizada.