Servicios web de Amazon - Elastic MapReduce
Amazon Elastic MapReduce (EMR) es un servicio web que proporciona un marco administrado para ejecutar marcos de procesamiento de datos como Apache Hadoop, Apache Spark y Presto de una manera fácil, rentable y segura.
Se utiliza para análisis de datos, indexación web, almacenamiento de datos, análisis financiero, simulación científica, etc.
¿Cómo configurar Amazon EMR?
Siga estos pasos para configurar Amazon EMR:
Step 1 - Inicie sesión en la cuenta de AWS y seleccione Amazon EMR en la consola de administración.
Step 2- Cree un bucket de Amazon S3 para registros de clúster y datos de salida. (El procedimiento se explica en detalle en la sección Amazon S3)
Step 3 - Lanzar el clúster de Amazon EMR.
Los siguientes son los pasos para crear un clúster y lanzarlo a EMR.
Utilice este enlace para abrir la consola de Amazon EMR: https://console.aws.amazon.com/elasticmapreduce/home
Seleccione crear clúster y proporcione los detalles necesarios en la página Configuración del clúster.
Deje las opciones de la sección Etiquetas como predeterminadas y continúe.
En la sección Configuración de software, nivele las opciones por defecto.
En la sección Configuración del sistema de archivos, deje las opciones para EMRFS como están configuradas de forma predeterminada. EMRFS es una implementación de HDFS, permite a los clústeres de Amazon EMR almacenar datos en Amazon S3.
En la sección Configuración de hardware, seleccione m3.xlarge en el campo de tipo de instancia EC2 y deje las demás configuraciones como predeterminadas. Haga clic en el botón Siguiente.
En la sección Seguridad y acceso, para el par de claves EC2, seleccione el par de la lista en el campo Par de claves EC2 y deje las demás configuraciones como predeterminadas.
En la sección Acciones de Bootstrap, deje los campos como están configurados por defecto y haga clic en el botón Agregar. Las acciones de arranque son scripts que se ejecutan durante la configuración antes de que Hadoop se inicie en cada nodo del clúster.
En la sección Pasos, deje la configuración como predeterminada y continúe.
Haga clic en el botón Crear clúster y se abrirá la página Detalles del clúster. Aquí es donde deberíamos ejecutar el script de Hive como un paso de clúster y usar la interfaz web de Hue para consultar los datos.
Step 4 - Ejecute el script de Hive siguiendo los siguientes pasos.
Abra la consola de Amazon EMR y seleccione el clúster deseado.
Vaya a la sección Pasos y expándala. Luego haga clic en el botón Agregar paso.
Se abre el cuadro de diálogo Agregar paso. Complete los campos obligatorios, luego haga clic en el botón Agregar.
Para ver la salida del script de Hive, siga los siguientes pasos:
Abra la consola de Amazon S3 y seleccione el bucket de S3 utilizado para los datos de salida.
Seleccione la carpeta de salida.
La consulta escribe los resultados en una carpeta separada. Seleccioneos_requests.
La salida se almacena en un archivo de texto. Este archivo se puede descargar.
Beneficios de Amazon EMR
Los siguientes son los beneficios de Amazon EMR:
Easy to use - Amazon EMR es fácil de usar, es decir, es fácil de configurar el clúster, la configuración de Hadoop, el aprovisionamiento de nodos, etc.
Reliable - Es confiable en el sentido de que vuelve a intentar las tareas fallidas y reemplaza automáticamente las instancias de bajo rendimiento.
Elastic- Amazon EMR permite calcular una gran cantidad de instancias para procesar datos a cualquier escala. Aumenta o disminuye fácilmente el número de instancias.
Secure - Configura automáticamente la configuración del firewall de Amazon EC2, controla el acceso a la red a las instancias, lanza clústeres en una Amazon VPC, etc.
Flexible- Permite un control completo sobre los clústeres y el acceso root a cada instancia. También permite la instalación de aplicaciones adicionales y personaliza su clúster según los requisitos.
Cost-efficient- Su precio es fácil de estimar. Cobra cada hora por cada instancia utilizada.