DynamoDB - MapReduce

Elastic MapReduce (EMR) de Amazon le permite procesar macrodatos de forma rápida y eficiente. EMR ejecuta Apache Hadoop en instancias EC2, pero simplifica el proceso. Utiliza Apache Hive para consultar mapas y reducir los flujos de trabajo a través de HiveQL , un lenguaje de consulta parecido a SQL. Apache Hive sirve como una forma de optimizar las consultas y sus aplicaciones.

Puede usar la pestaña EMR de la consola de administración, la CLI de EMR, una API o un SDK para iniciar un flujo de trabajo. También tiene la opción de ejecutar Hive de forma interactiva o utilizar un script.

Las operaciones de lectura / escritura de EMR afectan el consumo de rendimiento; sin embargo, en solicitudes grandes, realiza reintentos con la protección de un algoritmo de retroceso. Además, la ejecución de EMR al mismo tiempo que otras operaciones y tareas puede provocar una limitación.

La integración de DynamoDB / EMR no admite atributos de conjuntos binarios y binarios.

Requisitos previos de integración de DynamoDB / EMR

Revise esta lista de verificación de los elementos necesarios antes de usar EMR:

  • Una cuenta de AWS
  • Una tabla poblada bajo la misma cuenta empleada en operaciones EMR
  • Una versión personalizada de Hive con conectividad DynamoDB
  • Compatibilidad con conectividad DynamoDB
  • Un cubo S3 (opcional)
  • Un cliente SSH (opcional)
  • Un par de claves EC2 (opcional)

Configuración de Hive

Antes de usar EMR, cree un par de claves para ejecutar Hive en modo interactivo. El par de claves permite la conexión a instancias EC2 y nodos maestros de flujos de trabajo.

Puede realizar esto siguiendo los pasos siguientes:

  • Inicie sesión en la consola de administración y abra la consola EC2 ubicada en https://console.aws.amazon.com/ec2/

  • Seleccione una región en la parte superior derecha de la consola. Asegúrese de que la región coincida con la región de DynamoDB.

  • En el panel de navegación, seleccione Key Pairs.

  • Seleccione Create Key Pair.

  • En el Key Pair Name campo, ingrese un nombre y seleccione Create.

  • Descargue el archivo de clave privada resultante que utiliza el siguiente formato: nombre de archivo.pem.

Note - No puede conectarse a instancias EC2 sin el par de claves.

Clúster de colmena

Cree un clúster habilitado para Hive para ejecutar Hive. Crea el entorno necesario de aplicaciones e infraestructura para una conexión Hive-to-DynamoDB.

Puede realizar esta tarea mediante los siguientes pasos:

  • Acceda a la consola de EMR.

  • Seleccione Create Cluster.

  • En la pantalla de creación, establezca la configuración del clúster con un nombre descriptivo para el clúster, seleccione Yes para protección de terminación y comprobar Enabled para el registro, un destino S3 para log folder S3 locationy Enabled para depurar.

  • En la pantalla Configuración de software, asegúrese de que los campos se mantengan Amazon para la distribución de Hadoop, la última versión para la versión AMI, una versión predeterminada de Hive para las aplicaciones que se instalarán-Hive y una versión predeterminada de Pig para las aplicaciones que se instalarán-Pig.

  • En la pantalla Configuración de hardware, asegúrese de que los campos se mantengan Launch into EC2-Classic para la red, No Preference para EC2 Availability Zone, el valor predeterminado para Master-Amazon EC2 Instance Type, sin verificación para Request Spot Instances, el valor predeterminado para Core-Amazon EC2 Instance Type, 2 para Recuento, sin verificación para Solicitar instancias de spot, el valor predeterminado para Task-Amazon EC2 Instance Type, 0 para el recuento y sin verificación para las instancias de spot de solicitud.

Asegúrese de establecer un límite que proporcione capacidad suficiente para evitar fallas en el clúster.

  • En la pantalla Seguridad y acceso, asegúrese de que los campos contengan su par de claves en el par de claves EC2, No other IAM users en el acceso de usuarios de IAM, y Proceed without roles en función de IAM.

  • Revise la pantalla Acciones de Bootstrap, pero no la modifique.

  • Revise la configuración y seleccione Create Cluster cuando esté terminado.

UNA Summary El panel aparece al inicio del clúster.

Activar sesión SSH

Necesita una sesión SSH activa para conectarse al nodo maestro y ejecutar operaciones CLI. Localice el nodo principal seleccionando el clúster en la consola de EMR. Enumera el nodo maestro comoMaster Public DNS Name.

Instale PuTTY si no lo tiene. Luego inicie PuTTYgen y seleccioneLoad. Elija su archivo PEM y ábralo. PuTTYgen le informará sobre la importación exitosa. SeleccioneSave private key para guardar en formato de clave privada PuTTY (PPK) y elija Yespara guardar sin una contraseña. Luego ingrese un nombre para la tecla PuTTY, presioneSavey cierre PuTTYgen.

Use PuTTY para hacer una conexión con el nodo maestro iniciando primero PuTTY. EscogerSessionde la lista de Categoría. Ingrese hadoop @ DNS en el campo Nombre de host. ExpandirConnection > SSH en la lista Categoría y elija Auth. En la pantalla de opciones de control, seleccioneBrowsepara el archivo de clave privada para la autenticación. Luego seleccione su archivo de clave privada y ábralo. SeleccioneYes para la ventana emergente de alerta de seguridad.

Cuando se conecta al nodo principal, aparece un símbolo del sistema de Hadoop, lo que significa que puede comenzar una sesión interactiva de Hive.

Tabla de colmena

Hive sirve como una herramienta de almacenamiento de datos que permite consultas en clústeres de EMR utilizando HiveQL . Las configuraciones anteriores le brindan un mensaje de trabajo. Ejecute los comandos de Hive de forma interactiva simplemente ingresando "hive" y luego los comandos que desee. Consulte nuestro tutorial de Hive para obtener más información sobre Hive .