Talend - Hive

En este capítulo, entendamos cómo trabajar con el trabajo de Hive en Talend.

Creación de un trabajo de Talend Hive

Como ejemplo, cargaremos los datos de NYSE en una tabla de colmena y ejecutaremos una consulta básica de colmena. Haga clic derecho en Job Design y cree un nuevo trabajo: hivejob. Mencione los detalles del trabajo y haga clic en Finalizar.

Agregar componentes al trabajo de Hive

Para asignar componentes a un trabajo de Hive, arrastre y suelte cinco componentes de talend: tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput y tLogRow desde la paleta a la ventana del diseñador. Luego, haga clic con el botón derecho en tHiveConnection y cree el disparador OnSubjobOk en tHiveCreateTable. Ahora, haga clic con el botón derecho en tHiveCreateTable y cree el disparador OnSubjobOk para tHiveLoad. Haga clic con el botón derecho en tHiveLoad y cree un disparador iterativo en tHiveInput. Finalmente, haga clic derecho en tHiveInput y cree una línea principal para tLogRow.

Configurar componentes y transformaciones

En tHiveConnection, seleccione la distribución como cloudera y la versión que está utilizando. Tenga en cuenta que el modo de conexión será independiente y el servicio Hive será Hive 2. También compruebe si los siguientes parámetros están configurados en consecuencia:

  • Anfitrión: "quickstart.cloudera"
  • Puerto: "10000"
  • Base de datos: "predeterminada"
  • Nombre de usuario: "colmena"

Tenga en cuenta que la contraseña se completará automáticamente, no es necesario editarla. Además, otras propiedades de Hadoop estarán predeterminadas y configuradas de forma predeterminada.

En tHiveCreateTable, seleccione Usar una conexión existente y coloque tHiveConnection en la lista de componentes. Dé el nombre de la tabla que desea crear en la base de datos predeterminada. Mantenga los otros parámetros como se muestra a continuación.

En tHiveLoad, seleccione "Usar una conexión existente" y ponga tHiveConnection en la lista de componentes. Seleccione CARGAR en la acción Cargar. En Ruta de archivo, proporcione la ruta HDFS de su archivo de entrada NYSE. Mencione la tabla en Nombre de la tabla, en la que desea cargar la entrada. Mantenga los otros parámetros como se muestra a continuación.

En tHiveInput, seleccione Usar una conexión existente y coloque tHiveConnection en la lista de componentes. Haga clic en editar esquema, agregue las columnas y su tipo como se muestra en la instantánea del esquema a continuación. Ahora dé el nombre de la tabla que creó en tHiveCreateTable.

Coloque su consulta en la opción de consulta que desea ejecutar en la tabla de Hive. Aquí estamos imprimiendo todas las columnas de las primeras 10 filas en la tabla del subárbol de prueba.

En tLogRow, haga clic en sincronizar columnas y seleccione el modo Tabla para mostrar la salida.

Ejecutando el trabajo de Hive

Haga clic en Ejecutar para comenzar la ejecución. Si toda la conexión y los parámetros se configuraron correctamente, verá el resultado de su consulta como se muestra a continuación.