Talend - Trabajar con Pig

En este capítulo, aprendamos a trabajar con un trabajo de Cerdo en Talend.

Creación de un trabajo de Talend Pig

En esta sección, aprendamos a ejecutar un trabajo de Pig en Talend. Aquí, procesaremos los datos de la NYSE para averiguar el volumen promedio de acciones de IBM.

Para ello, haga clic con el botón derecho en Diseño de trabajo y cree un nuevo trabajo: pigjob. Mencione los detalles del trabajo y haga clic en Finalizar.

Agregar componentes a Pig Job

Para agregar componentes al trabajo de Pig, arrastre y suelte cuatro componentes de Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, desde la paleta a la ventana del diseñador.

Luego, haga clic derecho en tPigLoad y cree la línea Pig Combine en tPigFilterRow. A continuación, haga clic derecho en tPigFilterRow y cree la línea Pig Combine en tPigAggregate. Haga clic con el botón derecho en tPigAggregate y cree la línea de combinación de Pig en tPigStoreResult.

Configurar componentes y transformaciones

En tPigLoad, mencione la distribución como cloudera y la versión de cloudera. Tenga en cuenta que el URI de Namenode debe ser "hdfs: //quickstart.cloudera: 8020" y Resource Manager debe ser "quickstart.cloudera: 8020". Además, el nombre de usuario debe ser "cloudera".

En el URI del archivo de entrada, proporcione la ruta de su archivo de entrada NYSE al trabajo porcino. Tenga en cuenta que este archivo de entrada debe estar presente en HDFS.

Haga clic en editar esquema, agregue las columnas y su tipo como se muestra a continuación.

En tPigFilterRow, seleccione la opción “Usar filtro avanzado” y ponga “stock_symbol = = 'IBM'” en la opción Filtro.

En tAggregateRow, haga clic en editar esquema y agregue la columna avg_stock_volume en la salida como se muestra a continuación.

Ahora, ponga la columna stock_exchange en Agrupar por opción. Agregue la columna avg_stock_volume en el campo Operaciones con función de recuento y stock_exchange como columna de entrada.

En tPigStoreResult, proporcione la ruta de salida en el URI de la carpeta de resultados donde desea almacenar el resultado del trabajo Pig. Seleccione la función de almacenamiento como PigStorage y el separador de campo (no obligatorio) como "\ t".

Ejecutando el trabajo de cerdo

Ahora haga clic en Ejecutar para ejecutar su trabajo de Pig. (Ignore las advertencias)

Una vez que finalice el trabajo, vaya y verifique su salida en la ruta HDFS que mencionó para almacenar el resultado del trabajo de cerdo. El volumen de existencias promedio de IBM es 500.