Talend - Big Data

El lema de Open Studio con Big Data es "Simplifique ETL y ELT con la herramienta ETL de código abierto líder y gratuita para Big Data". En este capítulo, analicemos el uso de Talend como herramienta para procesar datos en un entorno de big data.

Introducción

Talend Open Studio - Big Data es una herramienta gratuita y de código abierto para procesar sus datos muy fácilmente en un entorno de big data. Tiene muchos componentes de big data disponibles en Talend Open Studio, que le permiten crear y ejecutar trabajos de Hadoop con solo arrastrar y soltar algunos componentes de Hadoop.

Además, no necesitamos escribir grandes líneas de códigos MapReduce; Talend Open Studio Big Data le ayuda a hacer esto con los componentes presentes en él. Genera automáticamente el código de MapReduce para usted, solo necesita arrastrar y soltar los componentes y configurar algunos parámetros.

También le brinda la opción de conectarse con varias distribuciones de Big Data como Cloudera, HortonWorks, MapR, Amazon EMR e incluso Apache.

Componentes de Talend para Big Data

La lista de categorías con componentes para ejecutar un trabajo en el entorno de Big Data incluido en Big Data, se muestra a continuación:

La lista de conectores y componentes de Big Data en Talend Open Studio se muestra a continuación:

  • tHDFSConnection - Se utiliza para conectarse a HDFS (sistema de archivos distribuido Hadoop).

  • tHDFSInput - Lee los datos de la ruta hdfs dada, los coloca en el esquema de talend y luego los pasa al siguiente componente del trabajo.

  • tHDFSList - Recupera todos los archivos y carpetas en la ruta de hdfs dada.

  • tHDFSPut - Copia el archivo / carpeta del sistema de archivos local (definido por el usuario) a hdfs en la ruta indicada.

  • tHDFSGet - Copia el archivo / carpeta de hdfs al sistema de archivos local (definido por el usuario) en la ruta indicada.

  • tHDFSDelete - Elimina el archivo de HDFS

  • tHDFSExist - Comprueba si un archivo está presente en HDFS o no.

  • tHDFSOutput - Escribe flujos de datos en HDFS.

  • tCassandraConnection - Abre la conexión al servidor Cassandra.

  • tCassandraRow - Ejecuta consultas CQL (lenguaje de consulta Cassandra) en la base de datos especificada.

  • tHBaseConnection - Abre la conexión a la base de datos HBase.

  • tHBaseInput - lee datos de la base de datos HBase.

  • tHiveConnection - Abre la conexión a la base de datos de Hive.

  • tHiveCreateTable - Crea una tabla dentro de una base de datos de colmena.

  • tHiveInput - Lee datos de la base de datos de la colmena.

  • tHiveLoad - Escribe datos en una tabla de colmena o en un directorio específico.

  • tHiveRow - ejecuta consultas HiveQL en la base de datos especificada.

  • tPigLoad - Carga datos de entrada al flujo de salida.

  • tPigMap - Se utiliza para transformar y enrutar los datos en un proceso de cerdo.

  • tPigJoin - Realiza la operación de unión de 2 archivos basada en claves de unión.

  • tPigCoGroup - Agrupa y agrega los datos provenientes de múltiples entradas.

  • tPigSort - Ordena los datos proporcionados en función de una o más claves de clasificación definidas.

  • tPigStoreResult - Almacena el resultado de la operación porcina en un espacio de almacenamiento definido.

  • tPigFilterRow - Filtra las columnas especificadas para dividir los datos según la condición dada.

  • tPigDistinct - Elimina las tuplas duplicadas de la relación.

  • tSqoopImport - Transfiere datos de bases de datos relacionales como MySQL, Oracle DB a HDFS.

  • tSqoopExport - Transfiere datos de HDFS a bases de datos relacionales como MySQL, Oracle DB