Talend - Big Data
El lema de Open Studio con Big Data es "Simplifique ETL y ELT con la herramienta ETL de código abierto líder y gratuita para Big Data". En este capítulo, analicemos el uso de Talend como herramienta para procesar datos en un entorno de big data.
Introducción
Talend Open Studio - Big Data es una herramienta gratuita y de código abierto para procesar sus datos muy fácilmente en un entorno de big data. Tiene muchos componentes de big data disponibles en Talend Open Studio, que le permiten crear y ejecutar trabajos de Hadoop con solo arrastrar y soltar algunos componentes de Hadoop.
Además, no necesitamos escribir grandes líneas de códigos MapReduce; Talend Open Studio Big Data le ayuda a hacer esto con los componentes presentes en él. Genera automáticamente el código de MapReduce para usted, solo necesita arrastrar y soltar los componentes y configurar algunos parámetros.
También le brinda la opción de conectarse con varias distribuciones de Big Data como Cloudera, HortonWorks, MapR, Amazon EMR e incluso Apache.
Componentes de Talend para Big Data
La lista de categorías con componentes para ejecutar un trabajo en el entorno de Big Data incluido en Big Data, se muestra a continuación:
La lista de conectores y componentes de Big Data en Talend Open Studio se muestra a continuación:
tHDFSConnection - Se utiliza para conectarse a HDFS (sistema de archivos distribuido Hadoop).
tHDFSInput - Lee los datos de la ruta hdfs dada, los coloca en el esquema de talend y luego los pasa al siguiente componente del trabajo.
tHDFSList - Recupera todos los archivos y carpetas en la ruta de hdfs dada.
tHDFSPut - Copia el archivo / carpeta del sistema de archivos local (definido por el usuario) a hdfs en la ruta indicada.
tHDFSGet - Copia el archivo / carpeta de hdfs al sistema de archivos local (definido por el usuario) en la ruta indicada.
tHDFSDelete - Elimina el archivo de HDFS
tHDFSExist - Comprueba si un archivo está presente en HDFS o no.
tHDFSOutput - Escribe flujos de datos en HDFS.
tCassandraConnection - Abre la conexión al servidor Cassandra.
tCassandraRow - Ejecuta consultas CQL (lenguaje de consulta Cassandra) en la base de datos especificada.
tHBaseConnection - Abre la conexión a la base de datos HBase.
tHBaseInput - lee datos de la base de datos HBase.
tHiveConnection - Abre la conexión a la base de datos de Hive.
tHiveCreateTable - Crea una tabla dentro de una base de datos de colmena.
tHiveInput - Lee datos de la base de datos de la colmena.
tHiveLoad - Escribe datos en una tabla de colmena o en un directorio específico.
tHiveRow - ejecuta consultas HiveQL en la base de datos especificada.
tPigLoad - Carga datos de entrada al flujo de salida.
tPigMap - Se utiliza para transformar y enrutar los datos en un proceso de cerdo.
tPigJoin - Realiza la operación de unión de 2 archivos basada en claves de unión.
tPigCoGroup - Agrupa y agrega los datos provenientes de múltiples entradas.
tPigSort - Ordena los datos proporcionados en función de una o más claves de clasificación definidas.
tPigStoreResult - Almacena el resultado de la operación porcina en un espacio de almacenamiento definido.
tPigFilterRow - Filtra las columnas especificadas para dividir los datos según la condición dada.
tPigDistinct - Elimina las tuplas duplicadas de la relación.
tSqoopImport - Transfiere datos de bases de datos relacionales como MySQL, Oracle DB a HDFS.
tSqoopExport - Transfiere datos de HDFS a bases de datos relacionales como MySQL, Oracle DB