ETL - Introducción

ETL son las siglas de Extract, Transform and Load. Una herramienta ETL extrae los datos de diferentes sistemas de origen RDBMS, transforma los datos como aplicar cálculos, concatenar, etc. y luego cargar los datos en el sistema de almacenamiento de datos. Los datos se cargan en el sistema DW en forma de tablas de hechos y dimensiones.

Extracción

  • Se requiere un área de preparación durante la carga ETL. Hay varias razones por las que se requiere un área de preparación.

  • Los sistemas de origen solo están disponibles durante un período de tiempo específico para extraer datos. Este período de tiempo es menor que el tiempo total de carga de datos. Por lo tanto, el área de preparación le permite extraer los datos del sistema de origen y los mantiene en el área de preparación antes de que finalice el intervalo de tiempo.

  • El área de preparación es necesaria cuando desea obtener los datos de varias fuentes de datos juntos o si desea unir dos o más sistemas. Por ejemplo, no podrá realizar una consulta SQL uniendo dos tablas de dos bases de datos físicamente diferentes.

  • La franja horaria de las extracciones de datos para diferentes sistemas varía según la zona horaria y las horas de funcionamiento.

  • Los datos extraídos de los sistemas de origen se pueden utilizar en varios sistemas de almacenamiento de datos, almacenes de datos operativos, etc.

  • ETL le permite realizar transformaciones complejas y requiere un área adicional para almacenar los datos.

Transformar

En la transformación de datos, aplica un conjunto de funciones a los datos extraídos para cargarlos en el sistema de destino. Los datos, que no requieren ninguna transformación, se conocen como movimiento directo o transferencia de datos.

Puede aplicar diferentes transformaciones en datos extraídos del sistema de origen. Por ejemplo, puede realizar cálculos personalizados. Si desea ingresos por suma de ventas y esto no está en la base de datos, puede aplicar elSUM fórmula durante la transformación y cargue los datos.

Por ejemplo, si tiene el nombre y el apellido en una tabla en diferentes columnas, puede usar concatenar antes de cargar.

Carga

Durante la fase de carga, los datos se cargan en el sistema de destino final y pueden ser un archivo plano o un sistema de almacenamiento de datos.