Pruebas ETL - Introducción
Los datos en un sistema de almacenamiento de datos se cargan con una herramienta ETL (Extraer, Transformar, Cargar). Como su nombre indica, realiza las siguientes tres operaciones:
Extrae los datos de su sistema transaccional, que puede ser Oracle, Microsoft o cualquier otra base de datos relacional.
Transforma los datos realizando operaciones de limpieza de datos y luego
Carga los datos en el almacén de datos OLAP.
También puede extraer datos de archivos planos como hojas de cálculo y archivos CSV utilizando una herramienta ETL y cargarlos en un almacén de datos OLAP para análisis e informes de datos. Tomemos un ejemplo para entenderlo mejor.
Ejemplo
Supongamos que hay una empresa de fabricación que tiene varios departamentos, como ventas, recursos humanos, gestión de materiales, EWM, etc. Todos estos departamentos tienen bases de datos separadas que utilizan para mantener la información de su trabajo y cada base de datos tiene una tecnología, paisaje, tabla nombres, columnas, etc. Ahora, si la empresa desea analizar datos históricos y generar informes, todos los datos de estas fuentes de datos deben extraerse y cargarse en un almacén de datos para guardarlos para el trabajo analítico.
Una herramienta ETL extrae los datos de todas estas fuentes de datos heterogéneas, transforma los datos (como aplicar cálculos, unir campos, claves, eliminar campos de datos incorrectos, etc.) y los carga en un almacén de datos. Posteriormente, puede utilizar varias herramientas de Business Intelligence (BI) para generar informes, cuadros de mando y visualizaciones significativos con estos datos.
Diferencia entre ETL y herramientas de BI
Se utiliza una herramienta ETL para extraer datos de diferentes fuentes de datos, transformar los datos y cargarlos en un sistema DW; sin embargo, se utiliza una herramienta de BI para generar informes interactivos y ad-hoc para los usuarios finales, un tablero para la alta gerencia, visualizaciones de datos para las reuniones mensuales, trimestrales y anuales de la junta.
Las herramientas ETL más comunes incluyen - SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source, etc.
Algunas herramientas de BI populares incluyen: SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, etc.
Proceso ETL
Analicemos ahora con un poco más de detalle los pasos clave involucrados en un procedimiento ETL:
Extrayendo los datos
Implica extraer los datos de diferentes fuentes de datos heterogéneas. La extracción de datos de un sistema transaccional varía según el requisito y la herramienta ETL en uso. Normalmente se realiza ejecutando trabajos programados fuera del horario comercial, como ejecutar trabajos por la noche o durante el fin de semana.
Transformando los datos
Implica transformar los datos en un formato adecuado que se pueda cargar fácilmente en un sistema DW. La transformación de datos implica aplicar cálculos, combinaciones y definir claves primarias y externas en los datos. Por ejemplo, si desea un porcentaje del ingreso total que no está en la base de datos, aplicará la fórmula del porcentaje en la transformación y cargará los datos. Del mismo modo, si tiene el nombre y el apellido de los usuarios en diferentes columnas, puede aplicar una operación de concatenar antes de cargar los datos. Algunos datos no requieren ninguna transformación; tales datos se conocen comodirect move o pass through data.
La transformación de datos también implica la corrección y limpieza de datos, la eliminación de datos incorrectos, la formación de datos incompletos y la corrección de errores de datos. También incluye integridad de datos y formateo de datos incompatibles antes de cargarlos en un sistema DW.
Carga de datos en un sistema DW
Implica cargar los datos en un sistema DW para informes e información analíticos. El sistema de destino puede ser un simple archivo plano delimitado o un almacén de datos.
Función de herramienta ETL
Un almacén de datos típico basado en herramientas ETL utiliza áreas de preparación, integración de datos y capas de acceso para realizar sus funciones. Normalmente es una arquitectura de 3 capas.
Staging Layer - La capa de ensayo o la base de datos de ensayo se utiliza para almacenar los datos extraídos de diferentes sistemas de datos fuente.
Data Integration Layer - La capa de integración transforma los datos de la capa de preparación y mueve los datos a una base de datos, donde los datos se organizan en grupos jerárquicos, a menudo llamados dimensionsy en facts y aggregate facts. La combinación de tablas de hechos y dimensiones en un sistema DW se denominaschema.
Access Layer - Los usuarios finales utilizan la capa de acceso para recuperar los datos para informes e información analíticos.
La siguiente ilustración muestra cómo interactúan las tres capas entre sí.