Pruebas ETL: integridad de los datos

La verificación de la integridad de los datos se realiza para verificar que los datos en el sistema de destino cumplan con las expectativas después de la carga.

Las pruebas comunes que se pueden realizar para esto son las siguientes:

  • Verificación de funciones agregadas (suma, máximo, mínimo, recuento),

  • Verificar y validar los recuentos y los datos reales entre el origen y el destino para columnas sin transformaciones o con transformaciones simples.

Validación de recuento

Compare el recuento del número de registros en las tablas de origen y de destino. Se puede hacer escribiendo las siguientes consultas:

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim;

Validación del perfil de datos

Implica verificar las funciones agregadas como recuento, suma y máximo en las tablas de origen y destino (hecho o dimensión).

Validación del perfil de datos de columna

Implica comparar los valores distintos y el recuento de filas para cada valor distinto.

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

Validación de datos duplicados

Implica validar la clave principal y la clave única en una columna o en una combinación de columnas que deben ser únicas según los requisitos comerciales. Puede utilizar la siguiente consulta para realizar la validación de datos duplicados:

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;