Almacenamiento de datos: conceptos
¿Qué es el almacenamiento de datos?
El almacenamiento de datos es el proceso de construcción y uso de un almacén de datos. Un almacén de datos se construye integrando datos de múltiples fuentes heterogéneas que respaldan la elaboración de informes analíticos, consultas estructuradas y / o ad hoc y toma de decisiones. El almacenamiento de datos implica la limpieza de datos, la integración de datos y la consolidación de datos.
Uso de la información del almacén de datos
Existen tecnologías de soporte de decisiones que ayudan a utilizar los datos disponibles en un almacén de datos. Estas tecnologías ayudan a los ejecutivos a utilizar el almacén de forma rápida y eficaz. Pueden recopilar datos, analizarlos y tomar decisiones en función de la información presente en el almacén. La información recopilada en un almacén se puede utilizar en cualquiera de los siguientes dominios:
Tuning Production Strategies - Las estrategias de producto se pueden ajustar bien reposicionando los productos y administrando las carteras de productos comparando las ventas trimestrales o anuales.
Customer Analysis - El análisis del cliente se realiza analizando las preferencias de compra del cliente, el tiempo de compra, los ciclos presupuestarios, etc.
Operations Analysis- El almacenamiento de datos también ayuda en la gestión de las relaciones con los clientes y en la realización de correcciones medioambientales. La información también nos permite analizar las operaciones comerciales.
Integración de bases de datos heterogéneas
Para integrar bases de datos heterogéneas, tenemos dos enfoques:
- Enfoque basado en consultas
- Enfoque impulsado por actualizaciones
Enfoque basado en consultas
Este es el enfoque tradicional para integrar bases de datos heterogéneas. Este enfoque se utilizó para construir envoltorios e integradores sobre múltiples bases de datos heterogéneas. Estos integradores también se conocen como mediadores.
Proceso de enfoque basado en consultas
Cuando se envía una consulta al lado del cliente, un diccionario de metadatos traduce la consulta a un formato apropiado para los sitios heterogéneos individuales involucrados.
Ahora estas consultas se asignan y se envían al procesador de consultas local.
Los resultados de sitios heterogéneos se integran en un conjunto de respuestas global.
Desventajas
El enfoque basado en consultas necesita procesos complejos de integración y filtrado.
Este enfoque es muy ineficaz.
Es muy caro para consultas frecuentes.
Este enfoque también es muy costoso para consultas que requieren agregaciones.
Enfoque basado en actualizaciones
Esta es una alternativa al enfoque tradicional. Los sistemas de almacenamiento de datos actuales siguen un enfoque basado en actualizaciones en lugar del enfoque tradicional discutido anteriormente. En el enfoque basado en actualizaciones, la información de múltiples fuentes heterogéneas se integra de antemano y se almacena en un almacén. Esta información está disponible para consultas y análisis directos.
Ventajas
Este enfoque tiene las siguientes ventajas:
Este enfoque proporciona un alto rendimiento.
Los datos se copian, procesan, integran, anotan, resumen y reestructuran en el almacenamiento de datos semánticos por adelantado.
El procesamiento de consultas no requiere una interfaz para procesar datos en fuentes locales.
Funciones de las herramientas y utilidades de almacenamiento de datos
Las siguientes son las funciones de las herramientas y utilidades de almacenamiento de datos:
Data Extraction - Implica la recopilación de datos de múltiples fuentes heterogéneas.
Data Cleaning - Implica encontrar y corregir los errores en los datos.
Data Transformation - Implica convertir los datos de formato heredado a formato de almacén.
Data Loading - Implica ordenar, resumir, consolidar, verificar la integridad y construir índices y particiones.
Refreshing - Implica la actualización de las fuentes de datos al almacén.
Note - La limpieza y transformación de datos son pasos importantes para mejorar la calidad de los datos y los resultados de la minería de datos.