Almacenamiento de datos: terminologías
En este capítulo, analizaremos algunos de los términos más utilizados en el almacenamiento de datos.
Metadatos
Los metadatos se definen simplemente como datos sobre datos. Los datos que se utilizan para representar otros datos se conocen como metadatos. Por ejemplo, el índice de un libro sirve como metadatos para el contenido del libro. En otras palabras, podemos decir que los metadatos son los datos resumidos que nos llevan a los datos detallados.
En términos de almacén de datos, podemos definir los metadatos de la siguiente manera:
Los metadatos son una hoja de ruta para el almacenamiento de datos.
Los metadatos en el almacén de datos definen los objetos del almacén.
Los metadatos actúan como un directorio. Este directorio ayuda al sistema de soporte de decisiones a localizar el contenido de un almacén de datos.
Repositorio de metadatos
El repositorio de metadatos es una parte integral de un sistema de almacenamiento de datos. Contiene los siguientes metadatos:
Business metadata - Contiene la información sobre la propiedad de los datos, la definición comercial y las políticas cambiantes.
Operational metadata- Incluye moneda de datos y linaje de datos. La vigencia de los datos se refiere a que los datos están activos, archivados o eliminados. El linaje de los datos significa el historial de los datos migrados y la transformación aplicada.
Data for mapping from operational environment to data warehouse - Sus metadatos incluyen bases de datos de origen y su contenido, extracción de datos, partición de datos, limpieza, reglas de transformación, actualización de datos y reglas de depuración.
The algorithms for summarization - Incluye algoritmos de dimensión, datos de granularidad, agregación, resumen, etc.
Cubo de datos
Un cubo de datos nos ayuda a representar datos en múltiples dimensiones. Está definido por dimensiones y hechos. Las dimensiones son las entidades con respecto a las cuales una empresa conserva los registros.
Ilustración del cubo de datos
Suponga que una empresa desea realizar un seguimiento de los registros de ventas con la ayuda del almacén de datos de ventas con respecto al tiempo, el artículo, la sucursal y la ubicación. Estas dimensiones permiten realizar un seguimiento de las ventas mensuales y en qué sucursal se vendieron los artículos. Hay una tabla asociada a cada dimensión. Esta tabla se conoce como tabla de dimensiones. Por ejemplo, la tabla de dimensiones "artículo" puede tener atributos como nombre_elemento, tipo_elemento y marca_elemento.
La siguiente tabla representa la vista 2-D de los datos de ventas de una empresa con respecto a las dimensiones de tiempo, artículo y ubicación.
Pero aquí, en esta tabla 2-D, tenemos registros con respecto al tiempo y al artículo solamente. Las ventas de Nueva Delhi se muestran con respecto al tiempo y las dimensiones de los artículos según el tipo de artículos vendidos. Si queremos ver los datos de ventas con una dimensión más, digamos, la dimensión de ubicación, entonces la vista en 3-D sería útil. La vista tridimensional de los datos de ventas con respecto a la hora, el artículo y la ubicación se muestra en la siguiente tabla:
La tabla 3-D anterior se puede representar como un cubo de datos 3-D como se muestra en la siguiente figura:
Data Mart
Los data marts contienen un subconjunto de datos de toda la organización que son valiosos para grupos específicos de personas en una organización. En otras palabras, una despensa de datos contiene solo aquellos datos que son específicos de un grupo en particular. Por ejemplo, la despensa de datos de marketing puede contener solo datos relacionados con artículos, clientes y ventas. Los mercados de datos se limitan a los sujetos.
Puntos para recordar acerca de los Data Marts
Los servidores basados en Windows o Unix / Linux se utilizan para implementar data marts. Se implementan en servidores de bajo costo.
El ciclo de implementación de un data mart se mide en períodos cortos de tiempo, es decir, en semanas en lugar de meses o años.
El ciclo de vida de los mercados de datos puede ser complejo a largo plazo, si su planificación y diseño no abarcan toda la organización.
Los data marts son de tamaño pequeño.
Los mercados de datos se personalizan por departamento.
La fuente de una despensa de datos es un almacén de datos estructurado por departamentos.
Los mercados de datos son flexibles.
La siguiente figura muestra una representación gráfica de data marts.
Almacén virtual
La vista sobre un almacén de datos operativo se conoce como almacén virtual. Es fácil construir un almacén virtual. La construcción de un almacén virtual requiere un exceso de capacidad en los servidores de bases de datos operativos.