Almacenamiento de datos: arquitectura
En este capítulo, discutiremos el marco de análisis empresarial para el diseño y la arquitectura de un almacén de datos.
Marco de análisis empresarial
El analista de negocios obtiene la información de los almacenes de datos para medir el rendimiento y realizar ajustes críticos para ganarse a otros titulares de negocios en el mercado. Tener un almacén de datos ofrece las siguientes ventajas:
Dado que un almacén de datos puede recopilar información de forma rápida y eficiente, puede mejorar la productividad empresarial.
Un almacén de datos nos proporciona una visión coherente de los clientes y los artículos, por lo que nos ayuda a gestionar la relación con el cliente.
Un almacén de datos también ayuda a reducir los costos mediante el seguimiento de tendencias y patrones durante un período prolongado de manera consistente y confiable.
Para diseñar un almacén de datos eficaz y eficiente, necesitamos comprender y analizar las necesidades comerciales y construir un business analysis framework. Cada persona tiene diferentes puntos de vista sobre el diseño de un almacén de datos. Estas vistas son las siguientes:
The top-down view - Esta vista permite la selección de información relevante necesaria para un almacén de datos.
The data source view - Esta vista presenta la información que el sistema operativo captura, almacena y administra.
The data warehouse view- Esta vista incluye las tablas de hechos y las tablas de dimensiones. Representa la información almacenada dentro del almacén de datos.
The business query view - Es la vista de los datos desde el punto de vista del usuario final.
Arquitectura de almacenamiento de datos de tres niveles
Generalmente, los almacenes de datos adoptan una arquitectura de tres niveles. A continuación se muestran los tres niveles de la arquitectura del almacén de datos.
Bottom Tier- El nivel inferior de la arquitectura es el servidor de la base de datos del almacén de datos. Es el sistema de base de datos relacional. Usamos las herramientas y utilidades de back-end para introducir datos en el nivel inferior. Estas herramientas y utilidades de back-end realizan las funciones de extracción, limpieza, carga y actualización.
Middle Tier - En el nivel medio, tenemos el servidor OLAP que se puede implementar de cualquiera de las siguientes formas.
Por OLAP relacional (ROLAP), que es un sistema extendido de administración de bases de datos relacionales. El ROLAP mapea las operaciones sobre datos multidimensionales con operaciones relacionales estándar.
Por modelo OLAP multidimensional (MOLAP), que implementa directamente los datos y operaciones multidimensionales.
Top-Tier- Este nivel es el nivel de cliente de front-end. Esta capa contiene las herramientas de consulta y las herramientas de informes, las herramientas de análisis y las herramientas de minería de datos.
El siguiente diagrama muestra la arquitectura de tres niveles del almacén de datos:
Modelos de almacenamiento de datos
Desde la perspectiva de la arquitectura de almacenamiento de datos, tenemos los siguientes modelos de almacenamiento de datos:
- Almacén virtual
- Mercado de datos
- Almacén empresarial
Almacén virtual
La vista sobre un almacén de datos operativo se conoce como almacén virtual. Es fácil construir un almacén virtual. La construcción de un almacén virtual requiere un exceso de capacidad en los servidores de bases de datos operativos.
Data Mart
Data mart contiene un subconjunto de datos de toda la organización. Este subconjunto de datos es valioso para grupos específicos de una organización.
En otras palabras, podemos afirmar que los data marts contienen datos específicos de un grupo en particular. Por ejemplo, la despensa de datos de marketing puede contener datos relacionados con artículos, clientes y ventas. Los mercados de datos se limitan a los sujetos.
Puntos para recordar acerca de los mercados de datos -
Se utilizan servidores basados en Windows o Unix / Linux para implementar data marts. Se implementan en servidores de bajo costo.
Los ciclos del mercado de datos de implementación se miden en períodos cortos de tiempo, es decir, en semanas en lugar de meses o años.
El ciclo de vida de un data mart puede ser complejo a largo plazo, si su planificación y diseño no abarcan toda la organización.
Los data marts son de tamaño pequeño.
Los mercados de datos se personalizan por departamento.
La fuente de una despensa de datos es un almacén de datos estructurado por departamentos.
Los mercados de datos son flexibles.
Almacén empresarial
Un almacén empresarial recopila toda la información y los temas que abarcan toda una organización.
Nos proporciona integración de datos en toda la empresa.
Los datos se integran desde sistemas operativos y proveedores de información externos.
Esta información puede variar desde unos pocos gigabytes hasta cientos de gigabytes, terabytes o más.
Administrador de carga
Este componente realiza las operaciones necesarias para extraer y cargar el proceso.
El tamaño y la complejidad del administrador de carga varían entre soluciones específicas de un almacén de datos a otro.
Arquitectura de Load Manager
El administrador de carga realiza las siguientes funciones:
Extraiga los datos del sistema de origen.
Carga rápida los datos extraídos en un almacén de datos temporal.
Realice transformaciones simples en una estructura similar a la del almacén de datos.
Extraer datos de la fuente
Los datos se extraen de las bases de datos operativas o de los proveedores de información externos. Gateways son los programas de aplicación que se utilizan para extraer datos. Es compatible con DBMS subyacente y permite que el programa cliente genere SQL para ejecutarlo en un servidor. Conexión de base de datos abierta (ODBC), Conexión de base de datos Java (JDBC), son ejemplos de puerta de enlace.
Carga rapida
Para minimizar la ventana de carga total, los datos deben cargarse en el almacén en el menor tiempo posible.
Las transformaciones afectan la velocidad del procesamiento de datos.
Es más efectivo cargar los datos en una base de datos relacional antes de aplicar transformaciones y verificaciones.
La tecnología de puerta de enlace resulta no ser adecuada, ya que tienden a no tener un buen rendimiento cuando se trata de grandes volúmenes de datos.
Transformaciones simples
Mientras se carga, puede ser necesario realizar transformaciones simples. Una vez que esto se haya completado, estamos en condiciones de realizar las comprobaciones complejas. Supongamos que estamos cargando la transacción de venta de EPOS, necesitamos realizar las siguientes comprobaciones:
- Elimine todas las columnas que no sean necesarias dentro del almacén.
- Convierta todos los valores a los tipos de datos necesarios.
Jefe de almacén
Un gerente de almacén es responsable del proceso de gestión del almacén. Consiste en software de sistema de terceros, programas C y scripts de shell.
El tamaño y la complejidad de los gerentes de almacén varían entre soluciones específicas.
Arquitectura de Warehouse Manager
Un gerente de almacén incluye lo siguiente:
- El proceso de control
- Procedimientos almacenados o C con SQL
- Herramienta de respaldo / recuperación
- Scripts SQL
Operaciones realizadas por el gerente de almacén
Un gerente de almacén analiza los datos para realizar verificaciones de coherencia e integridad referencial.
Crea índices, vistas comerciales, vistas de particiones contra los datos base.
Genera nuevas agregaciones y actualiza las agregaciones existentes. Genera normalizaciones.
Transforma y fusiona los datos de origen en el almacén de datos publicado.
Haga una copia de seguridad de los datos en el almacén de datos.
Archiva los datos que han llegado al final de su vida útil capturada.
Note - Un administrador de almacén también analiza los perfiles de consulta para determinar que el índice y las agregaciones son apropiadas.
Administrador de consultas
El administrador de consultas es responsable de dirigir las consultas a las tablas adecuadas.
Al dirigir las consultas a las tablas adecuadas, se puede aumentar la velocidad de generación de consultas y respuestas.
El gestor de consultas se encarga de programar la ejecución de las consultas planteadas por el usuario.
Arquitectura del administrador de consultas
La siguiente captura de pantalla muestra la arquitectura de un administrador de consultas. Incluye lo siguiente:
- Redirección de consultas a través de la herramienta C o RDBMS
- Procedimientos almacenados
- Herramienta de gestión de consultas
- Programación de consultas a través de la herramienta C o RDBMS
- Programación de consultas mediante software de terceros
Información detallada
La información detallada no se mantiene en línea, sino que se agrega al siguiente nivel de detalle y luego se archiva en cinta. La parte de información detallada del almacén de datos mantiene la información detallada en el esquema de estrella. La información detallada se carga en el almacén de datos para complementar los datos agregados.
El siguiente diagrama muestra una impresión gráfica de dónde se almacena la información detallada y cómo se utiliza.
Note - Si la información detallada se mantiene fuera de línea para minimizar el almacenamiento en disco, debemos asegurarnos de que los datos se hayan extraído, limpiado y transformado en un esquema en forma de estrella antes de archivarlos.
Informacion de sumario
La información resumida es una parte del almacén de datos que almacena agregaciones predefinidas. Estas agregaciones son generadas por el gerente de almacén. La información resumida debe tratarse como transitoria. Cambia sobre la marcha para responder a los perfiles de consulta cambiantes.
Los puntos a tener en cuenta sobre la información resumida son los siguientes:
La información resumida acelera el rendimiento de consultas habituales.
Aumenta el costo operativo.
Debe actualizarse cada vez que se cargan nuevos datos en el almacén de datos.
Es posible que no se haya realizado una copia de seguridad, ya que se puede generar desde la información detallada.