Almacenamiento de datos: proceso de entrega

Un almacén de datos nunca es estático; evoluciona a medida que se expande el negocio. A medida que la empresa evoluciona, sus requisitos siguen cambiando y, por tanto, se debe diseñar un almacén de datos para adaptarse a estos cambios. Por lo tanto, un sistema de almacenamiento de datos debe ser flexible.

Idealmente, debería haber un proceso de entrega para entregar un almacén de datos. Sin embargo, los proyectos de almacenamiento de datos normalmente adolecen de varios problemas que dificultan la realización de tareas y entregables de la manera estricta y ordenada que exige el método en cascada. La mayoría de las veces, los requisitos no se comprenden completamente. Las arquitecturas, diseños y componentes de construcción se pueden completar solo después de recopilar y estudiar todos los requisitos.

Método de entrega

El método de entrega es una variante del enfoque de desarrollo de aplicaciones conjunto adoptado para la entrega de un almacén de datos. Hemos organizado el proceso de entrega del almacén de datos para minimizar los riesgos. El enfoque que discutiremos aquí no reduce las escalas de tiempo de entrega general, pero asegura que los beneficios comerciales se entreguen de manera incremental a través del proceso de desarrollo.

Note - El proceso de entrega se divide en fases para reducir el proyecto y el riesgo de entrega.

El siguiente diagrama explica las etapas del proceso de entrega:

Estrategia de TI

Los almacenes de datos son inversiones estratégicas que requieren un proceso empresarial para generar beneficios. Se requiere una estrategia de TI para obtener y retener fondos para el proyecto.

Caso de negocio

El objetivo del caso de negocio es estimar los beneficios comerciales que deberían derivarse del uso de un almacén de datos. Es posible que estos beneficios no sean cuantificables, pero los beneficios proyectados deben indicarse claramente. Si un almacén de datos no tiene un caso comercial claro, entonces el negocio tiende a sufrir problemas de credibilidad en algún momento durante el proceso de entrega. Por lo tanto, en los proyectos de almacenamiento de datos, debemos comprender el caso comercial de la inversión.

Educación y creación de prototipos

Las organizaciones experimentan con el concepto de análisis de datos y se informan sobre el valor de tener un almacén de datos antes de decidirse por una solución. Esto se soluciona mediante la creación de prototipos. Ayuda a comprender la viabilidad y los beneficios de un almacén de datos. La actividad de creación de prototipos a pequeña escala puede promover el proceso educativo siempre que:

  • El prototipo responde a un objetivo técnico definido.

  • El prototipo se puede desechar una vez que se haya mostrado el concepto de viabilidad.

  • La actividad aborda un pequeño subconjunto de contenido de datos eventual del almacén de datos.

  • La escala de tiempo de la actividad no es crítica.

Se deben tener en cuenta los siguientes puntos para producir un lanzamiento temprano y brindar beneficios comerciales.

  • Identificar la arquitectura que es capaz de evolucionar.

  • Céntrese en los requisitos comerciales y las fases del proyecto técnico.

  • Limite el alcance de la primera fase de construcción al mínimo que brinde beneficios comerciales.

  • Comprenda los requisitos a corto y medio plazo del almacén de datos.

Requisitos comerciales

Para proporcionar entregables de calidad, debemos asegurarnos de que se comprendan los requisitos generales. Si entendemos los requisitos comerciales tanto a corto como a medio plazo, entonces podemos diseñar una solución para cumplir con los requisitos a corto plazo. La solución a corto plazo se puede cultivar luego a una solución completa.

En esta etapa se determinan los siguientes aspectos:

  • La regla comercial que se aplicará a los datos.

  • El modelo lógico de información dentro del almacén de datos.

  • Los perfiles de consulta para el requerimiento inmediato.

  • Los sistemas de origen que proporcionan estos datos.

Plano técnico

Esta fase debe ofrecer una arquitectura general que satisfaga los requisitos a largo plazo. Esta fase también entrega los componentes que deben implementarse a corto plazo para obtener cualquier beneficio comercial. El plano necesita identificar lo siguiente.

  • La arquitectura general del sistema.
  • La política de retención de datos.
  • La estrategia de respaldo y recuperación.
  • La arquitectura del servidor y de la despensa de datos.
  • El plan de capacidad para hardware e infraestructura.
  • Los componentes del diseño de bases de datos.

Construyendo la Versión

En esta etapa, se produce el primer entregable de producción. Este producto de producción es el componente más pequeño de un almacén de datos. Este componente más pequeño agrega beneficios comerciales.

Carga de historial

Esta es la fase en la que el resto del historial requerido se carga en el almacén de datos. En esta fase, no agregamos nuevas entidades, pero probablemente se crearían tablas físicas adicionales para almacenar mayores volúmenes de datos.

Tomemos un ejemplo. Suponga que la fase de compilación de la versión ha proporcionado un almacén de datos de análisis de ventas minoristas con un historial de 2 meses. Esta información permitirá al usuario analizar solo las tendencias recientes y abordar los problemas a corto plazo. En este caso, el usuario no puede identificar las tendencias anuales y estacionales. Para ayudarlo a hacerlo, se podría cargar el historial de ventas de los últimos 2 años desde el archivo. Ahora los datos de 40 GB se amplían a 400 GB.

Note - Los procedimientos de copia de seguridad y recuperación pueden volverse complejos, por lo que se recomienda realizar esta actividad en una fase separada.

Consulta ad hoc

En esta fase, configuramos una herramienta de consulta ad hoc que se utiliza para operar un almacén de datos. Estas herramientas pueden generar la consulta de la base de datos.

Note - Se recomienda no utilizar estas herramientas de acceso cuando la base de datos se esté modificando sustancialmente.

Automatización

En esta fase, los procesos de gestión operativa están completamente automatizados. Estos incluirían:

  • Transformar los datos en un formato adecuado para el análisis.

  • Supervisar los perfiles de consulta y determinar las agregaciones adecuadas para mantener el rendimiento del sistema.

  • Extraer y cargar datos de diferentes sistemas fuente.

  • Generación de agregaciones a partir de definiciones predefinidas dentro del almacén de datos.

  • Hacer copias de seguridad, restaurar y archivar los datos.

Alcance extendido

En esta fase, el almacén de datos se amplía para abordar un nuevo conjunto de requisitos comerciales. El alcance se puede ampliar de dos formas:

  • Al cargar datos adicionales en el almacén de datos.

  • Introduciendo nuevos mercados de datos utilizando la información existente.

Note - Esta fase debe realizarse por separado, ya que implica grandes esfuerzos y complejidad.

Evolución de los requisitos

Desde la perspectiva del proceso de entrega, los requisitos siempre son cambiantes. No son estáticos. El proceso de entrega debe respaldar esto y permitir que estos cambios se reflejen en el sistema.

Este problema se aborda diseñando el almacén de datos en torno al uso de datos dentro de los procesos comerciales, en contraposición a los requisitos de datos de las consultas existentes.

La arquitectura está diseñada para cambiar y crecer para adaptarse a las necesidades comerciales, el proceso opera como un proceso de desarrollo de pseudoaplicaciones, donde los nuevos requisitos se incorporan continuamente a las actividades de desarrollo y se producen los entregables parciales. Estos entregables parciales se retroalimentan a los usuarios y luego se vuelven a trabajar para garantizar que el sistema general se actualice continuamente para satisfacer las necesidades comerciales.