Indexes - El sistema OLTP tiene solo unos pocos índices, mientras que en un sistema OLAP hay muchos índices para optimizar el rendimiento.

Joins - En un sistema OLTP, se normaliza una gran cantidad de uniones y datos, sin embargo, en un sistema OLAP hay menos uniones y desnormalizados.

Aggregation - En un sistema OLTP, los datos no se agregan, mientras que en una base de datos OLAP se utilizan más agregaciones.

Hay un área de preparación que se requiere durante la carga ETL. Hay varias razones por las que se requiere un área de preparación:

Como los sistemas de origen solo están disponibles durante un período de tiempo específico para extraer datos y este tiempo es menor que el tiempo total de carga de datos, el área de preparación le permite extraer los datos del sistema de origen y mantenerlos en el área de preparación antes de que finalice el intervalo de tiempo.

El área de preparación es necesaria cuando desea obtener datos de varias fuentes de datos juntos. Si desea unir dos o más sistemas. Ejemplo: no podrá realizar una consulta SQL uniendo dos tablas de dos bases de datos físicamente diferentes.

La franja horaria de extracción de datos para diferentes sistemas varía según la zona horaria y las horas de funcionamiento.

Los datos extraídos de los sistemas de origen se pueden utilizar en varios sistemas de almacenamiento de datos, almacenes de datos operativos, etc.

Durante ETL, puede realizar transformaciones complejas que le permiten realizar transformaciones complejas y requieren un área adicional para almacenar los datos.

SAP BO Data Services es una herramienta ETL utilizada para la integración de datos, la calidad de los datos, la elaboración de perfiles de datos y el procesamiento de datos y le permite integrar, transformar datos confiables en un sistema de almacenamiento de datos para informes analíticos.

BO Data Services consta de una interfaz de desarrollo de interfaz de usuario, un repositorio de metadatos, conectividad de datos al sistema de origen y destino y una consola de gestión para la programación de trabajos.

También puede dividir la arquitectura BODS en capas inferiores:

Capa de aplicación web, capa de servidor de base de datos, capa de servicio de servicios de datos.

El repositorio se utiliza para almacenar metadatos de objetos utilizados en BO Data Services. Cada repositorio debe registrarse en la CMC de la Consola de administración central y debe estar vinculado con uno o varios servidores de trabajos que son responsables de ejecutar los trabajos creados por usted.

Hay tres tipos de repositorios:

Local Repository -

Se utiliza para almacenar los metadatos de todos los objetos creados en Data Services Designer como proyectos, trabajos, flujo de datos, flujo de trabajo, etc.

Central Repository -

Se utiliza para controlar la gestión de versiones de los objetos y se utiliza para el desarrollo de usos múltiples. El repositorio central almacena todas las versiones de un objeto de aplicación para que le permita pasar a versiones anteriores.

Profiler Repository -

Se utiliza para gestionar todos los metadatos relacionados con las tareas del generador de perfiles realizadas en SAP BODS Designer. El repositorio CMS almacena metadatos de todas las tareas realizadas en CMC en la plataforma de BI. Information Steward Repository almacena todos los metadatos de las tareas de creación de perfiles y los objetos creados en Information Steward.

Reusable Objects -

La mayoría de los objetos que se almacenan en el repositorio se pueden reutilizar. Cuando se define un objeto reutilizable y se guarda en el repositorio local, puede reutilizar el objeto creando llamadas a la definición. Cada objeto reutilizable tiene solo una definición y todas las llamadas a ese objeto se refieren a esa definición. Ahora bien, si la definición de un objeto se cambia en un lugar, está cambiando la definición del objeto en todos los lugares donde aparece ese objeto.

Una biblioteca de objetos se utiliza para contener la definición de objeto y cuando un objeto se arrastra y suelta desde la biblioteca, significa que se crea una nueva referencia a un objeto existente.

Single Use Objects -

Todos los objetos que se definen específicamente para un trabajo o flujo de datos, se denominan objetos de un solo uso. Transformación específica de ejemplo utilizada en cualquier carga de datos.

Los almacenes de datos se utilizan para configurar la conexión entre una aplicación y una base de datos. Puede crear directamente Datastore o puede crearse con la ayuda de adaptadores. Datastore permite que una aplicación / software lea o escriba metadatos de una aplicación o base de datos y escriba en esa base de datos o aplicación.

Para crear un repositorio BODS necesita una base de datos instalada. Puede usar SQL Server, la base de datos Oracle, My SQL, SAP HANA, Sybase, etc. Debe crear los siguientes usuarios en la base de datos mientras instala BODS y para crear repositorios. Estos usuarios deben iniciar sesión en diferentes servidores CMS Server, Audit Server. Para crear un nuevo repositorio, debe iniciar sesión en el Administrador de repositorios.

Los trabajos en tiempo real "extraen" datos del cuerpo del mensaje en tiempo real recibido y de cualquier fuente secundaria utilizada en el trabajo.

El repositorio central se utiliza para controlar la gestión de versiones de los objetos y se utiliza para el desarrollo de usos múltiples. El repositorio central almacena todas las versiones de un objeto de aplicación para que le permita pasar a versiones anteriores.

Consola de gestión de servicios de datos

En Servicios de datos, puede crear una tabla de plantilla para moverla al sistema de destino que tiene la misma estructura y tipo de datos que la tabla de origen.

DS Management Console → Historial de ejecución de trabajos

Es una herramienta de desarrollo que se utiliza para crear objetos que consisten en mapeo de datos, transformación y lógica. Está basado en GUI y funciona como diseñador para Data Services.

Puede crear varios objetos utilizando el Diseñador de servicios de datos como Proyecto, Trabajos, Flujo de trabajo, Flujo de datos, mapeo, transformaciones, etc.

En la biblioteca de objetos de DS Designer

Puede crear un almacén de datos utilizando la memoria como tipo de base de datos. El almacén de datos de memoria se utiliza para mejorar el rendimiento de los flujos de datos en trabajos en tiempo real, ya que almacena los datos en la memoria para facilitar el acceso rápido y no requiere ir a la fuente de datos original.

Un almacén de datos de memoria se utiliza para almacenar esquemas de tablas de memoria en el repositorio. Estas tablas de memoria obtienen datos de tablas en la base de datos relacional o usando archivos de datos jerárquicos como mensajes XML e IDOC.

Las tablas de memoria permanecen activas hasta que se ejecuta el trabajo y los datos de las tablas de memoria no se pueden compartir entre diferentes trabajos en tiempo real.

Hay varios proveedores de bases de datos que solo proporcionan una ruta de comunicación de una vía a otra. Estas rutas se conocen como enlaces a bases de datos. En SQL Server, el servidor vinculado permite una ruta de comunicación de una vía de una base de datos a otra.

Example -

Considere una base de datos local. El nombre del servidor "Producto" almacena el enlace de la base de datos para acceder a información en el servidor de base de datos remoto llamado Cliente. Ahora los usuarios que están conectados al servidor de base de datos remoto El cliente no puede usar el mismo enlace para acceder a los datos en el servidor de base de datos Producto. El usuario que está conectado a "Cliente" debe tener un enlace separado en el diccionario de datos del servidor para acceder a los datos en el servidor de la base de datos del Producto.

Esta ruta de comunicación entre dos bases de datos se denomina vínculo de base de datos y los almacenes de datos que se crean entre estas relaciones de bases de datos vinculadas se conocen como almacenes de datos vinculados.

Existe la posibilidad de conectar Datastore a otro Datastore e importar un enlace de base de datos externa como opción de Datastore.

Adapter Datastore te permite importar metadatos de aplicaciones al repositorio. También puede acceder a los metadatos de la aplicación y también puede mover datos por lotes y en tiempo real entre diferentes aplicaciones y software.

  • Delimited
  • Transporte SAP
  • Texto no estructurado
  • Binario no estructurado
  • Ancho fijo

Puede usar el libro de trabajo de Microsoft Excel como fuente de datos con formatos de archivo en Servicios de datos. El libro de trabajo de Excel debe estar disponible en el sistema de archivos de Windows o en el sistema de archivos Unix.

El flujo de datos se utiliza para extraer, transformar y cargar datos desde el sistema de origen al de destino. Todas las transformaciones, la carga y el formateo ocurren en el flujo de datos.

  • Source
  • Target
  • Transforms
  • Ejecutar una vez
  • Parallelism
  • Enlaces a bases de datos
  • Cache

Los flujos de trabajo se utilizan para determinar el proceso de ejecución de los flujos de trabajo. El objetivo principal del flujo de trabajo es prepararse para ejecutar los flujos de datos y establecer el estado del sistema una vez que se completa la ejecución del flujo de datos.

  • Flujo de trabajo
  • Flujo de datos
  • Scripts
  • Loops
  • Conditions
  • Probar o atrapar bloques

si

Hay una tabla de hechos que desea actualizar y ha creado un flujo de datos con la transformación. Ahora, si desea mover los datos del sistema de origen, debe verificar la última modificación de la tabla de hechos para extraer solo las filas que se agregaron después de la última actualización.

Para lograr esto, debe crear un script que determine la fecha de la última actualización y luego pasar esto como parámetro de entrada al flujo de datos.

También debe verificar si la conexión de datos a una tabla de hechos en particular está activa o no. Si no está activo, debe configurar un bloque de captura que envía automáticamente un correo electrónico al administrador para notificar sobre este problema.

También puede agregar condicionales al flujo de trabajo. Esto le permite implementar lógica If / Else / Then en los flujos de trabajo.

Las transformaciones se utilizan para manipular conjuntos de datos como entradas y crear una o varias salidas. Hay varias transformaciones que se pueden utilizar en los servicios de datos.

  • Integración de datos
  • Calidad de los datos
  • Platform
  • Merge
  • Query
  • Procesamiento de datos de texto
  • Data_Generator
  • Data_Transfer
  • Effective_Date
  • Hierarchy_flattening
  • Comparación de tablas, etc.

Esta es la transformación más común utilizada en los servicios de datos y puede realizar las siguientes funciones:

  • Filtrado de datos de fuentes

  • Uniendo datos de múltiples fuentes

  • Realizar funciones y transformaciones en datos

  • Mapeo de columnas de esquemas de entrada a salida

  • Asignación de claves primarias

  • Agregar nuevas columnas, esquemas y funciones como resultado de los esquemas de salida

  • Como la transformación de consulta es la transformación más utilizada, se proporciona un acceso directo para esta consulta en la paleta de herramientas.

Esto le permite extraer la información específica de un gran volumen de texto. Puede buscar hechos y entidades como clientes, productos y hechos financieros específicos de una organización.

Esta transformación también verifica la relación entre entidades y permite la extracción.

Los datos extraídos mediante el procesamiento de datos de texto se pueden utilizar en inteligencia empresarial, informes, consultas y análisis.

El procesamiento de datos de texto se usa para encontrar información relevante a partir de datos de texto no estructurados, sin embargo, la limpieza de datos se usa para estandarizar y limpiar datos estructurados.

Puede crear trabajos en tiempo real para procesar mensajes en tiempo real en el diseñador de servicios de datos. Como un trabajo por lotes, el trabajo en tiempo real extrae los datos, los transforma y los carga.

Cada trabajo en tiempo real puede extraer datos de un solo mensaje o también puede extraer datos de otras fuentes como tablas o archivos.

Las ramas de transformación y la lógica de control se utilizan con más frecuencia en trabajos en tiempo real, a diferencia de los trabajos por lotes en Designer.

Los trabajos en tiempo real no se ejecutan en respuesta a una programación o desencadenante interno a diferencia de los trabajos por lotes.

El flujo de datos incorporado se conoce como flujos de datos que se llaman desde otro flujo de datos en el diseño. El flujo de datos incrustado puede contener múltiples fuentes y destinos, pero solo una entrada o salida transfiere datos al flujo de datos principal.

One Input - El flujo de datos integrado se agrega al final del flujo de datos.

One Output - El flujo de datos incrustado se agrega al comienzo de un flujo de datos.

No input or output - Replica un flujo de datos existente.

Las variables locales en los servicios de datos están restringidas al objeto en el que se crean.

Las variables globales están restringidas a los trabajos en los que se crean. Con las variables globales, puede cambiar los valores de las variables globales predeterminadas en tiempo de ejecución.

Las expresiones que se utilizan en el flujo de trabajo y el flujo de datos se denominan parámetros.

Todas las variables y parámetros en el flujo de trabajo y los flujos de datos se muestran en la ventana de variables y parámetros.

Recuperación automática: esto le permite ejecutar trabajos fallidos en modo de recuperación.

Recuperación manual: esto le permite volver a ejecutar los trabajos sin considerar la repetición parcial del tiempo anterior.

El Diseñador de servicios de datos proporciona una función de creación de perfiles de datos para garantizar y mejorar la calidad y estructura de los datos de origen. Data Profiler le permite:

Encuentre anomalías en los datos de origen, validación y acción correctiva y calidad de los datos de origen.

La estructura y relación de los datos de origen para una mejor ejecución de trabajos, flujos de trabajo y flujos de datos.

El contenido del sistema de origen y destino para determinar que su trabajo devuelve el resultado esperado.

El rendimiento de un trabajo ETL depende del sistema en el que esté utilizando el software de servicios de datos, el número de movimientos, etc. Hay varios otros factores que contribuyen al rendimiento en una tarea ETL:

  • Base de datos de origen
  • Sistema operativo de origen
  • Base de datos de destino
  • Sistema operativo de destino
  • Network
  • SO del servidor de trabajos
  • Base de datos del repositorio de DBO

SAP BO Data Services admite el desarrollo de múltiples usuarios, donde cada usuario puede trabajar en la aplicación en su propio repositorio local. Cada equipo utiliza un repositorio central para guardar la copia principal de una aplicación y todas las versiones de los objetos de la aplicación.

En SAP Data Services, la migración de trabajos se puede aplicar en diferentes niveles: nivel de aplicación, nivel de repositorio, nivel de actualización.

Para copiar el contenido de un repositorio central a otro repositorio central, no puede hacerlo directamente y necesita hacer uso del repositorio local.

Primero es obtener la última versión de todos los objetos del repositorio central al repositorio local. Active el repositorio central en el que desea copiar los contenidos.

Agregue todos los objetos que desea copiar del repositorio local al repositorio central.

Si actualiza la versión de SAP Data Services, es necesario actualizar la versión del repositorio. Se deben considerar los siguientes puntos al migrar un repositorio central para actualizar la versión:

Point 1

Realice la copia de seguridad del repositorio central de todas las tablas y objetos.

Point 2

Para mantener la versión de los objetos en los servicios de datos, mantenga un repositorio central para cada versión. Cree un nuevo historial central con la nueva versión del software Data Services y copie todos los objetos a este repositorio.

Point 3

Siempre se recomienda que si instala una nueva versión de Data Services, debe actualizar su repositorio central a una nueva versión de objetos.

Point 4

Además, actualice su repositorio local a la misma versión, ya que es posible que una versión diferente del repositorio central y local no funcione al mismo tiempo.

Point 5

Antes de migrar el repositorio central, registre todos los objetos. Como no actualiza el repositorio central y local simultáneamente, es necesario registrar todos los objetos. Una vez que haya actualizado su repositorio central a una nueva versión, no podrá registrar objetos del repositorio local que tenga una versión anterior de Data Services.

Los SCD son dimensiones que tienen datos que cambian con el tiempo.

SCD Tipo 1 Sin conservación de la historia

Consecuencia natural de la normalización

SCD Tipo 2 Conservando todo el historial y nuevas filas

Hay nuevas filas generadas para cambios significativos.

Necesitas usar una clave única

Se generan nuevos campos para almacenar datos históricos.

Necesita administrar un campo Effective_Date.

SCD Tipo 3 Conservación limitada de la historia

En esto, solo se conservan dos estados de datos: actual y antiguo

No, el formato de archivo no es un tipo de almacén de datos.