frameworks - studio - ¿Hay marcos de almacenamiento de datos?

programacion android pdf 2018 (7)

El mejor marco que puede obtener actualmente es Anchor Modeling .
Puede parecer bastante complejo debido a su estructura genérica y capacidad incorporada para historizar datos.
También la técnica de modelado es bastante diferente de ERD.
Pero terminas con el código sql para generar todos los objetos db, incluidas las vistas de 3NF y:

insertar / actualizar manejado por disparadores
consultar cualquier punto / rango en la historia
los desarrolladores de aplicaciones no verán el modelo de ancla de 6NF subyacente.

La tecnología es de código abierto y en este momento es inmejorable.

Si tuviera una pregunta de AM, es posible que desee preguntar sobre esa etiqueta de modelado de anclaje .

Tengo muchos datos de mysql de los que necesito generar informes. Se trata principalmente de datos históricos, por lo que no cambiará mucho, pero pesa entre 20 y 30 gigabytes fácilmente y se espera que crezca. Actualmente tengo una colección de scripts php que harán algunas consultas complejas y generarán archivos csv y excel. También uso phpMyAdmin con consultas marcadas. Los edito manualmente para cambiar los parámetros. La cantidad de datos está creciendo y la cantidad de personas que necesitan acceder a ella también está creciendo, así que estoy haciendo un tiempo para mejorar esta situación.

Empecé a leer sobre el almacenamiento de datos el otro día y parece que esta es un área que se relaciona con lo que tengo que hacer. He leído algunos buenos artículos e incluso estoy esperando un libro. Creo que estoy entendiendo qué hacen estos tipos de sistemas y qué es posible.

Crear un sistema de informes para mis datos siempre ha estado en una lista de tareas pendientes, pero hasta hace poco, pensé que sería una empresa de programación altamente especializada. Como ahora sé que el almacenamiento de datos es una cosa común, creo que debe haber algún tipo de marcos de informes / almacenamiento disponibles para facilitar el desarrollo. Con mucho gusto me saltaría las interfaces de escritura y los guiones para programar y enviar informes por correo electrónico y cosas por el estilo, y me atengo a la redacción de consultas y al establecimiento de relaciones.

He sido en su mayoría un tipo de lámpara, pero no estoy por encima de cambiar idiomas o plataformas. Solo necesito una solución más robusta ya que mis scripts únicos no se escalan bien.

Entonces, ¿dónde es un buen lugar para comenzar?

Creo que primero deberías verificar Kimball e Inmon y ver si deseas acercarte a tu almacén de datos de una manera particular. Kimball, en particular, establece un muy buen marco para el modelado y la construcción del almacén.

No se ha actualizado en un tiempo, pero hay un buen paquete Data Warehousing / ETL Ruby llamado ActiveWarehouse .

Pero verificaría los productos Pentaho como mencionó Nick en otra respuesta. Debe manejar fácilmente el volumen de datos que tiene y puede proporcionarle más formas de dividir y dividir sus datos de lo que nunca hubiera imaginado.

Pentaho ha creado un conjunto bastante completo de productos. Los productos son "gratuitos", pero prepárese para la venta habitual habitual una vez que se desvía de su información de identificación.

No he tenido la oportunidad de realmente estirarlos, ya que somos una tienda de Microsoft de un lado triste al otro.

Discutiré algunos puntos en el espectro de {presupuesto, función de utilidad comercial, marco de tiempo}. Para mayor comodidad, sigamos la conceptualización de la arquitectura a la que se vinculó en

WikipediaDataWarehouseArticle

Capa de base de datos operacional
Los datos de origen para el depósito de datos: normalizados para el mantenimiento de datos en un solo lugar.
Capa de acceso a datos
La transformación de sus datos de origen en su capa de acceso de información.
Las herramientas de ETL para extraer, transformar y cargar datos en el almacén se incluyen en esta capa.
Capa de acceso informativo
• Estructura de datos facilitadora de informes
Los datos no se mantienen aquí. Es simplemente un reflejo de sus datos de origen
Por lo tanto, estructuras desnormalizadas (que contienen datos duplicados, pero sistemáticamente derivados)
generalmente son más efectivos aquí
• Herramientas de informes
¿Cómo permite que sus usuarios accedan a los datos?
• informes pre-enlatados (simple)
• métodos de acceso más dinámicos de corte y dados

Los datos a los que se accede para informar y analizar, y las herramientas para informar y analizar datos
caer en esta capa. Y las diferencias Inmon-Kimball sobre la metodología de diseño,
discutido más adelante en el artículo de Wikipedia, tienen que ver con esta capa.

Capa de metadatos (facilita la automatización, organización, etc.)

Rollo propio (low-end)
Por muy poco gasto de bolsillo, solo el reconocimiento de la necesidad de las estructuras desnormalizadas puede comprar aquellas que no lo están usando algunas eficiencias

Participa en el juego de pelota (se requieren algunos desembolsos)
No necesita usar toda la funcionalidad de una plataforma desde el principio.
IMO, sin embargo, desea estar en una plataforma que usted sabe que crecerá, y en el entorno de BI altamente competitivo y consolidado, que parece ser uno de los cuatro grandes proveedores empresariales (mi opinión)

Microsoft (la plataforma de nuestra firma de 110 empleados)
SAVIA
Oráculo
IBM

BiMarketStateArticle

Mi empresa está en esta etapa, utilizando parte de la capacidad ETL ofrecida por SQL Server Integration Services (SSIS) y algún uso alternativo del código abierto, pero en la práctica la licencia requiere el producto Talend en la "Capa de acceso a datos", una estructura de informes desnormalizada (implementado completamente en la base de datos básica de SQL Server) y SQL Server Reporting Services (SSRS) para automatizar en gran medida (según su habilidad) la producción de informes preespecificados. Tenga en cuenta que un "informe" de SSRS es simplemente una configuración / especificación XML (escalable) que se representa en tiempo de ejecución a través del motor SSRS. Las opciones como exportar a un archivo de Excel son opciones simples.

Compromiso serio (se requiere un compromiso humano significativo)
Tenga en cuenta que aún no hemos utilizado las capacidades de minería de datos / división dinámica / división en cuadritos de SQL Server Analysis Services. Estamos trabajando para lograrlo, pero ahora nos enfocamos en mejorar la calidad de nuestra limpieza de datos en la "Capa de acceso a datos".

Espero que esto te ayude a tener una idea de por dónde empezar a buscar.

Kimball es el método más simple para el almacenamiento de datos.

Usamos Informatica para mover datos, pero no hace cosas de DW como la indexación por defecto.
Me gusta la idea de Wherescape RED, como una herramienta DW y el uso de Servidores Vinculados de MS SQL para obviar la necesidad de una herramienta ETL.

Hay una serie de herramientas que intentan realizar el proceso de diseño, implementación y administración / operación de un Data Warehouse y cada una de ellas tiene sus fortalezas y debilidades y, a menudo, puntos de precio muy diferentes. Debajo de las coberturas, siempre serás mejor si tienes un buen conocimiento de los principios de enclaustramiento de guerra de los campos Kimball y / o Inmon.

Además de herramientas como Kalido y Wherescape RED (que hacen algo similar de maneras muy diferentes), muchas de las plataformas ETL ahora tienen un buen soporte integrado para el trabajo de implementación de burro: componentes de SCD, etc. y seguimiento de linaje.

Lo mejor es ver todo esto como herramientas para ser usadas en las manos de usted, el artesano, hacen que ciertas cosas fáciles sean incluso más fáciles (o incluso triviales), algunas cosas difíciles son más sencillas pero algunas cosas simplemente las obtienen en mi humilde opinión;) Primero aprenda la metodología y los principios, y comprenda bien los mismos, y luego sabrá qué herramientas aplicar desde su kitbag y cuándo ...