open source - ¿Cuáles son las herramientas y técnicas de código abierto para construir una plataforma completa de almacenamiento de datos?

open-source data-warehouse (5)

Estoy buscando estas herramientas de código abierto, posiblemente gratuitas o con una versión de prueba gratuita para configurar la pila completa del almacén de datos.

Sé de algunos como el servidor de código abierto Mondrian de Pentaho , pero no pude obtener ningún resultado de Google para configurar la plataforma completa. ¿No estoy seguro de si estos componentes son compatibles entre sí? ¿Podría alguien enumerarlos junto con su posición en la cadena?

Ampliando lo que Pascal escribió:

Servidor OLAP: Mondrian

AJAX tablas dinámicas: Saiku

Diseñador de esquemas OLAP: Pentaho Schema Workbench

Diseñador agregado OLAP: Pentaho Aggregation Designer

ETL: Pentaho Hervidor

Diseñador de informes: Pentaho Report Designer

Calidad de datos: DataCleaner

Almacén de datos en columnas: MonetDB

Minería de datos: RapidMiner

Calidad de datos y perfiles: http://sourceforge.net/projects/dataquality/

También tiene conexión de Hive y banco de trabajo de datos para crear datos de la vida real.

El almacenamiento de datos de código abierto hace un gran trabajo al identificar componentes de OSS que podrían usarse para construir una pila de almacenamiento de datos: infraestructura (servidores, sistema operativo, bases de datos), gestión de integración (ETL, EAI, etc.), gestión de información (DW / Mart / ODS, servidores OLap, etc.), Entrega de información (Portal, Panel de control, Analytics / Cliente OLAP, etc.). Aquí hay un resumen:

Proyectos de código abierto BI / DW
BI y Analytics
BEE - http://bee.insightstrategy.cz/en/index.html
BIRT - http://www.eclipse.org/birt
JasperSoft - http://www.jaspersoft.com
MarvelIT - http://www.marvelit.com/dash.html
OpenI - http://openi.sourceforge.net
OpenReports - http://oreports.com
Naranja - http://www.ailab.si/orange
Palo - http://www.palo.net
Pentaho - Pentaho
R - http://www.r-project.org
SpagoBI - http://spagobi.eng.it
Weka - http://www.cs.waikato.ac.nz/~ml/index.html
VitalSigns - http://vitalsigns.sourceforge.net/
Bases de datos
http://greenplum.org (bizgres)
http://www.ingres.com
http://www.mysql.com
http://www.postgresql.org
http://www.enterprisedb.com
Integración
Apatar - http://www.apatar.com
CloverETL - http://cloveretl.berlios.de/
JitterBit - http://www.jitterbit.com/
KETL - http://www.ketl.org
Pulpo - http://www.enhydra.org/tech/octopus/index.html
OSDQ - http://sourceforge.net/projects/dataquality
Pentaho - Pentaho
Red Hat - http://www.redhat.com
Saga.M31 Galaxy - http://galaxy.sagadc.com
Talend - http://www.talend.com
SnapLogic - http://www.snaplogic.com

Recomiendo navegar por la presentación. Buen material.

Esta es otra pregunta similar 20 mil millones de filas / mes - Hbase / Hive / Greenplum / ¿Qué?

La parte más relevante:

No puedo enfatizar esto lo suficiente: obtenga algo que funcione bien con las herramientas de informes estándar.

Hive o HBase lo ponen en el negocio de construir un front-end personalizado, que realmente no desea a menos que esté contento de pasar los próximos 5 años escribiendo formateadores de informes personalizados en Python.

Una pila de datawarehouse (o suite) generalmente consta de tres capas. Estos se suelen denominar ETL (carga), Database e Reporting (interfaz). Además, existen herramientas algo más avanzadas para el rendimiento y las necesidades de los expertos. Estos consisten en Cubes y Statistical Analysis Tools .

En lo que respecta a la interoperabilidad, las herramientas ETL y las herramientas de informes deben ser compatibles con cualquier base de datos que esté utilizando. Sin embargo, dado que solo hay dos grandes bases de datos de código abierto, generalmente no hay problemas para mezclar diferentes soluciones.

En cuanto a detalles -

1 - ETL

La carga de datos se puede lograr mediante herramientas de código abierto como la integración de datos de Pentaho o Talend (una extensión de eclipse). Yo sugeriría buscar en Google "open source etl" para adaptar la solución a sus necesidades específicas.

2 - DB

Necesitará una base de datos relacional (RDBMS). Los dos jugadores de código abierto más destacados son PostgreSQL (utilizado por ) y MySQL. Si bien MySQL tiene una base de usuarios más grande, Postgres está ganando cada vez más popularidad desde la implementación de varias características cruciales que faltaban en versiones anteriores.

3 - Informes

Pentaho ofrece plataforma de reporting. También lo es BIRT (otra extensión de eclipse). Una vez más, Google es tu amigo para comparaciones específicas. Tenga en cuenta que si elige Pentaho tanto para ETL como para las herramientas de informes, es probable que disfrute de una mejor integración. También mencionó Mondrian, que es una herramienta para generar consultas MDX a través de un RDBMS. MDX es el lenguaje estándar para consultar cubos.

En este momento, suponiendo que esté comenzando desde cero, recomendaría configurar las dos primeras capas del almacén de datos: ETL y DB. Más tarde, puede agregar cualquier número de herramientas de informes anteriores.