python r hadoop bigdata

python - Cómo comenzar con Big Data Analysis



hadoop bigdata (2)

He sido un usuario de R desde hace mucho tiempo y recientemente comencé a trabajar con Python. Utilizando sistemas RDBMS convencionales para el almacenamiento de datos, y R / Python para el procesamiento de números, siento la necesidad ahora de ensuciarme las manos con Big Data Analysis.

Me gustaría saber cómo empezar a utilizar Big Data. - Cómo comenzar de forma simple con Map / Reduce y el uso de Hadoop

  • ¿Cómo puedo aprovechar mis habilidades en R y Python para comenzar con el análisis de Big Data? Usando el proyecto Python Disco, por ejemplo.
  • Usando el paquete RHIPE y encontrando conjuntos de datos de juguetes y áreas problemáticas.
  • Encontrar la información correcta que me permita decidir si necesito moverme a NoSQL desde las bases de datos de tipo RDBMS

En general, me gustaría saber cómo comenzar de a poco y desarrollar gradualmente mis habilidades y conocimientos en Big Data Analysis.

Gracias por sus sugerencias y recomendaciones. Me disculpo por la naturaleza genérica de esta consulta, pero estoy buscando obtener más perspectiva con respecto a este tema.

  • Duro

Usando el proyecto Python Disco, por ejemplo.

Bueno. Juega con eso

Usando el paquete RHIPE y encontrando conjuntos de datos de juguetes y áreas problemáticas.

Multa. Juega con eso, también.

No te preocupes por encontrar conjuntos de datos "grandes". Incluso pequeños conjuntos de datos presentan problemas muy interesantes. De hecho, cualquier conjunto de datos es un punto de partida.

Una vez construí un pequeño esquema de estrellas para analizar el presupuesto de $ 60M de una organización. La fuente de datos estaba en hojas de cálculo, y esencialmente incomprensible. Así que lo descargué en un esquema en estrella y escribí varios programas analíticos en Python para crear informes simplificados de los números relevantes.

Encontrar la información correcta que me permita decidir si necesito moverme a NoSQL desde las bases de datos de tipo RDBMS

Esto es facil.

Primero, obtenga un libro sobre almacenamiento de datos (The Data Warehouse Toolkit de Ralph Kimball) por ejemplo.

En segundo lugar, estudie cuidadosamente el "Esquema estelar", especialmente todas las variantes y casos especiales que Kimball explica (en profundidad)

En tercer lugar, tenga en cuenta lo siguiente: SQL es para actualizaciones y transacciones.

Al hacer un procesamiento "analítico" (grande o pequeño) casi no hay actualizaciones de ningún tipo. SQL (y la normalización relacionada) ya no importan mucho.

El punto de Kimball (y otros, también) es que la mayor parte de su depósito de datos no está en SQL, sino en archivos planos simples. Un data mart (para análisis ad-hoc, slice-and-dice) puede estar en una base de datos relacional para permitir un procesamiento fácil y flexible con SQL.

Entonces la "decisión" es trivial. Si es transaccional ("OLTP") debe estar en un DB Relacional u OO. Si es analítico ("OLAP"), no requiere SQL, excepto para análisis de división de dados; e incluso entonces, el DB se carga desde los archivos oficiales según sea necesario.


Una cosa que puede considerar es el programa de análisis de datos DMelt ( http://jwork.org/dmelt/ ). Una característica notable es que tiene cientos de ejemplos que usan el lenguaje Python y algunos libros. La razón por la que lo estaba usando es que se ejecuta en mi Windows 10 (ya que usa Java VM), además tiene muy buenos gráficos en 2D / 3D que se pueden exportar al formato de gráficos vectoriales.