tutorial for exito example español dummies casos hadoop

exito - hadoop for dummies español



casos de uso de hadoop en el mundo real (3)

Novato aquí con Hadoop. En términos conceptuales, es bastante simple de entender, sin embargo, uno de los verdaderos desafíos es cómo modelar el problema que se va a resolver en la arquitectura map-reduce. Supongamos que mis datos contienen dos partes (todas en Oracle): 1. Datos bastante estáticos que no cambian mucho 2. Datos nuevos recopilados todos los días.

y actualmente el procesamiento de datos es básicamente leer los datos nuevos, buscar y usar los datos estáticos correspondientes (o metadatos) y aplicar algún algoritmo y volcarlos a Oracle.

¿Cómo puedo modelar dicho paradigma de aplicación? ¿Guardo / guardo los datos estáticos como parte de la memoria caché distribuida? ¿Qué pasa si esa información es bastante grande?

Básicamente, estoy buscando más ejemplos como el siguiente: http://stevekrenzel.com/finding-friends-with-mapreduce

Gracias,


Me gustaría ver el siguiente artículo acerca de los patrones de Mapa / Reducir , que debería darle una buena idea de los algoritmos comunes y su traducción en el mundo de Mapa / Reducir.

De manera más general, no creo que haya una fórmula mágica para traducir un problema en un conjunto de Mapa / Reducir, tienes que hacerte preguntas que varían de conjunto de datos a conjunto de datos, mirar ejemplos existentes es algo bueno, y definitivamente debes intenta implementar algo en un pequeño problema de juguete.

Además, si tiene problemas para resumir su problema en un conjunto de trabajos de Map / Reduce, también puede usar, por ejemplo, Hive, que funciona como una base de datos relacional con algunos ajustes, y genera trabajos Map / Reduce sin tener que preocuparse demasiado por ellos. lo que pasa.


Básicamente, el requisito es unir dos conjuntos de datos. La programación de MapReduce requiere una forma diferente de pensar que la programación normal. Aquí hay algunas referencias para unir y algunos otros patrones encima de MapReduce

  1. Procesamiento de texto intensivo de datos con MapReduce

  2. Patrones de diseño de MapReduce

  3. Sección 8.3 en Hadoop - La guía definitiva

Volviendo para unirse, puede ser de múltiples maneras en función de la cantidad de datos y de cómo son los datos. Las referencias anteriores tienen más sobre lo mismo.