with - ¿Cómo se usa MapReduce/Hadoop?

mapreduce java code (5)

Estoy analizando conjuntos de datos existentes, en mi caso rastros de actividad del programador.

Estoy buscando información general sobre cómo otras personas usan Hadoop u otras tecnologías similares a MapReduce. En general, tengo curiosidad por saber si está escribiendo aplicaciones MR para procesar conjuntos de datos existentes (como archivos de registro del servidor web), o ¿está escribiendo aplicaciones que generan y procesan nuevos conjuntos de datos?

Editar: Preguntas de seguimiento

(1) ¿Alguna vez ejecuta un programa MR contra datos generados por otros programas MR?

(2) ¿Alguna vez necesita modificar conjuntos de datos existentes utilizando MR?

(3) ¿Alguna vez comparte sus conjuntos de datos con otros desarrolladores?

Consulte la wiki de PowerdBy Hadoop para ver ejemplos de todo, desde Facebook hasta FOX News y cómo lo están usando.

He usado hadoop como parte de nutch , y para construir / analizar web-graphs y texto

(1) Muchas tareas no pueden realizarse de una sola vez, por lo que la necesidad de ejecutar MR en datos generados por MR es esencial.

(2) Cuando se arrastra con nutch, hay situaciones en las que necesita filtrar o normalizar el Crawldb u otros datos. (Entonces sí)

(3) Hasta ahora principalmente como volcados o resultados de algún tipo. No como datos de MR "nativos" hasta ahora.

Mis dos usos hasta ahora han sido el análisis de grandes conjuntos de datos de comportamiento (recopilados de la web, teléfonos móviles, & c) y paralelización de enfoques a grandes problemas (por ejemplo, usar algoritmos genéticos para encontrar óptimos locales en un espacio problemático NP-completo).

En el caso general, los flujos de MR son de etapas múltiples, por lo que frecuentemente me desempeño en contra de los datos generados por una etapa anterior de MR.

En general, tengo curiosidad por saber si está escribiendo aplicaciones MR para procesar conjuntos de datos existentes (como archivos de registro del servidor web), o ¿está escribiendo aplicaciones que generan y procesan nuevos conjuntos de datos?

El trabajo que estoy haciendo con las aplicaciones MR implica el procesamiento de conjuntos de datos existentes que se pueden utilizar para generar nuevos conjuntos de datos, que ...

(1) ¿Alguna vez ejecuta un programa MR contra datos generados por otros programas MR?

...si, lo hago. Esto se conoce como encadenamiento de operaciones de mapa / reducción, donde se vinculan múltiples mapas y se reducen los trabajos en secuencia.

(2) ¿Alguna vez necesita modificar conjuntos de datos existentes utilizando MR?

La idea de MR es incluir tu conjunto de datos existente y no tener que modificarlo para procesar y analizar información. El único caso en el que tuve que hacer eso fue dividiendo un conjunto de datos en parcelas.

(3) ¿Alguna vez comparte sus conjuntos de datos con otros desarrolladores?

Gran parte del código que está involucrado en las aplicaciones de MR activas se considera propietario como lo es el mío, por lo que compartirlo con otros desarrolladores es un problema; si desea que los conjuntos de datos de muestra funcionen con los libros que recomiendo son Pro Hadoop (Venner), Hadoop en acción (Lam) y Hadoop, la Guía definitiva (Blanco).