¿Cuál es la biblioteca más madura para crear un Data Analytics Pipeline en Java/Scala para Hadoop?

cascading flume (3)

Recientemente encontré muchas opciones, e interesantes en sus comparaciones principalmente por la madurez y la estabilidad.

Crunch - https://github.com/cloudera/crunch
Scrunch - https://github.com/cloudera/crunch/tree/master/scrunch
En cascada - http://www.cascading.org/
Escaldado https://github.com/twitter/scalding
FlumeJava
Scoobi - https://github.com/NICTA/scoobi/

Como soy un desarrollador de Scoobi, no esperes una respuesta imparcial.

En primer lugar, FlumeJava es un proyecto interno de google que proporciona una abstracción (increíblemente productiva) sobre MapReduce (aunque no hadoop). Lanzaron un artículo al respecto, en el que se basan los proyectos como Scoobi y Crunch.

Si su único criterio es la madurez, supongo que en cascada es su mejor apuesta.

Sin embargo, si está buscando la abstracción de estilo FlumeJava (superior), querrá elegir entre (S) crunch y Scoobi.

La mayor diferencia, por superficial que sea, es que el crunch está escrito en Java, con enlaces Scala (Scrunch). Y Scoobi está escrito en Scala con enlaces de Java (scoobij). Ambas son elecciones realmente sólidas, y no te equivocarás en lo que sea que elijas. Estoy seguro de que hay una historia bastante similar con Crunch, pero Scoobi se está utilizando en proyectos reales y está en continuo desarrollo. Somos bastante activos en la corrección de errores y en la implementación de características.

De todos modos, los dos son grandes proyectos con grandes personas detrás de ellos y ambos se lanzaron con pocos días de diferencia. Proporcionan la misma abstracción (con una api similar), por lo que cambiar entre los dos no será un problema en lo más mínimo. Mi recomendación es probarlos y ver qué funciona para usted. No hay bloqueo en ninguno de los proyectos, por lo que no es necesario comprometerse :)

Y si tiene algún comentario para cualquiera de los proyectos, asegúrese de proporcionarlo :)

Scalding también tiene la ventaja de importantes proyectos de código abierto creados sobre ella, como Matrix API y Algebird.

Aquí hay algunos ejemplos: http://sujitpal.blogspot.com/2012/08/scalding-for-impatient.html

Cascalog fue lanzado casi dos años antes de Scalding, y podría decirse que tiene características más avanzadas para crear flujos de trabajo robustos: https://github.com/nathanmarz/cascalog/wiki

Soy un gran fan de Scoobi y lo he usado en producción. Me gusta la forma en que te permite escribir programas de Hadoop de tipo seguro en una forma Scala muy idiomática. Si eso no es necesariamente lo tuyo y te gusta el modelo en cascada pero te asusta la enorme cantidad de código repetitivo que tendrías que escribir, Twitter ha abierto recientemente su propia capa de abstracción Scala sobre Cascading llamada Scalding .

Anuncio: https://dev.twitter.com/blog/scalding
GitHub: https://github.com/twitter/scalding

Supongo que todo es una cuestión de gusto en este punto, ya que la mayoría de los marcos están muy cerca unos de otros.