java - for - hadoop tutorial pdf
Diferencias de distribuciĆ³n de Hadoop (4)
Descargo de responsabilidad: realicé prácticas en Cloudera este verano (pero algunos de mis mejores amigos están en Yahoo! :-))
La distribución de Yahoo es una versión de Hadoop 20 que se ejecuta (¿se ejecuta?) En algún subconjunto de sus clústeres. Incluye un conjunto de parches para estabilidad, corrección de errores, etc. Es una versión de origen; no tiene características amigables para el administrador como paquetes rpm o debian, etc.
La distribución Cloudera es paquetes como rpms y debs (la fuente también está disponible). Esto significa que puede obtener actualizaciones a través de métodos estándar, etc. También incluye parches de estabilidad y corrección de errores. Se mantiene constantemente (por no decir que Yahoo no lo es; supongo que uno podría ir a github y verificar cuándo lo actualizó por última vez). También incluye Pig y Hive.
La distribución de Hadoop 20 de Cloudera está en beta, y 18 se considera estable (más sobre esto en el blog de Cloudera ). La versión 18 también incluye paquetes para Hive y Pig; para 20, tiene que construirlos usted mismo (no hay versiones oficiales de Pig o Hive que admitan 20 todavía, aunque existen parches). Puede haber una superposición significativa entre las versiones Cloudera y Yahoo de 20; ambos proporcionan manifiestos, para que pueda verificar. La última documentación de las distribuciones de Cloudera está en http://archive.cloudera.com
Yahoo no proporciona soporte para su distribución; proporcionan su versión parchada como un servicio a la comunidad, por lo que las personas que están interesadas pueden construir lo que Yahoo ejecuta internamente. Dado el tamaño de los clústeres de Yahoo, esa es una contribución significativa, especialmente si usted no es un desarrollador de Hadoop que sigue las JIRA todo el tiempo. Cloudera admite su distribución comercialmente, así como también proporciona un poco de apoyo de la comunidad a través de las listas de correo de Hadoop y, para problemas específicos de la distribución, en su página GetSatisfaction.
Ambos son bastante diferentes de la distribución vanche de Apache, ya que la parchean entre lanzamientos (¡la versión cloudera de 20 tiene más de 60 parches!).
¿Alguien puede delinear las diversas diferencias entre las diversas distribuciones de Hadoop disponibles?
- Cloudera - http://www.cloudera.com/hadoop
- Yahoo - http://developer.yahoo.net/blogs/hadoop/
utilizando la distribución de Apache Hadoop como referencia.
¿Hay una buena razón para usar una de estas distribuciones sobre la distribución estándar de Apache Hadoop?
Existen diferentes motivos para elegir una distribución Hadoop como Cloudera, Hortonworks o MapR en lugar de Apache Hadoop. Dos grandes ventajas son el soporte de herramientas y el soporte comercial. También tiene muchos problemas para "recopilar e integrar" todos los marcos Hadoop como Pig, Hive, etc. en versiones correctas y compatibles.
Eche un vistazo a mi artículo en InfoQ. Explica las diferencias entre las distribuciones Apache Hadoop, Hadoop y Big Data, y cuándo usar cuál:
http://www.infoq.com/articles/BigDataPlatform
Atentamente,
Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)
SquareCog está justo en casi todos los puntos excepto: el Yahoo! distribución es lo que se ejecuta en todos los clusters de producción en Yahoo !, no un subconjunto de ellos. Esto es más de 25,000 máquinas en total. El Yahoo! distribución ha tenido la prueba extensiva, de extremo a extremo, necesaria para garantizar una operación confiable y consistente. La otra distribución es más liberal sobre la aplicación de parches y, por lo tanto, puede tener más características, pero no se ha probado de forma exhaustiva.
Yahoo ha suspendido su propia distribución y se centra en Apache Hadoop.
http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/
Recientemente, HortonWorks (www.hortonworks.com) se separó de Yahoo. Y ahora HortonWorks también proporcionaría soporte a diferencia de Yahoo.
http://www.hortonworks.com/about-us/our-manifesto/
Cloudera está en la misma línea que HortonWorks
http://www.cloudera.com/products-services/
La principal diferencia es que HortonWorks desea que las distribuciones de Apache sean estables, fáciles de instalar y otras. Mientras, Cloudera tiene su propia distribución CDH * basada en Apache Hadoop.