sirve - Hadoop o Hadoop Streaming para MapReduce en AWS
spark aws (3)
Estoy a punto de comenzar un proyecto mapreduce que se ejecutará en AWS y tengo la opción de usar Java o C ++.
Entiendo que escribir el proyecto en Java me proporcionaría más funcionalidades, sin embargo, C ++ también podría llevarlo a cabo a través de Hadoop Streaming.
Eso sí, tengo pocos antecedentes en ninguno de los dos idiomas. Un proyecto similar se ha realizado en C ++ y el código está disponible para mí.
Entonces mi pregunta es: ¿esta funcionalidad adicional está disponible a través de AWS o solo es relevante si tienes más control sobre la nube? ¿Hay algo más que deba tener en cuenta para tomar una decisión, como la disponibilidad de complementos para hadoop que funcionan mejor con un idioma u otro?
Gracias por adelantado
Depende de tus necesidades. ¿Cuál es su entrada / salida? ¿Es un simple archivo de texto? ¿Registros con nuevos delimitadores de línea? ¿Necesitas un combinador especial? ¿particionador?
Lo que quiero decir es que si solo necesitas los fundamentos de hadoop, la transmisión estará bien. Pero si necesita un poco más de complejidad (desde el marco de hadoop, no desde su propia lógica comercial), hadoop jar será más flexible.
Sagie
Decidí que la flexibilidad de Java era más importante que lidiar con las posibles deficiencias de ajustar mi código actual de C ++ a Java.
Gracias por todas sus respuestas.
Tiene algunas opciones para ejecutar Hadoop en AWS. Lo más simple es ejecutar sus trabajos de MapReduce a través de su servicio Elastic MapReduce: http://aws.amazon.com/elasticmapreduce . También puede ejecutar un clúster de Hadoop en EC2, como se describe en http://archive.cloudera.com/docs/ec2.html .
Si sospecha que necesitará escribir sus propios formatos de entrada / salida, particionadores y combinadores, le recomendaría usar Java con este último sistema. Si su trabajo es relativamente simple y no planea utilizar su clúster Hadoop para ningún otro fin, le recomiendo que elija el idioma con el que se sienta más cómodo y que use EMR.
De cualquier manera, buena suerte!
Divulgación: soy un fundador de Cloudera.
Saludos, Jeff