amazon ec2 - que - Reutilizar la instancia de Amazon Elastic MapReduce

que es aws emr (3)

http://aws.amazon.com/elasticmapreduce/faqs/#dev-6

P: ¿Puedo ejecutar un flujo de trabajo persistente? Sí. Los flujos de trabajo de Amazon Elastic MapReduce que se inician con el indicador -alive continuarán hasta que se rescinda explícitamente. Esto permite a los clientes agregar pasos a un flujo de trabajo a pedido. Puede usar esto para depurar su lógica de flujo de trabajo sin tener que esperar repetidamente para el inicio del flujo de trabajo. También puede usar un flujo de trabajo persistente para ejecutar un clúster de almacenamiento de datos de larga ejecución. Esto se puede combinar con el almacén de datos y paquetes analíticos que se ejecutan en la parte superior de Hadoop, como Hive y Pig.

Probé una tarea simple de Map / Reduce usando Amazon Elastic MapReduce y Amazon Elastic MapReduce solo 3 minutos en completar la tarea. ¿Es posible reutilizar la misma instancia para ejecutar otra tarea?

A pesar de que acabo de usar la instancia durante 3 minutos, Amazon cargará por 1 hr , por lo que quiero usar la balanza 57 minutos para ejecutar otras tareas.

Utilizando:

elastic-mapreduce --jobflow job-id / --jar s3n://some-path/x.jar / --step-name "New step name" / --args ...

también puede agregar pasos que no sean de transmisión a su clúster. (para que no tengas que probarlo tú mismo ;-))

La respuesta es sí.

así es como lo haces usando el cliente de línea de comando:

Cuando creas una instancia, pasas el indicador --alive , esto le dice a emr que mantenga el clúster una vez que se haya ejecutado tu trabajo.

Luego puede enviar más tareas al clúster:

elastic-mapreduce --jobflow <job-id> --stream --input <s3dir> --output <s3dir> --mapper <script1> --reducer <script2>

Para finalizar el clúster más tarde, simplemente ejecute:

elastic-mapreduce <jobid> --terminate

intente ejecutar elastic-mapreduce --help para ver todos los comandos que puede ejecutar.

Si no tiene el cliente de línea de comandos, obténgalo aquí .