varias studio importar graficos graficas datos commander cargar r hadoop environment-variables filenames hadoop-streaming

studio - ¿Cómo se puede obtener el nombre de archivo de un trabajo de reducción de mapas en R?



importar datos en r studio (1)

Estoy transmitiendo un trabajo R mapreduce y necesito obtener el nombre de archivo. Sé que Hadoop establece las variables de entorno para el trabajo actual antes de que se inicie y puedo acceder a los archivos env en R con Sys.getenv ().

Encontré: Obtener el nombre del archivo de entrada en el programa hadoop de transmisión

y Sys.getenv (mapred_job_id) funciona bien, pero no es lo que necesito. Solo necesito el nombre de archivo y no la identificación o el nombre del trabajo. También encontré: ¿Cómo obtener el nombre del archivo cuando ejecuto mapreduce job en EC2?

Pero esto tampoco es útil. ¿Cuál es la forma más fácil de obtener el nombre de archivo actual mientras se transmite desde R? Gracias


No he intentado esto, pero desde el segundo enlace que proporcionó, parece que está disponible en una variable de entorno llamada map.input.file . Entonces, esto debería funcionar:

Sys.getenv("map.input.file")

EDITAR: luego de una investigación más profunda, aprendí que necesitas reemplazar los puntos con guiones bajos, así que esta es la manera de hacerlo:

Sys.getenv("map_input_file")

Sin embargo, la propiedad map.input.file ha quedado obsoleta en YARN (Hadoop 2.x), por lo que se debe usar el nuevo nombre en su lugar:

Sys.getenv("mapreduce_map_input_file")