tutorial started spark significado reducebykey getting hadoop apache-spark hdfs rdd

hadoop - started - reducebykey spark



Spark: guardando RDD en una ruta ya existente en HDFS (1)

Puedo guardar la salida de RDD en HDFS con el método saveAsTextFile . Este método arroja una excepción si la ruta del archivo ya existe.

Tengo un caso de uso donde necesito guardar el RDDS en una ruta de archivo ya existente en HDFS. ¿Hay alguna manera de hacerlo simplemente anexar los datos del nuevo RDD a los datos que ya existen en la misma ruta?


Una posible solución, disponible desde Spark 1.6, es utilizar DataFrames con formato de text y modo de DataFrames :

val outputPath: String = ??? rdd.map(_.toString).toDF.write.mode("append").text(outputPath)