tutorial spark procesando para introducción instalacion español dummies data con big scala apache-spark apache-spark-sql distributed-computing rdd

scala - para - procesando el big data con apache spark en español



Concatenar conjuntos de datos de diferentes RDD en Apache chispa utilizando scala (2)

Creo que estás buscando RDD.union

val rddPart1 = ??? val rddPart2 = ??? val rddAll = rddPart1.union(rddPart2)

Ejemplo (en Spark-shell)

val rdd1 = sc.parallelize(Seq((1, "Aug", 30),(1, "Sep", 31),(2, "Aug", 15),(2, "Sep", 10))) val rdd2 = sc.parallelize(Seq((1, "Oct", 10),(1, "Nov", 12),(2, "Oct", 5),(2, "Nov", 15))) rdd1.union(rdd2).collect res0: Array[(Int, String, Int)] = Array((1,Aug,30), (1,Sep,31), (2,Aug,15), (2,Sep,10), (1,Oct,10), (1,Nov,12), (2,Oct,5), (2,Nov,15))

¿Hay alguna forma de concatenar conjuntos de datos de dos RDD diferentes en chispa?

El requisito es: creo dos RDD intermedios usando scala que tiene los mismos nombres de columna, necesito combinar estos resultados de ambos RDD y almacenar en caché el resultado para acceder a la IU. ¿Cómo combino los datasets aquí?

Los RDD son de tipo spark.sql.SchemaRDD