spark significado for docs apache-spark spark-streaming rdd

apache-spark - significado - spark apache install



¿Una combinación de RDD co-particionados causa una confusión en Apache Spark? (1)

No. Si dos RDD tienen el mismo particionador, la join no causará una mezcla aleatoria. Puedes ver esto en CoGroupedRDD.scala :

override def getDependencies: Seq[Dependency[_]] = { rdds.map { rdd: RDD[_ <: Product2[K, _]] => if (rdd.partitioner == Some(part)) { logDebug("Adding one-to-one dependency with " + rdd) new OneToOneDependency(rdd) } else { logDebug("Adding shuffle dependency with " + rdd) new ShuffleDependency[K, Any, CoGroupCombiner](rdd, part, serializer) } } }

Sin embargo, tenga en cuenta que la falta de un orden aleatorio no significa que no haya que mover datos entre nodos. Es posible que dos RDD tengan el mismo particionador (se particiónen conjuntamente) pero tengan las particiones correspondientes ubicadas en nodos diferentes (no se coloquen).

Esta situación es aún mejor que hacer una baraja, pero es algo a tener en cuenta. La ubicación conjunta puede mejorar el rendimiento, pero es difícil de garantizar.

¿ rdd1.join(rdd2) produzca una reproducción aleatoria si rdd1 y rdd2 tienen el mismo particionador?