apache-spark - spark - rdd significado
Por lo general, significa que los datos se han recuperado de la memoria caché y no hubo necesidad de volver a ejecutar la etapa dada.
Es coherente con su DAG, que muestra que la siguiente etapa requiere barajar (
reduceByKey
).
Siempre que se trata de barajar, Spark
almacena automáticamente en caché los datos generados
:
Shuffle también genera una gran cantidad de archivos intermedios en el disco. A partir de Spark 1.3, estos archivos se conservan hasta que los RDD correspondientes ya no se usan y se recolectan basura. Esto se hace para que no sea necesario volver a crear los archivos aleatorios si se vuelve a calcular el linaje.