apache-spark - spark - rdd significado

¿Qué significa "Stage Skipped" en la interfaz de usuario web de Apache Spark? (1)

Desde mi IU Spark. ¿Qué significa omitido?

Por lo general, significa que los datos se han recuperado de la memoria caché y no hubo necesidad de volver a ejecutar la etapa dada. Es coherente con su DAG, que muestra que la siguiente etapa requiere barajar ( reduceByKey ). Siempre que se trata de barajar, Spark almacena automáticamente en caché los datos generados :

Shuffle también genera una gran cantidad de archivos intermedios en el disco. A partir de Spark 1.3, estos archivos se conservan hasta que los RDD correspondientes ya no se usan y se recolectan basura. Esto se hace para que no sea necesario volver a crear los archivos aleatorios si se vuelve a calcular el linaje.