hadoop - spark - resilient distributed dataset

¿Cuál es la diferencia entre una partición RDD y un segmento? (1)

La Guía de programación de Spark menciona los segmentos como una característica de los RDD (tanto en colecciones paralelas como en conjuntos de datos de Hadoop). ("Spark ejecutará una tarea para cada sector del grupo"). sin introduccion Además, los documentos de RDD solo mencionan particiones sin mención de segmentos, mientras que los documentos de SparkContext mencionan segmentos para crear RDD, pero particiones para ejecutar trabajos en RDD. ¿Son estos dos conceptos los mismos? Si no, ¿en qué se diferencian?

Ajuste: el nivel de paralelismo indica que "Spark establece automáticamente el número de tareas de" mapa "para que se ejecuten en cada archivo según su tamaño ... y para las operaciones de" reducción "distribuidas, como groupByKey y reduceByKey, usa el RDD principal más grande número de particiones. Puede pasar el nivel de paralelismo como segundo argumento ... "Entonces, ¿esto explica la diferencia entre particiones y segmentos? Las particiones están relacionadas con el almacenamiento RDD y las divisiones están relacionadas con el grado de paralelismo, y los empalmes predeterminados se calculan en función del tamaño de los datos o del número de particiones.

Ellos son la misma cosa. La documentación se ha corregido para Spark 1.2 gracias a Matthew Farrellee. Más detalles en el error: issues.apache.org/jira/browse/SPARK-1701