apache-spark partitioning

apache spark - ¿Cómo funciona la partición en Spark?



apache-spark partitioning (1)

De forma predeterminada, se crea una partición para cada partición HDFS, que de forma predeterminada es de 64 MB (de la Guía de programación de Spark ).

Es posible pasar otro parámetro defaultMinPartitions que anula el número mínimo de particiones que creará spark. Si no reemplaza este valor, entonces spark creará al menos tantas particiones como spark.default.parallelism .

Dado que se supone que spark.default.parallelism es el número de núcleos en todas las máquinas de su grupo, creo que en su caso se crearían al menos 3 particiones.

También puede particionar o coalesce un RDD para cambiar el número de particiones que, a su vez, influyen en la cantidad total de paralelismo disponible.

Estoy tratando de entender cómo se realiza la partición en Apache Spark. ¿Pueden ustedes ayudar, por favor?

Aquí está el escenario:

  • Un maestro y dos nodos con 1 núcleo cada uno.
  • un archivo count.txt de 10 MB de tamaño

¿Cuántas particiones crea el siguiente?

rdd = sc.textFile(count.txt)

¿El tamaño del archivo tiene algún impacto en el número de particiones?