scala - La función devuelve una lista vacía en Spark
apache-spark functional-programming (1)
Ocurre porque
filesInZip
no se comparte entre los trabajadores.
foreach
opera en una copia local de
filesInZip
y cuando termina esta copia simplemente se descarta y se recolecta la basura.
Si desea conservar los resultados, debe usar la transformación (muy probablemente un
flatMap
) y devolver los valores agregados recopilados.
def listFiles(stream: PortableDataStream): TraversableOnce[String] = ???
zipInputStream.flatMap(listFiles)
Puede obtener más información de Comprender los cierres
A continuación se muestra el código para obtener la lista de nombres de archivo en un archivo comprimido
def getListOfFilesInRepo(zipFileRDD : RDD[(String,PortableDataStream)]) : (List[String]) = {
val zipInputStream = zipFileRDD.values.map(x => new ZipInputStream(x.open))
val filesInZip = new ArrayBuffer[String]()
var ze : Option[ZipEntry] = None
zipInputStream.foreach(stream =>{
do{
ze = Option(stream.getNextEntry);
ze.foreach{ze =>
if(ze.getName.endsWith("java") && !ze.isDirectory()){
var fileName:String = ze.getName.substring(ze.getName.lastIndexOf("/")+1,ze.getName.indexOf(".java"))
filesInZip += fileName
}
}
stream.closeEntry()
} while(ze.isDefined)
println(filesInZip.toList.length) // print 889 (correct)
})
println(filesInZip.toList.length) // print 0 (WHY..?)
(filesInZip.toList)
}
Ejecuto el código anterior de la siguiente manera:
scala> val zipFileRDD = sc.binaryFiles("./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip")
zipFileRDD: org.apache.spark.rdd.RDD[(String, org.apache.spark.input.PortableDataStream)] = ./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip BinaryFileRDD[17] at binaryFiles at <console>:25
scala> getListOfFilesInRepo(zipRDD)
889
0
res12: List[String] = List()
¿Por qué no obtengo 889 y en su lugar obtengo 0?