amazon s3 - simple - saveAsTextFile to s3 on spark no funciona, solo cuelga
que es aws emr (1)
Es posible que esté corriendo contra la limitación de objetos de 5 GB del s3n FileSystem
. Es posible que pueda evitar esto utilizando s3 FileSystem
(no s3n
) o particionando su salida.
Esto es lo que dice AmazonS3 - Hadoop Wiki :
S3 Native FileSystem (esquema de URI: s3n) Un sistema de archivos nativo para leer y escribir archivos regulares en S3. La ventaja de este sistema de archivos es que puede acceder a archivos en S3 que se escribieron con otras herramientas. [...] La desventaja es el límite de 5 GB en el tamaño de archivo impuesto por S3.
...
S3 Block FileSystem (esquema URI: s3) Sistema de archivos basado en bloques respaldado por S3. Los archivos se almacenan como bloques, al igual que en HDFS. Esto permite una implementación eficiente de los cambios de nombre. Este sistema de archivos requiere que dediques un cubo para el sistema de archivos [...] Los archivos almacenados por este sistema de archivos pueden ser mayores de 5GB, pero no son interoperables con otras herramientas S3.
...
AmazonS3 (última edición del 2014-07-01 13:27:49 por SteveLoughran)
Estoy cargando un archivo de texto csv de s3 en spark, filtrando y mapeando los registros y escribiendo el resultado en s3.
He intentado con varios tamaños de entrada: 100k filas, 1M filas y 3.5M filas. Los dos primeros terminan con éxito, mientras que el último (filas de 3.5M) se cuelga en un estado extraño en el que la etapa de tareas supervisa la aplicación web (la del puerto 4040) y la consola de línea de comandos se atasca y ni siquiera responde ctrl- do. La aplicación de supervisión web del Máster aún responde y muestra el estado como FINISHED
.
En s3, veo un directorio vacío con una sola entrada de tamaño cero _temporary_$folder$
. La URL s3 se da usando el protocolo s3n://
.
No vi ningún error en los registros en la consola web. También probé varios tamaños de clúster (1 maestro + 1 trabajador, 1 maestro + 5 trabajadores) y obtuve el mismo estado.
¿Alguien ha encontrado tal problema? ¿Tienes idea de lo que está pasando?