tutorial ruta que lista descargar copiar comandos borrar archivos archivo and hadoop hdfs sequencefile

hadoop - ruta - Ventajas del archivo de secuencia sobre el archivo de texto hdfs



lista de comandos hdfs (3)

¿Cuál es la ventaja de Hadoop Sequence File sobre HDFS flat file (Text)? ¿De qué manera el archivo Sequence es eficiente?

Los archivos pequeños se pueden combinar y escribir en un archivo de secuencia, pero lo mismo se puede hacer para un archivo de texto HDFS también. Necesita saber la diferencia entre las dos formas. He estado buscando en Google sobre esto por un tiempo, sería útil si tengo claridad sobre esto?


  1. Los archivos de secuencia son apropiados para situaciones en las que desea almacenar claves y sus valores correspondientes. Para los archivos de texto, puede hacerlo, pero debe analizar cada línea.
  2. Puede ser comprimido y aún ser divisible, lo que significa una mejor carga de trabajo. No puede dividir un archivo de texto comprimido a menos que use un formato de compresión divisible.
  3. Se puede abordar como archivos binarios => más eficiente de almacenamiento. En un archivo de texto, un doble será un número de chars => gran sobrecarga de almacenamiento.

Los archivos de secuencia son archivos intermedios generados durante el mapeo y la fase de reducción del procesamiento de MapReduce. El archivo de secuencia es comprimible y rápido en el proceso; se usa para escribir la salida durante el mapeo y los rojos del reductor. Hay API en Hadoop y Spark para leer / escribir archivos de secuencia


Ventajas de los archivos de Hadoop Sequence (según el artículo de hadooptutorial.info sitio web hadooptutorial.info )

  1. Más compacto que los archivos de texto
  2. Proporciona soporte para compresión en diferentes niveles - Bloquear o Grabar, etc.
  3. Los archivos se pueden dividir y procesar en paralelo
  4. Pueden resolver un gran número de problemas de archivos pequeños en Hadoop, donde la ventaja principal de Hadoop es el procesamiento de archivos grandes con trabajos de reducción de mapas. Se puede usar como contenedor para una gran cantidad de archivos pequeños
  5. La salida temporal de Mapper se puede almacenar en archivos secuenciales

Desventajas:

  1. Los archivos secuenciales son solo anexados