hadoop - gratis - google file

¿Cómo borrar archivos del HDFS? (4)

Durga Viswanath Gadiraju tiene razón, es cuestión de tiempo, tal vez mi PC sea lenta y también use VM, después de 10 minutos los archivos se eliminan físicamente, si está usando el algoritmo que usé en la pregunta. Tenga en cuenta que configure el parámetro fs.trash.interval = 1. O, de forma predeterminada, los archivos no se eliminarán más rápido que 6 horas.

Acabo de descargar Hortonworks Sandbox VM, en su interior están Hadoop con la versión 2.7.1. Agregué algunos archivos usando el

hadoop fs -put /hw1/* /hw1

...mando. Después de ello estoy eliminando los archivos añadidos, por el

hadoop fs -rm /hw1/*

... comando, y después de que limpie la papelera de reciclaje, por el

hadoop fs -expunge

...mando. Pero el espacio restante del DFS no se modificó después de limpiar la bandeja de reciclaje. Incluso puedo ver que los datos fueron realmente eliminados de la / hw1 / y la bandeja de reciclaje. Tengo el fs.trash.interval parameter = 1 .

De hecho, puedo encontrar todos mis datos divididos en /hadoop/hdfs/data/current/BP-2048114545-10.0.2.15-1445949559569/current/finalized/subdir0/subdir2 en la carpeta /hadoop/hdfs/data/current/BP-2048114545-10.0.2.15-1445949559569/current/finalized/subdir0/subdir2 , y esto es realmente una sorpresa para mí, porque espero para ser borrados.

Entonces, mi pregunta ¿cómo eliminar los datos de la forma en que realmente se eliminarán? Después de unos pocos añadidos y borrados me agoté el espacio libre.

Prueba hadoop fs -rm -R URI

La opción -R elimina el directorio y cualquier contenido debajo de él recursivamente.

Su problema está dentro de la base de HDFS. En HDFS (y en muchos otros sistemas de archivos) la eliminación física de archivos no es la operación más rápida. Como HDFS es un sistema de archivos distribuido y, por lo general, se replican al menos 3 réplicas en diferentes servidores del archivo eliminado, luego cada réplica (que puede constar de muchos bloques en diferentes discos duros) debe eliminarse en segundo plano después de su solicitud para eliminar el archivo.

La documentación oficial de Hadoop nos dice lo siguiente:

La eliminación de un archivo hace que se liberen los bloques asociados con el archivo. Tenga en cuenta que podría haber un retraso de tiempo apreciable entre el momento en que un usuario elimina un archivo y el tiempo del aumento correspondiente en el espacio libre en HDFS.

lo que funciona para mi

hadoop fs -rmr -R <your Directory>