sistemas ejemplos distribuidos basados archivos afs linux filesystems distributed-computing distributed-system

ejemplos - El mejor sistema de archivos distribuidos para la granja de almacenamiento linux de commodity



sistemas de archivos distribuidos ejemplos (7)

Ceph parece ser una prometedora nueva entrada en la arena. Sin embargo, el sitio afirma que todavía no está listo para su uso en producción.

Tengo una gran cantidad de servidores de inteligencia de Linux por ahí (cientos) y quiero usarlos para un sistema de archivos distribuidos en un entorno de alojamiento web y uso compartido de archivos. Esto no es para una aplicación HPC, por lo que un alto rendimiento no es crítico. El requisito principal es la alta disponibilidad, si un servidor se desconecta, los datos almacenados en sus discos duros todavía están disponibles desde otros nodos. Debe ejecutar TCP / IP y proporcionar permisos de archivo POSIX estándar.

He visto lo siguiente:

  • Lustre ( http://wiki.lustre.org/index.php?title=Main_Page ): se acerca mucho , pero no proporciona redundancia para los datos en un nodo. Debe crear los datos HA utilizando RAID o DRBD. Compatible con Sun y Open Source, por lo que debería estar disponible por un tiempo

  • gfarm ( http://datafarm.apgrid.org/ ): Parece que proporciona la redundancia, pero a costa de la complejidad y la facilidad de mantenimiento. No tan bien soportado como Lustre.

¿Alguien tiene alguna experiencia con estos u otros sistemas que podrían funcionar?


Lustre ha estado trabajando para nosotros. No es perfecto, pero es lo único que hemos probado que no se ha roto con la carga. Todavía recibimos LBUGS de vez en cuando y tratar con sistemas de archivos de 100 TB + nunca es fácil, pero el sistema Lustre ha funcionado e incrementado tanto el rendimiento como la disponibilidad.




Si no alguien te obliga a usarlo, también te recomendaría usar cualquier otra cosa que no sea Lustre. Por lo que escuché de otros y lo que también me causó pesadillas durante bastante tiempo es el hecho de que Lustre se derrumba con bastante facilidad en todo tipo de situaciones. Y si solo un cliente en el sistema se descompone, se pone en un modo do_nothing_loop interminable mientras mantiene un bloqueo global importante, por lo que la próxima vez que otro cliente intente acceder a la misma información, también se bloqueará. Por lo tanto, a menudo terminas reiniciando todo el clúster, que supongo que es algo que tratarías de evitar normalmente;)

Los sistemas de archivos paralelos modernos como FhGFS (http://www.fhgfs.com) son mucho más robustos aquí y también le permiten hacer cosas agradables como ejecutar componentes de servidor y cliente en las mismas máquinas (aunque las funciones de HA incorporadas todavía están bajo desarrollo, como alguien de su equipo me dijo, pero su implementación va a ser bastante impresionante por lo que he escuchado).


En mi opinión, el mejor sistema de archivos para Linux es MooseFS, es bastante nuevo, pero tuve la oportunidad de compararlo con Ceph y Lustre, y estoy seguro de que MooseFS es el mejor.


compruebe también GlusterFS

Editar (agosto de 2012): Ceph finalmente se está preparando. Recientemente, los autores formaron Inktank , una compañía independiente para venderle soporte comercial. Según algunas presentaciones, el sistema de archivos montable POSIX-obediente es la capa más alta y no realmente probado todavía, pero las capas más bajas se están utilizando en producción desde hace algún tiempo.

La parte interesante es la capa RADOS, que presenta un almacenamiento basado en objetos con un acceso ''nativo'' a través de la biblioteca librados (disponible para varios idiomas) y una RESP API compatible con Amazon S3. Cualquiera de los dos lo hace más que adecuado para agregar almacenamiento masivo a un servicio web.

Este video es una buena descripción de la filosofía, arquitectura, capacidades y estado actual.