Límites prácticos de ElasticSearch+Cassandra

limits (4)

AS DNA mencionó, 1700 fragmentos, pero no son 1700 fragmentos pero hay 1700 índices cada uno con 1 fragmento y 1 réplica. Por lo tanto, es muy posible que estos 1700 índices no estén presentes en una sola máquina, sino que estén divididos en varias máquinas. Entonces esto nunca es un problema

Planeo usar ElasticSearch para indexar mi base de datos de Cassandra. Me pregunto si alguien ha visto los límites prácticos de ElasticSearch. ¿Las cosas se vuelven lentas en el rango de petabytes? Además, ¿alguien ha tenido problemas al usar ElasticSearch para indexar a Cassandra?

Actualmente estoy empezando a trabajar con Elisandra (Elasticsearch + Cassandra)

También tengo problemas para indexar a Cassandra con elasticsearch. Mi problema es básicamente la configuración del nodo.

Al $ nodetool status , puede ver el Host ID y luego arruinarlo:

curl -XGET http://localhost:9200/_cluster/state/?pretty=true

Puede verificar que uno de los node: es el mismo nombre que el Host ID

Vea este hilo de 2011, que menciona las configuraciones de ElasticSearch con 1700 fragmentos de 200 GB cada uno, que estarían en el rango de 1/3 petabyte. Esperaría que la arquitectura de ElasticSearch soportaría una escalabilidad horizontal casi ilimitada, porque cada índice de fragmentos trabaja por separado de todos los demás fragmentos.

Los límites prácticos (que se aplicarían a cualquier otra solución también) incluyen el tiempo necesario para cargar realmente esa cantidad de datos en primer lugar. Administrar un clúster Cassandra (o cualquier otro datastore distribuido) de ese tamaño también implicará una gran carga de trabajo solo para el mantenimiento, el equilibrio de carga, etc.

Sonian es la compañía a la que alude kimchy en ese hilo. Tenemos más de un petabyte en AWS en varios clústeres de ES. No existe una limitación técnica sobre qué tan horizontalmente puede escalar ES, pero como se mencionó en el ADN hay problemas prácticos. El más grande por el momento es la red. Se aplica a cada almacenamiento de datos distribuidos. Solo puedes moverte tanto por el cable a la vez. Cuando ES tiene que recuperarse de una falla, tiene que mover los datos. La mejor opción es utilizar fragmentos más pequeños en más nodos (más transferencias simultáneas), pero corre el riesgo de una mayor tasa de fallas y un costo desorbitado por byte.