versiones tutorial historia databases indexing nosql distributed cassandra

indexing - tutorial - ¿Cuán escalables son los índices secundarios automáticos en Cassandra 0.7?



q es cassandra (2)

Sí, si necesita recuperar todas las filas indexadas, las consultas de índice implican todos los nodos. ¡Pero esto es realmente más eficiente que construir tu propio índice! Detalles aquí.

Sin embargo, si busca solo unas pocas filas, y cada entrada de índice se correlaciona con muchas filas, entonces es probable que el primer nodo pueda responder su pregunta. Su consulta involucrará solo un nodo. De la lista de correo de Apache:

El primer nodo puede responder la pregunta siempre que haya solicitado menos filas que el primer nodo. De ahí el punto de "baja cardinalidad" en lo que citó.

(por Jonathan Ellis, aquí .)

(También publiqué una pregunta en la lista de correo, una pregunta de seguimiento a su pregunta, inquisidor , porque realmente no entendí la respuesta a su pregunta (vinculada en la respuesta de Schildmeijer).)

Por lo que yo entiendo, los índices secundarios automáticos se generan para los datos locales del nodo.

En este caso, la consulta por índice secundario involucra todos los nodos que almacenan parte de la familia de columnas para obtener resultados (?) Entonces (si estoy en lo cierto) si los datos están distribuidos en 50 nodos, entonces 50 nodos están involucrados en una sola consulta.

¿Qué tan lejos puede esta escala? ¿Es esto más escalable que los índices secundarios manuales (familia de columnas de índice invertido)? ¿Pocos nodos o cientos nodos?