lucene - tutorial - todo sobre elasticsearch

¿Cómo calculo el tamaño de un índice Lucene? (3)

Aquí está la documentación del formato de índice lucene . El archivo principal es el índice compuesto (archivo .cfs). Si tiene estadísticas de términos, probablemente pueda obtener una estimación para el tamaño del archivo .cfs, tenga en cuenta que esto varía mucho según el analizador que utilice y los tipos de campo que defina.

¿Hay alguna fórmula matemática conocida que pueda usar para estimar el tamaño de un nuevo índice de Lucene? Sé cuántos campos quiero indexar y el tamaño de cada campo. Y, sé cuántos elementos serán indexados. Entonces, una vez que Lucene los procesa, ¿cómo se traduce en bytes?

Creo que también tiene que ver con la frecuencia de cada término (es decir, un índice de 10.000 copias de los términos de sames debería ser mucho más pequeño que un índice de 10.000 términos totalmente únicos).

Además, es probable que exista una pequeña dependencia de si está utilizando vectores de términos o no, y sin duda si está almacenando campos o no. puedes darme mas detalles? ¿Puedes analizar el término frecuencia de tus datos fuente?

El índice almacena cada "token" o campo de texto, etc., solo una vez ... por lo que el tamaño depende de la naturaleza del material que se indexa. Agregue a eso lo que sea que esté siendo almacenado también. Un buen enfoque podría ser tomar una muestra e indexarla, y usarla para extrapolarla para la colección de fuentes completa. Sin embargo, la relación entre el tamaño del índice y el tamaño de la fuente también disminuye con el tiempo, ya que las palabras ya están allí en el índice, por lo que es posible que desee convertir la muestra en un porcentaje decente del original.