sintaxis and lucene

sintaxis - lucene and



¿Cuáles son los límites del espacio del índice de Lucene? (1)

Estoy agregando miles de millones de filas al índice Lucene, cada fila tiene casi 6000 bytes. ¿Hay algún límite en la cantidad máxima de filas que se pueden agregar al Índice Lucene? ¿Cuánto espacio ocuparían mil millones de filas de 6000 bytes en el índice Lucene? ¿Hay algún límite para este tamaño?


Consulte la documentación de Lucene por sus limitaciones , no puede tener más de

  • ~ 274 mil millones de términos distintos,
  • ~ 2.1 mil millones de documentos.

Para conjuntos de datos tan grandes, generalmente es una buena idea usar solo Lucene para su índice invertido y almacenar el contenido real de los documentos en otro lugar. Puede esperar que el tamaño del índice sea ~ 30% del tamaño del corpus original de documentos (siempre que estos sean documentos regulares, documentos generados computacionalmente con muchos términos únicos generarían un índice mucho más grande).