Lucene - Clases de indexación

El proceso de indexación es una de las funcionalidades centrales proporcionadas por Lucene. El siguiente diagrama ilustra el proceso de indexación y el uso de clases.IndexWriter es el componente más importante y central del proceso de indexación.

Añadimos Document(s) conteniendo Field(s) a IndexWriter que analiza el Document(s) utilizando el Analyzer y luego crea / abre / edita índices según sea necesario y los almacena / actualiza en un Directory. IndexWriter se utiliza para actualizar o crear índices. No se utiliza para leer índices.

Clases de indexación

A continuación se muestra una lista de las clases de uso común durante el proceso de indexación.

S.No. Clase y descripción
1 IndexWriter

Esta clase actúa como un componente central que crea / actualiza índices durante el proceso de indexación.

2 Directorio

Esta clase representa la ubicación de almacenamiento de los índices.

3 Analizador

Esta clase es responsable de analizar un documento y obtener los tokens / palabras del texto que se va a indexar. Sin un análisis realizado, IndexWriter no puede crear index.

4 Documento

Esta clase representa un documento virtual con Campos donde el Campo es un objeto que puede contener el contenido del documento físico, sus metadatos, etc. El analizador solo puede comprender un documento.

5 Campo

Ésta es la unidad más baja o el punto de partida del proceso de indexación. Representa la relación del par clave-valor donde se utiliza una clave para identificar el valor que se indexará. Supongamos que un campo utilizado para representar el contenido de un documento tendrá la clave como "contenido" y el valor puede contener la parte o todo el texto o el contenido numérico del documento. Lucene solo puede indexar texto o contenido numérico.