Lucene - Análisis

En uno de nuestros capítulos anteriores, hemos visto que Lucene usa IndexWriter para analizar los Documentos usando el Analizador y luego crea / abre / edita índices según sea necesario. En este capítulo, vamos a discutir los diversos tipos de objetos del analizador y otros objetos relevantes que se utilizan durante el proceso de análisis. Comprender el proceso de análisis y cómo funcionan los analizadores le brindará una gran comprensión de cómo Lucene indexa los documentos.

A continuación se muestra la lista de objetos que discutiremos a su debido tiempo.

S.No. Clase y descripción
1 Simbólico

Token representa texto o palabra en un documento con detalles relevantes como sus metadatos (posición, desplazamiento inicial, desplazamiento final, tipo de token y su incremento de posición).

2 TokenStream

TokenStream es una salida del proceso de análisis y se compone de una serie de tokens. Es una clase abstracta.

3 Analizador

Esta es una clase base abstracta para todos y cada uno de los tipos de analizadores.

4 Analizador de espacios en blanco

Este analizador divide el texto en un documento basado en espacios en blanco.

5 SimpleAnalyzer

Este analizador divide el texto en un documento basándose en caracteres que no son letras y pone el texto en minúsculas.

6 StopAnalyzer

Este analizador funciona igual que SimpleAnalyzer y elimina las palabras comunes como 'a', 'an', 'the', etc.

7 Analizador estándar

Este es el analizador más sofisticado y es capaz de manejar nombres, direcciones de correo electrónico, etc. Pone en minúscula cada token y elimina las palabras comunes y los signos de puntuación, si los hubiera.