Lucene - Análisis

En uno de nuestros capítulos anteriores, hemos visto que Lucene usa IndexWriter para analizar los Documentos usando el Analizador y luego crea / abre / edita índices según sea necesario. En este capítulo, vamos a discutir los diversos tipos de objetos del analizador y otros objetos relevantes que se utilizan durante el proceso de análisis. Comprender el proceso de análisis y cómo funcionan los analizadores le brindará una gran comprensión de cómo Lucene indexa los documentos.

A continuación se muestra la lista de objetos que discutiremos a su debido tiempo.

S.No.	Clase y descripción
1	Simbólico Token representa texto o palabra en un documento con detalles relevantes como sus metadatos (posición, desplazamiento inicial, desplazamiento final, tipo de token y su incremento de posición).
2	TokenStream TokenStream es una salida del proceso de análisis y se compone de una serie de tokens. Es una clase abstracta.
3	Analizador Esta es una clase base abstracta para todos y cada uno de los tipos de analizadores.
4	Analizador de espacios en blanco Este analizador divide el texto en un documento basado en espacios en blanco.
5	SimpleAnalyzer Este analizador divide el texto en un documento basándose en caracteres que no son letras y pone el texto en minúsculas.
6	StopAnalyzer Este analizador funciona igual que SimpleAnalyzer y elimina las palabras comunes como 'a', 'an', 'the', etc.
7	Analizador estándar Este es el analizador más sofisticado y es capaz de manejar nombres, direcciones de correo electrónico, etc. Pone en minúscula cada token y elimina las palabras comunes y los signos de puntuación, si los hubiera.

↰ Previous page Next page ↱