Lucene - Análisis
En uno de nuestros capítulos anteriores, hemos visto que Lucene usa IndexWriter para analizar los Documentos usando el Analizador y luego crea / abre / edita índices según sea necesario. En este capítulo, vamos a discutir los diversos tipos de objetos del analizador y otros objetos relevantes que se utilizan durante el proceso de análisis. Comprender el proceso de análisis y cómo funcionan los analizadores le brindará una gran comprensión de cómo Lucene indexa los documentos.
A continuación se muestra la lista de objetos que discutiremos a su debido tiempo.
S.No. | Clase y descripción |
---|---|
1 | Simbólico Token representa texto o palabra en un documento con detalles relevantes como sus metadatos (posición, desplazamiento inicial, desplazamiento final, tipo de token y su incremento de posición). |
2 | TokenStream TokenStream es una salida del proceso de análisis y se compone de una serie de tokens. Es una clase abstracta. |
3 | Analizador Esta es una clase base abstracta para todos y cada uno de los tipos de analizadores. |
4 | Analizador de espacios en blanco Este analizador divide el texto en un documento basado en espacios en blanco. |
5 | SimpleAnalyzer Este analizador divide el texto en un documento basándose en caracteres que no son letras y pone el texto en minúsculas. |
6 | StopAnalyzer Este analizador funciona igual que SimpleAnalyzer y elimina las palabras comunes como 'a', 'an', 'the', etc. |
7 | Analizador estándar Este es el analizador más sofisticado y es capaz de manejar nombres, direcciones de correo electrónico, etc. Pone en minúscula cada token y elimina las palabras comunes y los signos de puntuación, si los hubiera. |