java - que - lucene vs elasticsearch
Analizador de idioma ruso en Lucene y Lucene.Net (5)
El proyecto http://code.google.com/p/russianmorphology/ se trasladó a https://github.com/AKuznetsov/russianmorphology . Tenga en cuenta el nuevo hosting de este proyecto.
Lucene tiene un apoyo bastante pobre para el idioma ruso.
RussianAnalyzer (parte de lucene-contrib) es de muy baja calidad.
El módulo RussianStemmer para Snowball es aún peor. No reconoce el texto ruso en cadenas Unicode, aparentemente suponiendo que alguna extraña combinación de Unicode y KOI8-R debe usarse en su lugar.
¿Conoces alguna mejor solución?
Esa es la belleza de la fuente abierta. Usted tiene el código fuente, por lo que si las implementaciones actuales no le funcionan, siempre puede crear las suyas propias o incluso mejores, ampliar las existentes. Un buen comienzo sería el libro "Lucene in Action".
Mi respuesta es probablemente demasiado tarde, pero para el registro, he encontrado que los analizadores del proyecto AOT son mucho mejores que los enviados con Lucene.
Si todo lo demás falla, use Sphinx