royale niveles nieve bola full-text-search lucene lucene.net nlp snowball

full-text-search - niveles - bola de nieve clash royale



Analizador estándar Lucene vs bola de nieve (3)

Acabo de terminar un analizador que realiza la lematización. Es similar a la derivación, excepto que usa el contexto para determinar el tipo de palabra (sustantivo, verbo, etc.) y usa esa información para derivar la derivación. También mantiene la forma original de la palabra en el índice. Tal vez mi biblioteca pueda serle de utilidad. Sin embargo, requiere Lucene Java y no conozco ningún lematizante C # / .NET.

Acabo de empezar con Lucene.Net. Indexé 100,000 filas usando un analizador estándar, realicé algunas consultas de prueba y noté que las consultas en plural no devolvían resultados si el término original era singular. Entiendo que el analizador de bolas de nieve agrega soporte de derivación, lo que suena bien. Sin embargo, me pregunto si hay algún inconveniente con la bola de nieve por encima del estándar. ¿Estoy perdiendo algo yendo con eso? ¿Hay otros analizadores por ahí a considerar?


El analizador de snowball aumentará su recuperación, ya que es mucho más agresivo que el analizador estándar. Por lo tanto, debe evaluar los resultados de su búsqueda para ver si para sus datos necesita aumentar la recuperación o la precisión .


Sí, al usar un stemmer como Snowball, estás perdiendo información sobre la forma original de tu texto. A veces esto será útil, a veces no.

Por ejemplo, Snowball derivará "organización" en "órgano", por lo que una búsqueda de "organización" devolverá los resultados con "órgano", sin ninguna penalización de puntuación.

Si esto es apropiado para usted o no, depende de su contenido y del tipo de consultas que admita (por ejemplo, las búsquedas son muy básicas o los usuarios son muy sofisticados y utilizan su búsqueda para filtrar con precisión los resultados). También es posible que desee ver a los detractores menos agresivos, como KStem .