indexing - tutorial - Bigramas del token de indexación en Lucene
lucene vs elasticsearch (3)
Dependiendo de por qué necesita indexar bi-grams, SpanQuery y / o SnowballAnalyzer pueden ser útiles.
Necesito indexar bi-gramos de palabras (tokens) en Lucene. Puedo producir n-grams y luego indexarlos, pero me pregunto si hay algo en Lucene que pueda hacer esto por mí. Descubrí que Lucene indexa solo n gramos de caracteres. ¿Algunas ideas?
La clase que está buscando es ShingleFilter: http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/analysis/shingle/ShingleFilter.html