tutorial guide create collection solr lucene hyphen

guide - solr xls



Reto con guiones/guiones en Solr Lucene (1)

Si su Solr usa un Lucene reciente (3.x + Creo), querrá usar un AnalizadorCalánico en lugar de un Analizador Estándar, ya que el Analizador Estándar ahora siempre trata los guiones como un delimitador.

Intento hacer que Solr extraiga solo la segunda parte de 7 dígitos de un ticket formateado como n-nnnnnnn

Originalmente esperaba mantener el boleto completo juntos. De acuerdo con los dígitos de la documentación, los números deben mantenerse juntos, pero después de resolver este problema por un tiempo y mirar el código, no creo que sea el caso. Solr siempre genera dos términos. Entonces, en lugar de un gran número de coincidencias para el primer dígito de n, creo que puedo obtener mejores resultados de consulta solo de la segunda parte. Sustituyendo una A por una carrera:

<charFilter class="solr.PatternReplaceCharFilterFactory" pattern="/b/d[A](/d/d/d/d/d/d/d)/b" replacement="$1" replace="all" maxBlockChars="20000"/>

analizará 1A1234567 bien, pero - / b "replacement =" $ 1 "replace =" all "maxBlockChars =" 20000 "/>

no analizará 1-1234567

Entonces parece solo un problema con el guión. He intentado - (escapado) y [-] y / u002D y / x {45} y / x045 sin éxito.

He intentado poner filtros de char alrededor:

<charFilter class="solr.MappingCharFilterFactory" mapping="mapping.txt"/> <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="/b/d[-](/d/d/d/d/d/d/d)/b" replacement="$1" replace="all" maxBlockChars="20000"/> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping2.txt"/>

con asignaciones:

"-" => "z"

y entonces

"z" => "-"

Parece que el guión está consumido en la tokenización de Flex y ni siquiera está disponible para el filtro de char.

¿Alguien ha tenido más éxito con guiones / guiones en Solr / Lucene? Gracias