email elasticsearch lucene tokenize analyzer

email - ElasticSearch Analyzer y Tokenizer para correos electrónicos



lucene (1)

No pude encontrar una solución perfecta en Google o ES para la siguiente situación, espero que alguien pueda ayudar aquí.

Supongamos que hay cinco direcciones de correo electrónico almacenadas en el campo "correo electrónico":

1. {"email": "[email protected]"} 2. {"email": "[email protected], [email protected]"} 3. {"email": "[email protected]"} 4. {"email": "[email protected]} 5. {"email": "[email protected]"}

Quiero cumplir los siguientes escenarios de búsqueda:

[Buscar -> Recibir]

"[email protected]" -> 1,2

"[email protected]" -> 2,4

"[email protected]" -> 5

"john.doe" -> 1,2,3,4

"john" -> 1,2,3,4,5

"gmail.com" -> 1,2

"outlook.com" -> 2,3,4

Los primeros tres emparejamientos son IMPRESCINDIBLES, y para el resto de ellos, cuanto más preciso, mejor. Ya he probado diferentes combinaciones de analizadores de índice / búsqueda, tokenizadores y filtros. También traté de trabajar en la condición para las consultas de coincidencia, pero no encontré una solución ideal, cualquier pensamiento es bienvenido, y no hay límite para las asignaciones, los analizadores, o qué clase de consulta usar, gracias.


Mapeo :

PUT /test { "settings": { "analysis": { "filter": { "email": { "type": "pattern_capture", "preserve_original": 1, "patterns": [ "([^@]+)", "(//p{L}+)", "(//d+)", "@(.+)", "([^-@]+)" ] } }, "analyzer": { "email": { "tokenizer": "uax_url_email", "filter": [ "email", "lowercase", "unique" ] } } } }, "mappings": { "emails": { "properties": { "email": { "type": "string", "analyzer": "email" } } } } }

Datos de prueba :

POST /test/emails/_bulk {"index":{"_id":"1"}} {"email": "[email protected]"} {"index":{"_id":"2"}} {"email": "[email protected], [email protected]"} {"index":{"_id":"3"}} {"email": "[email protected]"} {"index":{"_id":"4"}} {"email": "[email protected]"} {"index":{"_id":"5"}} {"email": "[email protected]"}

Consulta para ser utilizado :

GET /test/emails/_search { "query": { "term": { "email": "[email protected]" } } }