email - ElasticSearch Analyzer y Tokenizer para correos electrónicos
lucene (1)
No pude encontrar una solución perfecta en Google o ES para la siguiente situación, espero que alguien pueda ayudar aquí.
Supongamos que hay cinco direcciones de correo electrónico almacenadas en el campo "correo electrónico":
1. {"email": "john.doe@gmail.com"}
2. {"email": "john.doe@gmail.com, john.doe@outlook.com"}
3. {"email": "hello-john.doe@outlook.com"}
4. {"email": "john.doe@outlook.com}
5. {"email": "john@yahoo.com"}
Quiero cumplir los siguientes escenarios de búsqueda:
[Buscar -> Recibir]
"john.doe@gmail.com" -> 1,2
"john.doe@outlook.com" -> 2,4
"john@yahoo.com" -> 5
"john.doe" -> 1,2,3,4
"john" -> 1,2,3,4,5
"gmail.com" -> 1,2
"outlook.com" -> 2,3,4
Los primeros tres emparejamientos son IMPRESCINDIBLES, y para el resto de ellos, cuanto más preciso, mejor. Ya he probado diferentes combinaciones de analizadores de índice / búsqueda, tokenizadores y filtros. También traté de trabajar en la condición para las consultas de coincidencia, pero no encontré una solución ideal, cualquier pensamiento es bienvenido, y no hay límite para las asignaciones, los analizadores, o qué clase de consulta usar, gracias.
Mapeo :
PUT /test
{
"settings": {
"analysis": {
"filter": {
"email": {
"type": "pattern_capture",
"preserve_original": 1,
"patterns": [
"([^@]+)",
"(//p{L}+)",
"(//d+)",
"@(.+)",
"([^-@]+)"
]
}
},
"analyzer": {
"email": {
"tokenizer": "uax_url_email",
"filter": [
"email",
"lowercase",
"unique"
]
}
}
}
},
"mappings": {
"emails": {
"properties": {
"email": {
"type": "string",
"analyzer": "email"
}
}
}
}
}
Datos de prueba :
POST /test/emails/_bulk
{"index":{"_id":"1"}}
{"email": "john.doe@gmail.com"}
{"index":{"_id":"2"}}
{"email": "john.doe@gmail.com, john.doe@outlook.com"}
{"index":{"_id":"3"}}
{"email": "hello-john.doe@outlook.com"}
{"index":{"_id":"4"}}
{"email": "john.doe@outlook.com"}
{"index":{"_id":"5"}}
{"email": "john@yahoo.com"}
Consulta para ser utilizado :
GET /test/emails/_search
{
"query": {
"term": {
"email": "john.doe@gmail.com"
}
}
}