fuzzy-search - react - fuzzy search python
El mejor algoritmo de coincidencia difusa? (2)
¿Cuál es el mejor algoritmo de coincidencia difusa (Fuzzy Logic, N-Gram, Levenstein, Soundex ....) para procesar más de 100000 registros en menos tiempo?
Depende masivamente de tus datos. Ciertos registros se pueden combinar mejor que otros. Por ejemplo, el código postal es un formato definido por lo que se puede comparar de una manera diferente a las cadenas normales. Las personas pueden coincidir con las iniciales y fecha de nacimiento, u otras combinaciones, etc.
Sugiero que lea los artículos de Navarro mencionados en la sección Refencias del artículo de Wikipedia titulado Aproximación de cadenas . Tomar su decisión basándose en la investigación real siempre es mejor que en las sugerencias de extraños al azar. Especialmente si el rendimiento en un conjunto conocido de registros es importante para usted.