algorithm - levenshtein - Obtención de la coincidencia de cadena más cercana
levenshtein distance algorithm (10)
Necesito una forma de comparar varias cadenas con una cadena de prueba y devolver la cadena que se asemeje:
TEST STRING: THE BROWN FOX JUMPED OVER THE RED COW
CHOICE A : THE RED COW JUMPED OVER THE GREEN CHICKEN
CHOICE B : THE RED COW JUMPED OVER THE RED COW
CHOICE C : THE RED FOX JUMPED OVER THE BROWN COW
(Si lo hice correctamente) La cadena más cercana a la "CADENA DE PRUEBA" debe ser "ELECCIÓN C". ¿Cuál es la forma más fácil de hacer esto?
Planeo implementar esto en múltiples idiomas, incluyendo VB.net, Lua y JavaScript. En este punto, el pseudo código es aceptable. Si puede proporcionar un ejemplo para un idioma específico, esto también se agradece.
El problema es difícil de implementar si los datos de entrada son demasiado grandes (digamos millones de cadenas). Usé la búsqueda elástica para resolver esto. Simplemente inserte todos los datos de entrada en la base de datos y podrá buscar rápidamente cualquier cadena basada en cualquier distancia de edición. Aquí hay un fragmento de C # que le dará una lista de resultados ordenados por distancia de edición (de menor a mayor)
var res = client.Search<ClassName>(s => s
.Query(q => q
.Match(m => m
.Field(f => f.VariableName)
.Query("SAMPLE QUERY")
.Fuzziness(Fuzziness.EditDistance(5))
)
));
Este problema aparece todo el tiempo en bioinformática. La respuesta aceptada anteriormente (que fue genial por cierto) se conoce en bioinformática como los algoritmos Needleman-Wunsch (compara dos cadenas) y Smith-Waterman (encuentra una subcadena aproximada en una cadena más larga). Funcionan muy bien y han sido caballos de batalla durante décadas.
¿Pero qué pasa si tienes un millón de cuerdas para comparar? ¡Eso es un billón de comparaciones por pares, cada una de las cuales es O (n * m)! Los secuenciadores de ADN modernos generan fácilmente mil millones de secuencias de ADN cortas, cada una de aproximadamente 200 "letras" de ADN. Por lo general, queremos encontrar, para cada una de estas cuerdas, la mejor coincidencia contra el genoma humano (3 mil millones de letras). Claramente, el algoritmo de Needleman-Wunsch y sus parientes no funcionarán.
Este llamado "problema de alineación" es un campo de investigación activa. Los algoritmos más populares actualmente pueden encontrar coincidencias inexactas entre 1 billón de cadenas cortas y el genoma humano en cuestión de horas en un hardware razonable (por ejemplo, ocho núcleos y 32 GB de RAM).
La mayoría de estos algoritmos funcionan al encontrar rápidamente coincidencias exactas (semillas) y luego extenderlas a la cadena completa utilizando un algoritmo más lento (por ejemplo, Smith-Waterman). La razón por la que esto funciona es que solo estamos realmente interesados en algunos partidos cercanos, por lo que vale la pena deshacerse del 99.9 ...% de pares que no tienen nada en común.
¿Cómo encontrar coincidencias exactas ayuda a encontrar coincidencias inexactas ? Bueno, digamos que permitimos una única diferencia entre la consulta y el objetivo. Es fácil ver que esta diferencia debe ocurrir en la mitad derecha o izquierda de la consulta, por lo que la otra mitad debe coincidir exactamente. Esta idea se puede extender a múltiples desajustes y es la base del algoritmo ELAND se usa comúnmente con los secuenciadores de ADN de Illumina.
Hay muchos algoritmos muy buenos para hacer una coincidencia exacta de cadenas. Dada una cadena de consulta de longitud 200 y una cadena de destino de longitud 3 billones (el genoma humano), queremos encontrar cualquier lugar en el destino donde haya una subcadena de longitud k que coincida exactamente con una subcadena de la consulta. Un enfoque simple es comenzar por indexar el objetivo: tomar todas las subcadenas k-long, colocarlas en una matriz y ordenarlas. Luego tome cada subcadena k-long de la consulta y busque el índice ordenado. La clasificación y la búsqueda se pueden hacer en tiempo O (log n).
Pero el almacenamiento puede ser un problema. Un índice del objetivo de 3 billones de letras tendría que contener 3 billones de punteros y 3 billones de palabras de longitud k. Parece difícil encajar esto en menos de varias decenas de gigabytes de RAM. Pero, sorprendentemente, podemos comprimir mucho el índice, utilizando la transformada de Burrows-Wheeler , y aún así será fácilmente consultable. Un índice del genoma humano puede caber en menos de 4 GB de RAM. Esta idea es la base de alineadores de secuencias populares como Bowtie y BWA .
Alternativamente, podemos usar una matriz de sufijos , que almacena solo los punteros, pero representa un índice simultáneo de todos los sufijos en la cadena de destino (esencialmente, un índice simultáneo para todos los valores posibles de k; lo mismo ocurre con la transformación Burrows-Wheeler ). Un índice de matriz de sufijos del genoma humano tomará 12 GB de RAM si usamos punteros de 32 bits.
Los enlaces anteriores contienen una gran cantidad de información y enlaces a trabajos de investigación primarios. El enlace de ELAND va a un PDF con figuras útiles que ilustran los conceptos involucrados, y muestra cómo tratar las inserciones y eliminaciones.
Finalmente, mientras estos algoritmos básicamente han resuelto el problema de (re) secuenciar genomas humanos individuales (un billón de cadenas cortas), la tecnología de secuenciación de ADN mejora incluso más rápido que la ley de Moore, y nos estamos acercando rápidamente a conjuntos de datos de billones de letras. Por ejemplo, actualmente hay proyectos en curso para secuenciar los genomas de 10,000 especies de vertebrados , cada una de mil millones de letras de longitud aproximadamente. Naturalmente, querremos hacer una comparación de cadenas inexacta por pares en los datos ...
Implementación de lua, para la posteridad:
function levenshtein_distance(str1, str2)
local len1, len2 = #str1, #str2
local char1, char2, distance = {}, {}, {}
str1:gsub(''.'', function (c) table.insert(char1, c) end)
str2:gsub(''.'', function (c) table.insert(char2, c) end)
for i = 0, len1 do distance[i] = {} end
for i = 0, len1 do distance[i][0] = i end
for i = 0, len2 do distance[0][i] = i end
for i = 1, len1 do
for j = 1, len2 do
distance[i][j] = math.min(
distance[i-1][j ] + 1,
distance[i ][j-1] + 1,
distance[i-1][j-1] + (char1[i] == char2[j] and 0 or 1)
)
end
end
return distance[len1][len2]
end
Me presentaron este problema hace aproximadamente un año cuando buscaba información ingresada por un usuario sobre una plataforma petrolera en una base de datos de información variada. El objetivo era hacer algún tipo de búsqueda de cadenas difusas que pudiera identificar la entrada de la base de datos con los elementos más comunes.
Parte de la investigación involucró la implementación del algoritmo de distancia Levenshtein , que determina cuántos cambios deben realizarse en una cadena o frase para convertirla en otra cadena o frase.
La implementación que se me ocurrió fue relativamente simple e involucró una comparación ponderada de la longitud de las dos frases, el número de cambios entre cada frase y si se podía encontrar cada palabra en la entrada de destino.
El artículo está en un sitio privado, así que haré todo lo posible para adjuntar los contenidos relevantes aquí:
Fuzzy String Matching es el proceso de realizar una estimación similar a la humana de la similitud de dos palabras o frases. En muchos casos, se trata de identificar palabras o frases que sean más similares entre sí. Este artículo describe una solución interna para el problema de coincidencia de cadenas difusas y su utilidad para resolver una variedad de problemas que pueden permitirnos automatizar tareas que anteriormente requerían la tediosa participación del usuario.
Introducción
La necesidad de hacer una coincidencia de cadenas difusa surgió originalmente al desarrollar la herramienta Validador del Golfo de México. Lo que existía era una base de datos del golfo conocido de las plataformas y plataformas petroleras de México, y las personas que compran seguros nos darían información mal escrita sobre sus activos y debíamos hacerlo coincidir con la base de datos de plataformas conocidas. Cuando se proporcionó muy poca información, lo mejor que podríamos hacer es confiar en un asegurador para que "reconozca" a la persona a la que se refería y recabar la información adecuada. Aquí es donde esta solución automatizada es útil.
Pasé un día investigando métodos de búsqueda de cadenas difusas, y al final encontré el muy útil algoritmo de distancia Levenshtein en Wikipedia.
Implementación
Después de leer sobre la teoría detrás de esto, implementé y encontré formas de optimizarlo. Así es como se ve mi código en VBA:
''Calculate the Levenshtein Distance between two strings (the number of insertions,
''deletions, and substitutions needed to transform the first string into the second)
Public Function LevenshteinDistance(ByRef S1 As String, ByVal S2 As String) As Long
Dim L1 As Long, L2 As Long, D() As Long ''Length of input strings and distance matrix
Dim i As Long, j As Long, cost As Long ''loop counters and cost of substitution for current letter
Dim cI As Long, cD As Long, cS As Long ''cost of next Insertion, Deletion and Substitution
L1 = Len(S1): L2 = Len(S2)
ReDim D(0 To L1, 0 To L2)
For i = 0 To L1: D(i, 0) = i: Next i
For j = 0 To L2: D(0, j) = j: Next j
For j = 1 To L2
For i = 1 To L1
cost = Abs(StrComp(Mid$(S1, i, 1), Mid$(S2, j, 1), vbTextCompare))
cI = D(i - 1, j) + 1
cD = D(i, j - 1) + 1
cS = D(i - 1, j - 1) + cost
If cI <= cD Then ''Insertion or Substitution
If cI <= cS Then D(i, j) = cI Else D(i, j) = cS
Else ''Deletion or Substitution
If cD <= cS Then D(i, j) = cD Else D(i, j) = cS
End If
Next i
Next j
LevenshteinDistance = D(L1, L2)
End Function
Simple, veloz, y una métrica muy útil. Usando esto, creé dos métricas separadas para evaluar la similitud de dos cadenas. A uno lo llamo "valuePhrase" y al otro lo llamo "valueWords". valuePhrase es solo la distancia de Levenshtein entre las dos frases, y valueWords divide la cadena en palabras individuales, en función de delimitadores como espacios, guiones y cualquier otra cosa que desee, y compara cada palabra con otra palabra, resumiendo la más corta Levenshtein distancia que conecta dos palabras cualquiera. Esencialmente, mide si la información en una ''frase'' está realmente contenida en otra, solo como una permutación por palabras. Pasé algunos días como un proyecto paralelo con la forma más eficiente posible de dividir una cadena basada en delimitadores.
Función valueWords, valueFrase y Split:
Public Function valuePhrase#(ByRef S1$, ByRef S2$)
valuePhrase = LevenshteinDistance(S1, S2)
End Function
Public Function valueWords#(ByRef S1$, ByRef S2$)
Dim wordsS1$(), wordsS2$()
wordsS1 = SplitMultiDelims(S1, " _-")
wordsS2 = SplitMultiDelims(S2, " _-")
Dim word1%, word2%, thisD#, wordbest#
Dim wordsTotal#
For word1 = LBound(wordsS1) To UBound(wordsS1)
wordbest = Len(S2)
For word2 = LBound(wordsS2) To UBound(wordsS2)
thisD = LevenshteinDistance(wordsS1(word1), wordsS2(word2))
If thisD < wordbest Then wordbest = thisD
If thisD = 0 Then GoTo foundbest
Next word2
foundbest:
wordsTotal = wordsTotal + wordbest
Next word1
valueWords = wordsTotal
End Function
''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
'' SplitMultiDelims
'' This function splits Text into an array of substrings, each substring
'' delimited by any character in DelimChars. Only a single character
'' may be a delimiter between two substrings, but DelimChars may
'' contain any number of delimiter characters. It returns a single element
'' array containing all of text if DelimChars is empty, or a 1 or greater
'' element array if the Text is successfully split into substrings.
'' If IgnoreConsecutiveDelimiters is true, empty array elements will not occur.
'' If Limit greater than 0, the function will only split Text into ''Limit''
'' array elements or less. The last element will contain the rest of Text.
''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
Function SplitMultiDelims(ByRef Text As String, ByRef DelimChars As String, _
Optional ByVal IgnoreConsecutiveDelimiters As Boolean = False, _
Optional ByVal Limit As Long = -1) As String()
Dim ElemStart As Long, N As Long, M As Long, Elements As Long
Dim lDelims As Long, lText As Long
Dim Arr() As String
lText = Len(Text)
lDelims = Len(DelimChars)
If lDelims = 0 Or lText = 0 Or Limit = 1 Then
ReDim Arr(0 To 0)
Arr(0) = Text
SplitMultiDelims = Arr
Exit Function
End If
ReDim Arr(0 To IIf(Limit = -1, lText - 1, Limit))
Elements = 0: ElemStart = 1
For N = 1 To lText
If InStr(DelimChars, Mid(Text, N, 1)) Then
Arr(Elements) = Mid(Text, ElemStart, N - ElemStart)
If IgnoreConsecutiveDelimiters Then
If Len(Arr(Elements)) > 0 Then Elements = Elements + 1
Else
Elements = Elements + 1
End If
ElemStart = N + 1
If Elements + 1 = Limit Then Exit For
End If
Next N
''Get the last token terminated by the end of the string into the array
If ElemStart <= lText Then Arr(Elements) = Mid(Text, ElemStart)
''Since the end of string counts as the terminating delimiter, if the last character
''was also a delimiter, we treat the two as consecutive, and so ignore the last elemnent
If IgnoreConsecutiveDelimiters Then If Len(Arr(Elements)) = 0 Then Elements = Elements - 1
ReDim Preserve Arr(0 To Elements) ''Chop off unused array elements
SplitMultiDelims = Arr
End Function
Medidas de similitud
Usando estas dos métricas, y una tercera que simplemente calcula la distancia entre dos cadenas, tengo una serie de variables con las que puedo ejecutar un algoritmo de optimización para lograr el mayor número de coincidencias. La concordancia de cadenas difusas es, en sí misma, una ciencia difusa, y al crear métricas linealmente independientes para medir la similitud de cadenas, y al tener un conjunto conocido de cadenas que deseamos unir entre sí, podemos encontrar los parámetros que, para nuestros estilos específicos de cuerdas, dar los mejores resultados de los partidos difusos.
Inicialmente, el objetivo de la métrica era tener un valor de búsqueda bajo para una coincidencia exacta y un aumento de los valores de búsqueda para medidas cada vez más permutadas. En un caso poco práctico, esto fue bastante fácil de definir utilizando un conjunto de permutaciones bien definidas, y diseñando la fórmula final de modo que tuvieran resultados de valores de búsqueda crecientes según lo deseado.
En la captura de pantalla anterior, modifiqué mi heurística para encontrar algo que sentí bien adaptado a mi diferencia percibida entre el término de búsqueda y el resultado. La heurística que utilicé para la Value Phrase
en la hoja de cálculo anterior fue =valuePhrase(A2,B2)-0.8*ABS(LEN(B2)-LEN(A2))
. Estaba reduciendo efectivamente la penalización de la distancia Levenstein en un 80% de la diferencia en la longitud de las dos "frases". De esta manera, las "frases" que tienen la misma longitud sufren la penalización completa, pero las "frases" que contienen "información adicional" (más larga), pero aparte de eso, en su mayoría comparten los mismos caracteres, sufren una penalización reducida. SearchVal
función de Value Words
tal como está, y luego mi heurística SearchVal
final se definió como =MIN(D2,E2)*0.8+MAX(D2,E2)*0.2
- un promedio ponderado. Cualquiera de los dos puntajes más bajos obtuvo un 80% ponderado y el 20% del puntaje más alto. Esto fue solo una heurística que se adaptó a mi caso de uso para obtener una buena tasa de coincidencia. Estos pesos son algo que uno podría modificar para obtener la mejor tasa de coincidencia con sus datos de prueba.
Como puede ver, las dos últimas métricas, que son métricas de coincidencia de cadenas difusas, ya tienen una tendencia natural a dar puntuaciones bajas a las cadenas que están destinadas a coincidir (en la diagonal). Esto es muy bueno.
Aplicación Para permitir la optimización de la coincidencia aproximada, pondero cada métrica. Como tal, cada aplicación de coincidencia de cadena difusa puede ponderar los parámetros de manera diferente. La fórmula que define la puntuación final es una simple combinación de las métricas y sus ponderaciones:
value = Min(phraseWeight*phraseValue, wordsWeight*wordsValue)*minWeight
+ Max(phraseWeight*phraseValue, wordsWeight*wordsValue)*maxWeight
+ lengthWeight*lengthValue
Usando un algoritmo de optimización (la red neuronal es mejor aquí porque es un problema discreto y multidimensional), el objetivo ahora es maximizar el número de coincidencias. Creé una función que detecta la cantidad de coincidencias correctas de cada conjunto entre sí, como se puede ver en esta captura de pantalla final. Una columna o fila obtiene un punto si a la puntuación más baja se le asigna la cadena que se pretende que coincida, y se dan puntos parciales si hay un empate para la puntuación más baja, y la coincidencia correcta se encuentra entre las cadenas emparejadas vinculadas. Entonces lo optimicé. Puede ver que una celda verde es la columna que mejor se ajusta a la fila actual, y un cuadrado azul alrededor de la celda es la fila que mejor coincide con la columna actual. El puntaje en la esquina inferior es aproximadamente el número de coincidencias exitosas y esto es lo que le decimos a nuestro problema de optimización para maximizar.
El algoritmo fue un éxito maravilloso, y los parámetros de la solución dicen mucho sobre este tipo de problema. Notará que el puntaje optimizado fue 44, y el mejor puntaje posible es 48. Las 5 columnas al final son señuelos y no tienen ninguna coincidencia con los valores de la fila. Cuantos más señuelos haya, más difícil será encontrar el mejor partido.
En este caso de coincidencia particular, la longitud de las cadenas es irrelevante, ya que esperamos abreviaturas que representan palabras más largas, por lo que el peso óptimo para la longitud es -0.3, lo que significa que no penalizamos las cadenas que varían en longitud. Reducimos el puntaje en anticipación a estas abreviaturas, dando más espacio a las coincidencias de palabras parciales para reemplazar las coincidencias sin palabras que simplemente requieren menos sustituciones porque la cadena es más corta.
El peso de la palabra es 1.0, mientras que el peso de la frase es solo 0.5, lo que significa que penalizamos las palabras completas que faltan en una cadena y valoramos más la frase entera que está intacta. Esto es útil porque muchas de estas cadenas tienen una palabra en común (el peligro) donde lo que realmente importa es si la combinación (región y peligro) se mantiene o no.
Finalmente, el peso mínimo se optimiza a 10 y el peso máximo a 1. Lo que esto significa es que si la mejor de las dos puntuaciones (frase de valor y palabras de valor) no es muy buena, el emparejamiento se penaliza en gran medida, pero no No penalizar en gran medida el peor de los dos puntajes. Esencialmente, esto pone énfasis en requerir que tanto valueWord como valueFrase tengan una buena puntuación, pero no ambas. Una especie de mentalidad de "toma lo que podamos conseguir".
Es realmente fascinante lo que dice el valor optimizado de estos 5 pesos sobre el tipo de coincidencia de cadena difusa que tiene lugar. Para casos prácticos completamente diferentes de coincidencia de cadenas difusas, estos parámetros son muy diferentes. Lo he usado para 3 aplicaciones separadas hasta ahora.
Si bien no se usó en la optimización final, se estableció una hoja de evaluación comparativa que combina columnas con todas ellas para obtener resultados perfectos en la diagonal, y le permite al usuario cambiar los parámetros para controlar la velocidad a la que los puntajes difieren de 0, y observar similitudes innatas entre las frases de búsqueda ( lo que en teoría podría ser usado para compensar falsos positivos en los resultados)
Otras aplicaciones
Esta solución tiene potencial para ser utilizada en cualquier lugar donde el usuario desee que un sistema informático identifique una cadena en un conjunto de cadenas donde no hay una coincidencia perfecta. (Como una coincidencia aproximada vlookup para cadenas).
Entonces, lo que debería sacar de esto, es que probablemente quiera usar una combinación de heurísticas de alto nivel (búsqueda de palabras de una frase en la otra frase, longitud de ambas frases, etc.) junto con la implementación del algoritmo de distancia de Levenshtein. Debido a que decidir cuál es la "mejor" coincidencia es una determinación heurística (difusa), tendrá que establecer un conjunto de ponderaciones para cualquier métrica que surja para determinar la similitud.
Con el conjunto adecuado de heurísticas y pesos, tendrá su programa de comparación tomando rápidamente las decisiones que tomaría.
Para consultar un gran conjunto de texto de manera eficiente, puede utilizar el concepto Editar distancia / Prefijo Editar distancia.
Distancia de edición ED (x, y): número mínimo de transferencias para obtener del término x al término y
Pero la computación ED entre cada término y texto de consulta requiere recursos y tiempo. Por lo tanto, en lugar de calcular la ED para cada término primero, podemos extraer posibles términos coincidentes utilizando una técnica llamada Qgram Index. y luego aplicar el cálculo de ED en esos términos seleccionados.
Una ventaja de la técnica de índice Qgram es que admite Fuzzy Search.
Un posible enfoque para adaptar el índice de QGram es construir un índice invertido utilizando Qgrams. Ahí almacenamos todas las palabras que consisten en Qgram particular, bajo ese Qgram. (En lugar de almacenar una cadena completa, puede usar una ID única para cada cadena). Puedes usar la estructura de datos de Tree Map en Java para esto. A continuación se muestra un pequeño ejemplo de almacenamiento de términos.
col: col mbia, col ombo, gan col a, ta col ama
Luego, al realizar la consulta, calculamos el número de Qgrams comunes entre el texto de consulta y los términos disponibles.
Example: x = HILLARY, y = HILARI(query term)
Qgrams
$$HILLARY$$ -> $$H, $HI, HIL, ILL, LLA, LAR, ARY, RY$, Y$$
$$HILARI$$ -> $$H, $HI, HIL, ILA, LAR, ARI, RI$, I$$
number of q-grams in common = 4
número de q-gramos en común = 4.
Para los términos con un alto número de Qgrams comunes, calculamos el ED / PED contra el término de consulta y luego sugerimos el término al usuario final.
Puede encontrar una implementación de esta teoría en el siguiente proyecto (consulte "QGramIndex.java"). No dude en hacer cualquier pregunta. https://github.com/Bhashitha-Gamage/City_Search
Para estudiar más sobre Editar Distancia, Prefijo Editar Distancia índice de Qgram, vea el siguiente video de la Prof. Dra. Hannah Bast https://www.youtube.com/embed/6pUg2wmGJRo (La lección comienza desde las 20:06)
Puede que encuentre útil esta biblioteca! http://code.google.com/p/google-diff-match-patch/
Actualmente está disponible en Java, JavaScript, Dart, C ++, C #, Objective C, Lua y Python
Funciona bastante bien también. Lo uso en un par de mis proyectos Lua.
¡Y no creo que sea demasiado difícil portarlo a otros idiomas!
Si está haciendo esto en el contexto de un motor de búsqueda o una interfaz frente a una base de datos, podría considerar usar una herramienta como Apache Solr , con el complemento ComplexPhraseQueryParser . Esta combinación le permite buscar contra un índice de cadenas con los resultados ordenados por relevancia, según lo determinado por la distancia Levenshtein.
Lo hemos estado usando contra una gran colección de artistas y títulos de canciones cuando la consulta entrante puede tener uno o más errores tipográficos, y ha funcionado bastante bien (y notablemente rápido, considerando que las colecciones están en millones de cadenas).
Además, con Solr, puede buscar en el índice bajo demanda a través de JSON, por lo que no tendrá que reinventar la solución entre los diferentes idiomas que está viendo.
Un muy, muy buen recurso para este tipo de algoritmos es Simmetrics: http://sourceforge.net/projects/simmetrics/
Desafortunadamente, el impresionante sitio web que contiene gran parte de la documentación ha desaparecido :( En caso de que vuelva a aparecer, su dirección anterior era esta: http://www.dcs.shef.ac.uk/~sam/simmetrics.html
Voila (cortesía de "Wayback Machine"): http://web.archive.org/web/20081230184321/http://www.dcs.shef.ac.uk/~sam/simmetrics.html
Puede estudiar la fuente del código, hay docenas de algoritmos para este tipo de comparaciones, cada una con un compromiso diferente. Las implementaciones están en Java.
Usted podría estar interesado en esta entrada de blog.
http://seatgeek.com/blog/dev/fuzzywuzzy-fuzzy-string-matching-in-python
Fuzzywuzzy es una biblioteca de Python que proporciona medidas de distancia fáciles, como la distancia de Levenshtein para la coincidencia de cadenas. Está construido sobre difflib en la biblioteca estándar y hará uso de la implementación en C Python-levenshtein si está disponible.
Yo cuestiono que la opción B esté más cerca de la cadena de prueba, ya que solo 4 caracteres (y 2 eliminaciones) son la cadena original. Mientras que ves C como más cerca porque incluye marrón y rojo. Sin embargo, tendría una mayor distancia de edición.
Hay un algoritmo llamado Levenshtein Distance que mide la distancia de edición entre dos entradas.
Here hay una herramienta para ese algoritmo.
- Las tarifas de elección A como una distancia de 15.
- Califica la opción B como una distancia de 6.
- Tarifas opción C como una distancia de 9.
EDITAR: Lo siento, sigo mezclando cadenas en la herramienta levenshtein. Actualizado para corregir respuestas.