machine learning - machine - ¿Por qué una codificación en caliente mejora el rendimiento del aprendizaje automático?

machine learning tipos de aprendizaje (2)

Con respecto al aumento de las características haciendo una codificación en caliente, se puede usar el hashing de características. Cuando realiza el hash, puede especificar que el número de depósitos sea mucho menor que el número de características recién introducidas.

Me di cuenta de que cuando la codificación One Hot se usa en un conjunto de datos particular (una matriz) y se utiliza como datos de entrenamiento para algoritmos de aprendizaje, ofrece resultados significativamente mejores con respecto a la precisión de predicción, en comparación con el uso de la matriz original como datos de entrenamiento. ¿Cómo ocurre este aumento del rendimiento?

Muchos algoritmos de aprendizaje aprenden un solo peso por característica, o usan distancias entre muestras. El primero es el caso de los modelos lineales, como la regresión logística, que son fáciles de explicar.

Supongamos que tiene un conjunto de datos que tiene una única característica categórica "nacionalidad", con los valores "UK", "French" y "US". Supongamos, sin pérdida de generalidad, que estos están codificados como 0, 1 y 2. Entonces tiene un peso w para esta característica en un clasificador lineal, que tomará algún tipo de decisión basada en la restricción w × x + b> 0 , o equivalentemente, w × x <b.

El problema ahora es que el peso w no puede codificar una elección de tres vías. Los tres valores posibles de w × x son 0, w y 2 × w. O bien estos tres conducen a la misma decisión (son todos <b o ≥b) o "Reino Unido" y "Francés" conducen a la misma decisión, o "Francés" y "EE. UU." Dan la misma decisión. No hay posibilidad de que el modelo sepa que "UK" y "US" deberían tener la misma etiqueta, mientras que "French" es el que está fuera.

Mediante una codificación en caliente, efectivamente explotará el espacio de funciones en tres funciones, cada una de las cuales tendrá su propio peso, por lo que la función de decisión ahora es w [UK] x [UK] + w [FR] x [FR] + w [US] x [US] <b, donde todas las x son booleanas. En este espacio, dicha función lineal puede expresar cualquier suma / disyunción de las posibilidades (por ejemplo, "RU o EE. UU.", Que podría ser un predictor para alguien que habla inglés).

De forma similar, cualquier alumno basado en métricas de distancia estándar (como k-vecinos más cercanos) entre las muestras se confundirá sin una codificación en caliente. Con la codificación ingenua y la distancia euclidiana, la distancia entre el francés y los EE. UU. Es 1. La distancia entre EE. UU. Y el Reino Unido es 2. Pero con la codificación única, las distancias por pares entre [1, 0, 0], [0, 1 , 0] y [0, 0, 1] son todos iguales a √2.

Esto no es cierto para todos los algoritmos de aprendizaje; los árboles de decisión y los modelos derivados, como los bosques aleatorios, si son lo suficientemente profundos, pueden manejar variables categóricas sin una codificación en caliente.