machine-learning - problemas - machine learning para dummies

Características correlacionadas y precisión de clasificación (2)

Me gustaría hacerles una pregunta a todos sobre cómo las características correlacionadas (variables) afectan la precisión de clasificación de los algoritmos de aprendizaje automático. Con las características correlacionadas me refiero a una correlación entre ellas y no con la clase objetivo (es decir, el perímetro y el área de una figura geométrica o el nivel de educación y el ingreso promedio). En mi opinión, las características correlacionadas afectan negativamente a la precisión eh de un algoritmo de clasificación, diría yo porque la correlación hace que una de ellas sea inútil. ¿Es realmente así? ¿El problema cambia con el respeto del tipo de algoritmo de clasificación? ¡Cualquier sugerencia en documentos y conferencias es realmente bienvenida! Gracias

En general, diría que cuanto más descorrelacionadas sean las características, mejor será el rendimiento del clasificador. Dado un conjunto de características altamente correlacionadas, es posible utilizar técnicas de PCA para hacerlas lo más ortogonales posible para mejorar el rendimiento del clasificador.

Las características correlacionadas no afectan la precisión de clasificación per se. El problema en situaciones realistas es que tenemos un número finito de ejemplos de entrenamiento para entrenar un clasificador. Para un número fijo de ejemplos de entrenamiento, aumentar el número de características típicamente aumenta la precisión de la clasificación a un punto, pero a medida que el número de características continúa aumentando, la precisión de clasificación eventualmente disminuirá debido a que estamos sobremuestreados en relación con la gran cantidad de características. Para aprender más sobre las implicaciones de esto, mira la maldición de la dimensionalidad .

Si dos características numéricas están perfectamente correlacionadas, una no agrega información adicional (está determinada por la otra). Entonces, si la cantidad de funciones es demasiado alta (en relación con el tamaño de la muestra de capacitación), entonces es beneficioso reducir el número de características mediante una técnica de extracción de características (por ejemplo, a través de componentes principales ).

El efecto de la correlación depende del tipo de clasificador. Algunos clasificadores no paramétricos son menos sensibles a la correlación de variables (aunque el tiempo de entrenamiento probablemente aumentará con un aumento en el número de características). Para métodos estadísticos como la máxima verosimilitud gaussiana, tener demasiadas características correlacionadas en relación con el tamaño de la muestra de entrenamiento hará que el clasificador inutilizable en el espacio de características original (la matriz de covarianza de los datos de muestra se vuelva singular).