machine learning - traduccion - ¿Qué es una curva de aprendizaje en el aprendizaje automático?

machine learning historia (7)

¿Cómo se puede determinar para un modelo dado si más puntos de entrenamiento serán útiles? Un diagnóstico útil para esto son las curvas de aprendizaje.

• Representación gráfica de la precisión / error de predicción frente al tamaño del conjunto de entrenamiento (es decir, qué tan bien el modelo logra predecir el objetivo a medida que aumenta el número de instancias utilizadas para entrenarlo)

• Curva de aprendizaje representa convencionalmente la mejora en el rendimiento en el eje vertical cuando hay cambios en otro parámetro (en el eje horizontal), como el tamaño del conjunto de entrenamiento (en aprendizaje automático) o la iteración / tiempo

• Una curva de aprendizaje a menudo es útil para trazar la comprobación de la cordura algorítmica o mejorar el rendimiento

• El trazado de la curva de aprendizaje puede ayudar a diagnosticar los problemas que su algoritmo sufrirá

Personalmente, los dos enlaces siguientes me ayudaron a comprender mejor este concepto

Curva de aprendizaje

Sklearn Learning Curve

Quiero saber qué es una curva de aprendizaje en el aprendizaje automático. ¿Cuál es la forma estándar de trazarlo? Quiero decir, ¿cuál debería ser el eje X e Y de mi trama?

Algunas personas usan "curva de aprendizaje" para referirse al error de un procedimiento iterativo como una función del número de iteración, es decir, ilustra la convergencia de alguna función de utilidad. En el siguiente ejemplo, trazo el error cuadrático medio (mean-square error, MSE) del algoritmo de mínimos cuadrados medios (LMS) como una función del número de iteración. Eso ilustra qué tan rápido LMS "aprende", en este caso, la respuesta al impulso del canal.

Básicamente, una curva de aprendizaje automático le permite encontrar el punto desde el cual el algoritmo comienza a aprender. Si toma una curva y luego corta una pendiente tangente para derivada en el punto en que comienza a alcanzar constante es cuando comienza a desarrollar su capacidad de aprendizaje.

Dependiendo de cómo se mapeen sus ejes xey, uno de sus ejes comenzará a acercarse a un valor constante mientras que los valores del otro eje seguirán aumentando. Esto es cuando comienzas a ver algo de aprendizaje. La curva completa te permite medir la velocidad a la que tu algoritmo puede aprender. El punto máximo suele ser cuando la pendiente comienza a retroceder. Puede tomar una cantidad de medidas derivadas hasta el punto máximo / mínimo.

Por lo tanto, a partir de los ejemplos anteriores, puede ver que la curva tiende gradualmente hacia un valor constante. Inicialmente comienza a aprovechar su aprendizaje a través de los ejemplos de entrenamiento y la pendiente se ensancha en el punto máximo / mínimo donde tiende a acercarse cada vez más hacia el estado constante. En este punto, puede recoger nuevos ejemplos de los datos de prueba y encontrar resultados nuevos y únicos a partir de los datos. Tendría tales medidas de eje x / y para epochs vs error.

Creo que generalmente se refiere a una trama de la precisión / error de predicción frente al tamaño del conjunto de entrenamiento (es decir, qué tan bien el modelo logra predecir el objetivo a medida que aumenta el número de instancias utilizadas para entrenarlo)

Ejemplo X = Nivel y = salario

XY 0 2000 2 4000 4 6000 6 8000

Regresión da precisión 75% es un polinomio de línea de estado da precisión 85% debido a la curva

En la clase de aprendizaje automático de Andrew, una curva de aprendizaje es la gráfica del error de entrenamiento / validación cruzada versus el tamaño de la muestra. La curva de aprendizaje puede usarse para detectar si el modelo tiene un sesgo alto o una alta varianza. Si el modelo sufre un problema de sesgo alto, a medida que aumenta el tamaño de la muestra, el error de entrenamiento aumentará y el error de validación cruzada disminuirá y al final estarán muy cerca el uno del otro, pero a una tasa de error alta tanto para el entrenamiento como para el error de clasificación . Y aumentar el tamaño de la muestra no ayudará mucho para el problema de alto sesgo.

Si el modelo sufre una alta varianza, a medida que aumenta el tamaño de la muestra, el error de entrenamiento seguirá aumentando y el error de validación cruzada seguirá disminuyendo y terminarán con una baja tasa de error de capacitación y validación cruzada. Por lo tanto, más muestras ayudarán a mejorar el rendimiento de predicción del modelo si el modelo sufre una alta varianza.

Solo quiero dejar una breve nota sobre esta vieja pregunta para señalar que la curva de aprendizaje y la curva ROC no son sinónimos.

Como se indica en las otras respuestas a esta pregunta, una curva de aprendizaje representa convencionalmente la mejora en el rendimiento en el eje vertical cuando hay cambios en otro parámetro (en el eje horizontal), como el tamaño del conjunto de entrenamiento (en aprendizaje automático) o la iteración / tiempo (tanto en la máquina como en el aprendizaje biológico). Un punto sobresaliente es que muchos parámetros del modelo están cambiando en diferentes puntos de la trama. Otras respuestas aquí han hecho un gran trabajo al ilustrar las curvas de aprendizaje.

(También hay otro significado de la curva de aprendizaje en la fabricación industrial, originado en una observación en la década de 1930 de que el número de horas de trabajo necesarias para producir una unidad individual disminuye a un ritmo uniforme a medida que se duplica la cantidad de unidades fabricadas. relevante, pero vale la pena destacar para que esté completo y para evitar confusiones en las búsquedas web).

Por el contrario, la curva característica de funcionamiento del receptor , o curva ROC , no muestra aprendizaje; muestra el rendimiento. Una curva ROC es una representación gráfica del rendimiento del clasificador que muestra la relación entre aumentar las tasas positivas verdaderas (en el eje vertical) y aumentar las tasas de falsos positivos (en el eje horizontal) a medida que varía el umbral de discriminación del clasificador. Por lo tanto, solo un parámetro único (el umbral de decisión / discriminación) asociado con el modelo está cambiando en diferentes puntos de la gráfica. Esta curva ROC ( de Wikipedia ) muestra el rendimiento de tres clasificadores diferentes.

No se describe aquí el aprendizaje, sino más bien el rendimiento con respecto a dos clases diferentes de éxito / error, ya que el umbral de decisión del clasificador se hace más flexible / estricto. Al observar el área bajo la curva, podemos ver una indicación general de la capacidad del clasificador para distinguir las clases. Esta métrica de área bajo la curva es insensible a la cantidad de miembros en las dos clases, por lo que puede no reflejar el rendimiento real si la pertenencia a la clase no está equilibrada. La curva ROC tiene muchos subtítulos y los lectores interesados pueden consultar:

Fawcett, Tom. "Gráficos ROC: Notas y consideraciones prácticas para los investigadores". Machine Learning 31 (2004): 1-38.

Swets, John A., Robyn M. Dawes y John Monahan. "Mejores decisiones a través de la ciencia". Scientific American (2000): 83.