simple rpubs regresion multiple machine logistica learning interpretacion ejemplos clasificacion algoritmos machine-learning data-mining regression

machine learning - rpubs - Función de costo para la regresión logística



regresion logistica rpubs (4)

Sí, puede definir su propia función de pérdida, pero si es un novato, probablemente sea mejor que use uno de la literatura. Hay condiciones que las funciones de pérdida deben cumplir:

  1. Deben aproximarse a la pérdida real que intenta minimizar. Como se dijo en la otra respuesta, las funciones de pérdida estándar para la clasificación son cero-una-pérdida (tasa de clasificación errónea) y las utilizadas para los clasificadores de capacitación son aproximaciones de esa pérdida.

    La pérdida por error cuadrado de la regresión lineal no se utiliza porque no se aproxima al pozo de cero a una pérdida: cuando su modelo predice +50 para alguna muestra mientras que la respuesta prevista era +1 (clase positiva), la predicción está activada el lado correcto del límite de decisión para que la pérdida cero sea cero, pero la pérdida del error al cuadrado sigue siendo 49² = 2401. Algunos algoritmos de entrenamiento perderán mucho tiempo obteniendo predicciones muy cercanas a {-1, +1} en lugar de centrarse en obtener solo la etiqueta de signo / clase correcta. (*)

  2. La función de pérdida debería funcionar con su algoritmo de optimización previsto. Es por eso que cero-una-pérdida no se usa directamente: no funciona con métodos de optimización basados ​​en gradiente ya que no tiene un degradado bien definido (o incluso un subgrado , como la pérdida de bisagra para SVM).

    El algoritmo principal que optimiza la pérdida cero-uno directamente es el viejo algoritmo perceptron .

Además, cuando conecta una función de pérdida personalizada, ya no está construyendo un modelo de regresión logística, sino algún otro tipo de clasificador lineal.

(*) El error cuadrado se usa con el análisis discriminante lineal, pero generalmente se resuelve en forma cerrada en lugar de iterativamente.

En los modelos de mínimos cuadrados, la función de costo se define como el cuadrado de la diferencia entre el valor predicho y el valor real en función de la entrada.

Cuando hacemos una regresión logística, cambiamos la función de costo para que sea una función logirítmica, en lugar de definirla como el cuadrado de la diferencia entre la función sigmoidea (el valor de salida) y la salida real.

¿Está bien cambiar y definir nuestra propia función de costos para determinar los parámetros?


, se pueden usar otras funciones de costo para determinar los parámetros.

La función de error al cuadrado (función comúnmente utilizada para la regresión lineal) no es muy adecuada para la regresión logística.

Como en el caso de la regresión logística, la hipótesis es no lineal (función sigmoidea), lo que hace que la función de error cuadrado no sea convexa.

La función logarítmica es una función convexa para la cual no hay óptimos locales, por lo que el descenso de gradiente funciona bien.


No eliges la función de pérdida, eliges el modelo

La función de pérdida generalmente la determina directamente el modelo cuando se ajusta a sus parámetros mediante la Estimación de máxima verosimilitud (MLE), que es el enfoque más popular en Machine Learning.

Usted mencionó el Error Cuadrático Medio como una función de pérdida para la regresión lineal. Luego, "cambiamos la función de costo para que sea una función logarítmica", en referencia a la pérdida de entropía cruzada. No cambiamos la función de costos. De hecho, el error cuadrático medio es la pérdida de entropía cruzada para la regresión lineal, cuando suponemos que y se distribuye normalmente por un Gaussiano, cuya media se define por Wx + b .

Explicación

Con MLE, eliges los parámetros en forma, que la probabilidad de los datos de entrenamiento se maximiza. La probabilidad de todo el conjunto de datos de entrenamiento es un producto de las probabilidades de cada muestra de entrenamiento. Debido a que puede descender a cero, por lo general, maximizamos la probabilidad logarítmica de los datos de entrenamiento / minimizamos la probabilidad logarítmica negativa. Por lo tanto, la función de costo se convierte en una suma de la verosimilitud logarítmica negativa de cada muestra de capacitación, que viene dada por:

-log(p(y | x; w))

donde w son los parámetros de nuestro modelo (incluido el sesgo). Ahora, para la regresión logística, ese es el logaritmo al que se refiere. Pero, ¿qué pasa con la afirmación de que esto también corresponde al MSE para la regresión lineal?

Ejemplo

Para mostrar que el MSE corresponde a la entropía cruzada, suponemos que y se distribuye normalmente alrededor de una media, que predecimos usando w^T x + b . También suponemos que tiene una varianza fija, por lo que no predecimos la varianza con nuestra regresión lineal, solo la media de Gauss.

p(y | x; w) = N(y; w^T x + b, 1)

Puedes ver, mean = w^T x + b y variance = 1

Ahora, la función de pérdida corresponde a

-log N(y; w^T x + b, 1)

Si echamos un vistazo a cómo se define el N Gaussiano, vemos:

Ahora, toma el logaritmo negativo de eso. Esto resulta en:

Elegimos una varianza fija de 1. Esto hace que el primer término sea constante y reduce el segundo término a:

0.5 (y - mean)^2

Ahora, recuerde que definimos la media como w^T x + b . Dado que el primer término es constante, minimizar el logaritmo negativo del Gaussian corresponde a minimizar

(y - w^T x + b)^2

que corresponde a minimizar el Error Cuadrático Medio.


La función logística, la pérdida de bisagra, la pérdida de bisagra suavizada, etc. se utilizan porque son límites superiores en la pérdida de clasificación binaria cero uno.

Por lo general, estas funciones penalizan también a los ejemplos que están correctamente clasificados pero que aún se encuentran cerca del límite de decisión, creando así un "margen".

Entonces, si está haciendo una clasificación binaria, entonces ciertamente debe elegir una función de pérdida estándar.

Si está tratando de resolver un problema diferente, entonces una función de pérdida diferente probablemente tendrá un mejor rendimiento.