verosimilitud regresion ppt modelo machine logit logistica lineal learning historia funcion ejemplos machine-learning logistic-regression logarithm

machine learning - regresion - ¿Por qué la función de costo de la regresión logística tiene una expresión logarítmica?



regresion logistica ordinal (3)

La función de costo para la regresión logística es

cost(h(theta)X,Y) = -log(h(theta)X) or -log(1-h(theta)X)

Mi pregunta es ¿cuál es la base de poner la expresión logarítmica para la función de costo? ¿De dónde viene? Creo que no puedes simplemente poner "-log" de la nada. Si alguien pudiera explicar la derivación de la función de costo, estaría agradecido. gracias.


Fuente : Mis propias notas tomadas durante el curso de Aprendizaje automático de Standford en Coursera , por Andrew Ng. Todos los créditos a él y esta organización. El curso está disponible gratuitamente para que cualquiera pueda tomarlo a su propio ritmo. Las imágenes las hago yo mismo usando LaTeX (fórmulas) y R (gráficos).

Función de hipótesis

La regresión logística se utiliza cuando la variable y que se desea predecir solo puede tomar valores discretos (es decir, clasificación).

Considerando un problema de clasificación binaria ( y solo puede tomar dos valores), luego de tener un conjunto de parámetros θ y un conjunto de características de entrada x , la función de hipótesis podría definirse de manera que esté delimitada entre [0, 1], en la que g () representa la función sigmoide:

Esta función de hipótesis representa al mismo tiempo la probabilidad estimada de que y = 1 en la entrada x parametrizada por θ :

Función de costo

La función de costo representa el objetivo de optimización.

Aunque una posible definición de la función de costo podría ser la media de la distancia euclidiana entre la hipótesis h_θ (x) y el valor real y entre todas las m muestras en el conjunto de entrenamiento, siempre que la función de hipótesis se forme con la función sigmoide , esta definición resultaría en una función de costo no convexo , lo que significa que un mínimo local podría encontrarse fácilmente antes de alcanzar el mínimo global. Para garantizar que la función de costo sea convexa (y, por lo tanto, asegurar la convergencia con el mínimo global), la función de costo se transforma utilizando el logaritmo de la función sigmoide .

De esta manera, la función de objetivo de optimización se puede definir como la media de los costos / errores en el conjunto de capacitación:


Esta función de costo es simplemente una reformulación del criterio de probabilidad máxima (log).

El modelo de regresión logística es:

P(y=1 | x) = logistic(θ x) P(y=0 | x) = 1 - P(y=1 | x) = 1 - logistic(θ x)

La probabilidad se escribe como:

L = P(y_0, ..., y_n | x_0, ..., x_n) = /prod_i P(y_i | x_i)

La probabilidad de registro es:

l = log L = /sum_i log P(y_i | x_i)

Queremos encontrar θ que maximice la probabilidad:

max_θ /prod_i P(y_i | x_i)

Esto es lo mismo que maximizar la probabilidad de registro:

max_θ /sum_i log P(y_i | x_i)

Podemos reescribir esto como una minimización del costo C = -l:

min_θ /sum_i - log P(y_i | x_i) P(y_i | x_i) = logistic(θ x_i) when y_i = 1 P(y_i | x_i) = 1 - logistic(θ x_i) when y_i = 0


Según tengo entendido (no soy un 100% experto aquí, puedo estar equivocado) es que el log se puede explicar más o menos como "no haciendo" la exp que aparece en la fórmula para una densidad de probabilidad gaussian . (Recuerde -log(x) = log(1/x) .)

Si entiendo a Bishop [1] correctamente: cuando asumimos que nuestras muestras de entrenamiento positivas y negativas provienen de dos grupos gaussianos diferentes (ubicación diferente pero con la misma covarianza), podemos desarrollar un clasificador perfecto. Y este clasificador se parece a la regresión logística (por ejemplo, límite de decisión lineal).

Por supuesto, la siguiente pregunta es ¿por qué deberíamos usar un clasificador que sea óptimo para separar los grupos gaussianos, cuando nuestros datos de entrenamiento a menudo se ven diferentes?

[1] Reconocimiento de patrones y aprendizaje automático, Christopher M. Bishop, Capítulo 4.2 (Modelos generativos probabilísticos)