machine-learning neural-network backpropagation mean-square-error cross-entropy

machine learning - ¿Por qué se prefiere el método de entropía cruzada al error cuadrático medio? ¿En qué casos esto no se sostiene?



machine-learning neural-network (3)

Cuando deriva la función de costo del aspecto de probabilidad y distribución, puede observar que MSE ocurre cuando asume que el error sigue la Distribución normal y la entropía cruzada cuando asume la distribución binomial. Significa que implícitamente cuando utiliza MSE, está haciendo una regresión (estimación) y cuando usa CE, está haciendo una clasificación. Espero que ayude un poco.

Aunque los dos métodos anteriores proporcionan una mejor puntuación para una mejor proximidad de la predicción, aún se prefiere la entropía cruzada. ¿Es en todos los casos o hay algunos escenarios peculiares en los que preferimos la entropía cruzada a la MSE?


La entropía cruzada se prefiere para la clasificación , mientras que el error cuadrático medio es una de las mejores opciones para la regresión . Esto viene directamente de la declaración de los problemas en sí. En la clasificación, se trabaja con un conjunto muy particular de posibles valores de salida, por lo que la MSE está mal definida (ya que no tiene este tipo de conocimiento, por lo tanto, penaliza los errores de manera incompatible). Para entender mejor los fenómenos es bueno seguir y entender las relaciones entre

  1. entropía cruzada
  2. Regresión logística (entropía cruzada binaria)
  3. regresión lineal (MSE)

Notará que ambos pueden verse como estimadores de máxima verosimilitud, simplemente con diferentes supuestos sobre la variable dependiente.


Por ejemplo, si realiza una regresión logística, usará la función sigmoide para estimar la probabilidad, la entropía cruzada como la función de pérdida y el descenso del gradiente para minimizarla. Hacer esto, pero usar MSE como la función de pérdida puede llevar a un problema no convexo donde puede encontrar mínimos locales. El uso de la entropía cruzada conducirá a un problema convexo en el que podría encontrar la solución óptima.

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

También hay un análisis interesante aquí: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/