neural-network - recurrente - redes neuronales estadistica

¿Por qué funcionan las funciones sigmoideas en redes neuronales? (1)

Acabo de empezar a programar para redes neuronales. Actualmente estoy trabajando para comprender cómo funciona una red neuronal de Backpropogation (BP). Si bien el algoritmo para el entrenamiento en redes de BP es bastante sencillo, no pude encontrar ningún texto sobre por qué funciona el algoritmo. Más específicamente, estoy buscando un razonamiento matemático para justificar el uso de funciones sigmoideas en redes neuronales, y lo que las hace imitar casi cualquier distribución de datos que se les arroja.

¡Gracias!

La función sigmoide introduce la no linealidad en la red. Sin una función de activación no lineal, la red solo puede aprender funciones que son combinaciones lineales de sus entradas. El resultado se llama universal approximation theorem o universal approximation theorem Cybenko theorem , en honor al caballero que lo probó en 1989. Wikipedia es un buen lugar para comenzar, y tiene un enlace al artículo original (la prueba está algo involucrada). La razón por la que usaría un sigmoide en lugar de otra cosa es que es continuo y diferenciable, su derivado es muy rápido de calcular (en oposición al derivado de tanh, que tiene propiedades similares) y tiene un rango limitado (de 0 a 1, exclusivo)