machine-learning - recurrente - redes neuronales libro pdf

Número de capas ocultas en un modelo de red neuronal (3)

Básicamente, más capas permiten representar más funciones. El libro estándar para cursos de IA, "Inteligencia Artificial, Un Enfoque Moderno" de Russell y Norvig, explica en detalle por qué las múltiples capas importan en el Capítulo 20.

Un punto importante es que con una sola capa oculta suficientemente grande, puede representar cada función continua, pero necesitará al menos 2 capas para poder representar cada función discontinua.

En la práctica, sin embargo, una sola capa es suficiente al menos el 99% del tiempo.

¿Alguien podría explicarme o señalarme algunos recursos de por qué (o situaciones donde) más de una capa oculta sería necesaria o útil en una red neuronal?

Cada capa aumenta efectivamente la "complejidad" potencial de la adaptación de una manera exponencial (en oposición a una forma multiplicativa de agregar más nodos a una sola capa).

Eso es más similar a la forma en que funciona el cerebro (que no necesariamente es una ventaja computacional, pero mucha gente está investigando NN para obtener información sobre la forma en que funciona la mente, en lugar de resolver problemas del mundo real.
Es más fácil lograr algunos tipos de invariancia usando más capas. Por ejemplo, un clasificador de imágenes que funciona independientemente de dónde se encuentre el objeto en la imagen o el tamaño del objeto. ver Bouvrie, J., L. Rosasco y T. Poggio. "En la invarianza en modelos jerárquicos". Avances en los sistemas de procesamiento de información neuronal (NIPS) 22, 2009.