sirven redes que para neuronales las funcionan estadistica ejemplos como combativas artificiales aplicaciones actualidad algorithm neural-network

algorithm - que - redes neuronales estadistica



Pregunta de red neuronal artificial (5)

En general, ¿qué obtienes al extender una red neuronal artificial al agregar más nodos a una capa oculta o más capas ocultas?

¿Permite una mayor precisión en el mapeo, o permite una mayor sutileza en las relaciones que puede identificar, o algo más?


Cuando tienes una capa oculta es que estás creando una característica combinada de la entrada. Entonces, ¿se puede abordar mejor el problema con más características de la entrada existente, o mediante funciones de orden superior que provienen de la combinación de funciones existentes? Esta es la compensación para una red de feed-forward estándar.

Usted tiene la seguridad teórica de que cualquier función puede ser representada por una red neuronal con dos capas ocultas y activación no lineal.

Además, considere usar recursos adicionales para impulsar, en lugar de agregar más nodos, si no está seguro de la topología adecuada.


Esta es una pregunta muy interesante, pero no es tan fácil de responder. Depende del problema que intente resolver y de la red neuronal que intente utilizar. Hay varios tipos de redes neuronales.

En general, no está tan claro que más nodos igualen a más precisión. La investigación muestra que en su mayoría solo necesita una capa oculta. El número de nodos debe ser el número mínimo de nodos necesarios para resolver un problema. Si no tienes suficientes, no llegarás a la solución.

Por otro lado, si ha alcanzado el número de nodos que es bueno para resolver la solución, puede agregar más y más y no verá ningún progreso adicional en la estimación de resultados.

Es por eso que hay tantos tipos de redes neuronales. Intentan resolver diferentes tipos de problemas. Entonces usted tiene NN para resolver problemas estáticos, para resolver problemas relacionados con el tiempo y así sucesivamente. La cantidad de nodos no es tan importante como el diseño de ellos.


Reglas muy aproximadas

generalmente más elementos por capa para vectores de entrada más grandes.

más capas pueden permitirle modelar más sistemas no lineales.

Si el tipo de red que está utilizando tiene retrasos en la propagación, más capas pueden permitir el modelado de series temporales. Tenga cuidado de tener un jitter de tiempo en los retrasos o no funcionará muy bien. Si esto solo es un galimatías, ignóralo.

Más capas le permiten insertar funciones recurrentes. Esto puede ser muy útil para tareas de discriminación. Usted implementación ANN no permite esto.

HTH


El número de unidades por capa oculta representa el potencial de la ANN para describir una función arbitrariamente compleja. Algunas funciones (complicadas) pueden requerir muchos nodos ocultos, o posiblemente más de una capa oculta.

Cuando una función puede ser aproximadamente aproximada por un cierto número de unidades ocultas, cualquier nodo adicional proporcionará más precisión ... pero esto solo es cierto si las muestras de entrenamiento utilizadas son suficientes para justificar esta adición; de lo contrario, lo que sucederá es "sobreconvergencia". . La sobreconvergencia significa que su ANN ha perdido sus habilidades de generalización porque se ha enfatizado demasiado en las muestras particulares.

En general, es mejor utilizar las unidades menos ocultas posibles, si la red resultante puede dar buenos resultados. Los patrones de entrenamiento adicionales requeridos para justificar más nodos ocultos no se pueden encontrar fácilmente en la mayoría de los casos, y la precisión no es el punto fuerte de los NN.


Hay un resultado muy conocido en el aprendizaje automático que afirma que una sola capa oculta es suficiente para aproximarse a cualquier función suave y limitada (el documento se llamaba "Redes de avance multicapa son aproximaciones universales" y ahora tiene casi 20 años). Sin embargo, hay varias cosas que notar.

  • Es posible que la única capa oculta deba ser arbitrariamente amplia.
  • Esto no dice nada acerca de la facilidad con la que se puede encontrar una aproximación; en general, las redes grandes son difíciles de entrenar adecuadamente y son objeto de sobreajuste con bastante frecuencia (la excepción son las llamadas "redes neuronales convolucionales" que en realidad solo están pensadas para problemas de visión).
  • Esto tampoco dice nada sobre la eficiencia de la representación. Algunas funciones requieren un número exponencial de unidades ocultas si se hace con una capa, pero se escala mucho mejor con más capas (para más información sobre esta lectura, consulte Algoritmos de Aprendizaje en Escala Hacia la IA )

El problema con las redes neuronales profundas es que son aún más difíciles de entrenar. Terminas con degradados muy pequeños retropropagando a las capas ocultas anteriores y el aprendizaje no va realmente a ningún lado, especialmente si los pesos se inicializan para ser pequeños (si los inicializas para que sean de mayor magnitud, con frecuencia te quedas atascado en malos mínimos locales) . Hay algunas técnicas para "preentrenamiento" como las que se tratan en esta charla técnica de Google por Geoff Hinton, que intentan evitar esto.