machine learning - redes - Elección de la función de activación para la red neuronal

redes neuronales libro pdf (3)

¿Podemos usar diferentes funciones de activación para la capa oculta y la capa de salida de la red neuronal? ¿Hay alguna ventaja explícita de usar dicho esquema?

En resumen, sí puedes. Es un enfoque común utilizar la función sigmoide como una activación de capa oculta para asegurar características no lineales y la activación en la salida seleccionada para una tarea en particular (dependiendo de lo que está tratando de modelar y qué función de costo usa).

Para la última capa de la red, la unidad de activación también depende de la tarea.

Clasificación : querrá que solo una de sus salidas sea una de las etiquetas, pero no hay una manera diferenciable de lograr eso precisamente, por lo que querrá usar un softmax para aproximarlo.
Regresión : querrá usar la activación sigmoide o tanh , porque quiere que el resultado sea lineal. Con el uso de sigmoid y tanh, la salida se escalará entre 0 y 1. Por lo tanto, será fácil de optimizar.

Para capas intermedias, ahora la mayoría de las personas usa Relu porque es más rápido de calcular y no se desvanecerá temprano en la retropropagación.

Si está implementando la tarea de predicción en lugar de la clasificación, puede usar una combinación lineal en la capa de salida, ya que la función sigmoide restringe su rango de salida a (0,1), que a menudo se aplica en problemas de clasificación basados en umbrales.