machine learning - ¿Por qué el BIAS es necesario en ANN? ¿Deberíamos tener BIAS separados para cada capa?

machine-learning neural-network (1)

Quiero hacer un modelo que predice la respuesta futura de la señal de entrada, la arquitectura de mi red es [3, 5, 1]:

3 entradas,
5 neuronas en la capa oculta, y
1 neurona en la capa de salida.

Mis preguntas son:

¿Deberíamos tener BIAS separados para cada capa oculta y de salida?
¿Debemos asignar peso a BIAS en cada capa (a medida que BIAS se convierte en un valor adicional para nuestra red y causa la sobrecarga de la red)?
¿Por qué BIAS siempre se establece en uno? Si eta tiene valores diferentes, ¿por qué no configuramos el BIAS con valores diferentes?
¿Por qué siempre usamos la función log sigmoidea para funciones no lineales, podemos usar tanh?

Entonces, creo que se aclararía la mayor parte de esto si tuviéramos que dar un paso atrás y discutir el papel que la unidad de sesgo debe desempeñar en una NN.

Una unidad de polarización está diseñada para permitir que las unidades en su red aprendan un umbral apropiado (es decir, después de alcanzar una determinada entrada total, comenzar a enviar una activación positiva), ya que normalmente una entrada total positiva significa una activación positiva.

Por ejemplo, si su unidad de sesgo tiene un peso de -2 con alguna neurona x, entonces la neurona x proporcionará una activación positiva si todas las demás entradas son mayores que -2.

Entonces, con eso como fondo, sus respuestas:

No, una entrada de sesgo siempre es suficiente, ya que puede afectar a diferentes neuronas de manera diferente según su peso en cada unidad.
En términos generales, tener pesos de sesgo que van a todas las unidades sin entrada es una buena idea, ya que de lo contrario esas unidades sin pesos de sesgo tendrían umbrales que siempre serán cero.
Desde el umbral, una vez aprendido, debe ser consistente en todos los ensayos. Recuerde que el sesgo representó cómo cada unidad interactúa con la entrada; no es una entrada en sí misma.
Ciertamente puedes y muchos lo hacen. Cualquier función de sqaushing generalmente funciona como una función de activación.