redes privacidad neuronales machine learning inteligencia futuro funciona entre ejemplos diferencias diferencia como artificial machine-learning reinforcement-learning q-learning temporal-difference

machine-learning - privacidad - machine learning futuro



Aprendizaje Q vs aprendizaje temporal por diferencia basado en modelos (1)

La diferencia temporal es un enfoque para aprender a predecir una cantidad que depende de los valores futuros de una señal dada . Puede usarse para aprender tanto la función V como la función Q, mientras que Q-learning es un algoritmo específico de TD que se usa para aprender la función Q. Según lo establecido por Don Reba, necesita la función Q para realizar una acción (p. Ej., Siguiendo una política ambiciosa de épsilon). Si solo tiene la función V, aún puede derivar la función Q mediante la iteración de todos los estados posibles y seleccionando la acción que lo lleve al estado con el valor V más alto. Para ejemplos y más ideas, recomiendo el libro clásico de Sutton y Barto .

En RL sin modelo , no se aprende la función de transición de estado ( el modelo ) y solo se puede confiar en las muestras. Sin embargo, es posible que también le interese aprenderlo, por ejemplo, porque no puede recopilar muchas muestras y desea generar algunas virtuales. En este caso hablamos de RL basado en modelos . La RL basada en modelos es bastante común en robótica, donde no se pueden realizar muchas simulaciones reales o el robot se romperá. This es una buena encuesta con muchos ejemplos (pero solo habla de algoritmos de búsqueda de políticas). Para otro ejemplo, eche un vistazo a este documento . Aquí, los autores aprenden, junto con una política, un proceso gaussiano para aproximar el modelo avanzado del robot, a fin de simular trayectorias y reducir el número de interacción real del robot.

Estoy en un curso llamado "Máquinas inteligentes" en la universidad. Nos presentaron 3 métodos de aprendizaje reforzado, y con esos se nos dio la intuición de cuándo usarlos, y cito:

  1. Q-Learning: mejor cuando MDP no se puede resolver.
  2. Aprendizaje por diferencia temporal: mejor cuando se conoce o puede aprenderse el MDP pero no se puede resolver.
  3. Basado en modelos: mejor cuando no se puede aprender el MDP.

¿Hay buenos ejemplos que expliquen cuándo elegir un método sobre el otro?