supervisado reinforcement refuerzo reforzado profundo por paso machine learning español ejemplos ejemplo aprendizaje algorithm machine-learning reinforcement-learning q-learning

algorithm - reinforcement - ¿Cómo puedo aplicar el aprendizaje por refuerzo a espacios de acción continua?



q learning paso a paso (5)

Avanzando hacia este año, la gente de DeepMind propone un método de refuerzo de aprendizaje actor-crítico para tratar tanto el estado continuo como el espacio de acción. Se basa en una técnica llamada gradiente de política determinista. Consulte el documento Control continuo con aprendizaje de refuerzo profundo y algunas implementations .

Estoy tratando de que un agente aprenda los movimientos del mouse necesarios para realizar mejor alguna tarea en un entorno de aprendizaje de refuerzo (es decir, la señal de recompensa es la única respuesta para el aprendizaje).

Espero utilizar la técnica de Q-learning, pero si bien he encontrado una manera de extender este método a los espacios de estado continuo , parece que no puedo encontrar la forma de resolver un problema con un espacio de acción continua.

Solo podría forzar que todos los movimientos del mouse sean de cierta magnitud y en solo un cierto número de direcciones diferentes, pero cualquier forma razonable de hacer que las acciones sean discretas daría lugar a un gran espacio de acción. Dado que el aprendizaje estándar Q requiere que el agente evalúe todas las acciones posibles, tal aproximación no resuelve el problema en ningún sentido práctico.


Existen numerosas formas de extender el aprendizaje por refuerzo a las acciones continuas. Una forma es usar métodos actor-crítico. Otra forma es usar métodos de gradiente de políticas.

Una explicación bastante extensa de los diferentes métodos se puede encontrar en el siguiente documento, que está disponible en línea: Aprendizaje de refuerzo en el estado continuo y espacios de acción (por Hado van Hasselt y Marco A. Wiering).


La forma común de tratar este problema es con los métodos de actor-crítico . Estos naturalmente se extienden a espacios de acción continua. El aprendizaje básico de Q podría divergir cuando se trabaja con aproximaciones, sin embargo, si aún desea utilizarlo, puede intentar combinarlo con un mapa autoorganizado, como se hace en "Aplicaciones del mapa autoorganizado al aprendizaje por refuerzo" . El documento también contiene algunas referencias adicionales que pueden ser útiles.


Por lo que estás haciendo, no creo que necesites trabajar en espacios de acción continua. Aunque el mouse físico se mueve en un espacio continuo, internamente el cursor solo se mueve en pasos discretos (generalmente en niveles de píxeles), por lo que obtener una precisión por encima de este umbral parece que no tendrá ningún efecto en el rendimiento de su agente. El espacio estatal todavía es bastante grande, pero es finito y discreto.