usar librerias libreria estadistica como basicas python machine-learning markov

librerias - Bibliotecas de Python para el aprendizaje de máquinas en línea MDP



librerias basicas de python (2)

Estoy intentando diseñar un agente iterativo de proceso de decisión de markov (MDP) en Python con las siguientes características:

  • estado observable
    • Manejo el estado potencial "desconocido" reservando un espacio de estado para responder movimientos de consulta realizados por el DP (el estado en t + 1 identificará la consulta previa [o cero si el movimiento previo no fue una consulta], así como el incrustado vector de resultado) este espacio se rellena con 0s a una longitud fija para mantener el marco de estado alineado independientemente de la consulta respondida (cuyas longitudes de datos pueden variar)
  • acciones que pueden no estar siempre disponibles en todos los estados
  • la función de recompensa puede cambiar con el tiempo
  • la convergencia de políticas debería ser incremental y solo computada por movimiento

Entonces, la idea básica es que el MDP debe realizar su mejor movimiento optimizado en T utilizando su modelo de probabilidad actual (y dado que su movimiento probabilístico es estocástico que implica posible aleatoriedad), acople el nuevo estado de entrada en T + 1 con la recompensa de un movimiento anterior en T y reevaluar el modelo. La convergencia no debe ser permanente, ya que la recompensa puede modular o las acciones disponibles podrían cambiar.

Lo que me gustaría saber es si hay bibliotecas de python actuales (preferiblemente multiplataforma ya que necesariamente cambio los entornos entre Windoze y Linux) que ya pueden hacer este tipo de cosas (o pueden ser compatibles con una personalización adecuada, por ejemplo: clase derivada soporte que permite redefinir el método de recompensa con el propio).

Estoy encontrando información sobre el aprendizaje MDP en línea por movimiento es bastante escaso. La mayoría del uso de MDP que puedo encontrar parece enfocarse en resolver toda la política como un paso de preprocesamiento.


Soy un estudiante de posgrado que hace muchas cosas de MCMC en Python y, hasta donde sé, nada implementa MDPs directamente. Lo más cercano que conozco es PyMC . Excavar alrededor de la documentación proporcionó esto , que da algunos consejos para extender sus clases. Definitivamente no tienen recompensas, etc., disponibles de manera inmediata.

Si realmente quiere desarrollar algo bueno, podría considerar extender y crear subclases de las cosas de PyMC para crear sus procesos de decisión, ya que luego puede incluirlo en la próxima actualización de PyMC y ayudar a muchos futuros.