学习环境模型引导下的部分可观察性强化学习

Edi Muˇskardin
在实际应用中,很少能够假设系统环境的完全可观测性,尽管这些知识对于确定无功控制系统与其环境的精确交互非常重要。因此,本文提出了一种在部分可观测环境中进行强化学习的方法。虽然假设环境行为类似于具有已知离散动作的部分可观测马尔可夫决策过程,但假设不知道其结构或转移...

用户分享观点: