Thinker:规划和行动学习

S Chung, I Anokhin, D Krueger
Thinker算法允许智能体学习如何自主规划和执行动作,通过与习得模型交互实现更优的性能,为强化学习中规划技能与智能体决策过程的无缝融合提供了新的研究方向。动机:为了填补在模型为学习的情况下,强化学习代理与习得世界模型之间的缺失,使代理能够自主与习得模型交互并利用模...

用户分享观点: