作为最优策略转移基础的乐观线性支持和后继特征

Lucas N. Alegre
在许多现实世界的应用中,强化学习(RL)智能体可能必须解决多个任务,每个任务通常通过奖励函数建模。如果奖励函数是线性表示的,并且智能体已经学习了一组针对不同任务的策略,那么可以利用后续特性(SFs)来组合这些策略,并为新问题找到合理的解决方案。本文介绍了一种新的算法来...
论文地址:

用户分享观点: