稀疏奖励目标条件强化学习的阶段性自我模仿减少

Yunfei Li
将监督学习 (SL) 的能力用于更有效的强化学习 (RL) 方法是最近的趋势。 本文提出新颖的阶段性方法,通过交替在线监督学习和离线强化学习来解决稀疏奖励目标条件问题。 在在线阶段,执行 RL 训练并收集推出数据,在离线阶段,对数据集中的那些成功轨迹执行监督学习。 为了提高样本...

用户分享观点: