循环强化学习

Mateo Perez
循环是有限描述潜在无限对象的基本范式。由于最先进的强化学习(RL)算法无法直接对循环进行推理,它们必须依靠实践者的创造力来设计环境的合适“平面”表示。由此产生的手动特征构造和近似非常繁琐且容易出错;它们缺乏透明度妨碍了可扩展性。为此,本文提出能够在环境中计算最优...

用户分享观点: