世界价值函数:学习和规划的知识表示

Geraud Nangue Tasse
本文提出了世界价值函数(WVFs),面向目标的通用价值函数,它代表了如何不仅解决给定的任务,而且解决智能体环境中任何其他达到目标的任务。 其通过为智能体配备一个内部目标空间来实现的,该目标空间定义为它经历终端转换的所有世界状态。 然后智能体可以修改标准任务奖励来定义...

用户分享观点: