PAC:多智能体强化学习中具有反事实预测的辅助价值因子分解

乔治
随着价值函数分解方法的发展,多智能体强化学习(MARL)取得了重大进展。由于单调性,它允许通过最大化因式分解的每个智能体的效用来优化联合动作值函数。本文表明,在部分可观察的MARL问题中,智能体对其自身动作的排序可能会对可表示函数类施加并发约束(跨不同状态),从而在训...

用户分享观点: