基于隐式语言Q学习的自然语言生成离线RL

Charlie Snell
大型语言模型从文本语料库中提取广泛的知识。但在完成用户指定的任务时,它们可能不一致。这个问题可以通过在管理的数据集上进行监督学习或通过强化学习对此类模型进行微调来解决。本文提出了一种新颖的离线RL激励方法,即隐式语言Q学习(ILQL),其设计用于语言模型,将传统RL算...

用户分享观点: