值得信赖的LLMs:评估大型语言模型一致性的调查和指南

确保模型的行为符合人类意图,即所谓的“对齐”(alignment)[1,2],已成为在实际应用中部署大型语言模型(LLMs)之前的关键任务。例如,OpenAI在发布GPT-4之前花费了六个月的时间进行迭代对齐[3]。然而,从业者面临的一个主要挑战是缺乏明确的指导,以评估LLM输出是否符合社会规...

用户分享观点: