Select Language

AI社区

数据要素产业

突破瓶颈高效测评:谷歌提出自然语言生成任务评测新方法BLEURT

近年来在自然语言生成(natural language generation, NLG)研究上取得了巨大的进展, 经过充分训练的复杂模型已经可以高精度完成文本迁移、文章总结、参与对话和图片注释等多种任务。目前主要有两种主要方式对NLG系统进行评测:人工测评和自动化度量。

人工测评需要人类标注员在每个模型版本上进行大规模的质量检查,这种方法虽然精度很高但劳动密集型的检查任务十分消耗人力;而像BLEU这样自动化测评方法可以对模型进行迅速的评测,但相较于人类翻译和评审来说经常会出现不可靠的情况。NLG的高速发展和现有测评方法的局限性使得学术界迫切需要开发出新的测评方法来促进NLG系统的发展。

为了解决这一问题,来自谷歌的研究人员提出了一种名为BLEURT的鲁棒文本生成测评指标,BLUERT可以实现非常鲁棒并接近于人类标注的精度水平。

BLEURT (Bilingual evaluation Understudy with Representations from Transformers) 基于最近高速发展的迁移学习方法进行构建,可以捕捉像句子转述等广泛使用的语言特征。

NLG系统的评测

在人类测评的过程中,系统向人类标注者呈现生成的部分文本内容,让人类基于连贯性和表意来评价内容生成的质量。生成的句子一般与参考句子一对一地进行呈现,参考句子主要来源于网络或者人类作品中。

在机器翻译任务中一个典型的人类测评问题。

人类评测的优点在于其准确性:在评测文本片段时,人类具有无可比拟的准确性。但这种方法对于大规模测评来说,随随便便就需要数十人花费很多天时间,这足以打断高效的模型研发流程。

而自动化测量的主要优势在于低成本、高效率。一般会将待测评结果和参考结果同时输入自动化测评系统,返回描述两个句子间相似程度的分数。典型的方法是使用词汇的重合度来评分,但像BLEU则测算候选句子单词序列同时也出现在参考句子中的次数(非常类似于准确度)。

人类测评与自动化测评的优缺点正好相反,自动化度量十分便捷,可以实时测评训练结果,但他们的精度却无法令人满意。这主要是由于自动化方法聚焦于对生成文本表面相似性的度量,而无法理解人类语言的多样性与精妙。仅靠表面形式来奖励哪些词语上匹配的句子(即使他们没有捕捉到真正的含义)是不公平的测评方法。

三个备选句子的BLUE分数,第二句显然在语义上接近参考句子,但得分却低于第三句。自动化评测方法仅仅依赖表面的文本信息,而忽略了背后所要传达的意义。

新评测指标BLEURT

BLEURT是一种基于机器学习的自动化度量新方法,可以捕捉句子字面背后的语义相似性。下图显示了BLEURT指标下几个句子的得分情况:

利用BLEURT对三个备选句子进行了测评,虽然2包含两个不同的词,但语义相似性让它获取了高分。

利用机器学习创造一个度量标准需要解决根本的挑战:这一指标需要在不同域和时间上具备连续性。然而训练数据的数量总是有限的,同时公开数据集也是稀疏的。即使目前最大的人类评测数据集WMT度量任务数据集,包含了260k的人类测评,仅仅只覆盖了新闻领域。这对于训练一个适用范围广泛的NLG测评指标远远不够。

为了解决这一问题,迁移学习被引入了这项研究。首先充分利用了BERT中上下文词语表示,BERT是目前用于语言理解最先进的非监督表示学习方法,并成功应用于想YiSi和BERTScore等NLG指标上。

其次研究人人员引入了一种新颖的预训练机制来提升BLEURT的鲁棒性。实验表明直接在人类测评数据集上训练回归模型十分不稳定,因为无法控制测评指标在哪个域或者哪个时间跨度上使用。其精度很容易在出现域漂移的情况时下降,例如测试时文本信息来自于与训练句子对不同的域时。同时在质量漂移时其性能也会下架,例如要预测评级比训练评级高时就可能引起性能下降,不过这也是机器学习研究正在取得进展的标志特征。

BLEURT的成功取决于模型利用数百万合成句子对儿来进行预热,随后再利用人类评级进行微调。通过给来自维基百科的句子加入随机扰动来生成训练数据,研究人员没有采用人类评级而是利用了文献中的模型和指标,使得训练样本的数量可以低成本地进行扩充。

BLEURT数据生成过程,结合了随机扰动和现有的指标和模型。

BLEURT的预训练分别在语言模型目标和NLG评测目标上训练了两次。随后在WMT指标数据集上进行了调优,下图展示了BLEURT端到端的训练流程。实验表明预训练模型极大地提升了BLEURT的精度,特别在测试分布外数据时尤其如此。

结  论

与多个指标在机器翻译和数据文本生成任务上的比较结果表明,BLEURT显示出了优异的性能。例如BLEURT在2019年的WMT Metrics Shared任务上的精度超过了BLEU48%。

在WMT’19 Metrics Shared 任务上,不同指标和人类评级结果的相关性。

研究人员希望这一指标可以为NLG任务提供更好的评测方式,提供灵活的语义的评测视角。BLEURT可以为人们提供除了重合度外更好的测评指标,打破现有测评方法对于算法研发的束缚。