填鸭式学习:一天内在单个GPU上训练语言模型

Jonas Geiping,Tom Goldstein
我们研究了一种基于转换的语言模型如何在仅一天内训练成可扩展语法。除了重新分析该场景的预处理步骤的所有部分之外,我们还调查了为什么缩放固执是困难的,以及哪些改进在这种情况下提高了性能。我们提供了一个与BLEU接近的改进的基线,并讨论了这些改进对有限计算环境下的适用性(或...

用户分享观点: