CAME:置信度引导的自适应内存高效优化

罗旸,Xiaozhe REN, 郑奘巍,ZHUO JIANG, Xin Jiang 以及尤洋
研究亮点及意义:语言模型的训练中,优化器往往占据了大量的内存使用。随着大语言模型不断增加的参数量,训练时的内存消耗问题更为严峻。我们的工作提出了 CAME 优化器,在减少内存消耗的同时,拥有与 Adam 相同的性能。CAME 优化器基于 Adafactor 优化器改进而来,后者在大规模语...

用户分享观点: