SWARM Parallelism: 大型模型训练的去中心化并行算法

Max Ryabinin,Tim Dettmers,Michael Diskin,Alexander Borzunov
在本文中,我们考虑了训练大型模型的替代设置:使用廉价的预处理实例或从多个地区挖掘现有资源。我们在这些条件下分析了现有模型平行算法的性能,并找到了这些条件下的训练大模型的局面。基于这些发现,我们提出了斯瓦尔姆平行性,这是一个设计用于不连接、异构和无可信的设备的模...

用户分享观点: