为什么私人模特培训需要公共预培训?

Arun Ganesh,Mahdi Haghifam,Milad Nasr,Sewoong Oh,Thomas Steinke,Om Thakkar,Abhradeep Thakurta,Lun Wang
我们假设了一个模型训练的非曲面损失景观需要一个优化算法来通过两个阶段进行调整。首先,算法需要在损失空间中选择一个好的谷仓,然后算法解决了在这个谷仓里的一种简单的优化。这两种方法之间的高度相似之处表明,存在更深层的原因导致了这些改进。为了解释这种现象,我们假设了...

用户分享观点: