Muse:通过蒙面的生成变压器实现文本到图像的生成

Huiwen Chang,Han Zhang,Jarred Barber,AJ Maschinot,Jose Lezama,Lu Jiang,Ming-Hsuan Yang,Kevin Murphy,William T. Freeman,Michael Rubinstein,Yuanzhen Li,Dilip Krishnan
我们提出了Mute,一种文本到图形转换模型,它实现了最先进的图像生成性能,同时优于同步或反向激励模型。该模型在隐藏标记空间中进行训练,给定从一个预先训练好的大型语言模型(LLM)中提取的文本嵌入,并对其进行预测。与像素空间传播模型一样,Mute使用有限状态传感器,并且需要少量的迭...

用户分享观点: