调谐A-Video:用于文本到视频生成的图像扩散模型的一次性调谐

Jay Zhangjie Wu,Yixiao Ge,Xintao Wang,Weixian Lei,Yuchao Gu,Wynne Hsu,Ying Shan,Xiaohu Qie,Mike Zheng Shou
为了复制文本到图(T2V)生成的成功,最近的Text-to-Video生成作品使用大规模文本视频数据集进行调整。然而,这种取向是计算昂贵且耗时长。人类有惊人的学习能力,从单个例子中学习新视图概念。我们在这里研究了一种新的T2V生成问题,即一个射击视频生成,其中只提供了一个开放领域T2V生...

用户分享观点: