AudioLDM:具有潜在扩散模型的文本到音频生成

Haohe Liu,Zehua Chen,Yi Yuan,Xinhao Mei,Xubo Liu,Danilo Mandic,Wenwu Wang,Mark D. Plumbley
文本到声音系统近年来受到了关注,然而,以前的音频系统研究有过有限的生成质量和计算成本。本文中,我们提出了一种基于潜在空间的音频编码器,以学习从对比语言语音预训练(CLAP)假设中学习不断演奏的声音的连续声音表示。预训练的CLAP模型使我们能够与使用视频编码进行培训时提供...

用户分享观点: