SpeechX:作为通用语音转换器的神经编解码器语言模型

Xiaofei Wang、Manthan Thakker、Zhuo Chen、Naoyuki Kanda、Sefik Emre Eskimez、Sanyuan Chen、Min Tang、Shujie Liu、Jinyu Li和Takuya Yoshioka
最近,基于音频文本提示的生成式语音模型的发展使得高质量的零样本文本到语音变得可能。然而,现有的模型在处理涉及输入语音转换和处理在恶劣声学条件下捕获的音频等多样化的音频文本语音生成任务方面仍存在局限性。本文介绍了SpeechX,这是一个多功能语音生成模型,能够进行零样...

用户分享观点: