一款新的(TTS) 模型支持高保真语音克隆

人类为什么需要语音克隆(或 AI 音乐生成) 是一个值得我们所有人思考的问题。但与人工智能相关的任何事情一样,研究的发展速度远远快于我们思考其后果的时间。Zonos 模型清楚地表明,知名的配音演员和播音员需要利用其独特的语音“模型”,而不仅仅是他们的作品。鉴于我们对媒体内容的依赖,深度伪造(deepfakes)问题将比想象的更加严重。
据 Zyphra 介绍,Zonos 提供了对语速、情感、音调和音频质量的灵活控制,并支持即时无限次的高质量语音克隆。Zonos 原生生成 44KHz 的语音,并且仅需 5 到 30 秒的语音样本即可克隆任何声音。Zonos 能够根据给定的说话者嵌入或音频前缀,从文本提示中生成高度表现力和自然的语音。Zonos 还可以根据语速、音高标准差、音频质量以及情感(如悲伤、恐惧、愤怒、快乐和惊讶)进行调节。

这些模型在大约 20 万小时的语音数据 上进行了训练,涵盖了中性语调的语音(如有声书朗读)和高度表现力的语音。大部分数据是英语,但也有大量的中文、日语、法语、西班牙语和德语数据,以提高其可用性。
该公司在其博客中表示:
“我们相信,公开发布这种水平的模型将显著推动 TTS 研究的发展。目前,Zonos 处于测试预览阶段。虽然 Zonos 具有高度表现力,但在生成过程中有时不可靠,可能会产生一些有趣的瑕疵。我们期待在未来几个月继续推动对话代理性能、可靠性和效率的前沿发展。”
“我们高度优化的推理引擎为 Zonos API 和测试平台提供支持,实现了令人印象深刻的首音频时间(TTFA)指标。混合模型展示了特别高效的性能特征,与基于 Transformer 的模型相比,延迟和内存开销更低,这得益于其基于 Mamba2 的架构,减少了对注意力块的依赖。”
“在未来的模型版本中,我们的目标是显著提高模型的可靠性、处理特定发音的能力、支持的语言数量,以及用户对情感和其他声音特征的控制水平。我们还将进一步追求架构创新,以提升模型质量和推理性能。”
目前,这些 Zonos 模型以 Apache 2.0 许可证发布,包括首个开源的 SSM 混合音频模型,使音频行业能够测试和尝试这一技术以及现已开放的模型 API。