一款新的（TTS）模型支持高保真语音克隆

总部位于加利福尼亚州帕洛阿尔托的公司 Zyphra 正在开发一种新型多模态人工智能代理系统，并宣布发布 Zonos-v0.1 beta，这是一对具有高保真语音克隆功能的极具表现力的文本转语音（TTS）模型。该公司以 Apache 2.0 许可证发布了基于 Transformer 和混合架构的 TTS 模型，这意味着这些模型可以自由地重新分发。

访问 Zyphra 网站，用户可以体验这两款新的文本转语音（TTS）模型，并测试其独特的高保真语音克隆功能，该功能可以将克隆的语音应用于朗读任何文本，并展现出卓越的表现力。网站还展示了 Zonos 在质量和表现力方面如何优于领先的 TTS 提供商。

人类为什么需要语音克隆（或 AI 音乐生成）是一个值得我们所有人思考的问题。但与人工智能相关的任何事情一样，研究的发展速度远远快于我们思考其后果的时间。Zonos 模型清楚地表明，知名的配音演员和播音员需要利用其独特的语音“模型”，而不仅仅是他们的作品。鉴于我们对媒体内容的依赖，深度伪造（deepfakes）问题将比想象的更加严重。

据 Zyphra 介绍，Zonos 提供了对语速、情感、音调和音频质量的灵活控制，并支持即时无限次的高质量语音克隆。Zonos 原生生成 44KHz 的语音，并且仅需 5 到 30 秒的语音样本即可克隆任何声音。Zonos 能够根据给定的说话者嵌入或音频前缀，从文本提示中生成高度表现力和自然的语音。Zonos 还可以根据语速、音高标准差、音频质量以及情感（如悲伤、恐惧、愤怒、快乐和惊讶）进行调节。

这些模型在大约 20 万小时的语音数据上进行了训练，涵盖了中性语调的语音（如有声书朗读）和高度表现力的语音。大部分数据是英语，但也有大量的中文、日语、法语、西班牙语和德语数据，以提高其可用性。

该公司在其博客中表示：

“我们相信，公开发布这种水平的模型将显著推动 TTS 研究的发展。目前，Zonos 处于测试预览阶段。虽然 Zonos 具有高度表现力，但在生成过程中有时不可靠，可能会产生一些有趣的瑕疵。我们期待在未来几个月继续推动对话代理性能、可靠性和效率的前沿发展。”

“我们高度优化的推理引擎为 Zonos API 和测试平台提供支持，实现了令人印象深刻的首音频时间（TTFA）指标。混合模型展示了特别高效的性能特征，与基于 Transformer 的模型相比，延迟和内存开销更低，这得益于其基于 Mamba2 的架构，减少了对注意力块的依赖。”

“在未来的模型版本中，我们的目标是显著提高模型的可靠性、处理特定发音的能力、支持的语言数量，以及用户对情感和其他声音特征的控制水平。我们还将进一步追求架构创新，以提升模型质量和推理性能。”

目前，这些 Zonos 模型以 Apache 2.0 许可证发布，包括首个开源的 SSM 混合音频模型，使音频行业能够测试和尝试这一技术以及现已开放的模型 API。

一款新的（TTS）模型支持高保真语音克隆 - 第3张

AI(146)TTS(4)语音克隆(3)

{{userData.name}}

一款新的（TTS）模型支持高保真语音克隆

Speechmatics 推出AI高级语音交互的 Flow API

SSG Audio 推出母带处理 AI 插件

Nvidia AI 发布 BigVGAN v2：最先进的神经声码器转换音频合成

FL Studio 2024 发布，添加 FL Cloud 插件、AI 等功能

Stable Audio Open:研究论文

Acon Digital Extract:Dialogue v1.5 发布

Sound Variety 推出免费 Windows Tube Compressor 插件 FeenstaubTC

Sound Magic 发布 GraphicQ 并附带免费立体声版本

免费插件-KazrogKClipZero

Reason Studios 重新发布 ReCycle 免费软件

LancasterAudio&AuroraDSP发布Pulse2免费IR加载插件

Fors 发布 Sala 免费混响效果插件

韩美合拍科幻大片《编号17》声音制作幕后

Sonbile 发布pure:bundle AI 驱动去嘶音插件

NEST Acoustics 发布 Delta 旁链饱和插件

APL Virtuoso Lite 简化版双耳监听软件发布

OM 奥林巴斯发布 LS-P5 数字录音笔

Google 新AI 技术根据视频像素和文本提示为视频创建声音

Pro Tools 安装与支持演示课程——总结

录音人不容错过的一个展就在就在十月上海（已结束）

周周片儿美剧《黑钱胜地》第捌拾叁期 Locationsound.cn

今年最值得期待的科幻片，你听闻过吗？（上）－混音师及声音监制访谈

SSG Audio 推出母带处理 AI 插件

免费雨声音效库，声音人的必备！

Pro Tools 2024.6更新！更强大更便捷

iZotope RX11正式发布！新功能一览中字视频

AI音乐音干分离工具大盘点系列四基于在线独家

Techivation 发布AI驱动的动态共振抑制器插件

DaVinci Resolve 达芬奇19的音频AI新功能

一文带你了解为什么雨声能助我们入眠

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频

{{userData.name}}

相关文章

Speechmatics 推出AI高级语音交互的 Flow API

SSG Audio 推出母带处理 AI 插件

Nvidia AI 发布 BigVGAN v2：最先进的神经声码器转换音频合成

FL Studio 2024 发布，添加 FL Cloud 插件、AI 等功能

Stable Audio Open:研究论文

Acon Digital Extract:Dialogue v1.5 发布

Sound Variety 推出免费 Windows Tube Compressor 插件 FeenstaubTC

Sound Magic 发布 GraphicQ 并附带免费立体声版本

免费插件-KazrogKClipZero

Reason Studios 重新发布 ReCycle 免费软件

LancasterAudio&AuroraDSP发布Pulse2免费IR加载插件

Fors 发布 Sala 免费混响效果插件

韩美合拍科幻大片《编号17》声音制作幕后

Sonbile 发布pure:bundle AI 驱动去嘶音插件

NEST Acoustics 发布 Delta 旁链饱和插件

APL Virtuoso Lite 简化版双耳监听软件发布

OM 奥林巴斯发布 LS-P5 数字录音笔

Google 新AI 技术根据视频像素和文本提示为视频创建声音

Pro Tools 安装与支持演示课程——总结

录音人不容错过的一个展就在就在十月上海（已结束）

周周片儿 美剧《黑钱胜地》 第捌拾叁期 Locationsound.cn

今年最值得期待的科幻片，你听闻过吗？（上）－混音师及声音监制访谈

SSG Audio 推出母带处理 AI 插件

免费雨声音效库，声音人的必备！

Pro Tools 2024.6更新！更强大更便捷

iZotope RX11正式发布！新功能一览 中字视频

AI音乐音干分离工具大盘点 系列四 基于在线 独家

Techivation 发布AI驱动的动态共振抑制器插件

DaVinci Resolve 达芬奇19的音频AI新功能

一文带你了解为什么雨声能助我们入眠

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频

周周片儿美剧《黑钱胜地》第捌拾叁期 Locationsound.cn

iZotope RX11正式发布！新功能一览中字视频

AI音乐音干分离工具大盘点系列四基于在线独家