Resemble AI新一代AI音频检测模型Detect-2B准确率达94%

声音克隆公司Resemble AI发布了其下一代深度伪造检测模型,准确率约为94%。
Detect-2B使用一系列预训练的子模型和微调来检查音频片段,并确定其是否由人工智能生成。
利用生成式AI的力量:
AI如何改变工作及其他领域
“Detect-2B在我们原始Detect模型的坚实基础上进行了构建,在模型架构、训练数据和整体性能方面都实现了重大飞跃。其结果是一个极其强大且准确的深度伪造检测模型,在针对大量真实和伪造音频片段的数据集进行评估时,表现出了非凡的性能水平,”该公司在一篇博客文章中表示。
据Resemble称,Detect-2B的子模型“由一个带有自适应模块的冻结音频表示模型组成,该自适应模块被插入到其关键层中。”自适应模块将模型的焦点转向伪影——或录音中留下的偶然声音——这通常可以区分真实音频和伪造音频。大多数AI生成的音频片段听起来可能“过于干净”。Detect-2B可以在每次监听新片段时无需重新训练模型的情况下,预测音频中有多少是由AI制作的。这些子模型也在大型数据集上进行了训练。
Detect-2B会汇总其预测分数,并将这些分数与“经过精心调整的阈值”进行比较,然后再确定录音是真实的还是伪造的。Resemble表示,其研究人员构建Detect-2B的方式使其训练速度很快,并且部署时不需要太多的计算能力。
随机架构让音频信号处理更加轻松
该模型的架构基于Mamba-SSM或状态空间模型,它不依赖于静态数据或重复模式。相反,它使用随机概率模型,对不同变量的响应更好。Resemble表示,这种架构非常适合音频检测,因为它可以捕捉音频片段中的不同动态,适应音频信号的不同状态,并且即使录音质量较差也能继续发挥作用。
为了评估该模型,Resemble表示,他们对Detect-2B进行了一系列测试,包括未见过的说话者、深度伪造生成的音频和不同的语言。该公司表示,该模型在六种不同语言的深度伪造音频检测中,准确率至少达到了93%。

Detect-2B在六种语言的深度伪造音频预测中得分很高。来源:Resemble AI
Resemble于4月推出了其AI语音平台Rapid Voice Cloning。Detect-2B将通过API提供,并可以集成到不同的应用程序中。
深度伪造识别愈发重要
随着2024年美国总统大选的临近,识别由人工智能生成的语音或视频变得愈发重要。人工智能语音可能会让误导选民和传播错误信息变得更加容易。无论是对政治家声音的伪造、假扮歌曲中的名人,还是仅仅使用人工智能进行某种说明,人们对人工智能深度伪造的担忧已经侵蚀了对品牌的信任。
像Detect-2B这样的工具可以在深度伪造内容流向公众之前帮助识别和证明其真实性,从而发挥巨大作用。当然,Resemble并不是唯一一家致力于检测人工智能克隆的公司。McAfee于1月推出了Project Mockingbird项目来检测人工智能音频。而Meta则正在开发一种方法,为人工智能生成的音频添加水印。
“但我们的工作远未结束。随着生成式人工智能能力的不断进步,我们的检测能力也必须随之提升。我们正计划开展几个激动人心的研究方向,以进一步改进DETECT-2B,专注于表征学习、高级模型架构和数据扩展等领域,”Resemble表示。