2024上半年AI音频发展大事记

AI音频技术在2024年上半年取得了显著进展。多模态预训练大模型的兴起极大地提高了人工智能的理解和应用能力，使得AI不仅能处理文本信息，还能理解和生成图像、视频以及音频内容。AIGC的技术进步为AI在音频领域的应用带来了更广泛的可能性，如音乐创作、音频恢复、语音生成、自动配音等。

2024上半年AI音频发展大事记 - 第1张

因此，一个全新的公众号“AI音频时代 AI-Audio”即将和大家见面了，旨在满足公众对AI音频领域信息的需求。AI音频时代将及时发布最新技术进展、行业动态和趋势分析，邀请专家、学者谈论深度内容，提供实用指南和教程，并建立读者交流群，鼓励分享经验、提问和建议，共同营造良好的互动氛围。

1月

iZotope语音增强助手AI插件—VEA：消除噪音，提升语音清晰度

AI音频技术专业领域的先行者，iZotope和Native Instruments宣布推出VEA（Voice Enhancement Assistant），这是一款面向各技能水平的播客和内容创作者的AI辅助人声增强插件。它共享iZotope著名的RX、Ozone和Nectar包中的音频增强技术，提供了一种简单直观的方式来处理背景噪音、提升人声清晰度，并确保整体信号水平保持一致。

2月

AI视频生成声音，这么秒就来了！

2月16日，OpenAI发布文生视频大模型Sora，引起广泛关注。随后，AI语音技术公司ElevenLabs于2月19日展示了声音生成的新进展，尽管仍处于“文字生声音”阶段，但被视为AI生成的一大步。英伟达研究科学家Jim Fan分析了视频生成声音的方法，指出需学习视频到音频的映射，并考虑多个因素。ElevenLabs官网提供AI语音生成、克隆等功能，推出新“文字生声音”功能，并计划很快推出视频生音频功能，自此，声音制作翻天覆地的变化拉开了序幕。

Audacity增加Intel支持的免费的AI音频编辑及音乐生成、混音、分离等功能

Audacity作为最受欢迎的免费音频工作站应用之一，引入了由Intel的OpenVINO AI工具包支持的新插件套件。毫无疑问，这一更新意味着用户现在可以在Audacity内部利用人工智能技术进行音轨分离、音乐生成、配音转录等操作，且所有这些操作都是在用户的个人电脑上本地完成的。

3月

使用 Meta AI 的Audiobox 释放生成式声音的创作力量

Audiobox作为Meta的最新AI产品，由FAIR开发，能通过语音输入、文本提示或两者结合生成多种音频内容，为非专业声音制作人解决了创建音频的难题。

AI音频：传统音频水印技术与谷歌AI音频水印技术

音频水印技术，用于在音频中嵌入元数据，已从传统方法发展到结合AI技术。传统方法包括超声水印、扩频水印和回声调制，各有利弊。视觉域音频水印是一种新方法，将数字数据隐藏于音频频谱图。谷歌等利用AI技术，在AI生成音乐中嵌入不可听水印，如SynthID工具，以增强对AI生成内容的信任。

声音人工作减少 Adobe AI 音频工具改变游戏规则

Adobe 为Premiere Pro 正式推出一套新AI音频工具，使创意人员的编剪变得比以往更加轻松。声音部分包括直观的附加功能、交互式手动淡入淡出、AI人工智能驱动的音频降噪修复、音频标记和人工智能辅助声音平衡，可无缝创建沉浸式音频体验。

Pika的AI口形同步与音效生成开放

Pika，一家AI视频初创公司，应用ElevenLabs的TTS API技术，推出了AI口形同步功能，允许用户在视频中添加AI语音并匹配动画，确保说话角色的嘴部与对白同步。紧接着，Pika又推出了音效生成功能，用户只需简单操作即可为视频增加语音与音效，旨在通过音效增强视频，创造更完整、身临其境的场景。

Suno AI 声称其新的人工智能模型可以生成“广播级品质音乐”

AI音频技术的先行者，iZotope和Native Instruments宣布推出VEA（Voice Enhancement Assistant），这是一款面向各技能水平的播客和内容创作者的AI辅助人声增强插件。它共享iZotope著名的RX、Ozone和Nectar包中的音频增强技术，提供了一种简单直观的方式来处理背景噪音、提升人声清晰度，并确保整体信号水平保持一致。

Acoustica 发布 Mixcraft 10.5, AI 音干分轨分离功能

AI音频：机器学习工具可以在一秒钟内预测声音中的情绪

研究人员调查了机器学习（ML）工具在识别人类语音中情绪的能力，发现某些模型能以与人类相当的准确度识别1.5秒短音频中的情绪，且不受语言、文化和语义影响。他们比较了DNN、CNN和C-DNN三种模型，发现DNN和C-DNN表现更佳。这表明可开发即时解读情感线索的系统，应用于治疗、人际交流等领域

4月

OpenAI展示语音克隆新技术

OpenAI 在官方博客分享一个名为“Voice engine 语音引擎”模型的预览，该模型仅需使用单个 15 秒音频样本，然后通过文本输入来生成与原始说话者非常相似的自然语音，即，我们经常提到的“AI语音克隆”技术。

用AI来判断AI声音or真人声音

Klick实验室科学家受临床研究和科幻电影启发，创建了利用生命迹象如呼吸模式和微停顿的音频深度伪造检测方法。发表在“JMIR生物医学工程”上的研究显示，此方法结合声音生物标记物和机器学习，区分Deepfake和真实音频的准确率约为80%。虽为深度伪造问题提供了解决方案，但研究人员认为需不断发展检测技术。

更强的AI作曲，支持上传样本创作

Stable Audio 2.0是Stability AI发布的音频生成模型，允许用户上传无版权音频样本，并通过提示创建AI歌曲。与先前版本相比，2.0版提供三分钟完整音乐，并可通过网站和API免费使用。该模型能生成包含前奏、进行和结尾的完整歌曲，但初步测试显示与Suno AI相比仍有差距。Stable Audio 2.0基于AudioSparx数据训练，并与Audible Magic合作，利用内容识别技术防止版权受保护材料进入平台。

OpenAI试图向好莱坞证明 AIGC会增强传统电影制作

OpenAI首席执行官Sam Altman向好莱坞展示了公司的人工智能视频生成技术Sora，旨在探讨合作并减轻对AI损害电影业的担忧。好莱坞制片厂认识到Sora的潜力，但OpenAI并未要求正式协议，而是寻求合作。人们对Sora的影响有不同看法，该技术可能影响新的讲故事形式，但也存在风险。OpenAI试图将Sora塑造为与电影制作共存并增强的工具，引发了关于数字时代创造力和作者身份的重要问题。

NAB 2024第4天声音后期产品一览剪辑工作全面AI化

NAB Show 2024第3日，后期制作AI化趋势显著。Blackmagic Design发布AI支持的Davinci Resolve 19，Fairlight推AI新功能和Ambisonic支持，Adobe展示AI支持的Premiere Pro。AVID展沉浸声制作，MPEG-H支持多种创作软件。音频后期硬件和插件展商也展出新产品。

Adobe Premire Pro AI功能全面上线音频工作只需AI完成

在NAB 2024上，Adobe预览了Premiere Pro的生成式AI创新，将重新构想视频工作流程，提供新创意可能性。新工具可简化剪辑，包括添加或删除对象等。新工作流程由新视频模型支持，该模型加入Firefly系列。Adobe将继续开发Firefly AI模型，并在其产品中深度集成。

DaVinci Resolve 19 全面拥抱AI

Blackmagic Design发布了DaVinci Resolve 19，新增AI工具，带来超100项功能升级，包括降噪、调色、电影风格FX等，支持音频调整、新格式，并新增云服务功能。公测版已可下载。

全国首例 AI 声音侵权案一审宣判，原告配音师获赔 25 万元

北京互联网法院对全国首例“AI声音侵权案”进行一审宣判，认定作为配音师的原告，其声音权益及于案涉AI声音，被告方使用原告声音、开发案涉AI文本转语音产品未获得合法授权，构成侵权，书面赔礼道歉，并赔偿原告各项损失25万元。

Sonauto.ai 将想法和歌词变成歌曲

Sonauto.ai是一个创新的AI生成音乐平台，它采用扩散模型，建立在Melodia音乐基础模型之上。用户可以将文本、歌词或旋律转换为任何风格的完整歌曲，且品质达到广播级别。

5月

十个或许最佳的AI音乐生成工具

随着AIGC人工智能生成内容的大发展，AI音频同样以可见的每月都在大变样的速度蜕变，而竞争最大最白热化的领域就是人工智能AI生成音乐，据不完全统计，包括AI直接生成，AI辅助人类生成等目前已经有几十个音乐生成工具。本次为大家精选了十款或许最佳的AI音乐生成工具。

为什么AI生成的音频如此难以检测

人工智能创建的虚假和误导性内容已经迅速从理论威胁变成了令人震惊的现实。制作逼真的人物语音录音的技术正在不断改进，并已经通过简单的在线搜索广泛可得。

谷歌推出Music AI Sandbox

在最近的2024年I/O开发者大会上，谷歌推隆重推出了全新的Gemini 1.5 AI人工智能工具。同时，谷歌推出了一款名为“Music AI Sandbox”的新型音乐创作工具，这款工具可以利用AI人工智能来创建及生成音乐。

AI音乐音干分离工具大盘点系列文章

声音研学中心独家

早在十年前，很多人就已经觉察到人工智能将是人类关键的未来科技，我们也不例外。2022年，当“电影声音研学中心（Film Sound Researching & Learning Centre）”创立之际，我们将“研究”列为发展方向之一，觉察到AI音频技术的无限潜力，并将其视为学术探索与实践创新研究的重要领域之一。彼时，这项前沿技术还如同晨曦微光，我们一直在追踪与应用着，其中，AI音干分离技术是我们一直关注的。

Sonarworks SoundID推出VoiceAI

语音变声插件

近年来，Sonarworks公司因其SoundID Reference音箱和耳机校准软件而闻名，该公司宣布发布了一款人工智能语音转换器插件。

Gaudio Lab推出“Just Voice Recorder” AI人工智能录音应用程序

该公司最新的人工智能音频分离技术开发现在已经以一个名为“Just Voice Recorder”的新应用程序的形式进行了功能的浓缩。这是一款由 AI 降噪技术提供支持的尖端移动录音应用程序，对于在现场录制采访、听写和录音非常有用，它是使用语音分离和增强使录音干净清晰。

6月

ChatTTS：开源对话式高可控的语音合成模型

爆火的AI人工智能文本生成语音开源模型 ChatTTS（Text To Speak）对很多人从GitHub下载源码再到电脑进行配置可能比较麻烦，现在官网ChatTTS.com上线了，完全免费使用。

AI从文本提示生成任何可以想象的声音

ElevenLabs刚刚官宣公开了应用这种基于AI人工智能的工具，能够从基于文本的输入中生成“任何可以想象到的声音”。Sound Effects 托管在该公司的网站上，允许用户输入他们正在寻找的声音类型的描述，并快速生成可下载的音频文件。

‍字节文本生成语音TTS也来了，面向专业声音制作‍

2024上半年AI音频发展大事记 - 第29张

这字节跳动又推出的一系列大规模自回归文本到语音(TTS)模型：Seed-TTS，能够生成与人类语音难以区分的AI语音。它在语音上下文学习、说话人相似度和自然度方面表现出色具有一定的专业水平，且通过微调还可进一步提升主观评分。

又一个“文生音频”AI发布！开源免费无版权争议

Stability AI推出了Stable Audio Open，这是一个开源模型，用于生成简短的音频样本、音效和制作素材。该模型擅长创建鼓点、乐器即兴、环境声音等，且在免版权声音素材数据上训练，尊重创作者权利。但目前它仅在非商业研究社区协议下提供，禁止商业使用生成的声音。

Suno向AI创作者支付 100 万美元奖金，但不包括中国地区

Suno是一款让任何人都能创作歌曲的产品，已吸引1200万用户。近期获得1.25亿美元投资后，宣布将在2024年余下时间内向创作者支付100万美元。Suno之夏活动第1期6月1日启动，前500首歌曲的创作者有机会分享100,000美元奖金。活动要求歌曲在6月1日至30日间公开创作，每位创作者限一首。奖金将通过PayPal发放给符合条件的创作者。

Adobe涉及AI的新条款和条件引起争议有人已经删除PR AU等！

Adobe更改Creative Cloud服务条款，赋予广泛权限，引发违反保密协议和版权冲突的担忧。专业人士抗议，Adobe发表声明但未完全解决用户担忧，情况仍不明朗。

Meta创造了一种为AI生成语音添加水印的方法

Meta开发了一个名为AudioSeal系统，可以在人工智能（AI）生成的音频片段中嵌入称为水印的隐藏信号，这有助于检测网上的AI生成内容。

面对生成式AI人工智能技术的风险，音乐行业联合起来

全球超过五十家知名音乐公司、协会和机构已表示支持《AI音乐创作原则》宣言。该宣言由 Roland Corporation 和 Universal Music Group（UMG）于 2024 年 3 月推出，是一系列关于负责任使用 AI 进行音乐创作的澄清声明，旨在保护音乐的本质——其人文精神。

Google 新AI 技术根据视频像素和文本提示为视频创建声音

拥有能够为你创建视频的 AI 是一回事，但如果你希望它们还包含声音呢？Google 的 DeepMind 团队现在表示，他视频到音频V2A（Video to Audio V2A）技术，可以根据文本提示和视频像素生成音乐、音效和语音等音轨。系统还能够仅使用视频像素创建音频，因此如果不想使用文本提示也可以不需要。

以上就是这半年来AI音频技术的一些发展，以专业音频技术为主，喜欢别忘了转发。

2024上半年AI音频发展大事记 - 第36张

AI，音频(2)

{{userData.name}}

2024上半年AI音频发展大事记

为什么AI生成的音频如此难以检测

免费 – Tritik Timee 延迟插件

Kilohearts推出免费的去削波Clipper插件

Sound Variety 推出免费 Windows Tube Compressor 插件 FeenstaubTC

Sound Magic 发布 GraphicQ 并附带免费立体声版本

免费插件-KazrogKClipZero

Reason Studios 重新发布 ReCycle 免费软件

LancasterAudio&AuroraDSP发布Pulse2免费IR加载插件

Fors 发布 Sala 免费混响效果插件

韩美合拍科幻大片《编号17》声音制作幕后

Sonbile 发布pure:bundle AI 驱动去嘶音插件

免费的Soundly Place It，好用极了！

周周片儿第贰拾玖期 Locationsound.cn

艾美提名-《真探》中寂静紧张的声音是如何产生的？（上）

Merging Technologies为Anubis推出Venue Mission软件

怀念吴昊老师-天堂里的音画都美好

IDF2023西湖国际纪录片大会圆满闭幕电影声音研学中心赞助获奖声音制作

SSG Audio 推出母带处理 AI 插件

Pro Tools 2024.6更新！更强大更便捷

iZotope RX11正式发布！新功能一览中字视频

AI音乐音干分离工具大盘点系列四基于在线独家

Techivation 发布AI驱动的动态共振抑制器插件

记住这些Pro Tools Zoom缩放技巧及快捷方式，成为音编快手

免费雷雨生成器，真香！

常见Pro Tools 错误代码含义及修复（1）

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频