2024上半年AI音频发展大事记
AI音频技术在2024年上半年取得了显著进展。多模态预训练大模型的兴起极大地提高了人工智能的理解和应用能力,使得AI不仅能处理文本信息,还能理解和生成图像、视频以及音频内容。AIGC的技术进步为AI在音频领域的应用带来了更广泛的可能性,如音乐创作、音频恢复、语音生成、自动配音等。
因此,一个全新的公众号“AI音频时代 AI-Audio”即将和大家见面了,旨在满足公众对AI音频领域信息的需求。AI音频时代将及时发布最新技术进展、行业动态和趋势分析,邀请专家、学者谈论深度内容,提供实用指南和教程,并建立读者交流群,鼓励分享经验、提问和建议,共同营造良好的互动氛围。

AI音频技术专业领域的先行者,iZotope和Native Instruments宣布推出VEA(Voice Enhancement Assistant),这是一款面向各技能水平的播客和内容创作者的AI辅助人声增强插件。它共享iZotope著名的RX、Ozone和Nectar包中的音频增强技术,提供了一种简单直观的方式来处理背景噪音、提升人声清晰度,并确保整体信号水平保持一致。

2月16日,OpenAI发布文生视频大模型Sora,引起广泛关注。随后,AI语音技术公司ElevenLabs于2月19日展示了声音生成的新进展,尽管仍处于“文字生声音”阶段,但被视为AI生成的一大步。英伟达研究科学家Jim Fan分析了视频生成声音的方法,指出需学习视频到音频的映射,并考虑多个因素。ElevenLabs官网提供AI语音生成、克隆等功能,推出新“文字生声音”功能,并计划很快推出视频生音频功能,自此,声音制作翻天覆地的变化拉开了序幕。

Audacity作为最受欢迎的免费音频工作站应用之一,引入了由Intel的OpenVINO AI工具包支持的新插件套件。毫无疑问,这一更新意味着用户现在可以在Audacity内部利用人工智能技术进行音轨分离、音乐生成、配音转录等操作,且所有这些操作都是在用户的个人电脑上本地完成的。

Audiobox作为Meta的最新AI产品,由FAIR开发,能通过语音输入、文本提示或两者结合生成多种音频内容,为非专业声音制作人解决了创建音频的难题。

音频水印技术,用于在音频中嵌入元数据,已从传统方法发展到结合AI技术。传统方法包括超声水印、扩频水印和回声调制,各有利弊。视觉域音频水印是一种新方法,将数字数据隐藏于音频频谱图。谷歌等利用AI技术,在AI生成音乐中嵌入不可听水印,如SynthID工具,以增强对AI生成内容的信任。

Adobe 为Premiere Pro 正式推出一套新AI音频工具,使创意人员的编剪变得比以往更加轻松。声音部分包括直观的附加功能、交互式手动淡入淡出、AI人工智能驱动的音频降噪修复、音频标记和人工智能辅助声音平衡,可无缝创建沉浸式音频体验。

Pika,一家AI视频初创公司,应用ElevenLabs的TTS API技术,推出了AI口形同步功能,允许用户在视频中添加AI语音并匹配动画,确保说话角色的嘴部与对白同步。紧接着,Pika又推出了音效生成功能,用户只需简单操作即可为视频增加语音与音效,旨在通过音效增强视频,创造更完整、身临其境的场景。

AI音频技术的先行者,iZotope和Native Instruments宣布推出VEA(Voice Enhancement Assistant),这是一款面向各技能水平的播客和内容创作者的AI辅助人声增强插件。它共享iZotope著名的RX、Ozone和Nectar包中的音频增强技术,提供了一种简单直观的方式来处理背景噪音、提升人声清晰度,并确保整体信号水平保持一致。

AI音频技术的先行者,iZotope和Native Instruments宣布推出VEA(Voice Enhancement Assistant),这是一款面向各技能水平的播客和内容创作者的AI辅助人声增强插件。它共享iZotope著名的RX、Ozone和Nectar包中的音频增强技术,提供了一种简单直观的方式来处理背景噪音、提升人声清晰度,并确保整体信号水平保持一致。

研究人员调查了机器学习(ML)工具在识别人类语音中情绪的能力,发现某些模型能以与人类相当的准确度识别1.5秒短音频中的情绪,且不受语言、文化和语义影响。他们比较了DNN、CNN和C-DNN三种模型,发现DNN和C-DNN表现更佳。这表明可开发即时解读情感线索的系统,应用于治疗、人际交流等领域

OpenAI 在官方博客分享一个名为“Voice engine 语音引擎”模型的预览,该模型仅需使用单个 15 秒音频样本,然后通过文本输入来生成与原始说话者非常相似的自然语音,即,我们经常提到的“AI语音克隆”技术。

Klick实验室科学家受临床研究和科幻电影启发,创建了利用生命迹象如呼吸模式和微停顿的音频深度伪造检测方法。发表在“JMIR生物医学工程”上的研究显示,此方法结合声音生物标记物和机器学习,区分Deepfake和真实音频的准确率约为80%。虽为深度伪造问题提供了解决方案,但研究人员认为需不断发展检测技术。

Stable Audio 2.0是Stability AI发布的音频生成模型,允许用户上传无版权音频样本,并通过提示创建AI歌曲。与先前版本相比,2.0版提供三分钟完整音乐,并可通过网站和API免费使用。该模型能生成包含前奏、进行和结尾的完整歌曲,但初步测试显示与Suno AI相比仍有差距。Stable Audio 2.0基于AudioSparx数据训练,并与Audible Magic合作,利用内容识别技术防止版权受保护材料进入平台。

OpenAI首席执行官Sam Altman向好莱坞展示了公司的人工智能视频生成技术Sora,旨在探讨合作并减轻对AI损害电影业的担忧。好莱坞制片厂认识到Sora的潜力,但OpenAI并未要求正式协议,而是寻求合作。人们对Sora的影响有不同看法,该技术可能影响新的讲故事形式,但也存在风险。OpenAI试图将Sora塑造为与电影制作共存并增强的工具,引发了关于数字时代创造力和作者身份的重要问题。

NAB Show 2024第3日,后期制作AI化趋势显著。Blackmagic Design发布AI支持的Davinci Resolve 19,Fairlight推AI新功能和Ambisonic支持,Adobe展示AI支持的Premiere Pro。AVID展沉浸声制作,MPEG-H支持多种创作软件。音频后期硬件和插件展商也展出新产品。

在NAB 2024上,Adobe预览了Premiere Pro的生成式AI创新,将重新构想视频工作流程,提供新创意可能性。新工具可简化剪辑,包括添加或删除对象等。新工作流程由新视频模型支持,该模型加入Firefly系列。Adobe将继续开发Firefly AI模型,并在其产品中深度集成。

Blackmagic Design发布了DaVinci Resolve 19,新增AI工具,带来超100项功能升级,包括降噪、调色、电影风格FX等,支持音频调整、新格式,并新增云服务功能。公测版已可下载。

北京互联网法院对全国首例“AI声音侵权案”进行一审宣判,认定作为配音师的原告,其声音权益及于案涉AI声音,被告方使用原告声音、开发案涉AI文本转语音产品未获得合法授权,构成侵权,书面赔礼道歉,并赔偿原告各项损失25万元。

Sonauto.ai是一个创新的AI生成音乐平台,它采用扩散模型,建立在Melodia音乐基础模型之上。用户可以将文本、歌词或旋律转换为任何风格的完整歌曲,且品质达到广播级别。

随着AIGC人工智能生成内容的大发展,AI音频同样以可见的每月都在大变样的速度蜕变,而竞争最大最白热化的领域就是人工智能AI生成音乐,据不完全统计,包括AI直接生成,AI辅助人类生成等目前已经有几十个音乐生成工具。本次为大家精选了十款或许最佳的AI音乐生成工具。

人工智能创建的虚假和误导性内容已经迅速从理论威胁变成了令人震惊的现实。制作逼真的人物语音录音的技术正在不断改进,并已经通过简单的在线搜索广泛可得。

在最近的2024年I/O开发者大会上,谷歌推隆重推出了全新的Gemini 1.5 AI人工智能工具。同时,谷歌推出了一款名为“Music AI Sandbox”的新型音乐创作工具,这款工具可以利用AI人工智能来创建及生成音乐。

早在十年前,很多人就已经觉察到人工智能将是人类关键的未来科技,我们也不例外。2022年,当“电影声音研学中心(Film Sound Researching & Learning Centre)”创立之际,我们将“研究”列为发展方向之一,觉察到AI音频技术的无限潜力,并将其视为学术探索与实践创新研究的重要领域之一。彼时,这项前沿技术还如同晨曦微光,我们一直在追踪与应用着,其中,AI音干分离技术是我们一直关注的。

近年来,Sonarworks公司因其SoundID Reference音箱和耳机校准软件而闻名,该公司宣布发布了一款人工智能语音转换器插件。

该公司最新的人工智能音频分离技术开发现在已经以一个名为“Just Voice Recorder”的新应用程序的形式进行了功能的浓缩。这是一款由 AI 降噪技术提供支持的尖端移动录音应用程序,对于在现场录制采访、听写和录音非常有用,它是使用语音分离和增强使录音干净清晰。

爆火的AI人工智能文本生成语音开源模型 ChatTTS(Text To Speak)对很多人从GitHub下载源码再到电脑进行配置可能比较麻烦,现在官网ChatTTS.com上线了,完全免费使用。

ElevenLabs刚刚官宣公开了应用这种基于AI人工智能的工具,能够从基于文本的输入中生成“任何可以想象到的声音”。Sound Effects 托管在该公司的网站上,允许用户输入他们正在寻找的声音类型的描述,并快速生成可下载的音频文件。
这字节跳动又推出的一系列大规模自回归文本到语音(TTS)模型:Seed-TTS,能够生成与人类语音难以区分的AI语音。它在语音上下文学习、说话人相似度和自然度方面表现出色具有一定的专业水平,且通过微调还可进一步提升主观评分。

Stability AI推出了Stable Audio Open,这是一个开源模型,用于生成简短的音频样本、音效和制作素材。该模型擅长创建鼓点、乐器即兴、环境声音等,且在免版权声音素材数据上训练,尊重创作者权利。但目前它仅在非商业研究社区协议下提供,禁止商业使用生成的声音。

Suno是一款让任何人都能创作歌曲的产品,已吸引1200万用户。近期获得1.25亿美元投资后,宣布将在2024年余下时间内向创作者支付100万美元。Suno之夏活动第1期6月1日启动,前500首歌曲的创作者有机会分享100,000美元奖金。活动要求歌曲在6月1日至30日间公开创作,每位创作者限一首。奖金将通过PayPal发放给符合条件的创作者。

Adobe更改Creative Cloud服务条款,赋予广泛权限,引发违反保密协议和版权冲突的担忧。专业人士抗议,Adobe发表声明但未完全解决用户担忧,情况仍不明朗。

Meta开发了一个名为AudioSeal系统,可以在人工智能(AI)生成的音频片段中嵌入称为水印的隐藏信号,这有助于检测网上的AI生成内容。

全球超过五十家知名音乐公司、协会和机构已表示支持《AI音乐创作原则》宣言。该宣言由 Roland Corporation 和 Universal Music Group(UMG)于 2024 年 3 月推出,是一系列关于负责任使用 AI 进行音乐创作的澄清声明,旨在保护音乐的本质——其人文精神。

拥有能够为你创建视频的 AI 是一回事,但如果你希望它们还包含声音呢?Google 的 DeepMind 团队现在表示,他视频到音频V2A(Video to Audio V2A)技术,可以根据文本提示和视频像素生成音乐、音效和语音等音轨。系统还能够仅使用视频像素创建音频,因此如果不想使用文本提示也可以不需要。
以上就是这半年来AI音频技术的一些发展,以专业音频技术为主,喜欢别忘了转发。