洗洗睡吗? MMAudio模型 给定视频/文本 AI生成同步音频
大概这一两个月时间没介绍太多的AI音频模型,不是没有,而是出的有些多(我们也在准备一个TTS年度的总结),虽然后生多少有一些突破,但并没有那种让人惊叹的爆炸功能。

不过,上周末刚发布的这个MMAudio让我们又震惊了一下,抓紧给大家推荐展示,先上视频。下面这个视频中一共10个小片段,视频都是用Sora等AI生成视频工具生成的,AI通过视频生成的声音已经到了一个不错的水平。MMAudio网站链接:mmaudio.net
第一个视频,一匹马跑在草原山,马蹄声基本都对上了,但有点略显单一,声音与画面景别关系有点不够客观;第二个是一个电脑人打字,可以看到键盘声很是精准,至少这里完全可以取代拟音师了;第三个外星人走在繁华的街头,竟然在不同的景别有远近声音关系,厉害了;第四个,从水中出来一条有翅膀的白蛇,AI添加了水面以及类似动物的叫声,不过白蛇出水面以及在水面滑行的声音略欠缺;第五个美丽的退潮海滩,有些海鸥飞在空中,这个声音很准确,海浪和海鸟都不错;第六个,爆风雨交加电闪雷鸣的大海乌云里出来的人脸,基本元素都有,也对上点了,但整体效果偏模糊不够强烈。
或许有人说了,AI生成视频没有现实世界那么复杂,那再看下面这个视频,由4个实拍视频生成的声音。
现实的声音我们就要求更高一些,第一个凿冰块的视频,声音现场感强,但第一下手放在冰块上的声音虽然生成出来了但并不太好,与凿冰声音相似;第二个砍树的视频,砍树声音比较精准,甚至还有树枝折断的声音,可惜AI没有看到脚步移动踩在树叶上的声音;第三个滑板的视频有些让我们惊讶,各种不同的动作声的滑板动作都比较精确,且模仿出室内滑板的空间混响,如果不告诉你这是AI生成的,真的很难猜出。第四个火车从站台飞驰而过,这个声音的难点在于最后镜头跟着火车的远去摇到另一侧,而AI生成虽然不够完美,基本可以感受到镜头的变化和火车的远去,如果不是同期录音,用素材来做达到这样的效果恐怕也要花些时间的。
所以并不存在从AI生成的视频还是现实的视频问题,同样就像今年推出的这些TTS模型一样,MMAuido还只是初代产品,所以剩下传统影视声音制作的大部分工作,用手指头就能数出来了。
可能还有小伙伴说,这都是官方的样例,没有说服力,所以我们也用MMAudio生成了几个视频,给大家展示一下。
同期录音网LS一个女孩的脚特写从镜头左侧入画走远的镜头,运动鞋识别的比较准确,准确度略差,从近到远感也有,令人出乎意料的是,AI竟然将画外的声音都给加进来了,而且从左进画显然会踩到树叶多的路面,不同路面脚步的变化AI都做出来了。
令我们有些的难以置信的是这段古琴弹奏老视频(由49老师提供)。音频完全由MMAudio生成,不仅手指动作都对的准确,音乐本身也比较流畅好听!这样的配音即使换在当下也是非常麻烦且金钱与时间成本都很高,AI几秒就解决了!,时长00:49
看到古琴演奏我们觉得大大低估了MMAudio的实力,所以又找来大师现场交响乐队配乐的演出,最著名的这首New Hope,生成出来的有点让人哭笑不得,虽然也有按照镜头不同乐器的展现。
从整体的结果来看,MMAudio作为短视频应用还是非常不错的,一些声音达到电影制作级别,有的可以做为一些背景应用,有些声音不够精准和丰富。更多AI视频生成音频的演示我们放在文章最后。
我们总结MMAudio的优势在于:
- 多模态,包含各类音效与环境的生成;
- 极快秒生,传统一个镜头或几个镜头长度的音频,只需几秒就可生成,即使最好的音效编辑,至少也要几分钟至几十分钟才能完成;
- 视频画面信息越单一越精准,比如键盘打字、脚步这样的音效,比声音编辑做的结果还是要更精准的,有些已经完全可以取代专业声音人;
- 生成的声音有一定的逻辑,比如镜头关系,声源关系,动作关系,并不是简单排列,但这一点对AI可能还是较难,还有继续进一步学习和改进的余地;
- 有空间音频的展现,这一点官方并没有提出来;
- 另外MMAudio还可以文字提示,我们发现如果上传视频后,在用文字定义提示词会更准确,并对生成内容进行修改调整,得到更佳的结果。
下面就看看MMAudio的介绍:
革命性的人工智能驱动视频转音频生成
MMAudio AI 将静音视频转换为沉浸式体验,透过智能音频合成。先进AI 技术分析视频内容并生成完美匹配的音频,在几分钟内创建专业的声音轨道。
MMAudio AI 的进阶功能
尖端AI技术带来的视频音频生成未来。
智能环境声音合成
人工智慧技术分析场景上下文,以生成适当的环境声音,创造出丰富、沉浸式的音频环境,增强视频内容。
AI 驱动的音频自定义
使用AI 驱动控制微调生成的音频。调整音量、修改效果,并个性化音频输出以符合创意愿景。
电影与视频制作
透过与每个场景完美匹配的AI 生成音频来提升制作,MMAudio AI 理解电影语境并生成适当的声音环境。
多模态人工智慧分析
MMAudio AI 同时处理视觉线索、动作和上下文,以创造完美同步的音频,增强故事。
高保真AI 音频生成
MMAudio 的先进AI 演算法产生的音频质量达到录音室级别,完美匹配视频内容,MMAudio 技术确保精确同步和自然的声音过渡。
闪电般快速的人工智慧处理
以分钟或秒级使用AI生成的音频转换视频,而不是几小时。MMAudio强大的AI引擎快速处理内容,同时保持卓越的质量。
MMAudio AI 应用程式
探索人工智慧音频生成如何改变各行各业
教育内容
使用AI 生成的音效和环境声音创建引人入胜的学习材料。MMAudio AI 通过丰富的音频体验帮助维持学生的参与感。
电影与视频制作
透过与每个场景完美匹配的AI生成音频来提升您的制作。MMAudio AI 理解电影语境并生成适当的声音环境。
游戏开发
使用MMAudio AI 生成动态游戏音效。平台为沉浸式游戏体验创造响应式音效和环境音频。
历史电影增强
利用MMAudio AI的上下文适当音效生成技术,为档案影片注入新活力。MMAudio技术分析视觉元素,以创造历史准确的音频。
社交媒体内容
使用AI 生成的音频增强社交媒体视频,吸引注意力并促进互动。非常适合创作者和行销人员。
讲故事
为影片生成AI 驱动的音频,增强故事讲述和情感深度。平台创造出与观众产生共鸣的沉浸式音频体验。
有关MMAudio AI 的常见问题解答
Q
MMAudio AI 如何为视频生成音频?
MMAudio AI 使用先进的机器学习算法来分析视频内容并生成适当的音频。人工智能系统理解视觉上下文、动作和场景元素,以创造完美匹配的音效和环境音频。
Q
MMAudio AI 与其他音频生成工具有何不同?
MMAudio AI 以其先进的上下文理解、实时处理能力和高品质输出而脱颖而出,提供比传统AI解决方案更自然、更准确的音频生成。
Q
MMAudio AI能处理不同类型和长度的视频吗?
是的!AI系统设计可以处理任何视频格式和长度。无论在处理短片还是长篇内容,MMAudio AI都能提供一致且高品质的结果。
Q
MMAudio AI 的音频同步准确度有多高?
MMAudio AI 透过先进的人工智能算法,逐帧分析内容和时间关系,实现卓越的同步精度。
Q
MMAudio AI 提供哪些自订选项?
MMAudio平台提供广泛的人工智慧驱动自订选项,包括音频风格选择、音量控制、效果强度调整和环境声音混音。
可以宣布:第一款到达商业应用级别的多模态AI音频生成项目正式出现在人类世界了!看了MMAudio的声音人们,你认为呢?欢迎转给更多身边的人一起来讨论!
请在手机微信登录投票
作为声音人对多模态AI音频模型的看法 单选
真的是洗洗睡了!
不管怎样,自己先用起来
AI永远不行,不可能替代人类
穷则思变,完善自己,学习到更高的层次
访问FilmSound.cn或点击阅读原文,无需登陆即可得到MMAudio链接地址。
这段用腾讯视频生成工具生成的“一只恐龙漫步在小河里”,画面就很塑料感,用MMAudio生成的音频也并不是很理想,恐龙脚步声体现的不好。
舞狮子的镜头,MMAudio自动识别到画面,配了舞狮的鼓点和音乐,不过仔细一听AI生成的声音还是很AI感。