AI音频技术在体育广播领域拥有巨大潜力/以及潜在风险
人工智能(AI)在专业音频领域的应用,既可能成为自切片面包以来最伟大的发明,也可能像当年的“千年虫”问题一样引发恐慌。甚至,它可能产生类似“奥本海默效应”的双刃剑效果:既可能拯救创造者,也可能毁灭他们,同时展现出既危险又诱人的一面。
AI 设计的专业音频应用产品已经产生了影响,例如 Respeecher 在电影和视频中用于自动对白替换(ADR)。在音乐、电视和现场活动制作中,AI 被用于自动混音,甚至直接创作音频。在这一过程中,它也威胁到了那些越来越多依赖它的“碳基创作者”的就业。
然而,AI 在音频应用中的全部潜力,包括在广播和体育直播制作中的应用,仍然充满不确定性。最近一篇关于 FOX 体育在超级碗制作中应用 AI 的文章,标题中高调提到了“AI”,但内容却只是模糊地提及了机器学习(被认为是 AI 的一个子集)在未来不确定的应用。AI 已经成为了一种“模因”,尽管是一个价值数十亿美元的模因。

SVG 采访了几位音频专家,评估 AI 在体育广播音频中的潜在影响。以下是他们的观点。
人类仍然不可或缺
Quintar 的 Tom Sahara 表示:“公司需要先进行投资,AI 才能持续产生实际效果。”

Tom Sahara 是 Quintar(一家空间体验开发公司)的生产技术高级副总裁,曾任 Turner Sports 的副总裁。他看到了 AI 在音频领域的双面性。其优势包括通过监控信号电平并以确定性和可预测的方式应用电平管理,减轻 A1(音频工程师)在比赛期间的注意力负担,或自动混音输入源以用于二级用途,如入耳式监听、翻译和替代语言。它甚至可以通过整合来自外部和非音频源的数据(如信号切换、路由器活动、录制设备状态和 GPS)来改进现有的自动混音流程。

此外,自动化的唇音同步和延迟调整可以按通道存储,并与时间、播放列表/剪辑 ID、物理位置(GPS)、路由器设置和其他元数据一起保存,从而无需重新编辑或构建独立的工作流程即可纠正同步错误的视频源。他还指出,支持 IP 的音频设备将加速 AI/ML(人工智能/机器学习)的发展,因为 A/D 转换成本高昂且不易集成到传统工作流程中。
然而,Sahara 也指出:“目前有许多管理、培训和支持需求尚未完全被理解,公司需要先进行投资,AI 才能持续产生实际效果。例如,根据个人需求训练基于 AI 的混音和控制代理可能既昂贵又耗时。我们将不得不观察类似 DeepSeek 的方法是否会影响这一点。此外,获取大量训练样本也很困难,可能会迅速超出预算和时间资源。”
更令人担忧的是,他补充道:“视频中的‘幻觉’(错误)很容易被发现,但音频更加微妙,验证过程更加复杂。人类仍然需要参与其中。”
Calrec 的美国运营副总裁 Chris Fichera 也看到了 AI 的双面性。他提到,AI 能够实时处理音频,管理解说员评论、观众噪音、效果和现场声音,并自动调整均衡器(EQ),基于实时数据创建沉浸式 3D 混音。但他也指出,在快节奏、不可预测的体育节目中,过度依赖自动化功能可能存在风险。
不过,他指出,这些功能可能有助于缓解体育广播领域经验丰富的 A1 逐渐流失的问题,因为退休人数增加,从业者群体逐渐老龄化。“这对于经验有限的 A1 来说非常有用,尤其是在进行广播节目制作时。”
乐观的看法
AudioShake 的 Suzanne Kirkland 表示:“AI 工具将增强人类专业知识,让音频专业人士能够专注于故事叙述和粉丝互动,而不是繁琐的清理工作。”

Suzanne Kirkland 是 AudioShake 的企业客户业务总监。她认为,在体育领域,AI 驱动的工具如音源分离、自动混音和语音克隆能够提高工作效率并解锁新的内容机会。
“音源分离是 AudioShake 的核心技术,它帮助联赛和广播公司应对体育直播音频的复杂性,”她说,“在体育直播中,观众噪音、解说和现场声音相互竞争。我们的对话隔离模型通过从嘈杂环境中隔离清晰的语音,提高了转录的准确性,从而更精确地捕捉重叠的球员、教练和解说员的对话。这使得广播公司能够突出最重要的内容,无论是场上的动作还是场边的动态。”

“音乐移除是另一个改变游戏规则的技术,帮助团队和广播公司避免法律和变现问题,”她继续说道,“通过去除受版权保护的音乐,同时保留语音和环境声音,我们的技术使内容能够更自由地在平台上共享,而无需担心下架或版权问题。”
然而,AI 并不是能够单独改变行业的“灵丹妙药”。她强调,AI 不会取代人类的专业知识:“AI 工具将增强它,让音频专业人士能够专注于故事叙述和粉丝互动,而不是繁琐的清理工作。AI 将帮助处理繁琐的工作,让那些了解粉丝及其喜好的人有机会专注于创造和利用精彩内容。”
AI 已经在发挥作用
Salsa Sound 的 Rob Oldfield 表示:“更先进、更高效的算法,加上硬件加速,意味着实时应用现在成为可能。”

Salsa Sound 的联合创始人兼首席执行官 Rob Oldfield 指出,自 2017 年以来,他的公司一直在使用深度学习技术开发现场比赛子混音器。他承认,近年来 AI 的炒作可能有些过头,尽管它在语音识别和降噪等领域已经取得了成功。
尽管如此,他补充道,一些重大进展使得算法的部署和开发变得更加容易,新的方法也扩展了在实时音频中可以实现的范畴。“历史上,AI 在音频中的应用主要局限于非实时/离线应用,”他解释道,“但更先进、更高效的算法,加上硬件加速,意味着实时应用现在成为可能。”

他提到,AI 处理可能带来的延迟问题,“一个很好的例子是自动字幕生成、翻译和语音替换,这些技术正在迅速为无障碍音频解决方案带来新的可能性,为观众提供多语言解说或音频描述频道,而这些在以前由于成本高昂和人力密集,难以大规模生产。”
Salsa Sound 目前的计划包括进一步开发自主混音/制作工具。这家总部位于英国的公司还正在推出一套自动化质量控制工具,利用机器学习监听特定音频故障的特征或问题。这包括风噪检测、相位异常、爆音/杂音和其他伪影,以及音质、语音清晰度和关键词/语言检测等功能。
“实时音频 AI 已经有很多可能性和实际应用,”他说,“但未来还会有更多。这是一个令人兴奋的时代。”
小心你的愿望
NBC体育和奥运会的Karl Malone:“我认为目前广播中的AI是‘自动化智能’,只要有人领导它,而不是将其用作‘设置并忘记’。”

与大多数工程同行一样,NBC体育和奥运会的高级音频工程总监Karl Malone从实用而非理论的角度看待AI,专注于现在和不久的将来该技术及其子集(如机器学习)能为广播体育带来什么,主要是以自动化流程的形式。然而,像任何曾经混音过节目的人一样,他对潜在的缺点持谨慎态度。
“我认为目前广播中的AI是‘自动化智能’而不是‘智能’,”他说,并引用了Lawo的KICK音频混音/球跟踪技术,该技术目前由德甲和FIFA用于足球比赛。“我支持将我们广播音频中的一些任务自动化,只要有人负责制作音频设计并领导它,而不是将其用作‘设置并忘记’,因为‘忘记’部分是我们可能遇到问题的地方。”

但自动化流程可以带来显著的好处。例如,他建议,它可以用于在嘈杂的体育场馆或官员的耳机中清理解说员麦克风通道。
“而且,当我们为观众提供更个性化的音频选项时,比如赛车运动,”他继续说,“我可以看到从A1控制台自动或智能混音音频干音到与内容匹配的演示中。例如,选择一个车内摄像头,听到该车的环境声音,加上驾驶员和机组人员的通信,加上或减去节目评论。所有这些源都可以使用保持每个演示在混音质量、LKFS等方面一致的参数进行智能混音。”
目前,Malone将AI视为A1和声音主管工具带中的另一个工具,尽管它比自动混音和动态噪声抑制更有能力。然而,未来可能更难预测,特别是当消费者对他们的广播音频有更多期望时,以及媒体公司寻找更好地吸引他们的方式时。
“最终,产品的人工智能性质将演变为能够一致地混音整个比赛场地,”他预测。“但是,随着更多内容需要通过直接面向消费者的模式播出,我们音频社区将不得不开始定义我们感兴趣的任何智能混音过程的参数,然后以视频为中心的行业公司开始发布所有新的闪亮AI音频混音工具。”
换句话说,他警告说,围绕AI和广播声音的炒作最终可能会损害它声称要增强的音频质量。