AI耳机将听众置于“声泡”中
想象一下这样的场景:你在办公室工作,戴着降噪耳机以减少周围的嘈杂交谈声。这时,一位同事走到你的桌前询问问题,你无需摘下耳机说“什么?”,就能清楚地听到问题内容。与此同时,房间另一端饮水机旁的闲聊声依旧被静音。
或者想象一下,在繁忙的餐厅里,你能清晰地听到同桌每个人的声音,但餐厅里其他的声音和噪音都被降低了。
这种新的AI人工智能算法结合耳机原型,能让佩戴者只听到周围3至6英尺(约合0.9至1.8米)范围内的人说话。
在这个“声音泡泡”之外的声音,即使比泡泡内的声音更大,也会被平均降低49分贝(大约相当于真空状态与树叶沙沙声之间的差值)。
该概念验证设备的代码已公开,供其他人在此基础上进行开发。研究人员正在创建一家初创公司,以将这项技术商业化。
“人类并不擅长通过声音来感知距离,特别是在有多个声源的环境中,”该研究的主要作者、华盛顿大学保罗·G·艾伦计算机科学与工程学院教授西亚姆·戈拉克塔(Shyam Gollakota)表示。
“在嘈杂的餐厅等场所,我们专注于附近人的能力可能会受到限制,因此到目前为止,在可穿戴设备上创建声音泡泡一直无法实现。我们的AI系统能够实时学习房间内每个声源的距离,并在听力设备本身上进行处理,处理时间仅为8毫秒。”
研究人员使用市面上可买到的降噪耳机制作了原型,并在头带上安装了六个小麦克风。团队的神经网络——运行在耳机上附着的一个小型嵌入式计算机上——会追踪不同声音到达每个麦克风的时间。然后,系统会抑制来自泡泡外的声音,同时播放并略微放大泡泡内的声音(因为降噪耳机实际上会让一些声音透过)。
“我们之前曾研究过一个智能扬声器系统,其中我们将麦克风分散在桌子上,因为我们认为需要麦克风之间有较大的距离才能提取声音的距离信息,”戈拉克塔说。
“但后来我们开始质疑这个假设。创建这样的‘声音泡泡’真的需要那么大的间隔吗?我们在这里证明的是,我们不需要。我们仅使用耳机上的麦克风就做到了,而且是实时完成的,这相当令人惊讶。”
为了训练系统在不同环境中创建声音泡泡,研究人员需要在实际环境中收集基于距离的声音数据集,但这样的数据集之前并不存在。为了收集这样的数据集,他们将耳机戴在一个模特头上。一个机器人平台旋转头部,同时一个移动的扬声器播放来自不同距离的声音。团队使用模特系统以及22个不同的室内环境(包括办公室和生活空间)中的真人用户收集了数据。
研究人员确定了该系统之所以有效的原因。首先,佩戴者的头部会反射声音,这有助于神经网络区分来自不同距离的声音。其次,声音(如人声)包含多个频率,每个频率在从声源传播时都会经历不同的相位变化。
研究人员认为,团队的AI算法正在比较这些频率的每个相位,以确定任何声源(如说话的人)的距离。
像苹果的AirPods Pro 2这样的耳机可以放大佩戴者面前的人的声音,同时降低一些背景噪音。但这些功能是通过追踪头部位置并放大来自特定方向的声音来实现的,而不是通过测量距离。这意味着这些耳机无法同时放大多个说话者的声音,如果佩戴者转头离开目标说话者,功能就会失效,而且在说话者方向上的大声噪音降低效果也不佳。
该系统目前仅经过室内环境的训练,因为户外获取清晰的训练音频更加困难。接下来,团队正在努力让这项技术适用于助听器和降噪耳塞,这需要为麦克风的定位制定新的策略。
相关研究发表在《自然·电子》(Nature Electronics)上。其他合著者来自华盛顿大学、微软和AssemblyAI。
该研究得到了摩尔发明家奖学金(Moore Inventor Fellow award)、华盛顿大学CoMotion创新差距基金(UW CoMotion Innovation Gap Fund)和美国国家科学基金会(National Science Foundation)的资助。