数字抖动真的是一个问题吗?这篇文章全解释
什么是抖动?
抖动是一种类似噪声的伪影,由控制模拟和数字格式之间转换的主时钟中的轻微定时误差引起。抖动既发生在音频被捕获进模数转换器(ADC)的过程中,也发生在从数模转换器(DAC)输出的过程中。本文将主要关注DAC抖动,因为消费者及其设备无法控制已经记录下来的抖动。抖动以时间单位来指定,通常是纳秒(十亿分之一秒)。这定义了时钟信号可能提前或延迟切换的时间。图1显示了顶部是理想时钟的方波输出,下面是加入了一定量抖动后的输出。在第一个方块中,时钟的输出稍微延迟打开,然后比预期稍早关闭。这种类型的抖动称为随机抖动,因为定时偏差基于热噪声变化而或多或少是随机的。
图1:抖动导致时钟在错误的时间进行转换,从而在音频输出中产生噪声。
尽管抖动是一个时序问题,但它表现为调频(FM)边带——即添加到声音中的噪声状伪影。这就是为什么抖动通常以时间跨度而不是相移量或频率偏差来表示的原因。根据抖动的性质,这些边带可能与音频在谐波上相关或不相关,其频谱内容也可能不同。这两者都会影响抖动在播放音乐时的可听度,因为掩蔽效应的存在。与音乐源频率相似的噪声会比与音乐源频率相差较远的噪声更不易察觉。绝对音量或声压级(SPL)也会影响可听性:声音越响,我们就能更清楚地听到更多细节。在之前的“伪影可听性”文章中,提到现代数字设备中的抖动噪声通常低于CD的噪声底,即使是廉价的消费级设备也是如此。根据经验,这样的噪声通常过于微弱,难以察觉。
对于一定量的抖动,添加到音频中的噪声水平也会随着源频率的变化而变化。抖动对高频的影响更大,因为定时误差占总周期的比例更高。在1kHz时,1微秒的抖动是周期的0.1%,而在10kHz时则是1.0%。图2摘自John Watkinson的《数字音频艺术》(The Art of Digital Audio),展示了在不同频率下抖动噪声对信噪比(SNR)的影响,并以不同位深系统的理论噪声底作为参考。相比之下,即使是普通消费设备,抖动通常也低于0.5纳秒(ns),比音乐低100dB以上。在各种可听性测试中,除非抖动超过30ns,否则人们通常无法检测到抖动。
图2:采样时钟抖动对不同频率下信噪比(SNR)的影响,与不同分辨率系统的理论噪声底对比。(图片由John Watkinson的《数字音频艺术》提供)。
一种可能的例外是HDMI连接音频流中的抖动。2009年2月,英国杂志《Hi-Fi News》对四款热门接收器的抖动进行了测量。除了一个设备外,其余设备的HDMI输出相比SPDIF输出表现出明显更多的抖动。其中一款设备通过HDMI输出的抖动高达7.6纳秒,而通过SPDIF输出的抖动仅为183皮秒(ps),但即便如此,这似乎仍然低于可听性的水平。
抖动的成因是什么?
每个包含时钟的数字音频设备都从一个振荡器开始,该振荡器产生时钟频率。最好的振荡器使用一块夹在金属板之间的石英晶体,通过向金属板施加电流使其振荡。当不需要最高精度时,可以用陶瓷代替石英。这两种材料都具有非常窄的带宽(高Q值),这类似于音叉,因此它们以单一的稳定频率振动。石英晶体的共振频率会随环境温度变化,因此当需要最高精度时,振荡器电路板会被置于一个微型恒温箱中,其温度被严格控制在略高于环境温度。图3显示了一种晶体振荡器的电路图,其中晶体被放置在运算放大器的正反馈回路中,从而促进振荡。在每个周期,当运算放大器的输入达到特定“转换”电压时,其输出方向会发生反转。
图3:该振荡器将一个石英晶体置于运算放大器的正反馈环路中。
所有电子元件都存在一定量的热噪声,这是由分子随机运动引起的一种微小电压。例如,在室温下,一个10kΩ的电阻在10kHz带宽下会输出0.4µV(微伏)的有效值(RMS)。由于电阻设定了转换电压,其微小的热噪声随机变化可能会改变转换电压。电源中的噪声也可能进入振荡器电路。如果该噪声包含60Hz或50Hz的市电成分,那么由此产生的抖动可能会受到该频率的调制。
即使抖动太小以至于不会影响感知到的音频质量,它仍然可以被测量出来。2010年6月,英国《Sound On Sound》(SOS)杂志发表了一篇文章,详细介绍了对七款外部主时钟产品的测试,这些产品都声称其低抖动量比典型转换器和声卡内置的时钟能改善音频质量(见参考资料)。
在包含多个需要协同工作的数字设备的复杂音频系统中,如电影录音、广播电台和电视台,外部时钟非常有用。但是,当SOS技术编辑休·罗布约翰斯(Hugh Robjohns)比较了几个数模转换器的噪声和失真时,他发现它们在使用内部时钟时的表现都优于连接到外部时钟产品时。
他的结论是:“总体而言,从这些测试中应该清楚地看出,使用外部主时钟不能也不会提高数字音频系统的音质。”因此,虽然当多个设备必须同步到同一个字时钟时,外置时钟产品很有用,但在只有一个声卡或数模转换器的典型设置中,外部时钟并不会提高音频质量。
关于抖动可闻性的最重要观点或许可以总结自《The Audio Critic》杂志,其中模拟器件公司的数字音频专家罗伯特·W·亚当斯(Robert W. Adams)写道:“传统的总谐波失真加噪声(THD+N)与频率测试以及针对各种频率输入信号的快速傅里叶变换(FFT)频谱图,足以涵盖由抖动引起的效应。没有理由将抖动引起的失真分量与由其他效应(如数模非线性、运算放大器失真等)引起的失真分量区分开来。”
因此,显然没有理由相信抖动会影响低音的饱满度或立体声成像,这是人们常见的声称。饱满度是频率响应问题,很容易验证,而成像变化则需要更大的定时误差,并且这些误差在左右声道之间还要有所不同。
音频示例说明
在探索音频处理领域时,人为控制生成特定量的抖动是一项具有挑战性的任务。幸运的是,distortaudio.org提供了一个名为Distort的免费程序。该程序能够接受波形文件作为输入,并允许用户添加多种可控量的音频伪影,包括但不限于谐波失真、一种程序功能上的“添加抖动效果”(实则指特定的失真或变化)、噪声、哼声和嗡嗡声、降低位深度(即量化噪声),以及真正的抖动现象。
为了更直观地展示抖动在不同水平下的可闻性,创建了四组示例音乐文件,每组文件的抖动量均逐渐增加,以便进行对比。这些音乐示例主要选择了“柔和、开放听感”的制作,避免使用可能因过于密集而难以察觉到少量添加噪声或失真的大声压缩流行曲调。所有曲调均从原始CD中以全质量波形文件的形式提取。
在示例中,应用了相对较大的抖动量以使其效果更为明显。最小的抖动量设置为10纳秒,这大约是消费级音频设备的10-20倍。在10纳秒时,对于大多数人而言,可能无法听出与原始音源的区别,但听力更为敏锐的年轻听众或许能够察觉。随后,添加了10微秒的抖动(增加了1000倍),此时噪声电平上升到了大约-30dBFS。接着是100微秒,噪声进一步上升到了-15dBFS。在100微秒时,可以清晰地听到抖动伪影产生的“嚓嚓嚓”打击声,以及整体音质上的粗糙质感。
在处理这些音频文件之前,已将它们归一化到大约-4dBFS,以确保音频信号远低于任何数模转换器的削波电平。为了避免读者需要处理大量音频示例,已制作了一个五分钟的视频。该视频连续四次播放并标识每首曲调,每次播放时抖动量逐渐增加。此外,还从两首歌曲中提取了仅包含抖动的部分,以便听众能够单独听到抖动本身的声音。由于YouTube视频会对音频应用有损压缩,因此使用了CD质量的PCM编码,将此视频渲染为QuickTime和Windows视频格式,并托管在网站上以保持其完整的音频质量。
结论概述
假设已观看视频,可以认为最重要的发现是:即使抖动量是廉价音频设备的10倍,也不会对音乐造成损害。人们常说的“饱满度和宽度”并未受到抖动噪声的影响。即使抖动达到10微秒,这是一个相当大的量,使信噪比(SNR)仅限制为35dB,也可以体会到掩蔽效应的强大作用。与磁带嘶嘶声和黑胶唱片爆裂声不同,抖动噪声仅在音乐播放时存在,因此它总是被音乐所掩蔽,在歌曲之间几乎不可闻。
那么,为何许多人认为低音响应和成像会受到抖动的影响呢?通过房间声学方面的研究,可以认为梳状滤波这一声学现象是人们声称从各种设备(如电缆、电源调节器、隔离设备、低抖动外部时钟、超高采样率等)中听到许多差异的最合理解释。梳状滤波是一种频率响应错误,当扬声器发出的直接声音与房间内的反射声结合时就会发生。这会导致到达耳朵的频率响应发生变化,即使在非常小的距离内也是如此,人们听到的差异可能是真实的,但它并非由更换电线或添加特定设备所引起的。