Audio ABC | CD为何是44.1KHz采样率?

2020-07-06 14:53:30 浏览数 (2)

旧文排版重发,略作修改。

小朋友英语学习的培训教材中附送了一张音频CD,作者在鼓捣这张CD的时候,忽然一个问题冒了出来:为什么CD采用了44.1KHz的采样率?为什么不是48KHz?毕竟48这个数字看起来整齐的多。为此作者做了一番搜索和研究,分享给感兴趣的朋友。

声音的基本概念

首先介绍一些常见的音频概念。大家知道人耳能听到声音,是因为声音在音源处产生后,对空气产生了一系列忽强忽弱的压力,这种压力的变化(振动)可以被人耳内部的耳膜感受到,然后经由各种神经细胞,汇总到大脑中形成声音的感觉。

有时候这种压力比想象的要大的多,它不仅可以驱动薄薄的耳膜,当强度足够大时,甚至可以吹动人的头发和衣服。参加过室外音乐节的朋友,如果碰巧在现场比较靠近喇叭的地方,应该有切身的体会。人耳能听到的这种压力振动的范围大概在20Hz到20KHz,Hz即赫兹,即每秒钟振动发生的次数。

除了耳道,身体的其它一些部分也可以感受到声音的振动,例如骨传导耳机就是绕过了耳膜,利用头部骨骼来传递声音的振动。

(骨传导原理。图片来自网络)

音频信号的采样

因为声音本质上是一个连续的模拟信号,当声音被记录下来,尤其是数字化记录时,就涉及到采样率和采样精度这两个概念。工科的朋友们可能对奈奎斯特采样定理比较熟悉,就是对声音信号做采样时,采样频率一定要大于声音信号最高频率的两倍。一个通用的声音记录系统,当然需要应对声音的大范围频率,即20KHz声音需要的采样频率至少是40KHz,考虑到后续的各种传输、处理过程带来的损失,采样频率一般会高于40KHz。

(数字化的440Hz正弦波,采样频率8KHz,采样精度8bit)

采样频率

常用的采样频率大概分三个系列,分别以8KHz、12KHz、11.025KHz为基准。由此衍生出来的采样频率就有三个系列。

•8K、16K、32K、64K、128K•12K、24K、48K、96K、192K•11.025K、22.05K、44.1K、88.2K

采样精度

如果说采样频率对应的是时间维度上对于声音的采样,那么采样精度就是对应的幅度维度。它把采样系统所支持的幅度范围分成若干间隔,然后用一个数字来代表每一个间隔对应的幅度值。当某一个时刻的声音幅度落在某个间隔时,就用这一间隔的数字来代表这个声音在这个时刻的幅度。

采样精度,通常有8bit、16bit、24bit、32bit这几种。

音频通道

还有一个概念就是声音通道数量,常见的就是两个声道,一左一右。家庭影院声道数量更丰富一些,一般不大于十个。在电影院中,通常会更多,有几十个声道。所以在电影院中声音复现的更为真实,配合电影画面使得观众有身临其境的感觉。每个声道一般都对应录制时的一个麦克风,当然有些声道也可以后期合成。

音频编码

采样完成后,通常还有个编码的过程。最直观的编码就是PCM格式了,它是一种有正有负的数字表示方式,以衡量特定时刻的声音幅度。正、负其实是相对的概念,都是相对于数字零所对应的幅度而言。

音频存储

上面是声音数字化记录的一些参数,那么这些数字化的记录如何存放?数字记录生成的文件有好多种,在Windows平台,最直观就是wav文件了。相比大家熟悉的MP3格式文件,wav直接保存的就是PCM编码的声音幅度信息,而采样频率、采样精度以及声音通道数目,就在wav文件头中标明。这样当一个播放器播放wav文件的时候,它首先读取文件头,了解这个声音的采样率、采样精度、声道数目,就可以恢复出正确的声音了。

为什么是44.1KHz

日常生活中大家都接触过CD,记得在2000年前后,当时MP3还未普及,大家听音乐、歌曲还是主要靠购买CD。CD一般来说是Compact Disc Digital Audio的简称,翻译成中文大概是紧凑型数字音频盘的意思。最初由飞利浦和索尼在上个世纪80年代初以红书(Red Book)的形式联合发布,在1987年被标准化组织IEC接纳为正式标准,编号为IEC 60908。这个标准最近一次修订是在1999年。飞利浦和索尼出版了一系列以颜色命名的标准,全部都是关于Compact Disc的,红书(Red Book)就是其中描述数字音频CD的一本。

(CD Logo、CD盘面、早期的CD唱机、放大的CD表面纹路)

IEC 60908整个标准还是挺繁杂的,我们只关注其中的编码部分。简单来说,存放于CD中的音频编码标准就是声音通道数为2、采样精度16bit、编码格式为线性PCM、采样率固定是44.1KHz

(适用于CD的音频标准IEC60908)

原因一:PCM Adaptor和视频制式

在红书(Red Book)发布之前的1970年代,还存在着一种录音设备叫做PCM适配器。顾名思义,它把模拟的音频信号转换成数字的PCM编码,并提供录制到视频存储设备上的接口。

为什么音频和视频搅和在一起?因为当时已有的音频存储设备带宽不够大,不足以提供16位的PCM数字音频的存取带宽,这个带宽大概在1M~1.5M bit/s,这在当时是一个相当“高”的带宽,只有视频存储设备才有如此高的存取能力。PCM适配器把音频数据按特定的视频格式打包,从而可以借助于已有的“高带宽”视频存储设备实现音频数据的存取。

(Sony PCM-F1:PCM Adaptor)

好吧,回忆一下文章开头的问题:为什么CD的采样率是44.1KHz

到这里,已经非常接近问题的答案了。那就是——

任何新事物都要尊重传统的力量。

具体到这个问题,就是音频CD的采样率沿用了PCM适配器的采样率,而PCM适配器的采样率还要能够兼容视频存储设备的特定要求,以便利用当时已有的视频存取设备来存取其中的音频数据。

当时大量存在的视频存储设备主要支持两种视频制式,一种是25帧制式(称为CCIR 625/50,也叫PAL),一种是30帧制式(称为EIAN 525/60,也叫NTSC)。当时世界上有电视普及的国家按这两种制式分为两个阵营。

首先看30帧(即60场)制式,这种制式的一帧中,可利用来录制音频的视频行最多能有490行,分到每一场(Field)就有245行。在每一视频行可以平均存储3个音频采样点,那么音频出现的频率就是60*245*3 = 44100。这就是44.1KHz采样率的由来的原因之一。

同样在25帧(即50场)制式中,最大可利用的行数是588行,分到每一场有294行,同样每一行存放3个音频采样点,那么音频采样率就是50*294*3 = 44100

这样44.1KHz的音频采样率可以保证对两种视频制式的最大限度兼容。

原因二:Prime Numbers

还有一种解释说明采用44100Hz的原因是,44100可以分解成2、3、5、7四个最小连续质数的平方的乘积。听起来有些神秘主义的倾向,作者推测这些质数因子有助于系统实现时的频率合成。

(神秘数字44100可分解为质数平方积)

原因三:Symphony No. 9 (Beethoven)

还有一种更为传奇的说法,就是最初的CD设计团队发现,如果用48KHz的采样率的话,一张CD放不下74分钟版的贝多芬第九交响曲。而采用稍小的44.1KHz,则刚好可以放下。作者感觉这种说法有点儿太传奇太浪漫了,信不信由您。

(贝多芬第九交响曲手稿)

好了,看到这里,想必您对CD为何采用44.1KHz的音频采样率已经有了一些了解。可以看出,任何一项新技术的发明和发展,都离不开对已有技术的依赖、消化和继承。任何创新都不是凭空从头脑中诞生的,而是一步一步脚踏实地的走出来的。这是作者在这个问题的探索中获得的一点点感悟,与诸君分享。

0 人点赞