Linux音频驱动-声音采集过程

2020-03-24 17:21:24 浏览数 (2)

现实中的声音是一段连续的信号, 现在大部分的声音是以离散的数字信号保存下来,例如CD、MP3音频格式。 在保存这些信息时,考虑到对声音质量和存储的效率, 需要对声音的几个重要的基本属性进行研究。

对于人类而言,声音是通过物体震动而产生的声波,通过介质传播而能够被人耳感知到的波动现象。能够被人耳朵感知到的波动频率在20到20KHz之间, 高于这个范围称为“超声波”,低于此范围称为“次声波”。

一些动物感知波动的频率:

    • 蝙蝠:1000~120000Hz
    • 海豚:2000~100000Hz
    • 貓:60~65000Hz
    • 狗:15~50000Hz
    • 人:20~20000Hz

声波强度用分贝来表示, 它和声波在单位时间内对垂直于传播方向的单位面积产生的能量(声强)的对数成正比。 波的振幅越大, 能量越大, 声强也就越大。但这并不意味人能感觉的响度就越大!

声波响度,一定强度的声波作用于人耳所引起的辨别声音的感觉成为响度。 响度是主观的,它不仅取决于声音的客观物理强度, 还取决于声音的频率。 在强度相同时,1000Hz~4000Hz的声音人耳听起来最响。 在此范围之外, 随着频率的升高或降低, 响度越来越弱。 当降至20Hz一下或者升高到20KHz人耳就很难听到了。

音调是对声波频率的主观反映,一般频率越高音调越高。 声波的强度对音调稍有影响, 当频率一定时,声随着强增大,低频音调显得更低,高频音调显得更高。

听阀表示听力的好坏, 听阀越高说明需要更高的声强才能让耳朵感受到声音, 听力越差, 反之听力越好。辨别阀用来表示听觉器官辨别声音某种特性最小差异的能力

声音的采集是在一段连续的信号中, 采取离散的信号, 采集密度用采样率来表示。香浓采样定理表明,采样频率必须大于被采样信号带宽的两倍。 如果信号的带宽是100Hz, 那么为了避免混叠采样率必须大于200Hz,否则不能从采样信号中回复原始信号。 如果采样频率远远高于2倍信号带宽,可以帮助避免混叠、改善分辨率以及降低噪声。 在数字领域中,经常采用的采样率:

    • 8,000 Hz - 电话所用采样率, 对于人的说话已经足够
    • 11,025 Hz
    • 22,050 Hz - 无线电广播所用采样率
    • 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
    • 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率
    • 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率
    • 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
    • 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率
    • 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率
    • 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc(藍光碟)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率
    • 2.8224 MHz - SACD、 索尼 和 飞利浦 联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。

如果采样率越高,单位信号的采集的样本信号就越多,信号还原度也就越高。 从上面的不同的采样率可以看到, 采样率越高的信号清晰度就越高,当然也要求更多的存储空间。

除了采集率, 采样位数也是一个重要的采样指标, 它是对一个采样精确度的表示。 它和采样率共同影响信号的采集的质量。 采样位数是用来表示一个采样信号的长度。 对于人类而言,能接受声音的频率范围是20Hz-20KHz, 所以采样的频率44.1KHz 以及16bit的采样位数就可以有很好的保真能力(CD格式的采样率和采样位数)。因此我们可以计算出一张60分钟的2声道立体声音乐CD的大小,3600*44100*(16*8)*2 bit ~= 604MB;

比特率也用来表示但是时间播放连续数字媒体的比特数量, 单位bit/s. 它是有采样率和采样位数共同决定的指标, 例如上述CD的比特率是44100*16*2bit/s = 1.4Mbit/s

存储音频的格式有很多种:

非压缩格式:如目前最流行的WAV格式, 经常用来保存原始录音数据。

有损压缩格式:基于声学心理学的模型,除去人耳很难或者根本听不见的声音, 例如一个很高的声音后面跟着一个很低 的声音。 MP3属于这种。

无损压缩格式:压缩时不产生质量或者数据的损失,解压产生的数据和为解压的数据完全相同。 要保证音乐的原始质量,就 应该选择这种格式,APE, FLAC等等属于这种。

多声道格式: 容纳2个声道以上的格式微软的WMA和苹果的AAC, 这两个格式是手版权限制的, 编码器和解码器需要授权才可以使用。

0 人点赞