【语音处理】时域信号分析基本工具,什么是窗函数

2022-05-24 10:14:07 浏览数 (1)

上一节主要介绍了关于语音听觉的相关内容,从本节开始,我们将展开一系列关于语音时域信号分析、频域信号、线性预测分析、倒谱特征等相关内容。

本节的主要介绍语音信号处理中的加窗函数,包括常用的矩形窗、汉明窗等内容。

作者&编辑 | 小米粥

编辑 | 言有三

1. 语音听觉系统

语音信号在10-30ms的范围内具有短时平稳性,因而在处理前需要经过分帧操作,即把一个语音信号切分成多个帧片段。为了使帧与帧之间平滑过渡,具有连贯性,通常要采用交叠分段的方法,即相邻帧之间存在重叠部分,该交叠部分的长度定义为帧移,而每一帧语音信号的长度定义为帧长。此外,一般帧移为帧长的0到0.5倍。

当对语音信号进行截断分帧后,将产生能量泄露现象。截断函数是频带无限的函数,而语音信号是有限带宽信号,因而截断后语音信号的在频率中能量将被扩展。根据采样定理,只有采样频率超过信号最高频率的2倍,才可能恢复信号,因而无论采样频率多高,只要经过截断处理,则将引起混叠。此时,通过使用加权函数,即窗函数,使能量集中在主瓣,则可以获得更接近真实频谱的信号,减少能量泄露。

1. 矩形窗、汉明窗和汉宁窗

对于语音信号 s(t),设长度有限、可移动的窗函数为 w(t),则加窗语音信号为s(t)·w(t)。

矩形窗的是最直观、简单的窗函数,我们以其为例进行说明。矩形窗的表达式为:

其中, N为窗口宽度。例如,对于采样频率为16kHz的语音信号,若帧长设置为25ms,则N为400.

汉明(hamming)窗(又称为余弦升窗)的表达式为:

此外,汉宁窗与汉明窗的表达式为非常近似,只是将抵消期限和缩放项均修改为0.5。汉明窗可以使得窗函数值最低也不为0,而汉宁窗无法保证。

汉宁窗的表达式为:

汉明窗和汉明窗函数的图像如下所示:

接下来,我们对窗函数的频谱特性进行说明。窗函数频率响应具有低通性,矩形窗对应的数字滤波器的单位冲击响应频谱 HR(w)为(即计算离散傅里叶变换):

其中偶函数 AR(w)的函数图像 (N=51)如下所示

函数AR(w)所对应的第一个置零点归一化频率为 1/N,对应的非归一化规律为w=2π/N,因而主瓣宽度为4π/N;旁瓣最高值所对应的频率为w=3π/N,对应的旁瓣峰值为-13dB,计算方式如下。

其函数图像(N=51如下所示)

可以看出,汉宁窗相当于三部分矩形窗频谱相加,使旁瓣互相抵消,使其能量集中在主瓣,旁瓣大大减小,主瓣宽度增加1倍。

2. 窗函数性能对比

(1)矩形窗。矩形窗使用最多,习惯上不加窗就是使信号通过了矩形窗。这种窗的优点是主瓣比较集中,缺点是旁瓣较高,并有负旁瓣,导致变换中带进了高频干扰和泄漏,甚至出现负谱现象。频率识别精度最高,幅值识别精度最低,所以矩形窗不是一个理想的窗。如果仅要求精确读出主瓣频率,而不考虑幅值精度,则可选用矩形窗。

(2)汉宁窗。主瓣加宽并降低,旁瓣则显著减小,从减小泄漏观点出发,汉宁窗优于矩形窗.但汉宁窗主瓣加宽,相当于分析带宽加宽,频率分辨力下降。它与矩形窗相比,泄漏、波动都减小了,并且选择性也提高。如果信号有多个频率分量,频谱表现的十分复杂,且测试的目的更多关注频率点而非能量的大小,需要选择汉宁窗。

(3)汉明窗。与汉宁窗都是余弦窗,又称改进的升余弦窗,只是加权系数不同,使旁瓣达到更小。但其旁瓣衰减速度比汉宁窗衰减速度慢。其功能和应用与汉宁窗类似。在语音信号处理中,汉明窗应用最为广泛。

(4)平顶窗。平顶窗在频域时的表现就象它的名称一样有非常小的通带波动。由于在幅度上有较小的误差,所以这个窗可以用在校准上。

(5)凯塞窗。定义了一组可调的由零阶贝塞尔Bessel 函数构成的窗函数,通过调整参数β可以在主瓣宽度和旁瓣衰减之间自由选择它们的比重。

。定义了一组可调的由零阶贝塞尔函数构成的窗函数,通过调整参数β可以在主瓣宽度和旁瓣衰减之间自由选择它们的比重。

(6)布莱克曼窗。二阶升余弦窗,主瓣宽,旁瓣比较低,但等效噪声带宽比汉宁窗要大一点,波动却小一点。频率识别精度最低,但幅值识别精度最高,有更好的选择性。常用来检测两个频率相近幅度不同的信号。

(7)高斯窗。是一种指数窗。主瓣较宽,故而频率分辨力低;无负的旁瓣,第一旁瓣衰减达一55dB。常被用来截短一些非周期信号,如指数衰减信号等。对于随时间按指数衰减的函数,可采用指数窗来提高信噪比。

高斯窗是一种指数窗。主瓣较宽,故而频率分辨力低;无负的旁瓣,第一旁瓣衰减达一55dB。常被用来截短一些非周期信号,如指数衰减信号等。对于随时间按指数衰减的函数,可采用指数窗来提高信噪比。

(8)三角窗。是幂窗的一次方形式。与矩形窗比较,主瓣宽约等于矩形窗的两倍,但旁瓣小,而且无负旁瓣。

(9)切比雪夫窗。在给定旁瓣高度下,Chebyshev窗的主瓣宽度最小,具有等波动性,也就是说,其所有的旁瓣都具有相等的高度。

对于语音信号处理中最常见的矩阵窗和汉明窗,矩形窗的平滑性更好但损失了高频信息,能量泄露相对严重;汉明窗相对应用更加广泛。

3. 窗函数长度选择

窗口长度N对能否反应语音信号变化幅度起决定性作用。

如果窗口长度N比较大(量级达到多个基音周期的水平),则窗函数等效于带宽很窄的低通滤波器,高频成分损失较多,短时能量随时间变化较小,无法反应波形细节;

若窗口长度N比较小,则滤波器的通带变宽,短时能量随时间变化较大,无法获得平滑的短时信息。

[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.

[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.

[3] 卢官明, 宗昉. 数字音频原理及应用[M]. 机械工业出版社, 2012.

总结

本节的主要介绍语音信号处理中的窗函数,包括窗函数的定义由来,经典的矩形窗、汉明窗、汉宁窗,并对常见的窗函数进行总结,最后简要说明了窗函数长度的影响。

下一节,我们将介绍语音信号的时域信号分析相关内容。

0 人点赞