上一节主要介绍了关于加窗函数的相关内容。对语音的时域信号进行分析是最直观的分析方式。本文将介绍语音信号处理中四种时域特征,分别是短时能量、短时过零率、短时自相关函数以及短时平均幅度差。
作者&编辑 | 小米粥
编辑 | 言有三
1. 短时能量
由于语音信号具有短时平稳性,我们通常对语音进行分帧处理。首先定义矩形窗为w(m),那么对于语音信号 x(t),其加窗分帧后第n帧语音信号 xn(m)为
矩形窗的是最直观、简单的窗函数,我们以其为例进行说明。矩形窗的表达式为:
在该计算式中,n=0,T,2T,...,N为帧长,T为帧移长度。
第n 帧语音信号 xn(m)的短时能量En为
使用幅值平方将对高幅值信号具有较大的敏感度,为了降低敏感度,定义短时平均幅度函数Mn为
短时能量En和短时平均幅度函数Mn的主要用途:
1.浊音相比较于清音的En具有较大的数值,因而可用于区分浊音和清音。
2.利用短时能量区分有声段和无声段,也可对声母和韵母分界,对无间隙的连字分界。
3.在语音识别任务中作为特征,表示能量特征和超音频信息。
2. 短时过零率
短时过零率表示一帧语音中波形信号穿过零值的次数。对于连续信号,过零意味着波形通过时间轴,而对于离散信号,过零意味着相邻采样点的符号改变。
首先定义符号函数sgn[·]为
则第n帧语音信号 xn(m)的短时过零率Zn为
由于短时过零率容易受到低频干扰,可设置相关门限T,将过零修改为穿过正负门限的次数,即
门限的存在使得短时过零率Zn具有一定的扛干扰能力,避免随机噪声导致的虚假过零。
短时过零率的主要用途:
1.浊音能量集中于3kHz内的低频率段,清音能量集中于高频率段,而短时过零率可以一定程度反映频率高低,因而浊音段相对于清音段,其短时过零率减低。
2.将短时过零率和短时能量结合实现端点检查。短时能量适用于背景噪声较小的情况,而短时过零率适用于背景噪声较大的情况。实际中,通常结合两个参数实现语音起点和终点的判断。
3. 短时自相关函数
语音信号xn(m)的短时自相关函数Rn(k)为:
其中,若信号xn(m)具有周期性,则短时自相关函数Rn(k)也具有周期性,且两者周期相同;Rn(k)为偶函数,当k=0s时,自相关函数具有最大值。
假设语音信号xn(m)的周期为T,那么短时自相关函数Rn(k)将在k=T,2T...取值时出现峰值。若要出现第一个峰值(即k=T),根据计算式
需要取到信号中x(m=2T的样本点,即语音帧宽至少应大于两个周期,否则第一个峰值将无法较好的显示。例语音最小基频为80Hz,最大周期为12.5ms,两倍周期为25ms,因此10kHz的采样信号的帧宽至少为250个采样点。
另一方面,考虑到语音信号的短时性,应设置较低的帧长,因此可使用修正短时自相关函数,其定义为
其中,有
而
相比于短时自相关函数Rn(k),在修正短时自相关函数中,第一项xn(m)与Rn(k)中的xn(m)相同,而第二项x'n(m)与Rn(k)中的xn(m)相比,差异在于额外向后包括了k个样本点。
在严格定义中,修正短时自相关函数是一个互相关函数,其不满足自相关函数的性质(偶函数性),但其仍在周期整数倍上具有峰值。
短时自相关函数的用途:
1.浊音的自相关函数具有周期性,而清音的自相关函数类似于高频白噪声,没有周期性。
2.根据自相关函数的第一个峰值的位置,估算浊音的基音频率。
4. 短时平均幅度差函数
短时自相关函数使用大量乘法运算,计算时间较长,短时平均幅度差Fn(k)使用减法代替了乘法,大大减少了运算量,大量运用于实时语音处理方案上,其定义为
对于周期为T的语音信号,短时平均幅度差Fn(k)在k=T,2T...等取值上具有周期性的极小值。类似的,修正短时平均幅度差为
短时平均幅度差Fn(k)和Rn(k)具有数值关系:
其中,β(k)对不同的语音段,其数值在0.6-1.0之间变化。
短时平均幅度差的用途:
基音周期的检测,该方法比短时自相关方法的计算更为简单。
[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.
[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.
[3] 卢官明, 宗昉. 数字音频原理及应用[M]. 机械工业出版社, 2012.
总结
本节的主要介绍语音信号处理中的时域信号特征分析技术,主要包括短时能量,短时过零率,短时自相关函数以及短时平均幅度差四种定义以及相关的用途。
下一节,我们将介绍语音信号的频域信号分析相关内容。为了对语音知识有扎实的基础,我们将插入一节关于傅里叶相关的内容介绍。