上一节介绍了一些基本的概念和应用,从本节开始我们将对语音信号处理的各个方面进行系统性介绍。
本节主要介绍语音产生的过程,包括具体的生理机制,以及由此抽象出的数学模型,包括语音线性产生模型和非线性产生模型。
作者&编辑 | 小米粥
编辑 | 言有三
1. 语音发音系统
人的发音器官主要由四个部分组成:①肺部和气管,产生语音信号的能量源;②咽喉,包括声带和声门,是语音的振动源;③咽腔、口腔和鼻腔等,这些由声门到嘴唇的呼吸通道构成声道,是语音的谐振腔;④唇、齿、舌、面颊等其他发音器官,主要用于改变谐振腔形状。
第一部分中,肺通过肌肉收缩将肺部储存的空气挤出,形成气流,并通过气管将气流送至咽喉,这是语音产生的原动力。
第二部分中,喉部由左右两个肌肉组成,称为声带,而声带之间的空隙称为声门。正常呼吸时,声门张开,气流自由呼出;当讲话时,声带闭合,声门形成窄缝。讲话时,气管传过的气流冲击声带使声带张开,而声带由于其韧性又将快速自动闭合。声带不断快速的张开闭合,即导致了声带的振动,形成了周期性的脉冲气流。
基音频率为声带振动的频率,其数值由声带的物理特性决定,例如声带的大小、厚薄、松紧程度等。基音频率也决定了人的音高,频率快则音调高,频率慢则音调低。一般,男性的基音频率为60-200Hz,而女性和小孩的基因频率为200-450Hz。
第三部分中,声道是声门声带之后发音的最重要因素。人们在发出不同音的时候,声道具有非常复杂多变的形状,因而声带振动产生的脉冲气流通过声道响应可以变为不同的语音。
气流通过声道时被视为通过谐振腔,而谐振腔的作用是筛选、放大输入信号的某些频率(谐振频率)。对于某个特定的谐振腔,其拥有多个谐振频率(共振频率),即存在多个共振峰。此外,共振峰也与谐振腔的形状有关。因此,当一个人发不同的音时,即使基音频率是固定的,但是由于声道形状的不同,从而导致谐振腔的共振峰也不同,最终产生不同的语音信号。
由于不同人的声道差异较大,因而不同人的共振峰也有较大的差异。以下为声道共振峰的范围区间(单位:Hz)
气流首先经过咽腔,咽腔具有多变的形状。经过咽腔之后,若软腭下垂,则气流主要经过鼻腔发音,即为鼻音,此外鼻腔的形状是固定的,因而共振峰频率固定;若软腭上抬,则完全由口腔发音,即为口音,但是口腔形状不固定,因而共振峰频率不确定。
第四部分中,为了发出各种声音,需要调音改变声道的形状。声道中可自由活动的器官称为调音器官,唇、齿、舌、面颊等调音器官同样改变声道的形状,使声道具有不同的传递特性。
在不同的发音过程中,根据声带是否振动将分为清音和浊音。当肺部而来的气流使声带振动时(更严格说法为,产生明显振动),此机制产生的为清音;若声门张开,声带不振动,气流在声道高速通过,则形成清音。另外,若声道关闭之后再突然打开,将产生爆破音。
2. 语音线性产生模型
由于语音信号在较短的时间内,其特性不随时间变化,因而认为语音信号为短时平稳信号,可采用线性时不变模型进行描述。
语音信号线性产生模型由激励模型、声道模型和辐射模型三部分组成,如下图所示。其中激励模型描述清音或浊音的产生过程,即肺部气流和声带的作用;声道模型主要描述声道的调音运动;辐射模型描述气流在嘴唇、鼻孔的幅射效应。
2.1 激励模型
激励模型一般将发音粗略分为清音激励和浊音激励。发浊音时,肺部气流对绷紧的声带持续冲击,形成声带准周期的振动,从而产生准周期的脉冲。脉冲周期,即基音频率,取决于个人声带物理情况。因此,浊音的激励源是一个以基音周期为周期的斜三角脉冲串,其中单个斜三角脉冲的表达式为:
其中,N1为上升时间,N2为下降时间,其波形如下图所示。此外,将其转换至频域可知其为低通滤波器。
单个斜三角波的z变换全极模型为:
斜三角波形串可视为加权的单位脉冲串激励上述单个斜三角波模型的结果,即经过该低通滤波器的输出,因而浊音的激励模型可写为:
其中,E(z)为单位脉冲的z变换,而Av为幅度因子。
当发出清音时,声带不发生明显振动,气流通过声门直接进入声道,声道形成湍流,此时的激励模型为随机白噪声,可使用均值为0,方差为1的噪声来表示。
2.2 声道模型
对于声道,常见的数学模型有:声管模型和共振峰模型。声管模型将声道视为多个不同截面的声管串联;而对于常用的共振峰模型,其将声道视为一个谐振腔。在发某个音时,声道具有各种不同的形状变化,从而使声道具有不同的谐振频率(共振频率)。
实践中,前三个共振峰即可表示元音的特征,复杂的辅音或鼻音需要使用5个共振频率。一般成人声道约为17cm长,将其视为均匀断面,则可计算出前三个共振频率为500Hz,1500Hz和2500Hz。发元音e时,声道最接近均匀断面,因而该音的前三个共振峰也近似为500Hz,1500Hz和2500Hz。
常见的共振峰模型有:级联、并联以及混合型三种,它们具有不同的适用描述对象。我们首先说明元音、辅音的区别,元音是指发音时从肺部呼出的气流通过起共鸣器作用的口腔、阻力极小并无摩擦声音的语音,而在辅音中,无论声带振动与否,发声时呼出的气流通过口腔或鼻腔时受到一定阻碍。另外,辅音包括清辅音和浊辅音两大类。发音时声带不震动、送气的叫清辅音;发音时声带震动、不送气的叫浊辅音。级联模型适用于描述大部分元音,其将声道视为一组串联的二阶谐振器,每个谐振器对应1个共振峰频率,即依次放大信号中谐振频率的成分;对于并联模型,其结构相对复杂,适用于描述非一般的元音和大部分辅音。混合模型将串联模型和并联模型结合起来,可根据所要描述的语音,自动进行切换。这三种模型的结构如下图所示。
2.3 辐射模型
声道的终端是口和唇,口唇端的辐射效应在高频段较为明显,而在低频段影响较小,因而可用高通滤波器来表示辐射模型:
其中,对于浊音,r接近1,而对于清音,取值很小。
语音线性产生模型使用激励模型、声道模型和辐射模型构成,需要说明的是,模型将语音进行简单的清音、浊音的划分是存在不足的,例如浊音中的摩擦音需要清音、浊音两种激励,并非将其直接叠加。
总之,模型的结构虽然与真实的物理过程不完全一致,但在输出处是等效的,为语音信号产生提供了基本的、简洁的分析框架。
3.语音非线性产生模型
线性语音产生模型的基本假设是:肺部气流在声道中以平面波的形式传递。但是,研究表明,声道中的语音信号并不总是以平面波的形式传播,气流在通过声道腔体的某些部分时存在湍流,因此在声道模型中,语音信号应该由平面波部分的线性部分和湍流区域部分的非线性部分共同组成。
调频-调幅模型是成功的非线性语音产生模型。在模型中,语音中的单个共振峰的输出,相当于以该共振峰为载波频率进行频率调制和幅值调制的结果,并且语音信号是由多个这样的共振峰调制叠加而成的。对于一个频率为f共振峰,对应的载波频率也为f,设频率调制信号为q(t),幅值调制信号为a(t),则语音信号中的单个共振峰输出r(t)为:
将语音信号视为多个共振峰调制信号叠加,则语音信号s(t)为:
其中,K为共振峰的数目。
对于上述模型构建的语音信号,我们可使用基于Teaager能量算子的能量分离算法(ESA)将信号中的幅值调制部分与频率调制部分有效地分离开。
[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.
[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.
总结
这一节讲解了基本的语音产生方式,包括清音、浊音产生的具体生理机制。接着对语音线性产生模型进行了详细的讲解,包括其中的激励模型、声道模型和辐射模型等内容。
下一节,我们将介绍语音信号的听觉生理机制和相关的数学模型。