言语感知受到听觉处理的制约。虽然婴儿的听觉系统不成熟,语言经验有限,但他们表现出非凡的言语感知能力。为了评估新生儿处理复杂语音线索的能力,我们结合近红外光谱(NIRS)和脑电图(EEG)来测量大脑对不同辅音音节的反应,分别评估脑电生理反应及其代谢相关性,这两种技术的结合有提供精确的空间定位和高时间分辨率的独特优势。
音节的呈现条件有三种:
1)同时具有波幅调制(amplitude modulation,AM)和频率调制(frequency modulation,FM);
(2)有波幅调制(快速AM和慢速AM),没有频率调制;
(3)只有最慢的波幅调制(<8 Hz)。
EEG结果显示,在三种条件下,新生儿都可以像成人一样编码辅音。此外,NIRS结果显示,婴儿快速AM和慢速AM激活了不同的神经区域。
本研究表明,未成熟的人脑已经能够分解语音的声学成分,为语言学习奠定了基础。这项研究填补了我们对最年轻的学习者如何感知语音的声学细节这一空白。文章发表在Science Advances杂志。
研究背景
言语感知(Speech perception)需要有效的听觉机制来追踪复杂的频谱和时间信息中的细微差别,以区分语言差异。虽然婴儿的外周和中央听觉系统尚不成熟,但他们从出生起就表现出了高超的言语感知能力。他们是如何做到这一点的,他们是否像成年人一样依赖相同的声学信息,目前尚不清楚。本研究旨在探讨新生儿是否使用语音信号中的时间信息来辨别音素,如果是的话,又是如何使用这些信息的。
时间信息在成年人的言语感知中起着至关重要的作用。语音主要通过耳蜗(即内耳)中的基底膜传送到大脑,它对语音信号在不同频率范围的时间调制进行编码。在每个频率范围内,在两个时间尺度上提取时间属性:波幅调制(AM)线索,也称为时域包络(temporal envelope),是指波幅随时间的相对较慢的变化;以及频率调制(FM)线索,也称为时域精细结构(temporal fine structure),是指接近频段中心频率(CF:center frequency)的瞬时频率的变化。
先前的研究测量成年人以不同速率调制波幅的非语言声音的大脑激活情况,大脑对最低AM频率(4-8Hz)的主要皮层反应和时间包络编码中的半球偏侧化,以及慢速(<16 Hz)和快速(<128 Hz)AM速率之间激活时程的差异。大脑半球对语音信号的不同声学特性的特异性的仍然存在争议,但通常认为快速时间调制优先由左侧听觉皮层处理,而慢速时间调制和/或频谱调制由右侧颞叶皮层处理。
这些时间调制在语音感知中也起着不同的作用,因为不同的调制速率传递着不同的语言信息。大量的心理声学研究表明,慢速的AM线索(16Hz以下)在安静环境下语音中的辅音、元音和单词识别中起主要作用。快速的AM线索(更接近语音的基频)和FM线索在感知音调方面起着更重要的作用,有助于理解噪声下的语音以及依赖于音调信息的语言单位,如词汇音调。
这些神经成像和行为研究只关注那些拥有成熟的听觉和语言系统的成年人。然而,听觉系统需要数年才能成熟。因此,婴儿不成熟的听觉系统解码声音可能不同于成年人。如果是这样的话,这将对语言的发展产生重要的影响,这种影响也会在婴儿出生后的头几年显现出来,因此婴儿的听觉输入与成人在处理语言时所感知到的不同。目前,我们对最年轻的学习者如何感知语音的声学细节知之甚少。本研究旨在填补这一空白。
现有的几项关于婴儿的行为研究表明,6个月大的婴儿可能会对调制信号进行不同于成人的权衡。虽然6个月大的法国婴儿和成年人一样,能够使用语音中慢速的时间信息,例如根据发音(如/aba/-/apa/)和发音位置(如/aba/-/ada/)在安静环境下区分辅音,但他们需要更多的时间来适应只包含16 Hz以下的语音信息,而不是进行较快的调制。此外,3个月大的婴儿和成人在安静和噪声环境下对AM的快速和缓慢线索的依赖不同。婴儿在安静和噪声中辨别爆破辅音时需要快速AM信号(>8 Hz),而最慢的AM信号(<8 Hz)对于安静环境中的成年人来说已经足够了,但成年人在噪声中也需要进行更快的调制。这些结果表明,即使在安静的情况下,快速AM(波幅调制)线索对婴儿的辅音感知可能也很重要。
为了确定几乎没有母语经验且听觉系统不成熟的新生儿如何处理语音的时间听觉线索来感知辅音,我们使用了迄今为止很少结合的两种方法。我们将语言的语音编码器(vocoder)的操作与脑成像技术相结合,以测试新生儿如何处理和感知语音中的时间调制,这些时间调制对于成年后的语音清晰度至关重要。Vocoders是强大的语音分析和合成工具,可以选择性地操纵声音的声谱-时间特性。我们使用语音编码器在三种情况下选择性地操作简单的辅音C(onsonant)-元音V(owel)音节(图1):
(1)完整条件(“intact” condition):保持了AM和FM线索结构,与原始信号紧密匹配,作为语音编码操作的控制条件;
(2)快速条件(“fast” condition):同时保留了快速AM和慢速AM线索,从而保留了部分音高和共振峰过渡信息(<500 Hz),但消除了FM线索;
(3)慢速条件(“slow” condition):只保留了最慢的AM线索(<8Hz),主要保留了与音节有关的调制。
图1 单音节样例的波形图和声谱图
我们预测,如果婴儿能够像以前对3到6个月大的婴儿所做的研究那样,依靠快速时间包络来辨别音素,那么在完整和快速条件下,新生儿的血流动力学活动应该是相似的。相比之下,慢速条件下可能没有传递足够的声音细节,让新生儿的大脑以类似于原始信号的方式进行处理。我们预计在完整条件下标准音节节和偏差音节之间会有显著的差异,因为幼儿能够区分不同辅音的音节。在其他两种条件下的失匹配反应将表明婴儿也可以使用低级的语音信号检测辅音变化。
研究方法
被试
在法国巴黎医院产科招募的新生儿,头围大于32厘米,无已知的神经或听力异常。对74位新生儿(平均年龄1.8天)进行了检测。13名新生儿因哭闹(n=10)和父母/外部干扰(n=3)未能完成研究。在完成研究的61名婴儿中,NIRS数据;剔除38名婴儿数据(7名因记录过程中的技术问题,31名因数据质量差(大的运动伪影或噪音))。总计23名婴儿进行了NIRS(fNIRS)分析(16名女性)。EEG数据:3人因技术问题被剔除,38人因数据质量差而被剔除。共有20名新生儿进行了EEG分析(11名女性)
刺激
一名母语为法语的人录制了8个/pa/和/ta/音节的自然读音,每个音节在语音编码器进行三种条件的处理。在每种条件下,原始语音信号通过一组32 second-order gammatone滤波器,每个滤波器的宽度为1等效矩形带宽(ERB,equivalent rectangular bandwidth)。然后对每个带通滤波语音信号进行希尔伯特变换,提取包络成分和时间精细结构载波。使用无偏Butterworth滤波器对包络成分进行低通滤波(36dB /octave),截止频率设置为ERBN/2(完整和快速条件)或8Hz(慢速条件)。
在快速和慢速条件下:每个频带中的时间精细结构载波都被一个正弦波载波所代替。然后将每个音调载波乘以相应的滤波包络函数。
在完整条件下:将原始的时间精细结构乘以每个波段的滤波包络函数。然后将窄带语音信号相加,并调整宽带语音信号的电平,使其在每种条件下具有与输入信号相同的均方根值。因此,在完整的条件下,得到的语音信号包含了32个波段的原始包络和原始时间精细结构。
在快速条件下,语音编码器的操作消除了原始时间精细结构线索,但保留了快速包络线索(截止频率设为ERBN/2)。在慢速信号条件下,同时消除了原始的时间精细结构和快速包络信息,只保留了每个频带中最慢的包络信息(小于8hz)。因此,音节信息在后两种条件下都得到了保留,但在快速条件下,音高和共振峰过渡信息被保留,而在慢速条件下,音高和共振峰过渡信息被大幅减少。
设备和程序:
使用NIRScout816(NIRx MedizinTechnik GmbH,柏林)采集NIRS数据,波长分别为760nm和850nm,采样率为15.625 Hz,光极排布详见图2。
图2. NIRS和EEG的通道排布。
(A)近红外光源(红圈)和探测器(蓝圈)的示意图。虚线椭圆表示近红外通道,实心圆表示EEG电极。
(B)电极在新生儿大脑上的摆放位置。蓝色通道表示通道位于额部,橙色表示通道在位于顶部,紫色表示通道位于颞部。
(C)新生儿模型佩戴帽子的图片。
刺激通过两个与婴儿床同高的扬声器播放,两侧距离婴儿头部约30厘米,声压级(SPL)约为70分贝。当新生儿安静地躺在医院的婴儿床上时,通过扩音器将音节以长刺激(30秒)的形式呈现给他们,每种条件包括6个block(图3),满足近红外光谱测量的慢血流动力学反应的时间要求。完整条件总是最后播放,以避免启动效应,而慢速条件和快速条件的顺序在婴儿之间是平衡的。每个block包含25个音节,其中20个是标准音节节(如/pa/),5个是偏差音节(如/ta/),这种实验设计可以对block内单个音节的反应进行事件相关评估,类似于脑电图研究中的经典oddball或失匹配范式。因此,每个block包含80%的标准音节,20%的异常音。标准音节和偏差音节之间唯一的区别是音节开头的辅音。前五种声音始终是标准音节,以建立新生儿对标准音节的期望。标准音节和偏差音节在不同的婴儿中是平衡的。这一设计使我们能够解决两个研究问题:
1.新生儿的大脑在处理慢速、快速和完整条件时,整体上是相似的还是不同的?这可以通过比较三种条件下血流动力学反应确定。
2. 新生儿是否能成功地根据每一种条件下出现的时间声学线索辨别辅音?这可以根据标准音节节和偏差音节诱发的ERP反应进行验证。整个实验持续了22分钟左右。
图3.实验设计原理图
每个婴儿在18个连续的block内听三种声音,大约22分钟(每种条件包括6个block)。完整条件总是最后播放,快速和慢速条件在婴儿之间平衡。在每个block中,25个音节按照oddball范式播放,其中偏差音节的比例为20%。
数据采集与分析
fNIRS
血流动力学反应的变化使用近红外光谱记录,光极位于新生儿头部的左、右额颞区(图2)。该定位方法是基于近红外光谱(NIRS)对新生儿语音感知的研究确定的。以氧合血红蛋白(oxyHb)和脱氧血红蛋白(deoxyHb)浓度的变化衡量听觉刺激的功能,对记录的血流动力学活性进行两种分析。数据在0.01Hz和0.7Hz之间进行带通滤波,以去除低频噪声(即血红蛋白浓度的缓慢漂移)以及高频噪声(即心跳)。
1)使用配对样本t检验进行团簇水平的置换检验(Cluster-based permutation tests),将浓度变化与每个条件下的基线进行比较。
2)使用单因素方差分析(ANOVA)进行了团簇水平的置换检验来直接比较这三种条件。使用配对样本t检验对结果进行进一步分析。
这一系列的分析有助于识别时间窗口和大脑感兴趣区域(ROI),这些时间窗口和大脑感兴趣区域(ROI)以数据驱动的方式显示出对听觉刺激的显著激活。此外,排列测试具有控制多重比较而不损失统计能力的优点。然后使用线性混合效应模型来评估声音条件(完整/快速/缓慢)、block(1至6)的影响,以及对记录的氧合血红蛋白浓度变化的排列测试得出的ROI。
EEG
EEG电极位于新生儿头部的额中央,记录其电生理反应(F3, F4, Cz, C3, C4;图2)。分别对三种条件下的标准声音和偏差声音诱发的EEG波幅进行平均。然后,在每种条件下使用线性混合效果模型来评估这两种类型的音节是否引起了不同的脑电反应,即反映了听觉变化检测的失匹配反应。
EEG信号降采样至200Hz,带通滤波为0.5- 20Hz。对连续的脑电数据进行分段,分段范围为:−200ms~800ms,去除包含极端值的分段(<-120μV和> 120μV)。
在目测的基础上(见图S2),F3处记录的EEG振幅在刺激开始后300到700毫秒之间取平均值,以评估每种条件下的失匹配反应。
图S2.标准音节(绿色线条)和偏差音节(红线条),在F3、Fz、F4(左上、中上、右上)、C3和C4(左下、右下)记录的EEG响应随时间的波幅变化的总平均值。
结果
新生大脑如何处理言语中的时间信息:fNIRS结果
图4.含氧血红蛋白变化。
(A)每个通道和每个半球的OxyHb浓度随block的变化而变化。x轴表示时间(秒),y轴表示浓度(mmol-mm)。沿x轴的矩形表示刺激时间。黑线表示完整条件下的含氧血红蛋白浓度,红色表示快速条件下的含氧血红蛋白浓度,橙色表示慢速条件下的含氧血红蛋白浓度。颜色编码*表示每种情况下与基线不同的通道(P<0.05)。
(B)根据置换检验逐个条件比较显著激活的通道(P<0.05)。
图4A显示了23名新生儿的总平均氧血红蛋白近红外光谱结果(为便于说明,脱氧血红蛋白结果单独显示;图.S1)。结果显示在刺激开始后5~25秒的时间窗内,氧血红蛋白浓度有显著变化。如图4所示, 完整条件下通道8(LH)和21(RH),快速条件下在通道1、3、4、6和12(LH)和14、17(RH),慢速条件下通道3(LH)和16和17(RH)的激活在与基线显著不同(for all permutation tests, P < 0.0001)。
对于快速条件,这些结果表明负激活(负的氧合血红蛋白反应),而对于完整和慢速的条件,激活大于基线。对脱氧血红蛋白浓度的类似分析显示,完整条件与基线相比有显著变化(刺激开始后13-25s在通道9中,在通道21中在10-16s之间),快速条件与基线相比有显著变化(在通道11中在28-32s之间)。与基线相比,在慢速条件下没有观察到明显的激活。
如图4B所示,在单因素方差分析中比较所有三种条件的排列检验在通道1、3、4、6和24中的条件之间发现显著差异(P<0.01)。其中,左半球(LH) 3、4、6通道形成了一个空间集,右半球(RH)24通道形成了一个空间集(spatial cluster)(P < 0.01)。进一步两两配对样本t检验的置换发现,在LH通道1、3、4和RH通道14、22、23和24中,完整条件诱发的激活明显大于快速条件。其中,通道1和3在RH区形成了一个空间集(P = 0.027),通道22和24在RH区形成了一个空间集(P = 0.046)。LH通道1 (P = 0.039)和RH通道22 (P = 0.035)在慢速条件下的反应明显大于完整条件下的反应。LH通道1、3、4、6和RH通道14、17在慢速条件下比快速条件下激活更大(P < 0.01)。其中,LH区1、3、4通道形成了具有统计学意义的空间集(P = 0.016),而RH区14、17通道形成了具有统计学意义的空间集(P = 0.065)。此外,三种情况下脱氧血红蛋白(deoxyHb)的变化没有显著差异(图S1)。因此,没有对deoxyHb数据进行方差分析。
图S1. block中脱氧血红蛋白浓度在每个通道和每个半球的变化。
x轴表示时间(秒),y轴表示浓度(mmol-mm)。紫色的线条代表完整条件下的脱氧血红蛋白浓度,绿色代表快速条件下的脱氧血红蛋白浓度,蓝色代表慢速条件下的脱氧血红蛋白浓度。在任何条件下,任何通道的浓度变化与基线没有差异(p > .05)。
根据血红蛋白浓度的方差分析置换检验结果,选择LH的额颞通道1、3、4、6和RH的14、16、17、19作为线性混合效应模型的感兴趣区。通过对三种情况的置换检验,LH中的通道1、3、4、6被确定为ROI,为了进行平衡统计检验,我们使用RH中的类似通道作为该半球的ROI。然后运行线性混合效应模型,以评估条件(完整与快速与慢速)、半球(左与右)、通道(每个半球4个)和block(1至6个)的影响。在所有可能建立的模型中,最适合的模型包括固定因素:条件和刺激block,参与者作为随机因素。结果发现条件的主效应显著,block主效应显著,条件*block的交互效应显著。
条件的主效应是由于在完整和缓慢的条件下比在快速条件下有更大的反应。刺激组块的主效应是在婴儿NIRS反应中经常观察到的神经习惯化所致的后期组块中神经活动的逐渐减少。从Block和条件之间的相互作用反应了完整和缓慢条件下Block 1的血红蛋白浓度不同,而在快速和缓慢条件下,Block 3的激活不同,如图5所示。
图5.含氧血红蛋白在刺激后的变化。
总之,在三种条件下观察到不同的反应,慢速和完整条件下的声音编码主要在左额颞区引起正激活,而快速条件下的声音编码则在双侧额颞区引起负激活。
基于次级(degraded)语音信号的音素识别:EEG结果
图6显示了在每种条件下标准音节和偏离音节在F3处记录的EEG反应的总平均值。我们使用将trial类型(标准/偏差)和窗口(8个bins)作为固定因子的线性混合效应模型来评估标准和偏差引起的EEG反应波幅在刺激开始后300到700毫秒之间是否不同。这个时间窗被分成8个50ms的Bin来评估神经反应的潜伏期。
图6.EEG反应的总平均值。
呈现辅音变化的新生儿组,在每种条件下,在F3处记录的标准(绿线)和偏差(红色线)EEG反应的组平均振幅变化(μV)。在由灰色矩形表示的时间窗口300到700毫秒的每个条件下,对标准和偏差音节的响应各不相同。
在这三种条件下,trial类型的主效应都很显著,表明在每种声音条件下,偏差音节和标准音节引起的激活不同。失匹配波在完整条件下为正波而在快速和慢速条件下为负波。在任何条件下均未观察到trial类型×窗口的交互作用。因此,在每种条件下,刺激开始后300到700毫秒,对偏差音节的反应都不同于标准音节。
总结
研究表明,人类听觉系统从出生起就能够在较少的声音信息的基础上,对语言进行细致的编码。此外,新生儿的大脑已经对语音信号中的不同时间线索表现出明显特异性,这为婴儿惊人的复杂语音感知和语言学习能力奠定了基础。