阿牛哥喊你来关注思影科技,做个scientist!
我们对声音的感觉总是连续和平滑的。听人说话,听音乐,在大街上听到各种周围的声音,我们感觉起来都好像流水连续不断地流进我们的耳朵里。但是,这种主观的感受和声音本身复杂的结构有些违合感。话语里的信息有辅音、有元音、有音节、有语调,这些信息都是一段一段的不连续的,有长有短。在听音乐时也是这样,音符和小节其实都是不连续的,各有不同的时间长段。就好像看一张人脸时,细看有鼻子眼睛,远看有一个大脑袋,但我们主观感觉就是一张人脸,而不会像看毕加索画一样,眼睛鼻子人脸乱飞。
那么问题来了,人类的听觉系统是怎么抽取时间上长短不一的声音信息,然后让我们产生一种连贯的听觉体验?
经典的看法或者直观的想法是我们的大脑连续加工流进我们耳朵的声音流,一步步把信息收集起来,再看看里面有什么,加工抽取对我们有用的信息,比如音节、辅音、或者小调。这样的看法有一个问题,如果一只眼睛一只眼睛再一张嘴看过来,才认出你的亲娘来,这个太慢了吧。声音不停得往我们耳朵里流,一小段一小段加工,再看看里面有什么意思,等你明白意思,人家红包都抢完了。在现实中,人们听声音理解声音非常过,几百毫秒,扫一下眼睛的时间里,就听懂别人讲什么,周围发生了什么了。
大脑一定有一种快快地计算算法来提取信息。
另一种不太直观的看法是,听觉系统有两个时间窗,一个几百毫秒长,一个几十毫秒长。就像有两双筷子,一个长的粗的去煎油条夹大件,一个短的细的去挑肉丁。两个时间窗口并行地一起处理进来的声音,一个加工长时声音特性,一个加工短时声音特性,再合起来,就能快快地完整还原声音里的信息,给我们主观上一种连续的感觉。
在这篇文章里,我们就用实验验证下听觉系统在用哪种方面加工声音:是经典的一点点连续加工,还是两个窗口一大一小并行加工?
我们生成了几个有不同节奏的时间,一个听起来像人说话的节奏,一个听起来像把‘波泼墨佛’这些辅音连起来讲的节奏(想想你快快地说p p p p p),一个是在两个节奏中间的声音。这个中间音很重要,因为这个中间音的节奏和大脑里分布最广泛能量最高的脑波, alpha波的节奏一样。那么问题又来了,就是如果听觉系统是经典的加工方式的话,这三个声音都会引起听觉系统有节奏的变化,alpha波的节奏可能最大。如果是并行的不太直观的加工方式的话,那听觉系统就不会跟着所有节奏变化,只会加工和其两个窗口长度相符的声音节奏。
我们找来一些人类被试,让他们躺在脑磁图仪(MEG)里,给他们放这些声音,记录他们大脑的脑磁信号变化。因为大脑要是有放应,有些神经元就放电,放电后产生磁信号,我们的脑磁图仪就会记录到这些磁信号。后续分析,可以从这些磁信号来推断大脑神经元怎么活动怎么加工各种声音的。
长话断说,我们使用了各种高级信号处理办法,比如时频分析和相位分析,还有了机器学习办法,又加上了信息论的方法,最后,我们终于得出了结论。很奇怪,很让人惊吓。那结论是这样的,相信你已经猜到了,经典的看法是不对的,我们发现大脑对alpha波节奏的声音没有反应,在各种分析下都对声音加工没有响应。而两个一快一慢的节奏,在大脑里有很强的反应,大脑会跟随这一快一慢的节奏变化。这说明,听觉系统有选择性的在不同时间长度上提取声音信息,很可能用了前面提到的一长一短的时间窗口,并行提取信息。
这个研究对人们进一步理解声音加工有很大的启示。在人工语音识别和声音探测上,往往用了经典的看法,一步步一点点加工声音。而且至今为止,人类的大脑还是识别语音最厉害的计器,大脑在怎么加工声音呢?大脑在有针对地有效地同时抽取声音信息,在两个时间尺度上:一个几百毫秒长的时间尺度,一个几十毫秒长的时间尺度。
文章网址(开源下载):http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2000812
这个时候就有些好学的朋友们就会问了,脑磁图那么高大上的东西,我们没有也买不起怎么办啊,那我会良心安利你们有脑电设备的朋友,用脑电把这个研究做起来,这时候这些好学的朋友们又会问了,哎呀,我们不会数据处理怎么办呀。