华裔科学家AI解码脑电波,准确率高达97%

2020-06-30 16:14:42 浏览数 (1)

近几年,随着自然语言技术的快速发展,各大公司的语音助手产品的表现越来越好。现在我们已慢慢习惯这些语音助手的方便和先进了。

而现在,有一项技术却可以将我们的大脑活动转化为完整的文本,而无需我们说一个字。这项技术就是脑机接口技术。

这不是科幻小说。近几十年来,脑机接口的发展突飞猛进,从动物到人类参与者,事实上,已经在尝试该类技术了。

日前,在一项由华裔科学家、美国加州大学旧金山分校神经外科教授Edward Chang博士领导的研究项目中,科研团队使用人工智能解码系统,把人的脑电波转译成英文句子,准确率高达97%。

这项研究以论文《Machine translation of cortical activity to text with an encoder–decoder framework”(利用encoder-decoder框架,将大脑皮质活动翻译为文本)》的形式发表于《自然·神经科学》杂志。

在该项研究中,四名癫痫患者戴上了这种植入物以监测癫痫发作,研究团队进行了一项辅助实验:让参与者朗读并重复一些固定的句子,同时电极记录他们的大脑活动。

然后,将这些数据输入到神经网络中,该神经网络会根据实验的音频记录,分析与特定语音信号相对应的大脑活动模式,比如元音、辅音或嘴巴动作。

图1 解码过程

每个参与者都从两个数据集之一(MOCHA-TIMIT,图片描述)中读取句子,而神经信号则用覆盖整个Sylvian皮质的ECoG阵列(120-250个电极)记录下来。high-γ信号(70-150 Hz)的分析幅度在大约200 Hz处提取,被剪裁为语音句子的长度,并作为输入提供给人工神经网络。

在网络的早期阶段,学习时域卷积滤波器,有效地向下采样这些信号。每个过滤器将所有电极上12个样本宽的窗口中的数据(例如,在示例性高γ信号上显示为绿色的绿色窗口,以红色显示)映射到特征序列的单个样本(在蓝色特征序列上以绿色正方形突出显示);然后滑动12个输入样本,生成下一个特征序列样本。以这种方式产生了一百个特征序列,然后传递给编码器RNN,后者学会在单个隐藏状态下对其进行汇总。编码器RNN也经过训练以预测语音音频信号的MFCC,这些MFCC在时间上与ECoG数据一致,尽管在测试过程中未使用它们。最终的编码器隐藏状态会初始化解码器RNN,后者会根据给定的前一个单词及其自身的当前状态来预测序列中的下一个单词。在测试过程中,将使用先前的预测单词。

图2:解码句子的单词错误率

这个系统产生了一个单词错误率(WER) ,在最好的情况下,其中一个参与者将大脑信号转换成文本的错误率只有3% 。这可能是AI能够获得的最接近于读取人类思想的结果,至少在严格意义上的实验条件下是这样的。

在论文中,研究团队详细列举了大量参与者所说的参考句,以及神经网络产生的预测,有时是错误的,但并非总是如此。但是,当错误显而易见时,它们似乎与人耳听到的语音结果有很大不同(这可能是引入AI的数据集有限所产生的副作用)。

表1:错误解码的句子示例(左边是参考句,右边是预测句)

在最不准确的情况下,无论是语义上还是语音上这些错误实际上与所说的话没有任何关系。比如,“she wore warm fleecy woollen overalls”被解读成“the oasis was a mirage”。

实验中电极覆盖和贡献如下图所示。a-d,四名参与者的解剖重建(根据整个配色方案显示参与者身份的彩色框架),ECoG电极的位置用彩色圆盘表示。对于每个椎间盘,面积表示电极对解码的贡献,颜色表示解剖区域。

当然,处理普通人说话的专业转录员需要成千上万个词汇,相比之下,这个系统仅需学习有限的短句中使用的大约250个单词的大脑皮层特征。

研究小组认为,虽然有许多障碍需要克服,但该系统有一天可能成为失去说话能力的患者使用语言修复的基础。如果真的做到这一点就了不得了。

“在一个长期植入的参与者中,可用的训练数据量将比本研究中使用的半个小时左右的语音大几个数量级,”作者解释说:“这表明该语言的词汇量和灵活性可能会大大增加。”

参考:

https://www.sciencealert.com/new-ai-system-translates-human-brain-signals-into-text-with-up-to-97-accuracy

论文地址:

https://www.nature.com/articles/s41593-020-0608-8

0 人点赞