“意念打字”登Nature封面!每分钟90个字符,准确率达99%

2022-09-21 16:24:31 浏览数 (1)

1960 年代,英国医生 Grey Walter 为确认癫痫病人的脑内病灶,在其贴近大脑皮层的地方放了电极,清晰地获取了病人的神经活动。

这仿佛为 Grey Walter 打开了新世界的大门,突发奇想之下他把电极连接到自制的“电位转换器”上,竟让癫痫病人实现了意念控制幻灯片切换,这便是脑机接口技术的第一次完整实现。

时至今日,脑机接口技术虽未真正大规模落地,但我们对其已不再陌生,即便争议时常存在,技术突破也从未停歇。

在一项新的研究中,来自美国斯坦福大学的研究人员开发出一种用于打字的脑机接口(brain–computer interface, BCI),该接口最终可能让瘫痪患者以他们的思维速度进行交流。相关研究结果发表在2021年5月13日的Nature期刊上,论文标题为“High-performance brain-to-text communication via handwriting”。

图片来源:Nature官网

研究人员表示通过该BCI,研究对象(其手因脊髓损伤而瘫痪)实现了每分钟90个字符的打字速度,在线原始准确率为94.1%,经语言模型自动校正后准确率大于99%。而此前意念打字速度最多只达到每分钟 60 个字符(注:常人打字速度为每分钟 115 个字符)

市面上的辅助打字设备主要依赖于使用该设备的人能够进行眼部运动或发出语音命令。然而,这些技术对那些瘫痪影响眼睛运动或发声的患者不起作用。

相比之下,BCI通过破译大脑活动的模式来恢复功能。这类接口已经成功地恢复了瘫痪患者的简单动作,比如伸手和操纵大型物体。通过直接利用神经处理,BCI为广泛的人群无缝恢复功能提供了诱人的前景。

但是,到目前为止,用于打字的BCI还无法与眼球追踪器等较简单的辅助技术竞争。原因之一是,打字是一项复杂的任务。在英语中,我们从拉丁字母表的26个字母中选择。构建一种分类算法,根据用户的神经活动来预测他们想选择哪个字母,这是一项具有挑战性的工作,因此BCI间接地解决了打字任务。例如,非侵入性BCI拼写器向用户提供几个连续的视觉提示,并分析对所有提示的神经反应以确定所需的字母。最成功的用于打字的侵入性BCI(iBCI)允许用户控制光标选择按键,并达到每分钟40个字符的速度。但是这些iBCI与非侵入性眼球追踪器一样,占据了用户的视觉注意力,并不能提供明显更快的打字速度。

在这项新的研究中,这些作者开发了一种不同的方法,它直接解决了iBCI的打字任务,从而在性能和功能上远远超过了过去的设备。该方法涉及在用户想象自己的写作速度时对字母进行解码。

用于打字的脑机接口(BCI),图片来自Nature, 2021, doi:10.1038/s41586-021-03506-2。

这种方法需要一种分类算法,以预测瘫痪用户正在尝试书写26个字母或5个标点符号中的哪一个。

为了克服这一挑战,研究人员首先重新利用了另一种类型的算法--最初为语音识别开发的机器学习算法。这使他们能够仅根据神经活动来估计用户何时开始尝试写一个字符。每次他们的研究对象想象一个特定的字符时产生的神经活动模式是非常一致的。从这些信息中,他们产生了一个标记的数据集,其中包含与每个字符对应的神经活动模式。他们用这个数据集来训练这种分类算法。

为了在这样一个高维空间中实现准确的分类,这些作者开发的分类算法使用了当前的机器学习方法,以及一种叫做递归神经网络(recurrent neural network, RNN)的人工神经网络,其中RNN特别擅长预测连续数据。利用RNN的力量需要充足的训练数据,但是这类数据在神经接口(neural interface)中是有限的,因为很少有用户愿意想象连续写几个小时。他们用一种称为数据增强(data augmentation)的方法解决了这个问题,在这种方法中,参与者之前产生的神经活动模式被用来产生人工句子,基于这些人工句子训练RNN。他们还通过在神经活动模式中引入人为的变化来扩展他们的训练数据,以模仿人脑中自然发生的变化。这种变化可使RNN BCI更加稳健。

基于这些方法,该算法使参与者能够以每分钟90个字符的速度准确打字--比他过去使用iBCI的表现提高了两倍。并且在线原始准确率为94.1%,经语言模型自动校正后准确率大于99%。

这项研究的成就不仅仅源于机器学习,解码器的性能最终取决于输入的数据。研究人员发现,与尝试手写相关的神经数据特别适合打字和分类任务。事实上,即使使用更简单的线性算法,手写笔迹也能被很好地分类,这提示着神经数据本身在他们的方法的成功中发挥了很大作用。

通过模拟这种分类算法在测试不同类型的神经活动时的表现,研究人员提出了一个关键的新见解--与用户试图画直线时的神经活动相比,手写时的神经活动在字符之间有更多的时间变化,而这种变化实际上使分类更容易。这一知识应该为未来的BCI提供参考。也许与直觉相反,解码复杂行为而非简单行为可能是有利的,特别是对于分类任务。

图片来源:Nature官网

这项新的研究开始展现BCI技术的潜力。iBCI将需要提供巨大的性能和可用性优势,以证明将电极植入大脑的成本和风险是合理的。重要的是,打字速度不是决定该技术是否被采用的唯一因素--这种方法的持久性和稳健性也需要分析。这些作者提出了有希望的证据,表明他们的算法在有限的训练数据下会表现良好,但很可能还需要开展进一步研究,以使这种设备在神经活动模式改变时能够在整个生命周期内保持性能。开展研究以测试该方法是否可以推广到其他用户,以及实验室以外的环境,也是至关重要的。

另一个问题是这种方法将如何扩展并转化到其他语言。这些作者的模拟强调了拉丁字母中的几个字符的写法是相似的(例如r、v和u),因此比其他字符更难分类。有人说的是泰米尔语,它有247个通常是非常密切相关的字符,因此可能更难分类。对于那些在机器学习预测语言模型中尚未得到充分体现的语言来说,转化的问题尤为重要。

尽管还有很多研究工作要做,但是这项新的研究是一个里程碑,拓宽了iBCI应用的视野。因为它使用的机器学习方法正在迅速改进,插入最新的模型为未来的改进提供了一条有希望的道路。这些作者还公开了他们的数据集,这将加快取得新的进展。他们的方法使允许快速交流的神经接口更接近现实。

参考资料: Francis R. Willett et al. High-performance brain-to-text communication via handwriting. Nature, 2021, doi:10.1038/s41586-021-03506-2. Pavithra Rajeswaran et al. Neural interface translates thoughts into type. Nature, 2021, doi:10.1038/d41586-021-00776-8.

0 人点赞