神经接口技术将想法直接转换为打字输出

2022-08-25 14:47:51 浏览数 (1)

本文是Pavithra Rajeswaran和 Amy L. Orsborn两人在Nature上发表的一篇观点评论,主要关于Willett等人在意念手写字上的研究。编译作者:邹思。

我们思考的速度比交流的速度要快得多——当我们在使用智能手机键盘时,很多人就会意识到这一点。对于重度瘫痪的人来说,这种信息瓶颈更为极端。Willett等人在《Nature》杂志上发表了一篇论文[1],报告了一种用于打字的脑机接口(BCI)的开发,这种接口最终可以让瘫痪的人以他们的思维速度进行交流。

市售的辅助打字设备主要依赖于使用该设备的人能够进行眼球运动或发出语音命令。眼动追踪键盘可以让瘫痪患者每分钟输入47.5个字符[2],比没有类似损伤的人每分钟输入115个字符的速度要慢。然而,这些技术不适用于因瘫痪而影响眼球运动或发声的人。而且该技术有局限性。例如,当你用眼睛打字时,你很难一边打字,一边阅读一封电子邮件。

相比之下,脑机接口通过破译大脑活动模式来恢复功能。这样的接口已经成功地为瘫痪的人恢复了简单的运动——比如伸手和操纵大型物体[3-7]。通过直接利用神经处理,BCI有望为广泛的人群无缝恢复功能。

但是,到目前为止,用于打字的BCI 还无法与简单的辅助技术(例如眼动仪)竞争。一个原因是打字是一项复杂的任务。在英语中,我们从26个拉丁字母中选择。基于用户的神经活动,构建一种分类算法来预测用户想要选择哪个字母,这是一项挑战,因此 BCI 间接解决了打字任务。例如,非侵入性 BCI 拼写器向用户呈现几个连续的视觉提示,并分析对所有提示的神经反应,以确定所需的字母[8]。最成功的有创BCI(iBCI;其中一种方法是将电极植入大脑中)用于打字,使用户可以控制光标选择按键,打字速度可达到每分钟40个字符[6]。但是这些 iBCI 与非侵入式眼动仪一样,会占据用户的视觉注意力,并不能提供明显更快的打字速度。

Willett和他的同事开发了一种不同的方法,直接解决了iBCI中的打字任务,从而在性能和功能方面远远超越了过去的设备。这种方法可以在用户想象自己在以自己的速度书写时进行解码字母(图1)。

用于打字的脑机接口 (BCI)

这种方法需要一种分类算法来预测瘫痪用户正在尝试书写的26个字母或5个标点符号中的哪一个,这种方法在无法观察到瘫痪用户的这些尝试并在用户选择时进行预测,这是一项具有挑战性的壮举。为了克服这个挑战,Willett等人首先重新利用了另一种类型的算法——一种最初为语音识别而开发的机器学习算法。这使得他们能够仅根据神经活动来估计用户何时开始尝试编写一个字符。每次他们的研究参与者想象一个给定的角色时,产生的神经活动模式是非常一致的。从这些信息中,研究小组产生了一个带有标签的数据集,其中包含了与每个字符对应的神经活动模式。他们用这个数据集来训练分类算法。

为了在这样的高维空间中实现精确的分类,Willett和同事的分类算法使用了当前的机器学习方法,以及一种称为循环神经网络(RNN)的人工神经网络,该神经网络特别擅长预测顺序数据。利用神经网络的强大功能需要大量的训练数据,但这些数据在神经接口上是有限的,因为很少有用户愿意想象持续几个小时的写作。作者使用一种被称为数据增强的方法解决了这个问题,在这种方法中,参与者先前生成的神经活动模式被用来生成人工句子来训练RNN。他们还通过在神经活动模式中引入人工变异性来扩大训练数据,以模仿人类大脑中自然发生的变化。这种可变性可以使RNN BCIs更加健壮[9]。

借助这些方法,Willett和同事的算法提供了令人印象深刻的精确分类,选择正确字符的概率达到94.1%。通过加入预测语言模型(类似于智能手机上的自动纠错功能),他们将准确率进一步提高到99.1%。参与者能够以每分钟90个字符的速度准确打字,比他使用过去的iBCI时的打字速度提高了一倍。

然而,这项研究的成就不仅仅是机器学习。解码器的性能最终取决于输入的数据。研究人员发现,与尝试手写相关的神经数据特别适合打字任务和分类。事实上,即使使用更简单的线性算法也可以很好地对笔迹进行分类,这表明神经数据本身在作者方法的成功中发挥了重要作用。

通过模拟分类算法在测试不同类型的神经活动时的表现,Willett等人得到了关键的发现-手写时的神经活动比用户试图画直线时的神经活动有更多的时间可变性,而这种可变性实际上使分类更容易。这些知识应该为未来的 BCI 提供信息。也许与直觉相反,解码复杂行为而不是简单行为可能更有利,尤其是对于分类任务。

受试者的 “手写” 笔迹

Willett 和同事的研究开始兑现 BCI 技术的承诺。iBCI 需要提供巨大的性能和可用性优势,以证明与将电极植入大脑相关的费用和风险是合理的。重要的是,打字速度并不是决定是否采用该技术的唯一因素——该方法的寿命和稳健性也需要分析。作者提出了有希望的证据,证明他们的算法在有限的训练数据下表现良好,但可能需要进一步的研究,以使设备在神经活动模式发生变化时能够在其整个生命周期内保持性能。开展研究以测试该方法是否可以推广到其他用户和实验室外的环境也至关重要。

另一个问题是,这种方法将如何扩展并翻译成其他语言。Willett 及其同事的模拟强调,拉丁字母表中的几个字符的书写方式相似(例如 r、v 和 u),因此比其他字符更难分类。我们中的一个 (PR) 说泰米尔语,泰米尔语有247个字符,通常是非常密切相关的,所以可能很难分类。而且,对于那些还没有很好地在机器学习预测语言模型中表现出来的语言,翻译问题尤其重要。

尽管还有很多工作要做,Willett和同事的研究是一个里程碑,它拓宽了iBCI应用的界限。因为它使用了快速改进的机器学习方法,所以插入最新模型为未来的改进提供了一条有希望的途径。该团队还将公开其数据集,这将加速进展。这两位作者的方法使神经接口的快速通信更接近于现实。

参考

Nature封面:脑机接口重大突破!意念手写字速度破纪录!

doi: https://doi.org/10.1038/d41586-021-00776-8

1.Willett, F. R., Avansino, D. T., Hochberg, L. R., Henderson, J. M. & Shenoy, K. V. Nature 593, 249–254 (2021).

2.Mott, M. E., Williams, S., Wobbrock, J. O. & Morris, M. R. in Proc. 2017 CHI Conf. Human Factors in Computing Systems 2558–2570 (ACM, 2017).

3.Hochberg, L. R. et al. Nature 442, 164–171 (2006).

4.Hochberg, L. R. et al. Nature 485, 372–375 (2012).

5.Collinger, J. L. et al. Lancet 381, 557–564 (2013).

6.Pandarinath, C. et al. eLife 6, e18554 (2017).

7.Ajiboye, A. B. et al. Lancet 389, 1821–1830 (2017).

8.Rezeika, A. et al. Brain Sci. 8, 57 (2018).

9.Sussillo, D., Stavisky, S. D., Kao, J. C., Ryu, S. I. & Shenoy, K. V. Nature Commun. 7, 13749 (2016).

0 人点赞