62岁的蒂姆·埃文斯(Tim Evans)在2014年被诊断出患有肌萎缩性侧索硬化症(ALS),这是一种进行性神经系统疾病,会导致肌肉无力、运动和语言功能丧失。埃文斯目前有严重的语言和吞咽问题。他虽然可以很缓慢的说话,但大多数人很难听懂他的话。
他在61岁时参与到约翰斯·霍普金斯大学医学中心和应用物理实验室合作开展的一项临床试验,该试验正在对严重语言和运动障碍患者使用该设备进行一系列研究,以恢复他们因神经系统疾病而丧失的部分能力。
在该研究中,研究人员将皮质电图(ECoG)植入物植入到感觉运动皮层,让埃文斯能够通过六个直观的语音命令操作计算机应用程序。在3个月研究期间,语音命令可以被准确检测和解码(平均准确率为90.59%),而无需进行模型再训练或重新校准。
模型架构
对于BCI神经解码模型,使用Inception Time架构设计了卷积神经网络(CNN)针对时间序列分类,并引入了可变长度的过滤器,以获取不同时间分辨率的分层潜在结构。在CNN的实现中,使用了六个Inception块,每个块有三个Inception模块(图1d),没有神经网络集成。使用植入后第77天至第120天收集的数据对显性语音命令解码模型进行训练。无声语音解码模型在植入后第83天至第225天收集数据进行训练。采用Adam优化器对解码模型进行优化通过保留一整天的数据作为验证集,使用不同的超参数选择来评估模型的性能。
图1、功能控制语音脑机接口原理图。a)神经信号来自两个64通道ECoG阵列,植入负责上肢和语言功能的运动和体感区域。本研究仅使用了下位阵列。b)六个通道的高伽马能量(HGE, 70-170 Hz, z评分)样本。c)通道平均HGE的1-s滚动平均值(每10毫秒更新一次)。该信号的峰值被用来检测语音意图。一旦目标语音被检测到,解码窗口由峰值前2秒和峰值后0.5秒的HGE组成。d) CNN模型(InceptionTime)将HGE的窗口分类为便于通信板导航或外部设备控制的命令。
在实时通信面板控制任务中,要求被试在一块4 × 8的通信板上自由选择自己的目标,并通过发出口头命令走向目标。应用程序开始时,通信板上的一个图标上方出现红色高亮显示。如果接收到输入命令,该高亮显示将变为绿色,如果接收到右、左、上或下命令,该高亮显示将分别向右、向左、向上或向下移动。收到返回命令后,高亮部分变成黄色。
实时解码
临床试验的参与者能够使用BCI实时控制外部设备并导航4 × 8通信板(图1a)。在运动和体感觉皮层区域植入两个64通道高密度ECoG阵列(图1a和4a)。本研究仅使用该阵列解码语音命令。BCI系统利用事件相关的HGE增加来确定用户是否发出了命令(图1b,c)。一旦检测到语音事件,使用卷积神经网络(图1d)在峰值检测前2秒和峰值检测后0.5秒的窗口中对神经特征进行分类。系统一旦收到解码结果,就向参与者提供视觉反馈。
CNN解码模型是根据在单词生成任务中收集的数据进行训练的,在该任务中,受试者被指示阅读屏幕上出现的六个命令。该任务的训练数据收集分别在植入后77天和120天开始和结束。为了适应系统无需重新校准的使用,所有数据都使用在上述时间框架内任意选择的一天(植入后95天)收集的音节重复任务中沉默期(刺激开始前0.8至0秒)的平均值和标准差进行归一化。
稳定的解码器性能超过三个月
本研究将在线准确性定义为当参与者确实发出命令时,与转录匹配的实时分类结果的百分比。参与者的平均准确度为90.59% (95% CI:[89.47%, 92.00%],图2a)。这些结果表明,即使没有再训练或专门的基线重新校准,本研究设计的解码器是非常稳定的。
图2、BCI在超过3个月的在线自定进度实验中表现稳定。a) BCI系统在线精度。每个点代表一个会话。平均几率= 16.16% (n = 10000次模拟,虚线)。蓝线是准确度与植入后天数之间的线性最小二乘回归线。b) BCI每分钟执行的正确解码结果。每个点代表一个会话。蓝线是每分钟正确解码数与植入后天数之间的线性最小二乘回归线。c)每分钟误检次数(蓝点)和漏检次数(紫色三角)。每个符号代表一个实验环节。d)每天每成功解码一次,从语音偏移到BCI系统登记解码结果的时间间隔。对于所有箱形图,中线表示中位数,框的顶部和底部边缘表示分位数。
另外,本研究测量了检测算法的性能指标(图2c)。在整个研究期间,误检率和漏检率都保持在较低水平。研究发现这些指标与植入后的天数之间没有统计学上显著的线性趋势。此外,语音偏移和解码结果被BCI系统注册的中间时间间隔为1.24 s (95% CI:[1.23, 1.25],图2d)。这个响应速度表示系统从参与者发出指令到系统完成相应动作之间的延迟。
解码信号的稳定性
为了量化底层神经信号的稳定性,研究了用于解码模型训练的神经特征和在实时测试阶段收集的神经特征。图3b显示了两个示例电极(位置如图3a所示)在4 s时间内的HGE,从语音开始前1 s开始。在训练数据收集阶段和BCI系统实时使用的每个月,研究发现了类似的事件相关HGE增加模式(图3b)。
图3、从ECoG阵列获得的与事件相关的高伽马活动的稳定性。a)本研究中ECoG阵列的解剖位置。b)两个不同命令在训练和实时使用阶段与事件相关的HGE示例。0秒处的垂直虚线表示开始说话。阴影区域代表95% CI。c)实时使用试验与每通道平均训练数据的相关性。对于每个实时使用试验,计算其HGE与训练数据采集阶段对应命令的平均HGE之间的Pearson相关系数。d)相关性变化率。每个点代表一个通道。填充点表示相关值与植入后天数之间具有统计学意义的线性关系。e)在线使用期间每个命令的对数HGE(非标准化)的通道平均值。线条表示每条指令的HGE与植入后天数之间的线性最小二乘回归线。f)同(d),但针对HE值。
然后,比较了模型训练阶段与原始事件相关的HGE时间序列(相对于语音开始- 1.0到1.5秒)与实时使用的每一天之间的相似性。图3c报告了每个渠道在几天内的Pearson相关系数。尽管通道间的相关值存在差异,但训练过程中神经活动与实时使用之间的相关模式相对稳定。通道平均线有小幅上升趋势(图3c)。对于n = 37/60个通道,观察到相关性评分随时间的增加幅度很小,但具有统计学意义 (图3d)。对于n = 23/60个通道,相关系数与种植后天数之间没有明显关系(图3d)。这些结果表明,在实时使用过程中,神经信号保持了与训练数据的相对相似性。最后,从原始HGE的角度监测神经信号的稳定性,计算了每天在线使用期间每个命令跨通道的平均HGE(相对于语音开始- 1.0到1.5秒)(图3e),结果表明两者之间不具备统计学意义 (图3f)。
电极的贡献
本研究也检查了所选电极对解码性能和稳定性的最大贡献。首先测试了如果ECoG网格只覆盖运动或感觉皮质,是否可以实现类似的解码性能。使用在线会话的神经活动数据模拟了仅运动和仅感觉模型的实时使用,这些数据是通过上述方法使用所有60个电极检测到的。如图4,结果表明,ECoG网格的广泛覆盖可能是实现研究观察到的高性能所必需的,尽管性能稳定性似乎并没有受到减少覆盖的影响。然后,本研究更细致地研究了哪些特定的电极对解码的影响最大。电极影响在整个研究期间启用的空间模式如图4c所示。
图4、研究期间的电极贡献。a)参与者大脑的MRI重建,其上覆盖的是作为临床试验一部分植入的ECoG网格。本研究中使用的电极分别用红色(运动电极)和蓝色(感觉电极)表示。灰色电极未在本研究中使用。b)同时使用运动电极和感觉电极、仅使用运动电极、仅使用感觉电极、仅使用最显著电极对解码模型进行在线精度模拟。概率= 16.67%(虚线所示)。c)每个电极实时使用月份,每个电极对解码结果的相对贡献。
总之,这些研究结果表明,本研究的脑机接口系统的性能和稳定性也适用于实验室模拟现实生活设置下的功能控制。然后,本研究检验了在无声语言的场景,是否可以实现稳定的性能。在这个任务中,参与者被指示默默地移动他的关节和面部肌肉,无声地模仿屏幕上显示的单词。研究结果表明,在没有发声的情况下,脑机接口也可以实现稳定解码。
结论与探讨
本研究证明了基于ECoG植入的语音BCI系统在控制外部设备方面的准确性和稳定性。通过在一个ALS患者身上进行为期3个月的临床试验,研究人员发现语音命令可以被准确检测和解码,而无需重新校准或再训练模型。本研究的结果可能是实现重度瘫痪患者独立家庭使用语音脑机接口潜力的第一步。另一方面,研究发现植入ECoG记录的高伽马反应的稳定性对解码的稳定性起着关键作用。此外,词汇表的限制和参与者的语音障碍是该研究的一些限制。进一步的研究需要验证该方法是否适用于其他类似条件的患者,并探索其他改进BCI性能的方法。
参考
https://onlinelibrary.wiley.com/doi/10.1002/advs.202304853