Nature子刊 | Meta AI 寻求非侵入式方法实现从大脑活动中解码语音

2023-11-29 13:52:49 浏览数 (2)

Meta AI公司的研究人员最近开发出了一种很有前途的非侵入式方法,可以从人的大脑活动中解码语音,这可以让无法说话的人通过计算机界面传达自己的想法。他们在《Nature Machine Intelligence》杂志上提出的这一方法融合了成像技术和机器学习。

Meta公司的科学家Jean Remi King告诉医学快报记者:“在中风或脑部疾病之后,许多病人都会丧失说话的能力。在过去几年中,神经假体的开发取得了重大进展:这种装置通常植入患者的运动皮层,通过AI可以控制计算机界面。不过,这种仍然需要进行脑部手术,因此这还是存在风险的”。

除了需要外科手术外,大多数建议的语音解码方法都依赖于植入电极,而确保这些电极在很长时间内(几个月或几年内)正常工作是一项挑战。

是否有一种非侵入式方法来替代借助类似植入物实现的功能?

King和他的同事们探索了一种解码语音表征的替代性非侵入性途径。

King解释说:“我们没有使用颅内电极,而是直接采用了脑磁图技术。这是一种依靠无创设备的成像技术,每秒可拍摄一千多张大脑活动快照。由于这些大脑信号非常难以解读,因此我们训练一个AI系统将其解码为语音片段。”

方法概述

该系统由两个关键模块组成,分别被称为"大脑模块"和"语音模块"。研究人员利用该系统训练它分析脑磁图图像,根据图像中记录的大脑活动预测语音。

图1 方法模型

非侵入的大脑活动记录方式(M/EEG)容易受到噪声的污染,这会使得其在跨试次和跨受试的数据分布差异大。之前研究者们的方法是首先利用专业知识提取手工特征,再输入至特定的解码器进行训练(每个模型只训练一个受试者的数据)。

本文不同于先前的研究,提出了端到端(无需手工特征)的单一结构(跨受试)和使用数据驱动方法从健康受试者听故事和/或句子时非侵入式的M/EEG记录中解码语音。为此,该模型设计了一个’Subject Layer’并且使用对比学习策略匹配语音和M/EEG模态。

模型的总体结构如图1所示,3s长的语音信号通过预训练的自监督模型wav2vec提取深层次的特征,M/EEG使用一个Subject Block和卷积神经网络(CNN)堆叠的结构得到深层次的特征,然后使用对比损失CLIP最大限度的对正这两种特征表示。并且,在测试语音中会存在训练时不存在的单词,因此该模型可以是’Zero-shot’的。因此,该模型比标准分类方法(解码器只能预测在训练期间学习的类别)更通用。

大脑模块经过训练,能从脑磁图记录的人脑活动中提取信息。语音模块则负责识别需要解码的语音表征。通过参数化这两个模块,我们就能在每一瞬间推断出参与者听到了什么。

研究人员在一项涉及175名人类参与者的初步研究中评估了他们的方法。这些参与者被要求听叙述的短篇故事和孤立的口语句子,同时用MEG或EEG的技术记录他们的大脑活动。

研究小组在分析三秒钟的脑磁图信号时取得了最佳结果。该方法解码相应的语音片段,平均准确率高达41%,而有些参与者的准确率则高达80%。

研究小组提出的语音解码系统与各种基线方法相比效果良好,凸显了其在未来应用中的潜在价值。由于它不需要侵入性外科手术和使用大脑植入物,因此也更容易在现实世界中实施。

King表示:“我们的团队主要致力于了解大脑是如何运作的。因此,我们正试图开发这些工具,以量化和理解人工智能与大脑之间的相似性,不仅是在语音方面,还包括其他模式,如视觉感知。”

参考内容

https://www.nature.com/articles/s42256-023-00714-5

—— End ——

0 人点赞