Nature子刊 | Meta AI 寻求非侵入式方法实现从大脑活动中解码语音

Meta AI公司的研究人员最近开发出了一种很有前途的非侵入式方法，可以从人的大脑活动中解码语音，这可以让无法说话的人通过计算机界面传达自己的想法。他们在《Nature Machine Intelligence》杂志上提出的这一方法融合了成像技术和机器学习。

Meta公司的科学家Jean Remi King告诉医学快报记者：“在中风或脑部疾病之后，许多病人都会丧失说话的能力。在过去几年中，神经假体的开发取得了重大进展：这种装置通常植入患者的运动皮层，通过AI可以控制计算机界面。不过，这种仍然需要进行脑部手术，因此这还是存在风险的”。

除了需要外科手术外，大多数建议的语音解码方法都依赖于植入电极，而确保这些电极在很长时间内(几个月或几年内)正常工作是一项挑战。

是否有一种非侵入式方法来替代借助类似植入物实现的功能？

King和他的同事们探索了一种解码语音表征的替代性非侵入性途径。

King解释说：“我们没有使用颅内电极，而是直接采用了脑磁图技术。这是一种依靠无创设备的成像技术，每秒可拍摄一千多张大脑活动快照。由于这些大脑信号非常难以解读，因此我们训练一个AI系统将其解码为语音片段。”

方法概述

该系统由两个关键模块组成，分别被称为"大脑模块"和"语音模块"。研究人员利用该系统训练它分析脑磁图图像，根据图像中记录的大脑活动预测语音。

图1 方法模型

非侵入的大脑活动记录方式(M/EEG)容易受到噪声的污染，这会使得其在跨试次和跨受试的数据分布差异大。之前研究者们的方法是首先利用专业知识提取手工特征，再输入至特定的解码器进行训练(每个模型只训练一个受试者的数据)。

本文不同于先前的研究，提出了端到端(无需手工特征)的单一结构(跨受试)和使用数据驱动方法从健康受试者听故事和/或句子时非侵入式的M/EEG记录中解码语音。为此，该模型设计了一个’Subject Layer’并且使用对比学习策略匹配语音和M/EEG模态。

模型的总体结构如图1所示，3s长的语音信号通过预训练的自监督模型wav2vec提取深层次的特征，M/EEG使用一个Subject Block和卷积神经网络(CNN)堆叠的结构得到深层次的特征，然后使用对比损失CLIP最大限度的对正这两种特征表示。并且，在测试语音中会存在训练时不存在的单词，因此该模型可以是’Zero-shot’的。因此，该模型比标准分类方法(解码器只能预测在训练期间学习的类别)更通用。

大脑模块经过训练，能从脑磁图记录的人脑活动中提取信息。语音模块则负责识别需要解码的语音表征。通过参数化这两个模块，我们就能在每一瞬间推断出参与者听到了什么。

研究人员在一项涉及175名人类参与者的初步研究中评估了他们的方法。这些参与者被要求听叙述的短篇故事和孤立的口语句子，同时用MEG或EEG的技术记录他们的大脑活动。

研究小组在分析三秒钟的脑磁图信号时取得了最佳结果。该方法解码相应的语音片段，平均准确率高达41%，而有些参与者的准确率则高达80%。

研究小组提出的语音解码系统与各种基线方法相比效果良好，凸显了其在未来应用中的潜在价值。由于它不需要侵入性外科手术和使用大脑植入物，因此也更容易在现实世界中实施。

King表示：“我们的团队主要致力于了解大脑是如何运作的。因此，我们正试图开发这些工具，以量化和理解人工智能与大脑之间的相似性，不仅是在语音方面，还包括其他模式，如视觉感知。”

参考内容

https://www.nature.com/articles/s42256-023-00714-5

—— End ——

meta 计算机模型系统语音

0 人点赞