杭州电子科技大学孔万增教授团队最新研究成果“Brain-Machine Coupled Learning Method for Facial Emotion Recognition”论文发表在人工智能领域的国际顶级学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(简称TPAMI)上。
文章链接:https://ieeexplore.ieee.org/document/10073607
机器学习的神经网络模型在面部情绪识别等视觉任务中具有良好的前景,但是在小样本数据集训练出来的模型的泛化能力是有限的。与机器不同的是,人脑可以有效地从少量样本中实现所需的信息,从而完成视觉任务。为了学习大脑的泛化能力,本文提出了脑机耦合学习(Brain-Machine Coupled Learning, BMCL)方法,让神经网络同时学习机器的视觉知识和大脑的认知知识。脑机耦合学习利用视觉图像和脑电图(Electroencephalogram, EEG)信号来耦合训练视觉和认知领域的模型。每个领域的模型由公共和私有两类交互通道组成。因为EEG信号可以反映大脑的活动,所以大脑的认知过程由模型按照逆向工程进行解码,通过解码面部表情图像诱发的EEG信号,视觉领域的公共通道可以接近认知领域的认知过程。此外,每个私有通道使用对抗性策略提取每个领域特有的知识,学习之后,BMCL无需脑电信号参与,通过将视觉域的两个通道进行串联,融合机器的视觉知识和从大脑学到的认知知识来对面部表情图像进行分类。
# 研究背景
借助于芯片处理能力(Graphics Processing Unit, GPU)和精心设计的网络架构,如卷积神经网络(Convolutional Neural Network, CNN)的大幅提高,深度学习技术已经取得了重大进展。与人脑不同,经过训练的深度模型依赖于所采用的训练集,而不是通用的原理。因此,深度网络在解释面部情绪识别(Facial Emotion Recognition, FER)等视觉任务方面的能力不如人脑。样本不足容易导致深度网络过拟合和泛化不足。为了提高泛化能力,一些方法试图从人脑中学习认知知识。虽然一些认知神经科学的研究已经调查了视觉皮层和大脑的哪些部分负责这种认知过程,但是对认知过程的研究仍处于初步阶段。此外,人脑和机器在解释视觉任务的原理和结构方面存在差异。因此,虽然现在的神经科学已经取得了一些成果,但仍然没有方法能够直接实现机器来模仿人脑的认知过程。
图1 基于特征映射的方法概述
除了直接模仿之外,逆向工程也是一种从大脑中提取认知信息的可行方案。如图1所示,基于特征映射的方法,分别训练视觉域(① ④)和分析EEG信号以识别大脑在视觉任务中采用的特征空间(② ⑤)。然后,将脑电信号的特征作为目标表征,进一步得到认知域和视觉域之间的特征映射③。通过映射,视觉域的表征可以被转移到认知域。最后,认知域的分类器可以应用于被转移的表征,以提高任务表现(① ③ ⑤)。然而,这些方法忽略了大脑复杂的认知过程以及人脑和机器之间的不同机制。因此,表征映射不能填补两个独立领域之间的全部间隙,不能引入足够的认知知识。如果没有足够的认知知识,这些方法就很难提供具有良好泛化能力的结果。
本文提出了一种脑机耦合学习方法,用于面部情绪识别。与将视觉表征映射到认知信号判别流形不同的是,本文希望按照逆向工程的思路,探索神经网络适应大脑认知过程的能力(①≈②)。通常来说,认知和视觉表征被认为是两个具有关联性的不同领域。脑机耦合学习方法的目的是为了缓解由于领域转移而导致的性能下降。此外,本文有效地利用了视觉领域的公共特征和私有领域特征,用来获得良好的性能。具体来说,每个领域的模型将被分为两个交互通道,即公共通道和私有通道。这两个通道的网络将被同时训练,以获得公共和私有的表征。训练结束后,只有视觉领域的两类通道被串联起来,对面部表情图像进行分类。视觉域的共同通道的模型可以接近人脑的认知过程。因此,机器将拥有类似于人类思维模式的能力,从而提高FER面部情绪识别任务的性能。
# 研究方法
图2 脑机耦合学习方法概述
如图2所示,本文为每个领域构建私有通道,并在认知领域和视觉领域之间构建公共通道。公共通道采用共享参数编码函数,该函数学习捕捉给定的成对输入样本在认知域和视觉域之间的共同点。认知域的私有通道采用一个私有编码函数,学习捕捉认知域的私有信息。视觉域的私有通道采用私有编码函数,学习捕捉视觉域的私有信息。在得到公共和私有的表征后,同一领域的两类表征被简单地串联起来,用于后续的识别任务。最后使用串联的表征通过K-NearestNeighbor(KNN)实现识别任务。
图3 BMCL的学习框架
如图3所示,训练中包括三种不同类型的损失。第一类损失是公共通道的损失。这种损失在两个域之间的共同子空间中学习一个共同的表示。使用这种损失,可以最小化跨模式的异质性。第二类损失是为私有表征设计的。这两个私有表征是在两个具有分布差异约束的私有子空间中学习的。这种约束有助于最大化跨模式的异质性差距。第三类损失与识别任务有关。加入这种损失,整个模型的训练就会趋向于产生正确的结果。基于上述描述,模型的整体学习是通过最小化来进行的。整体损失为 ,其中, 是交互权重,决定每个正则化成分对整体损失的贡献。这些组件的每一个损失都负责实现所需的子空间特性。
# 实验分析
表1 CFAPS数据集上的性能比较
将BMCL与这些先进的网络在中国化面孔情绪图片系统(Chinese Facial Affective Picture System, CFAPS)进行了比较评估。因为CFAPS的样本数量有限,所以这些网络的训练是基于预训练的模型。为了公平比较,BMCL中采用的全连接(Fully Connected, FC)层和KNN作为分类器,对这些模型的特征输出进行分类。如表1所示,BMCL在分类准确率、精确率、召回率和F1得分方面具有最好的性能。虽然CNNNet的性能不如ResNet、DenseNet和VGGNet等一些方法,但是其作为BMCL视觉域特征提取网络,经过耦合学习仍然可以提供更好的结果。这证明了在耦合学习之后,BMCL可以借助认知领域的信息提升性能。另外,经过实验验证,BMCL在几个公共数据集上都具有出色的性能,从脑电信号中训练出来的BMCL方法在新的数据集上也具有良好的泛化能力,并且可以应用于其他网络模型,展示了其实际应用的潜力。
# 结论
本文提出了一种新颖的脑机耦合学习方法,让神经网络同时学习机器的视觉知识和大脑的认知知识,使神经网络产生类似于大脑的认知知识,提高了网络的泛化能力。对于FER任务,用所提出的耦合学习方法对面部表情图像进行分类,通过对脑电信号和视觉图像的耦合学习,所提出的方法的性能优于公共数据集上的大多数最先进的方法。
该项研究成果得到了国家重点研发计划国际合作重点专项,国家自然科学基金企业创新联合基金重点项目、区域创新联合基金重点项目、浙江省脑机协同智能重点实验室等项目的支持。
# 作者简介
刘栋军,戴玮辰(共同一作),章杭奎,金宣妤,曹建庭,孔万增(通讯作者)
通讯作者单位:杭州电子科技大学计算机学院 浙江省脑机协同智能重点实验室
# 通讯作者简介
孔万增,博士,杭州电子科技大学教授,杭州电子科技大学计算机学院党委书记,兼任脑机协同智能技术(科技部)国际联合研究中心副主任,浙江省脑机协同智能重点实验室主任。长期从事人工智能与模式识别、嵌入式可穿戴计算、脑机交互与认知计算等方面的工作。多次在国际顶级期刊和顶级会议上发表学术成果。
—— End ——