前面专栏中,我们介绍了有关基于图片/视频的人脸表情识别的相关内容,也了解了通过回归的方式来理解表情的方式——基于连续模型的人脸表情识别。在专栏的最后一篇文章中,我们将分享计算机视觉领域中围绕情绪识别主题的一些会议和相关竞赛。
作者&编辑 | Menpinland
随着计算能力的提升、神经网络研究的步步深入,人工智能在机器翻译、行为识别、语音识别以及图像分割、分类、检测等任务中取得了重大突破,推进了这些领域的发展。配以图像、语音识别的人工智能已经逐渐能够“看见”、“听见”,然而人机交互的过程中,让机器真正看得懂、听得懂情感丰富的人类的情绪状态,依然是一个很大的挑战。
未来想让计算机实现真正的人工智能并服务于人,并与人类产生自然的智能化的人机交互,计算机必须具备情绪识别和表达能力,需要具备情感。情绪识别是与人工智能相关的领域,它可以帮助计算机智能的识别人类情感。随着情绪识别领域的不断发展,人们对情绪识别的研究也越来越多,并在人机交流等不同的应用领域中占有重要的地位 [1]。由于人脸表情是最容易获取且最直观反映人的情绪状态的模式,因此在所有情绪识别研究的分支中,基于人脸表情的情绪识别是最早也是最热门的一个分支。
早期的研究者将表情定义为六种基本的情绪:开心、悲伤、惊讶、害怕、厌恶、生气,并通过让相关研究人员或专业的演员在实验室条件下进行“摆拍”获得不同类别表情的方式构建数据集(后续有相关研究对基本情绪类别进行了扩充)。但随着研究的深入,人们发现通过上述的方式进行情绪识别的研究存在着一些弊病:(1)现实当中人脸会出现遮挡、头部姿态变换以及光照变换等更复杂的情况,而且人在自然条件下的表情也不会有在实验室条件下通过“摆拍”得到的表情那么明显。因此,在理想条件下训练得到的算法模型面对现实更苛刻的条件,识别率自然大大下降。(2)将情绪定位为若干类别并不适用于每一种应用场景,如识别驾驶员的情绪更关注的是他的疲劳程度或愤怒程度,教育应用中识别学生的情绪更关注的是他的专注情况。因此,对于不同场景下不同的情绪识别需求应该有不同的评价指标。(3)人可以通过控制自己的面部表情来隐藏自己的情绪,基于单一视觉模态很难有效对情绪进行识别。针对这三大弊病,当前情绪识别也逐步偏向于自然条件下、更多应用场景、更多模态背景下的研究。在每一年的一些涉及到多媒体、人机交互等主题的会议中,都有一些非常前沿的情绪识别竞赛或者主题研讨会(workshop),它们重点关注的是当前情绪识别研究尚未解决的难点或者贴近实际生活的新颖点,了解这些信息可以掌握当前情绪识别研究的趋势,同时学习新颖的研究方法。笔者为大家归纳了2018年至今的一些大型国际情绪识别竞赛和主题研讨,供大家参阅:
1 EmotiW
EmotiW(Emotion Recognition in the Wild Challenge)是一项围绕现实环境中不同的情感计算问题算法竞赛。该挑战提出的初衷是为情感计算研究人员提供一个竞争性平台。这项挑战是ACM 多模态交互国际会议(ACM International Conference on Multimodal Interaction,ICMI)中其中一个挑战。自2013开始,EmotiW每年都会举办一次,挑战的子项目每年都会有所变化。
tips:EmotiW每年其官网对于子挑战的描述可能会存在一定的滞后性,对于子挑战更准确的描述应该参考每年的总结论文。
EmotiW 2018
EmotiW 2018包含三个子挑战:
---群体情绪识别(Group-level Emotion Recognition ,GReco)
---学生专注度预测(Student Engagement Prediction ,EngReco)
---音视频情绪识别(Audio-Video Emotion Recognition,VReco)
群体情绪识别是将一个群体的感知情绪分为积极,中立或消极。社交网络用户通过Internet上传社交活动期间捕获的大量图像。这些图像来自积极的社会事件,例如典礼,婚礼,派对或像会议这样的中立事件,以及一些消极事件,例如葬礼,抗议等。此子挑战中的图像来自the Group Affect Database 3.0 [2]。标签用效价值进行表示。数据集分成三个子集:训练集,验证集和测试集。Baseline是利用Inception V3 3个全连接层(4096)当作三分类任务来做,在验证集和测试集上的准确率分别为65%、61%。
图1|群体情绪识别数据图例
学生专注度预测是预测视频中学生的专注程度。数据集来源于Kaur 等人的研究 [3]。在数据集中,每位学生志愿者被要求观看在线教育视频(MOOC),然后通过笔记本电脑、手机或者网络摄像头等设备录取他们观看的过程。每个视频样本约5分钟时长,录制视频的背景也各不相同,包括有计算机实验室、操场、食堂、旅馆房间等。同时为了突出非受限环境的特点,数据集分散到一天不同时间进行录制,从而实现了包含多种光照条件的目的。数据集分成三个子集:训练集,验证集和测试集。标签的话,专注度被划分为四个等级,0代表极度不专注,3代表极度专注。但最后实现上,是把专注度预测转化为回归问题,同时把0-3的专注度归一化到[0-1]。Baseline是将每个样本分割成不同的片段,每个片段利用LBPTOP或者是借助OpenFace提取特征,最后再利用LSTM完成回归任务,在验证集和测试集上的均方误差分别为0.10和0.15。
图2|学生专注度预测数据图例
音视频情绪识别是将一段音视频中的人的情绪进行识别。挑战采用的数据集为Acted Facial Expressions in the Wild (AFEW) database [4]。视频数据通过关键字检索电影和电视剧片段得到。情绪标签是基本的7类表情(开心、悲伤、惊讶、害怕、厌恶、生气、中立)。数据集同样分成三个子集:训练集,验证集和测试集。Baseline是利用LBPTOP提取特征,用SVR进行训练分类,在验证集和测试集上的准确率为38.81%和41.07%。
EmotiW 2019
EmotiW 2019包含三个子挑战
---群体凝聚力预测(Group-level Cohesion prediction ,GC)
---音视频情绪识别(Audio-Video emotion recognition,AV)
---学生专注度预测(Student Engagement Prediction ,EP)。
tips:EmotiW 2019中的音视频情绪识别、学生专注度预测两项子挑战内容跟EmotiW 2018并无差异,因此不再做详细的描述。
群体凝聚力预测是预测图片中一个群体的凝聚力。数据集是在the Group Affect Database 3.0的基础上进行扩展以及重新修改标签,具体可参考文献[5]。在此项任务中,图片的凝聚力从0到3分为四个等级,0表示极低凝聚力,1表示低凝聚力,2表示强凝聚力,3表示很强凝聚力,问题也像学生专注度预测一样被定义为回归问题。(之所以在等级划分的时候,没有一个介于低凝聚力以及强凝聚力的中间值,是因为这些等级是通过许多人进行标注的,即便受过相关的培训,当标注者比较模棱两可或者比较疏忽大意没仔细看,就会偏向打中间值,这样就很容易出现中间值偏多的样本不均情况,这种标注方式是参考学生专注度的标注方式,具体可参考文献[6])Baseline是用Inception V3 3个全连接层(4096)作为基础模型,权重以ImageNet预训练的权重作为初始化并进行微调,在验证集和测试集上的均方误差分别为:0.84和0.50。
图3|群体凝聚力预测数据图例
EmotiW 2020
EmotiW 2020包含四个子挑战:
---自然状态下专注度预测(Engagement Prediction in the Wild)
---基于音视频的群体情绪识别(Audio-video Group Emotion Recognition)
---驾驶员注视预测(Driver Gaze Prediction)
---基于生理信号的情绪识别(Physiological signal based emotion recognition)
基于音视频的群体情绪识别。此项任务跟EmotiW 2018的群体情绪识别相似,只是样本输入类型变成了音视频了。Baseline就是利用在基于图片的群体情绪识别数据集上进行预训练的模型来提取特征,最后在验证集上的准确率为50.05%。
驾驶员注视预测是判断驾驶员眼睛所注视的方向(可看做是对驾驶员专注度预测的一种方式)。数据来源为Driver Gaze in the Wild (DGW) dataset [7]。数据采集的方式比较特殊。首先人为将车内区域划分为9个区域,然后通过指令的方式,依次让模拟的驾驶员朝9个区域看,看的时间持续大约15-20s。同时数据采集设计了是在多种光照条件下进行采集,增加了任务的难度。数据的标签通过语音转文字的方法进行标注。这项任务将预测驾驶员注视方向转化为预测驾驶员朝哪个方向看的问题,因此是分类任务。
虽然是视频采集,但是baseline采用的是基于图片的网络模型,如Alexnet,Resnet和Inception Network(笔者猜测可能是将视频中代表性帧选出来然后匹配视频的标签,从而构成了一个图片的数据集)。同时为了避免人脸检测算法失效导致样本不含人脸的问题,baseline采用密集光流的方法,如果连续两帧光流的Frobenius 范数超过某个阈值则抛弃后面的那帧(类似于于相似度算法)。最后在验证集上达到了56%的准确率。
图4|驾驶员注视预测数据图例
基于生理信号的情绪识别是利用生理信号来对情绪进行识别。数据集来源于PAFEW [8]。该数据集包含的生理信号包括:皮肤电活动(electrodermal activity,EDA), 皮肤温度(skin temperature,SKT),光容积扫描术(Photoplethysmography,PPG,监测心率和氧饱和度最常见和简单的方法之一 [9]),心搏间期(inter beat intervals),心跳(heart rate)和瞳孔信息(pupil information)。志愿通过观看AFEW中的视频产生生理信号,因此每个生理信号样本对应的情绪标签也是基本的七种。这项挑战里仅采用EDA进行比赛。
Baseline先利用多种运算,将信号转化为特征向量。然后分两个阶段用深度神经网络(DNN,仅包含全连接层)训练。第一阶段是以高/低唤醒值或者正/负效价值二分类得到一个中间向量,然后再进行情绪的七分类。如果仅使用单阶段DNN进行七分类,准确率为42.08%,使用双阶段DNN训练,准确率最高可达42.57%,提高了0.49%(论文中此项数据有误)。
2 AVEC
AVEC是ACM MultiMedia的子活动。挑战赛举办的目的是为多模态信息处理提供通用的基准测试集,并将基于听觉,视觉和视听觉情绪识别社区聚集在一起,从而能在确定的条件下对不同的健康和情感分析方法的进行相互比较。同时希望借助这个比赛能改进健康和情绪识别系统,以便能够处理大量的未细分、非原型和非预选数据中的完全自然行为,因为这正是现实条件下多媒体和人机交互必须面对的问题。所有比赛参与者都必须在完全相同的条件下竞争,以比较各自用于自动听觉、视觉以及视听觉健康和情绪感知的多媒体处理和机器学习方法。
tips:AVEC各项子挑战各种基准实验做得比较详尽,因此baseline建议去每一年的总结性论文查看;同时AVEC各项子挑战跟前几年的相关性较强,单独看某一年的任务,会比较难理解。
AVEC 2018
AVEC 2018包含三个子挑战:
---双向情感障碍子挑战(Bipolar Disorder Subchallenge,BDS)
---跨文化情绪子挑战(Cross-cultural Emotion Sub-challenge,CES)
---“黄金标准”情绪子挑战(Gold-standard Emotion Sub-challenge ,GES)。
双向情感障碍子挑战。在此项任务中,参与者必须根据年轻躁狂症评分量表(Young Mania Rating Scale,YMRS)将躁狂发作后入院并出院的BD患者分为躁狂症,低躁狂症和缓解三类。数据集采用的是BD corpus [10]。数据集包含的47位BD患者从入院到出院之日定期录制的访谈视听记录。该问题被定为三分类问题,评价指标是这三类的未加权平均召回率(Unweighted Average Recall,UAR)。
跨文化情绪子挑战。在此项任务中,参与者必须从视频对话数据集中,借助一种文化的数据,跨文化(德国-->匈牙利)去连续预测另一种文化的三个情感维度(唤醒值,效价值和喜好值)的水平。数据集在SEWA [11] 的基础上进行跨文化的拓展。评价指标是在维度上平均的一致性相关系数(total Concordance Correlation Coeffcient,CCC)。
“黄金标准”情绪子挑战。该项挑战要求参与者融合由多个注释者提供按时间连续的情绪维度标注生成可靠的“黄金标准”。然后,将获得的标签用于训练和评估基于RECOLA数据集的基准多模态情感识别系统 [12]。该数据集包括法国人交互时的视听和生理记录,标签由法语为母语的标注者的标注。评价指标是在维度上平均的一致性相关系数(total Concordance Correlation Coeffcient,CCC)。
AVEC 2019
AVEC 2019包含三个子挑战:
---心理状态子挑战(State-of-Mind Sub-challenge,SoMS)
---AI检测抑郁症子挑战(Detecting Depression with AI Sub-challenge,DDS)
---跨文化情绪子挑战(Cross-cultural Emotion Sub-challenge,CES)。
tips:跨文化情绪子挑战跟AVEC 2018差距不大,只是加多了中国人视频对话数据,因此不再另外补充。
心理状态子挑战。此项任务将关注人类持续适应的心理状态(State-of-Mind,SOM)。SOM对于人的心理功能和行为调节至关重要。人类的SOM由于内部和外部刺激而不断变化,习惯性使用适应性或适应不良性SOM会影响心理健康。参赛者需要从视听记录的个人叙述中预测报叙述者的情绪。使用的是 Ulm State-of-Mind in Speech (USoMS) 数据集 [13]。采用的是评价指标是一致性相关系数(Concordance Correlation Coefficient,CCC)。(tips:在介绍了是用“audiovisual record”的字眼描述这个任务,但是在数据集公布的论文[13]中貌似只有音频信息。)
AI检测抑郁症子挑战。此项任务会给定被采访者与AI虚拟采访人员的对话,参赛者需要通过这些对话去评估被采访者的抑郁严重程度。数据集是Distress Analysis Interview (DAIC) [14] 的一个子集Wizard-of-Oz。这个子集只包含被采访者与虚拟采访人员的对话,因此也只有语音数据。采用的是评价指标是一致性相关系数(Concordance Correlation Coefficient,CCC)
3 MuSe
2020 ACM MultiMedia里有关情感挑战的Workshop不再是AVEC,而是换成了MuSe(Multimodal Sentiment Analysis)。最主要的区别是,MuSe关注的内容增加了基于文本的情感分析,突出三种模态(视觉、听觉、文本)方法的对比以及融合。过往的比赛要么专注于视听的方式,将情感转化为连续的唤醒度或者效价度,但这经常忽略文本信息的潜在贡献;要么专门研究用于符号信息分析的NLP方法去完成离散情感标签类别的预测。这两大类情感分析的方法有很多相似的地方,尤其是都受到深度学习方法的巨大影响,因此如果综合三种模态的信息,对于真实场景下的情感识别可能会有明显的提升。
2020年包含了三个子挑战,与以往AVEC不同的是,三个子挑战使用的数据集是相同的,也是因为这个比赛第一次公布的MuSe-CaR数据集。该数据集是包含着有三种模态标注的信息。比较神奇的是,虽然挑战主题是情绪识别,但是该数据集主题却是与汽车相关的,所探究的情绪,更多关注是车主对其爱车的”情绪“或者他自身驾驶的情绪状态,因此比赛呈现出来的商业性质稍微浓了一点。
MuSe三个子挑战分别为:
---Multimodal Sentiment in-the-Wild Sub-challenge(MuSe-Wild):参赛者必须从视听数据中连续地预测情绪维度(唤醒-效价)的水平。
---Multimodal Emotion-Target Sub-challenge (MuSe-Topic):参赛者预测视频中讨论特定主题(10类,一般信息,成本,性能,质量和美学,安全,舒适,外观特征,内部特征,操作/驾驶体验,用户体验)以及每段视频讨论者的唤醒、效价值的程度(高、中、低)。
---Multimodal Trustworthiness Sub-challenge (MuSe-Trust):参赛者需预测视听数据的可信程度。
除了上述比赛,比较有名的还有每年Conference on Automatic Face and Gesture Recognition(FG)下的各种Workshop以及Challenge/Competition,更多情绪识别的相关内容,请参考:https://github.com/EvelynFan/AWESOME-FER
4 参考文献
[1] 邬晶晶. 基于深度学习的情绪识别技术[D].中国科学院大学(中国科学院深圳先进技术研究院),2020.
[2] Dhall A, Joshi J, Sikka K, et al. The more the merrier: Analysing the affect of a group of people in images[C]//2015 11th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2015, 1: 1-8.
[3] Kaur A, Mustafa A, Mehta L, et al. Prediction and localization of student engagement in the wild[C]//2018 Digital Image Computing: Techniques and Applications (DICTA). IEEE, 2018: 1-8.
[4] Dhall A, Goecke R, Lucey S, et al. Collecting large, richly annotated facial-expression databases from movies[J]. IEEE multimedia, 2012 (3): 34-41.
[5] Ghosh S, Dhall A, Sebe N, et al. Predicting group cohesiveness in images[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.
[6] Whitehill J, Serpell Z, Lin Y C, et al. The faces of engagement: Automatic recognition of student engagementfrom facial expressions[J]. IEEE Transactions on Affective Computing, 2014, 5(1): 86-98.
[7] Ghosh S, Dhall A, Sharma G, et al. Speak2Label: Using Domain Knowledge for Creating a Large Scale Driver Gaze Zone Estimation Dataset[J]. arXiv preprint arXiv:2004.05973, 2020.
[8] Liu Y, Gedeon T, Caldwell S, et al. Emotion Recognition Through Observer's Physiological Signals[J]. arXiv preprint arXiv:2002.08034, 2020.
[9]https://www.linkedin.com/pulse/photoplethysmography-ppg-kaveh-mohamadabadi
[10] Çiftçi E, Kaya H, Güleç H, et al. The turkish audio-visual bipolar disorder corpus[C]//2018 First Asian Conference on Affective Computing and Intelligent Interaction (ACII Asia). IEEE, 2018: 1-6.
[11] Kossaifi J, Walecki R, Panagakis Y, et al. SEWA DB: A rich database for audio-visual emotion and sentiment research in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
[12] Ringeval F, Sonderegger A, Sauer J, et al. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions[C]//2013 10th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2013: 1-8.
[13] Rathner E M, Terhorst Y, Cummins N, et al. State of mind: Classification through self-reported affect and word use in speech[C]//INTERSPEECH. 2018: 267-271.
[14] Gratch J, Artstein R, Lucas G M, et al. The distress analysis interview corpus of human and computer interviews[C]//LREC. 2014: 3123-3128.
总结
本文分享了计算机视觉领域中围绕情绪识别主题的一些会议和相关竞赛,了解到当前国内外在情绪识别领域研究的热点。到这里,人脸表情识别专栏内容就已全部更新完毕。由于笔者研究范围有限加上时间的原因,像基于人脸活动单元的人脸表情识别以及一些更小众的表情识别领域就没有涵盖到专栏之中。同时当前专栏仅含理论上的分析,还缺乏实践性的指导,如果还有条件,就等之后再来更新了~
最后感谢有三AI提供的平台,感谢三哥在专栏更新过程中给予的耐心指导,希望本专栏内容能够对研究该领域的小伙伴有所帮助,也希望有三AI越来越好,共勉~
有三AI秋季划-人脸图像组
人脸图像小组需要掌握与人脸相关的内容,学习的东西包括8大方向:人脸检测,人脸关键点检测,人脸识别,人脸属性分析,人脸美颜,人脸编辑与风格化,三维人脸重建。