作者介绍
黄健,中国科学院自动化研究所模式识别国家重点实验室15级硕博生。目前研究兴趣为多模态情感识别。博士期间在ACMMM,ICASSP,Interspeech等会议上发表多篇论文。曾获中国科学院大学三好学生称号。
导读
语音情感识别能够使人机交互更加和谐自然,近来收到了越来越多的关注。语音情感识别系统主要分为语音情感特征提取和情感建模两个重要的部分。传统的语音情感特征主要是基于手工特征包括韵律、频谱和音质三种,传统的情感模型主要是基于SVM和HMM等方法。随着深度学习的发展,深度神经网络也被成功地应用在了语音情感识别领域,主要是利用神经网络提取更为鲁棒有效地情感特征和基于时序关系建立情感模型,而且其他领域的模型也有效地提升了语音情感识别的性能。
Introduction
语音情感识别是对音频进行情感分类。本文从语音情感识别的情感特征提取和情感模型构建两个方面进行说明,并介绍一些经典的方法和模型。
正文
情感是受外界刺激而产生的主观精神状态,往往伴随着复杂的心理和生理变化(皮电活动增加,心跳加快),并且会对自身的决策和行为(表情、言语和手势等行为)产生影响。因此,情感识别就是依据外在表现地生理信号和行为反应去量化、描述和识别人类情绪。在感知用户情绪的基础上,情感交互系统才能够尽可能像人一样适应用户的情绪并通过多种表达方式影响用户的情绪,有利于提高自然的人机情感交互水平。不同的研究者对于情感有不同的分类,但最常见的包括“高兴”、“伤心”、“生气”和“中性”这几类。情感识别系统主要包括情感特征提取和情感模型构建两个方面,情感识别的研究也是根据这两个方面展开的。
传统的语音情感特征包括韵律(基频、能量等)、频谱(MFCC、LPC等)和音质(jitter、shimmer等)三方面,有研究者专门不同的声学特征对于情感的影响,总结出了许多情感特征集如eGemaps。近来深度学习的发展,许多深度网络方法被用来提取鲁棒的语音情感特征。最典型的是利用无监督学习自编码器通过重建损失来获得有效的特征,并且还能降低特征维度。另外,降噪自编码器通过在输入数据加入一些噪声获得了更为鲁棒的特征。然而,这样提取的特征无法保证都是与情感相关的,因此有研究者将自编码器的中间隐含层部分分为两个部分,并假设一个是情感相关的另一个是情感无关的,重建输入是依据这两个部分的加权和。这样学习的特征可以去除掉一些情感无关的部分。近来,有研究者在此基础上让这两个部分正交以保证更好地区分情感部分和非情感部分,获得了更好的效果。此外,有研究者利用区分性训练使相同情感类别的距离更近,不同情感类别的距离更远已获得更具有可分性的情感特征,具体包括对比损失和三元损失等。
传统的情感模型如SVM能获得较好的性能,但是由于未能考虑到上下文关系,效果未能达到最优。LSTM模型能有对长时时序进行建模,目前是情感识别中使用的最多的模型。其它的一些能考虑时序的模型也在情感识别中获得了较好的性能。针对情感数据较少的特性,有研究者利用半监督学习组合无监督学习和监督学习的优点,能够融合无标签数据,提升在较小数据集上的性能。有研究利用CTC模型将情感识别的多对一问题转换成序列问题,假设一个空状态,并设定一段时长的情感状态是所标注的情感状态和空状态以马尔科夫链的形式存在,以CTC模型进行训练,测试时首先去除空状态,选择预测类别中最多的一类作为最终的预测类别。
情感识别主要包括情感特征提取和情感建模两个部分。随着深度学习的发展,这两个部分分别都被深度神经网络所替代以提取鲁棒可分的情感特征和时序的情感识别模型,并且也建立了端到端的情感识别模型,许多其它领域的模型也成功地应用在了情感识别方向。