机器之心原创
作者:Nurhachu Null
编辑:H4O
INTERSPEECH 是语音科学和技术领域最大、最全面的国际学术会议。INTERSPEECH 2019 将在奥地利第二大城市格拉茨(Graz)举办。在 INTERSPEECH 会议期间,来自全球学术界和产业界的研究人员齐聚一堂,讨论语音领域的新技术,包括语音合成、语音识别、语音增强这些细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。恰逢 INTERSPEECH 20 周年,主办方透露在会议日程上将会出现一些别出心裁的设计,即将参会的同行们可以期待一下。
本文从本次会议论文列表中挑选了一些有代表性的作品进行介绍,主要包含以下方向或主题:鸡尾酒问题、语音脑电编码、低资源语音识别和多模态/大规模语音分割问题。这 5 篇论文分别是:
- 1. Speaker-Targeted Audio-Visual Models for Speech Recognition in Cocktail-Party Environments (用于鸡尾酒宴会问题中的以说话人为目标的听视觉模型)
- 2. SPEAK YOUR MIND! Towards Imagined Speech Recognition With Hierarchical Deep Learning (说你所想!使用分级深度学习进行想象语音识别)
- 3. Multilingual Speech Recognition with Corpus Relatedness Sampling (使用语料相关的采样进行多语种语音识别)
- 4. Who said that?: Audio-visual speaker diarisation of real-world meetings (那是谁说的?:现实会议中的音频-视觉说话人分割)
- 5. Large-Scale Speaker Diarization of Radio Broadcast Archives (无线电广播存档中的大规模说话人分割)
论文 1:用于鸡尾酒宴会问题中的以说话人为目标的听视觉模型
- 论文:https://arxiv.org/pdf/1906.05962.pdf
- 关键词:语音识别/鸡尾酒问题/多模态
1. 作者介绍和论文概括
本文第一作者 Guan-Lin Chao 本科就读于国立中国台湾大学,目前在 CMU 电子与计算机工程系攻读博士学位。面对语音识别领域的「鸡尾酒」问题,本文作者提出了使用听觉-视觉模态融合的思路去构建以说话人为目标的声学模型。在模拟包含两个说话人的「鸡尾酒」环境中实现了显著的性能提升,听觉-视觉模型将错词率从本文的基线 26.3% 降低到了 4.4%,在引入说话人身份信息之后,进一步降低到了 3.6%。
2. 方法
解决「鸡尾酒」问题的传统方法是盲信号分离,不过这个是仅在声音模态进行的处理。而在这个问题中使用多模态的方法,重点还是需要做好模态对齐和融合。语音信号和人脸有着天然的联系,嘴部范围的图像信息之前就被阿里巴巴用于抗噪声的语音识别中。在这篇论文中被用来解决两个说话人的「鸡尾酒」问题。本文在 GRID 数据集中选了 31 位说话人的语音/人脸数据作为研究对象,在每一个目标说话人的模拟数据中,另一个说话人是在其余说话人的数据中随机挑选的。因此,也可以认为,这篇论文实际上是把非目标说话人的语音作为「噪声」对待了。
2.1 特征提取和特征融合
图 1. 三种 speaker-targeted 模型的变体
本文的语音特征并没有使用语音识别中常用的 MFCC,而是使用了 filterbank 特征,它在提取过程中与 MFCC 只差了一个离散余弦变换。而本文所使用的的视觉特征,是对原始数据中的图像做了基于 IntraFace 软件的人脸区域检测,然后把嘴部的原始像素用于视觉模态的特征,说实话,这样的处理可能有点粗暴。然后再添加说话人身份信息,这就是论文标题的 speaker-targeted 的所在。语音特征和视觉特征在输入到 DNN 之前就做了拼接,而说话人身份特征则在一组对比实验(图 2 中的 A、B、C)中做了不同层次的融合:A 是三者的直接拼接;B 是将说话人身份标签的 one-hot 编码做成一个 embedding,然后再和多模态特征拼接;C 是将说话人身份特征和较深层的多模态特征进行拼接。
2.2 声学模型结构分析
如论文中所述,这里把最终构建的模型仍然成为声学模型,因为它是要被用来预测音素标签的。如图 2 所示,speaker-targeted 模型(但包括单模态和多模态)由 5 个隐藏层组成,每个隐藏层包含 2048 个节点,每层的激活函数都是 ReLU。输出层是 softmax 层,它用来预测 2371 个音素标签,预测标签和真实标签之间的交叉熵是要被优化的损失函数。显然,这也属于比较基础的神经网络结构。
3. 实验和结果
本论文使用 GRID 数据集中的正常环境的语音识别数据模拟了两人「鸡尾酒」环境。训练集包含 15395 个句子,验证集包含 548 个句子,测试机包含 540 个句子。每个句子都包含 6 个单词,它们遵循下面的语法规则:
代码语言:javascript复制
$command $color $preposition $letter $digit $adverb
本文的实验结果如图 3 中的表格所示:
图 2. 论文的实验结果
3.1 本文的 baseline
这篇论文在模拟的两人「鸡尾酒」问题中使用说话人独立的单模态模型作为 baseline,得到了 26.3% 的词错率(WER)。模型结构如图 4 所示(不包含虚线部分的视觉特征):
图 3. 本文的 baseline 模型结构
3.2 实验结果
本文提出的模型变体都实现了远远优于 baseline 的性能,最佳性能是在 audio-only 的变体 B 和多模态的变体 A 上得到的,其 WER 直逼说话人相关的模型(单模态和多模态分别是 3.9% 和 3.4%)。
4. 总结
这篇论文提出了以说话人为目标的多模态声学模型来解决「鸡尾酒」问题,所得结果比单模态说话人独立的模型有着显著的性能提升。但是,个人认为本文也有一些不足的地方。比如:本文所用的特征提取方法比较基础,声学特征使用的是 40 维 filterbank 特征,这个无可厚非。但是视觉特征则是嘴部图像的原始像素,说话人身份特征则是简单的 one-hot 编码。如果后两者被做到更高的抽象级别的话,或许会有更好的效果,例如,用 CNN 提取嘴部范围的图像特征(这一点作者在今后工作中也提了一下),而说话人身份特征的话,应该使用所用的数据训练一个声纹模型,用某个层次的 bottleneck 特征会比较好一些。
论文 2:说你所想!使用分级深度学习进行想象语音识别
- 论文:https://arxiv.org/pdf/1904.05746.pdf
- 关键词:想象语音识别、语音相关的脑机接口、语音的脑电编码
1. 单位简介以及论文工作概括
本文是作者在英属哥伦比亚大学人类通信技术实验室所做的工作。论文主要基于一个假设:那就是,人类在想说某句话的时候,对应的脑电信号和说话内容之间会有一定的映射关系。本文的主要目标就是从这种活跃的脑电信号中检测对应的语音标记(token)。论文思想和 2019 年 4 月发表于 Nature 杂志上的那篇「Speech synthesis from neural decoding of spoken sentences」[1] 是有些类似的。只是这篇文章的工作相对简单一些。论文作者使用所提出的分级深度学习结构在 KARA 数据集上进行了实验,最佳模型得到了 83.42% 的音韵二分类准确率,以及 53.36% 的语音标记识别准确率。
2. 本文提出的分级框架介绍和原理解读
图 2. 论文提出的分级架构
如图 2 所示,本文所提出的分级神经网络由三部分组成:a)CNN 与 TCNN 的结合,作为第一级别,用来识别 6 种音韵分类是否存在二分类结果,第一级得到的异构特征将会馈送到第二级别;b)第二级别是无监督的深度自编码器(DAE)。它的目标在于进一步降低上一级输出的空间-时间编码的维度,并且去除背景噪声效果。c)在第三级结构中,DAE 生成的隐含箱向量表征被送入基于 XG Boost 的分类器,并且以有监督的方式进行训练,用来预测脑电信号对应的语音标记的分类结果。
下面详细介绍这个架构。
2.1 输入数据
原始 EEG 信号是典型的的多通道高维数据,但是本文并没有直接使用原始数据。论文提及的实验证明,通过捕捉电极的联合可变性来降低维度是一个很好的策略。而且这种降维的目标还在于对电极之间的关系和依赖在整个时间区间进行建模。最终,通过计算通道互协方差(CCV)来作为模型的输入。CCV 是一个正的半定矩阵,它负责编码电极之间的连接性。定义两个电极 c1 和 c2 之间的 CCV 为:
2.2 第一级结构(CNN&TCNN)
这一级使用两种卷积神经网络来 CCV 矩阵的空间特征和时间特征。它的作用就是预测 6 种音韵的二分类(出现或者未出现),这 6 种音韵分别是:bilabial(唇音)、nasal(鼻音)、vowel(元音)、/uw/、/iy/、和 voiced(浊音)。如图 2 所示,两种卷积神经网络分别是 CNN 和 TCNN。CNN 结构由 2 层 2D CNN 和 2 个全连接隐层组成。所用 TCNN 的结构是 6 个 TCNN 的堆叠,每个 TCNN 都具有空洞因子为 2 的带洞滤波器。最终两种 CNN 结构的抽象特征被拼接在一起形成了联合时间和空间属性的单个向量。
这一级别的目标就是在 6 个二分类任务上进行学习,为更高级别的模型结构(DAE)提供输入,以完成语音标记的预测(11 类)。
2.3 深度自编码器(DAE)
文中所用的 DAE 由 3 个编码层和 3 个解码层组成,它使用的是由第一级结构(CNN 和 TCNN)学习到的时空联合特征。均方差(MSE)是其训练时所用的损失函数。
2.4 基于 XG BOOST 的分类器
这一级别的模型用来得到本文的最终目标——基于 EEG 数据来预测 11 种语音标记(包括 7 个音素和 4 个单词):/iy/ 、/piy/、 /tiy/、 /diy/、 /uw/、 /m/ 、/n/、 pit 、pat、 knew、 gnaw。
3. 训练过程和实验结果
所用的数据集是 KARA ONE 数据集。论文中所述的第一、第二级别的模型都要进行单独的训练,相关的超参数如图 3 所示。其他相关的训练细节在论文第三部分都一一列举出来了。图 4 是 6 种音韵二分类的性能结果。图 5 是 11 种语音标记的分类性能。
图 3. 相关参数选择
图 4. 音韵二分类性能
图 5. 11 种语音标记的分类性能
4. 总结
这篇论文提出了一种分级结构来进行想象语音识别。以 EEG 的互协方差矩阵为输入,第一级结构的 CNN 和 TCNN 分别提取 EEG 数据的空间和时间特征,在 6 种音韵二分类任务上进行训练,这两种模型得到的特征进行拼接之后使用 DAE 进行降维,最后使用基于 XG Boost 的分类器预测 11 种独立的语音标记。论文作者使用了比较多的 trick,实验结果比较先进。尽管这种粗粒度、小规模的实验可能在验证论文的假说上面是不够充分的,但是这种分级的方法看上去还是蛮有意思的。
参考资料
1. Speech synthesis from neural decoding of spoken sentences. Gopala K. Anumanchipalli, Josh Chartier&Edward F. Chang. https://doi.org/10.1038/s41586-019-1119-1
论文 3:使用语料相关的采样进行多语言语音识别
- 论文:https://arxiv.org/pdf/1908.01060.pdf
- 关键词:低资源语音识别
1. 单位介绍和论文主要概括
这篇论文的第一作者 Xinjian Li 目前在卡耐基梅隆大学语言技术研究所(LTI)攻读博士学位。这篇文章的主要面向的是低资源语音识别问题。使用多语言共享声学模型已有的研究方法就是先在一些语料上面进行预训练,然后再针对目标语言精调。但是这篇论文的作者认为以往的这种 pre-train fine-tune 的思路忽视了训练集上各种语料独有的特点和语料之间的相似性。论文中所提出的方法主要是可以利用语料相关性的采样策略。将输入的语音特征和语料 embedding 联合起来作为整个模型的输入,输入具有 4 层双向 LSTM 的声学模型结构进行训练。在训练的不同阶段,使用不同的 temperature 来控制在不同语料上采样的概率分布。实验结果证明,这种采样策略训练得到的声学模型,在音素错误率(PER)上与其他的对比实验相比,有明显的性能提升,而且还得到了与语料相似性以及域相关性有关的有趣结果。需要注意的是,本文做到了声学模型这一步,没有后续的解码过程。
2. 论文方法介绍
图 2. 用于优化语料向量的声学模型
这里的目标就是要为每种语料 C_i 计算出能够对其语料信息能够进行编码的语料向量 e_i。这些语料向量是可以使用标准的多模态模型进行联合训练的。首先,为所有的语料初始化 embedding 矩阵 E,这个矩阵的每一行 e_i 对应的是语料 C_i。接下来,在训练的过程中,e_i 可以作为输入特征的一个偏置,如下所示:
其中 x 是样本特征输入,e_i 是对应的语料 embedding,W 是声学模型的参数,这里所用的声学模型是多语言 CTC 模型,它由 6 层双向 LSTM 组成。
论文的主要创新点在于语料相关的采样。每个语料的相似度是用余弦距离来衡量的:
语料相关的采样主要反映在对不同语料之间的相似度的处理上。特定语料的采样概率分布计算方法如下:
这里的 T 就是在训练阶段用来标准化采样分布的变量 temperature。作者认为不同的 T 值可以构造不同的采样条件。例如,T 越小,采样过程在不同的语料上差别就越小。例如,当 T=0 的时候,就相当于均匀采样,已经与语料相似度无关了:
T 越大,则受语料相似度的影响比较大:
当 T—>∞的时候,这就变成了在某个目标语料上的 fine-tune 过程了。所以,论文作者也写道:「both the pretrained model and the fine-tuned model are special cases of our approach」。在实际训练过程中,T 在随着训练时间不断变化,从很小的值到很大的值,相当于逐渐的从 pre-train 变成了 fine-tune:
其中 k 值是训练的迭代次数。a 是一个用来控制 T 值增长率的超参数,论文中用的是 1.5。
3. 实验和结果
3.1 实验
为了证明所提出方法的有效性,论文在 16 个语料上做了对比实验。选择的语料如图 3 所示。语料的语句数量分布有些不均衡,这个对实验结果会有一定的影响,后面会提到。值得注意的是,每个语料都有一个特定的域,论文中的方法在学习到语料信息的同时,也抽象得到了不同域的信息,这个也有对应的实验结果。
图 3. 实验中用到的语料集
3.2 结果
音素错误率结果如图 4 所示:
图 4. pretrained 模型、fine-tune 模型和预料相关采样(CRS)训练得到的模型的音素错误率比较
显然,fine-tune 模型比 pre-trained 模型性能好一大截,CRS 模型要比 fine-tune 模型还好一些。通过分析跟某个语料最相似的两种语料(不包含该语料本身)可以发现,与该语料 embedding 最相似的大多都是同一语种或者相似的域。如图 5 所示:
图 5. 训练语料之间的相似度
此外,论文作者另外使用更大的语料集合(包含 36 种分布在 3 个域的语料)对语料 embedding 的与相关性做了分析,结果如图 6 所示:
图 6. 语料 embedding 的领域分布(每个语料 embedding 都被使用 t-SNE 将维度降到了 2)
从图 6 可以看出可以看出,语料 embedding 也表现出了比较明显的域聚类结果。
4. 总结
本文提出的方法在多语言共享参数的声学模型上具有比较好的效果,语料相关采样(CRS)起了关键作用,这其实也属于一种迁移学习的方法。这种让采样分布逐渐过渡的方案相比于比较极端的 pre-train 和 fine-tune,虽然具有一定的灵活性。但是这个受数据的影响还是很明显的。
参考资料
[1] S. Dalmia, R. Sanabria, F. Metze, and A. W. Black,「Sequencebased multi-lingual low resource speech recognition,」in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4909–4913.
[2] Y. Miao, M. Gowayyed, and F. Metze,「EESEN: End-to-endspeech recognition using deep RNN models and WFST-baseddecoding,」in Automatic Speech Recognition and Understanding(ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 167–174
论文 4:那是谁说的?:现实会议中的音频-视觉说话人分割
- 论文:https://arxiv.org/pdf/1906.10042.pdf
- 关键词:多模态/说话人分割/系统
简评:实际环境中特定场景中的说话人分割,不仅仅需要声学相关的技术,更需要一些系统层面的工作。多模态是一个大的趋势。
1. 单位简介和论文概述
本文作者署名单位是韩国的搜索引擎公司 Naver[1],但是其他检索结果还显示 J.S. Chung 本人就读(职)于牛津机器人研究所。J.S. Chung 是一位技术牛人,他的个人主页以及 googlescholar 上展示了多篇高水平研究论文的发表 [2]。这篇论文的主要工作是一个基于听觉-视觉多模态的说话人分割系统。论文使用语音活动监测(类似于静音检测)、说话人身份建模(声纹&人脸)、多模态关联等技术得到了具有较好鲁棒性的说话人分割系统。系统在全景视频、单声道以及多声道的音频作为输入的现实会议数据中得到了很好的定量和定性的结果,也在公开数据 AMI 中进行了实验,测试结果超越了所有的对比方法。论文作者还提到,当数据是多声道音频的时候,波束成形方法和视频结合起来可以进一步提升性能。
2. 系统描述
图 2. 系统组成框图
本论文提出的多模态说话人分割方法主要包含两个阶段:a)第一阶段是说话人模型注册;b)第二个阶段是说话人分割。下面主要从这两个阶段展开。
2.1 说话人模型注册
按照论文描述,系统为每个说话人都开发了说话人模型(speaker model),这也就意味着说话人的数量对系统而言是已知的,如此一来,整个问题也就成了一个经典的分类问题,虽然在泛化能力上会有一定的限制,但是在一个已知的域里面也会比较好的奏效。
如图 2 所示,在注册说话人模型之前,首先需要经过一个 AV correlation 的过程,这一步就是去计算音频和视觉的相关性,并由此调整得到一个阈值,用这个阈值去衡量一段音频会不会作为该说话人的注册数据。使用神经网络将一段语音的 MFCC 特征转换成 512 维,同时也使用神经网络图像向量转换到 512 维度。然后计算两者的余弦距离。根据这两个神经网络的训练过程,可以将余弦距离的倒数作为音频/图像对的相似度。这可以作为某段语音是否被作为注册音频的衡量指标。
当然,语音数据是做了很完备的预处理工作的。首先基于科大讯飞基于 LSTM 的模型做了语音增强,然后基于 WebRTC 技术做了非语音切除。在注册说话人模型的时候,论文作者又在不同的数据集上采用了不同的特征方案,笔者猜测可能是为了得到最佳的性能而做的这种尝试吧。所以,和传统的无监督聚类的说话人身份识别不同的是本论文自始至终都是有监督的分类,牺牲一些泛化能力来提高系统在特定域的性能,在这种系统工作中还是很有必要的。
2.2 多模态说话人分割
在推理过程中,要在每一个时间步长为每一个说话人计算一个置信得分。计算方式如下:
其中,C_sm 是说话人声学模型计算得到的置信度评分,C_avc 是音频视频相关度(AV correlation),cos(φ-θ) 是仰角和方位角相位差的余弦值。最终每个时间步长上的说话人分割就是通过上式所述的多模态融合来计算的。
本文提出的多模态说话人分割方法会面临比较复杂的实际环境。比如,有时候会看不到人脸,导致无法计算 AVC,有时候硬件不满足声源定位的条件,就无法进行波束成形的计算。所以,文中提出的融合方法在第二项和第三项分别添加了限制因子α和β。可以通过对它们置零来应对没有人脸或者无法进行声源定位的情况。
3. 实验
3.1 数据
本文所提出的方法在两个独立的数据集上进行了测试,一个是可公开获取的 AMI 会议数据集,另一个是论文作者组织采集的一个多模态会议数据集。图 3 展示的就是两个数据集中各自的一张静态图片。
图 3. 数据静态图片
3.2 评价指标和实验结果
主要的评价指标就是 SPKE(speaker error),代表预测的说话人 ID 是错误的。主要的实验结果如图 4 中的表格所示:
图 4. 实验结果
4. 总结
这篇论文提出了多模态说话人分割的方法,这和真实的会议场景有着天然的融洽性。论文作者详细地阐述了该方法。此外,作为一个系统,它有比较多的功能组件,每个组件都有很多的细节内容。即便作者已经介绍了很多相关的信息,但是要完全复现这一工作还是需要做很多工作的。不过这种多模态的思路值得被广泛地借鉴。
参考资料
1. https://www.naver.com
2. http://www.joonson.com
论文 5:无线电广播存档中的大规模说话人分割
- 论文:https://arxiv.org/pdf/1906.07955.pdf
- 关键词:说话人分割
1. 单位简介和论文概括
这篇论文是关于大规模说话人分割(SD)任务的。说话人分割就是解决「who speak when」的问题。本文一作是 Emre Yılmaz[1],他目前在新加坡国立大学电子与计算机工程系做研究,导师是李海洲教授。Emre 是一个很有才华的人,除了母语土耳其语之外,他还会英语、荷兰语、德语、阿非利堪斯语(南非荷兰语)以及日语。Emre 从读博士,到毕业,到博士后,再到现在一直从事语音相关的研究工作。
这篇论文的主要工作就是在大规模(3000 hours)的音频广播数据集上做了说话人分割的研究。当然,这个大规模的数据集也是本文的基础工作之一,它是基于之前的 FAME! 项目而来的。这些语音数据记录了 1950-2016 之间的一些音频广播,内容大多为演讲或者访谈类,而且是荷兰语和弗里西亚语的混合。
这篇论文在方法上的创新主要体现在为在大规模数据上所提出的分阶段的说话人分割和识别方法。a). 第一阶段是通过基于贝叶斯信息准则(BIC)的语音分段,再加上通过基于混合高斯模型(GMM)的说话人聚类得到录音带级别的说话人分割。b). 第二阶段则是说话人连接和识别,具体就是将第一阶段得到的分割结果进行综合,其目标就是为出现在多个录音带中的说话人分配相同的标签。这一阶段是通过提取 i-vectors 和 x-vectors,并对计算得到的相似度矩阵进行聚类来完成的。论文实验部分基于分割错误率(DER)和说话人/聚类混杂度(speaker/cluster impurity)做了大量对比实验,证明了所提方法在大规模说话人分割任务中的有效性。
2. 关于 FAME! SD 语料
FAME! SD 语料是在之前的 FAME! 项目上边整理而来的。总共包含 6494 个数字录音带,总时长超过了 3000 小时。图 2 是 FAME! SD 语料中录音带时长分布。
图 2. FAME! SD 语料中的时长分布
其平均时长是 28 分 57 秒。说话人连接的最终测试是在其中的 82 个部分标注的录音带上进行的。这 82 个录音带总时长 53 小时,被标注的片段总长 7 小时 20 分钟。在被标注的数据中,共有 215 位说话人,其中 154 位姓名已知,61 位姓名未知。实际的文字记录显示,被标注的说话人中,有 22 位不止出现在一份录音带中,有 5 位出现在 5 个或者多于 5 个的录音带中。可见,FAME! SD 语料不仅规模大,而且说话人分布也挺杂乱的。在后续的实验中,论文作者把做过标注的数据分成了等量的两部分用于开发和测试。
3. 大规模说话人分割和识别方法
论文中采用的方法如图 3 所示。
图 3. 大规模说话人分割和识别系统组成
该方法包括两个不同的阶段,第一个阶段是录音带级别的分割,第二个阶段是说话人连接和识别。
3.1 第一阶段:录音带级别的分割
在这个阶段,采用开源工具 LIUM 对整个数据集做一次录音带级别的分割。得到具有一定质量的「伪说话人」标签。论文作者在做过人工标注的 82 个录音带上进行了测试,在录音带级别得到了 19.6% 的平均错误分割率(DER)。在这批具有标注的数据上得到了 338 个「伪说话人」标签,而实际上共有 215 位说话人。
这阶段的分割过程主要使用了 LIUM 中的以下部分:基于贝叶斯信息准则的分割、基于混合高斯模型的说话人聚类 [3]。
3.2 第二阶段:说话人连接和识别
如图 3 所示,第二阶段(speaker linking)主要由 5 个模块组成:说话人 embedding 的提取、PLDA 打分、相似性矩阵的计算、聚合分层聚类以及最终的说话人标签生成。图 3 右侧的两个分支的区别就在于 embedding 的区别,上面的分支采用的是 i-vector,下面的分支采用的是 x-vector。实验部分也对这两个分支做了不同指标下的对比。
- i-vector 的提取:经过 8 次 EM 迭代训练得到 GMM-UBM,然后采用 Kaldi 的方法(sre16/v1)进行训练。最终使用的时候会得到 600 维的 i-vector。i-vector 在送往 PLDA 打分之前,做了 mean substraction 和 length normalization。
- x-vector 的提取:x-vector 的计算也是采用 Kaldi 中的标准方法。所用的 TDNN 详细结构参数在论文中亦有详细描述。
4. 实验
说话人连接(speaker linking)实验结果如图 4 所示:
图 4. 说话人连接实验结果
从图(a)和图(b)展示的结果可以发现,使用了说话人连接的方法,无论是只在标注过的数据上还是在整个数据集上进行连接,也不管是采用 i-vector 还是 x-vector 方案,其性能(DER)都要优于没有进行说话人连接的情况。而且两种连接方案都有对应的最佳聚类阈值。
图(c)和图(d)展示了不同方案下不同阈值对应的说话人混杂度和聚类混杂度。
总之,从 DER 和混杂度可以看出,使用 x-vector 可以得到比 i-vector 更好的性能,这一点也是与之前文献中说话人相关的研究结果相一致的。
参考资料
[1] https://sites.google.com/site/schemreier/
[2]https://www.nwo.nl/en/research-and-results/research-projects/i/44/12644.html
[3] Sylvain Meignier, Teva Merlin. LIUM SPKDIARIZATION: AN OPEN SOURCE TOOLKIT FOR DIARIZATION. CMU SPUD Workshop, 2010, Dallas, United States. Proceedings CMU SPUD Workshop, <hal-01433518>
本文为机器之心原创,转载请联系本公众号获得授权。