2019腾讯犀牛鸟精英人才培养计划课题介绍（六）—语音技术

2019年度腾讯“犀牛鸟精英人才培养计划”开放申请中，该项目是一项面向学生的校企联合人才培养项目，为期一年。入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养，并获得3个月以上带薪到访腾讯开展科研的机会，基于真实产业问题及海量数据，验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将引进沟通技巧、商业分析、创新思维等定制课程，全面提升学生综合素质。

今年共有10大方向，81个子课题

申报截止日期：2019年1月28日

同学们，抓紧时间申报哦

下面让我们一起来看看第六个方向吧

语音技术

6.1

声纹识别算法研究（地点：深圳）

主要针对声纹识别技术中的难点，比如短语音声纹识别，场景不匹配，噪声条件等进行算法研究。在联合培养期间将接触最新的声纹识别技术，如基于Deep Speaker Embedding的声纹识别，基于端到端的Metric Learning，及更有效的用于优化网络训练的损失函数的构建等。联合培养期间将基于现有方法进行改进或提出新方法。

导师简介

腾讯高级研究员，博士毕业于西北工业大学，在声纹识别方面有6年的研究经验，以一作在TASLP、CSL、ICASSP、Interspeech、SLT等语音方面顶级期刊和会议发表论文十几篇，并多次担任TASLP、Interspeech、ICASSP等期刊或者会议的审稿人。曾在中国香港理工大学从事博士后研究工作，加入腾讯后继续进行声纹识别技术的研究和落地。

6.2

基于神经网络的ASR系统中说话人及领域自适应研究（地点：深圳）

基于深度神经网络的声学模型在许多领域已经取得了很大的突破。但这种模型有对数据的需求量非常大、训练也非常耗时、领域依赖性强的缺点。自适应（Adaptation）是一个解决以上各个问题的方案，包括说话人自适应（Speaker Adaptation）与领域自适应（Domain Adaptation），从而实现用少量的数据去快速更新现有模型，以期在特定的说话人和场景下取得可观的识别精度。联合培养期间将会调研、实现和探索基于Kaldi Chain模型的各种神经网络的自适应方法，包含但不限于Learning Hidden Unit Contribution (LHUC)，Factorized Hidden Layer （FHL）等等。同时也会探索端对端模型（Listen Attend Spell）的自适应方法。

导师简介

腾讯高级研究员，博士毕业于新加坡国立大学，博士论文课题为基于神经网络的声学模型建模。有8年声学模型研发经验。有10 语音顶级会议论文和一篇顶级期刊论文发表。目前在腾讯进行基于Kaldi Chain LFMMI的声学模型建模和基于Listen Attend Spell (LAS)的端对端声学模型研发。

6.3

多说话人语音跟踪的视听融合研究

（地点：深圳/北京）

多说话人语音跟踪对于许多应用非常重要，例如人机交互、监视监控系统等。在本主题中，我们期望解决使用听觉和视觉信息跟踪多个移动说话人的任务。为了更好地处理来自音频、视觉数据或两者被干扰过的数据，需要适当地融合这些多模态信息，使互补信息得到了正确处理和融合，带来有益的效果。

6.4

多模态的情感分析和识别（地点：深圳）

研究目标为感知观众的情感状态，并推荐符合其情感状态的内容。该研究兴趣包括多模态情感分析和识别，具体研究内容包括： 1.分析语音、音乐、文本、图像和视频的情感内容； 2.多模态融合的情感内容理解； 3.基于情绪的多模态事件检测； 4.基于情感的分析、挖掘、检索和推荐音乐、新闻和信息流内容； 5.构建情绪评估基准。

6.3-6.4导师简介

腾讯专家研究员，专注于语音和声音的信号处理（增强、抑制、分离等处理）及语音识别的声学模型研究。目前的研究兴趣包括音频信号处理、关键词唤醒、多说话人分离、多模态的语音识别中的关键技术。

6.5

短视频直播中歌曲场景声学内容检测技术（地点：北京）

短视频和直播是目前互联网类产品的热点，该类场景面临最大的技术难点就是声学场景的复杂性。尤其是在音乐场景下，如何识别低信噪比，复杂BGM（背景音乐）下，哼唱或语音里所含有的内容信息、哼唱者的语种信息和说话人信息，以及一系列围绕信号处理的分离问题，都是本课题的关键。具体研究内容： 1.复杂歌曲场景下的说话人识别，语种识别及其他音频分类问题； 2.复杂场景下的歌声，音乐声去除技术； 3.歌曲关键词快速唤醒系统，歌曲歌词转写系统； 4.探索互联网歌曲直播场景下的单通道增强算法（Noise Cancellation, De-reverberation, Automatic Gain Controll等）。

导师简介

腾讯高级研究员，本科毕业于中科大自动化系，硕博士毕业于中科院自动化所，研究方向为说话人识别，在INTERSPEECH、ICASSP等会议上发表论文5篇。目前扎根于“鉴黄”和“说话人识别”事业，始终坚守在业务第一线，研究内容聚焦在色情音频识别、通用音频分类、说话人识别等音频相关任务中，相关技术已经通过腾讯云对外输出。

6.6

基于环境感知的自适应语音增强及音频信号分离关键技术研究（地点：深圳）

基于信号处理和深度学习技术，通过声音特征提取，对噪声环境进行有效的感知和分类，定义特定的声学场景下的最优降噪策略和网络结构，提升语音增强对复杂噪声的适应能力。研究主要关注音频信号分离技术研究，包括基于深度学习技术，通过特征建模，设计语音分离、音乐分离、韵律识别等算法，可有效的完成复杂音频信号下目标对象的分离。

导师简介

腾讯专家研究员，12 年音频技术研究，参与ITU-T、3GPP、MPEG、AVS等标准组织下多个标准化工作，包括音频压缩、感知质量评估等方向。有30 篇专利（部分已授权）和50 篇标准提案。目前主要研究方向包括：语音通信、语音增强、心理听觉建模、语音质量评估等。

6.7

高表现力的语音说话人转换以及说话风格转换（地点：深圳）

语音合成技术是语音以及多模态智能人机交互的重要输出模块。目前的语音合成技术在说话人训练数据量充足的情况下能够取得很好的效果。但在缺乏训练数据的情况下，如何利用少量的训练句子就能得到一个新的说话人或者说话风格的语音合成系统，仍然是一个亟待解决的难题。并且要使得语音转换后的模型或者系统很鲁棒，说话人或者风格转换的一致性高，这也是一个难点。因此需要学生在学习期间，学习机器学习的基本方法，具备数学建模和深度学习的能力，并且有很好的数学和编程基础。

导师简介

腾讯专家研究员，负责语音合成和说话风格转换的研究和产品落地。读博士期间参加过多次国际语音合成比赛 Blizzard Challenge 并且夺得第一名。博士毕业后在英国爱丁堡大学进行两年博士后研究。发表学术论文二十余篇，其中包括多篇 INTERSPEECH 、ICASSP 等语音届顶尖会议，并且是多个会议的审稿人以及优秀审稿人，发表过多个美国和中国专利。

6.8

多模态说话人分段标记Speaker Diarization（地点：深圳/北京）

在多说话人的场景中，往往不仅需要识别出是谁讲了话还需要标记出谁在什么时候讲了话 (Speaker Diarization)，麦克风阵列以及DOA (Direction of Arrival) 技术可以估计声音的来源，同时人脸识别可以提供给我们语者的方位信息。仅靠声音识别可能会区分出不同语者，但将多模态信息结合起来可以进行更鲁棒的Speaker Diarization。此课题将探讨研究如何结合多模态信息来进行更鲁棒的Speaker Diarization。

导师简介

腾讯专家研究员，剑桥大学博士毕业，主要从事语音识别的研究。研究兴趣包括：深度学习、结构预测、核方法、贝叶斯非参数估计、图模型、语音识别、说话人识别及关键词唤醒。曾获Interspeech及IEEE信号处理中国香港分会颁发的最佳学生论文，美国国际数学建模竞赛一等奖。

6.9

端到端的语音识别（地点：北京）

语音识别是当前AI研究的热点领域，在深度学习框架下，语音识别系统的识别率取得了巨大的改善。但是在某些实际场景下，例如Code-mixing，语音识别率会有明显的下降。构建传统的语音识别系统，需要人工标注多语种的发音词典，耗费大量人力，识别系统的各模块也需独立地做优化。本课题旨在研究端到端的语音识别系统，通过数据、特征、模型等方面的尝试，改善Code-mixing场景下的语音识别能力。