CCF-腾讯犀牛鸟基金项目课题介绍（二）——语音技术&自然语言处理技术

CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起，旨在通过搭建产学合作平台，连接产业实践问题与学术科研问题，支持海内外优秀青年学者开展与产业结合的前沿科研工作。

2018年CCF-腾讯犀牛鸟基金共涵盖机器学习、计算机视觉及模式识别、语音技术、自然语言处理、大数据技术、区块链等6个重点技术领域，涉及31项研究命题。

上一期，我们介绍了机器学习、计算机视觉与模式识别两个申报主题，这期我们将介绍语音技术专题和自然语言处理技术专题。欢迎青年学者关注了解，希望大家可以从中找到适合自己的申报命题。

三、语音技术专题

3.1 基于机器学习的语音转换技术的研究

通过语音处理改变一个人的语音个性特征,使之具有另一个人的语音特征,但同时保持原有的语义信息不变，着力于在语音自然度提升与相似度提升方向进行深入的研究与探索。

建议研究方向：

1）语音相似度的提升。

2）语音自然度的提升。

3）基于较小样本的语音转换技术。

3.2 音频处理及音效优化

视频内容中的音频,需要适应不同的应用场景,才会有最优的体验,例如在视听娱乐中,更有现场感的音效会令内容生色不少;移动端应用中,人声增强能够降低环境噪音对用户的影响;在创作内容中,使用特定的人声对内容的效果有所提升。

建议研究方向:

1）虚拟环绕声:使用软件编解码技术，使得普通用户在耳机下也能够感受到媲美7.1声道的环绕和多方位的音效。

2）声音增强:针对例如2声轨的一般音频，对人声进行增强，提升视频内容中人声的响度，优化观看视频时的听觉效果,更进一步的把人声、背景、甚至音乐的声音分离成不同的音轨，大量产生视频和音乐的创作素材。

3）视频换声:现时换声技术中有两种方法,变频方法能保留内容但无法产生接近特定人物的语音,识别加合成方法无法保留原来的背景声音,希望探索同时满足产生特定物声音的效果同时完整保留声音内容的技术手段。

3.3 多语种语音识别和信息检索关键技术

随着互联网信息技术的发展，语音数据的各类场景问题变得更加复杂。由以前的针对电话语音的问题，发展到现在如何解决语种小众，场景复杂，隐蔽性极高的问题。尤其是面对诸如阿尔泰语系的维吾尔语，哈萨克语，柯尔克孜语，塔吉克语，乌尔都语（巴基斯坦），印度语（印度），以及东南亚的各个语言包括越南语，泰语，缅甸语时，能够区分这些语种的语音，以及对跨语种下说话人进行辨认，是一个互联网场景下亟待解决的问题。

本命题研究拟采取NIST2016和目前积累的东方小语种中的语言，利用最新的端到端语种和说话人识别技术，研究两者之间的互补和正交，同时针对信道自适应，段长可变性，长音频等该领域问题进行研究。

建议研究方向：

1）利用现有语种和说话人识别中的端到端，最新的信道自适应等技术，实现长音频，可变音频，多语种音频的语种识别。

2）解决目前语种和说话人识别中，针对多类训练测试数据稀疏问题的tripple loss建模，针对短音频的变帧长，xvectors建模，以及用 CNN,LSTM 直接做分类的方法。

3）深入研究偏远小语种地区的方言识别。

跨语种，跨互联网，卫星，电话，手机信道下说话人识别的匹配和自适应问题。

3.4 基于短语音的鲁棒声纹识别技术研究

声纹识别技术在安防，支付及个性化推荐中有着重要的应用价值，相比指纹、虹膜等生物认证技术，基于语音的声纹识别具有特征获取便利、人机交互友好、支持远程操作等特点。如何在产品中利用人的声音判断人的身份信息，进而应用于支付或安防的安全控制，如何提取说话人的身份、性别、年龄等信息，进而针对用户的喜好进行个性化推荐都是有挑战性的重要课题，其成果将有助于制定产品的战略决策，以及提升用户的使用体验。

对于大部分应用场景，基于短语音的声纹识别更具用户友好性，比如智能音箱中的声纹识别。但基于短语音的声纹识别也是研究领域的一个难点，特别是在有噪声或者混响的条件下，短语音识别的准确性会受到很大影响。本课题将面向该领域做更深入的研究探索。

建议研究方向：

1）文本相关的鲁棒声纹识别，比如基于音箱唤醒词。如何利用深度学习技术获得更为紧凑的声纹特征，如何减小噪声或者混响的影响，如何基于深度学习技术搭建端到端的学习框架为该方向的热点问题。

2）文本无关的短语音鲁棒声纹识别，该方法可用于对音箱命令语句的身份判别。目前，如何学习基于整句短语音的深度embedding特征是该方向的研究热点。

3）声纹识别中的防欺诈问题研究，如何应对包括变声，录音，或者语音合成的攻击。

3.5 基于端到端语音识别系统的复杂场景声源定位和分离

近年在业界和学界前沿，以深度学习为代表的尤其是端到端的语音识别出现了一系列激动人心的技术进展。但在业界实际产品落地时，语音识别系统在真正实际的环境中仍表现得差强人意，这些环境包括：远场麦克风，例如起居室、会议室、场内录制等；高干扰环境，例如麦克风同时捕捉到电视、音乐声源；多人语音，例如家庭、会议多方谈话等。如何基于端到端语音识别系统进行复杂场景中声源的定位和分离，并将定位和分离的结果反馈并进一步优化端到端的语音识别，是一项重要的有挑战性的课题，其成果有助于形成有技术壁垒的产品和脱颖而出的商用系统。

建议研究方向：

1）搭建包含声源定位和分离模块的端到端的语音识别系统。

2）结合落地场景中的实际情况，研究得到可用于提高声源定位和分离性能的有效信息。

3）研究循环反馈以预测、修正和自适应处理包括多声源环境、声源定位、声源到多麦克风的混合信道等复杂实际条件的动态系统，提高端到端语音识别系统的准确率。

3.6 基于对抗学习的语音处理算法研究

最近生成的对抗网络及相关方法在图像相关研究中取得了很大的成功，并被开始应用到其他一些研究领域，比如自然语言处理。相比之下，对抗网络在语音上的相关研究还比较少，现有的一些工作也比较初步。我们希望针对腾讯产品的真实场景需求，利用对抗网络及对抗思想来构建相关语音处理系统并提升系统性能。

建议研究方向：

1）基于生成对抗网络的语音和音乐生成。

2）基于生成对抗网络的语音增强、人声分离和音乐分离。

3）基于对抗学习的多领域和说话人自适应技术。

4）基于生成对抗网络的多说话人语音识别。

四、自然语言处理技术专题

4.1 用于特定领域的对话服务机器人

为了给产品注入拟人化、个性化的服务，有很多场景都可以使用对话的形式，与用户进行一对一沟通。例如，为用户介绍游戏玩法、服务功能、FAQ，甚至情绪安抚等特定的领域。如何利用对话语料，投入少量的人力成本，构造能服务于某个特定领域的对话机器人，是一项有挑战性的研究课题，其成果将有助于产品在AI时代的体验升级与节省人力成本。

建议研究方向：

1）对用户的发言进行理解，用结构化的形式（完备地）表达出来。

2）利用相关业务对话语料，建立模型，输入用户发言，直接输出应答。

3）通过技术手段，研究如何衡量对话的质量、有效性与服务效果。

4.2 开放域多轮交互聊天技术探索

人与人之间关于某个主题的交流，往往需要经过多轮对话才会结束。当前尽管某些垂直类别的对话机器人已经很好地支持了多轮交互，但在开放域聊天中，支持多轮交互仍然是一个很大的挑战。构建高质量的基准数据集并且研究多轮交互聊天的方法模型，将是很有实际意义的课题。

建议研究方向：

1）研究聊天数据的数据来源并且构建一份可用于多轮交互聊天相关研究的（中文）数据集。

2）研究如何利用多轮交互中的上下文信息，使生成或者检索得到的回复尽可能与上下文协调一致。

3）多轮交互中的个性化研究：根据与用户的交互历史生成用户画像，并基于画像生成与用户相关的个性化回复。

4.3 基于对抗网络的神经机器翻译

得益于神经网络的建模能力，神经机器翻译模型在质量上取得了突破性进展，逐渐成为了商业在线系统的核心模块。然而，目前神经翻译采用了最大似然估计法，逐词进行优化的方式，缺乏对整句信息的综合考虑，导致译文的连贯性依然存在一些问题。对抗网络(GAN)使用一个生成模型进行预测，使用另一个判别模型评估，能够以句子为单位进行离散的错误反馈，一定程度上可以缓解上述问题。如何成功的构建一个基于对抗网络的机器翻译框架是一个具有挑战性的重要课题，可以有效的改进当前神经机器翻译质量，产生逻辑上更连贯的译文，极大改进用户的阅读体验。

建议研究方向：

1）研究适应于神经机器翻译的判别模型，可以有效区分人工翻译和机器翻译，从而指导机器翻译系统生成更自然的译文。

2）研究更平滑的信息反馈模式，建立生成模型和判别模型之间更通畅的信息传递方法，逐步而不是逐句反馈信号。

3）简化模型框架，提高训练效率，可以将该框架应用到实际系统。

4.4 神经机器翻译和辅助翻译技术探索

基于神经网络的机器翻译模型已经成为主流，在评测及实际应用中都取得了当前最好的效果。但神经网络目前仍然是个黑盒子，缺乏必要的解释性及精确控制性，这给神经网络翻译模型的进一步提高以及模型在实际场景中的应用，都带来了极大挑战。解释并找到一种方式更精确的控制神经网络翻译模型，并将其更好地应用到实际的翻译场景中，将是很有实际意义的课题。

建议研究方向：

1）神经网络翻译模型的可解释性：比如模型中信息传递，各向量表示的物理意义或实际语义等。

2）如何引入外部知识：外部知识（比如命名实体词典、翻译记忆库等）对实际翻译系统的效果有重要的作用，找到一种可行的机制把外部知识引入到当前深度模型中，这具有较高的研究价值。

3）如何构建训练有效的基于短语的神经翻译模型，使得它可以相对容易地扩展到大规模训练数据上。

4）如何加速神经机器翻译的训练，以降低训练模型在时间和经济方面的代价，比如设计有效的数据并行方法，使得可以在多台CPU机器上训练模型。

5）提出新的面向翻译场景的人机交互方法，如交互式机器翻译方法、融合机器翻译的输入法、触屏交互方法。

6）研究如何利用人机交互的上下文信息，使机器翻译生成的自动译文尽可能符合当前译员的要求。

7）译文质量评估研究，给定原文句子和自动译文，在没有参考译文的情况下，对自动译文的全部或者片断生成质量分数。

下一期我们将重点介绍大数据专题区块链专题。敬请期待。

本年度基金申请截止日期为6月25日，请识别下方二维码或点击阅读原文，进入基金官网报名。

期待优秀青年学者加入！

声纹识别语音识别机器翻译神经网络

0 人点赞