2021腾讯犀牛鸟精英科研人才培养计划课题（七）——自然语言处理

12月11日，2021年腾讯犀牛鸟精英科研人才培养计划正式对外发布。计划截止申报时间为2021年1月28日24:00。

本年度精英科研人才计划将延续人工智能领域顶尖科研人才培养，发布包含机器人、AI医疗、量子计算、智慧城市等12个前沿热议方向，71项研究课题。入选学生将由校企导师联合制定专属培养计划，并获得3个月以上到访腾讯开展科研访问的机会，基于真实产业问题及海量数据，验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将为学生搭建线上和线下学习、交流平台，帮助学生挖掘更多潜能。

本期小编整理了该计划中“方向7：自然语言处理”，欢迎感兴趣的学生关注。

更多课题及方向介绍陆续推出，敬请关注。

（点击了解“犀牛鸟精英科研人才培养计划申请指南”）

方向7

自然语言处理

课题7.1：文本理解（地点：深圳）

研究和探索基于语义分析和知识推理的深度文本理解技术，包括但不限于：1、新型的文本理解模型架构；2、针对社交文本的语言理解技术；3、引入常识及外部背景知识的语言理解模型；4、知识图谱的表示及推理。以及以上理解技术在开放域聊天等场景中的应用。

导师简介：

腾讯专家研究员，博士毕业于清华大学计算机科学与技术系。目前主要研究方向为语义理解和智能人机交互。曾在ACL、EMNLP、WWW、SIGIR、CIKM、AAAI 等国际会议上发表论文百余篇。曾多次担任ACL、EMNLP、WWW、AAAI 等会议的程序委员会委员以及TOIS、TKDE等期刊的审稿人。

课题7.2：机器翻译（地点：深圳）

本课题的主要研究方向是如何缓解神经网络机器翻译模型最核心的忠实度问题，包括但不限于探索新型网络结构和训练框架、基于大规模（含噪声、多领域）语料上的模型学习、改善实体翻译及低频词翻译等。本课题同时探索针对机器翻译的预训练，以更好利用单语数据。

导师简介：

腾讯专家研究员，博士毕业于中科院计算所。主要研究方向为机器翻译和基于深度学习的自然语言处理，在ACL、TACL、EMNLP、AAAI、IJCAI等国际顶级会议和期刊发表论文五十余篇，担任SCI期刊NeuroComputing副主编，多次担任ACL、EMNLP、NAACL会议的机器翻译领域主席，以及AAAI、IJCAI会议的高级程序委员。

课题7.3：神经机器翻译研究（地点：北京）

面向机器翻译，研究内容包括但不限于：通用模型结构优化；混合编码的翻译场景优化；融合预训练技术的翻译模型优化；多语言翻译模型优化；低资源翻译优化；缓解暴露偏差问题、翻译幻觉问题等优化技术以及多模态翻译等。

导师简介：

导师1：腾讯专家研究员，中科院理论物理研究所统计物理专业博士。当前负责机器学习与自然语言理解相关的技术和产品应用，包括对话系统、阅读理解、机器翻译等方向，在ACL、NIPS等顶会上发表过多篇文章。

导师2：腾讯高级研究员，中科院计算技术研究所工学博士学位，研究方向是自然语言处理、机器翻译。研究方向是机器翻译、对话系统、多模态翻译与视觉对话等。在ACL、EMNLP、AAAI、IJCAI、ACM MM、AI等国际顶会/刊上发表论文40余篇，其中1篇论文获得ACL 2019最佳长论文奖。长期担任国际顶会/刊的审稿人。

课题7.4：对话系统及文本生成（地点：深圳）

对话系统的研究课题旨在提出新的模型算法以提高或评测开放领域闲聊对话系统的回复质量，包括但不仅限于：1、融合外部知识和常识的对话生成；2、多轮对话中，如何保持对话的逻辑性及话题延展性等问题；3、打造带有特定人设与性格的千人千面的对话系统；4、开放域闲聊的自动评测方法。文本生成的研究课题提出新的模型算法以提高或评测各种场景下生成模型的效果，包括但不限于：1、如何进行长文本的生成：故事生成、新闻生成等；2、可控的文本生成：给定情感、性格等模型生成能够客观反映给定条件的文本；3、长文档的生成式摘要：如何考虑对长文档的建模，如何生成多句摘要等；4、生成模型的模型分析：模型的可解释性分析、鲁棒性分析、攻击和防御分析。

导师简介：

腾讯专家研究员，博士毕业于香港科技大学。目前主要研究方向为对话系统和文本生成。在ACL、EMNLP、NIPS ICML、AAAI、TKDE、TNNLS等国际会议及国际期刊上，曾发表论文三十余篇，并多次担任会议的程序委员会委员、高级程序委员会委员及期刊的审稿人。

课题7.5：面向文本匹配的预训练语言表示研究（地点：北京/深圳）

句子表示在多个NLP任务中都是重要一环，BERT式的预训练语言模型可用于得到句子的语义表示，解决很多判别式问题。但是，直接使用无监督语料得出句子表示在文本匹配任务并不理想，原因在于：1、如果只取[CLS]位进行句子表示，是针对NSP任务优化的，表示信息有限；2、如果取平均或最大池化，则会引入过多的无用信息；基于以上两点，本课题拟追踪业界文本匹配任务的前沿方法，研究适用于文本匹配的预训练文本表示方法。本课题研究方向：1、针对句子表示的预训任务设计；2、知识图谱融合的文本表示方法研究；3、通用双句匹配任务测评。

导师简介：

腾讯专家研究员，博士毕业于新加坡南洋理工大学、研究方向为NLP预训练、文本分类、对话系统。在TASLP、EMNLP、IEEE Intelligent Systems发表多篇研究论文。CMRC2018、CoQA、SMP2020-EWECT等多项比赛冠军。

课题7.6：预训练语言模型研究（地点：北京）

预训练语言模型是近些年自然语言处理领域最重要的创新工作之一。通过在大规模语料的自监督训练，预训练语言模型极大地提升了文本分类、文本生成、问答、对话等任务的效果。本项目的研究内容涉及预训练模型多个方向，包括理论分析、知识融合、可解释性、多语言、多模态、复杂推理、模型压缩等。通过该项目探索预训练语言模型技术的前沿问题，发表高水平学术论文，并将成果落地于实际工业化场景应用。

课题7.7：面向开放域环境下知识获取与学习（地点：北京）

如何在大量开放域数据中抽取知识，并设计合理高效的知识学习方式将其结合到模型中，使得知识能够灵活有效运用于下游任务中，是当前自然语言处理领域的一个关键问题。其难点主要在于：1、知识表示：如何在开放域中能够不依赖于预定义形式来表示知识；2、知识总结：如何将开放域中获取的半结构化/结构化的知识总结归纳成新的知识类型；3、知识学习：如何将现在的知识学习模型扩展到开放域下知识不断增长的场景。

7.6-7.7导师简介：

导师1：腾讯专家研究员，博士毕业于清华大学计算机系。当前负责自然语言处理相关的研究和应用工作，研究兴趣包括问答、对话、机器翻译等，曾多次获得阅读理解Leaderboard第一名，发表NLP顶会论文多篇，并多次担任相关会议审稿人。

导师2：腾讯高级研究员，主要研究方向包括信息抽取、预训练模型、问答等。目前已在人工智能、自然语言处理等领域的顶级国际会议IJCAI、AAAI、EMNLP、ACL发表相关论文多篇，Google Scholar引用数超过3000。

课题7.8：教育场景中的文本分析与理解方法研究（地点：北京）

研究和探索面向教育领域的文本分析与理解技术，包括但不限于：1、针对主观题和实验报告的自动评分和批改技术研究；2、基于语义理解的文本自动校对技术研究；3、文本的篇章结构分析技术研究；4、引入外部知识的语言分析和理解模型；5、模型预训练技术及其在教育场景下文本理解中的应用。

导师简介：

腾讯专家研究员，博士毕业于上海交通大学。主要研究方向为自然语言处理、对话系统、知识图谱、教育AI等。在ACL、EMNLP、AAAI等顶级国际学术会议或期刊论文发表40余篇，并担任NLPCC 2020、ACL-IJCNLP 2021会议领域主席；此外，持有20余项美国专利。

项目申报方式

— 科研人才培养计划 —

手机扫码进入“预申报”，可获得更多项目通知

PC端访问网址，进入“申报”

https://www.withzz.com/project/detail/99

2021年度犀牛鸟精英人才培养计划

本年度犀牛鸟精英人才培养计划包括“犀牛鸟精英科研人才培养计划”和“犀牛鸟精英工程人才培养计划”两部分。其中科研人才计划旨在为致力于前沿科学研究的学生提供更优质的创新科研平台，助力其借助产业真实场景及海量数据，将理论研究和实践结合，验证学术理论，发表论文和专利。工程人才计划旨在以产业真实项目为牵引，在校企双导师指导下，模拟产业研发场景，组建学生研发团队，通过持续深入的挑战进阶式课题目标达成，培养学生系统性思维，拓展前沿技术视野，提升团队协作水平、解决复杂问题等核心创新能力。

2021腾讯犀牛鸟精英科研人才培养计划课题了解：

课题（一&二）——机器人相关技术研究&AI医疗

课题（三&四）——自动驾驶&量子计算

课题（五）——机器学习及其相关应用研究

课题（六）——语音技术

了解犀牛鸟精英计划更多详情：

2021腾讯“犀牛鸟精英人才培养计划”申请启动

2021腾讯“犀牛鸟精英科研人才培养计划”申报指南

2021腾讯“犀牛鸟精英科研人才培养计划”FAQ

2021腾讯“犀牛鸟精英工程人才培养计划”申报指南

2021腾讯“犀牛鸟精英科研人才培养计划”FAQ

点击“阅读原文”，进入预申报

NLP服务深度学习机器翻译知识图谱

0 人点赞