2019腾讯犀牛鸟精英人才培养计划课题介绍（八）—视觉及多媒体计算

2019年度腾讯 “犀牛鸟精英人才培养计划”开放申请中，该项目是一项面向学生的校企联合人才培养项目，为期一年。入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养，并获得3个月以上带薪到访腾讯开展科研的机会，基于真实产业问题及海量数据，验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将引进沟通技巧、商业分析、创新思维等定制课程，全面提升学生综合素质。

今年共有10大方向，81个子课题

申报截止日期：2019年1月28日

申报截止倒计时12天

同学们，抓紧时间申报哦

下面让我们一起来看看第八个方向吧

视觉及多媒体计算

8.1 图像/视频内容生成

（地点：深圳）

本项目涉及到图像/视频的处理、编辑、生成等研究问题。研究图像/视频生成模型，探索 GAN、VAE 建模图像与视频时空域信息，进而生成相应的图像和视频。

导师简介

腾讯杰出科学家，博士毕业于美国哥伦比亚大学。长期从事计算机视觉、机器学习、大数据、信息检索等领域的基础研究和产品开发。迄今发表和录用论文 180 篇，总引用次数据 Google Scholar 统计为7000 次。

8.2 人眼视觉视频色彩增强及视频降噪与评估

（地点：深圳）

色彩增强课题面向色彩增强在视频处理的多项应用及难题，包含SDR转HDR，彩度与饱和度的适度增强，视频时域颜色恒常性及多样场景自适应性，以及无参考颜色质量评估。

降噪课题面向视频降噪的先进技术，制定人眼视觉的视频噪声评估标准，结合传统运动加时域变换融合技术，以及深度学习技术，研究微调可控的视频降噪演算法。

导师简介

腾讯专家研究员，加州大学圣地亚哥分校电脑电机博士。加入腾讯致力于深化高品质多媒体服务，在人工智能与云端数据的助力下，规划新世代多媒体的创新之路。

8.3 图像视频美学质量评估相关应用研究及基于深度学习的无参考视频质量评估技术研究

（地点：深圳）

图像美学质量评估是用客观的方法去衡量图像或视频内容在人眼中的美感程度。利用计算方法预测模型，模拟人眼对不同内容的完整视觉感知过程，其涵盖的范围包括构图、色彩、清晰度等基础指标和主题、情感等高级语义信息的评价。

视频质量评估涉及到视频压缩、降噪、去抖动、滤镜风格转换等多项计算机视觉技术研究。本课题结合短视频及直播技术需求，重点探索深度学习在有监督无参考场景下的视频质量评估解决方案。

导师简介

腾讯高级研究员，博士毕业于新加坡南洋理工大学计算机科学与工程学院，主要从事视频编码、图像质量评价等理论和应用研究。在领域内重要学术会议、期刊上发表论文4篇。目前从事视频增强的无参考评价算法研究与相关技术应用落地。

8.4 面向实时音视频服务的高性能服务架构研究及延迟优化（地点：深圳）

本课题将围绕面向实时音视频服务的高性能服务架构展开研究，重点研究：1.高性能、高并发的音视频转码方案。2.高带宽、低开销的网络协议栈设计与实现。

本课题从联合优化的角度出发，分析海量音视频数据，研究编解码器、音视频处理、传输控制三者之间的相互融合与动态适配，通过联合优化方案降低端到端的用户感知延迟。

导师简介

腾讯高级研究员，博士毕业于清华大学计算机系。博士期间主要研究方向为无线网络和移动云计算，曾获得国家奖学金，微软学者奖学金提名，清华大学优秀毕业生等奖励。研究成果发表在ACM Mobicom、Transaction on Mobile Computing (TMC)、IEEE INFOCOM等计算机网络方向CCF A类会议和期刊上，并有相关专利十余篇。目前从事实时音视频传输相关的网络优化研究。

8.5 视频内容理解

（地点：深圳）

视频理解不仅需要学习单帧图像的表示，更要建模时间域的视频帧之间的相关性。视频理解的课题包括有视频分类（Video Classification）、运动识别（Action Recognition）、Action Proposal、运动定位（Action Localization）、视频描述生成（Video Captioning）等。

导师简介

腾讯专家研究员，博士毕业于中国香港中文大学电子工程系，硕士和本科毕业于哈尔滨工业大学计算机学院。现在主要从事深度学习在图像/视频上面的应用，以及一些多模态深度学习方面的研究工作，在国际顶级会议和顶级期刊发表多篇论文。

8.6 人与物体交互视频行为识别算法研究

（地点：上海）

随着近几年诸如ActivityNet的大规模视频行为分析数据涌现，视频理解研究受到学术界较大的关注，而在智慧零售场景中人-物体关系（人货关系）的建立非常重要。

本课题主要研究以下两方面的内容：

1.基于人体姿态估计、视频动作识别等前沿技术，研究高性能高效果的动作行为识别模型。

2.基于二维图像的Human Object Interaction (HOI)算法，扩展至三维的时序视频中。研究视频领域的HOI，从而实现从视频中解析人物交互行为。

导师简介

腾讯高级研究员，清华大学博士，具有多年机器学习研究经验，主要从事深度学习技术的应用研究。在IJCAI、AAAI、ACL等顶级会议发表论文数十篇。目前研究方向为商品识别中的人-物体关系（HOI）识别、动作识别。

8.7 基于少量训练样本的图像和视频理解

（地点：深圳）

在过去的几年里，我们见证了深度学习在图像识别的成功。这些成功，很大程度是基于大规模人工标注的数据集，如PASCAL VOC，ImageNet和COCO。虽然这些数据集已经涵盖了广泛的物体类别，在真实场景中仍然有大量未包含的物体。那么，我们是否能够在没有很多人工标注的情况下仍然能够达到基于大量数据训练同样的成果？在本课题中，我们希望利用少量数据，训练新的场景识别，物体分类、检测、分割和人体行为理解的模型。

8.8 人脸人体视觉计算

（地点：深圳）

随着智能手机和移动计算设备的普及，人脸和人体逐渐成为日常拍摄照片的主要目标之一。无论是To C 场景下的人脸检索、活体鉴别、自动瘦身、美颜美妆、虚拟社交，还是To B 场景下的安防监控、人机交互、行动检测，与人脸、人体相关的视觉算法都有着非常重要的研究和实用价值。本课题以腾讯公司在社交娱乐方面的深厚积淀为基础，依托于腾讯的平台能力，以人脸、人体图片作为重点研究对象，研究内容主要涵盖光照校准、三维重建、姿态估计、表观建模、图片编辑等诸多计算机视觉、计算机图形学的热点问题在人脸、人体图片上的进一步优化和改进。该课题不仅能接触到世界一流的研究问题，与行业最优秀的青年研究者共事，更有机会将研究成果应用于腾讯旗下的游戏、社交、娱乐等相关产品，影响千万用户的社交娱乐体验。

8.7-8.8导师简介

腾讯专家研究员，本科和硕士毕业于中国香港科技大学，博士毕业于新加坡国立大学。发表论文100多篇，包括40 篇CVPR、ICCV、ECCV，Google Scholar被引用4300多次。ICCV’15, ICCV’17 和ICCV’19 Area Chair。

8.9 3D视觉

（地点：深圳）

本课题重点研究基于RGB或RGBD输入的三维场景、物体、人脸、人体等重建，以及重建后的三维表征(Point Cloud, 3D Volume, Mesh等)的语义理解、编辑、渲染、动画等。本课题的研究内容还涉及到SLAM、传感器融合、立体视觉匹配及光流估计、视频物体分割等相关方向。

导师简介

腾讯专家研究员，博士毕业于中国香港城市大学计算机科学系。现在主要从事3D视觉和视频分析相关的研究，在国际顶级会议和顶级期刊发表多篇论文。

8.10 人脸AI关键技术研究

（地点：深圳）

人脸是最重要的视觉信息之一，自动人脸检测与识别研究向来是人工智能和计算机视觉领域的一个热点和难点问题，在工业界和学术界都受到广泛的重视。本课题面向人脸技术在移动互联网、视频监控、政务、智慧零售等相关领域的重大需求，结合计算机视觉技术前沿，以深度学习为主要技术手段，重点突破复杂场景下的人脸识别（2D和3D）、人脸活体检测（2D和3D）、人脸识别对抗攻击与防御研究等国际前沿学术问题。

导师简介

腾讯专家研究员，IEEE 高级会员（IEEE Senior Member），博士毕业于中国香港中文大学，曾任中科院深圳先进院研究员（教授）、博士生导师。研究兴趣包括人工智能、计算机视觉、人脸研究等，在相关领域发表多篇高质量论文，其中基于深度学习的人脸检测与关键点定位经典算法MTCNN（2016年发表至今谷歌引用量已达485次）和基于深度学习的人脸识别经典算法Center face（2016年发表至今谷歌引用量已达510次）在学术界和工业界广受关注。担任国际期刊Neurocomputing的编委。

8.11 藏语OCR识别

（地点：北京）

除中英外，藏语图片是小语种中最大的语种图片，因此读懂图片中的藏语文字是必要的。目前国内对这块的研究与应用落地非常缺乏，原因在于藏语文字图片数据极度匮乏，几乎没有公开数据集可供研究，也没有能在藏语图片文字识别领域有突破的应用和进展。

具体研究内容：

1.应用现有的文字合成技术合成出能模拟社交文字图片效果的藏图。

2.对藏语字符建模，需要对藏语字符构成方式充分理解、建模，才能选取最有效的技术方案。

3.将语言模型用于优化藏语OCR识别。

导师简介

腾讯高级研究员，博士就读于北邮模式识别实验室，主要研究方向为海量社交场景敏感文字，多语种文字，文字关键词的检测与识别。为维护社会稳定做出了重大贡献，保障了每日数十亿的社交OCR图片的内容信息安全和健康。

8.12 人脸识别高挑战问题研究

（地点：上海）

本项目涉及到人脸识别最具挑战的相关技术探索，涉及的方向包括但不限于困难场景下（比如监控环境）的低质量人脸图像识别，包括低分辨率、大姿态、跨年龄、跨地区、跨种族等各种变化因素。涉及的技术包括但不限于基于生成对抗网络（Generative Adversarial Networks, GAN）等技术。基于深度学习、机器学习的理论、模型的前沿创新工作，使模型更加鲁棒、泛化能力更强，做出独特的学术贡献。

8.13 人脸图像分析前沿技术研究

（地点：上海）

本项目涉及到人脸图像分析前沿方向相关技术的探索，包括但不限于人脸配准（Face Alignment）、人脸分割（Face Parsing）、低质量人脸恢复（Face Restoration）、人脸美妆（Face Makeup）、人脸检测（Face Detection）、活体检测（Face Liveness Detection）等研究问题。在基于前沿技术（如生成对抗网络，Attention模型等）的基础上，重点以在相关方向研究创新型/实用型方法为目标进行突破。

8.12-8.13导师简介

腾讯高级研究员，博士毕业于中科院计算所，是最早一批接触深度学习和ImageNet的华人学者。目前依托腾讯的大数据和云计算平台，致力于构建世界上身份、场景和图像数最多、质量最高的人脸数据库，研究大规模人脸识别算法在其中的表现，推动祖母模型再进化。

8.14 通用商品识别研究

（地点：上海）

用CV技术实现通用商品识别，有很多挑战：密集带遮挡的小物体精确定位、对SKU细粒度识别、训练样本不足、复杂光照、视角的影响，需要研究如何利用多尺度、多任务、迁移学习以及聚焦技术等来解决。此外，由于商品的品类数量巨大，如何形成一个通用的商品识别系统来支持未知品类的自动扩充是一个有待探索的研究方向。

导师简介

腾讯高级研究员，上海交通大学博士，美国德克萨斯大学博士后。具有多年深度学习在图像、自然语言处理和音频领域的研究落地经验，在AI领域发表数篇顶会论文，包括ACL、EMNLP、CIKM等。目前研究方向是商品识别、视频行为理解。

8.15 自动驾驶中的道路场景理解

（地点：深圳）

在自动驾驶中，对于环境精确高效的感知是十分重要的。并且自动驾驶的特殊场景，对算法的精度和效率提出了非常高的要求，也推动相关技术在不断进步。本课题会涉及到基于图像的物体检测，语义分割以及基于激光雷达点云的物体检测，在这些任务上面不断提升精度和效率。

导师简介

腾讯高级研究员，本科与硕士分别毕业于浙江大学，博士毕业于中国香港中文大学，主要从事计算机视觉相关研究。在国际顶级会议和期刊（如CVPR、 NeurIPS、ICCV、ECCV、SIGGRAPH、TPAMI、IJCV等）发表超过20篇论文，并为其担任审稿人。获得多项国际知名视觉比赛冠军。目前主要从事图像视频理解和自动驾驶等方面的研发工作。

8.16 移动端自然场景目标检测与追踪算法研究

（地点：北京）

自然场景视频含有极其丰富的信息。基于大数据技术和深度学习方法，移动端实时目标检测与跟踪算法是当前研究热点并有广泛的业界需求。本课题将研发基于自然场景视频的自动检测、识别、追踪方法和技术，实现场景要素自动提取和地图数据快速更新，大幅提升数据鲜度和LBS服务质量。

导师简介

导师1：

腾讯专家研究员，毕业于北京大学城市与环境学系，中国科学院地理科学研究所硕士，美国宾夕法尼亚州立大学博士。长期从事地理信息科学、时空大数据挖掘和可视化、空间优化等研究。2008年荣获美国国家科学基金(NSF) CAREER AWARD。

导师2：

腾讯高级研究员，中国科学院数学与系统科学研究院计算博士。目前在腾讯负责图像识别工作。

8.17 日常场景的分析理解

（地点：深圳/北京）

最近NLP和视觉的融合带来很多新的成果，从图像和视频的标题生成到自然语言向图像或视频的映射等等。这方面的研究大部分沿用标准数据库，却忽略了对日常场景的分析和理解。普通人绝大部分时间都在工作环境或家里，比如办公室、厨房、和客厅等。这些和标准数据库有显著的差别，无论是场景结构、物体组成、还是人的行为。如何把自然语言和这些日常场景结合？本课题将关注以下问题：如何把自然语言映射到相应的物体或人的行为？如何描述这些场景？

导师简介

腾讯专家研究员，研究兴趣为机器学习和计算机视觉，博士毕业于美国南加州大学。在CVPR、ICCV、NeurIPS、ICML、ICLR顶级会议上发表了近20篇论文，并曾经或正在担任IEEE ICCV、ICML、AISTATS和IEEE WACV的领域主席。

8.18 目标检测跟踪与行人重识别

（地点：上海）

本课题围绕目标检测算法与关键点检测算法的结合，研究目标检测算法与关键点检测算法的特性与共性，寻找结合点，合并两种检测任务，得到高性能和高效果的模型。研究行人ReID算法，利用多任务、多尺度、跨域学习等深度学习方法，增强ReID对多朝向、相似衣着和多场景的鲁棒性，提高行人重识别的效果。

8.19 基于深度卷积神经网络的图像局部相似度比对技术研究（地点：上海）

当前的深度学习和深度卷积神经网络技术能够比较好地理解图像的整体（全局）语义信息，然而在图像内容审核、相似/重复图像检测、图像取证等需要图像局部相似度比对的场景下，现有的深度网络技术往往表现的不够好。因此，在当前深度卷积神经网络架构中，如何融入局部相似性特征，是目前业界尚未解决的问题。

8.18-8.19导师简介

腾讯高级研究员，中国香港大学博士，具有多年计算机视觉和机器学习研究经验，主攻深度学习在监控视频中的应用研究，在图像处理和计算机视觉领域发表数十篇论文与专利。目前研究方向为行人ReID，利用深度学习技术实现行人的重识别。