求实求新 | 2018年CCF-腾讯犀牛鸟基金成果分享（二）

在越发重视科技自主创新，新产业国际竞争逐渐激烈的时代，我们更加坚信，科研道路没有捷径可走，只有脚踏实地，一步一个脚印，不断积累方能实现创新。

7年来，犀牛鸟基金为全球范围内的青年学者提供了解产业真实问题、接触业务实际需求的机会，并通过连接青年学者与企业研发团队，开展基础扎实的产学科研合作，推动双方学术视野的拓展及原创应用成果的落地，为科技自主研发的探索和创新储备能量。

2018年CCF-腾讯犀牛鸟基金合作进入收官阶段，小编将分四期介绍全部25个科研基金项目，本期将继续重点介绍《计算机视觉及模式识别》研究方向中的合作者及其合作项目。

点击 2018年CCF-腾讯犀牛鸟基金成果分享（一），了解更多。

2018年CCF-腾讯犀牛鸟科研基金成果概述

2018年，CCF-腾讯犀牛鸟基金共计支持25项科研基金以及15项创意基金，在为期一年的项目周期中，科研基金获奖者与腾讯研发团队在共同关注的前沿科技领域开展深入合作，促进了高质量学术成果的产出，推动了研究成果的产业落地与应用。青年学者累积发表学术论文146篇，其中CCF A类论文60篇、B类论文39篇，联合撰写论文30篇，申请合作专利22项，部分技术储备将落地于相关业务。

10月17日，2018年度CCF-腾讯犀牛鸟基金项目结题评审会将在中国计算机大会（CNCC 2019）期间举行。届时，基金获奖者将集中展示他们一年来的合作成果。与此同时，由二十位内外部犀牛鸟专家组成的评审团，将现场评定并颁发本年度犀牛鸟基金的“卓越奖” 、“卓创奖”、“优秀奖”和“优秀专利奖”。

2018年CCF-腾讯犀牛鸟基金获奖者项目成果分享

项目负责人介绍

西交利物浦大学王秋锋

王秋锋博士，西交利物浦大学副教授。于2012年7月在中科院自动化所获得模式识别与机器智能方向博士学位（硕博连读），并获中科院院长奖。博士毕业后，分别在中科院自动化所模式识别国家重点实验室以及微软工作，于2017年2月加入西交利物浦大学。主要研究兴趣为模式识别与机器学习，特别是文档分析与识别。

项目介绍

复杂背景文档图片中的关键词检索方法研究

项目面对复杂文档情况，包括前景复杂（比如手写、多语种）和背景复杂（比如自然场景、网络图片），进行文字识别研究。主要研究数据生成、分类器性能优化、语种判别等内容。项目具有广阔的应用前景，比如社交平台上的图片文字进行识别和理解，帮助信息安全建设。

项目是一个综合性课题，针对其中的不同问题，分别进行研究。首先，这是一个识别问题，因此考虑目前流行的深度神经网络分类器。为了进一步提升其分类器的性能，从优化最小类內距离同时最大类间距离的准则出发，结合核函数技术，学习神经网络分类器，具体原理如图1所示。

图1：结合核映射的最小-最大训练准则示意图

针对缺乏足够的样本，进行利用对抗学习进行生成文档数据的研究。在低分辨率图像生成高分辨图像的GAN网络中，融合了分类器进行整合训练，从而使得生成的图像（比如文字）更加具有类别区分能力，具体原理如图2所示。

图2：生成对抗分类器示意图

最后，针对多语种文档的识别，进行语种判别的研究。提出一种结合识别置信度，同时融合显著性策略的方法，提升语种判别的性能。

项目成果

1．提出一种结合对抗网络的中国山水画文档生成方法。我们利用循环GAN网络为基础，利用现有山水画的边框轮廓和真实山水画为训练样本，实现将用户输入简单的笔画生成中国山水画的系统；

2. 提出一种生成对抗分类器的算法。我们在低分辨率图像生成高分辨图像的GAN网络中，融合了分类器进行整合训练，从而使得生成的图像（比如文字）更加具有类别区分能力；

3. 提出一种结合核方法的最小-最大神经网络训练准则。我们通过最小化类內距离同时最大化类间距离的方式使得神经网络模型在提升分类能力的同时保持表示能力；该最小-最大距离通过映射到核空间得到。

4. 提出一种结合识别置信度的语种判别方法，同时结合序列模型的注意力机制提升语种判别性能。

项目负责人介绍

中国科学院计算技术研究所高林

高林博士现任中科院计算所副研究员，硕士生导师，研究方向为几何学习、深度学习、计算机图形学和三维计算机视觉，于清华大学毕业获得工学博士学位，曾在德国亚琛工业大学进行公派访问研究。其入选中科院青促会，中国科协青年人才托举工程，获得计算机学会技术发明一等奖，仿真学会科技进步一等奖，计算所卓越之星奖，陆增镛CAD&CG高科技奖二等奖等奖励,。

项目介绍

基于条件生成对抗网络的线稿图着色方法

在漫画创作的过程中，线稿图像（黑色线条组成的漫画设计图像）是创作阶段的初期产物，彩色漫画是在线稿图像上完成上色过程。在诸如漫画之类的流行卡通创作过程中，画幅较多，对每一帧图像均需要进行手动着色，然而纵观整章漫画手动着色需要花费大量的人力和时间成本，因此设计一自动式的线稿图像上色技术来缩减着色时间显得尤为重要。为了实现线稿图像的准确上色，引入主动学习的思想设计一交互式线稿上色的方法并设计一可视化界面方便用户进行编辑操作。

为进一步减少用户交互量，实现给定少量参考图像，全自动完成线稿上色工作，项目引入小样本学习的思想来设计上色方法。主要利用不同线稿人物之间的共同结构与同一人物结构的相似性。该方法不仅能够实现人物和场景共同上色，同时还可以对上色风格进行控制，实现风格变换。

项目成果

和腾讯同事联合申请专利2项，完成致谢相关论文14篇（其中12篇已发表，发表的论文中包括SIGGRAPH在内的CCF A类论文9篇），同时开发了一套基于线稿图上色的软件系统，已交付给合作的业务部门。

项目负责人介绍

西安电子科技大学王楠楠

王楠楠，教授，博导，国家优秀青年科学基金获得者。发表论文80余篇，其中3篇第一作者论文入选ESI 1%高被引论文， SCI索引论文40余篇，单篇论文Google Scholar引用最高230余次（第一作者）、SCI他引80余次，论文Google Scholar总引用1300余次，SCI他引360余次。担任30余个国际期刊及CVPR、ICCV等计算机学会推荐A类会议程序委员会委员/评审人。

项目介绍

跨年龄主题人物检索

项目创新性的提出了基于知识迁移、对称域协同学习、多边缘解相关学习的异质人脸合成与识别方法，基于多注意力机制的图像超分辨重建方法以及基于跨域图像联合学习的行人重识别方法。在本领域主流期刊和会议上发表论文20篇以上，其中IEEE Trans.论文8篇，CCF A类会议论文7篇（其中联合署名2篇），其他论文6篇（Pattern Recognition, Signal Processing, ICME等），申请专利两项，培养博士生2人、硕士生3人、青年教师2名，腾讯实习生2名。本项目的研究主要包含两部分内容：

（1）设计基于人脸属性的特征学习方法，实现异质人脸图像的重建与识别；

（2）设计基于行人属性的行人重识别，实现不同摄像头下的行人轨迹跟踪，帮助寻找主题人物。

项目成果

项目团队在本领域主流期刊和会议上发表论文20篇以上，其中IEEE Trans.论文8篇，CCF A类会议论文7篇（其中联合署名2篇），其他论文6篇（Pattern Recognition, Signal Processing, ICME等），申请专利两项，培养博士生2人、硕士生3人、青年教师2名，腾讯实习生2名。

项目负责人介绍

中山大学胡建芳

胡建芳，中山大学数据科学与计算机学院副研究员。目前主要研究人工智能和计算机视觉，致力于研究解决不同视觉环境下的视频分析问题，包括行为识别、行为预测和行为对象分割等。目前在国内外权威刊物上发表学术论文20余篇，包括在顶级期刊IEEE TPAMI第一作者发表长文两篇。他的博士论文“面向人与物体交互行为分析的关键问题研究”获2017年中国图象图形学学会优秀博士学位论文（全国仅四篇入选），入选2017年微软亚洲研究院青年学者铸星计划。曾多次带领团队参加视频分析方面的国际比赛并获得第一或第二的优异成绩。

项目介绍

基于多模态动态融合的视频动作识别及意图预测

项目针对从腾讯视频应用平台和现有的公共动作数据库中获取的多模态视频数据，融合视频的视觉图像信息、语音、文本（包含字幕、用户标注、和用户评论）等信息，建立基于多模态融合学习的动作识别及意图预测模型。在设计融合学习模型时，我们充分挖掘和利用多模态数据在时间上的结构联系，发展若干多模态动态融合学习算法。并基于建立的动态融合算法，搭建相关的动作识别及意图预测模型，实现对多模态视频动作的识别和提前预测。具体而言，本项目分别从理论和应用方面确立如下研究：

（1）理论方面，基于卷积神经网络和递归神经网络等深度学习技术，建立多模态动态融合学习体系，实现在多模态数据完备和部分模态数据缺失两种情况下的多模态数据融合。

（2）应用方面，基于（1）中建立的多模态动态融合方法，以尽可能早地预测行为意图为建模目标，搭建视频动作识别及意图预测模型，并分别在现有的公共动作数据库和腾讯视频应用平台中测试模型效果。

项目成果

胡建芳博士及其团队成员在项目研究的基于多模态动态融合的视频动作识别及意图预测方面总共发表4篇CCF-A类学术论文（CVPR, AAAI, IJCAI, 和ACM MM），在多模态视频特征学习和视频预测方面取得重要的研究进展。除了学术论文之外，与腾讯业务团队黄嘉文博士开展了针对体育运动的行动分类和动作评估项目，针对从网上自动收集的含大量噪声的视频数据集，识别和分析运动场景和类型，目前效果达到73%，相应的研究还在进行当中。

项目负责人介绍

中国科学院自动化研究所杨小汕

杨小汕，1989年7月出生，长期专注于多媒体内容分析领域的技术和应用研究。已累计发表29篇论文，包括6篇IEEE TMM，2篇IEEE TIP，1篇IEEE TCYB，1篇IEEE CVPR，2篇ACM MM等。获中科院院长优秀奖、中科院优博、腾讯犀牛鸟卓创奖。负责/参与多项国家自然科学基金项目，兼任中国计算机学会和中国图象图形学学会多媒体专委会委员，担任多个国际期刊审稿人和多个国际会议PC Member。

项目介绍

数据和知识联合驱动的视频精彩内容剪辑

在视频大数据背景下，传统数据驱动的视频内容分析技术很难满足大量未标注视频样本的内容分析与理解，亟需更加智能的视频内容理解与精彩内容剪辑技术。数据和知识联合驱动的视频精彩内容剪辑可以作为数据驱动的视频分析方法的有效补充，为解决无监督视觉理解和语义鸿沟等问题提供新的思路。本项目主要研究结合知识表示和标注样本的视频关键内容识别和视频精彩片段提取方法。传统的视频精彩片段检测方法存在三个方面的问题：第一个是类别依赖，大部分已有方法只能识别训练集中包含的类别；第二个是样本依赖，大多数已有模型过度依赖于大规模标注样本；第三个是特征单一，视频内容被表示为一个特征向量，视频中大量物体的动态变化和复杂关系被忽略。针对类别依赖，我们提出了通用型精彩程度预测方法；针对样本依赖，我们提出跨域视频关键内容识别和知识辅助的精彩程度预测方法；针对特征单一的问题，我们提出了基于物体关系建模的精彩程度预测方法。项目研发的视频精彩片段提取算法已在腾讯的实际业务场景数据上进行了有效性验证。

项目成果

在视频精彩片段检测相关领域发表1篇CCF-A类会议ACM MM, 2篇领域顶刊IEEE TMM和ACM TOMM, 投稿1篇IEEE TMM和1篇AAAI 2020, 已申请1项发明专利，研究成果已在业务部门进行了验证。

关于CCF-腾讯犀牛鸟基金

2013年CCF与腾讯合作发起CCF-腾讯犀牛鸟科研基金，作为第一支面向青年学者的企业基金，引起了学界的广泛关注。该项基金致力于支持青年学者从事前沿技术研究，洞察业界问题，推动科研成果应用转化。2013-2019年犀牛鸟科研基金共计发布124项技术命题。命题均来自真实业务场景与需求，主题涉及算法理论、模式识别、社交网络、多媒体、虚拟现实、自然语音处理、大数据、网络安全、区块链、计算机视觉等学界业界热点问题。同时，基金项目还提供腾讯云、腾讯大数据、腾讯文智等计算资源与技术平台。2013-2019年间，共有1126位优秀青年学者提交申请，基金共计支持141项科研基金项目，以及108项创意基金项目。基金获得者与腾讯团队深度合作，共申请国际国内专利232项，发表高水平学术论文784篇，并将部分研究成果在产业平台上测试提升及推动应用转化。

视频分析深度学习模式识别图像处理

0 人点赞