CCF-腾讯犀牛鸟基金于2013年由腾讯公司和中国计算机学会(CCF)共同发起,今年是基金发起的第10年。10年来,犀牛鸟基金致力于为海内外青年学者搭建产学合作创新的平台,推动科技在产业创新和社会发展中持续发挥价值。
本年度犀牛鸟基金设立12个技术领域共35项研究命题,我们将分7期对各项命题进行详细介绍,本文重点聚焦数字图像处理与计算机视觉领域,欢迎海内外优秀青年学者关注并申报。
5.数字图像处理与计算机视觉
5.1 强鲁棒性的人体动作捕捉和重定向
基于视觉的动作捕捉是一个热门的研究领域,在增强/虚拟现实等应用中有突出的应用前景。然而,这项技术面临两个挑战:一是现有的动作捕捉算法在鲁棒性和实时性方面都存在不足;二是缺乏成熟的动作重定向算法,使得捕捉到的动作无法驱动任何虚拟角色。本课题旨在研究准确、稳健、高效的人体姿态估计和运动重定向算法,为数字虚拟人等应用提供关键技术支撑。
建议研究方向:
1) 3D人体姿态估计:如何利用时序信息、运动先验等信息提升模型的鲁棒性以及如何利用知识蒸馏等方法对模型进行轻量化;
2) 3D全身姿态估计:如何利用面部、手部、肢体的特性及其空间关系等信息,提升全身姿态估计算法的精确度;
3) 动作重定向中的差异结构、自接触与自穿模:利用深度学习解决人体结构存在差异的两个主体间的动作重定向问题,同时保留源人物的自接触并避免目标人物的自穿模。
5.2 视觉与多模态预训练模型研究
随着模型规模的不断增大,对训练数据的要求也成倍增加,自监督预训练模型成为当前学术界与工业界的研究热点,并且有了越来越多的实际落地应用。这其中即包括视觉、文本等单模态预训练,也包括混合多模态预训练。本课题旨在对视觉预训练、多模态预训练进行研究,探索模型结构、自监督任务的设计等,以提升预训练模型效果。研究成果需要在业界公开的测评任务(如跨模态检索任务、分类任务、视觉常识推理任务等)上达到SOTA水平,并在该领域的国际顶会或者期刊上发表论文。
建议研究方向:
针对给定的上亿级别的多模态脱敏数据,包括但不限于从以下几个方面展开研究:
1) 当前主流的多模态预训练中,视觉特征的表示通常采用region feature、grid feature、patch feature中的一种,如何设计一个更好的视觉预训练模型,能够提取出一个兼具上述3种feature特性的表达,或者如何在多模态预训练中,将上述3种feature进行更好的模型结构设计融合;
2) 当前的自监督预训练方法往往针对通用任务设计,如常规的MIM/MLM/ITM等;如何针对不同的下游目标任务,如分类/检测/检索/VQA/生成等,增加设计一些有针对性的模型结构和自监督任务,从而进一步提升各目标任务效果;
3) 针对业务场景中数据模态多变(文本、图片、视频)的情况,设计一种兼容单模态、部分多模态、全模态的统一混合模型结构和训练方法。
5.3 开放场景下跨Domain小样本物体检测在视觉场景的应用探索
物体检测技术已经在工业界有广泛应用,但实际场景中需要的检测目标类别随着应用需求不断更新变化,在实时性高的场景需求中迭代尤为迅速。针对类别更新而进行的常规模型迭代流程包括收集大量数据、数据标注、模型迭代训练直至满足上线的性能要求。整个迭代过程冗繁漫长,无法应对快速的类别更新需求。针对该问题,小样本检测提供了一种快速且有效的解决思路。本课题旨在依托海量无标签数据预训练底层模型,并利用少量的几个或者十几个标注样本,在不需要训练或者几分钟训练的情况下快速更新模型以适应新增的物体类别,满足信息产业中无感知更新的快速迭代要求。现有小样本检测方法试验的数据集多是限定场景,没有跨Domain的开放场景的应用能力。此外,视频数据上的连续信息在小样本检测上也未被充分挖掘。课题组提供相应的实验环境、训练资源和脱敏Wild dataset数据。
建议研究方向:
1) 信息产业跨Domain的开放场景下小样本目标检测与自监督方法的结合;
2) 信息产业跨Domain的开放场景下元学习和传统检测训练在小样本新类别增量上的结合探索;
3) 信息产业跨Domain的开放场景下小样本目标检测的模型轻量化和快速化,支持亿级数据快速检测;
4) 视频数据上小样本物体检测算法研究。
5.4 全景图像及视频的理解与处理
近年来,沉浸式、全景媒体方面的研究及行业应用已引起广泛关注。与传统RGB图像、视频相比,360全景媒体具有360°X180°的视场观测角度;同时,对于360全景媒体,观测者可以选取任意角度进行自由观看,因此360全景媒体具有更强的交互性,并且可以给予观测者更真实的观感与沉浸式体验。相关技术有望被广泛应用于VR/AR、机器人、自动驾驶,以及元宇宙构建等领域。
目前对于360全景媒体的研究基本上都是基于其在普通视场角二维平面上的投影来进行,而基于360全景媒体球面成像的原理,图像信息会在平面投影上产生失真,特别是在两极位置。在将现有基于一般平面媒体的技术与算法应用于全景媒体时,往往会产生明显的效果折损。因此,针对全景媒体的处理、理解任务(如语义分割、超分辨率、深度估计等),需要结合图形学、计算几何学及深度学习等方法,从整体上进行系统性设计。
本课题旨在探索全景媒体处理、理解相关的研究技术及方法。
建议研究方向:
1) 针对全景图像或视频的半监督/弱监督超分辨率算法;
2) 全景图像或视频的深度估计与深度超分辨率算法;
3) 基于全景图像或视频的三维场景结构理解及生成。
5.5 实时人体表现捕捉与重建
随着元宇宙概念的推广,如何对现实中人物的形态及动作进行数字化,并在虚拟世界中重现、进行社交互动是当前学术界与业界热门及前沿的研究领域,该项技术在广电、娱乐、体育、健康等领域都着巨大应用前景。本课题旨在通过计算机视觉或图形学的算法研发,实现高品质的实时人体表现的捕捉和重现,这里的“表现”并非特指姿态,而是体型、外貌、表情、手势中的一样或多样。对于具体的技术路线则并没有特定限制,无论是单目或多目方案均可;无论是偏传统的MVS,人体参数化模型或近年流行的深度隐式表达、神经辐射场(Nerf)均可。课题组可以基于云游戏的基础技术架构,提供多视角低延迟视频的拍摄、同步、上下行传输、云端渲染、云端计算方案。
建议研究方向:
1) 基于单目/多目RGB信息的高品质人体3D建模;
2) 基于姿态的人体重建与生成;
3) 虚拟视点合成、自由视角渲染技术(Virtual view synthesis, free-viewpoint rendering)。
5.6 工业视觉质检中的高效学习方法研究
智能制造国家战略下,制造业正在加速向数字化、智能化转型。精密制造过程对高效高质的缺陷质检需求强烈,使用前沿的AI视觉质检技术取代传统的人工质检已势在必行。另外,与此相关的工业异常缺陷检测技术,以及对标注数据依赖性较低的高效学习方法也逐渐成为研究热点。为此,本课题旨在针对工业视觉质检场景,研究异常检测技术及低标注需求下的半监督、弱监督、缺陷挖掘与生成、域适应等技术。
建议研究方向:
1) 研究工业质检中的异常检测;
2) 研究工业质检中的半监督和弱监督学习;
3) 研究工业罕见形态的缺陷挖掘与生成技术;
4) 研究工业质检中的增量学习、主动学习、在线学习等模型迭代技术;
5) 研究工业质检中的迁移学习与领域自适应。
关注及申报
申报截止
2022年6月15日24:00(北京时间)
申报链接
https://withzz.com/project/detail/219
(仅支持PC端申报)
手机端扫描上方小程序码查看及关注项目
CCF-腾讯犀牛鸟基金
期待您的加入
下期将介绍知识图谱与自然语言处理&语音技术课题
往期课题介绍回顾:
- 2022年CCF-腾讯犀牛鸟基金课题介绍—碳中和&智慧医疗
- 2022年CCF-腾讯犀牛鸟基金课题介绍—智慧交通
- 2022年CCF-腾讯犀牛鸟基金课题介绍—机器学习与深度学习
点击“阅读原文”,查看项目指南