犀牛鸟Club在盐湖城喊你到碗里来!

2018-06-20 13:23:22 浏览数 (1)

引言

一年一度的计算机视觉顶级会议 CVPR 2018 于6月18-22日在美国盐湖城召开。本届大会有超过 3300 篇的论文投稿,录取 979 篇(接受率约为 29%,其中包括 70 篇 Oral 和 224 篇 Spotlight 论文)。参会人数更是突破历史新高达到超过6500人。

计算机视觉也一直是犀牛鸟基金重点关注的方向。2018年度犀牛鸟基金计算机视觉与模式识别方向课题多达9个!为历年数量最多,范围最广的一届。2018年犀牛鸟基金的申请将于6月25日截止。犀牛鸟Club(由历届犀牛鸟基金获奖者组成)在盐湖城喊你到碗里来!

9个课题总有一款适合优秀的你!

✓      机器视觉研究

✓      基于深度学习的图片和视频分析与理解

✓      人工智能在医疗影像中的应用

✓      金融领域的 Instance re-identification 技术研究

✓      面向复杂社交图片信息安全场景的多语种文字关键信息检测

✓      线稿图着色研究

✓      基于深度学习的人脸与 OCR 研究

✓      视频多模态数据处理

✓      精彩内容自动剪辑

同时,小编梳理了一下历年犀牛鸟基金计算机视觉方向的课题与获奖者,腾讯对计算机视觉的关注方向由此可窥见一斑。

历届犀牛鸟基金计算机视觉方向课题

2014年度

■ 自然场景图像中的文字、logo的检测、分割和识别、理解技术研究

随着智能手机的普及,手机不仅取代了普通相机的拍照功能,用户更习惯将用手机拍摄的照片在好友间交互分享。如果在拍照分享以外,还能给用户提供更多的周边环境信息,那将大大提高手机的智能度,方便我们的生活。通过自然场景图像中的文字logo检测和分割技术,再配合OCR和图像识别,可真正满足这一需求,并在增强现实和O2O场景中产生很大的应用价值。

■ 虚拟人体形象建模研究

当前常见的网络虚拟形象都是用户手工制作的,生成步骤繁琐,专业度要求高。如果能通过图像理解并结合用图形学合成的方法自动或半自动的生成一个和用户本人相似的虚拟形象,那将能满足很多用户的不同使用需求。

申请者23人,获奖项目2项

获奖者姓名

学校

项目名称

白翔

华中科技大学电子与信息工程系

自然场景图像中的文字、Logo的检测、分割和识别、理解技术研究

黄永祯

中科院自动化研究所 模式识别国家重点实验室

基于深度学习的人形分割、识别与姿态估计

2015年度

■   图像内容检索

传统的图像搜索是基于图像所在页面的关键词匹配用户查询的关键词来实现检索。本项目期望获得一种基于图像内容的检索,重点研究文本和图像之间相互检索的系统方案。

■  低质量图像中字符识别关键技术研究

随着移动互联网的普及,尤其是移动端拍照设备的发展,使得图片的获取越来越便捷。许多的图片中都包含文字信息,而这类字符通常分辨率较低、光照不均并且背景比较复杂,如何有效的识别这类文字是目前的一大难点。而这类图片中文字的识别对于网络信息安全、图片理解、信息检索等都具有积极的意义。

■   虚拟现实VR视频录制编解码回放研究

随着虚拟现实技术市场的迅速膨胀,相关全景视频的录制编解码回放有了较快的发展。研究真实视觉音效回放的模拟,让使用者如同身历其境一般,可以及时、没有限制地观察三度空间内的事物变化。

申请者29人,获奖项目3项

获奖者姓名

学校

项目名称

黄圣君

南京航空航天大学计算机科学与技术学院

基于主动查询的图像文本跨模态度量学习

王大寒

厦门理工学院 计算机与信息工程学院

低质图像中字符分割、提取和识别方法研究

姚莉

东南大学 计算机科学与工程学院

VR直播关键技术研究

2016年度

■  视频内容识别理解

随着在线视频业务的发展,视频推荐与搜索技术的重要性日益凸显。对于视频内容的识别与理解,视频标签的准确度要求越来越高。当前业务侧标签抽取主要来自于文本(标题、描述、用户评论等),而当文本信息缺失或者欠准确的情况下,会给相应业务带来极大的困扰。基于视频内容本身的标签抽取方法,可以提供稳定准确的视频描述信息,在相当大程度上弥补了前述缺陷同时,基于视频的内容进行特定物体识别、场景识别以及情感识别将对于视频业务的发展有重要的现实意义。

■ 半监督下的图像语义信息自动提取

用户产生的图像数据蕴含着大量的语义信息,诸如物体、场景、人类活动行为等。近年来随着深度学习的发展,基于卷积神经网络对图像进行特征表达与分类为图像理解提供了方法。然而实际中的监督训练需要大量的人工标注数据,单纯依赖人工标注不仅费时费力,还可能产生大量的主观性与个体性的标注错误,不具备较好的扩展性。在海量无标签数据与少量有标签数据下及半监督条件下,如何更准确地理解与提取图像语义信息,是一项兼具学术研究价值与工业应用价值的课题。

■  虚拟人物头肩模型研究  

随着虚拟现实技术的迅速发展,社交、游戏类应用中都需要虚拟人物头肩模型。该模型除了可以表征用户的头部特征(头型,毛发,装饰等),性别特征,还需要表征用户的面部表情,头部姿态,基于语音的口型匹配等。期望将这些模型特征统一起来,建立虚拟人物头肩模型的统一表示。

■   虚拟现实空间内漫游

在虚拟现实空间中漫游,是虚拟现实游戏、社交类应用的一个强烈需求。虚拟空间是独立于用户物理存在的。用户的身体移动,头部摇动并不能影响虚拟空间的任何特性,只是观察虚拟空间的视角发生了改变。这是人眼与真实空间的自然交互方式,是经验性的人体感知。为了实现人类在虚拟空间中的真实存在感,虚拟现实系统必须要提供类似的真实空间感。

申请数量 42人,获奖项目4项

获奖者姓名

学校

项目名称

刘武

北京邮电大学 北京市智能通信软件与多媒体重点实验室

移动视频检索关键技术研究

许春燕

南京理工大学 计算机科学与工程学院

基于深度视觉显著性的视频场景识别算法研究

马占宇

北京邮电大学 信息与通信工程学院

少量标注样本条件下基于神经主题模型的图像语义学习方法研究

高林

中国科学院计算技术研究所   前瞻研究实验室虚拟现实课题组

实时面部表情、眼球及头部姿态跟踪与重建

2017年度

■   自然环境下的OCR检测与识别

与传统OCR技术中的扫描文档图像相比,自然场景图像的背景更为复杂。由于场景的复杂性和不确定性,使得自然环境下的OCR识别难度增大。同时,解决好自然场景下的OCR识别问题可以大大加强移动互联网应用对于环境的理解,延展出更为智能的应用。

■ 基于深度学习的视频分析与理解  

据统计,视频内容约占互联网总流量的90%,视频数据的处理与理解在大数据研究与应用中占据很重要的位置。相较音频、文本与图像数据,视频数据的信息更为丰富,其处理与理解的技术挑战性更大。如能够有效的从多个维度提取视频特征、理解视频内容,将很大程度的提升视频搜索、推荐、数字营销等应用场景中的用户体验。

申请人数23人,获奖项目5项

获奖者姓名

学校

项目名称

张炜

中国科学院信息工程研究所

基于深度网络压缩的移动平台OCR技术

舒祥波

南京理工大学

基于长短时记忆网络的多人交互动作视频分析

刘家瑛

北京大学

基于深度学习的视频动作分析与理解

刘偲

中国科学院信息工程研究所

基于深度学习的视频分析与理解

李冠彬

中山大学

基于视觉感知建模的视频高层语义理解

2018 计算机视觉专题获奖者虚位以待!

申请链接:

http://ur.tencent.com/article/235

0 人点赞