CVPR 2020学术竞赛大盘点,中国团队揽获众多冠军

2020-06-29 15:24:34 浏览数 (1)

作者 | 蒋宝尚

编辑 | 丛 末

CVPR 2020已经落下帷幕,除了为期三天的主会议,还穿插着同为期三天的Workshop,这些研讨会有一些是讨论性质的,还有一些是竞赛相关的。

这些竞赛涉及了图像分类,超分辨率、图像视频压缩、图表检索与分析、低功耗计算机视觉等等领域。

而在这些赛道中,来自中国的选手更是取得了优异的成绩,其中商汤更是拿到了三连冠,涉及领域包括时空动作定位和动作分类。

百度也是一举拿下8项挑战赛冠军,涵盖视频动作分析、动作识别、图像增强、智慧城市等多个领域;

而在视频压缩领域,图鸭科技登拿下了视频压缩的世界冠军。

滴滴则是在小样本学习学习领域获得了两项世界第一,在人脸识别、三维重建中的图像配准问题中获得了优异的成绩。

另外, 在全球最大规模Deepfake检测挑战赛,俞能海教授指导的WM/战队获得了亚军殊荣,并得到奖金30万美元。

下面AI科技评论就位大家盘点一下在这次CVPR 2020 挑战赛中,中国团队所取得的成绩,如有遗漏,还请在留言区补充。

1

中科大俞能海张卫明团队拿下Deepfake 检测挑战赛亚军

此比赛由Facebook牵头,Microsoft、Amazon和MIT等知名企业与高校联合创建,全称是Deepfake检测挑战赛(Deepfake Detection Challenge,DFDC)。

所有参赛队伍需要从大约10万个短片的数据集中识别假视频。据悉, Facebook雇佣了3500余名跨种族、年龄、肤色的演员,花费约1000万美元录制了大约10万个视频,其中一部分经过了A脸贴及深度伪造,用作比赉检测数据。

为了保证此次比赛的公平性,主办方采用了黑盒数据集进行最终结果评定,并发布了目前规模最大的伪造人脸视频数据集DFDC。该数据集包含超过11万个伪造人脸视频,涵盖了以Deepfake、face2face等方法为基础的多种面部伪造和表情操纵算法,参赛队伍以此数据集为基础,训练检测模型。主办方另外提供了两个线上的非公开数据集:public test(包含4千个视频)和private test(包含1万个视频),分别用于算法的性能验证与最后的成绩评定。

这项赛事去年十二月正式推出以来,共有2265个参赛队伍参加,参赛模型超过35000个,最终得出的最高准确率达 82.56%,整体平均精度为 65.18%。

中国科学技术大学网络空间安全学院俞能海教授团队-张卫明教授课题组的WM/战队,经过三个半月不断的模拟攻防与算法改进,在2265支参赛队伍中突出重围,取得了第二名的好成绩。

从俞能海老师接受AI科技评论的采访中,我们也能看出这一路披荆斩棘的艰辛。

AI科技评论:参加这个比赛的同学总共有多少人。分别博士生多少、硕士生多少?

俞能海:我们以团队的形式参与这次比赛,主要参与人有6人,1位博士后研究员 ,3位博士生,2位硕士生。

AI科技评论:俞能海老师和张卫明老师带领的战队获得了0.42842得分,领先季军接近0.01,请问俞老师的团队用的方法具体是什么?

另外,与冠军相差是只有0.0005分,那么此次比赛最大的难点在哪里,也即是什么因素制约了这0.0005分的提升?

俞能海:本次比赛的一大难点就是解决数据集不匹配的问题。由于成绩评定所用的private test数据集是不公开的,且与作为训练数据集的DFDC数据集存在较大的分布差异,因此参赛队伍只能根据官方在public test集上给出的算法测试结果推测检测模型性能的优劣,从而相应进行策略调整。为了解决训练集与测试集不匹配的问题,一个有效的方法就是对训练数据进行数据增广。然而DFDC本身的数据量就非常庞大,进行增广以后的数据量更是加倍,这对训练检测模型所需的计算资源要求极高,这也导致比赛一定程度上成为了计算资源的比拼。

为了打破计算资源的约束,强化检测模型在不匹配的数据集之间的迁移能力,我们在数据的预处理方法和检测模型结构上进行了创新,采用了适用于人脸伪造检测的关注机制,引导检测模型自主学习到值得重点关注的潜在伪造痕迹,从而使网络聚焦于篡改痕迹而非其他干扰因素。此外针对性的在训练集中剔除了所有public test集中出现过的人脸,模拟出训练集与测试集之间的数据不匹配,改善检测模型的鲁棒性。

相比于第一名,我们的差距是0.0005分,这个分数换算成准确率可能也就相差不到1%,这种细微的差距存在一定程度的偶然性,有可能只是一两个视频判断错误的差距。从目前我们了解到的第一名算法来分析,我们认为差距产生的主要原因还是所使用的检测模型上的差别,第一名的方案使用了基于Efficient-Net B7的网络基础结构,我们只采用了Efficient-Net B3,其实这也是由于资源上的不足采用的折中策略,B7相比于B3模型结构更大,所需要的训练资源也更多,为了权衡有效性和我们有限的资源,我们采用了在效率和性能上有所折中的B3结构。

2

图鸭科技:视频压缩力压群雄

为了促进深度学习在视频压缩行业的发展,由google ,Netflix等巨头联合举办的CLIC(CHALLENGE ON LEARNED IMAGE COMPRESSION)已经举办到了第三届。

图鸭科技在这项大赛中,登顶视频压缩的桂冠,拿下了视频压缩的世界冠军。从今年的比赛结果看,图鸭科技的性能已经超越了传统的h.266,比起传统方法,具有更快的解码速度。

在今年的比赛中,也加入了对模型大小的考量,在深度学习弱势的模型大小下,图鸭科技摘文件大小比较小的情况下,依然在指标上超越了h.266传统模式。

3

阿里巴巴拿下视频目标分割比赛第一名

阿里巴巴达摩院,机器智能实验室,图像分析与理解团队在2020年CVPR的DAVIS 视频目标分割比赛中的半监督(Semi-supervised)赛道中,以J&F score 84.1 的分数,获得了比赛第一名,比去年的第一名提高了7.4个点。

具体而言,阿里巴巴提出了一个空间信息约束的机制,它基于空间注意力模块,能够利用前一帧预测的物体位置,对当前帧做指导,避免算法对相似物体的误召回。同时,引入了语义分割中的感受野增强技术ASPP和精细化分割的微调(refinement)模块,大幅提高了分割的精细程度。同时,提出了一个简单但是有效的训练策略,减少了训练阶段和测试阶段存在的差异,提升了最终效果。

另外,达摩院视觉智能还在HACS ActibitNet比赛中获得了第一,而淘宝技术团队还在Deepfashion比赛中获得了第一。

4

百度AI斩获8项冠军

在这次的CVPR 2020上,百度除了有22篇主会议论文的成绩,还拿了8项冠军,另外,百度还举办2场高水准Workshop,并有多篇Workshop论文被接收。夺冠挑战赛涉及的领域包括:

  • 视频动作分析挑战赛,专注于提升视频标注效率;
  • 动作识别挑战赛,技术成果可广泛用于可穿戴设备和智能家居;
  • 图像增强挑战赛,可有效提高视频质量;
  • 智慧城市挑战赛,可有效优化现有城市交通管理,提升管理效率,推动智能化进程。

夺冠8项冠军列表如下:

在ActivityNet2020挑战赛的时序动作定位赛道,百度以mAP39.29的得分位居第一。具体而言,百度通过自研BMN模型对视频序列提取候选框,并结合弱标签训练数据,提出级联金字塔注意力网络进行打标签动作,两者结合最终获取片段定位及动作标签。

在EPIC-Kitchens2020挑战赛中(聚焦于第一人称视频理解),百度在Seen kitchens和Unseen kitchens两项测试集上均以第一名的成绩摘获冠军。其中,百度提出共生注意力机制和以物体为中心的对齐模块,大幅提升3D卷积网络的性能。

在NTIRE2020挑战赛中,百度在真实图像降噪赛道、视频质量映射赛道中分别拿到了冠军。其中,在真实图像降噪赛道中,百度设计了多跳跃连接的密集残差模块学习不同分辨率下的特征表达,并通过创新性mosaic-stride模块提升rawRGB的降噪能力,同时使用分布式SA-NAS搜索最优的模型结构;

在视频质量映射赛道中,百度通过把现有EDVR模型思路与CNN网络结构DenseNet相结合,利用DenseNet提取视频的图片特征,融合CNN浅层与深层特征,从而实现更强的表达能力;EDVR模型则完成了视频帧之间信息交换,对齐帧间信息,实现信息共享与互补。

在AI CITY2020挑战赛中,百度在车流统计、车辆再识别、异常事件检测分别都拿到了第一。

在车流统计赛道中,百度提出“检测-跟踪-计数”结合的车流统计算法流程,有效解决了检测框丢失和ID翻转问题。在车流统计环节,提出基于数据驱动的轨迹匹配分类算法使统计结果更准确。

在车辆重识别赛道中,百度设计了基于多任务多分支的网络模型,并结合多源信息融合的重识别技术方案。在数据方面,使用风格迁移、图像内容编辑、背景替代等多种方法生成合成数据,以弥补训练数据不足的问题。

在异常事件检测赛道中,百度通过模块化的多粒度跟踪方法,将跟踪问题解耦成不同子问题,利用不同模块来处理不同子任务,同时将视频进行正序和逆序分别建模,最后利用一种融合和回溯优化方法,将多个子任务以及正序、逆序的模型进行融合得到最终异常事件的定位结果。

在MOTS2020挑战赛中,百度获得冠军的赛道是KITTI-MOTS,在这个赛道中,百度提出新型方法PointTrack ,在行人和车辆两个类别中均取得SOTA结果。

5

商汤拿下CVPR 2020三连冠

商汤这次对付的问题是视频动作识别,角逐的赛事是国际大规模动作识别竞赛ActivityNet,历年由Google、Facebook、UC Berkeley等顶尖院校与研究机构主办,相关技术在视频分析、活体检测等多项实际应用中具有重要价值。

其中,香港中文大学-商汤联合实验室及商汤研究院和X-Lab联合团队获得CVPR 2020 ActivityNet 时空动作定位(Spatio-temporal Action Localization)和动作分类(Trimmed Action Recognition)两项冠军。

在动作定位比赛中,商汤研究院和X-Lab及联合实验室团队用的是对象-场景-对象关系推理网络(ACAR-Net)和自有的深度学习超算平台,算法高达39.62mAP。

在动作分类比赛中,自研的时空交错网路(TIN)亦在多模型融合阶段起到了重要作用。

在另一个比赛中,商汤拿下了号称全球最全面的Low-level视觉大赛之一——NTIRE(New Trends in Image Restoration and Enhancement)光谱重建赛道的冠军,具体而言,其团队使用的是一种级网络结构,增大感受野的同时在不同级子网络中做特征提取。

6

滴滴在迁移学习、图像匹配等领域屡获佳绩!

滴滴 AI Labs 在小样本学习领域勇夺了两项世界第一,针对的比赛是CVPR 2020 CD-FSL 挑战赛,这项比赛是IBM联合加州大学圣地亚哥分校、麻省理工等多所高校发起,是针对跨域小样本学习问题的首个挑战赛。

CD-FSL挑战赛包含两个赛道:(1)可以使用源域大量标注数据和目标域少量标注数据,模拟了目标域数据难收集难标注的情况;(2)可以使用源域大量标注数据、目标域少量标注数据以及目标域一定的无标签数据,模拟了目标域数据难标注但可以收集一定数量的情况。

滴滴AI Labs迁移学习组与北京邮电大学邓伟洪课题组成参赛队伍,结合在迁移学习方向已有的技术积累和理论研究,提出Feature Transformation Ensemble Model with Batch Spectral Regularization,FTEM_BSR 模型实现任务目标。

在手工特征VS 深度特征,三维重建中的图像配准问题中,滴滴针对的挑战赛是《Image Matching Challenge 2020》,此比赛提供的数据集超过2.5万幅图像。滴滴 MapVision 团队融合几何和深度学习方法,构建低噪声低冗余的数据集,在卷积描述子生成方法中提出了基于困难样本挖掘的二次合页损失函数改进;另外,在基于深度学习的图像匹配外点剔除算法中改进了匹配信息中局部和全局上下文的流通;结合卷积描述子生成方法和深度学习外点剔除算法,显著地提升了相对位姿估计的准确性,形成一套图像匹配完整方法。

在人脸对齐挑战赛中,滴滴 AI Labs 图像技术部和北京邮电大学邓伟洪老师课题组联合提出了一种新的基于热图回归的结构化人脸对齐算法,该算法通过将关键点热图传播成边界热图来提供结构信息,以供进一步生成注意力图。

智能交通视频分析看路口拥堵问题中,滴滴针对的挑战赛是 AI City Challenge,此挑战赛由英伟达联合纽约州立大学奥尔巴尼分校、爱荷华州立大学、圣何塞州立大学、华盛顿大学发起。滴滴参与了任务一“多拍摄角度下,交叉路口的车辆计数”,即在特定交叉路口,对左转、右转、直行的车辆进行计数。该任务有助于理解道路交通运力,可用于 交叉路口信号灯控制 ,从而缓解交通拥堵。滴滴获得本次竞赛的第二和第三名的好成绩。

7

好未来获得人脸表情识别竞赛冠军

此项比赛的名字是EmotioNet竞赛,是人脸表情识别领域最权威的国际学术竞赛之一,其研究成果在计算机视觉三大权威会议中的CVPR和ICCV(国际计算机视觉大会)上均有发表。由CVPR组织、美国俄亥俄州立大学主办,好未来、阿里巴巴、中国科技大学、中国科学院、马格德堡大学、南洋理工大学等诸多专业团队参加了此次竞赛。

在竞赛中,好未来AI工程院针对人脸表情识别中的多任务学习不一致过拟合问题提出了解决方案,大幅度提升了模型准确率和F值。据悉,该项技术已广泛应用于好未来集团教学业务中,并通过好未来AI开放平台与全行业共享。

0 人点赞