近日,CVPR 2022官方公布了接收论文列表,来自腾讯优图实验室共计30篇论文被CVPR收录,论文涵盖包括场景文本语义识别、3D人脸重建、人体姿态估计 (HPE)、目标检测、图像风格转换、视频场景分割和视频插帧等研究领域。
CVPR全称IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition),该会议始于1983年,是计算机视觉和模式识别领域的顶级会议。
根据谷歌学术公布的2021年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature,NEJM和Science。
以下为腾讯优图实验室入选论文介绍:
01/面向评估的深度人脸识别知识蒸馏方法
Evaluation-oriented Knowledge Distillation for Deep Face Recognition
知识蒸馏(KD)是一种常用的提升人脸识别小模型性能的方法。之前的KD 方法通常希望学生模型完全模仿教师模型在特征空间的行为,但是这样的一对一对应约束往往不利于知识从教师模型到小模型的迁移。
针对这一问题,我们提出了面向评估的人脸识别知识蒸馏方法。
通过在训练过程中计算常用的人脸识别评估指标TPR和FPR,直接约束教师模型和小模型之间的指标差异,从而提升小模型的识别性能。
在常用的人脸识别测试集中的结果证明了我们方法的有效性。
02/基于像素级对比学习的
不完全监督实例分割算法
ContrastMask: Contrastive Learning to Segment Every Thing
*本文由腾讯优图实验室和上海交通大学共同完成
不完全监督的实例分割算法目的在于通过在有框标注与像素级掩码标注的数据集A和只有框标注的数据集B(两个数据集类别没有重合)上进行混合训练,提升在数据集B上的实例分割效果。
该问题的核心点在于如何构建一个与类别无关的分割网络。之前的方法在提升分割能力时,仅使用了数据集A的训练数据,没有更好的探索数据集B对于网络学习的作用。
我们提出了一个统一的像素级对比学习结构来解决这个问题。
我们使用数据集A的标注掩码与数据集B的CAM图作为对比学习的先验,从而在实例前景与背景的像素之间采样query与keys,进而拉远前景-背景之间的距离,拉近前景-前景或者背景-背景的距离,使得数据集B中图像的特征更具辨识性,降低分割难度。
在常用的COCO验证集中的结果证明了我们方法的有效性。
03/基于重建—分类学习的伪造人脸检测方法
End-to-End Reconstruction-Classification Learning for Face Forgery Detection
现有伪造人脸检测方法大多聚焦于输入图像中特定的伪造模式(如,噪声特性、局部纹理、频域统计)来辨别伪造人脸。然而,过度关注特定的伪造模式会导致模型过拟合于训练集所呈现的伪造特征,而无法泛化到具有全新伪造模式的伪造样本上。
基于此,本研究从一个新的视角来探索伪造人脸检测任务。我们设计了一个重建—分类学习框架,通过重建真实人脸图像来学习真实人脸的共性表征,并通过分类任务来挖掘真实人脸与伪造人脸的本质差异。
我们提出了一种度量损失以约束真实人脸在特征空间中的距离,同时增强真实与伪造人脸的差异信息。
此外,多尺度图推理模块(Multi-scale Graph Reasoning Module)将重建网络编码器输出与解码器特征建模为偶图并对伪造线索进行推理;重建引导注意力模块(Reconstruction Guided Attention Module)将重建差异作为注意力掩码施加于分类特征映射上,使网络关注于潜在的伪造区域。
在伪造人脸检测基准数据集如FaceForensics 、WildDeepfake和DFDC上的大量实验结果表明,该方法具有良好的同源测试性能和泛化性能。
04/基于频域信息的伪装对象检测方法
Thinking Camouflaged Object Detection
in Frequency
伪装物体检测旨在识别隐藏在环境中的物体,这在医学、艺术和农业等领域中有各种下游应用。然而,以人眼的感知能力发现伪装的物体是一项极具挑战性的任务。
因此,我们认为COD任务的目标不仅仅是模仿人类在单一RGB域的视觉能力,而是要超越人类的生物视觉。因此我们引入频域作为额外的线索,以更好地从背景中检测出伪装的物体。
为了很好地将频率线索引入CNN模型,我们提出了一个具有两个特殊组件的网络。
我们首先设计了一个新颖的频率增强模块来挖掘频域中伪装物体的线索。它包含离线的离散余弦变换和可学习的增强方式。随后我们使用特征对齐来融合RGB域和频域的特征。此外,为了进一步充分利用频率信息,我们利用特征中的高阶关系来处理丰富的融合特征。
在三个广泛使用的COD数据集上的综合实验表明,所提出的方法在很大程度上超过了其他先进的方法。
05/基于人脸伪造检测的频域对抗攻击算法
Exploring Frequency Adversarial Attacks for Face Forgery Detection
近些年,人脸伪造技术在人脸信息安全方面带来了巨大的挑战,同时也在道德层面引起了较大的争议。尽管现有的伪造人脸检测方法实现了较好的检测性能,但这些方法容易受到对抗扰动的干扰。在输入人脸图像上添加微弱的人为设计扰动,就会使得伪造人脸检测器做出错误的判断,带来严重的安全隐患。
在本研究中,针对伪造人脸检测器利用频率的信息进行鉴别真伪人脸的特点,提出了一种针对伪造人脸检测器的频率对抗攻击方法。
通过对输入人脸图像应用离散余弦变换 (DCT),在频域中引入适应性的对抗噪声。与空间域中现有的对抗攻击方法(例如 FGSM、PGD)相比,我们的方法更不易被人眼察觉,而且不会降低原始人脸图像的视觉质量。
此外,受元学习思想的启发,我们还提出了一种融合空间域和频域的对抗攻击方法。实验结果表明,该方法不仅可以有效地欺骗基于空间域特性的检测器,还可以有效地欺骗基于频域特征的检测器。此外,该方法作为黑盒攻击具有了较好的跨伪造人脸检测模型的攻击迁移性。
06/针对黑盒对抗攻击的
高效无数据模型窃取方法
Efficent Data-free Model Stealing for Black-box Adversarial Attacks
基于对抗样本具有迁移性的性质,训练替代模型来进行迁移攻击同样是一种有效的攻击方式。
通常,这些替代模型的训练往往依赖于原模型的真实训练数据。然而在现实场景中,由于个人信息保护,原始的训练数据很难合法合规的获取。
考虑到这些数据限制,最近一些研究提出在零样本场景中来训练替代模型。然而这些方法依赖于对抗性地训练生成器和替代模型,这种训练模式往往收敛困难,甚至可能导致模型崩塌,在整个训练过程中,需要反复地访问黑盒模型,导致实际效率非常低下。
在本文中,通过重新思考生成器和替代模型之间的合作关系,我们设计了一个更加高效且强大的零样本黑盒迁移攻击框架。该方法能在少量的查询次数中,大幅地增加迁移成功率。
通过在多个数据集上的进行的大量实验,我们证明了该方法的有效性。
07/基于Vit的可信性图块对抗攻击防御方法
Towards Practical Certifiable Patch Defense with Vision Transformer
图块攻击是对抗性实例中最具威胁性的物理攻击形式之一,它可以通过在连续区域内任意修改像素而导致网络诱发错误分类。可信的图块防御可以保证分类器不受图块攻击影响的鲁棒性。现有的可信图块防御系统牺牲了分类器的精度,在小数据集上只能获得较低的可信精度。
此外,这些方法的纯净和可信精度仍然大大低于正常分类网络的精度,这限制了它们在实践中的应用。为了迈向实用的可信的图块防御,我们将视觉变换器(ViT)引入去随机化平滑(DS)的框架中。具体来说,我们提出了一个渐进式平滑图像建模任务来训练视觉转换器,它可以在保留全局语义信息的同时,捕捉到图像的更多可识别的局部背景。
为了在现实世界中进行有效的推理和部署,我们创新性地将原始ViT的全局自我注意结构重建为孤立的带状单元自我注意。
在ImageNet上,在2%的区域图块攻击下,我们的方法实现了41.70%的可信准确率,比之前的最佳方法(26.00%)增加了近1倍。同时,我们的方法实现了78.58%的纯净精度,这与正常的ResNet-101的精度相当接近。
广泛的实验表明,我们的方法在CIFAR-10和ImageNet上的推断效率高,获得了最先进的纯净和可信精度。
08/基于物理引导解耦的隐式渲染和3D人脸重建
Physically-guided Disentangled Implicit Rendering for 3D Face Modeling
本文提出了一种新的基于物理引导解耦的隐式渲染框架PhyDIR,用于高质量的3D人脸重建。
方法动机来源于两方面:常用的图形学渲染器依赖过度的近似过程,阻碍了逼真的成像效果;神经渲染方法能够获得更好的纹理,但其耦合的过程难以感知3D操作。
因此,我们通过显式的物理引导,学习对于隐式渲染的解耦方法,同时保证了渲染过程中的两点性质,即3D的处理和感知能力,以及高质量的成像。
对于前者,PhyDIR显式地将3D光影和光栅化模型用于对渲染器的控制,对光照,脸型和视角进行解耦。特别地,PhyDIR提出了一种新的多图光影策略以补足单目图像的限制,使得光照变化能够被神经渲染器理解。
对于后者,PhyDIR学习了基于人脸集合的隐式纹理,避免了病态的本征分解问题,并且利用一系列的一致性损失约束渲染过程。
基于提出的方法,3D人脸重建能够受益于这两种渲染策略。
在公开数据集上的大量实验表明PhyDIR能够在纹理和几何重建上获得当前最优的结果。
09/基于开放的退化图像学习人脸3D重建
Learning to Restore 3D Face from In-the-Wild Degraded Images
开放场景的3D人脸重建是一个有挑战性的问题,因为其受制于有限的人脸先验和线索,尤其在输入图像质量退化的情况下。
为了处理这个问题,我们提出了一种新的Learning to Restore (L2R)框架,无监督地从退化图像中获得高质量的人脸重建结果。
相比于直接修复2D的图像表观,L2R通过提取生成式人脸先验以恢复3D细节。具体地,L2R提出了一个新的反射率修复网络以重建高质量的3D人脸纹理,其中利用了预训练的生成网络对缺失的人脸线索进行弥补。基于恢复的3D纹理中的细节,L2R学习建模位移图来增强面部结构和几何。这两个过程通过一个新的3D对抗损失进行相互优化,进一步提升效果并降低学习过程中的不确定性。
在公开数据集上的大量实验表明,L2R在低质量图像为输入的情况下,可以获得当前的重建结果。
10/基于脸型先验和高清生成器的
高清人像修复算法
Blind Face Restoration via Integrating Face Shape and Generative Priors
高清人像修复是从低质量图中恢复出高清人像。虽然现有方法在生成高质量图像方面取得了重大进展,但它们通常无法从严重退化的输入中恢复自然的面部形状和高保真面部细节。
在这项工作中,我们整合形状和生成先验来指导人像恢复。
首先,我们建立了一个形状恢复模块,通过 3D 重建技术恢复合理的面部几何形状。其次,采用预训练的人像生成器作为我们的解码器,以生成逼真的高分辨率图像。为了确保高保真度,分别从低质量输入和渲染的 3D 图像中提取的分层空间特征插入到解码器中,提出了自适应特征融合块 (AFFB)。
此外,我们引入了混合损失同时训练形状和生成先验,从而使这两个先验更好地适应我们的人像恢复任务。
在合成数据集和真实世界数据集的实验结果表明,我们提出的 SGPN 优于其他SOTA 方法。
11/IFRNet:基于中间帧特征重建的高效插帧算法
IFRNet: Intermediate Feature Refine Network for Efficient Frame Interpolation
目前流行的视频插帧算法通常依赖于复杂的网络结构,其具有大量的模型参数与较高的推理延迟,这限制了它们在大量实时应用中的使用。
在这篇论文中,我们新发明了一个高效的只包含一个encoder-decoder结构的视频插帧网络称为IFRNet,以实现快速的中间帧合成。
它首先对输入的两帧图像提取特征金字塔,然后联合refine双向中间光流场和一个具有较强表示能力的中间特征,直到恢复到输入分辨率并得到想要的输出。
这个逐渐refine的中间特征不仅能够促进中间光流估计,而且能够补偿缺失的纹理细节,使得所提出的IFRNet不需要额外的纹理合成网或refinement模块。为了充分释放它的潜能,我们进一步提出一个新颖的面向任务的光流蒸馏损失函数来使得网络集中注意力学习对插帧有益的运动信息。与此同时,一个新的几何一致性正则化项被施加到逐渐refine的中间特征来保持其较好的结构布局。
在多个公认的视频插帧评测数据集实验中,所提出的IFRNet和相关优化算法展现出了state-of-the-art的插帧精度与可视化效果,同时具有极快的推理速度。
12/基于记忆网络的单样本图像生成算法
Learning to Memorize Feature Hallucination for One-Shot Image Generation
本文研究的是图像生成领域中的单样本生成(One-Shot Generation)任务。
该任务要求能够将有限已知基础类别数据集的知识泛化到新的,但是只有一张参考图片的类别上,生成多样化的并且合理的该类图像。就像人类能够通过联想和幻想来达到“见微知著”一样,我们希望模型能够识别,学习和记住一些类别无关的通用信息(特征)。现有的单样本生成方案通常会隐式地学习一些可重用特征,从而很容易在预训练数据上过拟合。
本文提出了一个新的模型,能够将图像特征显式分解为类别相关(Category-Related,CR)和类别无关(Category-Independent, CI)的特征。从而生成网络可以进一步利用与类别无关的CI特征生成目标新类别图像。
我们在多个数据集上的实验表明,我们的算法在仅参考一张图像的条件下,能够更加生成多样化的同类图片,并且能够实现显式的图像特征控制。
13/基于边缘损失的域适应主动学习算法
Learning Distinctive Margin toward Active Domain Adaptation
主流的跨域迁移学习算法常常假设目标域的数据标注不可知,但是在实际应用场景中,标注资源往往允许以合适的标注成本标注少量目标域数据进行迁移学习;
本文着眼于该实际问题,结合主动学习算法在线挖掘易于迁移学习的目标域样本并投入训练,提升模型迁移能力;
本文提出的主动学习算法SDM通过边缘损失对训练进行约束,结合边缘采样对数据进行挖掘,达到了较以往主动迁移学习算法更优的效果;
特别的,该算法在理论上保证了能够像支持向量机(SVM)一样通过源域的难例数据对目标域进行挖掘,同时优化边缘损失也在理论上等价于优化分布差异的上界。
14/ISDNet: 整合深浅网络的高效超高分辨率图像分割
ISDNet: Integrating Shallow and Deep Networks for Efficient Ultra-high Resolution Segmentation
计算量和显存的开销是超高分辨率图像分割中的两个主要障碍。早前的工作遵循全局到局部优化的流程,从而降低显存消耗,但忽略了推理速度的问题。
在本文中,我们提出了一种直接推断整幅图像的超高分辨率分割框架。
通过整合轻量的浅网络和复杂的深网络,在实现准确分割的同时显著提升推理速度。为了进一步利用浅网络和深网络特征之间的关系,我们提出了一种新颖的关系感知特征融合模块,可确保框架的高性能和稳健性。
在DeepGlobe,Inria Aeril和Cityscapes 数据集上进行了广泛的实验,证明了我们的性能一致优于先前的工作。
15/RepSurf: 提出基于几何结构的平面特征提升无序点云表示表征信息
Surface Representation for Point Clouds
以前的大多数工作都是通过坐标来表示点云的形状。然而,直接描述局部几何是不够的。
在本文中,我们提出了RepSurf(RepSurf,代表性曲面),这是一种新的点云表示方法,可以显式地描述非常局部的结构。
我们探索了RepSurf的两种变体,三角形RepSurf和伞形RepSurf,其灵感来自计算机图形学中的三角形网格和伞形曲率。
在表面重建后,我们通过预定义的几何先验计算RepSurf的表示。RepSurf可以成为大多数点云模型的即插即用模块。
基于PointNet (SSG版本)的简单基线,伞形RepSurf在性能和效率方面大大超过了之前的最先进水平,在分类、分割和检测方面,它在各种基准上都有很大的优势。
我们的方法在ModelNet40上增加了约0.008M的参数数量、0.04G的触发器和1.12ms的推理时间,在ScanObjectNN上实现了95.1%( 0.9%)的分类,在ScanObjectNN上实现了84.6%( 1.8%),在S3DIS 6折叠上实现了75.1%( 1.6%)的mIoU,在ScanNet上实现了70.0%( 1.6%)的分割。
对于检测,我们的RepSurf探测器在ScanNetV2上获得71.2%( 2.1%)mAP25,54.8%( 2.0%)mAP50,在SUN RGB-D上获得64.9%( 1.9%)mAP25,47.1%( 2.5%)mAP50。
我们的轻型三角形RepSurf在这些基准上也表现出色。
16/基于排序技术的跨域小样本学习方法
Ranking-Guided Distance Calibration for Cross-Domain Few-Shot Learning
小样本学习的最新进展促进了对现实中更为常见的跨域小样本问题的研究。
在跨域小样本问题中,源数据集和目标数据集来自不同的域,且具有不相交的标签集合,因而它们可以共享知识极为有限。
因此,本文侧重于在目标域中挖掘更多潜在信息,而非在源数据集上精心设计训练策略。给定一个利用交叉熵损失在源数据集上预训练的特征提取器,本文着重从图像检索的角度去研究一个简单的基于距离的分类器。具体来讲,本文通过挖掘 k相互近邻的重排序过程来校准目标小样本任务的距离矩阵。
此外,通常预训练得到的特征表示是偏向于源数据集的,因此我们构建一个非线性子空间以最小化其中与任务无关的特征,并通过双曲正切变换保留更多可转移的判别信息。这种任务自适应的非线性子空间和预训练的特征空间,都可以通过重排序过程进行距离校准并得到一个鲁棒的互补校准距离。
为了进一步将距离校准信息传递到特征表示上,本文使用 Kullback-Leibler 散度来逐步引导特征空间的原始距离分布向校准后距离的分布对齐。
通过对八个目标域的评估表明,提出的排序校准过程可以改进传统的基于距离的分类器在目标小样本任务中的性能。
17/基于对比学习的半监督分类学习方法
Class-Aware Contrastive Semi-Supervised Learning
基于伪标签的半监督学习已经在无标数据的使用上取得了很大进展。然而半监督学习的过程中由于需要自己制造伪标签而受到证实偏误(confirmation bias)的影响。同时,模型的判断能力也会收到真实世界中不符合分布的噪声数据的影响。
为了解决这个问题,我们提出了一个通用的基于对比学习的半监督学习方法,可以和目前的任何半监督分类方法结合来提升伪标签的准确率和模型在真实世界数据上的鲁棒性。
我们的方法将真实世界的数据分成分布内数据和分布外的数据,而不是当成同一一个集合。针对可信的符合分布的数据,我们采用特征聚类来强化他和下游任务融合的能力,而有噪声的不符合分布的数据,使用对比学习的方法增加鲁棒性。
我们还使用了权重分配的办法解决肯能存在噪声的伪标签。
我们的方法在cifa10 cifar100 和stl10取得了前沿效果。在真实世界数据集更是比fixmatch多出了9.8%的准确率。
18/LOFR-HPE: 无位置信息监督的人体姿态估计
Location-Free Human Pose Estimation
人体姿态估计 (HPE) 通常需要大规模的训练数据才能达到高性能。然而,收集高质量和细粒度的人体标注信息是相当耗时的。
为了缓解这个问题,我们重新审视了 HPE 并提出了一个无需关键点位置信息( Location-Free)的框架。我们从分类的角度重新制定了基于回归的 HPE。受CAM-based 的弱监督目标定位算法的启发,我们观察到可以通过CAM 获取粗略的关键点位置,但由于细粒度 HPE 和目标定位任务之间的domain差异结果不够令人满意。
为此,我们提出了一个基于Transformer 的框架,能够挖掘人体上下文的细粒度表示,并结合结构先验关系来捕捉关键点之间的细微差异。
具体的,我们设计了一个多尺度空间编码器(Multi-scale Spatial-guided Context Encoder)引导上下文编码器来捕获全局上下文记忆并同时专注于局部区域,设计了一个关系编码的姿势原型生成模块(Relation-encoded Pose Prototype Generation module)来编码结构先验信息。
所有这些模块共同作用来加强仅有分类标签下的关键点定位。当仅image-level的分类标签进行监督时,我们的模型在三个数据集上实现了具有竞争力的性能,其次,在 MSCOCO 和 MPII 上仅使用 25%的位置标签性能就能超过完全监督的方法。
19/OpenDet: 基于低密度隐层空间扩张的开放集目标检测
Expanding Low-Density Latent Regions for Open-Set Object Detection
近几年目标检测器在闭集设置下取得了令人瞩目的进展。然而,开放集目标检测(Open-Set Object Detection,OSOD)仍具有挑战性,属于未知类别的目标经常会被错分为现有的已知类中。
在这项工作中,基于未知类目标通常分布在低密度隐层特征空间的共识,我们提出通过在隐层特征空间中分离高/低密度区域来识别未知类的目标。同时由于传统的基于阈值的方法仅保持有限的低密度区域,难以表示所有的未知类目标,因此我们提出了基于低密度隐层区域扩张的开放集目标检测:OpenDet。
为此我们设计了两个学习器,对比特征学习器 (Contrastive Feature Learner,CFL) 和未知概率学习器 (Unknown Probability Learner,UPL)。CFL进行实例级对比学习,使已知类的特征更加紧凑,进而为未知类留下更多低密度区域;
UPL根据预测结果的不确定性学习一种未知概率,进一步在已知类簇周围划分出更多的低密度区域。
最后,我们可以很容易地用学习到的未知概率来识别低密度区域中的未知类目标。
大量实验表明,我们的方法可以显著提高开集目标检测的性能,如OpenDet 在六个 OSOD 基准中将绝对开集误差降低了25%到35%。
20/SIOD:基于图像每类单实例标注的目标检测
SIOD: Single Instance Annotated Per Category Per Image for Object Detection
近年来,基于不完美标注数据的目标检测任务受到了国内外研究人员的关注。由于缺乏实例级别的标注信息,弱监督目标检测(WSOD)仍存在着严重的定位不准确问题。而半监督目标检测(SSOD)因标注数据和无标标注数据之间存在着图片间的不一致,使得充分利用无标注数据仍然面临着较大的挑战。
为此,我们提出单实例标注目标检测任务(SIOD),仅为每张图像中包含的每个类别标注一个实例。
单实例标注目标检测实现了从任务间不一致(WSOD)或图片间不一致(SSOD)退化到到图片内的不一致,进而提供了更可靠以及更丰富的先验知识用于发掘未标注的实例,使得在提高模型性能和降低标注劳动成本之间可以取得一个较好的平衡。
面向SIOD任务,我们提出一中双重潜在实例发掘方法(Dual-Mining,DMiner),包含基于相似度的伪标签生成模块(SPLG)和像素级别的组对比学习模块(PGCL)。
SPLG模块通过在特征空间发掘未标注实例,有效缓解了标注缺失的问题;而PGCL可以促进模型对错误的伪标签的容忍能力。
实验证明SIOD相较WSOD 和SSOD 有一定的优越性,并且DMiner也取得了显著的提升。
21/无需训练的 ViT 结构搜索算法
Training-free Transformer Architecture Search
近期,ViT 在很多视觉任务上取得了显著进展,而这些进展与 ViT 的结构设计优化密不可分。考虑到 ViT 结构设计的高度复杂性,如何自动地优化 ViT 结构设计(TAS)成了一个核心问题。
虽然目前 TAS 方法能够搜索得到较好的 ViT 结构,但这些方法的耗时较大(如,24 GPU days 以上)。
此外,我们也观察到:在 CNN 搜索空间有效的零代价评估方法(zero-cost proxy)无法很好地适用到 ViT 搜索空间上。
在这篇研究工作中,也是学术界首次,我们聚焦一个关键的问题:面向 ViT 搜索空间,如何提出一个无需训练的搜索算法来降低 ViT 结构优化所需的计算资源?
为此,我们分析了 ViT 中两个核心模块的重要属性:多头注意力机制(MSA)的神经元多样性(synaptic diversity)和多层感知机(MLP)的神经元显著性(synaptic saliency)。
我们发现:这些属性与 ViT 结构对应的分类效果有明显的正相关关系。基于这个重要的发现,我们提出了一个具有理论依据的、面向 ViT 结构的零代价评估方法:DSS-indicator。
在 ImageNet 的分类任务以及 COCO 的检测任务上,使用 DSS-indicator 随机搜索的策略也能保证搜索效果的同时极大地缩减了计算代价:从 24 GPU days 缩减到 0.5 GPU days 以内。
此外,我们也在多种不同的 ViT 网络结构上验证了 DSS-indicator 的有效性和普适性。
22/DIFNet: 基于视觉流增强的图像摘要生成
DIFNet: Boosting Visual Information Flow for Image Captioning
当前的图像摘要生成(IC)方法基于视觉特征提取程序输入的视觉信息和部分生成的句子信息,按顺序预测文本单词。然而,在大多数情况下,由于视觉信息的不足,部分生成的句子可能会主导目标词的预测,使得生成的描述与给定图像的内容无关。
在本文中,我们提出了一个双信息流网络(DIFNet)来解决这个问题,它将分割特征作为另一个视觉信息源,以增强视觉信息对预测的贡献。
为了最大限度地利用两个信息流,我们还提出了一个有效的特征融合模块,称为迭代独立层规范化(IILN),它可以压缩最相关的输入,同时在每个流中重新训练特定于模态的信息。然后,我们应用额外的跳过连接来增强编码器和解码器内部和之间的信息流。
实验表明,我们的方法能够增强预测对视觉信息的依赖性,使单词预测更加关注视觉内容,从而在MSCOCO数据集上实现了最优异的性能。例如, 在COCO Karpath测试集上达到了136.2CIDEr。
23/基于协同上下文提名机制的ViT基础网络
NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition
最近,以自注意力(SA)为基础模块的ViT(Vision transformer)在一系列计算机视觉任务上展示出了巨大的潜力。
为了兼顾效率和性能,一些ViT方法只在局部范围内执行自注意力操作,从而舍弃了更为全局的上下文信息。然而,全局信息对于视觉识别任务来说是必不可少的。
为了解决这个问题,随后的改进ViT方法尝试将局部和全局自注意力以并行或交替的方式结合在模型中。以这种方式组合的局部和全局上下文可能存在视觉信息冗余,并且每个层内的感受野是固定的。
相比而言,一种更有潜力的方式是,全局和局部上下文可以根据不同的视觉数据和任务自适应地产生贡献。
为了实现这一目标,本文提出了一种新的ViT架构,称为NomMer,它可以动态地“提名”ViT中的协同全局-局部上下文。
通过研究NomMer的工作模式,我们进一步探索了模型究竟关注了哪些上下文信息。得益于这种“动态提名”机制,NomMer在ImageNet上仅用73M参数就能达到84.5%的Top-1分类精度,并且在密集预测任务(目标检测和语义分割)上也表现出强有力的性能。
24/基于神经协作图模型的表格结构识别方法
Neural Collaborative Graph Machines for Table Structure Recognition
最近,在深度图模型的帮助下,表结构识别取得了令人印象深刻的进展。
大多数方法单独利用表格元素的视觉线索,或者简单地通过早期融合将视觉线索与其他模态结合来推理它们的图关系。
然而,由于表格结构具有极大多样性,无论是早期融合,还是根据各个模态进行单独推理,都不能很好的应对所有表格类型。
对于不同的表格类型,一种更合理的方式是让不同的模态以不同的模式进行相互协作。在计算机视觉领域,多个模态内以及模态间的交互对于表结构推理的重要性仍然是一个尚未完全被研究的问题。
本文将该问题定义为异构表结构识别(Hetero-TSR)问题。为了填补这一研究上的空白,我们提出了一种新的神经协作图模型(NCGM),该模型由若干堆叠的协作模块组成,以层级的方式交替提取模态内和模态间的关系交互。
这种方式可以更有效地表示表格元素模态内及模态间的关系,从而显著提高了识别性能。进一步的探究性实验表明,本文所提出的NCGM可以根据模态上下文线索调整不同模态的合作模式,这对于处理多样化的表格是至关重要。
在标准测试集上的实验结果表明,我们提出的NCGM达到了SOTA性能,并且在更具挑战性的场景下的性能更是远超业内其他方法。
25/HybridCR:基于混合对比正则的弱监督三维点云语义分割
HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regularization
为了解决大规模3D点云语义分割中标注成本过于高昂问题,我们提出了一种新颖的混合对比正则化(HybridCR)弱监督学习框架。
该框架显式地考虑了3D点云场景中局部相邻点之间的语义相似性,并有效地利用了大规模输入下的全局3D类别原型属性。
为进一步提升框架的性能和泛化性,该框架设计了一个全新的动态点云增强器,为输入的点云数据生成多样的增强样本。
在训练过程中,通过结合混合对比正则化、点级别一致性正则以及有标签样本的监督损失,采用端对端训练方式,能有效联合优化动态点云增强器和网络模型的参数。
大量实验结果表明,HybridCR在大规模3D点云室内和室外数据集上(即 S3DIS、ScanNet-V2、Semantic3D 和 SemanticKITTI)同时达到最好性能。
26/用于视频场景分割的场景一致性表征学习
Scene Consistency Representation Learning for Video Scene Segmentation
一段电影或电视节目视频通常由各种场景片段组成,而单个场景片段则由相似故事语义的连续镜头组成,模型必须理解视频中的故事情节才能确定场景的开始和结束位置,因此视频场景分割(Video Scene Segmentation)是一项充满挑战的任务。
为此,本文提出了一种基于场景一致性(Scene Consistency)的自监督学习框架,该框架从大量无标注的长视频中学习更好的镜头表征,同时探索更好的数据增强方式以进一步提升模型的泛化能力。
除此之外,相比于类似工作广泛使用的基于场景边界(Boundary-based)模型,本文提出了一个轻量且具有较少归纳偏差的场景边界自由(Boundary-free)模型来验证镜头特征质量和完成视频场景分割任务。
相比之下,本文提出的方法在视频场景分割任务上达到了最先进的性能水平,并能大幅提升大规模有监督算法(LGSS)的性能,同时,我们也提议使用更公平合理的基准测试方案,为评估视频场景分割算法性能带来了更深入的见解。本工作的代码即将开源。
27/基于新的变换矩阵解耦方法的确定性的点云匹配算法
Deterministic Point Cloud Registration via Novel Transformation Decomposition
*本文由香港中文大学和腾讯优图实验室共同完成
给定一个估计的3D点云到3D点云的匹配点集合,我们目标在于移除那些噪点并估计出相应的6自由度的刚性变换矩阵。
在高维的参数空间中同时估计出变换矩阵中的6个自由度是非常耗时的。为了解决这个问题,通常会将变换矩阵中的6个自由度进行分解,即先独立估计出3个旋转自由度,再估计出3个平移自由度。然而,3个旋转自由度的高度非线性仍然限制着算法的效率,尤其是匹配特征点很多的时候。
对此,我们提出了一种新的6自由度解耦方式。具体来说,先估计出旋转轴的2个自由度和沿着旋转轴的1个平移自由度((2 1)DOF),然后估计出旋转角度和垂直于旋转轴的2维平移((1 2)DOF)。为了进行估计计算,我们基于最大化正确点的思想设计了一种新的两阶段估计策略。通过利用BnB算法,顺序进行(2 1)DOF的搜索和(1 2)DOF的搜索。
归功于所提出的解耦方式,我们的匹配算法不仅是确定性的,而且具有非常低的计算复杂度。通过同当前最好的方法进行比较,结果表明在具有相同的效率方法中,我们的方法更准确和对噪点更鲁棒。在具有相似的准确性和鲁棒性的方法中,我们计算效率是更高的。
28/基于特征生成的模型来合成不可见类的视觉特征解决零样本学习问题
En-Compactness: Self-Distillation Embedding & Contrastive Generation for Generalized Zero-Shot Learning
*本文由厦门大学、华东师范大学和腾讯优图实验室共同完成
广义零样本学习(GZSL)需要一个在可见类上训练的分类器,该分类器可以识别可见类和不可见类中的对象。由于缺少看不见的训练样本,分类器倾向于偏向见过的类别。
为了缓解这个问题,提出了基于特征生成的模型来合成不可见类的视觉特征。然而,这些特征是在视觉特征空间中生成的,缺乏识别能力。
因此,一些方法转而寻找更好的隐空间来进行训练。它们强调看到的类间关系,导致隐空间过度适合看到的类,对看不见的类不友好。
相反,在本文中,我们提出了一种用于GZSL的类内增强方法(ICCE)。我们的ICCE在隐空间和视觉特征空间中促进了类内紧凑性和类间可分性。通过促进类内关系而不是类间结构,我们可以更好地区分不同的类。
具体来说,我们提出了一个自蒸馏嵌入(SDE)模块和一个语义视觉对比生成(SVCG)模块。前者在嵌入空间中促进类内紧性,后者在视觉特征空间中实现类内紧性。
实验表明,我们的ICCE在四个数据集上的性能优于先进的方法,并在其余数据集上取得了有竞争力的结果。
29/基于场景文字知识挖掘的细粒度识别
Knowledge Mining with Scene Text for Fine-Grained Recognition
*本文由华中科技大学和腾讯优图实验室共同完成
在细粒度图像分类中,近期的一系列方法证明了场景文本的语义是十分重要的。然而,现有的方法主要是利用场景文本的字面意义进行细粒度识别,当它与物体或场景的关系不那么显著时,可能就会失效。针对这个问题,本文提出了一个可端到端训练的网络,该网络可以挖掘场景文本图像中隐含的上下文知识,并且可以增强语义从而调整图像表征。与现有的方法不同,本方法整合了三种模态:视觉特征、文本语义和与细粒度图像分类相关的背景知识。具体来说,本文使用KnowBert检索语义表示的相关知识,并将其与图像特征结合进行细粒度分类。在两个标准数据集(Con-Text、Drink Bottle)上的实验结果表明,本文方法比业内最优的方法的mAP分别高了3.72%和5.39%。