计算机视觉最新理论2021年8月29日到2021年9月4日

2022-09-02 10:43:51 浏览数 (1)

1、Learning to Discover Reflection Symmetry via Polar Matching Convolution

由于自然界中对称模式的显著变化和模糊性,反射对称检测的任务仍然具有挑战性。此外,由于需要在反射中匹配局部区域来检测对称模式,标准的卷积网络很难学习这项任务,因为它与旋转和反射不相同。为了解决这个问题,我们引入了一种新的卷积技术,称为极值匹配卷积,它利用了极值特征池、自相似编码和不同角度轴的系统内核设计。提出的高维核卷积网络可以有效地学习从真实图像中发现对称模式,克服了标准卷积的局限性。此外,我们提出了一个新的数据集,并引入了一种利用合成图像增强数据集的自监督学习策略。实验表明,我们的方法在准确性和鲁棒性方面优于目前最先进的方法。

2、BioFors: A Large Biomedical Image Forensics Dataset

媒体取证学的研究在打击错误信息传播方面取得了进展。然而,大多数研究都是针对社交媒体上生成的内容。生物医学图像取证是一个相关的问题,在生物医学研究文件中报告的图像操纵或误用是严重关切的。由于缺乏基准数据集和标准化任务,这个问题未能在学术讨论之外获得动力。在本文中,我们提出了BioFors——第一个用于对常见生物医学图像处理进行基准测试的数据集。BioFors包括47805幅图像,提取自1,031篇开源研究论文。BioFors中的图像分为四类:镜检、印迹/凝胶、流式细胞术和Macroscopy。我们还提出了法医分析的三个任务——外部重复检测、内部重复检测和切割/锐转移检测。我们用最先进的算法对所有任务进行基准测试。我们的结果和分析表明,在普通计算机视觉数据集上开发的现有算法在应用于生物医学图像时并不健壮,这验证了需要更多的研究来解决生物医学图像取证的独特挑战。

3、Densely Semantic Enhancement for Domain Adaptive Region-free Detectors

无监督域自适应目标检测旨在将训练有素的检测器从具有丰富标记数据的源域适应到具有未标记数据的新目标域。以往的工作主要是通过匹配从区域提议网络(RPN)中明确提取的跨域实例级特征来提高基于区域的检测器的域适应性,如Faster-RCNN。然而,这不适用于无区域检测器,如单阶段检测器(SSD),它从图像中所有可能的位置执行密集预测,并且没有RPN来编码这种实例级特征。结果,它们无法在无区域探测器的域之间对齐重要的图像区域和关键的实例级特征。在这项工作中,我们提出了一个对抗模块,以加强实例级特征的跨域匹配无区域探测器。首先,为了强调图像中的重要区域,DSEM学习预测一个可转移的前景增强掩模,该掩模可以用来抑制图像中的背景干扰。其次,考虑到无区域检测器利用多尺度特征图来识别不同尺度的目标,DSEM对跨不同领域的多层次语义表示和多实例空间上下文关系进行编码。最后,该算法可插入到不同的无区域检测器中,通过对抗性学习实现密集语义特征匹配。在PASCAL VOC, Clipart, Comic, Watercolor和FoggyCityscape基准上进行了广泛的实验,实验结果表明,该方法不仅提高了无区域探测器的域适应性,而且在不同的域移位设置下都优于现有的域自适应区域探测器。

4、DepthTrack : Unveiling the Power of RGBD Tracking

随着RGBD传感器在机器人等应用领域的广泛应用,RGBD (RGB 深度)目标跟踪的发展势头日益强劲。然而,最好的RGBD跟踪器是最先进的深度RGB跟踪器的扩展。它们用RGB数据进行训练,深度通道用作遮挡检测等细微之处的辅助工具。这可以用以下事实来解释:没有足够大的RGBD数据集来1)训练深度跟踪器,2)用深度线索至关重要的序列来挑战RGB跟踪器。这项工作引入了一个新的RGBD跟踪数据集- Depth-Track -它的序列(200)和场景类型(40)是现有最大数据集的两倍,对象(90)是现有数据集的三倍。此外,序列的平均长度(1473)、可变形对象的数量(16)和标注跟踪属性的数量(15)都有所增加。此外,通过在DepthTrack上运行SotA RGB和RGBD跟踪器,我们提出了一个新的RGBD跟踪基线,即DeT,这表明RGBD深度跟踪确实受益于真实的训练数据。

5、CPFN: Cascaded Primitive Fitting Networks for High-Resolution Point Clouds

在计算机视觉和逆向工程中,将人造物体表示为基本原语集合有着悠久的历史。在高分辨率点云扫描的情况下,挑战是既能检测大的原语,又能解释细节部分。经典的RANSAC方法需要特定于具体情况的参数调优,而最先进的网络受到其骨干模块(如PointNet )的内存消耗的限制,因此无法检测精细尺度的原语。我们提出了级联基元拟合网络(cascading Primitive Fitting Networks, CPFN),它依赖自适应patch采样网络来组装全局和局部基元检测网络的检测结果。作为关键启动器,我们提出了一个合并公式,它跨全局和局部规模动态聚合原语。我们的评估表明,CPFN在高分辨率点云数据集上提高了最先进的SPFN性能13-14%,特别是提高了20-22%的精细尺度原语的检测。

6、Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds

到目前为止,各种三维场景理解任务仍然缺乏实用的、可概括的预训练模型,这主要是由于三维场景理解任务的复杂性以及摄像机视角、光照、遮挡等带来的巨大变化。在本文中,我们通过引入一个时空表示学习(STRL)框架来解决这一挑战,该框架能够以自我监督的方式从未标记的3D点云中学习。受婴儿在野外学习视觉数据的启发,我们探索了从3D数据中获得的丰富的时空线索。STRL从三维点云序列中选取两帧时间相关的帧作为输入,利用空间数据增强对其进行变换,并自主学习其不变表示。为了证实STRL的有效性,我们对三种类型的数据集(合成、室内和室外)进行了广泛的实验。实验结果表明,与有监督学习方法相比,学习后的自监督表示使各种模型获得可比甚至更好的性能,同时能够将预先训练好的模型推广到下游任务,包括三维形状分类、三维物体检测、以及三维语义分割。此外,三维点云中嵌入的时空背景线索显著改善了学习表征。

7、Sparse to Dense Motion Transfer for Face Image Animation

人脸图像动画从单一图像上取得了显著的进步。然而,当只有稀疏的地标可用作为驾驶信号时,这仍然是一个挑战。给定源人脸图像和稀疏人脸地标序列,我们的目标是生成一个人脸视频,模仿地标的运动。我们开发了一种从稀疏地标到人脸图像的运动转移的有效方法。然后,我们将全局和局部运动估计结合在一个统一的模型中,以忠实地传递运动。该模型可以学会将移动的前景从背景中分割出来,不仅可以生成人脸的旋转和平移等全局运动,还可以生成微妙的局部运动,如注视的变化。我们进一步改进了视频中的人脸地标检测。通过使用时间更好的地标序列进行训练,我们的方法可以生成具有更高视觉质量的时间相干视频。实验表明,在相同身份测试和交叉身份测试上,我们取得了与最先进的图像驱动方法相当的结果。

8、4D-Net for Learned Multi-Modal Alignment

我们提出了4D-Net,一种利用三维点云和RGB传感信息的三维目标检测方法。我们能够通过在各种特征表示和抽象层次上执行新的动态连接学习,以及通过观察几何约束来整合4D信息。我们的方法优于Waymo Open Dataset上的最先进和强大的基线,4D-Net能够更好地使用运动线索和密集的图像信息,更成功地检测远处的目标。

0 人点赞