1、NAS-FCOS: Efficient Search for Object Detection Architectures
神经体系结构搜索(Neural Architecture Search, NAS)通过自动发现最优的体系结构,在有效减少网络设计的人工工作量方面显示了巨大的潜力。 值得注意的是,尽管目标检测在计算机视觉中具有重要的意义,但到目前为止,NAS算法对目标检测的接触还比较少。 据我们所知,目前大多数针对目标检测任务的NAS研究都未能在结果模型的性能和效率之间取得令人满意的平衡,更不用说这些算法所消耗的过多的计算资源了。 在这里,我们提出了一种有效的方法来获得更好的目标检测器,通过搜索特征金字塔网络(FPN)和简单的无锚目标检测器的预测头,即FCOS[36],使用定制的强化学习范式。 通过精心设计的搜索空间、搜索算法和评估网络质量的策略,我们能够在4天内使用8个V100 gpu找到高性能的检测架构。 在COCO数据集上,发现的体系结构在AP上超过了最先进的目标检测模型(如Faster R-CNN、Retina-Net和FCOS) 1.0%到5.4%,具有相当的计算复杂性和内存占用,证明了提出的NAS方法在目标检测中的有效性。
2、Unsupervised Domain Adaptation with Dynamics-Aware Rewards in Reinforcement Learning
无监督强化学习的目的是在没有目标表示的情况下获得技能,其中agent自动探索一个开放的环境来表示目标并学习目标条件化的策略。 然而,这个过程通常很耗时,限制了在一些潜在昂贵的目标环境中的推出。 在另一个互动丰富的环境中进行培训的直观方法,由于动态变化,破坏了训练技能在目标环境中的再现性,从而抑制了直接转移。 假设可以自由访问源环境,我们提出了一种无监督的领域适应方法来识别和获取跨动态的技能。 特别是,我们引入KL正则化目标来鼓励技能的出现,奖励发现技能和调整动态变化行为的代理。 这表明,动态(源和目标)塑造奖励,以促进适应技能的学习。 我们还进行了实证实验,证明我们的方法可以有效地学习能够顺利部署在目标上的技能。
3、Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning of 3D Pose
我们研究了从几个有标记的例子和一组无标记的数据中学习估计三维物体位姿的问题。 我们的主要贡献是一个学习框架,神经视图合成和匹配,可以可靠地将3D姿态注释从标记的图像转移到未标记的图像,尽管看不到3D视图和烦人的变化,如物体形状、纹理、照明或场景上下文。 在我们的方法中,对象表示为三维长方体网格,由每个网格顶点的特征向量组成。 该模型由一些标记图像初始化,随后用于合成未见的3D视图的特征表示。 将合成的视图与未标记图像的特征表示进行匹配,生成三维姿态的伪标签。 伪标签数据被用来训练特征提取器,使每个网格顶点的特征在物体的不同3D视图中更不变性。 我们的模型以em类型的方式训练,在增加特征提取器的三维姿态不变性和通过神经视图合成和匹配标注未标记数据之间交替进行。 我们在PASCAL3D 和KITTI数据集上验证了所提出的半监督学习框架在三维姿态估计中的有效性。 我们发现,我们的方法在很大程度上优于所有基线,特别是在极端少镜头的情况下,只有7张带注释的图像。 值得注意的是,我们观察到,我们的模型在涉及部分遮挡的非分布场景中也实现了异常的鲁棒性。
4、UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model
从图像中恢复密集的人体姿态对于建立RGB图像与人体三维表面之间的图像-表面对应关系至关重要,为虚拟人、单目-三维重建等丰富的现实应用奠定基础。 然而,目前流行的denseposse-coco数据集依赖于复杂的人工标注系统,在获取更密集、更准确的标注姿态资源方面存在严重的限制。 在这项工作中,我们引入了一个新的三维人体模型与一系列解耦参数,可以自由地控制身体的生成。 并基于此解耦三维模型构建数据生成系统,构建超致密合成基准UltraPose,包含约13亿对应点。 与现有的人工标注的denseposse -coco数据集相比,合成的UltraPose具有超密集的图像-表面对应关系,没有标注成本和错误。 我们提出的UltraPose提供了最大的基准和数据资源,以提升模型预测更准确的密集姿态的能力。 为了促进这一领域的未来研究,我们还提出了一种基于变压器的方法来建模二维和三维世界之间的密集对应关系。 本文提出的在合成UltraPose上训练的模型可以应用于实际场景,说明了我们的基准和模型的有效性。
5、Mixed Supervised Object Detection by Transferring Mask Prior and Semantic Similarity
目标检测已经取得了可喜的成功,但需要大规模的全注释数据,这是耗时和费力的。 因此,我们考虑了混合监督下的目标检测,即利用现有基础目标类别的完整标注,利用弱标注学习新的目标类别。 以往采用混合监管的作品主要是从全标注的类别中学习到类不可知的客观性,从而将弱标注升级为新类别的伪标注。 在本文中,我们进一步转移掩模先验和语义相似度,以弥合新类别和基本类别之间的差距。 具体来说,使用掩码之前帮助检测目标的能力是从基本类别学习,并转移到新的类别。 此外,将从基本类别中学习到的目标之间的语义相似性转移到新类别的伪完整注释中去噪。 在三个基准数据集上的实验结果表明了该方法的有效性。