本文为 AI 研习社编译的技术博客,原标题 : NeuroNuggets: CVPR 2018 in Review, Part II 作者 | Sergey Nikolenko、Aleksey Artamonov 翻译 | 老赵 校对 | 酱番梨 整理 | 菠萝妹 原文链接: https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-ii-4759fd95f65c 注:本文的相关链接请点击文末【阅读原文】进行访问
NeuroNuggets:CVPR 2018年回顾,第二部分
今天,我们继续推出最近的CVPR(计算机视觉和模式识别)会议系列,这是世界上计算机视觉的顶级会议。 Neuromation成功参加了DeepGlobe研讨会,现在我们正在看主会议的论文。 在我们的CVPR回顾的第一部分,我们简要回顾了有关计算机视觉的生成对抗网络(GAN)的最有趣的论文。 这一次,我们深入研究了将计算机视觉应用于我们人类的工作:跟踪视频中的人体和其他物体,估计姿势甚至是完整的3D体形,等等。 同样,论文没有特别的顺序,我们的评论非常简短,所以我们绝对建议完整阅读论文。
人物:人物识别,跟踪和姿势估计
人类非常擅长识别和识别其他人类,而不是识别其他物体。特别是,大脑的一个特殊部分,称为梭状回,被认为含有负责面部识别的神经元,并且这些神经元被认为与识别其他事物的神经元有所不同。这就是那些关于颠倒的面孔(撒切尔效应)的幻想来自的地方,甚至还有一种特殊的认知障碍,即失语症,一个人失去了识别人类面孔的能力......但仍然很好地识别桌子,椅子,猫或英文字母。当然,这并不是很清楚,并且可能没有特定的“个体面部神经元”,但面部肯定是不同的。人类一般(它们的形状,轮廓,身体部位)在我们的心灵和大脑中也有一个非常特殊的位置:我们大脑的“基本形状”可能包括三角形,圆形,矩形......和人体轮廓。
人类认知是人类的核心问题,因此它一直是计算机视觉。 早在2014年(很久以前在深度学习中),Facebook声称在人脸识别方面达到了超人的表现,而且不管当代的批评现在我们基本上可以认为人脸识别确实很好地解决了。 但是,仍然有许多任务; 例如,我们已经发布了关于年龄和性别估计以及人类姿势估计的文章。 在CVPR 2018上,大多数与人类相关的论文要么是关于在3D中寻找姿势,要么是关于在视频流中跟踪人类,这正是我们今天所关注的。 为了更好地衡量,我们还回顾了一些关于物体跟踪的论文,这些论文与人类没有直接关系(但人类肯定是最有趣的科目之一)。
检测和跟踪:具有姿态估计的两步跟踪
R. Girdhar等人,“检测与跟踪:视频中的高效姿态估计”
我们已经利用Mask R-CNN实现分割,这是2017年出现的最有前途的分割方法之一。去年,基本的Mask R-CNN的几个扩展和修改出现了,卡内基梅隆的合作, Facebook和Dartmouth提出了另一个:作者提出了一个3D Mask R-CNN架构,该架构使用时空卷积来提取特征并直接识别短片上的姿势。 然后他们继续展示以3D Mask R-CNN作为第一步的两步算法(以及将关键点预测作为第二步链接的二分匹配)击败姿势估计和人类跟踪中的现有技术方法。 以下是3D Mask R-CNN架构,肯定会在未来找到更多应用:
用于人员重新识别的敏感姿态嵌入
M. Saquib Sarfraz等人,利用扩充的领域重分级敏感姿态嵌入的人员重识别
人员重新识别是计算机视觉中的一个具有挑战性的问题:如上所示,摄像机视图和姿势的变化可能使两张图片完全不同(尽管我们人类仍然立即发现这是同一个人)。 该问题通常通过基于检索的方法来解决,该方法导出查询图像与来自某个嵌入空间的存储图像之间的邻近度量。 德国研究人员的这项工作提出了一种将姿势信息直接纳入嵌入的新方法,从而改善了重新识别结果。 这是一个简短的概述图,但我们建议你完整阅读本文,以了解如何将姿势添加到嵌入中:
单张图像的3D姿势:从2D姿势和2D轮廓构造3D网格
G. Pavlakos等人,从单一彩色图像学习估计3D人体姿势和形状
姿态估计是一个众所周知的问题; 我们之前已经写过这篇文章并在本文中已经提到过。 然而,制作完整的3D人体形状是另一回事。 这项工作提出了一个非常有希望和非常令人惊讶的结果:它们直接通过端到端卷积结构生成人体的3D网格,该结构结合了姿势估计,人体轮廓分割和网格生成(见上图)。 这里的关键见解是基于使用SMPL,一种统计的身体形状模型,为人体形状提供了良好的先验。 因此,这种方法设法从单一彩色图像构建人体的3D网格。以下是一些说明性结果,包括标准UP-3D数据集中的一些非常具有挑战性的案例:
FlowTrack:关注视频并关注相关跟踪
Z. Zhu等,具有时空注意力的端到端流动相关跟踪
判别相关滤波器(DCF)是用于对象跟踪的现有技术学习技术。 我们的想法是学习一个过滤器 - 即图像窗口的转换,通常只是一个卷积 - 它对应于你想要跟踪的对象,然后将其应用于视频中的所有帧。 正如经常发生在神经网络中一样,DCF远非一个新的想法,可追溯到1980年的一篇开创性论文,但它们几乎被遗忘到2010年; MOSSE跟踪器开始复兴,现在DCF风靡一时。 然而,经典DCF不利用实际视频流并分别处理每个帧。 在这项工作中,中国研究人员提出了一种建筑,其中涉及能够跨越不同时间框架参与的时空关注机制; 他们报告了大大改善的结果。以下是他们模型的一般流程:
回到经典:相关跟踪
C.Suni等人,通过联合歧视和可靠性学习进行相关跟踪
与前一篇文章一样,本文致力于跟踪视频中的对象(目前这是一个非常热门的话题),就像前一篇一样,它使用相关过滤器进行跟踪。 但是,与前一个形成鲜明对比的是,本文并没有使用深度神经网络。这里的基本思想是在模型中明确地包括可靠性信息,即,向目标函数添加一个术语,该目标函数模拟学习过滤器的可靠性。 作者报告显着改进了跟踪,并显示了经常看起来非常合理的学习可靠性图:
这就是所有的文章,朋友们。
感谢您的关注。下次加入我们 - 来自CVPR 2018的更多有趣的论文......而且,就像偷看一样,ICLR 2019截止日期已经过去,其提交的论文已经上线,虽然我们不知道哪些可以接受更多 几个月我们已经在看他们了。
Sergey Nikolenko Chief Research Officer, Neuromation
Aleksey Artamonov Senior Researcher, Neuromation