回顾 | CVPR 2017完全指北:深度学习与计算机视觉融合的一年,未来又会是什么?

2018-05-09 16:09:59 浏览数 (1)

机器之心(海外)原创

作者:QW、CZ

参与:王灏、Panda

当地时间 7 月 21 日到 16 日,夏威夷火奴鲁鲁迎来了 2017 年计算机视觉与模式识别会议(CVPR)。今年的会议收到了 2620 份有效提交,其中有 783 篇论文被接收,其中又有 215 篇将进行长和短的演讲展示,分成了 3 个并行议程。本届会议吸引了 127 家赞助商,赞助资金 859000 美元。参会者数量接近 5000 人,在几年前才刚到 1000 人的基础上实现了显著的增长。本文带你回顾这场学术嘉年华(咖啡很赞!),不要错过!

主会议

CVPR 是最有影响力的计算机视觉会议之一。4 天的主会议(7 月 22~25 日)覆盖了以下主要主题:

1. 机器学习

2. 目标识别与场景理解——计算机视觉和语言

3.3D 视觉

4. 人物肖像分析

5. 低级视觉与中级视觉

6. 图像运动与跟踪:视频分析

7. 图像处理计算数字化

8. 相关应用

前四大主题占到了接收论文的 80% 以上。我们将首先介绍这四个主题。

机器学习

在机器学习 Session 中,大多数长和短演讲的重点都是已有模型的性能限制上的突破进展,但也有少量杰出论文深入挖掘了对神经网络机制的理解:

1. 密集连接的神经网络(Densely Connected Convolutional Networks)。这是最佳论文奖的获奖论文之一。这项工作介绍了 DenseNet——一种在网络越深度时网络架构变得越密集的全新网络。相对于 vanilla CNN,它有以下优势:能保持更强的梯度流、显著提升了计算效率等等。一位研究者评论说:「他们部分回答了有关神经网络工作方式的问题,而且他们通过探索未知进行了他们的研究,而不是仅仅调整一下神经网络架构。」对于这项研究的更多解读,可参阅机器之心专栏文章《专栏 | CVPR 2017 最佳论文解读:密集连接卷积网络》。

2. 神经网络训练中的全局最优性(Global Optimality in Neural Network Training)。这篇论文表明,只要网络输出和正则化是网络参数的正齐次函数,就可以实现全局最优。简单来说,ReLU 函数可以被看作是齐次函数,因为 max(0, ax) = a * max(0, x);而 softmax 则不能被看作是齐次函数。此外,这篇论文还将该理论扩展到了多个并行连接的 AlexNet 上。这篇有趣的论文可以指导神经网络模型的设计和训练。

另外还有一项研究值得一提:

使用生成对抗网络的无监督像素级域适应 (Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks)。这项超分辨率生成对抗网络工作提出用感知损失(perceptual loss)替代均方误差。在 GAN 上,感知损失由内容损失和对抗损失组成;因此,这个损失函数让 GAN 可以表征高级内容,而不只是像素级的内容。另外,该论文还提出了一个用于测量感知损失的新指标。

因为机器学习(尤其是其子领域深度学习)在处理计算机视觉问题上已经变得非常有效了,所以机器学习/深度学习成为了今年的主流议题(自 2012 年 AlexNet 震惊世界以来,机器学习/深度学习没有给传统的计算机视觉方法留下任何余地。一位受访者在喝咖啡的休息时间表达了他的狂热热情:「机器学习主宰了计算机视觉!这很振奋人心,而且未来还将有更多机会!」但也有一些人表达了担忧:「只有非常少的研究者在关注推进机器学习/深度学习的理论发展,这可不好。」——因为深度学习仅仅被用作工具。不管你是否接受这一趋势,机器学习和深度学习确实正在主导各个领域。

尽管深度学习已经变得相当流行,但只是实现单个深度学习模型还远远不够。在所有与深度学习相关的论文中,机器学习的概念和方法都不能被忽视:在机器学习概念的帮助下,深度学习的能力已经得到了扩展,而且也更易于解释;此外,机器学习指标和深度网络的融合也已经变得非常流行,因为这样可以得到更好的模型。

3D 视觉

3D 视觉包含的主题有重建、分割等。与 2D 图像处理相比,额外的维度带来了更多不确定性,例如遮挡和不同的相机角度。研究者在处理这些不同的情况上投入了大量精力。来自普林斯顿大学的两个团队带来的两个演讲展示收获了最热烈的掌声:

1. 根据单一深度图像的语义场景完成(Semantic Scene Completion from a Single Depth Image)。这项研究的主要目标是根据单一图像重建目标。但是,3D 场景中固有的模糊性与不确定性会降低重建的准确度。为了解决这一问题,这篇论文提出了一种数据驱动的方法:使用作为知识库的大型数据集学习来构建神经网络。这种先验知识可以缓解物体被遮挡后识别率降低的痛苦。这个新模型可以通过识别周围的其它物体来推断一个物体;而先验知识可以极大地提升准确度。

2. 3DMatch:根据 RGB-D 重建学习局部几何描述(Learning Local Geometric Descriptors From RGB-D Reconstructions)。这篇论文也引入了用于先验知识的数据驱动的模型。为了应对训练数据不足的问题,他们使用了自监督学习(self-supervised learning)来生成数据,即从不同的角度,获取长程的对应关系 (correspondence)。

正如前面提到的,3D 维度的本质给研究者带来了噪声、低分辨率和扫描数据不完整的难题。当前的研究工作已经开始在获取全局语义含义并将它们与局部几何模式进行匹配。但是,当前数据集的规模大小可能已经无法支持前沿研究。因此下一步研究目标可能会转向为 3D 视觉开发设计合理的数据集。《使用环差滤波器的从焦点的噪声鲁棒深度(Noise Robust Depth From Focus Using a Ring Difference Filter)》、《使用最小监督来学习有噪声的大规模数据集(Learning From Noisy Large-Scale Datasets With Minimal Supervision)》、《用于 6D 物体姿态估计的全局假设生成(Global Hypothesis Generation for 6D Object Pose Estimation)》、《用作用于单眼深度估计的序列深度网络的多尺度连续 CRF(Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation)》等其它论文则旨在解决有噪声数据和估计问题。一位博士生说:「我的兴趣在于几何深度学习 (Geometric Deep Learning),这将是新的趋势。」

目标识别与场景理解

目标识别是今年的又一主要主题。过去,研究者在识别单个物体和理解整体场景上投入了大量工作。但现在研究目标已经转向了识别单张图像中多个物体之间的关系。以论文《使用深度关系网络检测视觉关系(Detecting Visual Relationships with Deep Relational Networks》为例,这项研究提出了一种集成框架——不仅可用于分类单个物体,而且还能探索不同物体之间的视觉关系。

1. 走近看可以看得更好:用于细粒度图像识别的循环注意卷积神经网络 (Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition)。这篇论文探讨了细粒度图像识别的两个难题:判别区域定位(discriminative region localization)和细粒度特征学习(fine-grained feature learning)。为了解决这些问题,论文作者引入了循环注意卷积神经网络以利用注意机制(这样网络就可以迭代式地越来越近地观察目标物体)来判别细微的差异。

2. 使用 Polygon-RNN 标注目标实例(Annotating Object Instances with a Polygon-RNN)。这篇论文荣获最佳论文荣誉提名奖。这项工作创造性地将物体标注问题形式化为了多边形预测问题,而不是传统的像素标注问题。当数据规模变成了深度学习的瓶颈时,快速获取数据就变得非常重要了;他们的研究成果为研究者提供了一种灵活的标注方法。

我们在 poster session 期间还发现了另一个有趣的研究成果:

图像和视频广告的自动理解(Automatic Understanding of Image and Video Advertisements)。广告的目的是要暗示性地劝说客户采取特定的行动。理解广告不仅需要识别实体内容。这项研究覆盖了 38 个主题和 30 种情绪,可以通过象征意义将实体内容与抽象概念链接起来。

人物肖像分析

因为公共安全受到的威胁日益增大,对人员识别和行人检测的需求也正快速增长。幸运的是,与这一领域相关的大量应用和扩展理论正在持续涌现。

这两篇论文在演示期间收获了非常热烈的掌声:

1. 自然环境中的人物再识别(Person Re-Identification in the Wild)。之前的研究都只是重在人物 re-ID 本身,而这项研究则将人物检测和人物 re-ID 结合了起来。他们提出了 ID 判别嵌入(IDE:ID-discriminative Embedding),因为这易于训练和测试。关于检测如何有助于人物 re-ID 的见解包括:

  • 在 re-ID 应用下评估检测器的表现;
  • 一种级联 IDE 微调策略:首先微调检测模型,然后微调 re-ID 模型。

2. 循环 3D 姿态序列机(Recurrent 3D Pose Sequence Machines)。由于人类外观变化多端,而且还有各种各样的相机角度和视线阻挡,再加上固有的模糊性,3D 姿态估计是比 2D 问题远远更有挑战性的问题。这篇论文提出了一种全新的循环 3D 姿态序列机(RPSM)模型,可以使用多个阶段的序列优化来循环式地集成丰富的空间和时间长程依赖。

但是,在日常生活中人们被相机对准时,隐私又变成了另一个热门主题。一位学者表达了自己的担忧:「我看到有很多研究工作出现,而这些可能会成为监管部门的巨大挑战。对于人物识别这样的任务,个人隐私可能会承受风险。」

研究趋势和观察

1. 计算机视觉领域的机器学习和深度学习。也有不同的声音,一位来自 EE 的学者说:「我认为计算机视觉和深度学习的结合并不是非常好,尽管它得到了许多成功的应用和论文。传统上,从信号处理的角度看,我们知道计算机视觉的物理含义,比如尺度不变特征转换(SIFT:Scale-Invariant Feature Transform)和加速的稳健特征(SURF:Speeded Up Robust Features)方法,但深度学习无法得到这样的含义,你只需要更多数据就可以了。这可以被视为向前的一大步发展,也可以被看作是向后的一步倒退。从基于规则到数据驱动,我们需要重新评估我们的方法。」

2. 数据驱动的模型。模型不再由人工设计模式设计(这种方法通常只能覆盖一个特定数据集的一两个特征,但在其它数据集上则表现很差),而是重在数据驱动的模型,这意味着特征是从馈送给模型的成千上万张图像中学习到的。一些图像可能是高度对应的(但可能是不同的角度),所以该模型可以通过测量这种对应关系(对于定位问题)来自己学习相似度。简而言之,大规模数据可以得到更好的结果。但一个带有大量数据的简单算法不会是未来最好的方法。成功的模型源自足够的强大的算法以及高质量和足够大的训练数据集。此外,还需要找到适用的场景。

3. 数据集

问题:在 2D 和 3D 视觉领域,许多新类型的研究往往会遇到没有合适(足够)的训练数据的问题。

方法:

  • 寻找生成或增强训练数据的新方法,一些是弱监督学习或自监督学习;
  • 将需求放在 Amazon Mechanical Turk 等平台上。

结论:自 2009 年以来,ImageNet 主导了计算机视觉研究,大部分模型都是在 ImageNet 上训练的。现在,数据已然成为了先进算法的瓶颈,研究者不可避免地需要构建更大的通用数据集。此外,数据的质量也很重要,因为低质量的数据可能会严重拉低模型的表现,即使模型本身可能已经足够好了。有监督方法无法满足数据需求,社区需要找到新的出路。比如,利用不可靠的数据、应用弱监督方法和在环境中主动学习可能是下一波浪潮的可行方向。

4. 弱监督方法。今年有近 30 篇论文谈及了弱监督方法。这一趋势和数据不足问题紧密相关。「弱监督」这个术语是指带有不完整标签的图像。标签在图像中的物体上没有很好的划分,比如一个带有汽车标签的边界框没有圈到汽车,但也未经处理就被输入了模型。这一趋势说明靠人力标注数据集是不可行的。

5. 数据与模型的结合。这会是未来的一大趋势。当前研究中本质的问题是:在特定应用上再也无法为先进的算法或模型提供足够的数据。所以很多研究者的研究结果不仅有算法或架构,还包含了数据集或积累数据的方法。

教程、研讨会和挑战赛

在所有的研讨会中,有至少 14 个都是针对某个挑战赛的。许多企业实验室和大学研究团队已经参与到了这些挑战赛中。除了发表研究论文,这些挑战赛也已经变成了研究团队和企业展示自身研究和工程实力的地方。

CVPR 2017 上的挑战赛

  • ActivityNet 大规模活动识别挑战赛 2017,链接:http://activity-net.org/challenges/2017/index.html
  • Beyond ImageNet 大规模视觉识别挑战赛,链接:http://image-net.org/challenges/beyond_ilsvrc
  • 第二届 NTIRE:图像恢复与增强新趋势之超分辨率研讨会和挑战赛,链接:http://www.vision.ee.ethz.ch/ntire17/
  • 计算机视觉的明暗面:隐私与安全的挑战和机遇,链接:http://vision.soic.indiana.edu/bright-and-dark-workshop-2017/
  • DAVIS 视频目标分割挑战赛 2017,链接:http://davischallenge.org/challenge2017.html
  • 视觉问答挑战赛 2017,链接:http://www.visualqa.org/workshop.html
  • YouTube-8M 大规模视频理解挑战赛,链接:https://research.google.com/youtube8m/workshop.html
  • 群体场景中对人类的视觉理解与第一届 Look Into Person (LIP) 挑战赛,链接:https://vuhcs.github.io/
  • 关于计算机视觉在汽车技术与自动驾驶挑战赛的联合研讨会,链接:http://cvpr2017.tusimple.ai/portal.html
  • 自然环境中的人脸问题研讨会-挑战赛,链接:https://ibug.doc.ic.ac.uk/resources/first-faces-wild-workshop-challenge/
  • 关于场景理解和 LSUN 挑战的联合研讨会,链接:http://jointscene.csail.mit.edu/
  • 交通监控研讨会和挑战赛,链接:http://podoce.dinf.usherbrooke.ca/challenge/tswc2017/
  • PASCAL IN DETAIL 研讨会挑战赛,链接:https://sites.google.com/view/pasd
  • 通过从网络数据学习的视觉理解挑战赛,链接:http://www.vision.ee.ethz.ch/webvision/challenge.html
  • 连接 3D 视觉研讨会与 NRSfM 挑战赛,链接:https://sites.google.com/view/cvpr2017-bridges-nrsfm/home
  • ...

由李飞飞博士发起的 ImageNet 是计算机视觉领域最知名的挑战赛之一。在 CVPR 2017 期间,李飞飞博士和邓嘉博士谈论了 ImageNet 过去八年取得的成就,并且还宣布 Kaggle 将会取代 ImageNet,参阅机器之心报道《CVPR 2017 李飞飞总结 8 年 ImageNet 历史,宣布挑战赛最终归于 Kaggle》。

ImageNet 之后,用于大规模评估计算机视觉算法的值得关注的挑战赛是哪个?来自 WebVision(通过从网络数据学习的视觉理解挑战赛)获奖团队码隆科技的研究员黄伟林博士认为:「WebVision 是最有希望的一个。」

在这个 CVPR 研讨会上,李飞飞代表这个比赛的赞助商 Google Research 向 码隆科技颁发了 WebVision Award。

WebVision 和 ImageNet 的主要区别可以分为两大部分:

1. 不平衡的类分布:WebVison 的类分布取决于查询,这意味着常见的物体更容易出现,而 ImageNet 的类分布一直是相似的。

2. 有噪声的数据:WebVision 的所有图像都来自谷歌和 Flickr 上的查询,而 ImageNet 的图像都是人工标注的。所以在 WebVision 数据集上训练时,不完整和错误的标签可能会构成阻碍。

为了解决上面两个问题,Malong 采用了一种并不新颖,但还很少使用的范式,称为课程学习 (Curriculum Learning),这是 Bengio 最早在 ICML 2009 上提出的方法。Curriculum Learning 可以使用复杂度不断增长的样本来训练 CNN。码隆科技相信这种方法可以极大地提升模型的表现。因为有噪声的数据可以被过滤并且以一种特定顺序输入该网络(如下图所示),所以可以实现微调 (fine-tuning)。他们的架构包含一个在元数据上训练的基线模型,之后又在这个经过 Curriculum 设计的数据集上进行了训练

设计 curriculum 的方法是在每个类上实现 K-means 分类。这样做之后,带有错误标签的有噪声图像会被聚类,其它带有正确标签或中间标签的聚类保留下来,并根据相关性降序排列。只要 curriculum 设计良好,我们就可以看到每个聚类都带有不同的固有的复杂度,从而可用于进一步的训练过程。

然后根据 Curriculum Learning 范式训练该模型:首先输入清洁的数据,然后再输入有噪声的数据。

最后,比较结果之后,码隆科技的这个带有 Curriculum Learning 的架构在 WebVision 挑战赛获胜,取得两项任务的冠军。

除了挑战赛,大多数研讨会也有受邀演讲和小组讨论。

今年 CVPR 上最有前途的未来行业方向是自动驾驶。在研讨会的第一天,有一个关于计算机视觉在汽车技术与自动驾驶挑战赛的联合研讨会。上午半场是汽车技术领域的计算机视觉研讨会。受邀嘉宾谈论了他们的愿景并分享了他们在这一领域的经验。英伟达公司赞助了这个最佳论文奖,获奖论文为《一百层的提拉米苏:用于语义分割的全卷积 DenseNet(The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for semantic segmentation)》,作者为:Simon Jegou, MILA;Michal Drodzal, Imagia;David Vazquez, Computer Vision Center;Adriana Romero, MILA;Yoshua Bengio, MILA;论文地址:https://arxiv.org/abs/1611.09326。下午半场是关于「自动驾驶挑战赛」,包含了 5 个受邀演讲和一个小组讨论。其中大部分演讲都不是纯学术驱动的,这也是下午研讨会的独特之处。

我们和一位来自斯坦福大学的博士生 Fisher Yu 聊了聊。他是 CVPR 2017 自动驾驶挑战赛研讨会的组织者之一。据 Fisher 说,组织这样一个研讨会和挑战赛的目的是搭建产业界和学术界之间的桥梁,因此受邀演讲的主题同时覆盖了这两者。学术界更专注如何最终解决自动驾驶问题,而产业界则更加实际,致力于通过工程上的努力来解决一些具体问题。这个挑战赛研讨会既邀请到了著名的计算机视觉研究者和创业公司产业领袖:来自约翰·霍普金斯大学的 Alan Yuille 教授,他为视觉问题的解决做出了巨大的贡献;KITTI 的负责人 Andreas Geiger,他是研究定义自动驾驶问题、设置对应数据集和基准的早期视觉研究者之一;也请到了有很强学术背景的产业界实践者,比如图森互联的侯晓迪(Xiaodi Hou)博士、AutoX 的肖健雄(Jianxiong Xiao)博士、Pony AI 的 James Peng 和 Apex.AI 的 Jan Becker 博士。Alan Yuille 和 Andreas Geiger 都很关注如何使用模拟数据做研究以及如何更好地研究和分析 3D 数据。据该挑战赛的主办方图森未来的 CTO 侯晓迪博士介绍,这个挑战赛侧重于车道检测和速度估计,以填补基准缺失的空白。

作为 Berkely Deep Drive 的成员之一,Fisher Yu 在他的演讲展示中介绍了伯克利的 DeepDrive 项目。BDD 项目组已经开发出了 Berkely Deep Drive Data(BDDD,链接:https://deepdrive.berkeley.edu ),提供了数十万小时的驾驶数据。其中大多数数据都来自相机、GPS 和 IMU 等移动设备。BDDD 具有实例级的语义分割特征,并且得到了良好的标注。BDDD 团队还开发了一种端到端的驾驶策略,相关论文也出现在了今年的 CVPR(End-to-end Learning of Driving Models from Large-scale Video Datasets, https://arxiv.org/abs/1612.01079)。他们同时也对如何用更小的模型来提升效率进行了研究。巨量数据需要更加高效的模型——规模更小且运行和推理的时间更短。

参与展览会的产业公司

今年,CVPR 共有 127 家赞助商。一般来说当会议在夏威夷举办时,赞助商总数会下降。但今年的情况不是这样,反而比起 CVPR 2016 还多了 30% 的赞助商。当被问及为何参展时,大多数公司都回答说为了招聘,也有少数回答说是为了营销。

本文为机器之心原创,转载请联系本公众号获得授权。

0 人点赞