7 Papers & Radios | NeurIPS 2020最佳论文；全卷积网络实现E2E目标检测

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要研究包括 NeurIPS 2020最佳论文以及抛弃 Transformer 使用全卷积网络来实现端到端目标检测的探索。

目录：

No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium
MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs
End-to-End Object Detection with Fully Convolutional Network
ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes
Every Model Learned by Gradient Descent Is Approximately a Kernel Machine
Animating Pictures with Eulerian Motion Fields
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium

作者：Andrea Celli、Alberto Marchesi、Gabriele Farina、Nicola Gatti
论文链接：https://proceedings.neurips.cc/paper/2020/file/5763abe87ed1938799203fb6e8650025-Paper.pdf

摘要：相关均衡要求一个受信任的外部调停者为决策者提供决策建议，典型案例就是红绿灯，红绿灯告诉车辆前进这一行为是否安全。即使在相关法律缺失的情况下，我们仍然应该遵循红绿灯的推荐结果，因为我们知道每个人都可以推断出这是最好的选择，闯红灯是危险的行为。

这篇论文表明，此类均衡可以通过完全独立执行的学习算法来实现，无需外部交通工程师，甚至在决策涉及多个步骤、决策者对于世界的状态一知半解时也是如此。也就是说，存在此类 regret-minimizing 算法使 CE 在更广泛的博弈类别中实现收敛，即扩展形式的博弈。这一结果解决了博弈论、计算机科学和经济学领域中长期存在的开放性问题，并对涉及调停者的博弈产生显著影响，如通过导航 app 高效制定交通路线。

本文作者来自米兰理工大学 (Polimi) 和卡内基梅隆大学 (CM) 。

左：博弈树示例；中：玩家 1 标准型规划的 Set II_1；右：Subsection 中定义的子集示例。

玩家 i 的 ICFR 算法。

具有玩家 i 两个信息集 I 和 J 的 EFG；右：分层子树遗憾。

推荐：本文摘得 NeurIPS 2020 最佳论文奖。

论文 2：MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs

作者：Fangda Han、Guoyao Hao、Ricardo Guerrero
论文链接：https://arxiv.org/pdf/2012.02821v1.pdf

摘要：多标签条件图像生成是计算机视觉领域的一个挑战性问题。在这项研究中，罗格斯大学和三星 AI Center 的研究者提出了多组件披萨生成器（Multi-ingredient Pizza Generator, MPG），一种用于合成多标签图像的 GAN 框架。为了验证 MPG 的性能，研究者在 Pizza10 数据集上进行了测试，Pizza10 是一个经过仔细注释的多组件披萨图像数据集。结果表明， MPG 可以成功生成具有所需组件的逼真披萨图像。

生成器组件概览。

本研究 MPG 多组件披萨生成器与基准方法的定性对比效果图。

本研究 MPG 多组件披萨生成器与基准方法的性能定量对比结果。

推荐：该框架可以轻松扩展到其他多标签图像生成方案。

论文 3：End-to-End Object Detection with Fully Convolutional Network

作者：Jianfeng Wang、Lin Song、Zeming Li、Hongbin Sun、Jian Sun、Nanning Zheng
论文链接：https://arxiv.org/pdf/2012.03544.pdf

摘要：目标检测是计算机视觉领域的一个基础研究主题，它利用每张图像的预定义类标签来预测边界框。大多数主流检测器使用的是基于锚的标签分配和非极大值抑制（NMS）等手动设计。近来，很多研究者提出方法通过距离感知和基于分布的标签分类来消除预定义的锚框集。尽管这些方法取得了显著的进展和优越的性能，但抛弃手动设计的 NMS 后处理可能阻碍完全的端到端训练。

基于这些问题，研究人员相继提出了 Learnable NMS、Soft NMS 和 CenterNet 等，它们能够提升重复删除效果，但依然无法提供有效的端到端训练策略。之后，Facebook AI 研究者提出的 DETR 将 Transformer 用到了目标检测任务中，还取得了可以媲美 Faster R-CNN 的效果。但是，DETR 的训练时间却大大延长，在小目标上的性能也相对较低。

所以，在本文中，来自旷视科技和西安交通大学的研究者提出了一个新颖问题：全卷积网络是否可以实现良好的端到端目标检测效果？并从标签分配和网络架构两个方面回答并验证了这一问题。

FPN 阶段中利用 3D Max Filtering (3DMF) 的 head 示意图。

3D Max Filtering 的示意图。

利用不同方法的预测分类可视化示意图。

推荐：原来，丢弃 Transformer，全卷积网络也可以实现 E2E 检测。

论文 4：ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis

作者：Zhouyong Liu、Shun Luo、Wubin Li、Jingben Lu、Yufan Wu、Chunguo Li、Luxi Yang
论文链接：https://arxiv.org/pdf/2011.10185.pdf

摘要：深度卷积神经网络（CNN）是功能非常强大的模型，在一些困难的计算机视觉任务上性能也很卓越。尽管卷积神经网络只要有大量已标记的训练样本就能够执行，但是由于物体的变形与移动、场景照明变化以及视频序列中摄像头位置的变化，卷积神经网络在视频帧合成方面的表现并不出色。

近日，来自东南大学的研究者提出了一种新型的端到端架构，称为卷积 Transformer（ConvTransformer），用于视频帧序列学习和视频帧合成。ConvTransformer 的核心组件是文中所提出的注意力层，即学习视频序列序列依赖性的多头卷积自注意力。ConvTransformer 使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列，然后使用另一个包含多头卷积自注意层的深度网络从特征图序列中对目标合成帧进行解码。

在实验阶段的未来帧推断任务中，ConvTransformer 推断出的未来帧质量媲美当前的 SOTA 算法。研究者称这是 ConvTransformer 架构首次被提出，并应用于视频帧合成。

本文 ConvTransformer 架构的流程图。

左：卷积自注意力；（右）并行的多头注意力。

本文 ConvTransformer 与其他 SOTA 视频帧插值方法的可视化效果比较。

推荐：研究者表示，这是卷积神经网络与 Transformer 首度结合用于视频帧合成。

论文 5：iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes

作者：Bokui Shen、Fei Xia、Chengshu Li 等
论文链接：https://arxiv.org/pdf/2012.02924.pdf

摘要：近来，面向 AI 和机器人的模拟环境得到了大力发展。仅仅几年前，机器人模拟环境还算是相对稀有的产物，但如今，各大学术会议（NeurIPS、CoRL、甚至 ICRA 和 IROS）几乎所有与 AI 机器人相关的论文都会用到模拟环境。

然而，当前结合物理模拟与机器人任务的模拟环境往往局限于一小类任务，并且仅包含 clean 和小型场景。包含家庭和办公室等大型场景的少数模拟环境要么无能力改变场景，仅侧重于导航性能，如 Habitat；要么使用游戏引擎或者简化的交互模式，如 AI2Thor、VirtualHome。所以，在处理那些需要与场景进行丰富交互的任务而言，这些模拟器不支持端到端感觉运动控制回路的开发，也就难以完成此类任务。此外，简化的交互模式也导致很难将可学得的交互策略转换为可执行的真实机器人指令。

基于如上这些想法，来自斯坦福视觉与学习实验室（SVL）的研究者开发了 iGibson 以用来训练和测试 interactive（可交互的）AI 智能体 iGibson。

iGibson 模拟环境中的机器人交互。

15 个充分可交互、视觉上逼真、依据真实房屋构建的场景。

iGibson 与其他模拟环境的比较。

推荐：研究者表示，斯坦福视觉与学习实验室（SVL）有许多的项目在使用 iGibson，未来也将提出、攻克各种各样的交互任务。

论文 6：Every Model Learned by Gradient Descent Is Approximately a Kernel Machine

作者：Pedro Domingos
论文链接：https://arxiv.org/pdf/2012.00152v1.pdf

摘要：深度学习的成功通常归因于其自动发现数据新表征的能力，而不是像其他学习方法那样依赖手工特征。但在本文中，来自华盛顿大学的研究者表明，通过标准梯度下降算法学得的深度网络实际上在数学上近似于内核机器，这是一种简单地存储数据并直接通过相似性函数（内核）将其用于预测的学习方法。通过阐明深层网络权重实际上是训练示例的叠加，深层网络权重的可解释性可以大大增强。

内核机器模型的形式。

路径内核度量示例之间相似度的方式。

作为叠加训练示例时的深度网络权重。

推荐：网络体系结构将目标函数的知识整合到内核中。这种更好的理解方式应该能够生成更好的学习算法。

论文 7：Animating Pictures with Eulerian Motion Fields

作者：Aleksander Holynski、Brian Curless、Steven M. Seitz、Richard Szeliski
论文链接：https://arxiv.org/pdf/2011.15128.pdf

摘要：或许是受到「霍格沃兹」魔法世界的启发，近年来，人们为了让静态的照片动起来花了不少功夫。不过，之前的很多研究针对的都是人物，水流、烟雾等自然场景的研究相对较少。但如果翻看手机相册的话，景物照可不比人像少。对于人类而言，一张图像通常不仅仅是像素的集合。根据我们以往对世界的观察，当拍摄图像时，我们不仅可以识别出物体、结构，还可以想象到场景的运动方式。通过这些先验，我们常常可以想象到图像的动态展示场景，例如烟囱冒烟、湖波荡漾等。

在华盛顿大学和 Facebook 的一项新研究中，研究者们提出了一个从真实场景视频中学习相同运动先验的系统，该系统可以利用一张全新的静态图像合成合理运动，并渲染出基于该图像的场景动画视频。

方法示意图。

深度变形、无缝循环与训练流程图。

转换的动画视频示例。

推荐：湖波荡漾、烟雾蒸腾…… 这些动态场景竟都是 AI「脑补」出的

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Fact-Enhanced Synthetic News Generation. (from Huan Liu)

2. Event Guided Denoising for Multilingual Relation Learning. (from Kathleen McKeown)

3. Infusing Finetuning with Semantic Dependencies. (from Noah A. Smith)

4. Fusing Context Into Knowledge Graph for Commonsense Reasoning. (from Yang Liu)

5. Automatic Standardization of Colloquial Persian. (from Chris Callison-Burch)

6. Extractive Opinion Summarization in Quantized Transformer Spaces. (from Mirella Lapata)

7. Facts2Story: Controlling Text Generation by Key Facts. (from Yoav Goldberg)

8. Exploring Pair-Wise NMT for Indian Languages. (from C V Jawahar)

9. Edited Media Understanding: Reasoning About Implications of Manipulated Images. (from Yejin Choi)

10. Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network for Emotional Conversation Generation. (from Ying Zhang)

本周 10 篇 CV 精选论文是：

1. Look Before you Speak: Visually Contextualized Utterances. (from Cordelia Schmid)

2. Image Matching with Scale Adjustment. (from Cordelia Schmid, Radu Horaud)

3. 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection. (from Leonidas J. Guibas)

4. Active Visual Localization in Partially Calibrated Environments. (from Leonidas Guibas)

5. Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments. (from Thomas Funkhouser, Leonidas Guibas)

6. The Lottery Ticket Hypothesis for Object Recognition. (from Larry Davis)

7. ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation. (from Alan Yuille, Liang-Chieh Chen)

8. You Only Need Adversarial Supervision for Semantic Image Synthesis. (from Bernt Schiele)

9. One-Vote Veto: A Self-Training Strategy for Low-Shot Learning of a Task-Invariant Embedding to Diagnose Glaucoma. (from David Kriegman)

10. TAP: Text-Aware Pre-training for Text-VQA and Text-Caption. (from Lei Zhang, Jiebo Luo)

本周 10 篇 ML 精选论文是：

1. Understanding Learned Reward Functions. (from Stuart Russell)

2. Adversarial Linear Contextual Bandits with Graph-Structured Side Observations. (from Georgios B. Giannakis)

3. Planning from Pixels using Inverse Dynamics Models. (from Sheila A. McIlraith, Jimmy Ba)

4. A Data-Driven Analytical Framework of Estimating Multimodal Travel Demand Patterns using Mobile Device Location Data. (from Lei Zhang)

5. Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning. (from Sergey Levine, Dumitru Erhan)

6. Data Dependent Randomized Smoothing. (from Philip H. S. Torr)

7. Optimal Survival Trees. (from Dimitris Bertsimas)

8. Optimal oracle inequalities for solving projected fixed-point equations. (from Martin J. Wainwright)

9. Stability and Identification of Random Asynchronous Linear Time-Invariant Systems. (from Babak Hassibi)

10. Towards Communication-efficient and Attack-Resistant Federated Edge Learning for Industrial Internet of Things. (from Dusit Niyato)

https 网络安全图像处理学习方法机器人

0 人点赞