机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周重要论文包括牛津大学提出的可变形 3D 对象,无需显式监督;谷歌提出的首个在视觉质量方面与 HEVC 具有竞争性的神经压缩方法等研究。
目录:
- DOVE: Learning Deformable 3D Objects by Watching Videos
- Towards Generative Video Compression
- CoBERL: Contrastive BERT for Reinforcement Learning
- Contextual Transformer Networks for Visual Recognition
- LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference
- Graph Kernel Attention Transformers
- Sliding Spectrum Decomposition for Diversified Recommendation
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:DOVE: Learning Deformable 3D Objects by Watching Videos
- 作者:Shangzhe Wu、Tomas Jakab、Christian Rupprecht、 Andrea Vedaldi
- 论文地址:https://arxiv.org/pdf/2107.10844.pdf
摘要:牛津大学 VGG 团队的研究者提出了一种全新方法 DOVE(Deformable Objects from Videos),该方法可以在没有显式关键点或模板形状的情况下高效地学习可变形 3D 对象。具体来讲,DOVE 方法基于自然地提供跨时间对应关系的单目视频(monocular video),并且可以应用于「野外」环境。DOVE 方法仅使用鸟类的 2D 图像即可预测 3D 标准形状、变形、视点和纹理,因而能够更容易地绘制鸟类动作的动画或操控它们的透视图。
该研究的目标是从视频剪辑集合中学习可变形对象类别的 3D 形状。具体来说,给定一个用固定相机捕获的对象短视频剪辑数据集,以此来训练一个重建模型,该模型将对象的单个图像作为输入,并预测其 3D 形状、纹理和 articulated 3D 姿态。下图 2 为训练 pipeline。
重建模型输入来自视频序列的单帧 I ∈ R ^3×H×W,使用三个网络(分别为 f_S、f_T 和 f_P)预测对象的 articulated 3D 形状、纹理和刚性姿态。然后重新组合这些信息以生成(渲染)对象的图像,可以将其与输入视频帧进行比较以进行监督。形状由具有固定连接性和可变顶点位置 V ∈ R^3×K 的三角网格给出。该研究分两步获取 V ,来区分特定于实例的形状变化和特定于帧的关节。
Articulated 形状模型
推荐:CVPR 最佳论文得主吴尚哲新作:从视频中学习可变形 3D 对象,无需显式监督
论文 2:Towards Generative Video Compression
- 作者:Fabian Mentzer、 Eirikur Agustsson、 Johannes Ballé 等
- 论文地址:https://arxiv.org/abs/2107.12038
摘要:来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当。研究者提出了减少时间误差累积的方法,该误差累积由递归帧压缩引起,该方法使用随机移位和非移位,由频谱分析驱动。论文中研究者详细介绍了网络设计的选择以及重要性,并阐述了在用户研究中评估视频压缩方法的挑战。
研究者采用以下策略来获得高保真重建视频:
- 在 I-frame 中合成可信的细节;
- 尽可能清晰的传递这些可信细节;
- 对于出现在 P-frame 中的新内容,研究者希望能够合成可信细节。
研究者在图 1 中总结了评分者偏好,并在图 7 中显示了性能指标。该研究与三种比特率下的 HEVC 进行了比较,结果证明该研究所用方法与 HEVC 在 0.064 bpp 下具有可比性 (14vs12),在 0.13bpp 下效果更佳(18vs9),在 0.22bpp 下性能也不错(16vs9)。
推荐:该研究提出了首个在视觉质量方面与 HEVC 具有竞争性的神经压缩方法。
论文 3:CoBERL: Contrastive BERT for Reinforcement Learning
- 作者:Andrea Banino 、 Adrià Puidomenech Badia 、 Jacob Walker 等
- 论文地址:https://arxiv.org/pdf/2107.05431.pdf
摘要:DeepMind 的研究者提出了 CoBERL(Contrastive BERT for RL)智能体,它结合了新的对比损失和混合 LSTM-transformer 架构,以提高处理数据效率。CoBERL 使得从更广泛领域使用像素级信息进行高效、鲁棒学习成为可能。具体地,研究者使用双向掩码预测,并且结合最近的对比方法泛化,来学习 RL 中 transformer 更好的表征,而这一过程不需要手动地进行数据扩充。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。
为了解决深度强化学习中的数据效率问题,研究者对目前的研究提出了两种修改:
- 首先提出了一种新的表征学习目标,旨在通过增强掩码输入预测中的自注意力一致性来学习更好的表征;
- 其次提出了一种架构改进,该架构可以结合 LSTM 以及 transformer 的优势。
CoBERL 整体架构图。
推荐:DeepMind 提出强化学习智能体
论文 4:Contextual Transformer Networks for Visual Recognition
- 作者:Yehao Li、Ting Yao、Yingwei Pan、Tao Mei
- 论文地址:https://arxiv.org/pdf/2107.12292.pdf
摘要:具有自注意力的 Transformer 引发了自然语言处理领域的革命,并在最近激发了 Transformer 风格的架构设计的出现,在许多计算机视觉任务中产生了竞争性结果。然而,大多数现有的设计都直接在 2D 特征图上使用自注意力,基于每个空间位置上的孤立查询和键对来获得注意力矩阵,而没有充分利用相邻键之间的丰富上下文。本文提出了 Transformer 风格模块 CoT(Contextual Transformer, CoT) 用于视觉识别任务,该设计充分利用输入的上下文信息并引导动态注意力矩阵的学习,进而提升了视觉表达能力。实验结果表明:CoTNet 是一种更强的骨干网络。在 ImageNet 分类任务中与 ResNeSt101 进行比较,CoTNet 提高了 0.9% 的性能;在 COCO 目标检测与实例分割任务中与 ResNeSt 相比,CoT 分别取得了 1.5% 与 0.7%mAP 指标提升。
研究人员首先对现有主干网络中采用的传统自注意力模块进行简单介绍;然后引入了 Transformer 风格模块;最后再将基于 CoT 模块构建的 CoTNet、CoTNeXt 等等架构纳入。
推荐:最强 ResNet 变体 CoTNet。
论文 5:LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference
- 作者:Benjamin Graham 、Alaaeldin El-Nouby 、Hugo Touvron 等
- 论文地址:https://arxiv.org/pdf/2104.01136.pdf
摘要: 该研究设计了一系列图像分类架构,在高速状态下实现了优化精度和效率之间的权衡。该研究利用了基于注意力架构的最新发现,这些架构在高度并行的处理硬件上具有竞争力。此外,该研究还回顾了广泛文献中的卷积神经网络原理,将其应用于 transformer,特别是分辨率降低的激活图。之后介绍了视觉 transformer 中位置信息整合的新方法——注意力偏差。最终作者提出了 LeVIT:一种用于图像快速推理分类的混合神经网。考虑在不同的硬件平台上采用不同的效率衡量标准,以最好地反映各种应用场景。该研究通过广泛的实验表明:所提方法适用于大多数体系架构。总体而言,LeViT 在速度 / 精度权衡方面显著优于现有的卷积网络和视觉 transformer。
LeViT 以 ViT 的架构和 DeiT 的训练方法为基础,合并了对卷积架构有用的组件。首先获得 Compatible Representation。如果不考虑 classification embedding 的作用,ViT 就是一个处理激活映射的 Layer 的堆叠。
推荐:可进行快速推理的视觉 Transformer。
论文 6:Graph Kernel Attention Transformers
- 作者:Krzysztof Choromanski 、 Han Lin 、 Haoxian Chen 等
- 论文地址:https://arxiv.org/pdf/2107.07999.pdf
摘要: 来自谷歌大脑、哥伦比亚大学和牛津大学的研究团队提出了一类新的图神经网络:Graph Kernel Attention Transformers(GKATs)。通过结合几个迄今为止独立研究的概念——图核、具有结构先验的基于注意力的网络,以及最近的通过低秩分解技术应用小内存占用隐式注意力方法的 Transformer 架构。
该研究提出的 GKAT 比 SOTA GNN 更具有表现力,因为它能够在单一层内建模更长的范围依赖。因此,该方法可以使用更浅的架构设计。
此外,GKAT 注意力层在输入图的节点数量上是线性而不是二次方缩放,即使这些图很密集,但需要的计算量也少于常规图注意力层。通过应用新类的图内核来实现它,该内核允许通过图上的随机游走进行随机特征图分解。作为引入技术的附属品,该研究获得了一类新的可学习图草图,称为 graphots,紧凑地编码拓扑图属性以及节点的特征。该研究与九个不同的 GNN 类进行了详尽的实证比较,任务范围从主题检测到社交网络分类到生物信息学挑战,显示了来自 GKAT 的一致收益。
该团队证明 GKAT 比 SOTA GNN 具有更强的表达能力,同时还减少了计算负担。
GKATs 中可分解的长注意力
GKAT 将每一层内的图注意力建模为节点特征向量的核矩阵和图核矩阵的 Hadamard 乘积。
推荐:全新的图神经网络 GKATs,谷歌提出。
论文 7:Sliding Spectrum Decomposition for Diversified Recommendation
- 作者:Yanhua Huang、Weikun Wang、Lei Zhang、Ruiwen Xu
- 论文地址:https://arxiv.org/pdf/2107.05204.pdf
摘要:多样化推荐(diversified recommendation)是推荐系统中一个重要的课题。从用户视角分析,多样性可以帮助用户扩展和发现新的兴趣,但是繁多的内容则会令人厌倦。从平台视角分析,多样性可以帮助系统探索用户喜好,防止内容越推越窄的情况,同时也可以让小众和长尾的内容得到曝光,促进生态发展。本文中研究者将从用户体验和系统应用的视角,试图解决其中的两个问题:如何在质量和多样性之间获得一个较好的权衡(trade-off),以及如何公平地衡量相似性。
该研究将用户观测到的 Feed 序列,转换为下图所示的 Tensor
。
在 SSD 中,该研究依赖于笔记的向量表示来衡量多样性,向量两两之间的相似性需要符合用户对于多样性的感知。有两种直观的思路来得到这些向量。一是基于内容(content-based)的方法,即构造一个基于笔记图片和文字内容的监督任务,将监督模型的中间层结果作为向量表示。二是基于协同过滤方法,即通过全体用户的交互历史,构造 CF 向量。
推荐:KDD 2021 论文。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. Growing knowledge culturally across generations to solve novel, complex tasks. (from Joshua B. Tenenbaum)
2. The USYD-JD Speech Translation System for IWSLT 2021. (from Dacheng Tao)
3. How Knowledge Graph and Attention Help? A Quantitative Analysis into Bag-level Relation Extraction. (from Tat-Seng Chua)
4. Revisiting Negation in Neural Machine Translation. (from Joakim Nivre)
5. Goal-Oriented Script Construction. (from Chris Callison-Burch)
6. MuSe-Toolbox: The Multimodal Sentiment Analysis Continuous Annotation Fusion and Discrete Class Transformation Toolbox. (from Erik Cambria)
7. Investigating Text Simplification Evaluation. (from Sophia Ananiadou)
8. Domain-matched Pre-training Tasks for Dense Retrieval. (from Wen-tau Yih)
9. Language Grounding with 3D Objects. (from Luke Zettlemoyer)
10. AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models. (from Qun Liu)
本周 10 篇 CV 精选论文是:
1. CalCROP21: A Georeferenced multi-spectral dataset of Satellite Imagery and Crop Labels. (from Vipin Kumar)
2. Adaptive Denoising via GainTuning. (from Eero P. Simoncelli)
3. DCL: Differential Contrastive Learning for Geometry-Aware Depth Synthesis. (from Leonidas Guibas)
4. Video Generation from Text Employing Latent Path Construction for Temporal Modeling. (from Mubarak Shah)
5. TinyAction Challenge: Recognizing Real-world Low-resolution Activities in Videos. (from Mubarak Shah)
6. Discovering 3D Parts from Image Collections. (from Ming-Hsuan Yang)
7. Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images with Virtual Depth. (from Xian-Sheng Hua, Lei Zhang)
8. Image Scene Graph Generation (SGG) Benchmark. (from Lei Zhang, Jianfeng Gao)
9. Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification. (from Dacheng Tao)
10. Exploring Sequence Feature Alignment for Domain Adaptive Detection Transformers. (from Dacheng Tao)
本周 10 篇 ML 精选论文是:
1. End-to-End Balancing for Causal Continuous Treatment-Effect Estimation. (from David E. Heckerman)
2. Discovering Sparse Interpretable Dynamics from Partial Observations. (from Marin Soljačić)
3. To Boost or not to Boost: On the Limits of Boosted Neural Networks. (from Michael Jones, Rama Chellappa)
4. Physics-Enforced Modeling for Insertion Loss of Transmission Lines by Deep Neural Networks. (from Liang Chen)
5. AutoML Meets Time Series Regression Design and Analysis of the AutoSeries Challenge. (from Isabelle Guyon)
6. An Adaptive State Aggregation Algorithm for Markov Decision Processes. (from Yinyu Ye)
7. Pointer Value Retrieval: A new benchmark for understanding the limits of neural network generalization. (from Samy Bengio)
8. Deep Reinforcement Learning for L3 Slice Localization in Sarcopenia Assessment. (from Nikos Paragios)
9. HAFLO: GPU-Based Acceleration for Federated Logistic Regression. (from Kai Chen)
10. Compressing Neural Networks: Towards Determining the Optimal Layer-wise Decomposition. (from Daniela Rus)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com