机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周的重要论文包括 SIGGRAPH 2020 最佳博士论文,以及南开大学等提出的自校准卷积和相应网络。
论文 1:LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation
- 作者:Xiangnan He、Kuan Deng、Xiang Wang、Yan Li、Yongdong Zhang、Meng Wang
- 论文链接:http://staff.ustc.edu.cn/~hexn/papers/sigir20-LightGCN.pdf
摘要:在本文中,来自中国科学技术大学和新加坡国立大学等机构的研究者简化了 GCN 设计,使它更加简洁且更适合推荐任务。他们提出了一个新模型 LightGCN,其中仅使用 GCN 中的最基本组件邻域聚合(neighborhood aggregation)来进行协同过滤。具体来说,LightGCN 通过在用户 - 物品(user-item)交互图上线性地传播用户和物品嵌入,进而学习它们,并将所有层上学得的嵌入加权和用作最终嵌入(final embedding)。
这种简单、线性和整洁的模型实现和训练起来更加容易,并在相同的实验设置下较当前基于 GCN 的 SOTA 推荐模型神经图协同过滤(Neural Graph Collaborative Filtering, NGCF)有了 j 较大的性能提升,平均提升约 16.0%。
当前基于 GCN 的 SOTA 推荐模型 GGCF 及其三种变体的性能表现。
LightGCN 模型架构图。
NGCF 与 LightGCN 在不同数量层上的性能比较。
推荐:研究者在 TensorFlow 和 PyTorch 中均提供了 LightGCN 模型实现。
论文 2:Deformable Siamese Attention Networks for Visual Object Tracking
- 作者:Yuechen Yu、Yilei Xiong、Weilin Huang、Matthew R. Scott
- 论文链接:https://arxiv.org/pdf/2004.06711.pdf
摘要:在本篇论文中,码隆科技提出了可变形孪生注意力网络(Deformable Siamese Attention Networks, SiamAttn),以此来提升孪生网络跟踪器的特征学习能力。这种注意力机制为跟踪器提供了一种自适应地隐式更新模板特征的方法。
本研究中 SiamAttn 方法与其他三种当前 SOTA 跟踪器的跟踪效果比较。可以看到,SiamAttn 的结果更加准确,并且对外观变化、复杂背景和干扰物具有更强的鲁棒性。
SiamAttn 网络架构图示,包括一个可变形孪生注意力(deformable Siamese attention, DSA)模块、孪生候选区域网络(Siamese region proposal network, SiamRPN)和区域细化模块(region refinement module)。
可变形孪生注意力模块包括两个子模块:self-attention 子模块和 cross-attention 子模块。
推荐:研究者在 6 个基准上进行实验,结果表明该网络取得了新的 SOTA 结果,超越了强大的基线方法 SiamRPN 。
论文 3:Boosting Few-Shot Learning With Adaptive Margin Loss
- 作者:Aoxue Li、Weiran Huang、Xu Lan、Jiashi Feng、Zhenguo Li、Liwei Wang
- 论文链接:https://www.weiranhuang.com/publications/pdf/traml2020.pdf
摘要:在本文中,来自北京大学信息科学技术学院和华为诺亚方舟实验室等机构的研究者提出了一种自适应边际损失方法,对于少样本学习(few-shot learning)问题的度量元学习方法来说,这种自适应边际损失方法可以提升它们的泛化能力。具体来说,研究者首先开发了一个类相关额外边际损失(additive margin loss),其中每对类之间的语义相似性用来将特征嵌入空间中的样本与相似类分离开来。
此外,他们将所有类的语义语境整合进一个样例训练任务,并创建任务相关额外边际损失以更好地区分不同类的样本。这种自适应边际方法可以轻松地扩展至更真实的泛化 FSL 设置。
自适应边际损失方法的原理图。研究者利用不同类之间的语义相似性来生成类间自适应边际,然后将生成的边际集成至分类损失中,使得相似类在嵌入空间中的可分离性更强,由此有益于少样本学习。
自适应边际损失方法整体架构图,它包含元训练和元测试两个阶段。
任务相关边际生成器架构图。
各模型在 ImageNet2012 数据集上的泛化少样本学习结果对比,其中本研究采用的是任务相关额外边际损失(task-relevant additive margin loss, TRAML )。
推荐:实验表明,在标准和泛化少样本学习两种设置下,本研究提出的自适应边际方法均可以增强当前度量元学习方法的效果。
论文 4:Improving Convolutional Networks with Self-Calibrated Convolutions
- 作者:Jiang-Jiang Liu、Qibin Hou、Ming-Ming Cheng、Changhu Wang、Jiashi Feng
- 论文链接:http://mftp.mmcheng.net/Papers/20cvprSCNet.pdf
- 代码链接:https://github.com/MCG-NKU/SCNet
摘要:近来卷积神经网络(CNN)的进展主要是设计更复杂的架构以增强它们的表征学习能力。在本文中,来自南开大学、新加坡国立大学和字节跳动 AI 实验室的研究者探究如何在不调整模型架构的情况下依然提升 CNN 的基本卷积特征转换过程。为此,他们提出了一种新颖的自校准卷积(self-calibrated convolution),它通过内部通信来显式地扩展每个卷积层的视野,进而丰富输出特征。具有自校准卷积的网络分别命名为 SCNet、SCNeXt 和 SE-SCNet。
具体来说,与使用小核(如 3×3)融合空间和通道信息的标准卷积不同,研究者提出的自校准卷积通过新型自校准运算(self-calibration operation)围绕每个空间位置自适应地构建远程空间和通道间依赖。如此,通过整合更丰富的信息,CNN 可以生成判别性更强的标准。这种自校准卷积在设计上简单且具有通用性,同时在不引入额外参数和复杂度的情况下可以轻松地运用于扩增的标准卷积层。
在使用 Grad-CAM (Gradient-weighted Class Activation Mapping)方法的情况下,不同网络学得的可视化特征激活图。
自校准卷积示意图。可以看到,原始滤波器分为四部分,每部分负责不同的功能。这与以相同方式执行的传统或分组卷积明显不同。
当卷积层分别为 50 和 101 时,具有自校准卷积的网络 SCNeXt、SCNet 和 SE-SCNet 与其他卷积神经网络的结果对比。
推荐:实验表明,当这种自校准卷积应用于不同的骨干网络时,基线模型在目标检测、实例分割和关键点检测等多种视觉任务上都有显著的性能提升,并且不需要改变网络架构。
论文 5:Meta-Graph: Few Shot Link Prediction Via Meta Learning
- 作者:Joey Bose、Ankit Jain、Piero Molino、William L. Hamilton
- 论文链接:https://arxiv.org/pdf/1912.09867.pdf
摘要:在本文中,来自加拿大麦吉尔大学和优步人工智能实验室的研究者提出通过元学习来进行少样本链路预测,其目的是通过从图分类中学习,模型能够在少量训练后快速推理出新图中的缺失边缘。研究者认为当前的链路预测方法通常无力处理上述任务,具体来说,这些方法既不能有效地将学得知识从一图迁移至另一图上,也无法有效地从稀疏样本边缘学习。为了解决这些问题,研究者引入了一种新的梯度元学习框架元图(Meta-Graph),该框架利用到了高阶梯度以及一个有条件地生成图神经网络初始化的学得图函数签名(signature function)。
左:Meta-Graph 与 MAML(Model-Agnostic Meta-Learning) 的结构比较;右:Meta-Graph 具体架构。
算法 1:用于少样本链路预测的 Meta-Graph。
不同模型在在 PPI、FirstMM DB 和 Ego-AMINER 数据集上的收敛 AUC 结果对比。
推荐:在使用一组新型链路预测基准时,研究者证实了元图可以在使用少量真实边缘(true edge)时学习快速地适应新图,在快速适应的同时也可以提升收敛结果。
论文 6:Differentiable Visual Computing
- 作者:李子懋
- 论文链接:https://people.csail.mit.edu/tzumao/phdthesis/phdthesis.pdf
摘要:在这篇 148 页的博士论文中,MIT CSAIL 博士后研究员、太极(Taichi)论文第二作者李子懋(Tzu-Mao Li)探讨了视觉计算、编程系统和统计学习之间的关系。他将经典计算机图形学和图像处理算法与现代数据驱动方法相结合,从而增强了物理理解。李子懋利用统计学中的数学工具和机器学习开发能够解决图形和视觉问题的新算法。此外,他开发的编程系统简化了可学得视觉计算算法的高效实现和数学推导。
该论文的主题是解决计算和应用复杂图形学 pipeline 导数所面临的挑战,以便利用这些导数更好地拟合和采样参数或者解决逆问题(inverse problem)。这项研究被认为「解决了图形学算法中的不连续性以及现代硬件的大规模并行性问题,其贡献远远超出了传统的自动微分」。
可微图像处理流程包括三部分:(a)神经网络算子:双边分切;(b):优化前向图像处理 pipeline 的参数;(c)优化逆问题的重建和扭曲参数。
可微蒙特卡罗光线追踪。
黑塞 - 哈密顿蒙特卡罗方法。
推荐:这篇博士论文斩获 ACM SIGGRAPH 2020 年度最佳博士论文奖。
论文 7:Semantic Image Manipulation Using Scene Graphs
- 作者:Helisa Dhamo、Azade Farshad、Iro Laina、Nassir Navab 等
- 论文链接:https://arxiv.org/pdf/2004.03677.pdf
摘要:图像处理是图像生成领域的一种应用场景,其中生成图像是对原始图像的修改。在大多数情况下,图像生成和处理任务是在原始像素上进行操作。但是,学习丰富图像和目标表示两方面取得的显著进展为文本到图像或布局到图像等主要由语义驱动的任务开辟了路径。
在本文中,来自慕尼黑工业大学、牛津大学、约翰霍普金斯大学和谷歌的研究者基于场景图(scene graph)来解决图像生成新问题,其中用户仅通过应用图像生成语义图的节点或边缘改变,即可以编辑图像。研究目的是在给定的群集中对图像信息进行编码,进而生成新的群集,如目标替换以及目标之间关系的变化,同时原始图像的语义和风格保持不变。他们提出的空间语义场景图网络不需要直接监督群集变化或图像编辑,这使得人们可以从已有真实世界数据集中训练系统并且不需要做额外注释。
训练策略图示。
本研究方法(图中)与基线方法(图上)的视觉特征编码效果对比,其中场景图保持不变。
效果展示 3 个示例:骑马变牵马、树的位置从后方变前方,以及摩托车上变摩托车旁。
推荐:本研究提出的方法可以使用户在保持场景不变的情况下实现目标的位置变化。