章节/情景式学习并非必需？用于少样本学习的联合双路度量

作者 | 何文嘉编辑 | 李仲深

Cooperative Bi-path Metric for Few-shot Learning

ABSTRACT
CCS CONCEPTS
KEYWORDS
INTRODUCTION
METHOD
- Problem Definition
- A Strong Baseline for Few-shot Learning
Cooperative Bi-path Metric
Revisiting Few-shot Learning with LLE
EXPERIMENTS
supplementation

原文：Wang Z , Zhao Y , Li J , et al. Cooperative Bi-path Metric for Few-shot Learning[C]// MM '20: The 28th ACM International Conference on Multimedia. ACM, 2020.

链接：https://arxiv.org/pdf/2008.04031v1.pdf（可点击文末“阅读原文”）

ABSTRACT

给定具有足够标记样本的基类，少样本分类的目标是识别只有少数标记样本的新类的未标记样本。现有的方法大多只关注新类的标记样本和未标记样本之间的关系，没有充分利用基类内的信息。在本文中，我们为研究少镜头分类问题做出了两个贡献。首先，我们报告了以传统监督学习的方式在基类上训练的简单有效的基线，它可以达到与艺术状态相当的结果。其次，在基线的基础上，我们提出了一种联合的分类双路径度量，利用基类和新类之间的相关性来进一步提高分类的准确性。在两个广泛使用的基准上的实验表明，我们的方法是一个简单有效的框架，并在少样本分类领域建立了一个新的状态。

CCS CONCEPTS

Computing methodologies→ Supervised learning by classification;
Dimensionality reduction and manifold learning;
Information systems→Similarity measures.

KEYWORDS

few-shot learning, image classification, metric learning, locally linear embedding

INTRODUCTION

过去的深度学习方法的显著性能在很大程度上依赖于大量手动注释的数据集，这些数据集是劳动密集型的，有时是无法访问的，例如具有超过1500万个注释的Image Net。值得注意的是，人类和其他动物似乎有潜力以非常少的相关知识来识别一个身份。因此，有限可见知识的少样本学习（Few Shot Learning）问题迫使模型对每个类进行典型的泛化，这是一些极端工业应用中更现实的设置。

通过在包含足够的标记样本的基类上训练模型，少样本学习的目标是建立模型充分推广与基类不相交的新类，即根据少量的标记样本对未标记样本（查询样本）进行正确分类。为了使训练阶段的条件与测试阶段的条件相匹配，匹配网络（Matching Network）首先建议训练和测试都应该采用来自元学习的章节式过程（episodic procedure,）。模型将在训练和测试阶段满足许多少镜头的学习任务。每个任务都由几个类组成，并且每个类都包含一些支持示例（Support Samples）和几个查询示例（Query Samples）。之前的工作有人遵循像匹配网络一样的章节式学习，并取得了显著的改进。然而，最近的一些研究并没有遵循这种激进的采样设置，而是以传统的监督学习的方式直接训练模型。于是作者自然地探究这个问题：章节式训练对FSL是必要的吗？作者对两个常用的基准进行广泛的实验分析。与直觉相反，不使用过去总是使用的章节式训练过程，最先进的性能也可以通过适当的训练策略即使用在基类中的所有样本来实现。这一发现不仅给我们带来了对这种传统设置的重新思考，而且也可以被认为是一种高性能的基线，用于FSL。

从另一个角度出发，度量学习是FSL领域的主要流派。这种方法通过在基类上学习一个特征提取器来对查询样本进行分类，在测试过程中提取新的样本特征，并测量标记支持样本与未标记查询样本之间的距离或相似性。但是现有的度量学习方法集中于新类中支持样本和查询样本之间的相关性，没有充分利用基类的信息。作者的动机是，对于具有新类相同标签的样本，它们在基类上的相似性分布更有可能相似，而不同类的样本应该有不同的分布。就像下面图 Figure 1 所示，金毛寻回猎犬更像是类似于沃克猎犬，而不是文件柜，同时这些板条箱更类似于文件柜，而不是沃克猎犬。作者强调了基类和新类之间的这种关系信息对未标记样本的分类是有价值和有帮助的。

在这一发现的启发下，作者提出了一种新的度量，称为联合双路径度量（Cooperative Bi-path Metric，CBM），如图 Figure 2 所示。它不仅考虑了新类中支持集和查询集之间的直推/归纳相似性（inductive similarity），而且通过基类度量了它们的传递相似性分布（transductive similarity），并进一步考虑了它们在基类上相似性分布的相似性（这里有点套娃的意思，比如可以理解为度量两个概率分布之间的相似性）。

作者总结了文章的主要贡献有三方面：

我们对传统的章节式训练和全监督训练进行了广泛的实验分析，以少样本分类问题为基础，提出了一种新的高性能基线。
我们提出了一种新的联合双路径度量学习方法，它利用基类作为中介来促进分类过程。
我们进行了广泛的实验分析来证明我们的发现。与现有的方法相比，我们提出的方法在miniImageNet和tieredImageNet这两个常用的基准测试上取得了新的最先进的结果。

METHOD

Problem Definition

给定一个包含基类样本的训练集数据库，FSL的目标是使用训练一个模型以实现在测试集样本中分类任务的高精度，中包含的新类记为。基类与新类完全不同，即。每个任务（task）都由一个带有标记样本的支持集数据和一个带有未标记样本的查询集组成。对于一个，

mathbb{D}{text {support }}=left{left(mathbf{x}^{(i)}, y^{(i)}right)right}{i=1}^{N times K}

包含了个类，每个类包含个支持示例。根据的标准，需要利用的数据来训练一个模型来尽可能准确地预测中样本的标签。

A Strong Baseline for Few-shot Learning

对于FSL的问题，作者提倡在构建一个强基线时使用三个有意义的线索：

1)数据增强：根据之前的工作，作者使用水平翻转、随机裁剪和随机擦除作为数据增强。

2)学习中的温度：受前人研究的启发，作者还引入了一种称为温度的超参数，首次应用于模型蒸馏，在softmax归一化后改变分布的平滑性和交叉熵的值。

3)密集分类：作者不将图像特征作为向量嵌入，而是应用密集分类损失来规范他们的模型，即在最后一个全连接层之前的特征映射的所有局部特征向量通过不需要平均池化的全连接层进行分类。对于每个训练样本

(bold{x},y) ∈

mathbb{D}_{base}

，作者提出的基线的损失

具有以下形式：

mathcal{L}=-frac{1}{r} sum_{i=1}^{r} log frac{exp left(tleft(mathbf{f}^{(i) top} mathbf{p}^{(y)} mathbf{b}_{y}right)right)} {sum_{j=1}^{mid mathbb{C}_{base} mid} exp left(tleft(mathbf{f}^{(i) top} mathbf{p}^{(j)} mathbf{b}_{j}right)right)}

其中

是温度超参数。

|·|

是集合的基数。

mathbf{f}^{(i)} in mathbb{R}^{c}

是第

个训练样本的特征图

F∈R^{c×r}

，

是通道数量而

是空间分辨率。

mathbf{P} in mathbb{R}^{c timesleft|mathbb{C}_{text {base }}right|}

是全连接层参数矩阵

P∈ mathbb{R}^{c}

中第

个类别的参数向量。

bold{b}_j

是全连接层偏置向量

b∈R^{ |mathbb{C}_{base}|}

中第

个类的偏置。

在测试阶段，对于

text{N-way K-shot task}

，将

mathbb{D}_{text {query}}

中的查询样本分配给分类分数

ϕ^{(n)}

最大的类

hat{y}

：

hat{y}=underset{n}{arg max }left(phi^{(n)}right) .

新类 n 的分类评分

ϕ^{(n)}

定义为：

phi^{(n)}=cos left(mathbf{q}, mathbf{s}^{(n)}right)

而

cos(,)

是两个向量之间的余弦相似度。

和

s^{(n)}

分别是查询样本和第

个类的特征向量：

begin{array}{c} cos (mathbf{a}, mathbf{b})=frac{mathbf{a}^{top} mathbf{b}}{|mathbf{a}||mathbf{b}|} \ mathbf{q}=G A P(mathbf{Q}) \ mathbf{s}^{(n)}=frac{1}{K} sum_{k=1}^{K} G A Pleft(mathbf{S}^{(n, k)}right) end{array}

而

∥·∥

是一个向量的

L_2

范数。

和

S^{(n,k)}

分别是询样本的特征图和

mathbb{D}_{text {support }}

中第

个类的第

个支持样本。

GAP(·)

是特征图

上的全局平均池化，该池定义为：

G A P(mathbf{F})=frac{1}{r} sum_{i}^{r} mathbf{f}^{(i)}

其中，

mathbf{f}^{(i)} in mathbb{R}^c

是特征映射

F∈R^{c×r}

在位置

处的局部向量。

Cooperative Bi-path Metric

联合的双路径度量利用基类作为一种中间方式来协助查询样本的分类。我们提出的度量方法通过两个单独的路径来度量相似性：归纳/直推相似性

和传递相似性

。大多数现有的方法都将前一种方法作为唯一的分类标准，如图下半部所示。计算归纳相似性

（例如。支持集和查询集之间的余弦相似度）。而CPM不仅测量归纳相似性

而且还使用基类作为代理来计算支持集和查询集之间的传递相似性

，如图上部分所示。首先计算支持集和查询集在基类上的相似性分布

ρ_{support}

和

ρ_{query}

，然后计算

ρ_{support}

和

ρ_{query}

间的相似性，即支持集和查询集之间的传递相似性

。在测试阶段

的最终分类分数是

和

的加权和：

begin{array}{c} hat{y}=underset{n}{arg max }left(psi^{(n)}right) \ psi^{(n)}=alpha phi^{(n)} (1-alpha) varphi^{(n)} \ varphi^{(n)}=sigmaleft(boldsymbol{rho}_{text {query }}, boldsymbol{rho}_{text {support }}^{(n)}right) end{array}

ψ^{(n)}

是CPM的新类

的最终分类评分，

ϕ^{(n)}

在方程

(3)

中已定义。

是一个超参数来调整

ϕ^{(n)}

和

φ^{(n)}

之间的权重。

σ(,)

是度量两个分布之间相似性的相似函数，可以是余弦相似度或负欧氏距离等。

ρ_{query}

和

ρ^{(n)}_{support}

可以形式式表示为：

begin{array}{c} boldsymbol{rho}_{text {query }}=sigma^{prime}(mathbf{q}, mathbf{B}) \ boldsymbol{rho}_{text {support }}^{(n)}=sigma^{prime}left(boldsymbol{mathbf{s}}^{(n)}, mathbf{B}right) end{array}

其中

boldsymbol{q}

和

boldsymbol{s}^{(n)}

在方程

(4)

中定义。

σ^{prime}(,)

是另一个相似性函数，它度量向量与矩阵的每一列之间的相似性，而它可以与

σ(,)

相似或不同。

是基类

mathbb{C}_{base}

的特征矩阵，可以形式地表示为：

mathbf{B}=left[mathbf{b}^{(1)}, ldots, mathbf{b}^{left(left|mathbb{C}_{text {base}}right|right)}right]

和

b^{(i)}

是基类

的特征向量，其定义为：

mathbf{b}^{(i)}=frac{1}{M^{(i)}} sum_{j=1}^{M^{(i)}} G A Pleft(mathbf{F}^{(i, j)}right)

其中，

M^{(i)}

是基类的样本数量。

GAP(·)

是在等式

(5)

中定义的全局平均池。

F(i,j)

是

mathbb{D}_{base}

中基类

的第

个样本的特征图。

从上面可以看出，如果不考虑对相似函数

、

σ^{prime}

和加权超参数

的选择，CPM是一种非参数（模型无关的）方法。它不引入额外的网络参数或改变训练过程，只另外考虑了支持样本和基类与查询样本的相似性分布。我们可以简单地将CPM附加到任何训练过的模型中。这样，查询样本的分类不仅依赖于少量的支持样本，而且还依赖于基类提供的信息，从而在支持样本不足时提高了模型的鲁棒性。

Revisiting Few-shot Learning with LLE

根据等式

(6)

和

(7)

，每个基类对

φ^{(n)}

做出了相同的贡献，而

ρ_{query}

和

ρ^{(n)}_{support}

对所有基类都是线性的，而不关注某些特定的类。因此出现了一个问题：对于每个查询样本，不同的基向量应该根据潜在空间的相关性做出不同的贡献。例如，在查询金毛猎犬样本时，来自基类的步行者猎犬应该会很突出。

Cooperative Bi-Path metric with LLE.

使用局部线性嵌入的联合双路径度量。我们利用局部线性嵌入（LLE），用非线性的

tilde{boldsymbol{rho}}_{text {query}}

和

tilde{boldsymbol{rho}}_{text {support }}^{(n)}

支持来替换

{boldsymbol{rho}}_{text {query}}

和

{boldsymbol{rho}}_{text {support }}^{(n)}

。与传统的注重样本方差的 PCA 和 LDA 等降维方法相比，LLE在降低样本维数时注重保持样本的局部线性特征。它假设每个样本都可以用其

个最近邻线性组合来表示，降维前后线性关系的权重系数保持不变。可以看出，LLE在降维过程中具有一定的选择性，这满足了我们的期望，即样本应该集中在一些特定的基类上。在

Alg. 1

中展示了使用局部线性嵌入的联合双路径度量的过程。此外，使用局部线性嵌入的联合双路径度量通过降低LLE的维数来增加基类和新样本之间的非线性，因此不同的基类可以通过找到它们的

个最近邻的过程对不同的查询样本的分类产生不同的影响。

EXPERIMENTS

在 miniImageNet 上的性能比较

baseline 是一个简单的网络，有一个完全连接的层，以传统的监督学习的方式训练，但它已经取得了与SOTA相当的结果。这表明章节式训练程序是不必要的，并使我们重新思考以前复杂的章节式方法是否有意义。

在 tieredImageNet 上的性能比较

不同训练模式的比较

为了使训练模式和测试模式保持一致，并获得更好的性能，以往的FSL方法采用了章节式训练过程。更具体地说，与测试阶段类似，他们还在训练阶段采样了许多

text{N-way K-shot task}

，损失函数采用的是每个任务中查询样本对于

个类的交叉熵损失，我们称这种损失为FL（Few-shot Loss）。另一种训练模式不仅集中在任务内的类，而且采用传统的监督学习，使用整个训练集数据库训练特征提取器和一个

|mathbb{C}_{base}|text{-way}

的全连接层。在这种模式下，训练整个网络的方法是，在训练集中使用样本对于所有类的交叉熵损失，我们称这种损失称为GL（Global Loss）。为了研究不同训练模式对模型精度的影响，我们在不同的模式下训练

TADAM

和我们提出的

baseline

。为了方便起见，在涉及全局损失的实验中，我们还以任务的形式组织训练数据，但只计算查询样本的全局损失。对于这两种模式，在测试阶段，特征提取器用于提取任务内所有样本的特征，查询样本被分类为具有最大归纳/直推相似性的类。结果如

Table 3

所示。

三种技巧对

baseline

的影响

不同激活函数对结果的影响

温度参数 t 的影响

直推相似性与传递相似性间的权重

alpha

的影响

supplementation

关于模型训练更具体的设置以及其余更详细的分析和说明由于篇幅有限就不多说明了，感兴趣的读者可以查阅原文。

学习方法

0 人点赞