端到端顺序多重实例学习,Set2Seq Transformer 的多模态学习优势 !

作者提出了Set2Seq Transformer，这是一种新颖的顺序多重实例架构，可以学习排名有序集合表达式。作者首先介绍了，学习离散时步位置感知的表示可以极大地改进不考虑时间且几乎完全专注于视觉内容分析的静态视觉多重实例学习方法。作者进一步展示了端到端顺序多重实例学习的显著优点，以多模态方式整合视觉内容和时间信息。作为应用，作者专注于与艺术品分析相关任务。为此，作者表明作者的Set2Seq Transformer可以利用视觉集合和时间位置感知的表示来模拟视觉艺术家作品以预测艺术成功。最后，通过使用新数据集WikiArt-Seq2Rank和视觉学习排名下游任务进行广泛定量和定性评估，作者表明作者的Set2Seq Transformer能够捕获重要时间信息，提高预测艺术成功的静态和顺序多重实例学习方法的性能。

2. Related Work

深度学习的进步激发了静态和序列多次实例学习，2002年，2002年；Pattanayakumar等人，2002年；Pattanayakumar等人，2002年）以及与现代计算机视觉相关的多样化视觉应用研究（如视觉学习排名任务（Pattanayakumar等人，2002年；Pattanayakumar等人，2002年；Pattanayakumar等人，2002年；Pattanayakumar等人，2002年）和自动化艺术分析等领域的研究。在本节中，作者将简要概述这些研究领域中的代表方法。

Multiple Instance Learning

多种实例学习一直是广泛且长久的研究主题。最近，针对高效多种实例学习的许多引人注目的工作被提出，并在各种数据集和任务上取得了显著性能。Skianis等人（Skianis等人，2016年）提出RepSet和ApproxRepSet，在前人集合表示学习工作的基础上，通过解决一系列匹配流问题在输入和隐含集合之间计算对应关系。Ilse等人（Ilse等人，2017年）利用注意力模块为集合内的每个标签提供更好的洞察。Lee等人提出Set Transformer，这是一个基于Transformer的架构，它使用自注意力来模拟顺序不变的表示。Zhang等人（Zhang等人，2017年）解决了一些DeepSets（Pattanayakumar等人，2002年）和Set Transformer（Lee等人，2017年）架构的局限性，在不同的基准测试上实现了更好的或可比的性能。

最近，深度学习的进步激发了在序列多种实例学习的基础之上利用seq2seq框架通过使用循环神经网络（RNNs）学习集合的顺序，具体来说就是 Long Short Term Memory网络（LSTMs）（Wang等人，2018年），合并了注意力机制。有许多工作将这种方法扩展到各种任务，例如句子顺序（Shi等人，2018年；Wang等人，2018年；Wang等人，2018年；Wang等人，2018年）、文本摘要（Vinyals等人，2015）和多智能体系统（Pattanayakumar等人，2002年）。与这些工作不同，作者使用DeepSets和Set Transformer来学习视觉目标的集合表示，尽管作者的学习是按照顺序进行的，在这种方式下，作者学习的是在序列中且在时间上的 sets 的相对位置的不同表示。

Learning Temporal-Aware Representations

序列建模是一个长期的研究主题。使用循环神经网络（RNNs）（Pattanayakumar等人，2002年）及其多种变体成功地应用于许多不同的任务和设置。尽管如此，学习显式位置感知表示也已被成功应用，Transformer 的巨大成功为利用各种位置感知方法学习时间表示开辟了道路。

作者的工作与密切相关，该论文认为学习顺序内在表示对于各种任务至关重要。受到学习位置感知表示最近的成功启发，作者利用不同时间步的位置感知表示。然而，与这些工作不同，作者使用两种分离的机制来编码有序序列内的集合相对位置，并随着时间的推移学习时间表示嵌入。

Visual Learning-To-Rank

学习对齐（Learning-to-rank）是信息检索中最为突出的任务之一，已在许多研究中成功应用（Shi等人，2018；Wang等人，2018；Wang等人，2018）。计算机视觉及其众多可用数据集的进步，也增加了视觉学习对齐的研究。例如，van den Akker等人（van den Akker等人，2018）提出了ViTOR，一种仅基于网页的视觉外观来学习对齐的方法。此外，许多视觉学习对齐方法已经被应用于特定的年龄估计应用。与这种研究方向相反，作者提出了一种针对排序全部集合序列的点对点视觉学习对齐方法。

Automatic Fine Art Analysis

大量公开的艺术相关数据集启发了对不同精细艺术分析任务的学习视觉表示的研究，这些任务从艺术品分类和研究精细艺术历史语义原理到风格迁移等多个领域。与这些工作不同，作者并不是仅仅依赖学习静态单一实例的艺术品表示，而是学习由不同艺术家创建的多个艺术品集合的表示，以预测在多个代表性成功指标上的艺术表现。

3. Set2Seq Transformer

在本工作中，作者提出了Set2Seq Transformer，这是一种新颖的架构，该架构同时学习集合实例的排列不变表示和集合序列的排列变化表示。首先，作者在序列中学习视觉实例的集合表示。然后，作者的Set2Set Transformer使用两个独立的机制来编码序列中的相对位置，以及给定集合上的时间嵌入。获得的表示被输入到为学习特定准则的集合序列的Transformer编码模块中。图2显示了作者提出的Set2Seq Transformer架构。

Set Representation Learning

为了实现对结构化输入（例如，图灵集）的学习，所学习到的表示应当不受实例的任意排列的影响。近期已经提出了几种学习这类排列不变集合表示的方法（Zhou等人，2016；李等人，2016；李等人，2016；李等人，2016）。在本工作中，作者关注于学习多个视觉实例的排列不变集合表示。

学习排列不变集合表示

令表示有序集合序列和则表示第个时间步的无序集合：

作者任务是学习一个的排列不变表示，这样在在其内部实例的任意排列下，不变。对于作者的 Set2Seq Transformer，作者使用 DeepSet (Li等人，2016) 和 Set Transformer (Li等人，2016) 架构作为学习集合表示的基于集的两种替代方法。对于这两种方法，作者使用一个最终的全连接层来获取一个 -维集合表示。作者考虑使用 DeepSets 和 Set Transformer 提供的 Set Transformer 等人 (Li等人，2016)，但由于作者并没有观察到使用更深架构和正规化层对作者的具体任务有显著的提升，所以并没有使用。

DeepSets. 对于 DeepSets，作者使用包含四个全连接层的编码器，然后是聚合操作，和由三个全连接层组成的解码器。所有隐层维度都设置为，即 256。考虑到平均池和最大池，并使用 ReLU 激活在编码器和解码器的层之间。

Set Transformer. 对于 Set Transformer，作者考虑三种不同的变体。第一种是作者使用一个堆叠的 Set Attention Blocks（SAB）后接一个 Pooling by Multi-head Attention(PMA) 模块，作者将这种 Set Transformer 称为 Set Transformer (SAB PMA)。作者也考虑一个堆叠的 Induced Set Attention Blocks（ISAB）后接 PMA 的 Set Transformer，作者将其称为 Set Transformer (ISAB PMA) 。最后，作者考虑一个堆叠的 ISAB 块后接 PMA 和堆叠的 SAB 模块的 Set Transformer，作者将它称为 Set Transformer (ISAB PMA SAB)。作者设定所有隐层维度为，即 256，并设置注意力头的数量为 4。

视觉实例表示

作者使用在 ImageNet 上预训练后并冻结的 ResNet-34（He等人，2016）来提取视觉实例的特征。就像 Wang等人 (2017) 中的相同记法，对于一个给定的视觉实例，作者可以得到一个视觉表示如下：

，其中指的是艺术品的摄影复制，是全局平均池化操作，指的是 ResNet-34 的参数，且代表了视觉嵌入的维度，即 512。

Sequential Learning

受到其显著成功的影响，作者使用Transformer（Vaswani等人，2017）架构来学习序列表示。遵循（Vaswani等人，2017；Vaswani等人，2017）的工作，作者使用时间感知表示和Transformer编码模块来学习序列表示。

学习序列表示。 作者学习在不同时间步（）观测的实例集合的置换变体表示。令表示不同时间步的序列：

其中表示第个时间步，为的总长度。作者的任务是学习的置换变体表示，以预测的目标值。请注意，在这种情况下，每个时间步对应于一个实例集合。

位置编码。 遵循（Vaswani等人，2017）的工作，作者使用位置编码来表示一个时间步在中的相对位置。作者使用正弦和余弦函数来表示一个时间步的位置编码，如下所示：

其中表示输入序列中第个时间步的位置，是维嵌入的第个维度索引。

时间嵌入。 受 (Vaswani 等，2017；Vaswani 等，2017；Vaswani 等，2017；Vaswani 等，2017) 的启发，除了位置编码，作者还学习独立的时间感知嵌入，这些嵌入对应于与给定时间步相关的时间值，即与相应的集合观察的年份，例如：

其中是在输入上的可学习函数。请注意，对于位置或时间感知表示，任意组合的编码或学习都是可能的。由于作者的任务涉及学习视觉艺术家职业生涯的序列，作者决定在艺术家职业生涯内的所有中间时间步使用固定编码的表示位置，即对于职业生涯内所有中间时间步，并学习特定年份对应这些位置的时间感知嵌入，例如，对于第一列的所有艺术作品，对应的年份嵌入与这些作品创作的年份（1906）相关，因为这些作品是在1906年创作的。相比之下，这些三位艺术家的位置编码是不同的，因为在1906年他们各自职业生涯的阶段稍有不同。作者认为这种方法可以使位置感知表示更好地捕获职业层面的模式，而学习的时间感知嵌入可以更好地捕捉作者研究中艺术家在不同时间周期活跃的相关全局信息。

最终输入嵌入。 对于给定的时间步的最终嵌入是通过将集合嵌入、位置编码和时间嵌入相加而得到的：

嵌入被输入到Transformer编码模块。

Transformer编码器。对于作者的Set2SeqTransformer，遵循（Vaswani等人，2017年；Vaswani等人，2017年），作者使用Transformer编码器模块学习一个序列的排位感知的集合表示。在本工作中，作者将Transformer编码器模块（层）的数量设置为12，隐层大小设置为512，注意力头数量设置为12，前馈模型大小设置为。作者使用所有时间步的平均池化来获取一个固定的序列表示，然后是一个最后的完全连接层。

Pointwise Learning-to-Rank

在训练过程中，作者采用点式学习排序，并使用均方误差（MSE）损失来优化作者的方法：

其中表示目标输出，表示预测输出，表示批次内的总样本数量，表示样本的真实标签，表示样本的预测输出。对于所有排名，作者将输出缩放到[0,1]范围内。

4. Experimental Setup

在本研究中，作者利用几种静态和时间方法进行序列多次实例学习。在本节中，作者提出了下游学习到排 (learning-to-rank) 任务，作者用于评估的 WikiArt-Seq2rank 数据集以及实现细节。

WikiArt-Seq2Rank Dataset

作者旨在在一种实际环境中评估作者提出的算法，即在评分学习至关重要的情境下，即预测视觉艺术家的成功。为此，作者对提出的Set2Seq Transformer进行了评估，并引入了WikiArt-Seq2Rank，这是一个新的数据集，将维基艺术[104]的公开版本扩展，其中包含了根据多个标准对849位著名视觉艺术家进行的多轮排名。

WikiArt-Seq2Rank。 作者使用在自动美术分析[13, 30, 92, 31, 72]中广泛研究的WikiArt数据集。数据集包括1401年至2012年间由1111位艺术家创作的75,921幅画作。作者排除了没有已知创作日期和艺术家作品少于10件的艺术作品。因此，作者的数据集中包含59,458件作品，由849位艺术家创作。对于每位艺术家，作者从各种公共可用的来源收集信息，以构建基于艺术家欣赏排名。

电子书。使用904本数字化艺术相关书籍的语料库，至少一次提到某个焦点艺术家的名称的数量。
《纽约时报》(NYT)。使用1981年至2019年间发表的4,525本艺术相关评论的NYT的总摘要，至少一次提到某个焦点艺术家的名称的数量。
维基百科提及。任何其他艺术家的维基百科页面至少一次提到某个焦点艺术家的名称的数量。
维基百科链接。艺术家维基百科页面被其他艺术家维基百科页面链接的次数。
维基百科页面浏览量。艺术家维基百科页面被一个人访问的次数。
谷歌Ngram。在谷歌书籍Ngram Viewer[70]中，使用美国英语谷歌书籍语料库(2019年版)的年度谷歌书籍搜索，艺术家被提到在任意书籍中的次数。
Google趋势。从2017年4月23日至2022年4月23日，使用谷歌搜索谷歌类别“绘画”的艺术家相对搜索频率。
艺术档案。通过艺术档案，作者收集特定艺术家 rankings，这是一个提供艺术家在博物馆和画廊展览有关 rankings 的网络服务[4]。
Artprice。作者从Artprice这个网络服务[5]中收集公共可用的报告，这是一家提供艺术拍卖销售信息[5]的网站。这些报告提供了关于2006-2021年每年收入最高的500位艺术家的信息。
总体。除了单独排名，作者使用Borda计数系统[21]对它们进行汇总，创建了一个总体排名。

排名构造的详细描述和每项排名前10位艺术家的列表已在附录中提供。请注意，尽管该编辑器数据集中的其他属性，例如风格流派和标签，这里作者只采用了视觉内容和各个艺术品的创建年份。

训练/验证/测试拆分。 作者提供两种分开的设置来使用分层和时间序列拆分策略评估作者的建议方法。对于这两种设置，每个训练、验证和测试样本都由一个艺术家的整个职业生涯组成，要么作为静态的一组多个实例（艺术品），这对静态方法来说作为一束艺术品，要么作为连续方法的序列。

分层拆分。 首先，使用基于排名的分层拆分策略将数据集分成训练（艺术家比例的70%）/验证（艺术家比例的10%）和测试（艺术家比例的20%）子集。

时间序列拆分。 受到实际世界中基于已知（已见）艺术家的评估，预测未经见（未见）的新活跃艺术家的艺术成就的启发，作者在固定时间间隔上划分数据。作者使用始于1930年之前（不包括）的艺术家（不包括）作为训练集（数据集的70%），始于1930年至1951年的艺术家（不包括）作为验证集（数据集的10%），并且始于1951年的艺术家（包括）作为测试集（数据集的20%）。详细的数据集统计信息已在附录中提供。

总结:本文提出了一种将维基艺术数据集与Seq2Seq Transformer相结合的方法，用于预测视觉艺术家的成功。该方法涵盖了多个排名指标，如电子书、纽约时报、维基百科提及、维基百科链接、维基百科页面浏览量、谷歌Ngram和谷歌趋势等，并使用分层和时间序列拆分策略评估了所提出的算法。实验结果表明，该算法在评估艺术家排名指标方面具有很高的准确性。

Baselines

作者将作者的 Set2Seq Transformer 与几种静态和时间基于的方法进行比较。对于所有静态 Baseline ，作者将所有艺术家视为一个包含所有可用实例，艺术品的一个集合。对于每个艺术品，作者使用第2式中描述的可视实例表示。见附录部分使用其他特征提取器得到的结果（例如，使用诸如CLIP[78]这样的视觉基础模型）。作者考虑以下几个静态 Baseline ：

朴素线性回归方法：一种使用所有可用实例，艺术品的简单聚合操作，通过聚合操作得到该艺术家的表示。
梯度增强 [18]：一种具有在不同的学习排名任务上强大性能的梯度增强集成方法。类似于作者的朴素线性回归 Baseline ，作者使用聚合操作来获得艺术家表示。实现方面作者使用了 XGBoost 库 [18]。
DeepSets [115]：静态 DeepSets，采用在Section 3中描述的均值和最大聚合操作，并向外添加一个全连接层以获得最终输出。对于 DeepSets，作者使用 [56]中提供的实现。
Set Transformer [56]：静态 Set Transformer，使用Set Transformer所描述的三种不同变体，使用 [56]中提供的实现。对于每种变体，作者添加一个全连接层以获得最终输出。

对于作者的时间基 Baseline ，作者考虑以下：

时间 DeepSets：DeepSets的扩展，用于时间感知的学习集表示，即，为有序序列的每个时间步学习一个 set 表示。
BiLSTM ATT：[43] 耦合了注意力机制 [7] 的双向LSTM方法，它学习的是聚合 set 上的连续表示，作者使用了两层堆叠，并将隐藏维度设置为 512。
Transformer：[97]段落的Transformer编码器模块，与[3]中的描述相同，只有将时间表示通过由主体艺术家创建的所有艺术作品集作平铺操作，即，所有 set 在时间步的位置编码中的元素为0，且具有0时间嵌入，但是自身从式 (2)中得到的视觉表示。

对于所有时间基 Baseline ，作者按第3部分中的描述进行实践，使用所有时间步上的均值聚合池来得到一个固定大小的对于有序序列之后是全连接层。

Implementation Details

对于作者基于深度学习的所有实现，作者使用了PyTorch库（Paszke等人，2017年）。作者使用早期停止，通过监控验证错误来实现，例如，如果在连续的几个周期后验证损失没有改善，作者就停止训练。注意，作者对每个模型的超参数进行了各种设置的实验，并仔细挑选出每个模型性能最佳的设置。对于所有深度学习模型，作者使用Adam优化器（Kingma和Ba，2014年）。

Evaluation Protocol and Metrics

在推理阶段，作者针对每个艺术家个体处理，通过将批处理大小设置为1的任何基于深度学习的方法来减轻由于集大小和序列长度的不同而引发的问题。受到信息排序（Chen等人，2017；Wang等人，2017；Wang等人，2017；Wang等人，2017；Wang等人，2017）研究的影响，作者将康托尔的τ（Wang等人，2017）和均方误差（MAE）（Wang等人，2017）用于评估所提出方法的表现。

作者的实验结果表明，所提出的方法在降低系统时间复杂度和计算成本方面取得了良好的效果。如图2所示，作者的方法在图1中的数据集上取得了显著的改进，同时在图3中，作者在一个新的数据集上验证了作者的方法的性能。在所有这些实验中，作者保持了原有算法的准确性和基本一致性。

5. Experimental Results

在本节中，作者将展示作者提出的方法和任务的实验结果，并对作者学习的Set2SeqTransformer的表示进行定性分析。

Predicting Artistic Success

本文使用WikiArtSeq2Rank数据集评估了作者的方法的性能。主要结果总结于表1和表2中。

静态方法的性能 观察到，当与最大聚合池相结合时，梯度增强在极其复杂的任务中具有强大的性能。特别是，最大池化在所有基准方法中保持了性能的一致提高，表明它可以从ResNet-34背桶中提取最显著的特征。可以看出，DeepSets和Set Transformer在绝大多数不同设置中超过了Vanilla和梯度增强 Baseline 。作者必须注意到，使用最大池化的DeepSets Baseline 在所有排名和所有任务中性能都非常强大，在许多情况下仅次于基于时间的方法和作者的Set2Seq框架。然而，Temporal DeepSets的性能持续下降，表明DeepSets可以在更大的静态集中充分利用信息，但无法建模位置和时间方面。

基于时间的方法的性能 表1和表2报告了作者的基于时间的方法的结果。很明显，利用时间维度在WikiArt-Seq2Rank任务上改进了性能。双向LSTM和Transformer显著优于静态 Baseline 。与静态方法类似，作者观察到，在集层面上的最大池化改进了作者的双向LSTM Baseline 的性能在所有排名中的近似所有。最后，作者的Transformer基准在采用位置编码和时间嵌入时表现最为突出。

**Set2Seq Transformer改善了静态方法和超越了基于时间的 Baseline ** 作者提出的Set2Seq Transformer在所有排名和平均值上都超过了几乎所有 Baseline 。很明显，Set2Seq框架在所有设置下都能显著改进所有基于集的静态方法，有效建模时间维度。值得注意，作者的Set2Seq Transformer在不同的设置中几乎超过所有的时间基 Baseline 。

WikiArt-Seq2Rank时间序列分割是一项极其具有挑战性的任务 当所有方法在作者的 Proposal 时间序列分割中评估时，其性能都会降低。这是可以预见的，因为预测基于历史观察的现代艺术家成功是一个显著困难的任务。然而，可以明显看到，作者的Set2Seq框架对这种分布性的变化非常健壮，几乎所有 Baseline 都优于几乎所有其他 Baseline 。

基于不同排名的性能 作者观察到，作者的方法在不同排名上的性能存在变化。那是可预期的，因为这些排名是根据它们包含的标准而不同的。此外，不同排名中的相关艺术家的数量以及其他轻微效果，如平局等，对作者的评估方法的表现有显著影响。然而，作者的Set2Seq框架在考虑的不同设置几乎所有 Baseline 上的性能都明显优于其他 Baseline 。

位置感知编码和时间嵌入显著提高性能 作者观察到，将位置感知编码与时间学习嵌入相结合显著提高了Transformer在所有变体的性能。另一个重要观察是，无论在所有不同的排名中，Transformer都始终优于Bi-LSTM方法。

此外，作者还观察到，在作者的Set2Seq框架中，Transformer基础的方法超过了其双向LSTM相应的 Baseline 。

Analysis of Learned Representations

除了作者的实验结果外，作者还对Set2Seq Transformer的Set和位置感知表示进行了深入分析。

Set2Seq Transformer集和位置感知表示的定性分析。受（Wang等人，2019）的启发，作者对Set2Seq Transformer学习到的位置和时间感知表示进行了深入分析。图3展示了Pablo Picasso和Andy Warhol在他们各自职业生涯的前十年中的对角线余弦距离，图中标记点（i，j）表示第i个水平位置与第j个垂直位置之间的余弦距离。基于图3（e）的一个有趣的观察是，Pablo Picasso职业生涯中最相似的年份是Andy Warhol的最后一year。相反，Andy Warhol的前两年一般更接近，尤其是第二年，与Pablo Picasso职业生涯的前十年更接近。这在一定程度上是可以预料的，考虑到两位艺术家职业生涯之间的时间差异。

对单实例检索的定性分析。遵循（Wang等人，2019），作者在绘画检索任务上进行定性分析。特别是，作者提取了DeepSets和Set2Seq Transformer方法的学习表示，并使用k-邻近（k-NN）算法根据各自余弦距离对 Query 图像检索前5个最近邻，并对它们按其与 Query 图像的余弦距离进行排序。图4显示了DeepSets（左侧）和作者的Set2Seq Transformer（右侧）的结果。很明显，单实例DeepSets集表示可以捕获一些相关的特征，尽管忽视了任何相关的时间信息。相反，与作者的Set2Seq Transformer集表示以及位置感知/或时间嵌入相结合的方法可以检索几乎仅包含与 Query 图像相同特征的单实例集。这表明作者的Set2Seq Transformer可以成功地集成时间位置感知信息与视觉内容。一个有趣的观察是，作者在考虑Set2Seq Transformer的Set表示和时间嵌入时，set表示和时间嵌入的唯一不匹配处是Pablo Picasso的《 Les Demoiselles d'Avignon》（1907年），绘制的最后一行，这画的作者是Henri Mathiese的《Landscape with Brook》（1907年），这位艺术家对Pablo Picasso的影响以及受其影响较大（2017）。

6. Conclusion

在本工作中，作者提出了Set2SeqTransformer，一种能够学习排名顺序敏感的集表示序列的新颖方法。

利用作者论文中首次推出的WikiArt-Seq2Rank数据集的定量结果，表明作者的Set2SeqTransformer在序列多重实例学习中超过了强大的传统静态和动态方法，成功地捕获了必要的时间信息。

作者提出的 Set2SeqTransformer 可以鼓励在视觉艺术分析和其他关键依赖建模顺序集的项目中的新研究方向。

参考

[1].Set2Seq Transformer: Learning.

编码工作集合数据性能

0 人点赞