【ICLR】四篇好文简读-专题10

2022-04-06 19:58:09 浏览数 (1)

论文题目:

Compositional Attention: Disentangling Search and Retrieval 论文摘要:

多头、键值注意力是广泛成功的 Transformer 模型及其变体的支柱。这种注意机制使用多个并行键值注意块(称为头),每个块执行两个基本计算:(1)搜索——通过查询键交互从集合中选择相关实体;(2)检索——通过值矩阵从所选实体中提取相关特征。重要的是,标准的注意头学习搜索和检索之间的严格映射。在这项工作中,作者首先强调配对的这种静态性质如何可能:(a)导致在某些任务中学习冗余参数,以及(b)阻碍泛化。为了缓解这个问题,作者提出了一种新的注意机制,称为合成注意,它取代了标准的头部结构。该机制通过查询键组合和值配对之间的额外软竞争阶段,将搜索和检索分离开来,并以动态、灵活和上下文相关的方式进行组合。通过一系列数值实验,发现它在各种任务上都优于标准的多头注意,包括一些分布外的设置。通过作者的定性分析,证明了合成注意会导致基于所需检索类型的动态变化。作者提出的机制泛化了多头注意,允许搜索和检索的独立扩展,并且可以很容易地在任何网络架构中替代标准注意头。

论文链接:

https://openreview.net/pdf?id=IwJPj2MBcIa 代码链接:

https://github.com/sarthmit/compositional-attention

论文题目:

cosFormer: Rethinking Softmax In Attention

论文摘要:

Transformer 在自然语言处理、计算机视觉和音频处理方面取得了巨大的成功。作为其核心部分之一,softmax 注意力有助于捕获远程依赖关系,但由于其对序列长度的二次空间和时间复杂度而阻碍其扩展。通常采用核方法通过逼近 softmax 算子来降低复杂度。然而,由于近似误差,它们的性能在不同的任务/语料库中有所不同,与普通的 softmax 注意力相比,它们的性能会下降。在本文中,作者提出了一种称为 cosFormer 的线性transformer,它可以在随意和交叉注意中达到与普通变换器相当或更好的精度。cosFormer 基于 softmax attention 的两个关键属性:i)注意矩阵的非负性;ii)一种非线性的重新加权方案,可以集中注意力矩阵的分布。作为其线性替代品,cosFormer 使用线性算子和基于余弦的距离重新加权机制来满足这些属性。对语言建模和文本理解任务的大量实验证明了作者方法的有效性。作者进一步检查了该方法在长序列上的效果,并在 Long-Range Arena 基准数据集上实现了最先进的性能。

论文链接:

https://openreview.net/pdf?id=Bl8CQrx2Up4

代码链接:

https://github.com/OpenNLPLab/cosFormer

论文题目:

HOW DO VISION TRANSFORMERS WORK? 论文摘要:

用于计算机视觉的多头自注意 (MSA) 的成功现在是无可争辩的。然而,人们对 MSA 的工作原理知之甚少。作者提供基本解释,以帮助更好地理解 MSA 的性质。特别是,作者展示了 MSA 和视觉转换器 (ViT) 的以下特性:(1) MSA 通过使损失情况变平,不仅提高了准确性,还提高了泛化能力。这种改进主要归因于它们的数据特异性,而不是长期依赖。另一方面,ViT 易遭受非凸损失的影响。大型数据集和损失景观平滑方法缓解了这个问题;(2) MSA 和 Convs 表现出相反的行为。例如,MSA 是低通滤波器,而 Convs 是高通滤波器。因此,MSA 和 Convs 是相辅相成的;(3) 多级神经网络的行为类似于小型个体模型的串联。此外,阶段末的 MSA 在预测中起着关键作用。基于这些见解,作者提出了 AlterNet,这是一种在每个阶段结束时 Conv 块被 MSA 块替换的模型。AlterNet 不仅在大数据体系中而且在小数据体系中都优于 CNN系列模型。

论文链接:

https://openreview.net/pdf?id=D78Go4hVcxO 代码链接:

https://github.com/xxxnell/how-do-vits-work

论文题目:

Genetic Algorithm for Constrained Molecular Inverse Design 论文摘要:

遗传算法适用于探索大型搜索空间,因为可以找到近似解。由于这个优势,遗传算法在探索广阔的未知空间(如分子搜索空间)方面是有效的。虽然该算法适用于搜索广阔的化学空间,但难以在保持分子亚结构的同时优化药物性质。为了解决这个问题,作者引入了一种具有约束分子逆向设计的遗传算法,所提出的算法成功地产生了有效分子。此外,它使用两阶段优化来优化特定性质,同时遵守结构约束。

论文链接:

https://openreview.net/forum?id=s6roE3ZocH1

0 人点赞