本周AI热点回顾:加性注意力机制、训练推理效率优于其他Transformer变体;深度学习的计算复杂度被生物碾压

2021-09-27 16:26:23 浏览数 (1)

01

加性注意力机制、训练推理效率优于其他Transformer变体,这个Fastformer的确够快

在过去的几年里,Transformer 及其变体在很多领域取得了巨大成功,但由于其复杂度与序列长度的二次方成正比,它的计算效率并不高。虽然之前已经有很多研究致力于 Transformer 的加速,但在遇到长序列时,这些方法要么低效,要么无效。

在这篇论文中,来自清华大学、微软亚洲研究院的研究者提出了一种基于加性注意力的 Transformer 变体——Fastformer,它能以线性复杂度实现有效的上下文建模。

论文链接:https://arxiv.org/pdf/2108.09084.pdf

在这个模型中,研究者首先使用加性注意力机制对全局上下文进行建模,然后根据每个 token 表示与全局上下文表示的交互进一步转换这些 token 表示。通过这种方式,Fastformer 能够以线性复杂度实现高效的上下文建模。

为了检验 Fastformer 的效果,研究者在五个基准数据集上进行了多个任务的实验,包括情感分类、话题预测、新闻推荐和文本摘要。实验结果表明,Fastformer 比很多 Transformer 模型都要高效,在长文本建模中取得了非常有竞争力的结果。

信息来源:机器之心

02

一个神经元顶5到8层神经网络,深度学习的计算复杂度被生物碾压了

来自耶路撒冷希伯来大学的研究者对单个神经元的计算复杂度进行了研究,他们通过训练人工深度神经网络来模拟生物神经元的计算,得出深度神经网络需要 5 至 8 层互连神经元才能表征(或达到)单个生物神经元的复杂度。

人类糊状的大脑似乎与计算机处理器中的固态硅芯片相去甚远,但科学家将二者进行比较已经有很多年的历史。正如「人工智能之父」阿兰 · 图灵在 1952 年所说,「我们对大脑具有冷粥粘稠度这一事实不感兴趣。」换句话说,介质不重要,重要的是计算能力。

当前,最强大的 AI 系统采用机器学习的一个分支——深度学习,这些 AI 系统的算法通过处理互连节点隐藏层的大量数据来学习,这被称为深度神经网络。顾名思义,深度神经网络受到了人类大脑中真实神经网络的启发,它们的节点模拟真实神经元。或者至少根据 1950 年代神经科学家对神经元的了解,当时一个被称作「感知器」的有影响力的神经元模型已经诞生了。

自那时起,我们对单个神经元的计算复杂度的理解急剧增加,也清楚了生物神经元要比人工神经元更加复杂。但复杂多少呢?这个问题一直没有明确的解答。

为了找出答案,耶路撒冷希伯来大学的计算神经科学博士生 David Beniaguev、神经科学教授 Idan Segev 和副教授 Michael London 训练了一个人工深度神经网络来模拟生物神经元的计算。他们表示,一个深度神经网络需要 5 至 8 层互连神经元才能表征(或达到)单个生物神经元的复杂度。

作者们也没有预料到会呈现出这种复杂度。一作 Beniaguev 表示:「我原以为生物神经元会更简单些,3 至 4 层人工神经元就足以捕获细胞内执行的计算。」

从左至右依次为耶路撒冷希伯来大学博士生 David Beniaguev、神经科学教授 Idan Segev 和副教授 Michael London。

他们还发表了相关论文《Single Cortical Neurons as Deep Artificial Neural Networks》。

论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0896627321005018

DeepMind 决策算法设计师 Timothy Lillicrap 认为,新的研究结果表明有必要重新思考将大脑神经元与机器学习领域神经元进行松散比较的旧传统了。

信息来源:机器之心

03

重磅 | 飞桨正式引入Face.evoLVe高性能人脸识别库,助力人脸识别相关研究及应用发展

人脸识别一直都是人工智能领域的研究热点,并被广泛应用于公共安全、金融支付等身份验证领域。

为了促进人脸识别算法的相关学术研究、应用落地并提升新方法的实现效率,中国科协青托赵健博士作为核心项目发起人组织设计并开源了可替换backbone、loss和trick bag的人脸识别工具箱Face.evoLVe,目前GitHub已累计获得2.5k Star。

自开源以来,全球范围内已有多家学术界、工业界研究机构基于Face.evoLVe斩获多项国际比赛冠亚军,如ICCV 2017 MS-Celeb-1M Large-Scale Face Recognition Hard Set/Random Set/Low-Shot Learning Challenges 、National Institute of Standards and Technology (NIST) IARPA Janus Benchmark A (IJB-A) Unconstrained Face Verifcation challenge and Identifcation challenge等,并在MS-Celeb-1M、IJB-A/B/C、MegaFace等多个数据集上同样获得了state-of-the-art 的性能表现。

而近期,赵健博士联合百度、国防科技大学等单位研究员针对Face.evoLVe进行了归纳总结,并于ArXiv联合发布了尝鲜版论文”Face.evoLVe: A High-Performance Face Recognition Library”,希望能够带给业界开发者更多新思路,更好地推动人脸识别及以人为中心的图像/视频理解相关领域的前沿研究。

《生活大爆炸》场景人物面部分析示意

飞桨版本开源代码:

https://github.com/ZhaoJ9014/face.evoLVe/tree/master/paddle

论文地址:

https://arxiv.org/pdf/2107.08621.pdf

Face.evoLVe将保持维护与更新,欢迎大家star和fork。

信息来源:飞桨PaddlePaddle

04

ICCV2021 | 参数量仅为原来1%,北邮等利用超分算法提出高性能视频传输方法

近日,来自北京邮电大学和英特尔中国研究院的研究者首先探索了不同视频段所对应的不同模型间的关系,然后设计了一种引入内容感知特征调制(Content-aware Feature Modulation,CaFM)模块的联合训练框架,用来压缩视频传输中所需传输的模型大小。该研究的方法让每一个视频段只需传输原模型参数量的 1%,同时还达到了更好的超分效果。该研究进行了大量的实验在多种超分辨率 backbone、视频时长和超分缩放因子上展现了该方法的优势和通用性。另外,该方法也可以被看作是一种新的视频编解码方式。在相同的带宽压缩下,该方法的性能(PSNR)优于商用的 H.264 和 H.265,体现了在行业应用中的潜能。

  • 论文链接:http://arxiv.org/abs/2108.08202
  • GitHub 地址:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

与当前单图像超分辨率 (SISR)和视频超分辨率 (VSR)的方法相比,内容感知 DNN 利用神经网络的过拟合特性和训练策略来实现更高的性能。具体来说,首先将一个视频分成几段,然后为每段视频训练一个单独的 DNN。低分辨率视频段和对应的模型通过网络传输给客户端。不同的 backbone 都可以作为每个视频段的模型。与 WebRTC 等商业视频传输技术相比,这种基于 DNN 的视频传输系统取得了更好的性能。

尽管将 DNN 应用于视频传输很有前景,但现有方法仍然存在一些局限性。一个主要的限制是它们需要为每个视频段训练一个 DNN,从而导致一个长视频有大量单独的模型。这为实际的视频传输系统带来了额外的存储和带宽成本。在本文中,研究者首先仔细研究了不同视频段的模型之间的关系。尽管这些模型在不同的视频段上实现了过拟合,但该研究观察到它们的特征图之间存在线性关系,并且可以通过内容感知特征调制(CaFM)模块进行建模。这促使研究者设计了一种方法,使得模型可以共享大部分参数并仅为每个视频段保留私有的 CaFM 层。然而,与单独训练的模型相比,直接微调私有参数无法获得有竞争力的性能。因此,研究者进一步设计了一个巧妙的联合训练框架,该框架同时训练所有视频段的共享参数和私有参数。通过这种方式,与单独训练的多个模型相比,该方法可以获得相对更好的性能。

信息来源:机器之心

05

真的不值得重视吗?ETH Zurich博士重新审视贝叶斯深度学习先验

一直以来,贝叶斯深度学习的先验都不够受重视,这样真的好么?苏黎世联邦理工学院计算机科学系的一位博士生 Vincent Fortuin 对贝叶斯深度学习先验进行了重新审视。

众所周知,先验的选择是贝叶斯推断流程中最关键的部分之一,但最近的贝叶斯深度学习模型比较依赖非信息性先验,比如标准的高斯。

在本篇论文中,来自苏黎世联邦理工学院计算机科学系的博士生 Vincent Fortuin 强调了先验选择对贝叶斯深度学习的重要性,概述了针对(深度)高斯过程、变分自编码器、贝叶斯神经网络的不同先验,并从数据中总结了学习这些模型先验的方法。

作者 Vincent Fortuin(下图右)专注于深度学习和概率建模接口的相关研究,特别热衷于遵循贝叶斯范式开发更具解释性和数据效率的模型,并且尝试利用更好的先验和更有效的推断技术来改进深度概率模型。

论文链接:https://arxiv.org/pdf/2105.06868.pdf

信息来源:机器之心

END

0 人点赞