7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快

2022-06-20 18:10:51 浏览数 (1)

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周重要论文包括:斯坦福大学提出一种快速、内存高效的注意力算法,被命名为 FlashAttention,通过减少 GPU 内存读取 / 写入,FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍,所需内存减少 5-20 倍;来自 MIT CSAIL 的学者们介绍了一种可禁用苹果 M1 芯片指针身份验证机制的新型硬件攻击,名为「PACMAN」,这种攻击能够阻止 M1 芯片检测到软件漏洞攻击。

目录:

  1. Emergent Abilities of Large Language Models 
  2. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 
  3. Towards artificial general intelligence via a multimodal foundation model
  4. Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
  5.  PACMAN: Attacking ARM Pointer Authentication with Speculative Execution
  6. Multi-Game Decision Transformers 
  7. End-to-end Generative Pretraining for Multimodal Video Captioning 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Emergent Abilities of Large Language Models

  • 作者:Jason Wei 、 Percy Liang 、 Jeff Dean 等
  • 论文地址:https://arxiv.org/pdf/2206.07682.pdf

摘要:包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》,他们讨论了大模型不可预测现象,并称之为大型语言模型的突现能力( emergent abilities)。所谓的突现,即有些现象不存在于较小的模型中但存在于较大的模型中,他们认为模型的这种能力是突现的。

本文探讨了模型规模的突现,通过训练计算和模型参数来衡量。具体而言,本文将大型语言模型的突现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力;因此,大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型突现能力,并将它们进行分类:小样本提示和增强提示等设置。

本文首先讨论了提示范式中的突现能力。例如在 GPT-3 提示中,给出预训练语言模型任务提示,模型无需进一步训练或对参数进行梯度更新即可完成响应。此外,Brown 等人提出了小样本提示,他们将模型上下文(输入)中的一些输入输出示例作为提示(preamble),然后要求模型执行未见过的推理任务。图 1 为一个提示示例。

当模型具有随机性能且具有一定规模时,通过小样本提示就可以执行任务,这时突现能力就会出现,之后模型性能远远高于随机性能。下图展示了 5 个语言模型系列(LaMDA、GPT-3、Gopher、Chinchilla 以及 PaLM )的 8 种突现能力。

BIG-Bench:图 2A-D 描述了来自 BIG-Bench 的四个突现小样本提示任务,BIG-Bench 是一个由 200 多个语言模型评估基准的套件。图 2A 显示了一个算术基准,它测试了 3 位数字的加减法,以及 2 位数字的乘法。表 1 给出了 BIG-Bench 更多突现能力。

图 3D 显示这些模型也可以泛化到域外 9 位加法,它出现在 ∼1.3 · 10^20 个训练 FLOPs(100M 参数)。

推荐:Jeff Dean 等人新作:换个角度审视语言模型,规模不够发现不了。

论文 2:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

  • 作者:Tri Dao 、 Daniel Y. Fu 等
  • 论文地址:https://arxiv.org/pdf/2205.14135.pdf

摘要:一种快速、内存高效的注意力算法来了,被命名为 FlashAttention。通过减少 GPU 内存读取 / 写入,FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍,所需内存减少 5-20 倍。

这项研究由斯坦福大学、纽约州立大学布法罗分校的研究者共同完成。共同一作是两位斯坦福计算机博士生 Tri Dao 和 Dan Fu。

在本文中,该研究认为应该让注意力算法具有 IO 感知——即考虑显存级间的读写。现代 GPU 计算速度超过了内存速度,transformer 中的大多数操作都被内存访问所阻塞。IO 感知算法对于类似的内存绑定操作至关重要,这种重要性体现在当读写数据占据很大运行时——例如数据库连接、图像处理、数值线性代数等。然而,用于深度学习的常见 Python 接口,如 PyTorch 和 Tensorflow,不允许对内存访问进行细粒度控制。

该研究提出了一种新的注意力算法 FlashAttention,它可以使用更少的内存访问来计算精确的注意力。FlashAttention 旨在避免从 HBM(High Bandwidth Memory)中读取和写入注意力矩阵。这需要做到:(i) 在不访问整个输入的情况下计算 softmax reduction;(ii) 在后向传播中不能存储中间注意力矩阵。

该研究在 CUDA 中实现 FlashAttention ,以达到对内存访问的细粒度控制,并将所有注意力操作融合到一个 GPU 内核中。即使由于重新计算导致 FLOPs 增加,但其运行速度更快(在 GPT-2 上高达 7.6 倍,图 1 右图)并且使用更少的内存(序列长度线性),主要是因为大大减少了 HBM 访问量。

该研究分析了 FlashAttention 的 IO 复杂度,证明它需要

0 人点赞