SSM 能取代 Transformer 搞出更「牛」的大模型吗?

2024-06-17 16:20:59 浏览数 (2)

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. SSM 能取代 Transformer 搞出更「牛」的大模型吗?

SSM 为何引起关注?最强 Transformer 挑战者 SSM 竟和 Transformer 是一回事?结合了注意力机制和 SSM 的 Mamba-2 架构效果如何?近期还有哪些挖掘 Transformer 潜力的新研究有必要了解一下?...

2. 从「开城」到「无图」:大模型砸下来的钱好赚吗?

智驾车企们为何现在纷纷探索大模型「上车」?背后有哪些深意?为什么需要大模型上车?大模型上车后,能解决哪些问题?从技术角度看,实现「无图化」这事儿有何难点?大模型「上车」能赚钱吗?智驾车企们离真正赚钱还有多远的路要走?...

3. 硅谷对谈:如何应对AI大模型下半场的市场变革

Meta 推出的 Llama 3 模型给市场带来了哪些巨大影响?开闭源模型如何选择?如何应对企业 AI 的大浪潮?AI 技术未来在个人应用、自动驾驶等方面有哪些新的突破?...

...本期完整版通讯含 3 项专题解读 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 9 项,国外方面 9 项。

本期通讯总计 24659 字,可免费试读至 13 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读 ① SSM 能取代 Transformer 搞出更「牛」的大模型吗?

日期:5 月 31 日

事件:基于注意力机制的 Transformer 架构 和 Scaling Law 是公认推动这一轮 AI 革新的根源,挖掘 Transformer 更多的潜力或将解决目前大模型所面对的诸多局限性问题。近期 CoPE、KAN、Abacus 嵌入等工作均从不同维度拓宽了 Transformer 的能力边界。但在一系列进展中,SSM 与注意力机制可以互补的发现将对 Transformer 的探索推向了一个新的小高潮。

什么?! 最强 Transformer 挑战者 SSM 竟和 Transformer 是一回事?

1、SSM(Structured State Space Models)是一类深度学习中的序列模型,它们结合了循环神经网络(RNNs)、卷积神经网络(CNNs)以及经典的线性状态空间模型的特点。

① 这些模型在计算上非常高效,可以通过递归或卷积的方式实现,并且随着序列长度的增加,它们的计算复杂度呈线性或近似线性增长。

② SSM 还具备在特定数据模态中建模长距离依赖性的能力,并在长范围竞技场等基准测试中表现出色

③ Mamba 模型是引发近期业界关注 SSM 的主要原因。Mamba 提出了选择性 SSM 的概念,它通过使 SSM 参数成为输入的函数来克服离散模态上的弱点,允许模型根据当前 token 沿序列长度维度有选择地传播或遗忘信息。

④ Mamba 通过引入选择性状态空间机制,提高了对长序列建模的有效性,而 SSM 则因其线性计算复杂度和上下文感知能力,成为了 Transformer 的潜在替代模型。

2、自 Mamba 在 2023 年被提出,这种状态空间模型(SSM)在中小型规模上已经实现了与 Transformers 匹敌,甚至更优的表现。

① 从 Mamba 开始,SSM 开始受到更多关注,也由此衍生了许多变体。

② 基于 SSM,Mamba 架构可以随上下文长度的增加实现线性扩展,解决了 Transformer 自注意力机制在这种增长在计算量暴增的局限,因此关于「Mamba 将有机会取代 Transformer」的说法不时出现。

3、在 Mamba 提出后,也有工作尝试将 SSM 与 Transformer 组合使用。NeurIPS 2023 的一篇论文提出的 Block-State Transformer 架构将基于局部注意力的归纳偏差与长期上下文建模能力组合到了一起,做成了单一层。[19]

① 该工作提出的 BST 模型不仅能轻松支持 65k token 长度的超长输入,而且计算效率还非常高,速度相比使用循环单元的 Transformer 提升十倍。

② 该工作发布时, Mamba 作者之一 Tri Dao 也点赞表示「SSM 和 Transformer 似乎可以互补。」

4、Mamba 的原班人马在近期 Mamba-2 的论文中,通过提出结构化状态空间对偶性(SSD)的理论框架,证明了 Transfomer 和 SSM 在数学层面上存在极为紧密的联系。

① 该工作将 SSM(状态空间模型)和 SMA(结构化掩码注意力)联系起来,显示它们有一个很大的交集,彼此是对偶的,同时具有 SSM 式的线性形式和类似注意力的二次方形式。

② 该工作还证明了任何具有快速循环形式的核注意方法都是 SSM。

③ 该工作还发现,结合了 4-6 个注意力层的 Mamba-2 在表现上可以更优,从而验证了注意力和 SSM 确实可以互补。

图:SSD 框架(红、蓝)介绍。状态空间模型(即半可分矩阵)和结构化掩码注意力(SMA)囊括了一大类高效序列模型。它们的交集就是 SSD 模型(紫色)。

为什么从数学上来讲,SSM 和 Transformer 是一回事?[13]

Mamba 的作者在论文《Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality》中构建了 SSD(state space duality)理论框架,从数学的角度证明了许多线性注意力变体和 SSM 是等效的。

1、Mamba-2 论文的重点在于结构化状态空间对偶性(SSD,也称选择性 SSM),它代表着:

① SSD 模型(model)指可以纳入深度神经网络(如注意力机制或 SSM)的特定独立层

② SSD 框架(framework)是推理此模型(以及更多理论联系)的通用框架

③ SSD 算法(algorithm)是一种比以往 SSM 更有效地计算 SSD 层的算法

2、在论文中,研究者分别从 SSM 的角度和注意力的角度出发,用两种完全不同的方式推导出了 SSD「对偶性(duality)」。

3、论文先从 SSM 的角度出发,通过矩阵序列变换/矩阵混合器的框架来证明对偶性。

① 许多序列模型都可以写成矩阵乘法的形式,如 Y = M(X) · X,这种形式被称为矩阵序列变换(matrix sequence transformation),或者简称为矩阵变换(matrix transformation,也有 matrix mixer 的说法)。

② 在许多领域的文献中都有此类以结构为特征矩阵的例子,而自注意力本身则是事实上的例子,比如

0 人点赞