大数据文摘受权转载自头部科技
文 | Congerry
几个月前,马斯克通过 Twitter 宣布自己的人工智能公司xAI正式成立:成立一家 xAI 公司去了解宇宙的真实本质。
当时,xAI官宣了11名AI领域的顶尖科学家和工程师。
其中之一就是Greg Yang(杨格),他在官宣加入xAI时表示,大型神经网络的“万物理论”是人工智能的关键,也是揭示数学宇宙奥秘的途径。
近日,杨格也发表了一篇关于神经网络架构的新作——Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks。
这篇文章是杨格之前开发的一种用来描述神经网络结构的编程语言Tensor Programs系列论文的第六篇,主要研究无限深度神经网络中特征学习的问题——残差网络(resnets)的深度参数化方法,而Tensor Programs相关成果在GPT-4中已有应用。
如何训练一个无限深度神经网络
残差网络是一种深度学习的模型,它可以通过在每个块中添加一个跳跃连接(skip connection),使得网络的输出可以直接加上输入,从而避免了深度增加时,网络性能下降的问题。
但是,残差网络并不是完美的,它仍然有一些挑战和困难:
- 当网络加深时,每个块的输出(也就是特征)会变得越来越大,这会导致网络的计算量和内存消耗增加,同时也会影响网络的稳定性和泛化能力。
- 当网络加深时,原来的超参数(比如学习率、权重衰减等)可能不再适用,需要重新调整。这会增加训练的时间和难度,也会影响最终的结果。
因此,训练一个好的深度残差网络仍然是一件不容易的事情,需要考虑很多因素和细节。
论文作者通过分析无限宽度然后无限深度的极限情况,对不同的深度参数化方法进行了分类。
然后,论文作者发现了一种独特的最优参数化方法,叫做Depth-μP,它是之前提出的μP方法的扩展,可以保证在无限深度的极限下,网络的特征学习和特征多样性都达到最大。
论文作者表示,深度 μP 极限更像是神经 SDE,因为相邻层仅弱相关,并且 xᵐ 仅在 (m/L) 中保持 Holder 连续,指数 ≈1/2。我们也将此 Holder 指数称为 resnet 的“特征多样性指数”。但从数学上讲,它比典型的 SDE 更疯狂,因为在每一层添加的噪声“了解”更深的层(由于训练;这很重要,因为否则此计算没有用!)
为什么深度 μP有帮助?论文作者表示,作为反例,考虑 φ=id(奇数)的线性模型。然后简单计算发现,当 L 很大时,相邻的 Wᵐ 和 Wᵐ⁺¹ 本质上是相同的。
另一方面,偶数 Φ 意味着奇数 Φ'。在 Depth-μP 中,Wᵐ 在 m 上仅弱相关,因此相邻层的 φ'(Wᵐxᵐ)) 几乎没有相关性。因为 Wᵐ 的梯度乘法取决于 φ'(Wᵐxᵐ)),所以这会去相关这些梯度。
但当残差块深度≥2时,还是会出现超参数迁移失败和训练性能下降的问题。
论文作者指出,目前还没有一种可靠的深度缩放方法可以适用于Transformer,因为Transformer的结构比较复杂,每个块都有多层,并且有自注意力机制(self-attention)和残差连接(residual connections)等。
论文作者表示,可能我们没有考虑到一些重要的超参数,导致我们无法找到最优的深度缩放方法。
因此,作者提出了一个重要的未来方向,就是识别出这些重要的超参数,并且设计出一种适用于Transformer的深度缩放方法。
关于杨格
杨格出生于湖南,北京读完小学后赴美,进入哈佛数学系。大二时,杨格休学一年半追音乐梦,后认识到数学是自己的真爱,重新回到哈佛。
之后他再次休学两年,快速学习数学、计算机科学和人工智能等前沿知识。回哈佛后,杨格师从丘成桐教授,2017年获得数学和计算机双学位,并获得摩根奖荣誉提名。
毕业时丘成桐建议杨格不要去谷歌,而是加入微软研究院。杨格进入微软后表现优异,尤其是在GPT研发中做出重要贡献。他在微软期间持续开发Tensor Programs框架,用GPT-3验证所提超参数迁移方法,相关成果发表于顶会。
今年7月,马斯克宣布成立新公司xAI,杨格离开微软,加入xAI创始团队,研究方向是“Math for AI”和“AI for Math”。