查看本案例完整的数据、代码和报告请登录数据酷客(cookdata.cn)案例板块。
谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli
英文原报告“深度学习统计力学”。
经典的概率无监督学习通过最大化对数似然 l(w) 从数据分布 q(x) 中拟合一组简单的概率分布 p(x;w) 。深度无监督学习的最新进展能够显著提高能够拟合数据的分布 p(x;w) 的复杂度。这些进展给很多领域带来了一些引人注目的应用,例如语音生成,表示学习,其他任务的模型预训练[152],异常检测,缺失数据推断,降噪[150],超分辨率[153],压缩[154],计算机辅助设计[155],甚至一些名义上的有监督任务,例如分类和回归[156]。
1 基于能量的概率模型
我们首先关注一类与物理最紧密相关的模型,即基于能量的概率模型。在这类模型中,p(x;w) 用 Boltzmann 分布来描述(Boltzmann因子 kT=1):
实际上机器学习领域最早的基于能量的概率模型就叫做玻尔兹曼机[157],直接映射到具有学习耦合结构 w 的 Ising 自旋模型上。在此后更多的研究中相继出现了更复杂的基于能量的模型[158-162],而且在生成式和概率建模中一直处于活跃和有竞争力的位置[150]。基于能量的模型的其他选择包括自回归模型和有向概率图模型。
2 学习、信息理论和自由能之间的联系
将公式(12)中的 Boltzmann 形式的概率代入公式(5)中的对数似然学习目标,我们得到
其中 <.>q 相对于数据分布 q(w) 的平均,Fw=-lnZw 是模型分布 p(x;w) 的 Helmholtz 自由能。因此,通过最大化对数似然的学习对应于最小化观测数据的能量,同时增加模型分布的总自由能。
最大化 l(w) 也等价于最小化 KL 散度(Kullback–Leibler divergence),
其中 DKL(q||p) 是两个分布 q 和 p 散度的非负信息论度量,当且仅当 q=p 时取值为0[154]。当 p 为公式(12)所示的 Boltzmann 形式时,KL 散度变为了 q 的 Gibbs 自由能 Gw(q) 与 p 的 Helmholtz 自由能 Fw 的差。
学习对应在公式(14)中固定数据分布 q 来优化模型参数 w 。公式(14)的分解对应机器学习和统计力学中其他广泛的应用。通常,我们面对的是一个如公式(12)所示的带有耦合结构参数 w 的固定复杂度的 Boltzmann 分布,我们希望用一个更简单的变分分布 q(x) 来逼近它。根据公式(14),这种逼近可以通过固定 w ,然后针对 q 来最小化 KL 散度 或者 Gibbs 自由能来达到。从这种方法出发可以得到机器学习中的变分推理和物理中的变分平均场方法。
3 自由能计算是学习的一道屏障
上一小节我们已经总结到对数似然和 KL 散度等统计概念,与能量、熵和自由能等物理概念之间存在紧密的关系,因此在机器学习和平衡态统计力学之间构建了桥梁。具体地,对于基于能量的模型,这种桥梁使得自由能函数 Fw 的计算、逼近和优化成为两个领域共同的中心问题。然而这些也都是两个领域中的挑战性问题。此外,在机器学习中,即使是动机良好的 Fw 逼近在训练过程中也会不再准确。
在基于能量的模型中,已经提出了很多方法来克服自由能计算的屏障,包括蒙特卡洛,对比发散启发式[163]及其变种[164],评分匹配[165],伪似然[166],最小概率流学习(MPF)[167,168](其中 MPF 本身是一种非平衡态统计力学方法)。在一些情况下,模型必须规范化的要求被放宽了,即概率解释被简单地抛弃了[169]。尽管取得了这些进展,但基于高维数据集的表达能量模型的训练仍然是一个开放的挑战。
高维空间上概率分布规范化的困难催生了一些有趣的数据生成建模方法,这些方法避免了概率本身的计算。这种方法包括在生成对抗网络(GAN)中用学习的鉴别器的判断来代替对概率的显式计算[171],开发在规范化流(173–175)的情况下仍然可以解析地规范化的表示类函数(与哈密顿动力学有关;172),在自回归模型中将分布分解为一维条件分布的乘积[176],在变分自编码器中将后验分布替换为可解的变分近似[177-180]。
4 非平衡态统计力学
6.2节讨论的机器学习和平衡态统计力学之间的桥梁正在被扩展来给机器学习和非平衡态统计力学之间建立连接。本节我们将讨论两个这类连接。然而这个领域有待探索,今后给非平衡态和机器学习建立桥梁的研究必将给两个领域都带来好处。相关的有希望的方向包括将物理系统当作信息处理引擎[181-184]。
4.1 Jarzynski 等式和退火重要度采样
一个最令人惊讶的机器学习和物理学的类比为:Jarzynski 等式 (JE)是机器学习中退化重要度采样(AIS)的一个特例。值得注意的是, JE 将热力学第二定律中的不等式替换成了等式,
4.2 将非平衡扩散当作生成模型
非平衡物理学的思想不仅可以用来评价概率模型的性质,而且可以用来定义概率模型。例如,在参考文献16中,训练参数非平衡过程以生成复杂的数据分布。其基本思想是首先通过允许单个数据点在数据空间中扩散来缓慢破坏复杂数据分布qx0 中的结构。这个扩散过程通过一系列T迭代前向扩散核pfxt 1 | xt将复杂的未知数据分布qx0 转化为一个简单的、可处理的分布pxT。例如,在自然图像的情况下,扩散将对应于经历独立无偏随机游动的每个像素强度,这将逐渐将任何结构化图像转换为白噪声图像。
图6 物理激励的概率模型在整个深度学习领域得到了迅速的发展,但目前还有些落后于其他概率方法,特别是自回归模型。所有面板都显示了在自然图像数据集上训练的概率模型的样本。(a-c)来自物理激励概率模型的样本;(d)来自当前整体最新(基于对数似然)图像概率模型的样本。样本来自(a)2010年的mcRBM能量模型(149),(b)第6.4.2(16)节描述的2015年的非平衡扩散模型,(c)2019年的能量模型(150),(d)亚尺度像素网络自回归模型(151)。
总结
我们希望这篇综述能体现围绕着寻求对深度学习的深刻经验成功的理论理解方面的进展。不可避免的是,我们目前的理论理解只是一个更为统一的图景的冰山一角,这一图景将在随后的几年里出现。然而,令人兴奋的是,即使是这一可见的小部分也揭示了新的深度学习领域与相对古老的统计力学和凝聚态物理领域之间的丰富联系。事实上,在这些领域中,面包和黄油的主题,如随机曲面,相变,混沌,自旋玻璃,干扰,随机矩阵,相互作用的粒子系统,非平衡统计力学,以及更多的数学主题,如自由概率和黎曼几何,开始揭示深度学习中有趣的现象。
存在很多机会开展更明智的受控深层网络科学实验组合和开发更现实的训练数据和神经网络示例模型,以加深我们现有的理解。这种实验和理论的结合一直是物理学概念进步的动力,我们相信深度学习将为物理学家提供更多这样的研究机会。更有趣的是,这一研究领域可能为物理学家提供一个机会,与计算机科学家和神经科学家建立联系,并发展一个关于非线性分布神经电路(无论是人工的还是生物的)如何计算、通信、学习和想象的统一理论[190]。