深度学习与统计力学(VI) ：通过概率模型进行“深度想象”

谷歌和斯坦福最新合作综述报告，发表在物理学的顶级期刊“凝聚态物理年鉴”（Annual Review of Condensed Matter Physics）。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli 本公众号将对本报告进行翻译，分6次发布。

系列预告

深度学习与统计力学(I) ：深度学习中的基础理论问题
深度学习与统计力学(II) ：深度学习的表达能力
深度学习与统计力学(III) ：神经网络的误差曲面
深度学习与统计力学(IV) ：深层网络的信号传播和初始化
深度学习与统计力学(V) ：深度学习的泛化能力
深度学习与统计力学(VI) ：通过概率模型进行“深度想象”

经典的概率无监督学习通过最大化对数似然 l(mathbf{w}) 从数据分布 q(mathbf{x}) 中拟合一组简单的概率分布 p(mathbf{x};mathbf{w}) 。深度无监督学习的最新进展能够显著提高能够拟合数据的分布 p(mathbf{x};mathbf{w}) 的复杂度。这些进展给很多领域带来了一些引人注目的应用，例如语音生成，表示学习，其他任务的模型预训练[152]，异常检测，缺失数据推断，降噪[150]，超分辨率[153]，压缩[154]，计算机辅助设计[155]，甚至一些名义上的有监督任务，例如分类和回归[156]。

1 基于能量的概率模型

我们首先关注一类与物理最紧密相关的模型，即基于能量的概率模型。在这类模型中，p(mathbf{x};mathbf{w}) 用 Boltzmann 分布来描述（Boltzmann因子 kT=1 ）：

p(mathbf{x};mathbf{w}) = frac{1}{Z_mathbf{w}} e^{-E(mathbf{x};mathbf{w})}. quad (12)

实际上机器学习领域最早的基于能量的概率模型就叫做玻尔兹曼机[157]，直接映射到具有学习耦合结构 mathbf{w} 的 Ising 自旋模型上。在此后更多的研究中相继出现了更复杂的基于能量的模型[158-162]，而且在生成式和概率建模中一直处于活跃和有竞争力的位置[150]。基于能量的模型的其他选择包括自回归模型和有向概率图模型。

2 学习、信息理论和自由能之间的联系

将公式(12)中的 Boltzmann 形式的概率代入公式(5)中的对数似然学习目标，我们得到

-l(mathbf{w}) = langle E(mathbf{x};mathbf{w}) rangle_q - F_mathbf{w}, quad (13)

其中 langle cdotrangle_q 相对于数据分布 q(mathbf{w}) 的平均，F_mathbf{w}=-ln Z_mathbf{w} 是模型分布 p(mathbf{x};mathbf{w}) 的 Helmholtz 自由能。因此，通过最大化对数似然的学习对应于最小化观测数据的能量，同时增加模型分布的总自由能。

最大化 l(mathbf{w}) 也等价于最小化 KL 散度（Kullback–Leibler divergence），

D_{text{KL}}(qVert p) = int text{d} mathbf{x} q(mathbf{x}) ln frac{q(mathbf{x})}{p(mathbf{x};mathbf{w})}= G_mathbf{w}(q) - F_mathbf{w}. quad (14)

其中 D_{text{KL}}(qVert p) 是两个分布 q 和 p 散度的非负信息论度量，当且仅当 q=p 时取值为0[154]。当 p 为公式(12)所示的 Boltzmann 形式时，KL 散度变为了 q 的 Gibbs 自由能 G_mathbf{w}(q) 与 p 的 Helmholtz 自由能 F_mathbf{w} 的差。

学习对应在公式(14)中固定数据分布 q 来优化模型参数 mathbf{w} 。公式(14)的分解对应机器学习和统计力学中其他广泛的应用。通常，我们面对的是一个如公式(12)所示的带有耦合结构参数 mathbf{w} 的固定复杂度的 Boltzmann 分布，我们希望用一个更简单的变分分布q(mathbf{x}) 来逼近它。根据公式(14)，这种逼近可以通过固定 mathbf{w} ，然后针对 q 来最小化 KL 散度或者 Gibbs 自由能来达到。从这种方法出发可以得到机器学习中的变分推理和物理中的变分平均场方法。

3 自由能计算是学习的一道屏障

上一小节我们已经总结到对数似然和 KL 散度等统计概念，与能量、熵和自由能等物理概念之间存在紧密的关系，因此在机器学习和平衡态统计力学之间构建了桥梁。具体地，对于基于能量的模型，这种桥梁使得自由能函数 F_mathbf{w} 的计算、逼近和优化成为两个领域共同的中心问题。然而这些也都是两个领域中的挑战性问题。此外，在机器学习中，即使是动机良好的 F_mathbf{w} 逼近在训练过程中也会不再准确。

在基于能量的模型中，已经提出了很多方法来克服自由能计算的屏障，包括蒙特卡洛，对比发散启发式[163]及其变种[164]，评分匹配[165]，伪似然[166]，最小概率流学习（MPF）[167，168]（其中 MPF 本身是一种非平衡态统计力学方法）。在一些情况下，模型必须规范化的要求被放宽了，即概率解释被简单地抛弃了[169]。尽管取得了这些进展，但基于高维数据集的表达能量模型的训练仍然是一个开放的挑战。

高维空间上概率分布规范化的困难催生了一些有趣的数据生成建模方法，这些方法避免了概率本身的计算。这种方法包括在生成对抗网络（GAN）中用学习的鉴别器的判断来代替对概率的显式计算[171]，开发在规范化流（173–175）的情况下仍然可以解析地规范化的表示类函数（与哈密顿动力学有关；172），在自回归模型中将分布分解为一维条件分布的乘积[176]，在变分自编码器中将后验分布替换为可解的变分近似[177-180]。

4 非平衡态统计力学

6.2节讨论的机器学习和平衡态统计力学之间的桥梁正在被扩展来给机器学习和非平衡态统计力学之间建立连接。本节我们将讨论两个这类连接。这个领域有待探索，给非平衡态和机器学习建立桥梁的研究必将给两个领域都带来好处。相关的有希望的方向包括将物理系统当作信息处理引擎[181-184]。

4.1 Jarzynski 等式和退火重要度采样

一个最令人惊讶的机器学习和物理学的类比为：Jarzynski 等式（JE）是机器学习中退化重要度采样（AIS）的一个特例。值得注意的是， JE 将热力学第二定律中的不等式替换成了等式，

exp(-Delta F) = langleexp(- W) rangle，quad (15)

其中 Delta F 是两个宏观系统状态 E[x;lambda(0)] 和 E[x;lambda(T)] 之间自由能的变化。lambda(t) 描述这些状态之间插值的时间依赖边界条件或控制参数。W 是沿轨道 lambda(t) 运动所做的功，langle cdot rangle 表示轨道的期望。这里我们依然假设 Boltzmann 因子 kT=1 。

AIS [185]和及其扩展[186,187]是重要采样（IS）的推广，通过对可解分布的样本进行重新赋权来计算不可解分布的无偏期望。在 AIS 中，正马尔可夫链和逆马尔可夫链在两个分布之间架起桥梁，使得方差比 IS 要低。如果用 AIS 来估计两个基于能量模型规范化因子的比值，则为

begin{aligned} frac{Z^T}{Z^0} &= frac{Z^T}{Z^0} mathrm{d} mathbf{x}^{0dots T}p_f(mathbf{x}^{0dots T}) frac{p_r(mathbf{x}^{0dots T})}{p_f(mathbf{x}^{0dots T})} \ &=leftlangle frac{e^{-E(mathbf{x}^T;lambda(t))}}{e^{-E(mathbf{x}^0;lambda(0))}} prod_{t=1}^{T} frac{p_r[mathbf{x}^{t-1} | mathbf{x}^{t};lambda(t-1)]}{p_f[mathbf{x}^{t} | mathbf{x}^{t-1};lambda(t-1)]} rightrangle p_f, quad (16) end{aligned}

其中 p_f(mathbf{x}^{0dots T})=p[mathbf{x}^0;lambda(0)]prod_{t=1}^Tp_f[mathbf{x}^{t} | mathbf{x}^{t-1};lambda(t-1)] 和 p_r(mathbf{x}^{0dots T})=p[mathbf{x}^T;lambda(T)]prod_{t=1}^Tp_f[mathbf{x}^{t-1} | mathbf{x}^{t};lambda(t-1)]

分别为前向轨迹和反向轨迹的分布。在 AIS 中，在前向后反向链中通常选择马尔科夫转移，以满足平衡条件 frac{p_r[mathbf{x}^{t-1} | mathbf{x}^{t};lambda(t-1)]}{p_f[mathbf{x}^{t} | mathbf{x}^{t-1};lambda(t-1)]} =exp{E(mathbf{x}^t;lambda(t-1)) -E(mathbf{x}^{t-1};lambda(t-1)) } 。如果我们进一步记时间步 t 做的功为 Delta W^t = E(mathbf{x}^t;lambda(t)) -E(mathbf{x}^{t};lambda(t-1)) ，全部做的功为 W = sum_{t=1}^T Delta W^t 。注意到 frac{Z^T}{Z^0} = exp(-Delta F) ，我们可以看到等式(15)和等式(16)是等价的。

4.2 将非平衡扩散当作生成模型

非平衡物理学的思想不仅可以用来评价概率模型的性质，而且可以用来定义概率模型。例如，文献16训练参数非平衡过程以生成复杂的数据分布。其基本思想是首先通过允许单个数据点在数据空间中扩散来缓慢破坏复杂数据分布 q(mathbf{x}^0) 中的结构。这个扩散过程通过 T 步迭代前向扩散核 p_f(mathbf{x}^{t 1} | mathbf{x}^t) 将复杂的未知数据分布 q(mathbf{x}^0) 转化为一个简单的、可处理的分布 p(mathbf{x}^T) 。例如，在自然图像的情况下，扩散对应于每个像素强度经历一个独立的无偏随机游走，将逐渐将任何结构化图像转换为白噪声图像。

可以训练一个神经网络来逆转这个不可逆的、产生熵的扩散过程中的时间流。更准确地说，时间反转神经网络的每一步都是通过学习反向转换核 p_r(mathbf{x}^{t} | mathbf{x}^{t 1}) 将数据点向后移动一步。然后这些核的复合产生了数据的非平衡生成模型。在这个生成模型中，只需从简单分布 p(mathbf{x}^T) 中采样，然后重复应用连续的反向转换 p_r(mathbf{x}^{t} | mathbf{x}^{t 1}) ，即可得到原始数据分布 q(mathbf{x}^0) 的近似值。例如，在自然图像的情况下，该处理将对应于对白噪声图像进行采样并通过一系列反向变换将其转换成自然图像样本（16；图6b）。关于神经网络在不可逆随机过程中非直观地逆转时间流的能力的其他例子，参考文献16。相关工作训练正向和反向过程（188）的参数，并打破与扩散过程的严格对应关系，以允许用较少的时间步进行采样（189）。

图6 基于物理的概率模型在整个深度学习领域得到了迅速的发展，但目前还有些落后于其他概率方法，特别是自回归模型。图中显示了从自然图像数据集上训练的概率模型中生成的样本。(a-c)来自基于物理的概率模型的样本；(d)来自当前最好的（基于对数似然）图像概率模型的样本。

总结

我们希望这篇综述能体现围绕着寻求对深度学习的深刻经验成功的理论理解方面的进展。不可避免的是，我们目前的理论理解只是一个更为统一的图景的冰山一角，这一图景将在随后的几年里出现。然而，令人兴奋的是，即使是这一可见的小部分也揭示了新的深度学习领域与相对古老的统计力学和凝聚态物理领域之间的丰富联系。事实上，在这些领域中，面包和黄油的主题，如随机曲面，相变，混沌，自旋玻璃，干扰，随机矩阵，相互作用的粒子系统，非平衡统计力学，以及更多的数学主题，如自由概率和黎曼几何，开始揭示深度学习中有趣的现象。

存在很多机会开展更明智的受控深层网络科学实验组合和开发更现实的训练数据和神经网络示例模型，以加深我们现有的理解。这种实验和理论的结合一直是物理学概念进步的动力，我们相信深度学习将为物理学家提供更多这样的研究机会。更有趣的是，这一研究领域可能为物理学家提供一个机会，与计算机科学家和神经科学家建立联系，并发展一个关于非线性分布神经电路（无论是人工的还是生物的）如何计算、通信、学习和想象的统一理论[190]。

深度学习机器学习监督学习无监督学习人工智能

0 人点赞