许多概率模型很难训练的原因是很难进行推断。在深度学习中,通常我们有一系列可见变量 v 和一系列潜变量 h。推断困难通常是指难以计算 p(h | v) 或其期望。而这样的操作在一些诸如最大似然学习的任务中往往是必需的。许多仅含一个隐藏层的简单图模型会定义成易于计算 p(h | v) 或其期望的形式,例如受限玻尔兹曼机和概率 PCA。不幸的是,大多数具有多层隐藏变量的图模型的后验分布都很难处理。对于这些模型而言,精确推断算法需要指数量级的运行时间。即使一些只有单层的模型,如稀疏编码,也存在着这样的问题。我们可以参考几个用来解决这些难以处理的推断问题的技巧,其描述了如何将这些技巧应用到训练其他方法难以奏效的概率模型中,如深度信念网络、深度玻尔兹曼机。
在深度学习中难以处理的推断问题通常源于结构化图模型中潜变量之间的相互作用。这些相互作用可能是无向模型的直接相互作用,也可能是有向模型中同一个可见变量的共同祖先之间的 “相消解释’’ 作用。
说明:深度学习中难以处理的推断问题通常是由于结构化图模型中潜变量的相互作用。这些相互作用产生于一个潜变量与另一个潜变量或者当V-结构的子节点可观察时与更长的激活路径相连。(左) 一个隐藏单元存在连接的 半受限玻尔兹曼机(semi-restricted Boltzmann Machine)(Osindero and Hinton, 2008)。由于存在大量潜变量的团,潜变量的直接连接使得后验分布难以处理。(中) 一个深度玻尔兹曼机,被分层从而使得不存在层内连接,由于层之间的连接其后验分布仍然难以处理。(右) 当可见变量可观察时这个有向模型的潜变量之间存在相互作用,因为每两个潜变量都是共父。即使拥有上图中的某一种结构,一些概率模型依然能够获得易于处理的关于潜变量的后验分布。如果我们选择条件概率分布来引入相对于图结构描述的额外的独立性这种情况也是可能出现的。举个例子,概率 PCA的图结构如右图所示,然而由于其条件分布的特殊性质(带有相互正交基向量的线性高斯条件分布)依然能够进行简单的推断。