重磅报告 | 机器学习与物理科学(一)

2022-03-31 15:36:36 浏览数 (1)

这是2019年12月6日发表在顶级期刊《现代物理评论》上的一篇综述文章“Machine learning and the physical sciences”。作者为Giuseppe Carleo ,Ignacio Cirac等 。 翻译:Wendy 翻译稿链接:https://blog.csdn.net/Wendy_WHY_123/article/details/104793247

摘要

机器学习包含用于大量数据处理任务的广泛算法和建模工具,这些已进入近年来最科学的学科。我们以选择性的方式回顾了有关机器学习与物理科学之间的交叉领域的最新研究。这包括以物理见解为动力的机器学习(ML)的概念性发展,机器学习技术在物理学中多个领域的应用以及这两个领域之间的交叉应用。在给出了机器学习方法和原理的基本概念之后,我们介绍了如何使用统计物理学来理解机器学习中的方法的例子。然后,我们将介绍机器学习方法在粒子物理学和宇宙学,量子多体物理学,量子计算以及化学和材料物理学中的应用。我们还将重点介绍旨在加速机器学习的新型计算体系结构的研究和开发。在每个部分中,我们都描述了最近的成功以及特定领域的方法和挑战。

Ⅰ 引言

在过去的十年中,基于机器学习(ML)的技术有了惊人的发展,影响了工业中的许多领域,包括自动驾驶,医疗保健,金融,智能制造,能源等。就像在1980年代和1990年代的计算机一样,ML在很大程度上被视为我们这个时代的主要突破性技术之一。机器学习的总目标是识别数据中的模式,这些模式为处理未见问题提供了依据。例如,在高度复杂的系统(例如自动驾驶汽车)中,必须将来自传感器的大量数据转换为如何通过“学习”识别“危险”模式的计算机来控制汽车的决策。

ML在最近的成功首先是在通过对某些现有技术的显著改进(例如在图像识别领域)方面。这些进步在很大程度上构成了机器学习方法可能对专业化任务产生影响的第一个证明。最近,特别是通过深度学习技术,成功地研发了传统上无法使用自动化软件的应用程序。例如,强化学习技术在游戏中的应用,对整个领域正在向通用人工智能的预期迈进了一步的感觉产生了深远的影响。

与ML技术在工业应用中的兴起同时,科学家对ML在基础研究中的潜力也越来越感兴趣,物理学也不例外。在某种程度上,这并不奇怪,因为机器学习和物理学都共享它们的一些方法和目标。这两门学科都关注收集和分析数据以设计模型的过程,这些模型可以预测复杂系统的行为。但是,这些领域在实现其基本目标的方式上明显不同。一方面,物理学家希望了解自然的机制,并以使用自己的知识,智慧和直觉为模型提供信息感到自豪。另一方面,机器学习通常相反:模型不可知,机器通过从数据中提取来提供“智能”。尽管通常强大,但众所周知,生成的模型与数据模式本身一样,对我们的理解是不透明的。因此,物理学中的机器学习工具受到了一些人的热烈欢迎,而另一些人则对此表示怀疑。难以否认的是,它们在某些情况下会产生令人惊讶的良好结果。

在这篇综述中,我们试图提供一个关于ML与物理学的不同交集的连贯选择的说明。具体来说,我们研究了ML近期在众多领域中的广泛应用(从统计和量子物理学到高能和宇宙学),并讨论了在不同情况下“智能”数据挖掘技术的潜在应用和挑战。我们从 第Ⅱ部分的统计物理学领域 开始本次回顾,在该节中,与机器学习的交互已有很长的历史,它利用物理学中的方法来更好地理解机器学习中的问题。然后,我们将方向转向使用机器学习进行物理学的另一个方向。第Ⅲ节介绍了 高能物理和宇宙学领域 的进展,第Ⅳ节回顾了 机器学习思想如何帮助理解多体量子系统的奥秘,第Ⅴ节简述了在 量子计算中机器学习的前景,在第Ⅵ节中 ,我们重点介绍由于 ML应用而在计算化学和材料设计方面 取得的一些令人惊奇的进步。在第Ⅶ节中,我们讨论了一些 仪器仪表方面 的进展,这些进展可能会导致适用于执行机器学习任务的硬件。第Ⅷ节给出了一些相关的展望。

A. 机器学习相关概念

出于综述的目的,我们将简要解释机器学习中使用的一些基本术语和概念。为了进一步阅读,我们提供了一些参考文献,其中一些资源特别针对物理读者。对于该领域的发展历史回顾,我们推荐参考文献(LeCun等人,2015;Schmidhuber,2014)。(Mehta等,2018)是物理学家最近对机器学习的出色介绍其中包括具有实践示范的示例。Florian Marquardt的物理学家的机器学习课程是一个非常有用的在线资源(https://machine-learning-for-physicists.org/)。机器学习研究人员撰写的有用教科书如Christopher Bishop的标准教科书(Bishop,2006),以及(Goodfellow等人,2016)的《深度学习》,该书侧重于深度学习的理论和基础,并涵盖了当今研究的许多方面。各种在线教程和讲座对于获得基本概述和开始该主题很有用。

要了解1980年代至1990年代在神经网络统计物理学方面取得的理论进展,我们推荐一本比较易读的书《统计力学》(Engel和Van den Broeck,2001年)。要了解统计物理中重复试验方法的详细信息及其在计算机科学,信息论和机器学习中的应用,我们将推荐《 Nishimori》(Nishimori,2001年)一书。对于最新的统计物理学方法论,梅扎德和蒙塔纳里的教科书是一个很好的参考书(梅扎德和蒙塔纳里,2009年)。

为了对机器学习能够解决的问题类型有一个基本的了解,定义三个大类的学习问题很有用:监督学习,无监督学习和强化学习。这也将使我们能够陈述基本术语,构建基本设备以解释一些机器学习的基本工具。

1.监督学习和神经网络( Supervised learning and neural networks)

在监督学习中,我们得到了一组n 个数据样本,让我们表示一个这样的样本X_mu in mathbb{R}^p ,其中mu=1,dots,n 。为了具体起见,每个X_mu 可能是动物的黑白照片,而像素数是p 。对于每个样本X_mu ,我们进一步得到标记y_mu in mathbb{R}^d ,最常见的是d = 1 。标签可以编码例如照片上的动物种类。监督学习的目的是找到一个函数f ,以便在没有标签的情况下呈现新样本X_{new} 时,函数f(X_{new}) 的输出很好地逼近标签。数据集{X_mu,y_mu}_{mu=1}^{n} 被称为训练集。为了测试结果函数f ,通常将可用数据样本分为用于学习该函数的训练集和用于评估性能的测试集。现在让我们描述最常用的找合适函数f 的训练过程。最常见的是,该函数用一组参数表示,称为权重w in mathbb{R}^k ,得到f(w) 。然后对一个样本µ构造一个所谓的损失函数mathcal{L}[f_w(X_mu),y_mu] ,让损失函数取最小值,就得到预测标签与实际标签越相近。然后将训练集上的损失平均值称为经验值   

  risk quad mathcal{R}(f_w) = sum_{mu=1}^n mathcal{L}[f_w(X_mu),y_mu] /n.   

在训练过程中,调整权重以便最大程度地减少经验风险。训练误差衡量了这种最小化的效果。最重要的错误概念是泛化错误,与在训练集中未发现的数据样本的预测标签的性能有关。在应用中,通常的做法是通过随机选择一部分可用数据来构建测试集,然后使用剩余部分作为训练集来进行训练。我们注意到,在文献的一部分中,泛化误差是测试集的性能与训练集的性能之间的差异。

最常用的使权重上的经验风险函数最小化的算法是基于权重的梯度下降。这意味着权重在经验风险梯度的方向上进行迭代调整

w^{t 1} = w^t - gamma nabla_w mathcal{R}(f_w). quad (1)

执行该速率的参数称为学习速率。梯度下降的一个非常常用且成功的变体是随机梯度下降( stochastic gradient descent,SGD),其中,全部经验风险函数都被少量样本的贡献所代替。样本的这个子集称为微型批次(mini-batch ) ,可以小到单个样本。用物理学的术语来说,SGD算法经常与有限温度下的 Langevin动力学进行比较。零温度下的Langevin动力学是梯度下降的。正温度会引入热噪声,在某种程度上类似于SGD产生的热噪声,但与其他噪声不同。在实践中使用了SGD算法的许多变体。权重的初始化在实践中可能会改变性能,学习速率的选择和各种所谓的正则化项也可能会改变,例如权重衰减会对权重趋于收敛到较大的绝对值的权重进行惩罚。选择好的算法很重要,有很多启发式经验法则,当然希望有更多关于该问题的理论见解

监督学习任务的一个典型示例是分类,即当标签取离散集合中的值,然后所谓的准确性被测量为所学习函数对数据点进行正确分类的概率。另一个示例是回归,其目标是学习实值函数,并且通常根据真实标签与其获悉的估计值之间的均方误差来衡量准确性。其他示例是序列到序列学习,其中输入和标签都是维数大于一的向量。

有许多监督学习的方法,每种方法都有许多变体。最基本的监督学习方法之一是广泛使用的线性回归,其中函数的参数形式为,其中。当数据集取自高维空间中并且样本数量不比维度大很多时,必不可少使用线性回归的正则化形式(称为岭回归或Tikhonov正则化)。岭回归(ridge regression )在形式上等同于假设权重具有高斯先验。参数化的线性回归的一般形式也经常使用,其中是某些输出通道函数,其性质在第II.D.1节中描述。另一种流行的正则化方法是基于在分类任务中分离示例,以使它们之间的类别被尽可能宽的明显间隙分开。这个想法支持所谓的支持向量机方法的定义。岭回归的一种相当强大的非参数概括是内核岭回归。核岭回归与高斯过程回归密切相关。支持向量机方法通常与内核方法结合使用,因此在许多应用程序中仍然是最先进的方法,尤其是在可用样本数量不是很大的情况下。

另一种经典的监督学习方法是基于所谓的决策树。决策树用于从对数据样本的观察(在分支中表示)到关于项目目标值(在叶子中表示)的结论。决策树在物理科学中最著名的应用是在粒子加速器的数据分析中,如第 III.B.节所述。

过去十年机器学习革命背后的监督学习方法是多层前馈神经网络(FFNN),有时也称为多层感知器。对于本次综述而言,这也是一种非常相关的方法,在此我们将对其进行简要介绍。在层全连接的神经网络中,函数的参数设置如下

f_w(X_mu) = g^{(L)}(W^{(L)}dots g^{(2)}(W^{(2)}g^{(1)}(W^{(1)}X_mu))), quad (2)

其中。,其中,为权重矩阵。对于, 表示第个隐含层的宽度。函数是所谓的激活函数,它们分别对向量起作用。我们注意到激活函数中的输入是前一层的输出的十个稍微更通用的变换,它们仅对矩阵乘法进行矩阵运算,例如偏差。层数称为网络的深度。深度大于某个小整数的神经网络称为深度神经网络。随后,基于深度神经网络的机器学习称为深度学习

神经网络理论告诉我们,没有隐藏层(,对应于广义线性回归),可以用这种方式近似的函数集非常有限(Minsky和Papert,1969)。另一方面,已经有一个隐藏层,它足够宽,即足够大,并且在函数是非线性的情况下,原则上可以很好地近似一类非常普通的函数( Cybenko,1989年)。但是,这些理论并未告诉我们怎样更有效地学习的最佳参数集(激活函数,层的宽度和深度) 。从过去十年的经验成功中我们知道,使用梯度下降或SGD算法的深层神经网络可以处理许多令人感兴趣的任务。在深度神经网络中,使用链规则来计算权重的导数,从而导致著名的反向传播算法,该算法可以有效地调度计算所有梯度所需的运算(Goodfellow等,2016)。

(深度)前馈神经网络的一个非常重要且功能强大的变体是所谓的卷积神经网络(Goodfellowet等人,2016),其中,通过应用于输入空间的一小部分的过滤器,可以将每个隐藏单元的输入信息获取。然后将过滤器移至与不同隐藏单元相对应的不同位置。卷积神经网络实现转换的不变性,尤其适合图像分析。与完全连接的神经网络相比,卷积神经网络的每一层参数数量要少得多,这在实践中有利于学习算法。卷积神经网络的类型和方差很多,其中我们将提到残差神经网络(ResNets) 使用快捷方式跳过某些层。前馈神经网络相近的是所谓的递归神经网络(RNN) ,其中单元的输出在下一个时间步中在输入端进行反馈。因此,在RNN中,结果是由一组权重给出的,但也由状态的整个时间序列给出的。由于其固有的动力学性质,RNN特别适合于学习时间数据集,例如语音,语言和时间序列。同样,RNN上有很多类型和变体,但是在过去十年中引起人们最大兴奋的是可以说的长短期记忆(LSTM)网络(Hochreiter和Schmidhuber,1997)。LSTM及其深层变体是语音处理,音乐创作和自然语言处理等任务中的最新技术。

2.无监督学习和生成建模

无监督学习是一类学习问题,其中获得的数据与有监督学习一样,但是没有标签可用。此处学习的目标是恢复数据集中的一些基础(可能是非平凡的)结构。无监督学习的一个典型示例是数据聚类,其中将数据点按组分配,这样每个组都具有一些共同的属性。在无监督学习中,人们通常会寻找一种概率分布,该概率分布会生成与观察到的数据样本在统计上相似的样本,这通常被称为生成建模。在某些情况下,此概率分布以显式形式编写,并显式或隐式参数化。生成模型内部包含潜在变量作为随机性的来源。当潜在变量的数量远小于数据的维数时,我们称之为维数缩减。进行无监督学习的一种方法是搜索潜在变量的值,以使观察到的数据的可能性最大化。

在一系列应用中,与所观察到的数据相关的可能性未知,或者计算起来本身很难。在这种情况下,下面讨论的某些生成模型会采用替代的无可能性路径。在第III.D节中,我们还将讨论所谓的ABC方法,它是一种无可能性的推断,并且在物理学中出现的许多情况下被证明非常有用。

无监督学习的基本方法包括主成分分析(PCA)及其变体。我们将在第II.C.1节中介绍使用物理学获得的有关这些方法的一些理论见解。物理上非常吸引人的无监督学习方法是所谓的玻尔兹曼机(BM) 。BM基本上是反伊辛模型,其中数据样本被视为来自成对相互作用的伊辛模型的Boltzmann分布的样本。目的是了解相互作用和磁场的值,以便观察到的数据的可能性(以玻耳兹曼度量的概率)很大。受限玻尔兹曼机(RBM) 是BM的一种特殊情况,其中两种变量-可见的单位(可看到输入数据)和隐藏的单位通过有效耦合相互作用。在这种情况下,仅在可见和隐藏单元之间进行交互,并再次进行调整,以使观察到的数据的可能性较大。考虑到对物理模型的吸引人的解释,BM和RBM的应用在几个物理领域中得到了广泛的应用,例如在IV.A节中。

自动编码器是执行非监督学习但能够 使用监督学习开发 的所有方法和算法的一个非常巧妙的想法。自动编码器是一种前馈神经网络,其输入数据既在输入上,又在输出上。在某些中间层与数据维数相比具有非常小的宽度的意义上,其目的是在通常遇到瓶颈的同时重现数据。当时的想法是,自动编码器旨在找到一种简洁的数据表示形式,该数据仍保持每个样本的显着特征。变分自动编码器(VAE) (Kingma and Welling,2013; Rezende等人,2014)结合变分推理和自动编码器为数据提供了一个深层的生成模型,可以以无监督的方式对其进行训练。

值得一提的另一种无监督学习方法是对抗生成网络(GAN) (Goodfellow 等人,2014)。GAN在过去的几年中引起了广泛的关注,并且构成了另一种富有成效的方式,可以利用在有监督学习的过程中取得的进展来进行无监督学习。GAN通常使用两个前馈神经网络,一个称为生成器,另一个称为鉴别器。生成器网络用于从随机输入生成输出,并经过设计,以使输出看起来像观察到的样本。鉴别器网络用于区分真实数据样本和生成器网络生成的样本。鉴别器的目标是在此分类任务中实现尽可能最高的准确性,而调整生成网络以使鉴别器的准确性尽可能最小。GAN当前是用于图像处理中许多应用程序的最先进系统。

建模分布的其他有趣方法包括对流量和自回归模型进行归一化,其优势在于具有可控制的可能性,因此可以通过最大的可能性进行训练(Larochelle和Murray,2011; Papamakarios等,2017; Uria等,2016)。

在应用中重要的监督学习和非监督学习之间的混合包括半监督学习(其中只有一些标签可用)或主动学习(其中可以以一定成本为一组选定的数据点获取标签)。

3.强化学习

强化学习(Sutton and Barto,2018)是机器学习的一个领域,其中(人工)代理人在环境中采取行动以达到最大回报的目的。该动作以某种方式改变环境状态,并且代理通常观察到一些有关环境状态和相应奖励的信息。根据这些观察,代理决定下一个动作,从而优化选择哪个动作的策略,以最大程度地提高回报。这种学习方式设计用于以下情况:了解环境属性的唯一方法是与环境进行交互。强化学习中的一个关键概念是,在迄今发现的良好策略的利用与探索之间寻求最佳的策略。我们还应该注意,强化学习与控制理论的领域密切相关,特别是最优控制理论

在许多作品中应用的强化学习的主要类型之一是所谓的Q学习。Q学习基于值矩阵Q,该值矩阵在环境处于给定状态时分配给定动作的质量。然后迭代地精炼该值函数Q。在Q学习的最新高级应用中,状态和动作的集合是如此之大,以至于甚至无法存储整个矩阵Q。在那些情况下,使用深度前馈神经网络以简洁的方式表示功能。这引起了深入的Q学习。

强化学习成功的最著名的最近例子是计算机程序AlphaGo和AlphaGo Zero,这在历史上第一次在传统的棋盘游戏中达到了超人的表现。强化学习的另一个众所周知的用途是机器人的运动

Ⅱ.统计物理

A.发展历史

虽然机器学习作为物理学研究的一种广泛使用的工具是一个相对较新的现象,但两个学科之间的交叉应用可以追溯到很远的时期。尤其是统计物理学家为我们对学习的理论理解做出了重要贡献(正如“统计学”一词无疑暗示的那样)。

当从示例中进行统计学习接管了基于逻辑和规则的AI时,统计力学与学习理论之间的联系就开始了,这是在1980年代中期。两篇开创性的论文标志着这种转变,Valiant的可学习理论(Valiant,1984年)为AI进行严格的统计学习开辟了道路,Hopfield的联想记忆神经网络模型(Hopfield,1982年)激发了概念的广泛应用 ,从旋转玻璃理论到神经网络模型。这一点由Amit,Gutfreund和Sompolinsky(Amit等人,1985年)对Hopfield模型的存储容量计算以及随后的工作进行了见证。伊丽莎白·加德纳(Elizabeth Gardner)的开创性工作在学习模型上进行了更为严格的应用,他利用重复实验的技巧(Gardner,1987,1988)为有监督和无监督学习模型计算了简单前馈神经网络的权重空间中的体积。

Gardner的方法能够明确地计算学习曲线,即典型的训练和泛化误差与训练样本数量的函数,非常特殊的锥度和两层神经网络(Györgyi和Tishby,1990;Seung等,1992a;Sompolinsky等,1990)。这些分析性的统计物理学计算表明,学习动态可以表现出比最坏情况下的自由PAC边界所预测的行为更为丰富的行为(PAC表示可证明是近似正确的)(Valiant,1984年)。特别地,学习可以表现出从不良到良好概括的阶段性转变(Györgyi,1990)。如各种模型所示,这种 丰富的学习动力和曲线可能会出现在许多机器学习问题中,请参见例如 最近的综述(Zdeborová和Krzakala,2016年)。学习统计物理学在1990年代初达到顶峰,但对机器学习从业者和理论家的影响较小,他们专注于与输入分配无关的一般性广义界限,其特征是:假设类别的Vapnik-Chervonenkis维数(VC维)或Rademacher复杂度。

B.深度学习中的理论难题

在新千年中,机器学习的特征是更大范围的学习问题,其中输入/模式的训练数据的尺度和可调整参数的数量从数百个变为数百万个。大规模前馈神经网络模型的回归,以及具有更多隐藏层的深度神经网络模型,得到了极大的证明。这些深度神经网络本质上与80年代已经提出的前馈卷积神经网络相同。但是不知何故,由于有了更大规模的输入和庞大而干净有效的训练数据(以及更多的技巧和黑客手段),大约 2010年及以后,这些网络在许多不同的模式识别和其他机器学习竞赛中开始击败最新技术。深度学习的惊人性能,采用相同的随机梯度下降(SGD)错误反向传播算法进行训练,使每个人都感到惊讶。

困惑之一是,现有的学习理论(基于最坏情况的类似PAC的泛化界限)无法解释这种惊人的成功。现有理论无法预测为什么可调整参数/权重的数量/维数远高于训练样本数量的深层网络具有良好的泛化特性。如今,在一篇经典文章中(Zhang等人,2016年)弥补了这种理论上的不足,作者在数字上证明了用于分类的最新神经网络能够对完全随机生成的标签进行分类。在这种情况下,现有的学习理论不能对泛化误差提供任何有用的限制。然而实际上,当在真实标签上训练时,我们观察到了相同深度神经网络的良好概括。

继续讨论未解决的问题,我们对哪些学习问题在计算上是可以解决的没有很好的理解。这一点特别重要,因为从计算复杂性理论的角度来看,在最坏的情况下,我们遇到的大多数学习问题都是NP难题。当前深度学习的另一个关键问题是关于超参数和体系结构的选择,到目前为止,超参数和网络结构的选择是由大量的反复试验和研究人员令人印象深刻的经验共同指导的。在ML的应用扩展到许多领域的同时,该领域也要求采用更加系统化和基于理论的方法。在当前的深度学习中,基本问题(例如,为了能够以良好的精度学习给定任务而需要的最小样本数是多少)是完全开放的。

同时,有关深度学习的最新研究充斥着有趣的数值观察和需要解释的实验。对于物理学的听众来说,可以将这种情况与量子力学刚刚发展之初的基础小规模物理学的最新水平进行比较。该领域充满了无法解释的实验,正在逃避现有的理论理解。显然,这是一些物理学思想研究神经网络以复活和重新审视机器学习中当前存在的问题和方向的最佳时机。

鉴于统计物理学中神经网络研究的悠久历史,我们不会针对这一研究方向进行全面综述。我们将选择性地关注物理学方面的最新贡献,我们认为这些贡献对当前的学习和机器学习理论具有重要影响。出于本次综述的目的,我们还搁置了在统计物理学中针对循环神经网络的大量工作,并考虑到了生物学应用。

B.无监督学习中的统计物理

1.有助于理解基本的无监督方法

跨学科无监督学习的最基本工具之一是 基于观察到的数据矩阵的低秩分解的方法。数据聚类、主成分分析(PCA)、独立成分分析(ICA) 、矩阵完成和其他方法是此类中的示例。

在数学语言中,低秩矩阵分解问题表示如下:我们观察到个维数据的样本,。低秩分解方法的基本思想表示为数据的矩阵,它假定(或的某些分量函数)可以写为带有噪声的秩为的矩阵样本,其中,即秩远低于维数和样本数,因此名称为低秩。一个特别具有挑战性但又相关且有趣的机制是,当维数可与样本数量相比较时,并且当噪声水平很大时,无法对信号进行完美估计。事实证明,可以将高维噪声状态下的低秩矩阵估计建模为具有维矢量变量和特殊构造的自旋玻璃的统计物理模型。具体而言,可以在师生情景中定义该模型,在该情景中,教师根据给定的概率分布生成三维潜在变量,, 从给定的概率分布取维潜变量,。然后,教师根据某些给定的条件概率分布生成数据矩阵的分量。然后,学生的目标是从和分布,,的知识中尽可能精确地恢复潜变量和。

自旋玻璃理论可用于在极限,,,的情况下获得对低秩矩阵估计的师生模型的完全理解。人们可以用复制法计算出在理论上估计和的最佳信息误差,这是学生可能达到的,因为在(Barkai and Sompolinsky,1994; Biehl and Mietzner, 1993;沃特金和纳达尔, 1994)这些关于物理学的早期工作的重要性在有关统计学的一些里程碑式的论文中得到了认可,例如 (Johnstone and Lu,2009)。但是,由于缺乏数学上的严格性以及对算法可处理性的理解有限,导致这些工作对机器学习和统计的影响仍然有限。

对统计物理方法进行低秩矩阵分解的兴趣的复活来自对稀疏网络中的集群/社区进行检测的随机块模型的研究。在统计物理学中,对启发式算法和算法进行了广泛的研究,对社区检测问题进行了研究(Fortunato,2010年)。然而,随机块模型的精确解和对算法局限性的理解来自(Decelle等,2011a,b)中的自旋玻璃理论。这些工作(非严格地)计算了渐近最优性能,并通过置信传播(belief propagation ,BP)算法(Yedidia等人,2003)清晰地界定了可达到此性能的参数区域。模型中出现的二阶相变与可以通过BP有效地进行聚类的区域相分离,在该阶段聚类不能比通过随机猜测更好地进行。然后,一阶相变及其旋节线之一将区域分开,在该区域不可能进行聚类,使用BP算法可能但不能进行聚类,而使用BP算法则容易进行聚类。参考(Decelle等,2011a,b)还推测,当BP算法无法在模型的大型实例上达到最佳性能时,则其他多项式算法都将无法实现。这些作品吸引了数学,统计学,机器学习和计算机科学界的大量后续工作。

随机块模型的统计物理学理解以及关于置信传播算法在所有多项式中都是最优的猜想,激发了发现稀疏数据(即当矩阵稀疏时)的一类新的光谱算法的发现(Krzakala等人, 2013b)。频谱算法是基于矩阵或函数的奇异值分解的数据分析的基本工具(Ng等,2002; Von Luxburg,2007)。但是对于稀疏矩阵,已知频谱具有领先的奇异值,而局部奇异矢量与潜在的基础结构无关。通过将置信度传播线性化,可以获得更鲁棒的光谱方法,从而获得了所谓的非回溯矩阵(Krzakala等人,2013b)。基于Bethe自由能的Hessian的算法解释的这种光谱方法的变体也起源于物理学(Saade等,2014)。

这一由统计物理学启发的研究领域正在成为统计学和机器学习的主流。这很大程度上要归功于以下方面的最新进展:(a)通过对近似消息传递(analysis of approximate message passing,AMP)算法的分析,我们对算法的局限性有所了解(Bolthausen,2014;Deshpande和Montanari,2014;Javanmard和Montanari,2013;Matsushita和Tanaka (2013年;Rangan和Fletcher,2012年)进行低秩矩阵估计,该矩阵是Thouless-Anderson-Palmer方程(Thouless等人,1977年)的推广,在旋转玻璃上的物理文学中广为人知。(b)以数学上严格的方式证明许多相应结果的进展。这方面的一些有影响力的论文(与低秩矩阵估计有关)(Barbieret等人,2016; Coja-Oghlan等人,2018; DeshpandeandMontanari,2014; Lelargeand Miolane,2016)证明了该公式在复制信息理论上的最佳性能。

2.受限玻尔兹曼机

Boltzmann机器和特别是受限的Boltzmann机器是机器学习中经常使用的另一种无监督学习方法。从方法的名称可以明显看出,它与统计物理学有很强的联系。的确,玻尔兹曼机在物理学研究中通常被称为伊辛逆模型,并在一定范围内广泛使用,有关玻尔兹曼机的最新研究见(Nguyen等,2017)。

关于受限玻尔兹曼机器,物理学上有许多研究阐明了这些机器如何工作以及可以学习什么结构。在(Cocco 等,2018; Tubiana and Monasson,2017)中研究了随机受限的Boltzmann机器模型,在该模型中权重被施加为随机且稀疏且未学习。相对于隐藏单元上的一系列潜力而言,这项工作显着地揭示了即使单层RBM也能够表示成分结构。这项工作最近被用于根据其序列信息对蛋白质家族进行建模(Tubiana等人,2018)。对RBM学习过程的分析研究极具挑战性,这通常是使用基于Gibbs抽样的对比散度算法完成的(Hinton,2002年)。在学习过程的开始阶段(Decelle等。,2017)中研究了第一步,其中可以使动力学线性化。统计物理学的另一个有趣方向是用 Thouless-Anderson-Palmer方程(Thouless等,1977)代替对比发散训练算法中的吉布斯采样。这已经在(Gabrié等,2015; Tramel等,2018)中完成,其中证明了这种训练具有竞争力,并讨论了该方法的应用。带有随机权重的RBM及其与Hopfield模型的关系在(Barra 等,2018;Mézard,2017)中得到了证实。

3.现代无监督学习与生成模型

深度学习的曙光为无人监督和生成模型学习带来了令人兴奋的创新。例如,一些经典和较新概念的物理友好概述(Wang,2018)。

具有线性激活功能的自动编码器与PCA密切相关。变分自动编码器(VAE)(Kingma and Welling,2013; Rezende 等,2014)是更接近物理学家思维模式的变体,其中自动编码器通过图形模型表示,并使用先验的潜变量和变分进行训练推理。具有单个隐藏层的VAE与信号处理中其他广泛使用的技术(例如字典学习和稀疏编码)紧密相关。字典学习问题已通过统计物理技术进行了研究(Kabashima等人,2016; Krzakala等人,2013a; Sakata和Kabashima,2013)。

生成对抗网络(GANs) –(Goodfellow 等人,2014)的工作中出现了一组强大的想法,旨在生成与训练集中类型相同的样本(例如,酒店客房的图像)。以物理为灵感的GAN研究开始出现,例如 (Wang等人,2018)对GAN的可解模型所做的工作是对感知器中在线学习的早期统计物理学工作的有趣概括。

我们还想让读者注意自回归生成模型(Larochelle和Murray,2011; Papamakarios等,2017; Uria等,2016)。自回归模型的主要思想来自于以下事实:它们是显式概率模型的一个家族,为此可以进行直接和无偏采样。这些模型的应用已经实现了统计学(Wu等人,2018)和量子物理学问题(Sharir等人,2019)。

D.监督学习中的统计物理学

1.感知器和GLM

可以说,监督学习最基本的方法是线性回归,其中的一个目的是找到一个系数的向量,以使其与数据点的标量积对应于所观察到的标签。这通常通过最小二乘法来解决,其中在上取最小值。在贝叶斯语言中,最小二乘法对应于假设高斯相加噪声,因此。在高维度设置中,使用权重的正则化几乎总是必不可少的。在贝叶斯中,最常见的岭正则化可以解释为对权重作高斯先验假设。可以通过假设一般先验和由条件概率分布表示的一般噪声来概括这种概率思想。所得模型称为广义线性回归或广义线性模型(generalized linear model,GLM)。数据分析和学习中感兴趣的许多其他问题可以表示为GLM。例如,稀疏回归仅要求在零上具有大权重,对于阈值为的感知器,输出具有特殊形式 。用神经网络的语言,GLM表示单层(无隐藏变量)完全连接的前馈网络。

对于一般的噪声/激活通道,统计中的传统理论不适用于非常有限的数据体制,在这种情况下,维数和样本数都变大,而它们的比率仍然是固定的。基本问题如下:最佳可得的泛化误差如何取决于样本数,仍然是未知数。然而,与该方案和相关的问题引起了极大的兴趣,并且在GLM的背景下很好地理解它们似乎是了解更多相关问题的前提,例如深度学习方法。

通过考虑将数据视为随机独立的均匀分布(iid)矩阵,并对在教师环境中创建的标签进行建模,可以使用统计物理方法来获得有关高维GLM的特定结果。教师生成权重为的实验真向量,以使。然后,教师使用此向量和数据矩阵生成从中提取的标签。然后,学生知道,,和,并应该学习老师使用的规则,即理想情况下学习。随着样本数量的变化,这种具有随机输入数据的设置已经为问题的算法可处理性提供了有趣的见解。

这方面的工作是由 Elisabeth Gardner(Gardner and Derrida,1989)所开创的,并且在过去对和的特殊情况进行了积极的物理学研究,例如 (Györgyi和Tishby,1990;Seung等,1992a;Sompolinsky等,1990)。复制方法可用于计算该师生模型中和之间的互信息,这与物理学中的自由能有关。然后,可以得出向量的最佳估计误差以及最佳的泛化误差。(Barbier 等人,2019)最近取得了显着进步,已证明复制方法可以为GLM提供正确的结果,并为通用Pout和PW随机输入。将这些结果与对近似消息传递算法的分析(Javanmard和Montanari,2013年)相结合,可以推断出 AMP算法能够达到最佳性能的情况以及无法达到最佳性能的区域。在这种情况下,AMP算法被认为是所有多项式算法中最好的。因此,可以使用教师-学生模型来了解在只有非常有限数量的样本的情况下通用算法离最优性还有多远。

2.多层神经网络的物理研究结果

深度神经网络中学习和泛化属性的统计物理分析是一项艰巨的任务。在几个互补的方向上已经取得了进展。

影响力之一是涉及线性深度神经网络的研究。虽然线性神经网络不具有表示通用函数的表达能力,但梯度下降算法的学习动力学与非线性网络的学习动力学非常相似。同时,可以通过封闭形式的解决方案来描述深度线性神经网络中的学习动力学(Saxe等,2013)。线性神经网络的学习动力学也能够重现关于在非线性网络中进行数值观察的泛化和过度拟合的一系列事实,请参见(Advani and Saxe,2017)。

已经详细分析的另一种特殊情况称为 ***委员会机器(committee machine)***,有关详细内容,请参见例如 (Engel and Van den Broeck,2001)。委员会机器是一个全连接的神经网络,它在随机输入数据上学习教师规则,只学习第一层权重,而随后的权重则固定下来。该理论被限制在这样的极限上,即隐藏神经元的数量,而输入的维数和样本数量都发散,其中。随机梯度下降学习(在线学习)(Saad和Solla,1995a,b)和最佳批量学习泛化误差都可以在这种情况下以封闭形式进行分析(Schwarze,1993)。最近,已经严格建立了最佳泛化特性的副本分析(Aubinet等,2018)。委员会机器的关键特征是它显示了所谓的专业化阶段过渡。当样本数量较少时,通过对每个隐藏单元都相同的权重配置来实现最佳误差,从而有效地实现了简单的回归。只有当隐藏单元的数量超过专业化阈值时,不同的隐藏单元才能学习到不同的权重,从而改善了泛化误差。关于委员会机器的另一个有趣的观察结果是,随着潜在单元数量的增加,从理论上讲可以很好地实现一般性的信息,但是在处理上却难于把握的困难阶段变得更大。委员会机器还用于分析神经网络中过度参数化的后果(Gold等人,2019a,b)。

最近的一系列工作分析了两层神经网络的另一个显著局限性(Mei等人,2018年; Rotsko Rot和Vanden-Eijnden,2018年)。在这些工作中,对网络进行了限制,其中隐藏单元的数量很大,而输入的维数则固定不变。在这个极限范围内,权重之间的相互作用很小(导致平均场) ,并且它们的演化可以通过类似于玻璃系统研究的普通差分方程来追踪(Dean,1996)。当隐藏层较大时,对极限的一种相关但不同的处理是基于围绕初始条件的动力学线性化,从而导致与高斯过程和核方法的关系,例如 (Jacot等人,2018; Lee等人,2018)

3.信息瓶颈

信息瓶颈(Tishby等人,2000年)是统计物理学中衍生出的另一个概念,它在寻求理解深度学习成功背后的理论方面具有重要意义。深度学习的信息瓶颈理论(Shwartz-Ziv和Tishby,2017; Tishby和Zaslavsky,2015)旨在量化神经网络中的各层在保持有关输入的足够信息以至于输出标签之间进行交易的概念可以进行预测,同时获取尽可能多的不必要信息,以使学习的表示保持简洁。

信息理论分析的有趣结果之一是,网络的传统容量或表达性维度(例如VC维度)被输入和压缩隐藏层表示之间的互信息指数所取代。这意味着表示压缩的每一位等效于训练数据对泛化误差的影响加倍。

(Shwartz-Ziv and Tishby,2017)的分析还表明,这种表示压缩是通过随机梯度下降(SGD)通过在相关维数软问题中的扩散实现的。据此,通过权重的分散,通过逐层降低不相关尺寸的SNR,可以实现任何单位非线性的压缩。对这种见解的一个有趣的预测是,收敛到良好的泛化尺度的时间是层数的负幂定律。该理论还预测了隐藏层与信息瓶颈表示的分叉或相变之间的联系。

尽管内部表示的互信息本质上很难直接在大型神经网络中进行计算,但上述预测均不依赖于互信息值的显式估计。

统计物理学中的相关工作旨在提供可靠的可伸缩近似值和模型,其中互信息易于处理。互信息可以在线性网络中精确计算(Saxe等,2018)。它可以在神经网络模型中可靠地近似,其中在学习权重矩阵足够接近旋转不变性之后,然后在复制理论中加以利用以计算所需的互信息(Gabrié等,2018)。

4.深度学习的场景和复杂性( Landscapes and glassiness of deep learning)

训练深度神经网络通常是通过损失函数的非凸态下的随机梯度下降(SGD) 来完成的。统计物理学在研究复杂的能源格局及其与动力学行为的关系方面具有长期的经验。梯度下降算法与Langevin 动力学密切相关,后者在物理学中经常被考虑。一些物理学启发的作品(Choromanska等人,2015)广受欢迎,但在探索这种类比时有些天真。

关于玻动力与深度神经网络学习之间关系的有趣见解在(Baity-Jesi 等,2018)中提出。尤其要强调的是,过度参数化在使景观看起来不那么玻璃化的过程中起到了作用,并且与参数化不足的网络形成了对比。(Baldassi等,2016,2015)探索了将神经网络中的学习与景观特性相关联的另一项有趣的工作。这项工作基于以下认识:在二元感知器的简单模型中,学习动力学以具有许多低损耗近距离配置的权重空间的一部分结束。它继续表明学习在权重空间中偏爱这些较宽的部分,并认为这可以解释为什么算法被广泛的局部极小吸引,以及为什么这样做会提高其泛化特性。这个理论的一个有趣的衍生是(Chaudhari 等,2016)提出的随机梯度下降算法的变体。

E.机器学习在统计物理中的应用

当理论物理学的研究人员遇到深度神经网络时,早期的层正在学习比后面的层更精细的尺度来表示输入数据,她立即考虑物理学中的重正化群,以便从微观规则中提取宏观规律。例如(Bény,2013年;Mehta和Schwab,2014年)对此类比进行了探索。(Bradde and Bialek,2017)报告了重归一化组与主成分分析之间的类比。

一个自然的想法是 使用神经网络来学习新的重正化方案。对此方向的首次尝试出现在(Koch-Janusz和Ringel,2018; Li and Wang,2018)中。但是,这是否会导致先前尚不为人所知的模型带来新的物理发现还有待观察。

相变是物质不同相之间的边界。它们通常使用顺序参数确定。在某些系统中,如何确定适当的顺序参数尚无先验。一个自然的想法是,神经网络无需先验的物理知识就可以学习适当的阶次参数并定位相变。这个想法在(Carrasquilla and Melko,2017; Morningstar and Melko,2018; Tanaka and Tomiya,2017a; Van Nieuwenburg等,2017)中进行了探索,使用了一系列模型,这些模型使用从感兴趣模型中统一采样的配置(使用Monte方法获得) 在不同的阶段或在不同的温度下使用Carlo学习),并使用监督学习对配置进行分类。扩展到训练集中未使用的配置可能导致确定研究模型中的相变。这些通用指导原则已在许多应用中用于分析合成数据和实验数据。IV.C节详细介绍了多体量子物理学中的特定情况。

在识别以前未知的阶跃参数方面,以及对它们是否能够可靠地区分真正的热力学相变和仅仅是交叉现象,尚需进一步详细了解这些方法的局限性。在(Mehta 等,2018)中对Ising模型进行的实验提供了有关该方向的一些初步想法。在(Kashiwa等,2019)中讨论了一些潜在的机制。在(Greitemann等,2019; Liu等,2019)中引入并研究了 基于内核的学习方法,该方法用于学习受挫磁性材料中的相,该方法更易于解释并且能够识别复杂的阶次参数。

还研究了有序的玻璃状固体,其中阶数参数的识别特别具有挑战性。特别是(Nussinov等,2016;Ronhovde等,2011)使用多尺度网络聚类方法来识别眼镜的空间和时空结构(Cubuk等,2015),学会识别结构流缺陷,(Schoenholz等,2017)认为要确定一个参数,该参数可以捕获无序系统的历史依赖关系。

为了超越监督学习的局限性来进行阶段分类和确定阶段过渡,目前正在探索无监督学习的几个方向。例如,在(Wetzel,2017)中用于Ising和模型,在(Wang and Zhai,2017,2018)中用于沮丧的自旋系统(frustrated spin systems)。(Martiniani等,2019)的工作探索了从简单压缩基本配置中识别阶段的方向。

机器学习还提供了令人兴奋的工具集,用于研究,预测和控制非线性动力系统。例如(Pathak等,2018,2017)使用称为回波状态网络的循环神经网络或储层计算机(Jaeger and Haas,2004)来预测混沌动力学系统的轨迹和用于天气预报的模型。(Reddy等人,2016,2018)的作者使用强化学习来教授自主滑翔机,利用大气中的热量来使滑翔机像鸟一样飞翔。

F.展望与挑战

这里描述的统计物理学方法在处理高维数据集和模型方面非常强大。传统学习理论与统计物理学理论之间的最大区别在于,后者通常基于虚构的数据生成模型。从某种意义上说,这可以得出可求解的模型,可以以封闭的形式(包括常数项)来计算感兴趣的数量(例如,可以实现的误差)。这与主流学习理论中的目的相反,后者旨在在对设置(数据结构或体系结构)的一般假设下提供错误的最坏情况界限。这两种方法是相辅相成的,一旦我们了解了实际情况接近于最坏情况的关键条件以及现实数据和功能的正确模型是什么,理想的情况是将来会遇到。

统计物理方法的下一个挑战是公式化和求解模型,这些模型属于感兴趣的实际设置的某种通用性类别。这意味着它们再现了在神经网络的实际应用中观察到的行为的所有重要方面。为此,我们不再需要将输入数据建模为iid向量,而是将其建模为生成神经网络的输出(如Gabrié等人,2018年),或将其作为感知流形(如Chung等人,2018年) 。生成标签的教师网络(在有监督的设置中)需要适当地对数据中的结构与标签之间的相关性进行建模。我们需要找出如何分析(随机)梯度下降算法及其相关变量。在这个方向上有希望的工作是依赖于眼镜的动态均场理论的(Mannelli 等,2018,2019)。我们需要将现有方法推广到具有广泛隐藏层宽度的多层网络。

回到将机器学习用于物理学的方向,机器学习在非线性动力系统和统计物理学研究中的全部潜力尚未发现。前面提到的这些工作无疑提供了令人兴奋的开胃菜。

0 人点赞