这是2019年12月6日发表在顶级期刊《现代物理评论》上的综述文章“Machine learning and the physical sciences”。作者为Giuseppe Carleo ,Ignacio Cirac等 。 翻译:Wendy 翻译稿链接:https://blog.csdn.net/Wendy_WHY_123/article/details/104825788
Ⅲ.粒子物理与宇宙学
从正在进行中的有计划的实验中,有各种各样的组合可以很好地探索宇宙,从难以想象的小基本粒子世界到令人敬畏的宇宙规模。诸如大型强子对撞机(Large Hadron Collider,LHC)和大型天气观测望远镜(Large Synoptic Survey Telescope ,LSST)之类的实验可提供大量数据,可与特定理论模型的预测进行比较。这两个领域都有完善的物理模型作为基础假设:粒子物理和Lambda CDM宇宙学的标准模型,其中包括冷暗物质和宇宙常数Lambda 。有趣的是,所考虑的大多数其他假设都是在相同的理论框架中提出的,即量子场论和广义相对论。
尽管有如此敏锐的理论工具,但挑战仍然是艰巨的,因为与零值的预期偏差预计将是难以置信的微小,而揭示这种细微差别需要对复杂的实验设备进行稳健的处理。使统计推断复杂化的是,对数据的最高保真度预测不是来自简单的封闭式方程式,而是来自复杂的计算机模拟。机器学习在粒子物理学和宇宙学中掀起了一股浪潮,因为它提供了一系列技术来应对这些挑战,并提出了激发大胆新策略的新观点。令人兴奋的是,这些领域涵盖了理论和实验方面,既包括具有直接影响的应用,又包括从长远来看将发生更多变革的前景。
A.模拟的作用
在粒子物理学和宇宙学中使用机器学习的一个重要方面是使用计算机模拟来生成标记训练数据{X_mu,y_mu}^n_{mu = 1} 的样本。例如当目标y 指的是粒子类型,特定的散射过程或基础理论中出现的参数时,通常可以直接在模拟代码中指定目标y ,以便模拟直接采样Xsim p(cdot | y) 。在其他情况下,模拟不是直接以y 为条件,而是提供样本(X,Z) sim p(cdot) ,其中Z 是描述模拟内部发生的事情的潜在变量,但在实际实验中无法观察到。如果可以通过函数y(Z) 从这些潜在变量中计算出目标标签,则还可以从仿真中创建标签化的训练数据{X_mu,y_mu}^n_{mu = 1} 。使用高保真模拟生成标记的训练数据不仅是在这些领域进行监督学习的早期成功的关键,而且还是解决这种方法缺点的研究重点。
粒子物理学家已经开发出一套高保真模拟系统,这些模拟是分层构成的,用于描述各种长度尺度上的相互作用。这些模拟的组成部分包括量子域理论的费曼图解扰动展开,复杂辐射模式的现象学模型以及检测器中粒子与物质相互作用的详细模型。虽然生成的模拟具有很高的保真度,但模拟本身具有可以调整的自由参数,并且在下游分析任务中必须考虑到模拟中的残留不确定性量。
同样,宇宙学家可以使用广义相对论以及相关的物质和辐射非引力效应(在结构形成过程中变得越来越重要)来模拟不同长度尺度下的宇宙演化。与数十亿重力相互作用的大型物体的计算昂贵的N 体模拟相比,在特定的设置中可以进行大量的近似处理,从而提供了极大的加速,而一旦包含非重力反馈效应,这种模拟的花费将变得过高。
宇宙学模拟通常涉及由于原始量子波动而导致的随机初始条件的确定性演化。
N体模拟非常昂贵,因此模拟相对较少,但它们涵盖了较大的时空量,该量在统计上是各向同性的,并且在大范围内是均匀的。相反,从最初的高能散射到探测器中的低能相互作用,粒子物理模拟都是随机的。高能对撞机实验的仿真可以并行方式在硬件上运行,但是物理目标需要大量的模拟碰撞。
由于模拟在这些领域中起着至关重要的作用,因此机器学习中的许多最新研究都以一种或另一种方式与模拟相关。这些近期工作的目标是:
- 通过将领域知识直接整合到机器学习模型中来开发更具数据效率的技术;
- 将模拟中的不确定因素纳入训练过程;
- 开发可用于实际数据且不依赖模拟的弱监督程序;
- 开发异常检测算法以发现数据中的异常特征,而无需模拟特定的信号假设;
- 改善模拟的调整,重新加权或调整模拟数据以更好地匹配真实数据,或使用机器学习为模拟和真实数据之间的残差建模;
- 学习用于模拟的快速神经网络代理,该代理可用于快速生成合成数据;
- 开发有效利用模拟的近似推理技术;
- 学习可直接用于统计推断的快速神经网络代理。
B.粒子物理学中的分类和回归
机器学习技术已经在实验粒子物理学中使用了数十年,以帮助进行粒子识别和事件选择,这可以看作是分类任务。机器学习也已用于重建,可以看作是回归任务。监督学习用于基于大量标记的训练样本{X_mu,y_mu}^n_{mu = 1} 来训练预测模型,其中X 表示输入数据,y 表示目标标签。在进行颗粒识别的情况下,输入特征X 表征检测器中的局部能量沉积,标记y 表示少数颗粒种类(例如,电子,光子,介子等)之一。在重建任务中,使用了相同类型的传感器数据X ,但是目标标记y 是指负责这些能量沉积的粒子的能量或动量。这些算法适用于LHC数据的批量数据处理。
事件选择是指选择与目标分析任务最相关的一小部分碰撞的任务。例如,在寻找希格斯玻色子时,超对称性和暗物质数据分析人员必须选择与这些假设的“信号”过程特征一致的LHC数据的一小部分。通常,这些事件选择要求也可以通过所谓的“背景”过程来满足,这些过程由于实验限制或基本的量子力学效应而模仿信号的特征。以其最简单的形式进行的搜索减少了将满足这些要求的数据中的事件数量与仅背景虚假假设和信号加背景虚假假设的预测进行比较。因此,事件选择要求在拒绝后台过程和接受信号过程中越有效,则结果统计分析将越有效。在高能物理学中,机器学习分类技术传统上被称为多变量分析,以强调与基于简单阈值(或“切割”)的传统技术的对比,传统阈值适用于精心选择或设计的特征。
在1990年代和2000年代初期,简单的前馈神经网络通常用于这些任务。十多年来,神经网络很大程度上被提升决策树(BDT) 取代,成为分类和回归任务的必经之路(Breiman等,1984;Freund和Schapire,1997;Roe等,2005)。从2014年左右开始,基于深度学习的技术应运而生,并被证明在多种应用中具有更强大的功能(有关历史的近期回顾,请参见参考文献(Guest等,2018;Radovic等,2018))。
深度学习首先用于事件选择任务,其目标是根据标准模型之外的理论来假设虚拟粒子。它不仅性能优于增强型决策树,而且不需要经过工程设计的功能即可实现这一令人印象深刻的性能(Baldi等人,2014)。在此概念验证工作中,网络是一个深层的多层感知器,使用简化的检测器设置对它进行了非常大的训练。此后不久,引入了参数化分类器的概念,其中将二元分类器的概念扩展到了y = 1 信号假设被提升为连续参数化的复合假设的情况,例如根据质量 假设粒子的数量(Baldi等人,2016b)。
1.射流物理学( Jet Physics)
强子对撞机(例如大型强子对撞机)上最丰富的相互作用会在最终状态下产生高能夸克和胶子。这些夸克和胶子放射出更多的夸克和胶子,由于约束现象最终结合成色中性复合粒子。撞击探测器的介子和重子的准直喷雾统称为射流。几十年来,开发一种在理论上很健壮并且可用于测试量子色动力学(QCD)预测的射流结构的有用表征一直是粒子物理研究的活跃领域。此外,超出标准模型的物理学许多场景都预测会衰减为两个或更多个射流的粒子产生。如果产生的不稳定颗粒具有较大的动量,则将生成的射流增强,使射流重叠成具有非琐碎子结构的单个脂肪射流。从夸克和胶子的标准模型过程中,通过大量生产的喷气机对这些增压喷气机或胖喷气机进行分类,可以显着改善大型强子对撞机的物理范围。更一般而言,识别喷气机的祖先是一项分类任务,通常称为喷气机标记。
在首次将深度学习应用于事件选择之后不久,深度卷积网络就被用于检测射流标签,其中低级检测器数据使其自身具有像图像的表示(Baldi等人,2016a;de Oliveira等人 等人,2016年)。虽然机器学习技术已在粒子物理学中使用了数十年,但实践始终仅限于具有固定维数的输入特征X 。射流物理学中的一个挑战是数据的自然表示形式是粒子,并且与射流相关的粒子数量会发生变化。递归神经网络在粒子物理学中的首次应用是在风味标记(flavor tagging)的背景下(Guestet等,2016)。最近,关于使用不同网络架构(包括在序列,树和图形上运行的递归网络)的研究激增(有关喷气物理学的最新评论,请参见参考文献(Larkoski等人,2017))。这包括在架构设计中利用领域知识的混合方法。例如,受自然语言处理技术的启发,设计了递归网络,该递归网络在由一类喷射聚类算法创建的树结构上运行(Louppe等人,2017a)。类似地,网络的发展是受不变性的影响,即对呈现给网络的粒子进行排列不变,并对粒子的辐射方向图细节保持稳定(Komiske等,2018b,2019)。最近,已经组织了针对特定基准问题的不同方法的比较(Kasieczka等,2019)。
除了分类和回归之外,机器学习技术还用于密度估计和平滑光谱建模,在这种形式中,分析形式的动机不足,并且模拟存在重大不确定性(Frate等人,2017)。这项工作还允许人们用先验扩散而不是特定的具体物理模型来模拟替代信号假设。更抽象地讲,这项工作中的 高斯过程正用于对非均匀泊松点过程的强度进行建模,这是在粒子物理学,天体物理学和宇宙学中发现的一种情况。该工作线的一个有趣方面是,高斯过程核可以使用与物理学家直观地用来描述观测结果的因果模型清晰对应的组成规则来构造,这有助于解释性(Duvenaud等,2013)。
2.中微子物理学(Neutrino physics)
中微子与物质的相互作用非常弱,因此实验需要大体积的检测器才能达到可观的相互作用速率。不同类型的相互作用,无论它们来自中微子的不同种类还是背景宇宙射线过程,都在探测器体积中留下了局部能量沉积的不同模式。检测器体积均匀,这激发了卷积神经网络的使用。
深层卷积网络在粒子物理实验数据分析中的第一个应用是在使用闪烁矿物油的NOnu A 实验中。NOVA中的相互作用导致产生光,这是从两个不同的有利位置成像的。NOnu A 开发了同时处理这两个图像的卷积网络(Aurisano等,2016)。他们的网络将相同纯度的电子中微子的选择效率(真实阳性率)提高了40%。该网络已用于搜索电子中微子的外观和假设的无菌中微子。
同样,MicroBooNE 实验可检测到在Fermilab中产生的中微子。它使用170吨液氩时间投射室。带电粒子使液氩电离,电离电子通过该体积漂移到三个线平面。处理后的结果数据由一个33兆像素的图像表示,该图像主要是噪声,而稀疏的是合法的能量沉积。MicroBooNE合作使用 Faster R-CNN 算法(Ren等人,2015)来识别和定位与边界框的中微子相互作用(Acciarri等人,2017)。这一成功对于未来基于液氩时间投射室的中微子实验(例如Deep Underground Neutrino Experiment ,DUNE)非常重要。
除了加速器设施产生的能量相对较低的中微子外,还使用机器学习技术通过位于南极的 IceCube 天文台来研究高能中微子。特别是,3D卷积和图神经网络已应用于信号分类问题。在动态方法中,检测器阵列被建模为图形,其中顶点是传感器,而边缘是传感器的空间坐标的学习函数。发现图神经网络的性能优于传统的基于物理学的方法以及经典的3D卷积神经网络(Choma等人,2018)。
3.系统不确定性的稳健性 ( Robustness to systematic uncertainties)
实验粒子物理学家敏锐地意识到,模拟虽然非常精确,却并不完美。结果,社区制定了许多策略,这些策略大致分为两大类。首先涉及在使用模拟进行训练时合并错误建模的影响。这涉及通过模拟和分析链传播潜在的不确定性源(例如,校准,检测器响应,质子的夸克和胶子组成,以及来自扰动理论的高阶校正的影响等)。对于这些不确定性来源中的每一个,都包括一个讨厌的参数nu
,并且通过这些讨厌的参数对所得的统计模型p(X | y,nu)
进行参数化。此外,在惩罚最大似然分析的情况下,数据的似然函数用表示这些不确定性来源中的不确定性的项p(nu) 进行了扩充。在机器学习的背景下,通常使用从标称模拟nu=nu_0 生成的数据来训练分类器和回归器,从而得出预测模型f(X |nu_0) 。将该预测模型视为固定的,可以使用模型p(X | y,nu)p(nu) 通过f(X |nu_0) 传播nu 中的不确定性。但是,基于这种方法的下游统计分析不是最佳的,因为未对预测模型进行训练,而未考虑nu 的不确定性。
在机器学习文献中,这种情况通常称为由训练分布nu_0 和目标分布nu 表示的两个域之间的协变量偏移。存在多种用于域适应的技术来训练对这种变化具有鲁棒性的分类器,但是它们倾向于局限于二进制域nu in {train,target} 。为了解决这个问题,开发了一种对抗训练技术,将域自适应扩展到nu in mathbb{R}^q 参数化的域(Louppe等人,2016)。对抗方法鼓励网络学习关键量,其中p(f(X)| y,nu) 独立于nu ,或者等效地p(f(X),nu | y)= p(f(X)| y)p(nu) 。这种对抗性方法也已用于算法公平性的环境中,在这种算法中,人们希望训练独立于(或与之相关的)特定连续属性或可观察量的分类器或回归器。例如,在射流物理学中,人们通常希望射流标签器与射流不变质量无关(Shimmin等人,2017)。以前,开发了一种称为uboost的不同算法来实现增强决策树的类似目标(Rogozhnikov等人,2015;Stevens和Williams,2013)。
在粒子物理学中用于处理模拟中系统错误建模的第二种通用策略是避免使用模拟对分布p(X | y) 进行建模。在下文中,令R 表示满足相应选择要求的数据的各个子集上的索引。已经开发出各种数据驱动策略,以将控制区域中的数据分布p(X|y,R=0) 与感兴趣区域中的分布p(X|y,R=1) 相关联。这些关系也涉及模拟,但是这种方法的技术是将这些关系建立在模拟的可靠方面。最简单的例子是通过标识由y 和p(y|R = 0) approx 1 主导的数据R = 0 的子集来估计特定过程y 的分布p(X|y,R = 1) 。这是一种极端情况,适用性受到限制。
近来,已经开发了仅在识别仅类别比例的区域或假设相对概率p(y|R) 不是线性相关的弱监督技术(Komiske等人,2018a; Metodiev等人,2017)。该技术还假定分布p(X|y,R) 独立于R ,这在某些情况下是合理的,而在其他情况下是可疑的。该方法已被用来训练区分夸克和胶子的喷气式标签机,在夸克和胶子之间,模拟的精确度已不再足够,并且该方法的假设是合理的。这种弱监督数据驱动的方法是粒子物理机器学习的一项重大发展,尽管它仅限于部分问题。例如,如果目标类别y 之一对应于数据中可能不存在或不存在的假设粒子,则此方法不适用。
4.触发方式 (Triggering)
对撞机实验(例如大型强子对撞机)需要收集大量数据,因为目标现象是极为罕见的。大部分冲突在于包含先前已研究和表征的现象,与完整数据流相关的数据量实在太大。因此对撞机实验使用了称为触发器的实时数据缩减系统。触发器决定要保留哪些事件以供将来分析以及丢弃哪些事件。ATLAS 和 CMS 实验每100,000个事件中仅保留约1个。这些系统在不同程度上使用了机器学习技术。本质上,相同的粒子识别(分类)任务在这种情况下会出现,尽管在实时环境中,根据误报和否定的计算要求和性能是不同的。
LHCb 实验一直是触发中使用机器学习技术的领导者。LHC 触发器选择的数据大约有70%是通过机器学习算法选择的。最初,实验为此目的使用了提升决策树(Gligorov和Williams,2013),后来被Yandex开发的MatrixNet算法取代(Likhomanenko等人,2015)。
触发系统通常使用专用的硬件和固件,例如现场可编程门阵列(FPGA)。最近,已经开发出工具来简化针对 FPGA 的机器学习模型的编译,以针对这些实时触发系统的需求(Duarte等人,2018; Tsaris等人,2018)。
5.理论粒子物理学 (Theoretical particle physics)
虽然粒子物理学和宇宙学中的大部分机器学习都集中在对观测数据的分析上,但也有一些例子将机器学习用作理论物理学中的工具。例如,机器学习已被用于表征弦论的概貌(Carifio等人,2017),识别量子色动力学(QCD)的相变(Pang等人,2018)并研究 AdS / CFT 对应关系(Hashimoto等,2018a,b) 。其中一些工作与将机器学习作为凝聚态物质或多体量子物理学中的工具的使用紧密相关。具体而言,深度学习已在格点 QCD(LQCD)的背景下使用。在这个方向上的探索性工作中,深度神经网络被用来根据晶格配置预测 QCD 拉格朗日参数(Shanahan等人,2018)。许多多尺度动作匹配方法都需要这样做,目的是提高计算密集型 LQCD 计算的效率。这个问题被设置为回归任务,挑战之一是训练样本相对较少。此外,机器学习技术已被用于减少马尔可夫链中的自相关时间(Albergo等人,2019;Tanaka和Tomiya,2017b)。为了以较少的训练例子解决此任务,重要的是利用已知的空间-时间和局部规范在晶格数据中的对称性。考虑到对称性丰富,数据扩充不是可扩展的解决方案。取而代之的是,作者进行了特征工程,这些工程施加了规范对称性和时空平移不变性。尽管这种方法被证明是有效的,但还是需要考虑一类较丰富的网络,它们与数据的对称性是等变的(或协变的)(此类方法在第III.F节中进行了讨论)。这项工作的延续是由Argon Leadership Computing Facility支持的。全新的 Intel-Cray 系统 Aurora 将具有超过1万种的能力,并且专门针对将传统高性能计算与现代机器学习技术结合在一起的问题。
C.宇宙学的分类与回归
1.光度红移 (Photometric Redshift)
由于宇宙的膨胀,遥远的发光物体发生了红移,而距离-红移关系是观察宇宙学的基本组成部分。可以通过光谱学获得非常精确的红移估计值。然而,这种光谱调查是昂贵且费时的。基于宽带测光或在几个色带中成像的光度测量可以粗略估算光谱能量分布。光度红移是指从光度数据估计红移的回归任务。在这种情况下,地面实况训练数据来自精确的光谱调查。
传统的光度红移方法基于模板拟合方法(Benítez,2000;Brammer等,2008;Feldmann等,2006)。十多年来,宇宙学家还使用了基于神经网络和提升决策树的机器学习方法来进行光度红移(Carrasco Kind和Brunner,2013;Collister和Lahav,2004;Firth等人,2003)。这类工作的一个有趣的方面是尝试红移的点估计。存在各种方法来确定红移估计的不确定性并获得后验分布。
尽管不是从模拟生成训练数据,但是仍然存在这样的担忧:即训练数据的分布可能无法代表将应用模型的数据的分布。这种类型的协变量偏移是由光谱调查中的各种选择效果和光度调查中的细微差别引起的。暗能量调查(Dark Energy Survey)考虑了许多此类方法,并建立了验证过程以对其进行严格评估(Bonnett等人,2016)。最近,有人在使用层次模型来建立模型中的其他因果结构,以应对这些差异。用机器学习的语言来说,这些新模型有助于迁移学习和领域适应。层次模型还旨在将传统模板拟合方法的可解释性与机器学习模型的灵活性相结合(Leistedt等人,2018)。
2.引力透镜的发现和参数估计 (Gravitational lens finding and parameter estimation)
广义相对论最引人注目的效果之一是引力透镜,其中巨大的前景物体扭曲了背景物体的图像。例如,当巨大的前景星系与背景源在天空上几乎重合时,就会发生强烈的引力透镜效应。这些事件是对大型星系暗物质分布的有力探测,可以提供有价值的宇宙学约束。但是,这些系统很少见,因此可扩展且可靠的镜头查找系统对于应对大型测量(如LSST,Euclid和WFIRST)至关重要。简单的前馈、卷积和残差神经网络(ResNets)已应用于该监督分类问题(Estrada等,2007;Lanusse等,2018;Marshall等,2009)。在这种情况下,训练数据来自使用 PICS(宇宙强图像的管道)透镜进行模拟(Li等人,2016)进行强透镜射线追踪,以及使用 LensPop(Collett,2015)进行模拟 LSST 观察。一旦确定,通过最大似然估计来表征透镜物体是一项计算量大的非线性优化任务。最近,卷积网络已被用于快速估计奇异等温椭球体密度分布的参数,通常用于对强透镜系统建模(Hezaveh等人,2017)。
3.其他例子(Other examples)
除了上面的例子(其中对象的基本事实与劳动密集型方法相对不明确)之外,宇宙学家还利用机器学习来推断涉及不可观察到的潜在过程或基本宇宙学模型参数的数量。
例如,训练3D卷积网络根据暗物质的空间分布预测基本的宇宙学参数(Ravanbakhsh等人,2017年)(见图1)。在这项概念验证工作中,使用计算密集型N 体模拟对网络进行了训练,以模拟宇宙中暗物质的演化,并假设标准Lambda CDM宇宙学模型中的10个参数具有特定值。在该技术对可见物质的实际应用中,将需要对可见示踪剂相对于潜在暗物质分布的偏差和方差建模。为了缩小这一差距,已经对卷积网络进行了训练,以学习暗物质和可见星系之间的快速映射(Zhang等人,2019),从而可以在模拟精度和计算成本之间进行权衡。这项工作面临的挑战(对于固态物理学,晶格场论和许多体量子系统而言,是常见的)在于,因为模拟的计算量很大,因此大型模拟X_mu 的统计独立实现相对较少。随着深度学习趋向于需要大量的标注训练数据集,因此已经探索了各种类型的子采样和数据增强方法来改善这种情况。下采样(subsampling)的另一种方法是 backdrop,通过在反向传播管道中引入随机潜在因子,即使在单个样本上也可以提供损失函数的随机梯度(Golkar和Cranmer,2018)。
图1. 用不同参数组产生的三个立方体中的暗物质分布。每个立方体被划分成小的子立方体进行训练和预测。请注意,尽管此图中的立方体是使用约束采样集中非常不同的宇宙学参数生成的,但其效果是看不见的。来自(Ravanbakhsh等人,2017年)。
对基本宇宙学模型的推断也可以使用分类问题来解决。尤其是,带有大量中微子的修正重力模型可以模拟标准Lambda CDM模型所预测的弱透镜可观察物的预测。将X_nu 限制为二阶统计量时,存在的简并性可以通过合并高阶统计量或弱透镜信号的其他丰富表示形式来打破。特别是(Peel 等,2018)中构造了弱透镜信号的小波分解作为卷积网络输入的新颖表示。由此产生的方法能够以83%–100%的精度区分先前退化的模型。
深度学习也已用于估计星系团的质量,这些星系团是宇宙中最大的受重力约束的结构,也是强大的宇宙学探测工具。这些星系团的质量大部分以暗物质的形式出现,这是无法直接观察到的。可以通过重力透镜,对团簇内介质进行 X 射线观察或对星团的星系进行动力学分析来估计星系团的质量。机器学习用于动态集群质量估计的第一次使用是在仅暗物质的模拟(Ntampaka等,2015,2016)上使用支持分配机(Póczos等,2012)进行的。***使用MACSIS仿真(Henson等,2016)将许多非神经网络算法(包括高斯过程回归(内核岭回归),支持向量机,梯度提升树回归等)应用于此问题(Henson等,2016)***。该模拟超越了仅暗物质模拟,并且融合了各种天体物理过程的影响,并允许开发可应用于观测数据的真实处理管道。大型调查(例如eBOSS,DESI,eROSITA,SPT-3G,ActPol和Euclid)推动了对准确,自动化的质量估算流程的需求。作者发现,与传统的sigma -M关系相比,使用机器学习技术预测的真实质量比降低了4倍(Armitage 等,2019)。最近,卷积神经网络已被用于缓解病毒标度关系中的系统变量,从而进一步改善了动态质量估计(Ho等人,2019)。卷积神经网络也已用于通过合成(模拟)X射线观测来估计星团质量。卷积神经网络也已用于通过星系团的合成(模拟)X射线观测来估计团块质量,与传统的基于X射线发光度的方法相比,作者发现预测质量的散布减小了。
D.反问题和无似然推断
正如反复强调的那样,粒子物理学和宇宙学都具有积极进取的高保真正演模拟的特征。这些前向模拟要么是内在随机的(例如在粒子模拟中发现的概率衰减和相互作用的情况下),要么是确定的(例如在重力透镜法或N 体重力模拟下)。但是,即使是确定性的物理模拟,通常也会在基于 Poission 计数或仪器噪声模型的基础上对观测值进行概率描述。在这两种情况下,可以考虑将模拟隐式定义为分布p(X,Z | y) ,其中X 表示观察到的数据,Z 是未观察到的潜在变量,它们在模拟中具有随机值,y 是正向模型的参数,例如拉格朗日系数或ΛCDM宇宙学中的10个参数。许多科学任务可被描述为反问题,其中人们希望从X = x 推断Z 或y 。我们考虑过的最简单的情况是分类(y 代表分类值)和回归(yin mathbb{R}^d )。点估计hat{y}(X = x) 和hat{ Z}(X = x) 是有用的,但在科学应用中,我们经常需要不确定性的估计。
在许多情况下,反问题的解决方案是非适定(ill-posed)的,X 的小变化会导致估计值的大变化。这意味着估计将具有高方差。在某些情况下,前向模型等效于线性算子,并且最大似然估计hat{y}_{MLE} (X) 或 hat{Z}_{MLE} (X) 可以表示为矩阵求逆。在这种情况下,逆条件的不稳定性会与条件较差的正向模型有关。尽管最大似然估计可能会保持不变,但方差往往较高。惩罚最大似然、岭回归(Tikhonov正则化)和高斯过程回归是偏差权衡的密切相关方法。
在粒子物理学中,这种类型的问题通常称为展开。在那种情况下,人们通常会对检测器作用之前的碰撞的某些运动学特性的分布感兴趣,并且X 代表在检测器作用折叠后该量的拖尾形式。同样,估计描述质子内部夸克和胶子的部分密度函数也可以看作是这种反问题(Ball等人,2015;Forteet等人,2002)。最近,神经网络和具有更复杂,受物理启发的内核的高斯过程都已应用于这些问题(Bozson等人,2018; Frate等人,2017)。在宇宙学的背景下,一个反问题的例子是将激光干涉仪重力波观测器(LIGO)时间序列降为重力波的基础波形(Shen等人,2019) 。生成对抗网络(GANs)甚至已经被用于反问题的背景中,在逆问题中,它们被用来对星系图像进行去噪和恢复(Schawinski等人,2017)。另一个例子涉及在被前景物体重力镜头之前估计背景物体的图像。在这种情况下,很难描述背景对象的物理动机。最近,引入了递归推理机(Putzky and Welling,2017)作为隐式学习此类反问题的先验方法,并将其成功应用于强引力透镜(Morningstar等人,2018,2019)。
解决反问题的更雄心勃勃的方法包括提供给定X 的y 的详细概率表征。在频率学派,人们希望表征似然函数L(y)= p(X = x|y) 。而在贝叶斯学派,人们希望表征后验概率分布p(y|X = x) propto p(X=x|y)p(y) 。对于给定X的潜在变量Z的推论发生了类似情况。基于可能性的详细建模,马尔可夫蒙特卡洛(MCMC),粒子物理学和宇宙论都拥有完善的统计推论方法(Foreman-Mackey等,2013 ),汉密尔顿特卡洛(Hamiltonian Monte Carlo)和变分推理(Jain等人,2018; Lang等人,2016; Regier等人,2018)。但是,所有这些方法都要求似然函数是易处理的。
1.无似然推断( Likelihood-free Inference)
令人惊讶的是,由模拟器隐式定义的概率密度p(X = x|y) 通常无法直接求解。概率密度可以写成p(X|y)=int p(X,Z|y) dZ ,其中Z 是模拟的潜在变量。最新模拟的潜在变量空间是巨大且高度结构化的,因此无法通过分析来执行进行积分运算。在大型强子对撞机的一次碰撞模拟中,Z 可能具有数亿个组件。在实践中,模拟通常基于蒙特卡洛技术来生成样本(X_mu,Z_mu)sim p(X,Z|y) ,据此可以估算密度。挑战在于,如果X 是高维的,则很难准确地估计这些密度。例如,基于朴素直方图的方法无法缩放到高维度,并且核密度估计技术仅在大约5维范围内值得信赖。挑战在于,分布具有较大的动态范围,有趣的物理学现象常位于分布的尾部。
由模拟隐式定义的似然函数的难解性不仅是粒子物理学和宇宙学的基础问题,也是许多其他科学领域的基础问题,包括流行病学和系统发育学。这激励了所谓的无似然推断算法的发展,该算法仅要求能够以正向模式从模拟生成样本。
一种著名的技术是近似贝叶斯计算(ABC)。在 ABC 中,人们使用 MCMC 或拒绝采样方法执行贝叶斯推理。在这种方法中,似然使用概率p(rho(X,x) < epsilon) 来近似,其中x 是要作为条件的观测数据,rho(x',x) 是x 与模拟器x' 的输出之间的某种距离度量,而epsilon 是容忍参数。当epsilon rightarrow 0 时,等价于精确的贝叶斯推断。但是,该过程的效率消失了。ABC的挑战之一,尤其是高维x 的挑战之一,是距离度量rho(x',x) 的规范,该度量要保持合理的接受效率而又不降低推理质量(Beaumontet等,2002;Marinet等, 2012;Marjoram等,2003;Sisson和Fan,2011;Sisson等,2007)。这种估计可能性的方法与使用直方图或核密度估计来近似hat{p}(x | y) approx p(x | y) 的粒子物理学中的传统实践非常相似。在这两种情况下,都需要领域知识来识别有用的摘要,以减少数据的维数。ABC技术的一个有趣扩展是利用通用概率编程。特别是,一种称为推理编译的技术是一种重要的采样的复杂形式,其中神经网络控制概率程序中的随机数生成,以使模拟偏差以产生更接近观察到的x 的输出x' (Le等,2017 )。
术语ABC通常与更通用的术语无可能性推断同义;然而,还有许多其他方法涉及学习近似似然或似然比,该近似似然或似然比用作难处理似然(比率)的替代。例如,已使用具有自回归模型和归一化流量的神经密度估计(Larochelle和Murray,2011年; Papamakarios等人,2017年; Rezende和Mohamed,2015年)用于此目的并扩展到更高维度的数据(Cranmer和Louppe,2016年) ; Papamakarios等人,2018)。或者,训练分类器来区分xsim p(x | y) 和xsim p(x | y') 可以用来估计似然比hat{ r}(x | y,y')approx p(x | y)/ p(x | y') ,可用于频率范式或贝叶斯范式(Brehmer等,2018c; Cranmer等,2015; Hermans等,2019)。
2.粒子物理学中的例子 (Examples in particle physics)
包括希格斯玻色子的发现在内的成千上万的物理学成果涉及 基于替代似然率hat{p}(x | y) 的统计推断,该似然率由密度估计技术构建,该密度估计技术应用于从模拟生成的合成数据集中。这些通常仅限于一维或二维汇总统计信息,或者除了观察到的事件数量外根本没有任何功能。尽管术语“无可能性推断”相对较新,但它是实验粒子物理学方法学的核心。
最近,已经开发了一套基于神经网络的无可能性推理技术,并将其应用于物理模型,超越了以有效场理论(EFT)表示的标准模型(Brehmer等人,2018a,b)。EFT 提供了围绕标准模型的理论的系统扩展,该标准模型由量子力学算子的系数进行参数化,量子算子在这种情况下扮演y的角色。这项工作中一个有趣的发现是,即使似然比和似然比是难解的,但联合似然比r(x,z | y,y') 和联合得分t(x,z | y)=nabla y log p(x ,z | y) 易于处理,可用于扩充训练数据(见图2)并显着提高这些技术的样本效率(Brehmer等人,2018c)。
图2. 一种基于机器学习的无似然推理方法的原理图,其中模拟为神经网络提供训练数据。在随后的推断中,神经网络用作难解的似然的替代。来自(Brehmer等人,2018b)。
另外,推论编译技术已经被应用于推论tau -轻子衰变。这种概念验证需要开发概率编程协议,该协议可以集成到现有的领域特定的模拟代码中,例如 SHERPA 和 GEANT4(Baydin等,2018;Casado等,2017)。这种方法提供了对潜在变量p(Z|X = x) 的贝叶斯推断和更深的可解释性,因为后验对应于模拟的完整堆栈轨迹上的分布,从而可以概率性地检查模拟的任何方面。
由粒子物理学的挑战激发的另一种无可能性推理技术被称为对抗性变分优化(AVO( Louppe等人,2017b)。AVO 平行于生成对抗网络,其中生成模型不再是神经网络,而是领域特定的模拟。目标不是优化网络的参数,而是优化模拟的参数,以使生成的数据与目标数据分布相匹配。主要挑战在于,与神经网络不同,大多数科学模拟器都是不可区分的。为了解决这个问题,使用了变分优化技术,该技术提供了不同的代理损失函数。目前正在研究这项技术以调整模拟参数,这是一项计算量大的任务,最近还使用了贝叶斯优化(Ilten等人,2017)。
3.宇宙学的例子 (Examples in Cosmology)
在宇宙学中,ABC 的早期用途包括限制银河系的厚盘形成情况(Robin等人,2014年)以及推断高红移时星系形态转化率的推论(Cameron和Pettitt,2012年),目的是追踪银河系。从Ia型超新星测量得出的哈勃参数演变。这些经验促使开发诸如 CosmoABC 之类的工具,以简化该方法在宇宙学应用中的应用(Ishida等人,2015)。
最近,基于宇宙学的经验,还开发了基于机器学习的无似然推断方法。为了应对ABC对于高维观测X 的挑战,开发了一种数据压缩策略,该策略可学习摘要统计信息,从而最大程度地利用 Fisher 参数上的信息(Alsing等人,2018; Charnock等人,2018)。学到的摘要统计量近似一些名义或基准参数值的小邻域中隐式似然的充分统计量。这种方法与(Brehmer等人,2018c)的方法紧密相关。最近,这些方法已扩展到学习对系统不确定性具有鲁棒性的汇总统计信息(Alsing和Wandelt,2019) 。
E.生成模型(Generative Models)
机器学习研究中的一个活跃领域涉及使用无监督学习来训练生成模型,以产生与某些经验分布匹配的分布。这包括生成对抗网络(GAN)(Goodfellow等,2014),变分自编码器(VAE)(Kingma和Welling,2013; Rezende等,2014),自回归模型和基于归一化流的模型(Larochelle和Murray),2011;Papamakarios等,2017;Rezende和Mohamed,2015)。
有趣的是,激发无似然推断的同一问题,由模拟器隐式定义的密度的难处理性也出现在生成对抗网络(GAN)中。如果GAN的密度易处理,则可以通过标准的最大似然来训练 GAN,但是由于它们的密度难以控制,因此需要技巧。诀窍是引入对抗,即用于对生成模型中的样本和目标分布中的样本进行分类的判别网络。判别器有效地估计了两个分布之间的似然比,这提供了与基于分类器的无似然推断方法的直接联系(Cranmer and Louppe,2016)。
在操作上,这些模型起着与传统科学模拟器相似的作用,尽管传统模拟代码还为基于物理原理的基础数据生成过程提供了因果模型。但是,由于感兴趣的分布是从低水平的微观物理描述中出现的,因此传统的科学模拟器通常非常慢。例如,在大型强子对撞机上模拟碰撞涉及原子级的电离和闪烁物理学。同样,宇宙学模拟涉及大量质量物体之间的引力相互作用,并且还可能包含涉及辐射,恒星形成等的复杂反馈过程。因此,学习这些模拟的快速逼近法非常有价值。
在粒子物理学中,此方向上的早期工作包括用于量热计中粒子能量沉积的 GAN(Paganini等人,2018a,b),ATLAS 合作正在对其进行研究(ATLAS Collaboration,2018)。在宇宙学中,已使用生成模型来学习宇宙结构形成的模拟(Rodríguez等人,2018)。在一种有趣的混合方法中,深度神经网络被用来根据基于线性摄动理论的快速物理模拟中的残差来预测宇宙的非线性结构形成(He等,2018)。
在其他情况下,动机不高的模拟并不总是存在或不切实际。然而,对于此类数据而言,具有生成模型的数据对于校准很有价值。在这个方向上的一个说明性例子来自(Ravanbakhshet等人,2016),见图3。作者指出,下一代对弱引力透镜的宇宙学调查依赖于对遥远星系表观形状的精确测量。但是,形状测量方法需要精确的校准才能满足科学分析的精度要求。此校准过程具有挑战性,因为它需要大量昂贵的高质量星系图像。因此,GAN 启用了参数引导程序的隐式泛化。
F.展望和挑战
尽管粒子物理学和宇宙学在利用机器学习方法方面有着悠久的历史,但机器学习所应用的主题范围却显着增长。如今,机器学习被视为应对升级的高光度 LHC 挑战的关键策略(Albertsson等人,2018; Apollinari等人,2015),并且正在影响未来在宇宙学和粒子物理学领域的实验策略( Ntampaka等,2019)。在大型强子对撞机中特别引起关注的一个领域是识别高发光环境中带电粒子留下的轨迹的挑战(Farrell 等,2018),这是最近kaggle比赛挑战的重点 。
在将机器学习应用于物理问题的几乎所有领域中,都希望以已知存在于数据或数据生成过程中的层次结构,组成结构,几何结构或对称形式的形式并入领域知识。最近,机器学习社区在这方面进行了大量工作(Bronsteinet等,2017; Cohen和Welling,2016; Cohenet等,2018; Cohenet等,2019; Kondor,2018; Kondor等 ,2018; Kondor and Trivedi,2018)。这些进展受到物理学家的密切关注,并已被纳入该领域的当代研究中。
图3. 来自GALAXY-ZOO数据集的样本与使用条件生成对抗网络生成的样本。每个合成图像是通过对一组特征进行调节而产生的128×128彩色图像(这里是倒置的)。每列中观察到的图像和生成的图像对对应于相同的y值。来自(Ravanbakhsh等人,2016年)。