编者按:《国家科学评论》于2018年1月发表“机器学习”特别专题,由周志华教授组织并撰写文章。专题内容还包括对AAAI前主席Tom Dietterich的访谈,徐宗本院士、杨强教授、朱军博士、李航博士、张坤博士和Bernhard Scholkopf等人的精彩文章。
本文中,卡内基梅隆大学的张坤博士等人介绍了因果发掘(causal discovery)----通过分析纯预测数据来揭示因果信息----的最新进展。
本文为全文翻译。为了中文稿更加清楚易读,张坤老师本人做了一些修改。
学习因果关系和基于因果关系的学习:一些最新进展
作者:张坤 Bernhard Scholkopf , Peter Spirtes and Clark Glymour
翻译:叶奎
简介
人们在日常生活里以及各种科学探索和决策过程中,都常常追问“为什么”这样的因果性问题。为了能干预当前系统从而达到特定的目的,我们需要透过相关性,找到并利用因果性 。还有一些问题看似无关“为什么”,但答案其实也存在因果关系中。比如在评价特定人或事的时候,我们往往需要想象在同样的环境中,如果换了一个人或者那件事没有发生,结果又会如何。拿这个假象结果和现实情况对比,人或事所起到的因果效应就显示出来了。按卡尔•荣格的说法,正是因为对因果关系的在意,催生了现代科学的诞生和发展。
因果关系(Causality)是科学上一个基本概念,它在解释、预测、决策、控制方面发挥了重要作用。最近,由于各种数据越来越多,人们就更需要从数据提取因果知识来帮助理解和预测。此外,可用数据常常是相对长时间内的时序数据, 或者是从不同环境/实验条件下收集到的多个数据集的集合,这就造成了数据异质性(data hererogeneity)的问题。因果关系还提供了一种理解和处理数据异质性的方式,而传统机器学习方法通常假设给定的数据服从一个固定的分布。
发掘因果关系的传统方法是使用干预或随机实验,但这些实验在许多情况下太昂贵、太耗时、甚至无法实现。因此,因果发掘(causal discovery)----通过分析纯观测数据来揭示因果信息----吸引了很多关注[1]。过去数十年来,从观测数据/混合实验和观测数据中识别因果关系和因果效应大小(effect size)的算法已经取得了一系列跨学科的进展。这些进展也有助于更好地利用“大数据”。它们已经应用于基因组学、生态学、流行病学、空间物理学、临床医学、神经科学,以及其他许多领域,其预测效果通常已经被实验或准实验验证。本文将主要讨论因果发掘。
传统的因果关系研究的很多工作假设因果关系完全或部分已知,然后识别因果效应或预测干预效应,这是不同于因果发掘的问题; 这方面的进展请参见[2]及其中的参考文献。此外,因果模型提供了数据分布属性的紧致描述。基于此,最近研究表明,因果知识有助于各种机器学习任务,包括半监督学习和领域自适应学习(domain adaptation),或迁移学习(transfer learning)。
学习因果关系
众所周知,在统计学中,因果关系意味着相关性,但相关性并不意味着因果关系。也许更准确的说法是,相关性并不直接意味着因果关系----实际上,研究已经表明,在满足各种假设下,至少得到在某种程度上,一组随机变量的潜在因果结构可以从观测数据中发掘出来[1]。自20世纪90年代以来,研究者已利用数据中的条件独立关系来发掘潜在的因果结构。典型的基于(条件独立)约束的算法包括PC和fast causal inference(FCI)[1]。PC假定没有混杂因素(confounder)(两个测量变量未观察到的直接的共同因),且其发掘的因果信息是渐近正确的。即使存在混杂因素,FCI也能给出渐近正确的结果。这种方法应用广泛,因为只要有可靠的条件独立性测试方法,它们可以处理各种类型的数据分布和因果关系。然而,它们不一定能提供完整的因果信息——它们一般输出一组满足相同条件独立性的因果结构,它们都包含在对应的(独立)等价类中 。
PC和FCI算法可以得到这些等价类的图形表示。在没有混杂因素的情况下,基于得分的算法旨在通过优化恰当定义的得分函数(score function)来发掘因果结构。其中,greedy equivalence search(GES)[2]是一个众所周知的两阶段方法,它直接在等价类空间中搜索。其并行化版本(FGES)能够在很高维的数据集中搜索因果关系。 这些算法已经在Tetrad软件包中实现了(htp://www.phil.cmu.edu/tetrad/)。
最近研究显示,基于恰当定义的函数因果模型(functional causal models ,FCM)能够在同一个等价类中区分不同的有向无环图(DAG)。这种优势来自除了条件独立关系之外的对数据分布或因果过程的附加假设。FCM将果变量(effect variable)Y表示为直接原因X和一些噪声项E的函数,即Y = f(X,E),其中E与X之间独立。多亏了受限函数类(constrained functional classes),X和Y之间的因果方向变得可以识别——这是因为在正确的因果方向上噪声和因果之间才满足独立条件,而在错误的因果方向则不满足(详情见[3])。典型的FCM包括线性非高斯无环模型(LiNGAM)[4],其中Y = aX E(a是线性系数),后非线性(PNL)因果模型[6],其因果过程Y = f2(f1(X) E)中考虑了因的非线性效果以及可能的非线性传感器或测量失真f2,以及非线性加性噪声模型(ANM)[5],其中Y = f(X ) E。
因果方向的可识别性是函数因果发掘(functional causal discovery)中的关键问题。基于PNL因果模型的因果方向可识别的条件亦适用于LiNGAM和ANM,因为后面两个是PNL因果模型的特例。假设数据是根据PNL因果模型生成的,而且相关函数是平滑的且X和E密度函数处处为正,那么只在五种特定情况下,其因果方向是不可识别的[6]。相应地,基于FCM从观测数据中估计因果结构的一种方法是先在给定数据上拟合模型,然后测试估计出的噪声项与假设的原因之间的独立性。到目前为止,函数因果发掘主要关注没有混杂因素或反馈的情况,不过也有少数例外[7,8]。在实践中,为得到可靠的因果发掘,需要解决在因果过程或数据采样过程中经常出现的几个特定挑战。考虑以下一些特定问题:
(i)确定性情况。在特定的确定性情况下,其中Y = f(X)没有噪声,是不可能利用噪声和原因之间的独立性来找出因果方向的。 然而,人们可以利用变换f和原因X的分布之间的某种独立性来描述因果不对称并确定因果方向[9]。
(ii)非静态/异构数据。我们经常能碰到非静态或异构数据(nonstationary or heterogeneous data),其中隐含(underlying)生成过程随着时间或跨数据集而改变。有趣的是,如果定性因果结构是固定的,并且与因果结构相关的机制或参数可能会随着跨数据集或随着时间推移而变化的话(这些机制可能发生变化,以致结构中的某些因果联系会在一段时间内或一定领域内消失),那么因果发掘就可能会受益于分布变化(distribution shift)——只是因为因果建模和分布转移是紧密耦合的。这启发了一个集成了因果机制变化检测、因果框架估计、因果方向识别、非静态驱动力估计的框架[10]。
(iii)测量误差。变量观测值的测量误差可以明显改变各种因果发掘方法的结果。因为测量过程中使用的仪器或代理所引起的测量误差普遍存在,所以该问题受到了很大关注,并且已经证明在某些充分条件下,有差数据背我们所感兴趣的的因果模型在有未知方差的测量误差情况下也可以部分或完全识别 [11]。这有望启发一系列能处理测量误差的因果发掘方法。
(iv)选择偏差。选择偏差是统计推断中的一个重要问题,当样本中包含某个数据点的概率取决于该点的某些属性时选择偏差就会出现。选择偏差如果不加以纠正的话,往往会扭曲统计分析、因果发掘和推断的结果。在有依赖于果的选择偏差存在的情况下,基于FCM的因果发掘有可能识别到正确的因果方向并估计因果机制的性质[12]。 在更一般情况下的选择偏差问题仍有待进一步研究。
(v)下采样或时序聚合时间序列。在许多时间序列中,由于测量设备或采样方法的原因,或为了有效收集和存储,数据通常要经过下采样或者时序聚合。研究表明,在适当的假设下,真实的因果关系可以从下采样和时序聚合的数据中识别出来; 感兴趣的读者可参考文献[13]及其中的参考文献。
因果相关的机器学习
因为数据存在潜在的分布变化以及标注过程的费用不可忽视,在数据异质性下的学习变得越来越重要。这类典型的学习问题包括半监督学习、领域自适应学习或迁移学习、以及从正类和未标记的样本中学习。为了解决这些问题,我们必须获得关于给定数据背后的生成过程的信息。在[14]中讨论了因果和'反因果'学习之间的区别和从因果的角度讨论半监督学习。 在这种学习中,一个重要的问题是确定未标记的数据点是否有助于改进预测模型。现已注意到如果这些特征X是目标(或标签)Y的因而它们之间没有混杂因素,那么未标记的数据点就没有帮助。在领域自适应学习或迁移学习中,确定把源域的什么知识转移到目标域,以及如何转移知识是至关重要的。研究表明,因果模型提供了一个很好的工具来解决这个问题[14-16]。 因果图(Causal diagrams)已用于建立允许跨领域传输结果的条件[15]。
即使这些条件不成立,仍然有可能利用因果知识和一些技术条件来进行领域自适应学习[16]; 其基本思想是如果两者之间没有混杂因素,P(因)和P(果 | 因)就是真实因果过程的反映——它们独立变化,还允许以简单的形式对变化分别进行参数化。
现代因果关系研究已经从机器学习技术的进步中受益匪浅,机器学习技术提供了从数据中提取信息的关键工具。另一方面,因果信息描述了藏在观测数据背后的生成过程的特性,并且能够促进解决包含分布变化或牵涉到联合分布的不同模块之间关系的许多机器学习问题。具体来说,这些机器学习任务的解决可获益于因果系统的特定性质:首先,我们可以“以不变应万变”——即使数据分布发生变化,因果关系是相对稳定的,因为它对应着实际的物理过程。其次,我们可以“分而治之”——一般来说,在因果系统里“因”的产生过程和“因”产生“果”的过程是没有联系的。即使这两个过程都发生了变化,我们可以把它们各个击破。再次,我们可以“四两拨千斤”——因果过程对应着实际的物理规律,顺着这个过程去构建数据的分布特性往往更简单。目前该领域的很多研究人员致力于找出更广泛实用、更高效的因果发现方法,以及从因果的角度去开发更具智能的机器学习系统。
- 文中数字注明的引用文章,详见英文版PDF。
- 《国家科学评论》(National Science Review, NSR)是我国第一份英文版自然科学综述性学术期刊,定位于全方位、多角度反映中外科学研究的重要成就,深度解读重大科技事件、重要科技政策,旨在展示世界(尤其是我国)前沿研究和热点研究的最新进展和代表性成果,引领学科发展,促进学术交流。NSR的报道范围涵盖数理科学、化学科学、生命科学、地球科学、材料科学、信息科学等六大领域。基于科睿唯安发布的2016年度的期刊引证报告(Journal Citation Reports,JCR),NSR的最新影响因子达到8.843,稳居全球多学科综合类期刊的第五名(8%,Q1)。NSR发表的所有论文全文可以在线免费阅读和下载。
- 本文经《National Science Review》(NSR,《国家科学评论》英文版)授权翻译,“机器学习”专题的更多翻译文章将陆续刊出。