因果推断的未来

代码语言：javascript复制

来源：因果推断本文约5700字，建议阅读5分钟因果推理方法正在呈指数级增长。

在过去的几十年里，因果推断理论、方法和一系列的应用方面的发展取得了重大的成就。现代因果推断的基础进展来自于不同的领域，包括流行病学、生物统计学、统计学、计算机科学和经济学。开创性工作主要包括詹姆斯·赫克曼（James Heckman）、朱迪亚·珀尔（Judea Pearl）、詹姆斯·罗宾斯（James Robins）、保罗·罗森鲍姆（Paul Rosenbaum）和唐纳德·鲁宾（Donald Rubin）以及其他一些人的工作，尤其在处理问题的方式上做出了开创性的改变以及分析数据方面。例如，健康的研究人员如果了解因果推断通常会非常谨慎在定义感兴趣的人群，指定目标因果参数，评估确定的假设使用主观性知识(可能借助有向无环图(DAGs))、设计模拟目标试验的研究、选择高效稳健的估计量、并进行敏感性分析。在过去的40年里，新方法，如倾向评分，工具性变量、中介分析和优化的动态治疗方案的估算方法已经形成，现在被应用研究人员普遍用于回答有影响力的问题。

作为因果推断中心(宾夕法尼亚大学和罗格斯大学的联合伙伴关系)的联合主任，我们自然对因果推断充满热情。令人振奋的是，因果推理方法正在呈指数级增长，在医学、教育、社会学和公共政策领域的应用也在爆炸式增长。现在，大多数统计学、流行病学和生物统计学的博士课程都提供了一学期的课程，而且有大量优秀的教科书。现在还有新成立的因果推断协会(SCI)，它将汇集不同学科的因果研究人员，以促进研究合作并增加培训机会。

因果关系推理研究的十大未来发展方向

01高维数据

High-dimensional data

研究人员在随机试验和观察性研究中越来越多地获得高维数据。这为更可靠地了解更广泛的因果问题提供了可能性，但它也提出了统计挑战。高维数据可以有多种形式，包括高维暴露、混杂因素和中介。在所有这些情况下，统计方法可能涉及变量选择或其他类型的降维(沿着主成分分析的路线)。需要仔细考虑因果识别假设的合理性以及可解释性。此外，在这些高维数据问题中，在对问题的降维部分或对问题的建模部分做出强有力的假设之间可能存在权衡。可以说，因果推断中最常见的高维数据问题类型是高维混杂。因为有效的因果推断通常需要一个“可忽略性”类型的假设，能够接触到大量潜在的混杂因素是有价值的。这里的变量选择问题比标准预测建模问题更复杂，因为理想情况下，我们将包括影响治疗决策(倾向评分)和结果的变量。关于在变量选择中考虑这两种关系的方法，如在其他地方讨论的文献虽少，但正在增长。其他类型的降维方法存在使可忽略性假设失效的风险，尽管偏倚-方差权衡可能使其可接受。高维暴露的例子可能包括遗传变异、环境暴露或具有某些连续成分的多维处理。如何在降低暴露维度的同时仍有可解释的估计，以考虑可能的暴露相互作用效应，这是一个明显的挑战。最近文献中关于高维中介的激励例子包括基因组学数据和功能性磁共振成像数据作为中介变量。除了上面提到的定义因果效应和评估识别假设的合理性方面的挑战之外，高维中介还有另一个挑战。因为中介可能会受到暴露的影响，所以我们可能希望捕捉中介的变化(暴露前/暴露后)。假设中介是微生物组数据或基因组数据。我们如何解释暴露前值和治疗后这些变量的变化?

02精准医学

Precision medicine

在过去的几十年里，从人类基因组计划的潜在影响到奥巴马总统的精准医疗计划，一直到今天，精准医疗是一个备受关注的想法。它可以被认为是使用可用的数据来确定对个人来说什么治疗是最好的，并在正确的时间提供它。尽管精准医疗的想法主要是基于个人的基因组数据或其他生物标志物来选择药物或其他医疗干预措施，但我们也可以从更广泛的角度考虑，不仅仅是医学，还有量身定制的干预措施和政策。

精准医疗的一个关键统计问题是，“考虑到一个人的历史数据(包括以前的治疗)，什么是最好的行动方案?”估计最佳动态(适应性)治疗策略的统计文献的突破发生在21世纪初。从那时起，我们看到了统计方法的许多进步，以及这些方法的一些实际应用。最近的一些统计发展使频繁、不规则的测量时间成为可能，并使何时监测或提供干预措施变得更加精确。例如，考虑到获取数据的成本(例如获取生物标记物值的成本或一个人在回答调查问题时的时间或兴趣成本)，可以确定从该监测计划获得的数据的最佳监测计划和最佳干预。在医疗保健和研究中进一步使用移动设备(mHealth)为精准医疗提供了机会。微随机化试验旨在利用移动技术进行实时数据收集、随机化和干预措施。虽然在从移动医疗数据估计动态治疗策略方面已经取得了一些统计进展，但我们相信在未来十年将会有很大的发展。

03因果机器学习

Causal machine learning

因果推断方法包括研究设计、定义因果估计、确定(因果)假设和统计建模。例如，为了指定倾向评分模型或结果模型(或两者都有)来进行因果推断，我们需要了解观察到的数据分布或函数(如平均函数)。机器学习方法允许分析人员避免做出强参数假设，这可能会降低由于模型错误规范而导致的偏差风险。因果机器学习在关键方面不同于标准机器学习。鉴于目前的世界形势，我们并不是在试图预测接下来会发生什么。在因果机器学习中，我们试图预测如果世界的某个特定方面发生变化会发生什么。(例如，如果我们感兴趣的人群中的每个人都遵循特定的治疗计划会怎样?)正因为如此，在机器学习方法之前在实施时，需要仔细考虑研究的设计，哪些变量应该包含在哪些模型中，等等。在这方面的研究还有很多工作要做。

04用真实世界数据丰富随机临床试验

Enriching randomized experiments with real-world data

随机实验提供了一种无偏倚的方法，通过“抛硬币”将单位分为治疗组和对照组，以无偏倚的方式估计治疗效果。然而，随机实验既昂贵又难以进行，而且通常只在感兴趣的人群的亚组中进行。观察性研究依赖于“真实世界”的数据，具有相反的优点和缺点:它们可能会因混杂而产生严重的偏倚，因为是人自己而不是硬币决定谁属于治疗组和对照组，但它们更便宜，可以考虑到所有感兴趣的人群。

一个重要的研究领域是如何最好地结合观察性研究和随机试验的证据，进行因果推断。这可以被视为一种综合了不同类型研究证据的meta分析形式。Prentice等人给出了这些组合在研究绝经后妇女激素替代治疗效果的背景下是如何有用的例子。Kaizar是结合随机实验和观察性研究证据的一个例子，在该研究中，对进行随机实验的部分人群的治疗效果进行了估计，然后使用观察性研究来估计进行了试验的部分人群与未进行试验的部分人群的差异有多大。真实数据丰富随机试验的另一种方式是改进试验设计。Shortreed等人就是一个例子，他们在一项预防自杀的随机试验中使用电子健康记录数据进行更现实的样本量计算。

05算法公平性和社会责任

Algorithmic fairness and social responsibility

机器学习、深度学习和人工智能方法通常用于开发临床算法，以帮助治疗患者的风险预测和决策。私营企业、政府机构和刑事司法系统也使用这些方法来确定保险费率和招聘做法，进行面部识别，并在提出量刑建议时预测累犯。然而，这些工具的好坏取决于用于开发它们的数据。数据来源往往存在偏见，存在根深蒂固的社会和系统不平等和不公正现象。为了正面解决这些问题，必须仔细考虑导致不公平做法的根本因果途径，例如在获得医疗保健方面的差距。Kusner和Loftus提出了一些方法，通过考虑反事实(例如，如果我们改变一个特征，来自模型的预测是否会改变)，因果建模可能有助于评估这种算法的公平性或偏见，并对算法进行敏感性分析，以评估它们是否会因未知或未测量的因素而产生偏倚。随着机器学习方法的开发和改进，以利用大量数据，同时，需要开发有原则的数据收集和因果方法，以帮助训练和评估算法，以减少隐藏的歧视和不公平的做法。正如Kusner和Loftus所建议的，流行病学家和统计学家应该以跨学科的方式与伦理学家、社会科学家、临床医生、利益相关者(例如，算法可能影响的患者)和其他人密切合作，以便算法基于丰富多样的数据，并在因果途径中纳入关键特征。

06分布式学习

Distributed learning

我们已经看到术语“分布式学习”以几种不同的方式使用，所有这些都可能最终对因果推理问题非常重要。例如，它通常指在多台机器上分布计算工作负载，以帮助实现可伸缩性。深度学习模型可能需要极其大量的参数和大量的训练数据，如果集中起来，可能是不可行的。

分布式学习旨在分配工作负载，同时找到集成信息的内聚方法。正如我们在因果机器学习部分所讨论的，一般来说，机器学习方法将在因果推理中发挥越来越重要的作用。该术语的另一种用法与使用无法组合或合并的多个数据集有关。例如，一些医疗保健系统可能愿意让模型适合他们的数据，并共享输出，但不共享详细的患者数据。这种保护隐私的方法在未来可能会越来越普遍。当你可以在没有原始数据的情况下，将模型拟合到来自潜在不同人群的不同数据集时，如何进行因果推断最好?我们在本文中讨论的许多其他问题也与此相关，例如可迁移性。

07因果发现

Causal discovery

许多因果推理文献都以DAG描述的假设开始，并在给定DAG的情况下进行方法开发。另一方面，因果发现是指使用计算和统计方法从观测数据中发现因果关系和结构。DAG不能单纯地从数据中识别出来(即，不能单纯地从已知观测变量之间的概率关系中识别出来)。例如，如果没有任何进一步的假设，就无法知道X和Y之间的关联是由于X导致Y, Y导致X，还是两者都不导致另一方，而是由一个不可测量的混杂因素产生关联。然而，在某些假设下，如因果马尔可夫假设或因果忠诚假设，可以从数据中识别DAG。在这些假设之下，传统上是基于得分的方法已被用于发现dag。在该方法中，使用计算算法搜索dag的空间以获得最优分数。我们预计因果发现将在未来几年成为一个有实质性发展的领域。将需要新的假设，在这些假设下可以进行因果发现，这些假设是由特定应用(例如，代谢组学，精神健康疾病病理生理学)所驱动的。此外，对于在复杂条件下收集的数据，可能需要新的方法，例如在更细的尺度上对因果相互作用进行汇总测量，或者具有网络结构的数据(例如，数据中的一些人是朋友)。

08干扰和溢出

Interference and spillover

在评估公共政策时，我们经常关心如何解释政策“外溢”到附近地区。例如，一个城市的2019冠状病毒疫情封锁措施可能会影响附近城镇的感染率;费城郊区的居民可能会在费城工作、去餐馆吃饭、听音乐会，因此，费城的命令将以可能无法测量的方式影响郊区的感染率。另一方面，郊区的居民可能会选择在当地用餐，而不是冒险去费城。郊区也有可能效仿费城，采取类似的行为，比如保持社交距离和戴口罩。无论如何，这些地区的政策选择相互干扰。评估外溢的因果效应和定义相关的利益估计是因果推断的新兴研究领域。

当涉及到对溢出的解释时，感兴趣的估计可能包括在存在溢出时对被处理者的平均处理效果和对相邻对照的平均处理效果。例如，有兴趣评估消费税的因果影响，如对消费加糖饮料税，。然而，从一个征税地区到一个不征税的邻近地区的跨境购物可以减轻税收对该地区的影响，也会影响邻近地区的销售额。在评估社区治安措施对犯罪的因果影响时，也出现了类似的复杂性。在这里，一个选区的政策对邻近选区的溢出效应对于理解此类政策的因果效应至关重要。当然，溢出模式或行为可能会受到未测量的混杂因素的影响，这些混杂因素使问题复杂化，但可能会推动未来的研究。人们可以想象一个更复杂的情况，其中空气污染政策对健康的因果影响是令人感兴趣的。在这种情况下，溢出效应还必须考虑时空相关性。在这些情况下，因果识别和相关溢出估计的建模是尚待解决的挑战

最后，目前有大量来自社交媒体平台(如Twitter(旧金山，加利福尼亚州)和Facebook(门洛帕克，加利福尼亚州)的数据被策划、利用和争论。例如，人们对研究社交媒体帖子的地理差异与糖尿病发病率之间的关系很感兴趣。如果我们想评估社会媒体帖子对健康的影响?一个人在推特上越多地谈论自己的糖尿病，是否意味着他们对自己的健康更有意识，并影响他人过上更健康的生活方式?这些社交网络受到干扰和网络依赖，但也受到不可测量的混杂(例如，社会人口因素)和替代(那些在Facebook上发布很多信息的人可能不会在Twitter或LinkedIn上发布信息(加利福尼亚州森尼维尔))。

09迁移学习

Transportability

决策者通常感兴趣的是，在特定人群中进行的研究结果是否可以用于另一个感兴趣的人群。例如，这可能是在将随机对照试验的因果平均治疗效果转移到不同的目标人群的情况下。在使用结构性因果模型框架将因果结论从实验环境转移到观察环境的设置中，已经提出了优雅的因果理论和假设。也可能有兴趣将非随机公共卫生政策的因果效应从研究人群转移到目标人群。例如，有人可能会问，一个州严格的枪支法律对犯罪的因果影响是否可以转移到另一个州。方法需要解释研究和目标人群之间的社会人口学因素的差异，也需要考虑时空因素。例如，目标州可能更偏远，更贫穷，犯罪率更低或更高。此外，目标州在地理上可能离其他枪支法律较弱的州更近，增加了前往另一个州购买枪支的可能性。在这些复杂的环境下，用来传递因果效应的新方法，例如，在这些复杂的环境下，使用双重差分（difference-in-differences）、中断的时间序列（interrupted time series）或回归截断设计（regression discontinuity designs），将有助于研究人员更好地理解不同环境下政策干预的因果效应。在这些复杂的环境中，也有发展方法来概括因果关系的空间。例如，可能有兴趣将一所学校成功的毒品预防计划的因果效应推广到该地区的所有学校。需要仔细考虑潜在的框架和假设，包括未测量的混杂、干扰、治疗异质性和潜在的中介作用。

10准实验设计

Quasi-experimental devices

一项观察性研究调查了非随机治疗的治疗效果。一个核心问题是治疗组和对照组之间的不可测量的差异，而不仅是治疗的差异。在对观察性研究中测量的协变量进行调整后，治疗和结果之间的关联是模糊的:关联可能是治疗引起的影响，也可能是治疗组和对照组之间未测量差异的反映。准实验设计扩大了所考虑的关联集，目的是减少这种模糊性。

经典的准实验设计包括预处理结果和多个对照组。近年来，新的准实验装置被开发出来，如证据因子、微分效应和计算机化的准实验构造。在唐纳德·坎贝尔(Donald Campbell)及其合作者开发的许多关于经典准实验设计的文献中，统计推断并没有发挥主要作用。一个潜在的未来研究方向是将统计推理纳入准实验设计的使用。在大多数关于经典和新的准实验设计的文献中，都考虑了一种或至多几种处理的效果。另一个重要的潜在研究方向是弄清楚当前或新型的准实验设计如何有助于对许多治疗方法一起工作做出因果推断，就像在基因调控网络中一样。

参考文献：

[1] Nandita Mitra, Jason Roy, Dylan Small. The Future of Causal Inference. American Journal of Epidemiology, Volume 191, Issue 10, October 2022.

机器学习变量模型数据统计

0 人点赞