分层贝叶斯建模提供了一种优雅的方式,将科学理论正式化为编码分层结构假设空间的模型
摘要
对抗性合作被推崇为解决科学争议的黄金标准。虽然对抗性合作的优点已经被广泛讨论,但这种方法在神经科学和相关领域却鲜有进展。从这个角度来看,我们认为对抗性合作研究已经被对科学理论证伪的过度限制所阻碍。相反,我们提倡一种更广泛的观点,即根据贝叶斯信念更新、模型比较和证据积累来构建敌对合作。这一框架扩大了对抗性合作的范围,以适应广泛的信息(但不一定是决定性的)研究,同时提供必要的正式工具来指导对抗性环境中的实验设计和数据分析。我们提供了一些工作实例,展示了如何部署这些工具来根据一个通用的证据指标对理论模型进行评分,从而提供了一种方法来跟踪随着时间的推移,竞争理论所获得的实证支持的数量。
关键词:对抗性合作、贝叶斯推理、证据积累、证伪、元科学、模型比较
在证人提供了相互矛盾的陈述后,一位沮丧的英国(对抗制)法庭法官终于问一位律师,“我永远也不能听到真相了吗?”“不,我的主,只是证据”,律师回答说。
-彼得·墨菲,证据的实用方法,1988年
1.介绍
科学进步依赖于从科学信念的正式和实证测试中获得的知识积累(Bird,2007)。这项工作的关键是开发可靠的实验程序,以测试在理论模型(即假设)下产生的预测。通常,这种程序是由对收集支持(或反对)特定理论或假设的证据感兴趣的科学家设计和部署的。更罕见的是,对立理论的支持者联合起来制定能够裁决他们分歧的实验(卡尼曼,2003;Latham等人,1988年;Mellers等人,2001年)。这种对抗性的合作被认为是解决科学争议的“黄金标准”,从而通过对竞争理论进行严格但公平的测试来加速科学进步(Clark et al .,2022;克拉克&泰特洛克,2022)。然而,对抗性合作也伴随着各种成本和挑战,阻碍了其在认知和社会科学中的应用(Clark et al .,2022;Cowan等人,2020年)。
本文旨在解决两个问题,这两个问题可能抑制了神经科学和心理学中对抗性合作的采用——至少直到最近。1第一个问题是概念上的;我们认为这是一个误导性的(和过度限制性的)强调,强调在对抗性合作研究中证伪的中心地位。我们认为,对抗性合作的主要功能不是明确解决有利于某一方或另一方的理论分歧,而是制定实验,为一系列理论模型的概率(贝叶斯)信念更新提供信息。这种更广泛的对抗性合作的概念对于相对不成熟的研究领域,如意识的神经科学,尤其有益。
第二个问题本质上更实际;它涉及到一个基本问题,即如何评估和整合对抗性实验产生的证据先验知识。我们的目标是通过诉诸最优实验设计、模型比较和证据积累的贝叶斯原则来解决这个问题。我们展示了不同程度的特异性(精度)的竞争理论假设如何能够被编码为每个理论规定的生成模型参数的先验约束。然后,我们考虑如何通过反转这些模型提供的证据——使用标准的变分技术——可以在不同的实验范式中聚合。在这个综合框架下,对抗性合作有助于推进科学进步,一次一个基于证据的信念更新(示意图见图1)。
1例如,参见由邓普顿世界慈善基金会的“加速意识研究”计划支持的结构化对抗协作项目(https://www.templetonworldcharity.org/accelerating-research-consciousness-our-structured-adversarial-collaboration-projects),以及对抗协作计划资助的心理学及社会科学研究(https://web.sas.upenn.edu/adcollabproject/).
2.证伪主义与实验的关键
当代许多关于对抗性合作的讨论的核心是对证伪主义的基本承诺(参见,例如,Clark等人,2022)。原则上,相互竞争的理论家应该能够识别在他们各自的理论模型下预测的经验观察中的某些系统差异,并就获得和分析这些数据的适当方法达成一致。如果一切按计划进行,这一分析将揭示数据与一个模型的预测一致,从而为在对抗挑战中毫发无损地“幸存”下来的理论赢得了巨大的声誉。失败的一方面临着一个不值得羡慕的选择,要么放弃他们的“伪造”模型,以适应新获得的数据的方式修改它,要么将不利的结果归因于以前未预见的(但理论上没有妥协)因素(Cowan等人,2020)。
这种(公认简化的)对抗性合作的特征可以追溯到实验(experimentum crucis)的概念,这种实验能够提供决定性地有利于一种理论或假设而不是其竞争对手的数据(Schwartz,2020)。也许这种实验最著名的例子是爱丁顿对引力透镜(即星光穿过太阳引力场时的偏转)的开创性研究(Dyson等人,1920)。爱丁顿在1919年日食期间的观察结果与爱因斯坦的广义相对论(爱因斯坦,1996年)相一致,该理论预测光的弯曲程度是牛顿万有引力定律预期的两倍。2这一结果极大地影响了爱因斯坦的国际声誉(Pais,1982年)
事实上,1919年的日食结果并不像有时描绘的那样直截了当。尽管爱丁顿探险队收集的数据与广义相对论一致,但来自另一个团队使用的望远镜的数据似乎挑战了广义相对论;然而,由于技术上的人为因素,后一个数据集被排除在分析之外。这一决定将导致后来对爱丁顿偏见的指责(Earman & Glymour,1980)——据说他是“广义相对论的热情支持者”(Kennefick,2009,第37页)——尽管最近对数据的重新分析证实了最初研究的结论(Gilmore & Tausch-Pebody,2022)。除了后来的争议之外,值得注意的是,探险报告的发表引发了当代科学界关于透镜效应替代理论解释的争论。这些历史细节凸显了通过批判性实验解决科学争议的内在困难。
卡尔·波普尔对证伪主义的哲学发展(波普尔,2002,2010)。事实上,爱丁顿的探险在最近关于对抗性合作的神经科学话语中被强调为一种实验的典范,这种实验应该被设计成仲裁意识的竞争理论(例如,Melloni等人,2021;里尔登,2019;另见Del Pin等人,2021年)。
值得注意的是,根据这样的话语,早期(事实上,更近;例如,Clark等人,2022;Clark & Tetlock,2022)心理科学中对抗性合作的支持者通常避免吹捧实验——而是满足于科学进步的一个相当温和的、递增的图景(Kahneman,2003;Mellers等人,2001年)。事实上,敌对的合作往往无法调和相互冲突的观点(Cowan等人,2020;维特科夫斯基,2020),即使在实验结果似乎是决定性的情况下(例如,马茨克等人,2015)。有人可能会说,坚定的理论家在不确定的证据面前不愿承认失败,这是更广泛的更公正(或至少不那么个人化)的观察者群体的判断的附带结果。
尽管如此,科学家倾向于“在得到不喜欢的结果时利用后见之明的智慧源泉”(Mellers等人,2001年,第270页),再加上观察到对抗性研究往往产生复杂的结果,既不能完全支持也不能击败反对的假设(Cowan,2022年),这似乎削弱了对抗性合作通过消除有缺陷的理论提供了科学进步的有效途径的概念。
虽然在试图设计能够区分竞争性理论假说的研究时,关键实验可能是一个有用的理想方法,但由于许多原因,强调决定性的证伪可能会适得其反。首先,这种态度可能为许多理论分歧领域设置了不切实际的高门槛,有可能在第一个障碍就阻碍对抗性合作。事实上,crucis实验的高风险性质可能在一定程度上解释了过去二十年来神经科学和相关领域中对抗性合作的有限吸收。
设想实验设计的目的是提供信息——但不一定是致命的——观察的风险可能会鼓励更多的理论家与其对手合作,同时让双方都能接受的实验设计更容易找到。
此外,在神经科学研究的某些领域,寻找一个实验的关键点可能是不可行的(也不值得)。例如,在意识的神经科学等新兴领域,人们对目标现象的基本性质以及应该如何调查(Doerig等人,2021;弗兰肯等人,2022;Northoff & Lamme,2020;Seth & Bayne,2022)。虽然几种意识理论已经获得了经验支持,但最近的工作表明,它们倾向于挑选出植根于基本上不重叠的领域的意识的不同方面:例如,大脑网络、现象学、信息论等(Yaron等人,2022)。因此,即使一个对抗性的实验裁定一个理论优于另一个理论,完全抛弃被击败的候选理论也为时过早:在这种情况下,所有被证明的都是理论A优于理论B;在另一个领域,情况可能正好相反。意识研究可以通过评估多个领域中各种理论框架的表现的对抗性合作来更好地服务(例如,通过设计来测试关于不同种类的观察的一系列预测的更“整体”的一系列实验;例如,参见Melloni等人,2023年),然后确定哪些途径应该继续,哪些应该排除在未来的探索之外。
3.贝叶斯赌注和信息的价值
波普尔提出的证伪主义将科学过程描述为临时知识的积累,这些知识以理论的形式存在,经得起经验主义反驳的挑战。这一哲学学说的逻辑——继续被认知科学家广泛接受为现代科学的核心原则(例如,Cleeremans,2022;Kleiner & Hoel,2021)——与统计推断的经典(频率主义者)概念纠缠不清。然而,值得注意的是,一个人在获得新数据后应该如何更新自己的信念这一规范性问题自然是由贝叶斯推理来处理的。考虑到对抗性合作研究的结果往往是混杂的(或者至少是其倡导者提出的混杂解释),我们认为贝叶斯信念更新更适合于自然化和概念化对抗性合作在推进科学进步中的作用。
我们并不是第一个用贝叶斯术语来构想对抗性合作的人。Tetlock和Mitchell (2009)注意到科学家倾向于依靠辅助假设来解释不方便的结果,鼓励敌对双方对他们的实验结果进行“贝叶斯赌注”(参见Hofstee,1984;伍德沃斯,1976)。这些赌注根据似然函数定义了实验预测
给定假设下经验数据的各种模式的概率。3竞争假设之间的这些可能性差异越大(即,可能性比率偏离单位越多),经验数据对这些假设进行仲裁的潜力就越大(假设关于竞争假设的事前概率的先验信念没有压倒性地偏向于某个理论)。
这种贝叶斯观点提供了关于敌对合作性质的三个重要见解:首先,它自然地适应了数据无法在一种理论和另一种理论之间做出决定性仲裁的情况(例如,作为观察到在两种理论下都被认为不太可能的数据的结果)。其次,它解释了为什么敌对双方可能会对他们合作设计的实验结果得出不同的结论——一种理论的支持者可能会(非正式地)给他们相对于对手更有利的假设分配更高的先验概率,并且可能会在候选假设上给定相同的似然函数的情况下接受不同的(后验)信念。如果没有这些信念的明确说明,就不可能预测应该由经验数据驱动的信念更新的幅度(尽管先验信念可以从后验信念和经验可能性中恢复)。我们将这个问题的进一步讨论推迟到第5节。第三,似然比和新观察的信息量之间的关系说明了最佳实验设计的一个关键原则(Chaloner & Verdinelli,1995;Rainforth等人,2023年),我们接下来会谈到这一点。
对抗性合作最显著的特征之一是实验协议的发展,该协议旨在以满足不同流派理论家的方式解决研究问题。有人认为,这一过程通过对与实验设计相关的研究人员自由度施加额外的约束,补充了开放科学运动的最新进展(例如,预测、实验方法和分析程序的预先登记)(Clark等人,2022;克拉克&泰特洛克,2022)。
参与对抗性合作要求理论家探索问题,并采用各方都认为有价值的方法,避免开发“掷骰子”支持个人偏好理论的研究的诱惑(Cowan等人,2020)。这就是说,对抗性合作的结构旨在产生对整个科学界有益的经验结果,而不仅仅是在特定框架内工作的科学家的子集——或有限的理论库。
3从技术上讲,这个函数是一个边际可能性;即数据在给定理论或模型下的可能性。这也被称为模型证据。模型证据忽略了任何未知变量或模型参数;从而容纳任何不可减少的不确定性的来源。在假设所有理论都是先验的、同样可能的情况下,给定数据,证据减少到每个理论的概率。
从规范(贝叶斯)的角度来看,人们可以将实验设计的任务解释为推断最可靠的行动过程(政策)以产生信息(有认识论价值的)观察。信息性观察减少了事件状态的不确定性,从而有助于消除对感兴趣的生成过程提供最佳解释的候选假设(理论模型)的歧义。因此,最佳实验设计需要采用生成数据的程序,以减少不确定性(香农熵;Shannon,1948)对竞争假说(模型);或者等效地,最大化关于观察到的现象的隐藏(潜在)原因的(香农)信息的增益。这种预期的信息增益通过Kullback-Leibler (KL)散度(即,相对熵;Kullback & Leibler,1951)预测后验分布和先验分布(Ginebra,2007;林德利,1956年;Rainforth等人,2023年)。从数学上看,预期信息增益是在特定实验设计下预期的潜在(理论)原因和经验可观察结果之间的交互信息。
在一个给定的环境中,什么是最能提供信息的实验将取决于所考虑的实验家族。虽然一个理论家可能认为一个特定的实验是消除两个版本的理论A下产生的预测之间的歧义的最有效的方法,但另一个理论家可能认为这个实验对于理论A是否比理论b提供了对目标现象的更好的解释这一更广泛的问题没有信息。敌对的合作是有价值的(也是困难的),因为它克服了这种僵局,为敌对的理论家提供了就最佳实验达成共识的条件,从而为所有相关方产生最有信息的数据。请注意,信息含量(即认知价值)的标准并不取决于数据是否能够彻底证伪一个或另一个理论模型:进步的程度是在所有现有理论共享的领域中获得关于目标现象(即数据的潜在原因)的信息。
从这个角度来看,对抗性合作通过促进高信息量实验的发展来促进科学进步。这种实验有两个特点:(1)它们收集关于高度不确定的事态(即鲜为人知的潜在原因)的数据;(ii)它们对可以被可靠地映射到引起它们的潜在状态(即,可以学习某些东西的状态)的观察进行采样。
对抗性合作产生了特征(I ),即鼓励对手提出走出各自“舒适区”的实验——也就是说,对在新条件下应该获得的数据模式进行风险贝叶斯赌注。这减轻了寻找与自己偏好的模型一致的证据的诱惑,因为这可能很容易寻找(例如,通过对更确定的、信息量较少的来源进行采样;参见“路灯效应”,Demirdjian等人,2005年)。对抗性合作也提供了特征(ii),因为共同参与实验设计应保证选择预期促进明确(而不是欠确定或“别名”)观察的方法程序。换句话说,对某一特定实验性政策的预先承诺减少了将不方便的数据视为无信息而不予考虑的诱惑。
4.作为(贝叶斯)模型比较的理论比较
我们提出了一个关于对抗性合作的贝叶斯观点,其中合作努力有助于选择适当的实验,为关于竞争理论的辩论提供信息。在这种观点下,证伪主义的二元逻辑被一个更加灵活、持续的信念更新过程所取代,在这一过程中,分配给相互竞争的理论的概率取决于在各自假设下观察到的可能性。然而,如上所述,贝叶斯推理允许敌对双方对他们喜欢的理论假设的概率赋予不同的先验信念;在证据面前导致不同的后验信念,即信念更新(也称为边际可能性)。虽然这本身不一定有问题,但它可能会抑制对抗性合作作为展示科学共识的机制的效用。在这一节中,我们概述了一种理论比较的方法,目的是在对立的环境中正式评估理论模型。然后,我们回到不同的先验的问题。
这里考虑的方法继承了贝叶斯方法的(层次生成)模型比较(卡斯和拉夫特里,1995年;卡斯&斯特菲,1989年;威尔第内利和乏色曼,1995)。分层贝叶斯建模提供了一种优雅的方式,将科学理论正式化为编码分层结构假设空间的模型(Henderson等人,2010)。从这个角度来看,模型的较高层次指定了更抽象或更一般的假设,而较低层次生成了关于所讨论过程的更具体或更具体的假设。这种模型的分级结构确保较高级别的预测对分级结构的较低级别的参数施加理论上知情的约束,从而影响模型对目标过程将生成的数据种类的预测。然后,可以通过比较候选模型解释从生成过程中采样的经验观察(即,实验数据)的能力来评估候选模型。
为了通过一个玩具例子来激励这种方法,想象我们在两种条件下进行心理物理学实验,其中每种条件包括一些实验因素的五个水平(例如,刺激强度)。图2显示了从这样的实验中可能获得的数据类型。事实上,这些数据是合成的,由图3所示的生成模型生成。有了数据下面的生成模型,我们就可以问这样一个问题:有证据表明两种条件下的内隐检测阈值存在差异吗——如果有,哪种假设能最好地解释这种差异?图3说明了如何评估这一证据,特别关注为什么有一个更精确的假设可以显示更多对其有利的证据。
实际上,理论比较的贝叶斯方法可以分解为三个步骤:(1)模型说明;㈡模型反演;以及(iii)模型比较。首先,必须根据所检查的生成过程的性质来指定生成模型。例如,如果我们的实验设计需要收集两种选择的强迫选择(2AFC)反应,则可以通过二项式似然函数的说明构建一个能够生成二进制选择数据的模型(图3a)。然后,这个“通用”模型可以根据替代理论的特定预测,以各种方式进行阐述。这可以通过对临界模型参数施加不同的(特定理论的)先验来实现;也就是说,这些参数保证了关于实验效应存在(或不存在)的独特假设(图3b)。在我们的2AFC任务的情况下,一个普通的二项式模型可以配备一个先验,该先验允许在两个实验条件下反应模式(或相关的心理测量参数)的可变性(如理论A下的假设),而另一个模型可以配备一个先验,规定条件之间没有差异(即,没有实验效应,如理论B下的假设;见方框1)。
一旦对竞争理论的不同假设进行编码的模型被指定,它们就可以与经验数据相适应。在这里,我们求助于基于拉普拉斯近似的变分法(Daunizeau,2018;福克斯&罗伯茨律师事务所,2012年;弗里斯顿等人,2007年;温&毕晓普,2005;Zeidman等人,2023),这是机器学习和神经科学中的标准(例如,动态因果建模)。这些技术提供了棘手积分的有效近似,呈现了模型证据的显式估计(也称为边际可能性)——模型质量的指标,优于常见的替代方案,如Akaike和贝叶斯信息标准(Penny,2012)。变分法可以通过开源软件包广泛使用,例如统计参数映射(SPM)工具箱(https://www.fil.ion.ucl.ac.uk/spm/).
。。。。。
信念更新为后验信念(图3c)。贝叶斯更新方案试图通过推断模型准确性(即,预测和观察之间的差异)和模型复杂性(即,适应观察所需的自由度)之间的最佳平衡来更新先验信念。这种最佳平衡隐含在通过(负)变分自由能最大化(对数)模型证据中:也称为证据下限或ELBO (Winn & Bishop,2005)。这个过程的结果是一个模型,该模型尽可能好地拟合观察到的数据,同时保持尽可能简单(即,简约),从而减轻了在数据收集期间将参数过度拟合到碰巧从生成过程采样的观察值的风险(参见奥卡姆剃刀;Jefferys & Berger,1992)。
贝叶斯信念更新——通过模型反演实现——通过后验分布和先验分布之间的KL差异(即模型复杂性)进行评分。注意,虽然贝叶斯最优实验设计要求实验预期最大化预期KL散度(并因此促成更大的信息增益),但是模型反演要求最小化KL散度,符合限制模型复杂性的要求(即,根据新数据尽可能少地更新模型)。这种明显的矛盾通过直觉得到解决,即科学家应该更喜欢获得最丰富的观察结果的实验(即,解决关于隐藏状态的最大不确定性),同时也更喜欢尽可能保守地将新的观察结果整合到先前信念的背景中的解释(即,考虑到手头的证据,避免比必要的更复杂的信念更新;参见最大熵原理;杰恩斯,1957)。
已经部署了变分法来反转编码竞争理论的预测的生成模型,现在可以访问近似(即,限制)每个模型的证据的自由能。模型证据反映了在给定这些数据的生成模型的情况下观察到的数据的概率,并且仅仅是上面提到的准确性和复杂性术语之间的差异。直觉上,当模型的先前预测准确地表征了经验观察时,模型积累了更多的证据(即,它们的边际可能性增加)。换句话说,后验越偏离先验信念来解释采样数据,即后验和先验信念之间的KL偏差越大,导致的复杂性损失就越大。因此,可以根据模型的对数证据(由变化的自由能界限近似)对模型进行排序,以评估哪个参数化提供了数据的最佳解释(图3d)。
就科学进步而言,这一过程可以无限重复,以积累证据——从连续的实验中——为似是而非的理论积累证据(见方框2中的有效例子)。这仅仅需要增加连续实验中每个理论的对数证据(见图4)。信息丰富的实验确保每个理论积累的证据随着每个新的实验而发散(或者不发散,如果所有理论都提供同样好的解释的话4)。对数证据中的差异有一个公认的语义(Kass & Raftery,1995),其中三个差异通常被解读为一个理论或模型相对于另一个理论或模型的“强有力证据”。这是因为3的对数证据对应于20:1的证据比率(比较经典推断中0.05的名义p值)。
有人可能会问,是否可以将这里描述的理论比较程序应用于从自由能原理继承的理论(Friston,2010)。的确,这个问题是我们的评审员提出来的。这是一个很有启发性的问题,原因有二:首先,因为有一个正在进行的敌对合作正是为了做到这一点;也就是说,比较预测处理和主动推理的变体与整合信息理论(https://www.templetonworldcharity.org/projects-database/0646
大脑、大脑活动、运动活动和意识有什么关系?要理解意识,我们需要了解不同的大脑结构和脑细胞活动如何产生意识。
至少有十几种值得注意的意识理论,但目前尚不清楚其中哪一种更有可能是正确的。阿姆斯特丹大学认知与系统神经科学实验室的新研究将探索三种领先的理论:综合信息理论(IIT)、预测处理的主动推理(PP-AI)和预测处理的神经表征主义(PP-NREP)。
这三种理论做出了不相容的预测。通过结构化的对抗性合作,该项目将以精心控制的方式进行三个主要实验(包括复制)以及随后的数据分析和解释,密切涉及理论家、实验家和其他专家之间的互动。
第一个实验使用光遗传学来激活小鼠的神经元,并测量这种激活如何影响行为。第二个实验将研究由暗点(盲点)引起的偏瘫的人类患者,以确定大脑连接是否也发生了变化。第三个实验将使用视错觉和神经成像技术来测试特定神经活动对意识感知变化的重要性。
该项目计划向不同的目标受众提供各种产出,包括意识研究和相关科学领域的专家,以及更广泛的科学受众,包括认知科学家、神经生物学家、人工智能和机器人专家、哲学家和临床医生。该项目的预期影响将是显着促进我们对意识的理解。).第二,因为我们对敌对合作的贝叶斯方法是作为自由能原理在理论比较中的应用而出现的。这里的基本原理是感知,实际上是主动感知(也称为主动推理),遵循与基于证据的科学调查完全相同的规则和要求(Gregory,1980;帕尔,2020);也就是说,收集那些最大化预期信息增益的数据(Lindley,1956)——然后通过贝叶斯信念更新过程评估这些数据,以找到具有最大证据的理论或解释。当用来描述感知行为时,这个过程被巧妙地总结为不证自明的(Hohwy,2016)。
4注意,证据只有在相对意义上才有意义。换句话说,人们只能将一个模型的证据与其他模型进行比较;例如使用日志证据中的差异。任何单一模型的证据都没有意义,可以随着数据的测量单位而任意改变。这意味着没有“真正的”模型,只有那些模型中的“最佳”模型。在经典推理中,这一真理解释了为什么人们总是将替代假设与无效假设进行比较。在贝叶斯推理中,人们可以比较任意大的一组假设或模型,其中可能包括零假设。有趣的是,发现零模型的证据比一个经典的有意义的替代模型更重要。这被称为“林德利悖论”(林德利,1957)。
5. 规避不可通约性
我们已经看到了贝叶斯推理是如何被利用来为对抗性合作研究项目的设计和分析提供信息的,特别关注了(变分的)贝叶斯方法操作和评估竞争性理论模型的能力。在这最后一节,我们探索这个框架的一些更普遍的含义,通过看似不可通约的理论的比较,突出它可能如何有助于加速科学进步。
此处的关键见解是,(对数)模型证据上的变化自由能界限不仅可用于对同一数据集的替代生成模型的相对质量进行排名,还可作为可跨多个设置和规模(例如,采样单位、复制地点、实验范例)进行汇总的通用度量。换句话说,变分自由能为量化不同理论模型下累积的证据支持提供了一种通用货币,这种货币可以通过多项研究和多种形式累积(见框2和图4)。这为对抗性合作的灵活和综合方法铺平了道路,这种方法(偏离了实验的理想状态)允许进行多个对抗性实验,这些实验涉及或多或少的风险贝叶斯赌注(例如,在理论A下测试高度约束的预测集与在理论B下测试弱约束的预测集的实验,反之亦然)。这一点在方框3中用方框2)的实例进行了说明。
值得注意的是,(模型)证据积累的逻辑也可以扩展到敌对合作环境之外设计的实验。当一个理论缺乏对给定场景的预测时,这是特别有价值的,这使得很难制定一个能够从这个角度呈现信息数据的实验。这表明了一种担忧,即在缺乏共同概念框架、方法标准和解释性目标的情况下,新兴研究领域——如意识神经科学——的进展可能会受到多重理论发展的阻碍(Cleeremans,2022;Yaron et al .,2022):也就是说,理论最终可能被证明是不可通约的。即使这些理论是在“不同的世界”中开发和测试的(Kuhn,1996年,第150页),获得一个通用的证据尺度也提供了量化不同理论表现的机会(就模型预测被经验数据证实的程度而言)。
方框3。精确预测的力量
贝叶斯对抗协作框架的一个优点是它提供了在(通常是分层的)生成模型中实现各种预测的灵活性。提出关于实验效果的精确预测的理论可以使用定制的先验来指定,这些先验将预期的参数值限制在一个狭窄的范围内;不太具体的预测(例如,正价或负价效应)可以使用跨越参数空间的相应区域的信息最少的先验来实现。事实上,如果一个理论缺乏对特定效应的任何预测,参数甚至可能完全不受约束(如方框2中的工作示例)。
精确的预测构成了对实验结果的更高风险的贝叶斯赌注,因为模型可能在许多方面无法准确捕捉数据。同样,符合这些预测的数据为模型的有效性提供了令人信服的证据。相反,弱约束模型参数构成了更安全的赌注,但无论数据结果如何,都会产生更少的证据(因为有许多其他数据模式,该模型也可以同样适用;参见图3)。
有许多方法可以详细说明这个总方案。例如,每个理论家投资于他们的预测的信心可以通过在感兴趣的参数的先验约束上包含超先验来并入模型。通过这种方式,特定预测的精确度可以被调整,以反映关于假定效应的更强或更弱的理论承诺(因此意味着更强或更弱的贝叶斯赌注)。人们也可以把理论家们对他们偏爱的假设或模型的先验概率的信念结合进来;这将限制在模型反演过程中,新的观察结果迫使信念更新的能力。这种策略对于量化“预测误差”的大小可能是有用的,这对于理论家在观察一些数据时更新他们的信念是必要的,与公正的观察者(即,科学家将相等的先验概率赋予每个替代假设)相比。
然而,应该强调的是,在独立进行的研究项目中积累的证据的评分可能不足以衡量哪个理论取得了最大的科学进步。这是因为独立的研究产生基于独立数据集的证据,因此使得替代理论能够彼此平行地积累相似数量的证据。虽然这种努力有助于在特定研究领域或传统的背景下评估和完善理论模型,但从科学进步的角度来看,对抗方法所赋予的独特优势在于对相同经验观察的竞争性理论预测进行比较的区别价值。从事这样的活动肯定会以这样或那样的方式提供信息:要么一个理论模型会比它的竞争对手获得更多的证据支持,要么所有的模型都会获得类似数量的证据(表明候选理论对数据提供了同样好或坏的解释,或者在选定的实验设计下它们的预测不能充分消除歧义)。通过这种方式,贝叶斯对抗性合作澄清了哪些理论正在取得最大的科学进步,以及哪些理论(或实验)最需要修改。
这并不是说敌对合作的结果应该是科学辩论的终点。正如Kahneman (2003年,第729页)所预测的——随后被二十年(零星的)敌对合作研究所证实——对手很少在合作完成后达成一致意见。无论合作是否在贝叶斯框架下发生,都可以预期到相互竞争的解释。当证据支持一个竞争对手的理论而不是他们自己的理论时,理论家们同样可能从“后见之明的智慧源泉”中汲取灵感。事实上,从贝叶斯的角度来看,这种行为是完全理性的;将令人惊讶的结果归因于解释预期和观察结果之间差异的缓解因素,使理论家尽可能少地改变他们的想法,从而保持他们之前对其模型保真度的信念(参见Yon等人,2019)。这只是为了重申第3节中提出的观点,即给定分配给竞争理论的先验概率中的个体差异,一组特定的经验观察不会迫使所有观察者进行相同程度的信念更新。
面对相反的证据,坚持自己喜欢的理论的倾向是否破坏了对抗性合作的假定好处?我们认为不会,原因有二。首先,正如我们所争论的,对抗性的环境鼓励理论家们在他们理论“舒适区”的认知安全之外进行高风险的贝叶斯赌注。即使理论家很快将不利的发现归因于意料之外的因素,也是不可靠的
在框架边缘做出的测量或不精确的预测(而不是承认框架本身的根本缺陷),这些结果揭示了进一步理论和/或方法发展的潜在途径。已经获得了有价值的信息,随着这些信息,挑战(和科学进步的机会)出现了。
第二个不要被敌对双方之间长期分歧的前景所吓倒的原因更普遍地涉及到敌对合作的功能。我们认为,敌对的合作不应被解释为其主要参与者之间达成共识的机制。正如对抗性的法律体系并不旨在改变反对者的想法——而是取决于由公正的同行陪审团对证据的仲裁——对抗性的合作寻求为整个科学界产生最突出的数据。
通过培养严格的实验来消除相互竞争的假设——涉及共同的利益领域——通过贝叶斯对抗性合作积累的证据可以用来更新我们对相互竞争的理论的价值和前景的信念;最终用于指导个人和集体关于资源分配的决策(例如,在哪里投资个人的时间、精力和资金)。这样,通过贝叶斯对抗性合作产生的知识有助于告知元理论赌注,即哪些研究政策提供了最有希望的科学进步路线。
6. 结束语
在理想条件下,敌对合作通过获得令人信服地解决理论争议的关键实验数据,有助于推动科学进步。然而,对抗性合作的现实通常不那么直截了当:经验预测的决定性测试可能难以识别;结果可能无法决定性地仲裁相互竞争的预测;科学家习惯于以符合他们自己理论倾向的方式解释数据。我们已经提出,对抗性合作应该在一个(变分的)贝叶斯框架内进行,这有助于优化实验设计和量化在理论(生成)模型下积累的证据。这一框架使得证据能够在多个(对立的和独立的)研究中积累,从而提供一个简单、通用的证据支持指标。因此,它提供了一个有价值的工具来跟踪竞争理论观点的相对表现。