神经成像分析中的可重复性:挑战和解决方案

2023-08-27 10:05:44 浏览数 (2)

近年来,在心理学、神经科学和相关领域研究再现性备受关注。本文回顾了再现性中的挑战、解决方案和新兴实践,并特别强调了神经成像研究,区分了3种主要的再现性类型,分别是分析再现、可重复性、分析变异性。分析再现性是指使用相同的数据和方法重现研究结果的能力;可重复性是能够使用相同或相似的方法在新的数据集中找到效果;分析变异性的稳健性,即变异中识别一致性。结合这些方法和工具将有助于更多的可重复、可复制和可靠的心理和大脑研究,以及跨领域的更强大的科学基础研究。

过去十年标志着许多领域对可重复性的显著转变。来自多次探索和大规模合作的聚合证据表明,许多已发表的研究结果可能是假阳性。尽管用于提高研究可重复性的新兴的工具越来越多,但为了追求高效率,这些工具和实践方法也需要进一步比较。本篇重点关注精神病学研究的神经成像,综述当前的挑战性问题,帮助研究人员向日益可重复的研究过渡,介绍了3种主要再现性类型,归纳为:1)使用原始数据和方法重现相同结果的能力(分析再现性);2)用相同的方法复制研究结果的能力(可复制性);3)用相同的数据和假设但不同的情况下重现相似或收敛的结果的能力(分析变异性的稳健性)。图1中还列举了不同类型相关的基本解决方案和最佳实践,

图1.本文综述的三种再现性,以及主要解决方案的摘要

分析重现性:相同的数据,相同的方法

对可重复性研究的最低要求是使用相同的数据和方法。再现性需要对收集、处理和分析数据的方法有完整描述,但文本的描述往往是模糊的或不足的,例如,说明“一个线性模型被拟合”是不够的。除非模型中包含的所有变量都被描述,包括协变量、交互项和分类变量的编码,否则可解释性和再现性都会受到损害。由于不确定哪些细节是可以忽略的,问题变得更加复杂。例如,分析计算机的模型和所使用的操作系统被广泛认为是可以忽略的, 但有研究已经证明这会影响结果)。在这里,我们描述了3个层次的防御,使结果具有更高的重现性。

第一层次:结果报告的标准化。发布除静态文本和二维可视化之外的对象。利用自动错误检测工具检测。例如,状态检查(http:// statcheck.io/)可以帮助自动检测统计值、自由度之间的不一致性 ,以及相应的p值。

第二层次是数据和代码共享。然而,共享并不保证实用性,有益的共享将需要在科学培训和时间资源分配方面进行转变。目前,对于代码可读性、可重用性和错误检查,还没有制定出足够的标准。大多数研究者没有接受过正式的软件工程培训,也没有花费多年时间来完善他们的代码——这对他们来说也不切实际。代码和数据集通常没有足够清晰和充分的文档以实现可重复性,即使结果是可重复的,代码错误也可能使原始结果不正确。所以研究者必须学习软件编码之外的许多东西,对于学员来说熟练掌握技术是必须的。受训人员和已有基础的研究人员都可以从优化代码编写中获益,包括版本控制、代码模块化、代码文档、单元测试,以及版本化的文档化代码发布,清楚地跟踪用于生成已发布的结果的版本(例如,使用Zenodo)。标准化的数据结构使研究人员更容易理解和使用共享的数据。例如,国家心理健康研究所数据档案使用常见的数据元素在各个研究中确定相同类型的数据(例如,在问卷中确定相同的问题)。这有助于使数据可查找、可访问、可互操作和可重用。例如,脑成像数据结构(BIDS),被广泛接受为组织神经成像数据的标准,已经极大地促进了研究的可现性和可再用。这使得开发对这些数据结构执行分析过程的应用程序成为可能。用于研究数据管理的开放工具,如神经成像数据模型,进一步帮助研究人员组织、管理、跟踪和共享他们的数据。

第三层次是控制计算环境。计算环境虽然不会影响结果质量但是会影响重现性。所以计算软件的版本和发行日期都会有差异,解决这个问题的办法就是集装所有依赖软件,常用的操作平台就包括Docker和Singularity。

可复制性:新的数据和同样的方法

复制性研究就是在新的数据中进行同样的方法研究。以往研究中最先大规模的复刻研究是Reproducibility Project: Psychology。研究对100显著实验发现进行了复刻,只有36个研究成功复刻。每个亚领域的成功率也几乎低于一半。另一个大型合作性复制性研究是ManyLabs的研究,第一代该研究是从36个独立样本的13个研究效应中复刻了10个研究效应,证明研究的可复制性主要取决于实验的效应量,而非实验的样本和情境。第二代研究规模更大,从60个预注册和同行评审的protocol中复刻了28个效应,并且成功复刻了15个效应(54%)。ManyLabs和Reproducibility Project: Psychology不同的是ManyLAb复刻是失败的效应主要是没有专家评审的研究或者不显著差异的研究,在发展心理学和脑电研究中也有类似的复刻研究项目,这类跨实验室的复刻研究也越来越被鼓舞。

样本量、效应量和可复制性

可复制性取决于统计功效。当低功效研究与对积极结果的出版偏见相结合时,就会成为一个严重问题。值得注意的是,神经科学中的样本大小通常不足。例如,最近的一项研究得出结论称,可复制的全脑关联研究—即大脑结构或功能的个体差异与复杂的认知或精神健康表型之间的关联-往往具有非常小的效应(例如,r < 0.15),因此需要数千名参与者才能达到高度的可复制性,远远超过了典型的几十名参与者的样本大小。此外,精神疾病研究中常见的表型测量的可靠性通常很低,且无论样本大小和用于预测这些表型的数据类型,这都限制了开发可复制且可靠的标记的能力。但是也有弥补的可能。多变量预测模型的效应大小通常比单变量的全脑关联研究大几倍,这带来了显著增加的统计功效。此外,全脑关联研究分析未考虑个体内效应,因此在高度可复制性方面需要更少的参与者。最后,许多可复制性方面的限制源于需要在个别脑区复制许多小效应。如果使用多元分析来定义整合各个脑区的综合测量,效应会更大,且多重检验问题会被消除。尽管机器学习方法解决了一些问题(如统计功效),但也带来了新的挑战,包括数据泄漏、样本变异性以及根据研究目标、分析水平、潜在混杂因素、效应大小等不同情况所需的足够大的测试集来保证稳健性。

与此同时,像人类结构连接计划(Human Connectome Project)、英国生物库(UK Biobank)和青少年大脑认知发展(ABCD)研究等大型合作项目正在产生庞大的数据库,这些数据库可以用于获得更具可复制性的研究结果。然而,这些项目主要包括经过深入研究的任务,不能取代对新颖效应、罕见人群或特定实验设计进行的较小规模研究。为了填补这一空白,已经形成了跨实验室聚合数据的合作组织,以建立大样本数据。然而,在多中心研究中,它们面临着跨研究和研究地点的数据协调挑战。

总体教训是,研究人员应该设计他们的研究以具备统计功效(参阅https://brainpower.readthedocs.io/en/latest/index.html获取资源),考虑效应大小、关联类型(个体内或个体间)、分析方法(单变量或多变量)。值得注意的是,神经影像数据的统计功效分析尤为具有挑战性,部分原因是大脑区域以复杂的方式相互关联,当前的标准是针对个体数据集特征的研究特定的多重比较修正。最后,大多数研究领域很少有无偏的先验效应大小估计。一种方法是事先选择一个感兴趣的最小效应大小和固定的多重比较阈值。这可以进行直接的统计功效分析(例如,计算检测到特定大小效应的功效,达到特定功效水平所需的样本大小,或在固定样本大小情况下最小可检测效应大小)。此外,感兴趣的最小效应大小也可以用于等效性和贝叶斯因子测试,为证据提供缺乏效应的存在,而不仅仅是存在效应的证据。然而,定义感兴趣的最小效应大小通常具有挑战性,特别是在非临床机制性神经影像研究中。

研究方法也是关键的影响因素。例如使用独立样本进行外部验证和优化数据采集和测量对于创建可复制的生物标志物至关重要。另一个易忽视的统计功效来源是从每位参与者收集的试验数量。最佳的参与者和试验数量取决于参与者内部和参与者间方差之间的比率,有效控制方法主要包括实时优化实验设计或减少伪迹的方法。

分析的灵活性和预注册

如果研究人员进行多种分析测试,并仅报告产生显著结果的分析结果,即p-hacking,或在得知结果后更改他们的假设,就会引入选择偏差,增加假阳性的概率,降低独立复制的可能性。尽管对这个问题的认识有所增加,但这些可疑做法仍然普遍存在。预注册是解决这些问题的部分方法。在数据收集之前(或至少在观察结果之前),登记实验设计、样本量、假设和分析计划,区分确认性分析和探索性分析,这限制了p-hacking。另一种方式是Registered Reports,在这种格式下,研究在数据收集之前经过同行评审,一旦原则上被接受,不论结果如何就会在期刊中执行并后续发表,来可以减轻出版偏见,比传统出版物具有更高比例的零结果发现。但是预注册也有许多问题,因为许多分析都取决于数据的特点,无法预先知晓,特别是新异的实验。解决这个问题的一个办法就是采取一系列将基于积极控制效应进行探索和优化的设计方案,这些设计方案是预期的效果,但独立于感兴趣的结果(例如,当兴趣的结果是情绪反应时,评估视觉反应),优化分析将对兴趣变量的影响。例如,我们经常使用神经系统疼痛特征作为阳性对照,这种模式的效应大小、敏感性和特异性已经得到了广泛的研究。要注意的是,兴趣的效果(例如,冥想的效果)必须独立于优化的效果(例如,对疼痛和休息的神经疼痛特征反应)。这种领域特异性阳性对照在许多生物检测中都很常见,该原理可广泛应用于各个研究领域。另一种方法是使用独立的数据(而不是一个独立效应)来优化分析和测试模型,然后将它们应用于测试数据,这在机器学习中很常用。

分析变异性的稳健性:相同的数据,不同的方法

数据分析需要许多分析决策。如上所述,这些决定可能会导致假阳性结果,还增加了任何给定的单一结果的不确定性。比如Carp基于相同的数据比较了来自近7000个分析管道中的大脑地图,发现了显著的可变性。最近,70个独立的分析团队测试了9个预先指定的假设,使用相同的任务-功能磁共振成像(fMRI)数据集,这70个团队选择了70个不同的分析管道,而这种变化影响了统计地图和结论。此后,在静息态功能磁共振成像、扩散MRI、结构MRI、PET中也显示了类似的分析变异性效应,在脑电图以及心理学和社会科学研究中也是。已有的一种解决方案是多元分析,其中测试和报告了一系列合理的分析管道。这个概念已经在各个领域中使用过,有时是使用不同的名称[例如,规格曲线分析]。这种分析可以由多分析人员研究协作团队来完成,由此了解分析方法有助于校准其准确性和普遍性的置信度。此外,跨模型的推理很可能是比任何单一模型都要精确。

图2.多元宇宙分析和多元分析人员研究的说明

多元分析还需要规范一系列有效的选择。有些选择可能更适合特定数据集,在测试新的假设时,将面临更多新的未知情况。此外,结果将取决于所选择的管道的多元化,并且多元分析也可以被phacking。所以工具包和实践操作必须进一步标准化,比如上面讨论的多重分析人员的功能磁共振成像研究确定了几个导致结果可变性的关键因素,包括数据平滑性、所使用的分析软件,以及参数化与非参数统计测验。未来的研究可以更确定性针对这些特定领域的关键选择,或者机器学习方法可以为分析管道组选择提供参考。第二个挑战是,多元分析需要大量的计算资源,为了能够在广泛可用的资源下运行这些分析,需要开发提高计算效率的工具。共享预处理数据和衍生数据可以进一步降低计算难度。虽然已经开始开发用于神经影像学领域的多元宇宙分析基础设施和工具,但在其广泛应用之前还有很长的路要走。其次,多元宇宙分析的复杂性使得整合、可视化和总结研究结果变得困难。为了应对这个问题,已经发展出了多种可视化和报告方法。其中一种方法是在功能磁共振成像(fMRI)的多元分析中采用共识分析,这是一种针对基于相同数据的不同分析流程之间依赖关系的元分析类型。

总结

精神疾病的生物标志对于靶向治疗迫切重要,为了将这些生物标志物转化为临床实践,它们必须具有重复性。虽然已经开发了许多旨在提高重复性的新工具和方法,但其应用仍然相对缓慢,追求重复性仍需持续的努力。

参考文献:Reproducibility in Neuroimaging Analysis: Challenges and Solutions.

0 人点赞