本文提供了一个使用开源神经影像数据集的协议。涵盖了一个公开数据项目的所有阶段,包括数据的下载到结果的撰写,以及在公共存储库和预印本上共享数据和结果。
大型、公开可用的神经成像数据集越来越普遍,但由于大家对数据处理和数据组织的知识了解的还不够,即便是今天,对它们的使用仍旧存在着许多挑战。本文描述了一个在公开数据使用中可以减少这些障碍的协议,描述了搜索和下载开源数据集的步骤,介绍了正确数据管理的步骤和数据分析的实用指南,最后,给出了公共存储库和预印本共享数据和结果的说明。
有关此配置文件的使用和执行的完整详细信息请参阅(Horien et al., 2021)。本文发表在STAR Protocols杂志。
开始前:
大型、公开可用的神经影像数据集在神经科学领域正变得越来越普遍。从青少年大脑认知发展(ABCD)的研究,到老年人(例如,36-100岁以上的人)的人类连接组老化项目(HCP-A)数据集,不同人群的样本可用来研究健康和疾病中的大脑结构和功能。尽管公开可用的数据集越来越多,但使用它们仍是一个挑战,特别是对于初级研究人员。例如,下载、存储、管理、处理和分析这些数据集的软件包出现的频率越来越高,使用这些工具处理数据就像学习一门新语言。因此,需要协议来帮助第一次使用大型数据集的用户。
在本文中,作者们提供了一个循序渐进的示例,说明在使用开放数据集时需要考虑的问题。我们关注数据生命周期的所有阶段,强调在处理这些样本时经常被忽略的步骤。具体来说,该框架旨在帮助研究人员在开始使用开源神经影像数据集时,应对他们可能面临的无数选择。考虑到大量的开放数据集,我们的目标是提供通用的指导方针,这些指导方针可以根据示例轻松调整,但在适当的情况下,会提供特定的示例(特别是当讨论如何下载一个示例)。我们不提供任何分析建议;感兴趣的读者可直接阅读(Bzdok et al., 2019;Bzdok &Yeo, 2017;Fan et al., 2014;Smith and Nichols, 2018)。
在新冠肺炎疫情的背景下,开放数据的工作有了新的重要性。由于实验室的研究很大程度上都中断了,许多研究人员不得不求助于公开的数据集或生物库来继续他们的研究。我们的目标读者是一个对开源数据集几乎没有任何工作经验的人。因此,这份手稿的目标是汇编可访问的、易于遵循的建议,当研究人员进行数据处理时,哪些可以作为他们返回的资源。由于这些数据集的协作性质,单个研究者可能不需要参考该手稿的所有内容。因此,我们已尝试在每个部分尽可能的使用提示,即在处理开放样本时,可以根据需要,参考每个部分作为指南。
考虑您的计算机处理和存储需求,以及您的时间安排
1.确保您已经考虑了计算处理需求。
a.对于较小的研究(即20-30名受试者进行解剖和静息态功能磁共振成像扫描),在一台本地计算机上处理数据对于某些分析可能是可行的。
b.对于较大的研究(即数百或数千个受试者)或具有更多数据和/或更高计算强度分析的较小N个研究,考虑使用专用的高性能(即集群)或云计算资源。
i.实验室可以使用预先存在的集群资源(或者可以建立自己的集群资源)。
ii.我们鼓励研究人员先了解他们所在机构的资源,以确定现有资源是否可以用于满足他们的需求。
iii.如果机构中确实存在集群,研究人员可能需要申请访问。
iv.使用亚马逊网络服务(AWS)是云计算的一个流行选择(https://aws.amazon.com/getting-started/);其他资源也可用(微软Azure、谷歌云、IBM云等)。
v.这些资源不是免费的,使用前应考虑成本。
vi.例如,使用AWS存储2 TB一年要花费552美元;使用AWS分析数据会增加这一成本。
vii.基于云计算资源的神经影像处理更多信息,请参见(https://training.incf.org/cloud-based-computer-matrix).
2.确保您有足够的数据存储空间。
a.对于本文使用的数据集(耶鲁静息态功能磁共振成像/瞳孔测量:唤醒研究;https://openneuro.org/datasets/ds003673/),下载27名参与者的初始数据需要27.32 GB的磁盘空间,用于存储神经影像数据、眼球追踪数据和基本人口统计信息。
i.对于每个参与者,数据包括使用MPRAGE序列获得的T1加权3D解剖图像和两个静息态功能磁共振扫描成像 (每次扫描7分钟)。
ii.所有数据都是在3 T机器获得的。
iii.每个参与者更多的数据和/或更高分辨率的数据将需要更多的存储空间。
b.或者,从完整的第一版ABCD (10,000子项目)下载原始成像数据将需要13.5 TB的存储空间(Horien et al., 2021).
c.在数据预处理过程中,数据中间状态(颅骨剥离数据、运动校正数据等),会占用额外的存储空间。
i.应该备份中间数据;这通常会使所需的存储空间增加一倍。
ii.仔细规划要备份的中间数据至关重要,有助于降低成本。
iii.如果需要,也可以备份原始数据。
iv.然而,如果需要原始数据可以随时重新加载,因此选择不备份原始数据可以降低与存储数据相关的成本。
v.在备份数据时,删除颅骨剥离图像可能就足够了。
3.考虑需要什么数据来解决研究问题和预期的处理时间。
a.数据有两种形式:原始数据和已处理数据。
i.原始数据通常有两种形式:医学数字成像和通信(DICOM)或神经成像信息学技术倡议(NIfTI)图像。
ii.处理过的数据可以由数值组成,如连接矩阵、统计参数图或其他形式的中间数据。
b.原始数据和处理数据各有利弊。
i.在使用原始数据和已处理数据时,首先要考虑的因素是时间。
ii.从ABCD下载原始成像数据可能需要几天到几周的时间,这取决于计算资源。将成像数据从DICOM转换为NIfTI格式也需要几周时间。对于一个由3-4名人员组成的团队来说,处理和质量控制可能需要8-9个月的时间。
iii.或者,从ABCD下载经过处理的连接矩阵可以在大约一天内完成。
iv.使用原始数据和预处理数据也会影响存储空间,这是需要考虑的第二个因素。
v.例如,ABCD的连通性矩阵只需要25.6MB的磁盘空间,大约是存储NIfTI图像和中间体所需空间的0.0001%(如果从原始数据开始)。
vi.我们注意到,使用已处理的数据并不意味着可以忽略处理步骤。
vii.通常,精确地跟踪其他团队对数据所做的事情(即使知道处理步骤)很有挑战性。
viii. 因此,使用处理过的数据可能需要更多的时间/专业知识来理解其他团队的处理管道。
ix.有关原始数据与已处理数据的优缺点的完整讨论,请参见(Barron and Fox, 2015).
磨练你的编码和计算机技能
4.调查人员应具有执行基本文件管理操作和修改计算机代码的能力。
a.熟练掌握一门编程语言(bash、MATLAB、Python、R)可以帮助处理和分析。作为参考,bash、Python和MATLAB常用于操作fMRI数据和使用预处理软件。
i.值得注意的是,研究人员不需要掌握所有语言。从流行的编程语言中选择一个子集来满足自己的科学需求也许是合适的。
b.至少,研究人员应该能够修改现有的代码来满足他们的研究需求。
5.现有资源可以帮助您熟悉这些方法:
a.MATLAB:https://www.mathworks.com/help/matlab/getting-started-with-matlab.html
b.Python:https://www.python.org/about/gettingstarted/
c.R:https://support.rstudio.com/hc/en-us/articles/201141096-Getting-Started-with-R
d.bash:https://www.computerhope.com/unix/ubash.htm
6.预处理软件的选择。
a.使用的软件将取决于处理/分析目标、研究人群、用户对神经影像软件的熟悉程度等。
b.全面的讨论超出了本文的范围,但我们列出了几个常见的例子;我们鼓励研究人员通过以下链接对每一个预处理软件进行调查。(为每个软件工具的引用提供“关键资源表”)
i.FMRIB软件库(FSL;https://fsl.fmrib.ox.ac.uk/fsl/fslwiki)
ii.统计参数映射(SPM;https://www.fil.ion.ucl.ac.uk/spm/)
iii.功能性神经影像分析(AFNI;https://afni.nimh.nih.gov/)
iv.进阶配准工具(ANTS;https://stnava.github.io/ANTs/)
v.fMRIPrep (https://fmriprep.org/en/stable/)
关键资源表
7.分析软件有很多选择。
分析软件的完整列表也超出了本文的范围,但是我们请感兴趣的读者通过阅读Soares et al., 2016的文章,了解fMRI数据分析的基础知识以及掌握研究人员入门的工具。(有关如何开始使用处理和分析工具的更多信息,请参阅下面的“故障排除”小节)
合作以节省时间和金钱
8.使用开源样本,尤其是大样本(例如,数百或数千个受试者)对于单个研究者来说可能是繁重的。
a.多个实验室成员可以在数据生命周期的各个阶段一起工作。例如,一个实验室成员可以定位和下载数据,另一个可以进行预处理工作,等等。
b.根据我们自己的经验,3-4人的团队可以有效地下载和处理来自较大样本(即5500参与者)的数据(Rapuano et al., 2020),其他实验室成员(5-6人)帮助手动检查解剖图像的质量,以到达质量控制的目的。
c.或者,多个实验室可以合作处理数据,或者数据的中间状态可以根据需要与其他实验室共享。
9.一起工作可以节省时间和金钱。
a.存储、处理和分析大型数据集所需的计算资源(例如,基于云资源)可能非常昂贵。
b.例如,当使用大型可用数据集时,存储的数据量可能会激增,尤其是当多个用户复制数据或生成额外的衍生数据时。
c.作为参考,使用AWS存储2 TB一年的成本为552美元(2000 GB * $ 0.023/GB/月* 12个月)。此外,在16个CPU的计算优化实例上分析数据,如在(Noble et al., 2020),目前每小时费用约为0.7美元(https://aws.amazon.com/ec2/pricing/).
d.根据管道(每个受试者可能需要2小时),使用其中两个实例,人们可能能够在大约三天内处理1000个受试者(1000个受试者* 2小时/受试者/ (16个作业/实例* 2个实例)= 62.5小时),成本约为40美元(62.5小时* $0.7/小时=$43.75)。
e.然而,如果有任何事情需要纠正(可能是在管道的初始设置期间),或者数据需要以不同的方式处理,成本就会开始增加。
f.实验室节省时间和金钱的最大方法之一是共享相同的预处理数据,而不是自己重新处理数据。处理后的数据也可以更容易地与合作者使用和共享。
g.计算硬件和/或集群访问也可以在实验室之间共享。
h.如果无法与所在机构的其他神经成像人员合作,请参阅下面的“故障排除”部分。
10.有关研究中有效协作的更多信息,请参见(Bennett and Gadlin, 2012)。
关键:处理大型开源样本可能是一个缓慢的过程,而且相当昂贵。调查人员应考虑解决其研究问题所需的分析预期时间,以及数据存储和处理的相关成本。
逐步方法细节
查找开源数据集
时间:1天到1周
有很多开源的例子;首先需要确定一个或多个感兴趣的数据集。
1.确定要解决的研究问题。
a.确定感兴趣的人群(即婴儿、儿童、年轻人、老年人、疾病个体等。)将有助于选取合适的样本。
b.指定需要的数据类型。
i.例如,在一项针对自闭症谱系障碍(ASD)的神经相关因素的研究中,神经影像数据和临床标签是否足够(即病例/对照状态)?或者,是否需要连续的症状评分?
ii.请注意,来自多个站点的样本可能没有进行标准化 (例如,ARLIVE I/II),而包含多个站点数据的部分研究可能具有统一的度量(即ABCD(Casey et al., 2018)和UK-Biobank (Miller et al., 2016)).
2.查找感兴趣的数据集。
a.公开的样本很多;我们在图1中列出了一些大样本数据集(即参与者超过700人的样本)。
b.样本由多种数据形式组成,包括成像、基因和表型数据。
c.大多数有原始成像数据;有些数据已经进行最低程度或完全处理(请参见“故障排除”,如果感兴趣的数据集不能被访问,应该做什么)。
d.样本在访问方面有所不同。
i.一些数据集,比如那些在OpenNeuro上托管的数据集,不需要申请;任何人都可以下载和使用数据。
ii.其他数据集,如ABCD,需要托管数据集的组织批准正式的数据使用协议(DUA)。
e.访问包含感兴趣变量的多个数据集通常很有用,可以评估任何重要发现的可复制性/泛化性。
f.研究者可能希望在此阶段预先登记他们的研究和分析计划(关于如何预注册研究,请参阅下面的“故障排除”)。
关键: DUA必须在使用数据之前得到批准。要求因样本而异,但大多数DUA要求所有接触数据的个人都在DUA,并被批准与样本一起工作(包括轮换研究生、访问学者等。).一些数据集要求每年批准一个新的DUA。DUA通常必须由机构签约官员签署。
g.在下载数据之前,调查人员应与其机构审查委员会(IRB)和/或人类调查委员会(HIC)协商,因为可能需要人类研究例外或数据共享协议。
关键:由于数据已经收集,获得IRB/HIC批准经常(错误地)被忽视。有关使用公开数据的规定因机构、国家或地区而异。由于对数据匿名化的担忧,监管将继续变化。因此,调查人员在开始处理这些样本之前,必要时在获得数据之后,必须与其机构管理机构进行协商。
h.数据集因参与者对数据使用的偏好而异。
i.例如,UK-Biobank的参与者可以随时撤回他们的数据(或要求研究团队删除数据)。
ii.或者,国家心理健康数据档案研究所的参与者可以要求撤回他们的数据以备将来下载,但不能要求拥有数据的研究团队删除数据。
iii.研究人员应该了解他们的数据集隐私标准,并确保它们符合参与者的要求。
iv.对于该协议的剩余部分,我们将重点关注从OpenNeuro获得的数据,但在适当的情况下,我们将强调与其他开源样本的分歧点。
图1.一个开源数据集和开放存储库的概述
(A)对于最左边列中的每个数据集,都显示了样本大小,以及包含的数据类型(“数据模式”)。“数据级别”是指预处理级别:白色圆圈,原始数据;灰色圈,表示某种程度的预处理数据;黑色,处理过的数据(例如,统计图,连接矩阵等)。
(B)对于最左边列中列出的每个开放存储库(即开放数据集的集合),都列出了开放数据集的数量估计。感兴趣的数据集被突出显示(“有特色的大型数据集”)。样本量和开放数据集的数量是截至2021年9月的最新数据。我们鼓励用户在使用前访问与每个数据集相关的网站,因为样本大小、访问条件等可能会发生变化。经(Horien等人,2021年)许可改编的图。
S:结构mri,D:弥散像,R:静息态,T:任务态,B:行为数据,G:基因数据,P:灌注数据,A:血管数据,Py:生理数据,7:7T数据。
下载、存储和管理数据
时间:1周至1年
在本节中,我们将讨论如何下载、存储和管理示例数据集 (耶鲁静息态功能磁共振成像/瞳孔测量:觉醒研究,https://openneuro.org/datasets/ds003673/) 。该数据集包括27名健康成人(26.5 4岁;16名女性)。在本例中,我们将重点关注成像数据。
3.下载数据。
a.检查数据集的版本: 从浏览器访问数据集链接(https://openneuro.org/datasets/ ds003673/)将把您带至该数据集的最新可用版本(图2)。此时,您可以看到版本1.0.1发布于2021年8月21日,如图所示。如果这不是你想要的版本,浏览左边的面板选择右边的。
注意:开源数据集通常有多个版本,研究人员应该查看研究网站,看看他们想要哪个版本。这一点很重要,因为1)样本量和/或后续时间点的数量会随着版本的增加而增加,2)在之前的版本中可能存在已更正的处理错误。
b.检查自述文件和变更文件中的数据集信息,以查看作者提供的历史和数据信息。
c.您可以通过单击标题面板下方的下载按钮来下载整个数据集。将出现几个下载选项(例如,用浏览器下载、Node.js、S3或DataLad)。
d.或者,您可以根据自己的兴趣手动下载部分数据集。
i.单击您希望下载的主题数据目录(例如,子pa1372)以查看文件列表。
ii.单击文件名下方的每个下载按钮,下载解剖和功能磁共振图像。
iii.或者,单击文件名下方的每个“查看”按钮来查看图像。
iv.查看后可以下载图片。
e.检查下载的文件是否与原始数据匹配。
图2. 从OpenNeuro下载数据的步骤
4.储存和管理数据。
a.脑成像数据结构(BIDS)是神经影像学中常见的数据组织标准,有助于研究者的使用和重用。
i.有关BIDS的帮助,请参见https://github.com/bids-standard/bids-starter-kit
b.OpenNeuro的所有数据集都是根据BIDS组织的。
c.原始解剖和功能数据存储在每个参与者的特定文件夹中(图3a)。
d. 在研究过程中,从每个参与者获得的数据将存储在特定主题的衍生目录中。
i.例如,瞳孔测量数据在参与者的衍生文件夹中(图3b)。
e.一些遗留的开源数据集(即早期的HCP版本)可能没有按照BIDS进行组织。
i.调查人员可以重组他们的数据集,以匹配BIDS标准或保留原始数据结构。
ii.主要目标是让所有参与者都有一致的组织。
图3. BIDS格式
(A)每个参与者都有包含原始解剖和功能数据的文件夹。
(B)研究过程中产生的数据存储在一个衍生文件夹中。
5.数据管理。
a.处理数据时,根据团队成员的经验/角色,原始数据文件可以设为只读(这样就不会被意外修改或删除)。
i.例如,如果团队成员几乎没有编码经验,并且负责对图像配准执行质量控制,只读权限就足够了。
b.跟踪数据的处理情况
i.说明文档应该能够让该领域的研究人员能够准确地重新创建工作流。
ii.这包括对数据做了什么,为什么做,使用的代码/软件,以及谁执行了每一步。
iii.谷歌文档和Jupyter(https://jupyter.org/)可以用作虚拟实验室笔记本。
c.在管理数据时(以及在项目的各个方面),像Slack和Microsoft Teams这样的工具有助于促进团队成员之间的沟通。
关键:维护一个记录良好的实验笔记本是至关重要的,尤其是对于可能需要一年时间处理并涉及许多团队成员的较大数据集。鉴于初级人员通常负责管理这些大样本,如果实验室成员继续进行训练时,保持清晰、简洁的记录有助于保持进度。
关键:数据管理中经常被忽略的一个重要方面是检查数据集的更新。通常,问题是由收集数据的团队发现的,这些数据会显著影响处理和分析。大多数托管数据的团队都有一个质量控制QC,一个维基wiki或一个负责处理问题的联络人。下载数据后,应经常查阅这些资源。
d.数据下载后,指定一名实验室成员来管理数据和监视更新可能会有所帮助。
i.例如,该实验室成员可以负责维护文档,人工确定哪些团队成员有权访问数据,并检查数据/质量控制更新是否适用于样品。
ii.在更新方面,注意新的数据发布、扫描仪/软件升级、使用的不同行为指标和基本的质量控制问题。
e.社交网络服务,如推特,也是一个有用的资源,可以从处理相同数据的同事那里获得建议,或者确定其他小组是否注意到质量控制问题。Neurostars.org也是发布问题/议题的有用资源。
f.大多数数据库都有邮件列表,可以发送电子邮件告知新的数据发布和可能在之前发布的数据中发现的错误。
关键:如果发现问题,研究人员应该与托管数据的团队共享这些信息,以便修复可以到位。
了解数据,开始分析
时间:1个月到1年
了解数据集至关重要,尤其是作为一个没有参与数据收集的用户。
6.调查有多少参与者拥有感兴趣的数据。
a.成像和行为数据的缺失可能会影响分析,因此应该进行调查,以获得可供分析的最终样本。
i.如果数据缺失,确定这将如何影响分析。
ii.有多种方法来处理丢失的数据(即列表删除、成对删除、插补) 。
iii.考虑到缺失数据的复杂性,研究人员可能需要向统计学家寻求帮助。
iv.就成像数据而言,一些参与者可能扫描不完整,一些可能扫描缺失,一些可能重复扫描。
b.关于成像质量控制的完整讨论超出了这个协议的范围,但是我们注意到自动化质量控制工具的存在可以帮助用户 (https://mriqc.readthedocs.io/en/stable/) 。
i.此外,如果数据收集小组(或其他实验室)提供了质量控制信息,再搜索者可以使用这些信息来排除受试者。
c.对于行为数据,应该完成相同的步骤:确定是否所有人口统计学/行为/临床数据都可用,数据可能丢失的原因,或者是否使用了期望版本的行为指标。
i.如果原始数据可用,确定分数计算是否正确也是必要的。
7.确定研究设计的各个方面是否会影响分析
a.例如,年轻人HCP的扫描(Van Essen et al., 2013)研究是在连续几天收集。
b.在费城神经发育队列中(PNC,Satterthwaite et al., 2014),所有扫描都是在同一天采集的。
c.此外,相似的任务(即工作记忆任务)在不同的数据集上可能有很大的不同。
d.这些差异会影响样本内的分析,如果计划使用某些数据集作为测试样本(即确定在一个样本中观察到的效应是否也在另一个独立样本中观察到,也会影响分析;有关使用多个样本评估通用性的更多信息,请参阅“预期结果”)。
8.还要调查扫描仪类型、软件和采集序列。
9.确定这些参数是否在所有参与者之间保持一致,或者这些参数是否在数据发布之间进行了更新。
10.成像任务-数据可能包含影响分析的错误。
a.如果任务中的block顺序是平衡的,请确保所有参与者的block顺序一致。
i.例如,在HCP青年样本中的S900版本中,大约30名受试者在工作记忆任务中的block顺序与大多数参与者报告的不同。
b.调查任务时间安排;任务回归量可能与整体任务持续时间不匹配(就像年轻人HCP样本中的情绪任务中一些受试者的情况;http://protocols.humanconnectome.org/HCP/3T/task-fMRI-protocol-details.html)。
c.任务刺激可能偶尔会错过或在不同的持续时间内出现(如ABCD中的停止信号任务的情况)。
关键:这些问题可能会在数据发布时报告,也可能不会。Block 顺序和任务时间只是需要注意的几个例子;确定数据中是否存在其他问题是至关重要的。
11.获得最终样本进行分析后,执行基本步骤以了解数据。
a.首先调查基本的人口统计数据,如年龄、性别和惯用手。
b.家庭结构也要考虑。
i.青年HCP样本和ABCD样本由许多双胞胎和兄弟姐妹组成;在处理数据时应该考虑这些因素。
关键:这些基本步骤是必要的。虽然它们有些明显,但它们经常被忽视。在执行质量控制并排除受试者之后,基本人口统计变量的分布可能会发生倾斜,这可能会对分析产生负面影响。
c.一些开放样本包含多个贡献站点(例如,ARLIVE I/II,ABCD,UK-Biobank);确定站点是否以系统的方式不同而影响分析(见“故障排除”等,当数据中出现混淆时该如何处理)。
d.如果可行,还可以调查参与者在一天中的什么时间被扫描,一年中的什么时候,吸烟状况等。在较大的样本中,这些因素可能会放大数据集中无趣的方差来源,并造成混淆。
e.下面的网站包含了一些基本的可视化示例,可以通过这些示例来了解数据集,以及R 工具包 and toy 数据 (http://uc-r.github.io/gda)。
12.调查行为测量。
a.在使用之前,应审查基本人口信息以外的参与者测量方法(即认知测试、自我报告测量方法、临床医生评估)
i.一个好的开始是确定数据是否以类似的方式在不同的地区收集。数据集中的度量可能会有所不同,尤其是在多站点数据中。
ii. 例如,在ABIDE中,网站使用不同版本的自闭症诊断观察计划(ADOS),只有一些网站有研究认证的临床医生管理ADOS。
iii.诸如此类的问题会影响其他行为指标。
b.行为数据也可以作为一个测量的汇总分数、标准化分数、特定于子量表的分数等发布。
c.确保您使用的是您计划使用的行为评分。
13.进行分析。
a.在使用开放样本时,仔细考虑可重复推理是关键。
b.特别是在大样本的情况下,没有什么实际意义的小相关性可能变得具有统计学意义。
c.因此,在开始分析之前,确定什么样的效应大小对这一特定研究有意义是有用的。
d.报告多种趋同证据可以增加对给定结果可复制的信心。
i.在一项给定的研究中使用多个开源样本是测试结果是否趋同的一种方法(关于在一项研究中使用多个开放样本的例子,请参阅“预期结果”)。
e.应报告消极结果。
i.如果不这样做,文献作为一个整体可能会被扭曲。
ii.其他实验室可能正在计划进行类似的分析,因此消极结果的报告可以确保不进行重复的工作。
f. 调查人员可能会倾向于在他们的样本中挑选出积极的结果,或者寻找得出积极结果的样本(这两个例子都是“p-hacking”;关于减少p-hack倾角的方法,请参阅“故障排除”)。
g.参见(Smith and Nichols, 2018)了解更多在处理大型开源数据集时可能遇到的统计问题。
共享代码、材料和结果
时间:1-6个月
为了对开放科学生态系统做出贡献,研究者应该公开分享代码、材料和结果。
14.处理和分析代码应该共享。
a.代码可以在项目进行中或提交/发布论文时共享。
b.GitHub是共享代码的流行选项(https://github.com/)。
i.GitHub指南是入门的有用资源(https://guides.github.com/)。
ii.此外,采用流行的开源项目使用的标准可能会有所帮助(https://github.com/scikit-learn/scikit-learn)。
iii.代码应该被很好地记录和组织。理想情况下,代码也应该是无bug且高效的(就运行时间和整体结构而言)。
iv.包括自述文件、在代码中添加注释以及修复其他用户发现的任何错误都是很好的做法。
v.请参阅https://code.tutsplus.com/tutorials/top-15-best-practices-for-writing-superreadable-code -net-8118了解更多关于代码结构的建议。
注意:虽然理想情况下代码会被很好地记录和润色,但并不一定要完美才能共享。
15.共享使用样本产生的材料。
a.有许多存储库可以共享材料(表1).
i.可以共享预处理数据(即,颅骨剥离的解剖图像、运动校正的功能数据)。
ii.还可以共享导出的统计数据(即参数化脑图、分割)。
iii.数据共享应该有明确的许可,这样其他研究人员就可以知道数据重用的使用限制(如果有的话)。
iv.见https://creativecommons.org/about/cclicenses/有关知识共享许可的更多信息。
表1. 用于共享不同级别数据的在线数据存储库样本
关键:在分享材料之前,研究人员应该检查他们的DUA(数据使用协议),以确定哪些可以分享。一些数据集(例如,通过可靠性和再现性联盟获得的数据集;图 1)允许公开分享材料,而其他的限制更多,不允许共享材料。研究者还应咨询他们的IRB/HIC,以确定参与者在参与原始研究时是否同意数据共享。
16.结果可以通过预印本服务共享。
a.这些服务是免费的,允许在发布之前传播结果。
b.不同的预印本服务,可以根据研究的性质使用
i.bioRxiv(https://www.biorxiv.org/)可以用来分享生命科学方面的论文(即研究健康的参与者)。
ii.medRxiv(https://www.medrxiv.org/)可以用来分享医学科学方面的论文(即研究患者)。
iii.PsyArXiv(https://psyarxiv.com/)分享心理科学的相关论文。
iv.其他预印本服务(arXiv:https://arxiv.org/和OSF预印本:https://osf.io/preprints/)也可用于张贴预印本。
c.稿件被接受后,许多期刊都有开放获取的选项(收费)。
d.资助机构也可能要求将论文发布到公共可用的服务器(如PubMed)。
e.撰写结果时,请咨询数据分析和共享最佳实践委员会(COBIDAS)关于手稿内容的指南。
i.COBIDAS包括“强制性”和“非强制性”建议。
ii.强制性建议的完整列表不在本文范围内,但可以在此处查看:http://www.humanbrainmapping.org/files/2016/COBIDASreport.pdf
iii.对于开放数据集报告的内容,需要特别考虑的问题包括参与者id、使用的数据发布日期、访问数据的日期以及获取数据的URL。
iv.参与者id的标准可能因数据集的不同而不同。
v.例如,对于所有研究人员来说,ABIDE参与者id是相同的。
vi.对于UK-Biobank,为处理数据的每个组生成唯一的参与者id。
vii.在分享参与者身份之前,研究人员应该确定在他们的DUA是否允许这样做。
viii.如果没有官方数据发布,研究人员应该尽可能多地包括数据信息,以及数据是从哪里获得的。
ix.如果数据以连续的方式发布(即ABCD快速通道数据每月发布新的成像数据),报告数据的下载日期可能会有所帮助。
x.在处理开放样本时,所使用的数据集的一些细节可能在以前的论文中有过报道,因此引用这些原始研究可能就足够了。
xi.尽管如此,仍然建议提供关键细节的简明摘要。
xii.例如,应包括提供成像采集参数、预处理管道和行为测量的总结,以及如何使用和分析数据的描述。
预期结果
我们有详细的步骤,如何在数据生命周期的所有阶段使用开源数据集。根据我们自己的经验,我们已经能够在一项研究中利用2-4个开源数据集。这样的方法可以用来帮助泛化,并确保结果在多种环境下保持不变。例如,(Greene et al.,2018)使用来自HCP青年样本和PNC的开源数据表明,当从功能连接数据预测参与者特征时,使用基于任务的数据生成预测模型比使用静息状数据生成的预测模型产生更高的预测性能。这一发现得到了两个样本的支持,这两个样本由不同的人群组成(即,HCP包括健康的年轻成年人,而PNC包括以人群为基础的样本,年龄为8-21岁的年轻人)。在其他工作中,(Horien et al.,2019)我们使用了4个开源静息态fMRI样本,表明功能连接体在几个月到几年之间是独特和稳定的。与上述结果类似,该结果适用于不同的人群(即,从青少年儿童到70-80岁的成年人)。
这类研究对于单个实验室来说是极其困难的,它们表明了使用共享数据的力量。更一般地说,开放数据的使用依赖并加强了开放科学生态系统,该生态系统正在迅速成为神经影像学的规范。考虑到对功能磁共振成像缺乏可重复性的担忧,这样的生态系统是必要的。如果仔细使用数据,缺乏再现性和缺乏可靠性都是可以在单个研究和单个实验室中解决的因素(我们指出,fMRI在很大程度上未能对临床实践产生很大影响,这是缺乏可靠性的原因之一)。因此,使用开源数据来评估研究结果的可重复性和可复制性,并使用这些样本来增强结果的通用性,是该领域的重要一步。
此外,使用概述的步骤可以访问大型的、公开可用的示例。鉴于最近的工作表明,需要大样本量来获得大脑行为关联的可靠效应量,使用大样本的研究人员将能够很好地检测他们感兴趣的效果。这也可以提高研究结果的可重复性,这将有助于研究者理解人脑。
限制
可用的开源数据集和工具都在不断增长,这里我们只描述了许多可能选择中的一些。我们试图通过使协议尽可能的通用来解释这一点。然而,需要执行的具体步骤可能会根据访问数据的位置而有所不同(例如,使用来自OpenNeuro的数据集的步骤可能与使用来自NDAR的数据集的步骤略有不同)。此外,这里描述的一些步骤和/或工具可能不适用于所有的样本(例如,包含婴儿的数据集)。
更一般地说,使用开源数据集提出了其他几个应该考虑的问题。例如,利用他人收集的数据将未来的研究人员与数据收集团队做出的选择联系起来,从数据采集参数到某些预处理选择。因此,重要的是,研究人员在处理大数据集之前,要批判性地思考他们的研究问题以及解决这个问题可能需要的数据类型。此外,用于获取数据的软件/硬件的问题可能会在以后知道(或者可能永远不会被数据收集团队发现)。处理数据时其他人收集的,往往不可能知道这样的问题。如果发现此类问题,可能需要重新下载数据、重新处理数据、重新运行分析等,这些都是非常重要的任务。最后,解决特定研究问题或目标所需的数据集可能无法公开获得。在这种情况下,需要收集自己的数据。
故障排除
问题1:
我不知道从哪里可以了解更多关于处理和分析工具的信息(开始前,步骤7)。
潜在解决方案:
在决定处理和分析工具时,有许多选择,开始使用这些包可能会令人望而生畏。以下参考文献(Soares et al., 2016)是熟悉功能磁共振成像处理和分析中使用的一些常用工具的好资源,也是熟悉功能磁共振成像基础知识的好入门——从研究设计的背景到报告/解释结果的技巧。
问题2:
我是我的大学里为数不多的神经影像研究人员之一——我如何才能与其他研究人员合作?(开始前,步骤9)。
潜在解决方案:
在这种情况下,研究人员可以加入更多正式的合作,以培养与有共同兴趣的研究人员的新合作,如通过元分析增强神经成像遗传学(ENIGMA)联盟(Thompson等人,2014年),多中心癫痫病变检测(MELD)项目(https://meldproject.github.io//),这里列举几个例子。此外,神经成像黑客马拉松(Gau et al.,2021)在世界各地举行,是研究人员见面和解决问题(以及头脑风暴研究想法)的论坛。参加这样的活动有助于将个人研究人员与其社区中的其他人联系起来。
此外,合作并不需要局限于神经成像领域;与其他领域的研究人员合作可以帮助推进研究目标。例如,如果进行图像-遗传学研究,根据研究目的,联系遗传学家、统计学家甚至临床医生可能是有用的。
问题3:
无法访问感兴趣的数据集,或者下载后发现另一个问题(协议的第2步)。
潜在解决方案:
偶尔,研究人员可能无法访问平台上感兴趣的数据集,或者部分数据可能因技术错误而丢失。此外,研究人员可能会发现数据下载有问题,因为主题缺失,或者数据文件类型可能已损坏。在所有这些情况下,都应该联系托管数据集的组织。对于像ABCD这样的数据集,有专门的研究人员可以帮助解决数据访问问题。此外,像HCP这样的数据中心有一个网站,可以报告质量控制问题(https://wiki.humanconnectome.org/)。可以参考这一点,以确定是否可以为遇到的任何问题提供解决方案。最后,联系那些访问过或发表过这些数据的人是一个可行的解决方案。通过Twitter等社交媒体平台联系研究社区的其他成员是很常见的,根据我们的经验,这可能是一种帮助解决使用开源样本遇到的问题的有效方法。
问题4:
我想预先注册我的研究,作为减少p-hacking的一种方式(协议的第2步,第13步)。
潜在解决方案:
随着可用数据集的数量增加,研究人员可能会倾向于对许多不同的数据集进行许多不同的分析,直到“有些东西起作用了”,然后将结果写下来发表。预先注册打算使用的数据集,以及研究问题和分析计划,是一种解决方案,可以帮助防止从事“p-hacking”或数据挖掘的诱惑。有关如何预注册研究的更多信息,请参阅https://www.cos.io/initiatives/prereg。此外,我们重申发布无效结果对于该领域非常重要,尤其是在大型数据集上。让这成为该领域的规范有助于阻止其他研究人员进行p-hacking。
问题5:
数据集中存在混杂(方案步骤11)。
潜在解决方案:
在处理大型神经成像数据集时,混淆是一个现实。特别重要的是要考虑场地效应。许多公开可用的数据集(例如ABCD、ABIDE、UK-Biobank)包含多个站点,因此在分析时必须小心考虑这种潜在的混淆。具体来说,像ComBat这样的工具可以用来消除站点间的差异。此外,如果使用基于预测的方法,可以将整个站点作为测试样本(即,模型在N-1个站点进行训练,然后在N个站点进行测试)。准确的解决方案取决于分析目标;这只是两个可能有用的简单解决方案。参见(Alfaro-Almagro等人,2020年)对UK Biobank中混淆现象的详细讨论和解决方法。
总结:
总的来说,本文对想做公开数据研究的研究者非常友好的,有公开数据研究过程中的每一个细节,也能够帮研究者在进入公开数据研究之前做好相关的评估工作,是必读文档之一!