Brain: 利用机器学习揭示精神分裂症两种不同的神经解剖亚型

2020-11-19 11:37:10 浏览数 (1)

《本文同步发布于“脑之说”微信公众号,欢迎搜索关注~~》

研究背景

越来越多的研究表明传统的精神疾病诊断体系有很大的局限性。被临床医生诊断为同一种疾病的群体,可能有很大的不一致性。同时被诊断为几种疾病的人,可能表现出同样的临床症状、拥有同样的脑影像异常等。对于同一种的疾病的异质性,以往的研究都没有考虑病人和正常人的差异,只是简单的将病人进行聚类,比如以前我们解读过Nature Medicine的那篇文章《Resting-state connectivity biomarkers define neurophysiological subtypes of depression》 。这篇文章最大的创新性有两个:一个是对揭示了精分的2个神经解剖亚型,另一个就是方法的创新,即用一种全新的半监督的聚类方法,来寻找精分的亚型。 那么这是一个什么方法呢?简单点来讲,如下图所示:

图1图1

首先,用监督的非线性学习算法找到病人和正常人的差异,即找到病人和正常人的分界线(面)。由于使用的非线性算法,那么病人和正常人多分解面是一个多面的凸面,那么不同的亚型的病人与正常人的分界凸面是不一样的。接下来,算法再根据这个差异,用无监督的方法将病人聚成几个亚型。整个过程一气呵成,多么美妙,为啥早没有想到咧! HYDRA算法充分利用了数据的信息,既利用了病人和正常人的差异,又利用了病人之间的差异。一般来讲临床上区分正常人和病人是比较可靠的,但是找到病人的亚型有些困难,那么这个方法就完美的解决了这个问题。

大概介绍了核心方法,接下来讲讲这篇文章是做了什么。最后大概讲解如何使用HYDRA聚类算法。不过如果你的数据是3D全脑或者其他任何类型的数据,那么可能会涉及到数据提取、读写、清洗、降维以及程序调试等过程。如果你不愿意花很多时间在这些上面,悦影科技可以在hydra自带的代码基础上,帮你定制适合你自己的处理流程,以及具体参数的解释。

精神分裂症的诊断在个体水平上具有极大的变异性,变异性反应在临床表现、病程、治疗反应性、功能结局和生物标记物的表达等多个方面。精神分裂症的异质性导致临床治疗指南的准确性大大降低并极大的干扰了研究的进行。很多学者试图使用症状亚型来研究异质性,然而收效甚微。事实上,诊断体系(如DSM-V)已经将大部分基于症状的精神分裂症亚型从分类方案中删除。通过使用结构MRI数据客观鉴别亚型来对生物异质性直接进行分层可能会获得更大的收益。本研究利用了最近开发的半监督机器学习方法HYDRA(异质性判别分析)对神经结构亚型进行鉴别。HYDRA通过模拟患者与健康对照组的差异对疾病效应进行聚类,而不是直接将患者进行聚类。这种方法限制了年龄、性别、扫描仪、种族和其他因素带来的混杂变化的影响,有助于识别真正的疾病亚型。

材料和方法

该研究共纳入了307名精神分裂症患者和364名健康对照,所有受试者的年龄在45岁或45岁以下。该研究的样本采集采用了多种扫描仪器(其中包括1.5T扫描仪),以便于所分亚型可以泛化到不同仪器扫描出的患者中。为确保所分亚型无中心/仪器偏倚,该研究将其中一个站点的数据保留,未参与模型的建立,从而验证亚型的可重复性。 研究使用多图谱分割对灰质、白质和脑脊液进行了分割,并计算灰质、白质和脑脊液的体积。 该研究利用健康对照组部分样本的线性模型对站点效应进行了校正,随后根据年龄和性别对感兴趣区体积进行了校正。以上基于健康对照组的调整和协变量校正过程也被应用在了体素水平的体积图。 研究人员利用HYDRA的方法测量感兴趣区的体积以确定亚型。与全监督机器学习不能区分患者亚型不同,HYDRA可以同时进行分类和聚类。该研究利用线性最大边距分类器对健康对照组和患者进行分类。利用超平面对患者进行聚类来实现亚型的划分。与非监督学习基于患者相似性进行聚类从而易于混淆与疾病无关的个体间差异不同,HYDRA可以有效的针对患者与对照组的差异而对患者进行聚类。HYDRA通过灵活地改变超平面的数目来计算更多的亚型。 该研究利用置换检验、分离样本验证法和留一站点检验法对亚型的可重复性进行了广泛的分析。 该研究使用区域线性多元判别统计映射(MIDAS)进行体素水平体积分析,以探讨亚型的神经解剖改变。与其他信息映射方法相比,MIDAS利用区域判别分析,在检测组间差异方面具有较高的敏感性和特异性。 研究人员利用Pearson’s相关分析对亚型内总灰质体积和病程之间的关系进行评估。利用两样本t检验对亚型间年龄、病程、药物剂量、发病年龄、阳性症状和阴性症状进行评估。利用卡方检验对性别、受教育程度和抗精神病药种类进行比较分析。

结果

研究人员使用校正兰德系数(ARI)对多种聚类方案(2类到8类)的一致性进行评估。在K=2(聚成2类)时,得到了最大的可重复性,ARI=0.616.K=3到8时,ARIs值约在0.4左右,较K=2时ARI值低。研究人员将聚成的每一类的ARI值和利用置换检验生成的随机分布进行比较。K=2时,ARI值较随机分布高(图2)。K=3时,ARI值与随机分布无统计学差异。K=4到8时,ARIs值虽然较随机分布高,但当K≥3时,亚型内引入了年龄、性别和站点差异。与其他聚类方案相比,K=2在折半比较分析中也具有较高的可重复性。仅当K=2时,体素水平的体积模式在聚成的两个亚型中也具有较高的可重复性。研究人员利用留一站点检验对亚型进行了可重复性分析。研究人员分别将每个站点的患者聚成两类,并将结果分别与三个站点同时聚类出的结果进行比较,两次聚类结果相同的患者达到86.72%(站点1中83.33%,站点2 中86.21%,站点3中90.63%)。

图2. n.s.= not significant图2. n.s.= not significant

两个亚型在神经解剖学在体素水平表现出了明显差异。与健康对照组相比,1型显示出灰质异常的分布模式(图3A)。与健康对照组相比,1型在丘脑、伏隔核、内侧颞叶、内侧前额叶和岛叶皮质表现出最显著的差异。此外,1型显示白质体积普遍减少(图3C)。相比之下,2型的脑解剖结构正常,但基底节(苍白球、壳核和部分尾状核)的灰质体积较大(图B)。与健康对照组相比,2型的深部结构,特别是内囊的白质体积也相对较大(图3D)。与健康对照组相比,两种亚型的脑脊液体积均轻度升高,主要分布在第三脑室和额叶间裂。

图3图3

将三站点同时聚类得到的结果与留一站点检验的结果相比较,体素水平的差异与上述结果一致(图4)。

图4图4

此外,研究人员还进行了广泛的敏感性分析确保以上结果未被样本量、性别、药物、疾病慢性程度及组织对比度等方面所影响。 1型患者的受教育程度相对较低(chi-square = 6.389, d.f. = 2, P = 0.041), 但1型和2型在年龄、性别、病程、抗精神病药物剂量、发病年龄、症状严重程度和抗精神病药物种类方面无差异。 在1型患者中,灰质体积与病程呈负相关(r=-0.201,P=0.016),在2型患者中则无此现象(r=-0.045,P=0.652)。

小结

该研究发现了精神分裂症具有两种神经解剖亚型,从而说明了精神分裂症的神经解剖差异具有2个明显不同的方向。这一发现挑战了脑容量减小为精神分裂症普遍特征的这一传统观点,并表明了精神分裂症的患者具有不同的病原学机制。这一发现将为促进未来的精准诊断做出贡献。

HYDRA简单的使用方法

1.首先当然是下载代码,下载地址:https://github.com/evarol/HYDRA。点击红色圈圈的“Download ZIP”。如果安装了git,就可以在终端使用git clone …命令下载。

图5图5

2. 解压到本地,比如D:/HYDRA。然后setpath到matlab的搜索路径。 3. Matlab切换到软件路径D:/HYDRA,并用软件自带的如下例子测试是否可用: hydra(’-i’,‘test.csv’,’-o’,’.’,’-k’,3,’-f’,3); 其中’-i’,‘test.csv’参数对是你待聚类的数据(如果你的数据在其他路径,记得前面用绝对路径加文件名,如D:/HYDRA/ test.csv)。test.csv如下图所示,第一列是被试的编号,组后一列是标签,中间的为特征(比如AAL模板90个脑区的灰质体积,全脑体素水平的ReHo等,如果维度太大建议进行特征筛选和降维处理):

图6图6

‘-o’,’.‘参数对表示是结果保存路径,’.‘表示保存在当前路径。 ‘-k’,3参数对表示聚类的最大数目,3,表示聚类的范围是[1,2,3]。默认步长是1,其实聚类数目是1。这些参数都可以修改。 ‘-f’,3参数对表示交叉验证的fold数目。 4. 结果查看。以下就是HYDRA运行出的结果。

图7图7

ARI:校正兰德指数,一种衡量聚类结果好坏的指标,越大越好。此例子中,排名第3的ARI最大,说明应该聚成3个类最好。 CIDX:分别聚成i(i=1,2,3; 参考’-k’,3参数对说明)个类别的类别标签,其中-1的不用管,因为其都是正常人,而正常人只是做参考得到凸面用。 Clustering: 聚类的数目范围,即在这个范围内分别尝试,最后看那个聚类数目的ARI最大,就认为那个聚类数目最好。参考’-k’,3参数对说明。 ID:CIDX对应的被试编号,用于确定被试。 注:此例子中,我们得到将患者聚成3个类最好,那么就提取CIDX第三列数据和对应的ID即可。 具体使用方法和参数可以通过help hydra来查看。

参考文献:Two distinct neuroanatomical subtypes of schizophrenia revealed using machine learning

csv

0 人点赞