大家好,今天和大家分享的是今年3月份发表在Cancers (IF:6.126)杂志上的一篇文章,The Impact of Normalization Approaches to Automatically Detect Radiogenomic Phenotypes Characterizing Breast Cancer Receptors Status”,作者希望通过不同归一化方法处理影像学相关表型数据后,不同机器学习方法对于鉴别乳腺癌受体状态的性能情况。
The Impact of Normalization Approaches to Automatically Detect Radiogenomic Phenotypes Characterizing Breast Cancer Receptors Status
标准化方法对于乳腺癌受体状态的影像学表型自动检测影响
一、研究背景
在乳腺癌研究中,影像学特征的定量(quantitative radiomic)和基因组学的结合可以帮助鉴定和描述基因组表型(radiogenomic phenotypes,)以及乳腺癌相关受体的状态。
在先前的研究中,有研究者通过提取影像学的特征来区分不同类型乳腺癌中的受体表达,并结合机器学习等算法实现了高分类性能的模型构建。
然而,在先前的研究中,对于数据的归一化的重要性往往被低估。尽管影像组学通常会在数据的预处理执行归一化以降低图像之间的技术变异来,但在乳腺癌中进行额外的特征归一化来进一步降低可能的偏倚仍有待研究。
因此,作者试图通过TCIA(The Cancer Imaging Archive)-TCGA数据集,探究几种归一化方法对研究乳腺肿瘤影像学特征与乳腺肿瘤受体ER、PR、HER2、TN 状态之间关系的影响。
二、研究思路
三、结果解析
1、不同归一化方法之间相关性探究
作者对整个数据集进行相关分析,研究非归一化和归一化影像学特征之间的关系,使用了七种不同的归一化技术:
- 标准化(scale):min-max 标准化(即缩放方法) ,其中每个特征在0到1的范围内被标准化。
- Z值(Z-score):使用特征值、平均值及标准差构建
- 稳健Z值(robust z-score ):从数据点的给定群体的中位数(μ1/ 2)和“中值绝对偏差”(MAD)来计算
- 对数转换(log-transformation (base 10))
- 上四分位数(upper quartile normalization ):样本计数除以总体的75% 百分位数
- 百分位数(quantile normalization):通过获取样本中每个分位数的平均值而获得的平均分布来转换原始数据来迫使观察到的分布相同
- 白化(whitening normalization):来源于PCA,基于一个线性映射分析,它将具有已知协方差矩阵的随机变量的向量转换成一组新的变量,其协方差是单位矩阵。
作者使用spearman相关秩对归一化后的结果与原先结果的相关性进行了比较:
图2:数据集非归一化与归一化影像学特征的相关性分析
- 非归一化的影像学特征与scale、z 值、稳健z 值和上四分位归一化特征完全相关
- 在LOG 变换方法和非归一化特征之间,只有E1、S1、S3和S4四个影像学特征之间的相关性较差(小于0.8)
- 36个影像学特征中的十六个和三十个分别与分位数和白化归一化方法的影像学特征的相关性很差
随后,作者进行了Bland Altman 分析(一种可视化观察两组连续变量一致性的方法)用来观察Spearman 秩系数小于0.8的影像学特征的一致性和分布情况。相关分析的结果得到了Bland Altman 分析的支持。
2、不同归一化方法与受体状态之间的联系
作者随后探究了对MRI特征进行不同归一化之后其与不同受体之间的联系。
作者使用Wilcoxon检验来计算影像学特征与ER之间的相关性。在表3及图3中呈现了具有显著p值的影像学特征。
表3:不同标准化数据下的影像学特征与ER受体的相关性(双箭头表示p<0.05)
图3A:与ER受体状态相关并具有统计学意义的影像学特征
- 36个影像学特征(T5、T11、S1、S2、S3和G3)中有6个在非归一化、scale、zscore、稳健zscore、对数转换和上四分位处理后的影像学特征与ER-和ER 之间有显著变化。其中三个特征(T5、T11、G3)在ER-病例中显著下降,而其余三个特征则呈显著上升趋势。
- 对于分位数归一化,T5、T11、S2、S3和G3这五个特征与ER的变化有着显著相关性。
- 在白化归一化方面,只有T11、S2和G3三个特征在与ER的变化有着显著相关性。
作者随后计算了影像学特征与PR之间的相关性。在表4及图3B中呈现了具有显著p值的影像学特征。
表4:不同标准化数据下的影像学特征与PR受体的相关性(双箭头表示p<0.05)
图3B:PR受体上具有统计学意义的影像学特征
- 36个影像学特征中的5个(E3、E4、T4、T5和T6)在非归一化、标度化、z 评分、稳健z评分、对数转换、上四分位数和分位数影像学特征方面表现出PR-和PR 之间的显著变化。这5个特征中的3个(E3、E4、T5)在PR 状态上显著降低,而其余2个特征则显著增加。
- 白化归一化方法处理的数据中,只有T2、T5和S2三个影像学特征在PR- 和PR 之间有显著变化。
- T2、T5在PR-样本中数值较小,S2在PR-的样本中数值更大。
作者以同样的方法计算了影像学特征与HER2之间的相关性。在表5及图3C中呈现了具有显著p值的影像学特征。
表5:不同标准化数据下的影像学特征与HER2受体的相关性(双箭头表示p<0.05)
图3B:HER2受体上具有统计学意义的影像学特征
- 除了白化转换之外,所有的归一化方法的36个影像学特征中没有一个在HER2-和HER2 之间显示出显著的变化。
- 白化归一化方法中,三种影像学特征(K6、T8和M3)在HER2-和HER2 之间有显著的变化。
在这一部分最后,作者探究了三阴性乳腺癌受体状态与影像学特征之间的相关性。在表6及图3D中呈现了具有显著p值的影像学特征。
表5:不同标准化数据下的影像学特征与三阴性状态下受体的相关性(双箭头表示p<0.05)
图3B:三阴性受体状态下具有统计学意义的影像学特征
- 36个影像学特征(E2、G2、S1、S2和S3)中的5个在非归一化、标度化、z 分值、稳健z 分值、对数变换、上四分位数和分位数影像学特征方面显示出TN 和其他特征之间的显著变化,这5个特征在TN 状态下均有数值显著增加。
- 白化归一化方法中,五种不同的影像学特征(E2、T6、T11、G2和S2)在TN与其他特征之间表现出显著的变化。
3.挑选与受体状态相关的miRNAs以研究影像学特征与miRNAs的关系
先前研究中证实乳腺癌中常发生miRNA的异常表达,并与一些影像学特征相关。因此作者计算了训练集中的不同受体状态样本的miRNA表达差异,筛选出10种差异表达的miRNA,以用来研究影像学特征与miRNA表达的关系。
作者探究了miRNA与ER ,PR ,HER2和三重阴性受体状态的关系:
- miRNA(hsa-mir-122,hsa-mir-653,hsa-mir-9.2,hsa-mir-135a. 2,hsamir-184)在ER 受体状态中的表达差异具有统计学意义。
- miRNA(hsa-mir-653,hsa-mir-9.2,hsa-mir-184)在PR 受体状态中的表达差异具有统计学意义。
- miRNAs(hsa-mir-653,hsa-mir-135a. 2)的表达与HER2状态具有统计学意义。
- 4个miRNAs 表达(hsa-mir-122,hsa-mir-653,hsa-mir-9.2,hsa-mir-184)在TN 患者中有统计学差异。
4.miRNAs与影像学特征的关联分析
因为在前文的分析中,受体状态与影像学特征关系具有统计学意义是基于不同归一化方法来源的数据进行分析的。作者决定给选用以下两种方法进行归一化的数据进行分析:
- 上四分位数归一化方法(UQ)
- 白化方法(WHT)
作者将样本在先前以ER,PR,HER以及TN状态进行分组分析发现有相关性的影像学特征与miRNA进行关联分析,并着重关注TN病例的分析结果(与临床实践关联更大)。
考虑到影像学特征与基因组学的特征分布不是正态的,作者使用Spearman相关秩对miRNAs与影像学特征的关系进行分析,并根据相关性绘图(深浅与大小表示相关程度,颜色表示相关方向)。
在对于ER受体分组的分析中,作者发现:
图4AB:ER相关的影像学特征与miRNA相关性
A:基于UQ归一化 B:基于WHT归一化
- ER-状态下UQ归一化的影像学特征中的形状特征G3(基于3D 病灶重建的表面积与体积之比)与hsa-mir-526b之间具有统计学意义的负相关性
- ER-状态下WHT归一化的影像学特征中的形状特征G3与hsa-mir-9.2相关(图上未展示)
在对于ER受体分组的分析中,作者发现:
图4CD:PR相关的影像学特征与miRNA相关性
C:基于UQ归一化 D:基于WHT归一化
- PR -状态下,UQ 归一化放射组学特征T5(角秒矩/能量,angular second moment/energy)和T6(熵)与hsa-mir-9.2成反比。这些增强的纹理特征反映了图像灰度层次的均匀性和随机性。
- PR -状态下,WHT 归一化放射性核素特征(T5和T2)与不同miRNAs (hsa-mir-135a. 2,hsa-mir-184,hsa-mir-206)相关
因为在前文的探究中发现只有WHT处理后的影像学特征与HER2的受体状态存在统计学差异,作者在这里只对WHT处理后的影像学特征数据中显示出统计学显著性的特征与miRNA进行关联性分析。
图4E:基于WHT归一化的HER2相关的影像学特征与miRNA相关性
- 形态学特征M3与hsa-mir-486.2相关,虽然这种联系没有统计学意义
接着作者对于影像学特征中与TN有显著关系的特征进行miRNA关联分析:
图4FG:PR相关的影像学特征与miRNA相关性
F:基于UQ归一化 G:基于WHT归一化
- 基于UQ归一化的影像学特征的相关性分析中,没有相关性显现出统计学意义。
- 使用WHT归一化的影像学特征的相关性分析中,hsa-mir526b、hsa-mir-486-1和hsa-mir-486-2与形状特征G2之间存在负相关性,基于病变体积相同的球体有效直径的计算的大小特征S2与hsa-mir-206、hsa-mir-486-1、hsa-mir-486-2呈现正相关,与hsa-mir-653呈负相关。
5.通过机器学习基于影像学特征训练乳腺癌分类器
作者随后使用支持向量机(SVM),随机森林(RF)和朴素贝叶斯(NB)对每种归一化方法及影像学特征的所有可能组合进行训练,选用最佳特征组合在测试集进行分类器性能AUC的测试。
作者首先研究了分类器对于ER受体状态的分类情况:
图5:基于不同训练方法、不同归一化下最佳性能的ER分类器性能指标
随后,作者挑选了每种机器学习方法中最佳的分类器(AUC值最大,相同AUC时选择需要特征较少的分类器)
图6A:最佳的ER分类器相关信息
图6B:不同ER分类器的ROC曲线情况
作者以同样的方法训练挑选了PR分类器,HER2分类器以及TN分类器
图7:基于不同训练方法、不同归一化下最佳性能的ER分类器性能指标
图8:最佳的PR分类器性能指标及ROC曲线
图9:最佳的HER2分类器性能指标及ROC曲线
图10:基于不同训练方法、不同归一化下最佳性能的TN分类器性能指标
图11:最佳的HER2分类器性能指标及ROC曲线
作者发现利用机器学习算法构建分类器时,增强纹理特征是肿瘤受体状态的最佳预测特征。此外,影像学特征具有对肿瘤基因组状态很高的预测能力
- 在ER、HER2和TN分类器中,随机森林的AUC 分别为86% 、91% 和91%
- 朴素贝叶斯方法优于其他方法检测PR 病例(AUC=93%)。
- 与其他研究对比,采用归一化后的数据进行分类器的训练具有更高的分类性能
小结
作者在本文中通过研究不同归一化方法下影像学特征与受体的相关关系,筛选出更能体现出与受体关系的归一化方法及影像学特征,并联合基因组进行miRNA与这些筛选出的特征关联分析。
在模型构建的步骤中,作者采用了三种机器学习的方法:支持向量机,随机森林,朴素贝叶斯来进行分类器的训练,并对比不同归一化方法、不同特征组合的最佳性能,其模型相较于其他研究更高的AUC也证明了归一化方法对于乳腺癌影像组学研究的重要性。
本研究的局限性主要在数据的陈旧以及不统一的来源,这导致研究结果对于经过了迅猛发展的MRI技术和标准统一后影像结果的推广性下降。
还是和往常一样,点击原文链接,即可获取今天小编为大家解读的文献。本期的分享就到这里啦,一起期待下一期的精彩分享吧~
编辑:虾仁饭
校审:炒年糕 糯米饭