MATH值量化肿瘤异质性有一定的临床意义

2019-05-08 17:20:16 浏览数 (1)

昨天我们分享的使用MATH值的研究 MATH值代表的肿瘤异质性在乳腺癌与生存关系不显著 提到了其临床意义不稳定,但是今天要分享的 这篇文章, Sci Rep. 2018 Jul 后面4个月在Oncotarget. 2018 https://doi.org/10.18632/oncotarget.26485 发出来,也是使用MATH值量化肿瘤内部异质性,下载了TCGA数据库的16种癌症的MAF文件,纳入超过6000个病人的信息。

但是作者后续的分析,只挑选了more functional (MF) mutations, 就是那些被PolyPhen-2软件认定为是“probably damaging” or “possibly damaging” 的 469,553 位点。

每个样本计算3个指标:

  • maximum value for probability density function of VAF distribution of MF mutations (m_Peak),
  • log2the total number of MF mutations
  • MATH score for MF (m_MATH)

然后跨癌症的比较六千多病人的这3个指标,使用PCA分析,然后用k-mean对前2个主成分进行聚类, 得到5类:

  • clusters 1 and 2 harbored more MF mutations than the other three clusters
  • Samples in clusters 3, 4, and 5 had fewer MF mutations than clusters 1 and 2

既然病人成功分组,接下来就可以多种分析啦,比如分组的突变特征,分组的临床信息。

使用CART算法, 分类回归树, 决策树,可以根据3个指标把病人分组为这5个cluster

决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树结构,其规则就是IF…THEN…的思想,可以用于数值型因变量的预测和离散型因变量的分类。该算法简单直观、通俗易懂,不需要研究者掌握任何领域知识或复杂的数学推理,而且算法的结果输出具有很强的解释性。

使用决策树过程中,有两个非常重要的核心问题需要解决,一个是决策树中节点字段的选择,另一个是决策树的剪枝(在实际应用中,我们是不期望决策树盲目生长的,因为这会导致模型的过拟合)。

0 人点赞