通过Cox回归寻找治疗靶点的5+分思路

2020-12-18 16:23:26 浏览数 (1)

大家好,今天和大家分享的是2020年8月发表在journal of cellular physiology(IF=5.546)上的一篇文章:“Prognostic scoring system for osteosarcoma using network-regularized high-dimensional Cox-regression analysis and potential therapeutic targets”。基于mRNA的表达数据和临床数据,作者开发了一种新的骨肉瘤患者预后评分系统。使用网络正则化高维Cox回归(network‐regularized high‐dimensional Cox regression,NET)分析mRNA的表达数据,根据回归系数和mRNA表达值确定预后风险评分,利用The Connectivity Map(CMap)预测骨肉瘤的治疗靶点。

Prognostic scoring system for osteosarcoma using network‐regularized high‐dimensional Cox‐regression analysis and potential therapeutic targets

基于网络正则化高维Cox回归分析的骨肉瘤预后评分系统及潜在治疗靶点

一、研究背景

骨肉瘤是一种可以产生恶性骨样物质且具有高死亡率的肿瘤,它在青少年中最常见。在过去的二十年中,骨肉瘤患者的生存率没有明显改善。随着个性化和精确化医学的发展,对患者的基因进行研究,以确定新的治疗靶点是目前的研究趋势。为了识别基因组数据中预后相关的变量,统计学家开发了许多新的分组变量的选择方法,如网络正则化高维Cox回归(network‐regularized high‐dimensional Cox regression, NET)分析。

二、分析流程
三、结果解读
1.预后评分系统

作者从GEO数据库下载了包含53例高级别骨肉瘤患者的mRNA表达数据和临床信息的数据集(GSE21257),其中34例来自5年内发生转移的患者,其余19例来自未发生转移的患者。患者特征总结在表1中。

表1.骨肉瘤患者具体信息和风险分组

作者使用Coxnet包对骨髓瘤患者基因表达数据进行网络正则化高维cox回归分析( network‐regularized high‐dimensional Cox regression, NET),评估OS和mRNA表达值之间的关系。

为了获得更有意义的结果,需要一些额外的参数。作者从六个大型数据库(Biocarta, HumanCyc, KEGG, NCI, Panther, Reactome)获取数据,使用graphite包构建了基因-基因通路矩阵作为正则化参数Ω。使用留一法进行NET分析来进行交叉验证,根据最小交叉验证误差确定混合参数α,该参数决定L1范数和L2范数的平衡。当α的值为1时,19个基因被选择;当α值为0.1时,148个基因被选择,图1和表2描述了根据α值选择的基因数量和预后意义。图1中横坐标为α值,纵坐标C-index是评价模型预测能力的一个指标(C-index大于0.75表示模型对OS具有优秀的预测能力),结果显示α的值为1和0.1时的对OS都有非常好的预测能力,考虑到其效率,最佳α值为1。预后风险评分为基因的表达水平与相应的回归系数的乘积之和。

表2.α值为1时的19个被选基因

图1.不同α值对应的变量数量和C-index

2.风险分层系统

基于预测评分系统,作者构建了风险分层系统对患者的预后进行预测。通过五折交叉验证根据c指数的大小确定风险分界值,所有患者的风险评分介于9.740和6.618之间,最佳的风险分界值为8.518559,样本被分为高风险和低风险两组(高风险:20,低风险:33;表1),两组之间包括年龄、性别和组织学等级在内的临床信息没有显著差异(表1)。

在应用最佳α值1时,高风险组和低风险组的OS具有显著差异(p < 0.0001,图2)。并且,预后评分系统系统获得了较高的c指数(0.967),而年龄和性别等其他变量则获得了较低的c指数,这证明风险分层系统在预测高级别骨肉瘤预后方面非常准确。

图2.高风险组和低风险组生存分析(OS)

如图3c所示,进行时间依赖性ROC曲线分析,AUC值为0.953~1.000,表示风险分层系统OS对具有优秀的预测能力。此外,作者还根据组织学分级将样本分为两个亚组(图4d为组织学1、2级的亚组,图4e为组织学3、4级的亚组),进行了生存分析,结果表明,在不同组织学分级的亚组中,高风险组和低风险组的OS同样具有显著差异。

图3.风险分层系统预测不同生存时间的ROC曲线

图4.按照组织学分级的亚组分析

经单因素Cox回归分析发现,GSE21257中的临床变量(年龄、性别和年级)与预后无显著相关性(表3),多因素Cox回归分析也得到了相似的结果。

表3.Cox回归分析

3.骨肉瘤治疗靶点的预测

作者使用The Connectivity Map(CMap)预测骨肉瘤的治疗药物和治疗靶点。CMap是由Broad研究所开发的一个基于干预基因表达的基因表达谱数据库,主要用于揭示小分子化合物,基因和疾病状态的功能联系。

在预后评分系统中,风险得分高表示预后较差,而风险得分低表示预后较好。按照此标准,表示良好预后的基因信号应为:具有正回归系数的基因下调,具有负回归系数的基因上调。将α值为0.1时选择的148个基因分为正和负回归系数组,将正回归系数组作为下调基因,负回归系数组作为上调基因输入到CMap程序。结果显示,BACE2、IN2、RBBP6、 SNX2等基因敲除或下调,linifanib和APEX抑制剂等药物的使用,可以改善骨肉瘤患者的预后;而SCAP、PREEN、KBTBD、 ZNF114基因敲除或下调,糖原合成酶抑制剂SB‐216763的使用,可能会导致预后变差(图4)。

图5.Connectivity Map分析结果

小结

基于从GEO数据库中获取的mRNA的表达数据和临床数据,作者开发一种新的骨肉瘤患者预后评分系统。对mRNA的表达数据进行NET分析确定回归系数,正则化系数Ω和混合系数α使分析结果更有意义。风险评分为基因的表达水平与相应的回归系数的乘积,通过五折交叉验证和c指数确定风险分界值,时间依赖性ROC曲线分析和亚组分析用于检验该系统的预测能力。使用The Connectivity Map(CMap)预测骨肉瘤的治疗药物和治疗靶点。

0 人点赞