2022一区11+!cfDNA 构建I 期肺腺癌早筛模型!

2022-12-04 17:35:04 浏览数 (1)

导语

早期诊断有利于肺癌患者生存率的提高,但大多数患者是在转移后诊断的。尽管可利用细胞游离 DNA (cfDNA) 对肺癌患者进行早期诊断,但目前其检测早期肺癌的敏感性并不令人满意。

背景介绍

cfDNA的相关研究已经成为热潮,今天小编为大家带来的这篇文章,作者利用 cfDNA 片段组学开发了侵袭性 I 期肺腺癌 (LUAD) 的预测模型,文章发表在《eBioMedicine》上,影响因子为11.205,文章题目为:Sensitive detection of stage I lung adenocarcinoma using plasma cell-free DNA breakpoint motif profiling。

数据介绍

本研究主要招募了来自中国三个医疗中心(中心I:中国医学科学院肿瘤医院;中心II:北京协和医院;中心III:中日友好医院)的292名I期LUAD患者和230名健康志愿者,统一对血浆样本采集、运输和储存、cfDNA 提取、文库制备和 WGS 分析。

技术路线

本研究技术路线如图所示。

结果解析

01

用于预测模型构建的cfDNA片段组学特征和机器学习模型选择

本研究通过结合三种机器学习方法测试三个 cfDNA 主题特征来进行预测模型的构建和选择,分别是逻辑回归、深度学习和 XGBoost。cfDNA 片段组学特征包括 4bp 末端基序、6bp 末端基序和 6bp 断点基序。根据评估,本研究确定 6bp 断点基序的逻辑回归模型比其他模型具有更高的检测能力,因此采用该模型进行详细的性能评估(图 1b)。

图 1

预测模型对I期LUAD的AUC为0.977,灵敏度为96.5%,特异性为93%,超过任何其他组合(图2a和2b)。此外,本研究还发现,不同的机器学习算法和motif特征组合可以在不同的研究队列之间产生不同的检测性能(图2a和2b),突出了优化模型参数的重要性。

接下来本研究采用分层聚类分析来识别癌症患者与健康对照组血浆cfDNA 6bp断点基序的不同特征(图2c)。在训练模型中,本研究识别了65个非零系数的6bp断点基序,并将这些基序用于合并的内部和外部验证数据集的层次聚类分析。所选断点基序的z分数是根据每个参与者血浆cfDNA中基序的频率计算出来的,一步分析了对训练队列中的机器学习模型贡献最大的四个代表性断点基序。在验证队列中,本研究在LUAD和健康受试者之间发现了所有四个基序频率的显著差异(图2d)。具体而言,基序 AATTGC 的频率在患者中显著降低,而其他三个基序 GCAGTA、GCACTT和CTCAAA的频率在癌症患者中显著升高。

图 2

基于 5 × 的 WGS 数据,本研究的模型表现出卓越的检测能力,模型 AUC在内部和外部验证队列中分别为 0.985和 0.954(图 3a)。在内部验证队列中,其预测灵敏度达到 98%,特异性为 94.7%(表 1)。当将内部验证队列中的 94.7% 特异性的样本癌症评分 0.3275(图 3b)应用于外部验证队列时,该模型始终敏感,敏感度为 92.5%,特异性为 90% (表 1)。如图 3b 所示,肺癌受试者的癌症评分高于健康受试者。

图 3

表 1

02

评估预测模型的稳健性和检测灵敏度

使用 6bp 断点主题机器学习模型,本研究重新访问了原始覆盖 WGS 数据。在 5× WGS 数据训练模型中测试了原始覆盖 WGS 数据,无论使用原始覆盖还是 5× 覆盖 WGS 数据进行建模和预测,得到的模型基本上显示出一致的检测能力。因此本研究将使用基于 5 ×覆盖的 WGS 数据和模型进行其余的评估。

接下来,本研究通过进一步逐渐将 WGS 数据下采样到 ~0.5×,来确定模型的稳健性并评估其在更低测序深度下的性能。在将 WGS 覆盖范围下采样到 4×、3×、2×、1× 和 0.5×后,本研究发现它们的 AUC 值在内部 (> 0.97) 和外部 (> 0.91) 验证队列中始终保持较高水平(图 3c 和 3d)。

03

预测模型在识别早期LUAD中的性能

接下来本研究进一步研究了模型在不同肺癌亚组中的表现。如图4和表2所示,肺癌患者不同亚组间类间检测灵敏度一致,不同类间无显著性差异,对于内部和外部验证队列的患者,本研究的模型对早期病理特征具有较高的检测敏感性,包括微创腺癌(MIA)、IA期肿瘤和小尺寸(< 1cm)肿瘤,在95%的特异性上具有较高的灵敏度。

图 4

本研究的预测模型在识别I期LUAD方面具有较高的性能,其输出也与疾病的发展相一致。通过分析根据肿瘤分期或大小分组的验证队列中患者的癌症评分,本研究观察到评分分布分别从IA期到IB期或从小肿瘤到大肿瘤呈上升趋势。此外,基于分化等级,本研究的模型对侵袭性和低侵袭性肿瘤具有一致的检测能力。最后,无论性别、年龄、肿瘤位置、病灶程度、组织学类型以及吸烟、饮酒等潜在危险行为,该模型在鉴别LUAD时均表现出一致且高灵敏度(表2)。

表 2

小编总结

本研究专注于LUAD的早期检测,利用了从WGS数据中提取的cfDNA片段组断点基序,证明了血浆cfDNA的机器学习模型是一种有前途的方法,以区分早期患者和非癌症受试者。本研究的模型表现出优越的检测能力,特别是对早期和小尺寸的肿瘤,并对低覆盖率的WGS数据(0.5×)表现一致。本研究的局限性在于尽管cfDNA断点基序在检测I期LUAD方面表现优异,但其机制尚未完全了解;而且本研究模型的证明仍需要大量数据。总之,本研究在cfDNA的角度进行了研究与挖掘,立题新颖,值得大家学习!

0 人点赞