癌症研究资源推荐 | Nature子刊：基础和转化癌症研究中的大数据

近日，《Nature Reviews Cancer》发表了一篇综述文章，全面回顾了利用大数据推进癌症研究和治疗的技术现状和未来挑战，其中包含超实用的癌症研究数据库、分析平台、研究策略等信息。

癌症研究常用资源

常见的数据类型

癌症研究中有五种基本数据类型：分子组学数据、微扰表型数据、分子相互作用数据、成像数据和文本数据。分子组学数据描述细胞系统和组织样本中分子的丰度或状态。这些数据是癌症研究中从患者或临床前样本中产生的最丰富类型：

癌症研究中常见的分子组学数据类型

扰动表型数据描述了细胞表型，如细胞增殖或标记蛋白丰度，在基因水平或药物治疗的抑制或扩增后如何改变。常见的表型实验包括使用CRISPR敲除、干扰或激活的扰动筛选；RNA干扰；开放阅读框的过度表达；或者用药物库进行治疗。作为一种限制，由于需要可遗传操作的活细胞，从临床样本中产生扰动表型数据仍然是一种挑战。

分子相互作用数据描述了分子通过与不同“伙伴”相互作用的潜在功能。常见的分子相互作用数据类型包括蛋白质-DNA相互作用、蛋白质-RNA相互作用、蛋白质-蛋白质相互作用和三维染色体相互作用的数据。与扰动表型数据类似，分子相互作用数据集通常使用细胞系生成，因为它们的生成需要大量的材料，往往超过了临床样本的数量。

诸如健康记录、组织病理学图像和放射学图像等临床数据也具有相当大的价值。分子组学和图像数据之间的边界不是绝对的，因为两者都可以包括其他类型的信息。

数据库和分析平台

癌症研究的关键数据资源概述：1）第一类包括来自系统地产生数据的项目的资源。例如，TCGA产生了超过10,000个癌症基因组和匹配的正常样本的转录组、蛋白质组、基因组和表观基因组数据，横跨33种癌症类型。

生成癌症基因组数据集的大型项目

第二类描述了展示来自上述项目的已处理数据的存储库，如Genomic Data Commons，托管TCGA数据供下载。

存储癌症基因组数据的数据仓库

第三类包括Web应用程序，这些应用程序系统地集成了不同项目的数据，并提供交互式分析模块。例如，TIDE框架系统地收集了来自免疫肿瘤学研究的公共数据，并提供了互动模块，以研究肿瘤免疫逃避和免疫治疗反应的途径和调节机制。

能够对癌症数据集进行交互式分析的Web应用程序

癌症数据整合分析策略及转化研究

整合分析

尽管数据密集型研究可能产生数百名患者的组学数据，但癌症研究的数据规模仍远远落后于计算机视觉等其他领域。跨队列整合和跨模态集成可显著增强大数据分析的稳健性和深度。

在转化应用和基础研究中使用大数据的考虑

跨队列数据整合。其一般方法是获取与新研究主题相关或与新数据集具有类似研究设计的公共数据集。然而，使用公共数据进行新的分析具有挑战性，因为每个公布的数据集背后的实验设计都是独特的，需要劳动密集型专家解释和人工标准化。最近的数据管理框架提供了自然语言处理和半自动功能，以将具有异构元信息的数据集统一为可用于算法分析的格式。此外，还需要留意由实验室、个别研究人员的技术或平台或其他非生物因素的差异引起的批次效应，流行的批量效应校正方法包括使用经验贝叶斯估计器计算校正数据的ComBat包和Seurat包。

跨模态数据整合。不同数据类型的跨模态集成是一种有希望的、有成效的方法，可以最大限度地利用从数据中获得的信息，因为嵌入每种数据类型中的信息通常是互补和协同的。以TCGA等项目为例，它提供了同一组肿瘤的基因组、转录组、表观基因组和蛋白质组数据。最近一个跨模态数据整合的例子使用了单细胞多组学技术，该技术允许将基因组范围的转录组学和染色质可及性数据与少数感兴趣的蛋白质一起测量。另一种常见的多模态数据分析涉及整合分子组学数据和物理相互作用网络（通常涉及蛋白质-蛋白质或蛋白质-DNA相互作用的网络）数据，以了解单个基因如何相互作用，从而驱动癌发生和转移。

通过数据再利用进行知识转化。现有的数据可以被利用来做出新的发现。例如细胞分数去卷积技术可以推断体肿瘤转录组学谱中单个细胞类型的组成。数据重用可以帮助开发新的实验测试，例如现有肿瘤全外显子组测序数据用于优化循环肿瘤DNA测定。迁移学习方法是解决与数据重用相关的这种差异的一种有前景的方法。这些方法包括在大型相关数据集上训练神经网络模型，然后在较小的目标数据集上微调模型。

转化研究

从数据队列中训练诊断生物标志物

癌症转化大数据研究的一个主要重点是开发用于预测疾病风险的基因组学测试，其中一些已经获得FDA批准并商业化用于临床。与通过生物机制和经验观察发现生物标志物不同，大数据衍生测试分析来自许多患者和队列的基因组学数据，以生成用于临床分析的基因特征。这种预测因子主要帮助临床医生确定所需的最小治疗积极性，以尽量减少不必要的治疗和副作用。这类测试的成功取决于其高阴性预测值--反映真正阴性结果的阴性测试比例--以便不错过需要积极治疗选项的患者。

从大数据中训练出来的诊断性生物标志物测试的一些早期例子包括对雌激素受体（ER）或孕激素受体（PR）阳性乳腺癌患者的预后检测，如Oncotype DX、MammaPrint、EndoPredict和Prosigna。其他癌症类型的预测器包括结肠癌和前列腺癌的Oncotype DX生物标志物和早期肺癌的Pervenio。

近年来DNA测序成本的快速下降可以使治疗决策直接从基因组学数据中获得信息，并带来比传统方法显著的优势。与治疗决策相关的基因改变可能涉及多种形式，包括单核苷酸突变、DNA插入、DNA缺失、拷贝数改变、基因重排、微卫星不稳定性和肿瘤突变负担。这些改变可以通过结合基于杂交的捕获和高通量测序来检测。MSK-IMPACT和FoundationOne CDx检测了300-500个基因，可以使用福尔马林固定、石蜡包埋的肿瘤样本中的DNA检测致癌改变，并确定可能受益于各种治疗的患者。

未来的治疗决策计算框架应考虑变异的许多方面和推断的生物过程，以及其他临床数据，如组织病理学数据、放射学图像和健康记录。

由分子数据指导的临床试验

全基因组和多模态数据已开始在前瞻性多组临床试验中的患者匹配中发挥作用，特别是那些研究精确治疗的试验。其他类似的试验已经证明，基于全基因组基因组学或转录组学数据，匹配患者以非标签使用靶向治疗的效用。最近的一项研究证明了N-of-one策略的可行性和价值。

在组学数据指导下使用非标签药物的前瞻性临床研究

随着这些初步的成功，新兴的临床研究旨在收集批量样本测序之外的额外数据--如各种药物治疗后的肿瘤细胞死亡反应或在纵向病人样本上收集的scRNA-seq数据--以研究治疗反应和抗性机制。除了从肿瘤样本中产生的组学数据，跨模态的数据整合也是改善治疗建议的一个潜在策略。其中一个很有前景的方向涉及合成致死性相互作用的研究和应用，一旦与肿瘤转录组图谱整合，就可以准确地对药物靶点的重要性进行评分，并预测许多抗癌治疗的临床结果，包括靶向治疗和免疫治疗。可预见到新的数据模式和检测方法将为设计临床试验提供更多的方法。

人工智能用于数据驱动的癌症诊断

数据驱动的人工智能支持癌症诊断

基于深度神经网络的人工智能方法是一种新兴的方法，用于整合临床诊断中的数据类型。人工智能在分析成像数据方面最常用的应用包括临床结果预测、用苏木精和伊红（H&E）染色的组织的肿瘤检测和分级。

除了组织病理学，放射学是人工智能成像分析的另一个应用。使用3D计算机断层扫描体积的深度卷积神经网络已被证明可以预测肺癌风险，其准确性与经验丰富的放射学家的预测相当。类似地，卷积神经网络可以使用计算机断层扫描数据对肺癌患者的生存期进行分层，并强调肿瘤周围组织在风险分层中的重要性。

此外，人工智能框架已开始在分析电子健康记录方面发挥重要作用。除了图像和健康记录之外，在其他数据类型上训练的人工智能还具有广泛的临床应用。

新的人工智能方法已经开始在生物知识发现中发挥作用。显著图和和类激活图可以突出输入图像中驱动预测结果的基本部分。另外，在多样本队列中，根据深度学习嵌入的相似性对数据切片进行聚类，可以揭示出与临床结果相关的可解释的特征。

尽管上面描述了有希望的结果，但由于一些限制，很少有基于人工智能的算法达到临床部署。首先，当大多数人工智能预测器应用于与训练数据产生的环境不同的测试数据时，其性能会不稳定。其次，有监督的人工智能训练需要大量的注释数据，获取足够的人工注释数据可能具有挑战性。此外，如果特征不存在于训练数据中，AI将不会做出有意义的预测。

新疗法的开发得到了大数据分析的帮助。开发新药成本高、耗时长、失败率高。新疗法的开发是大数据应用的一个有前景的方向。同时，大数据已经被用来帮助重新利用现有的药物来治疗新的疾病和设计协同组合。最近的研究结合了药理学数据和人工智能来设计新药（下图）。人工智能也可用于目标蛋白结构上的生物活性配体的虚拟筛选。

利用生成性人工智能模型设计新型激酶抑制剂

大数据用于突破治疗瓶颈

理想情况下，设计良好的药物组合应针对肿瘤中的各种耐药细胞亚群，并诱导强有力的反应。已经开发了计算方法来设计协同药物对；然而，即使有全面的训练数据，药物协同作用也可能无法预测。药物组合在杀死异质性肿瘤细胞的同时避免对正常组织的毒性影响，理论上可能存在一个局限性。伴随着治疗设计工作的一个重要挑战是确定可以预测毒性的基因组生物标志物。

尽管许多大数据的进步令人鼓舞，，但在癌症研究和临床中的大数据应用方面仍存在相当大的挑战：1）数据可用性不理想。癌症数据科学的一个关键挑战是数据和代码的可用性不足。有时，即使解决了安全和隐私问题，已发表的癌症基因组学数据所附带的临床信息也没有提供或完整。尽管许多期刊要求公开发布数据，但由于知识产权和各种其他考虑因素，这些要求通常通过将数据存放到需要作者和机构批准访问请求的存储库来满足。此外，存放的数据可能缺少关键信息。2）数据规模上的差距。如前所述，可用于癌症治疗的数据集要比其他领域的数据集小得多。造成这种差距的一个原因是，医疗数据的生成依赖于经过专业培训的科学家。此外，生物医学数据的可用性通常受到人口遗传背景的限制。数据规模差距的另一个原因是癌症临床和生物学研究缺乏数据生成标准。

全球研究界未来对扩大癌症数据集的投资将是至关重要的，以使更好的计算模型能够推动基础研究、癌症诊断和新疗法的发展。

此篇综述作者文中已声明由于癌症大数据主题范围较广，可能存在疏漏；另外由于篇幅有限，更多细节可参考文献原文：https://www.nature.com/articles/s41568-022-00502-0

对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出，互相交流学习！

参考文献

Jiang P, Sinha S, Aldape K, et al. Big data in basic and translational cancer research[J]. Nature Reviews Cancer, 2022: 1-15.

图片均来源于参考文献，如有侵权请联系删除

数据库 sql 大数据神经网络深度学习数据库数据分析工具癌症

0 人点赞