Nat. Commun. | 基于知识图谱推荐框架识别EGFR突变型非小细胞肺癌耐药的驱动因子

2022-04-19 10:31:27 浏览数 (1)

编译 | 俞正秋

本次报道的论文来自阿斯利康AI工程总监Eliseo Papa带领的研究团队发表在nature communications上的Knowledge graph-based recommendation framework identifies drivers of resistance in EGFR mutant non-small cell lung cancer。这篇研究基于BIKG知识图谱构建推荐系统来寻找EGFR突变阳性非小细胞肺癌耐药机制的驱动因子。

1背景

随着生物医学数据呈指数级增长,经典的推荐系统方法移植至生物医学领域呈现出巨大潜力,可以帮助研究者快速浏览数据并从中进行知识推理。

耐药性阻碍肿瘤治疗的发展。本研究关注激活表皮生长因子受体(EGFR)突变的非小细胞肺癌(NSCLC)。NSCLC占肺癌患者的15-20%,使用第一代或第二代EGFR- TKI(如吉非替尼、安罗替尼或阿法替尼)进行治疗的患者往往初期疗效显著,但后期出现耐药。大多数耐药病例由于EGFR获得性耐药引起的,如出现T790M突变阳性。奥希替尼作为第三代EGFR-TKI,被用于EGFR-T790M突变阳性的局部晚期或转移性NSCLC的一线治疗。尽管奥希替尼疗效显著,但在6–26%的病例中,EGFR的获得性突变(如C797S)导致了奥希替尼耐药。

CRISPR-Cas9的基因敲除、敲降、敲入技术是系统性研究耐药机制有效的高通量技术。CRISPR筛选的典型输出是识别出的数百个耐药机制有关基因,随后进行人工分类和验证。在这个过程中,专家结合疾病的先验知识和临床、临床前证据,决定优先对哪些基因进行实验验证。选择过程繁琐耗时,且需要深厚的专业知识,因此容易出现个体偏差。

将问题移植到推荐系统领域面临两个主要挑战。第一缺乏训练数据;第二,与典型的推荐系统应用场景不同,该问题中缺乏显式和隐式反馈,逐步训练和改进模型的能力受限。考虑到以上问题采用无监督的,基于内容的推荐系统,将CRISPR筛选结果重新排序的任务变为一个多目标优化问题,支持基因相关性的各种相互矛盾的证据类型映射到目标。在优化过程中,可行解(基因)被识别和比较,直到找不到更好的为止,采用一组混合特征,每个特征代表一种不同类型的证据,并从BIKG知识图谱中获得辅助数据信息源。

2结果

对 CRISPR结果进行重新排序可以作为多目标优化来处理。在这种情况下,支持基因相关性的各种证据被视为多重目标(图1),同时优化k个目标,反映在k个目标函数中:f1(x),f2(x),…,fk(x)。

其中x = [x1,x2,...,XM]∈ω;x代表决策变量,ω表示决策空间。因此,多目标优化问题可以定义为找到目标函数 F(x)的最小或最大优化模式。对于多个相互竞争的目标,通常无法找到单一的最佳解决方案。但人们可以根据帕累托支配的概念确定一组最优解。如果以下两个条件成立,则随机自变量解x1优于解x2:

  • 根据所有目标,解x1不差于解x2;
  • 根据至少一个目标,解x1严格优于解x2。

如果两个条件都成立,可以说x1支配x2,等于x2被x1支配。无法在改进任何目标函数的同时不削弱至少一个其他目标函数,即形成非支配解。一组这样的解形成了一个帕累托前沿(Pareto Front),通过计算基于CRISPR筛选结果和其他支持证据定义的不同目标解集的帕累托前沿,可以减少EGFRi耐药的潜在标记物的数量(图1)。

一组混合特征的推荐系统。为了支持推荐系统,作者组合了一组丰富的混合特征(图1和补充表1),下面总结关键特征类型和考虑它们对CRISPR筛选结果进行重新排序的基本原理:

  • CRISPR

CRISPR筛选数据作为重新排名的起点。在这项研究中,作者确定了1550个经过CRISPR筛选分析后被标记为显著的候选耐药基因。作者通过计算一致性指标进一步汇总了CRISPR数据,一致性指标反映了基因在实验条件下的稳定性。总共,7个基于一致性的特征被并入特征集中。

  • 基于文献

对于EGFRi耐药性问题,作者对有关基因的全部文献资料感兴趣,统计在文中提及相关基因名词的出版物,如“cancer”、“resistance”、“EGFR”、“NSCLC”,分析了2000年至2019年间发表的超过180000篇PubMed论文,并对两个术语“EGFR”和“NSCLC”对文献聚合。作者计算了同时提及一个基因和其中一个术语的论文数量(补充表1)。考虑到研究论文中的提及在不同基因之间存在很大差异,作者对文献频率进行了归一化处理。

  • 源自图的特征

作者使用自定义的知识图谱(KG)作为辅助信息源,包含1100万个节点和8400万条边,由37个公开或内部的数据集组成(如Hetionet、OpenTargets、ChEMBL和Ensembl)。KG中生物实体之间的相互作用模式可以作为特征并以多种方式被推荐系统使用(图1和补充表1)。一种方法是直接在图上计算特征,包括如节点度(node degree)——反映节点的重要性,PageRank——衡量节点受欢迎程度,点边介数(Betweenness)——描述点边的连通重要性。另一种方法是将图形投影到一个低维空间,这样每个节点都被转换成它的向量表示——嵌入(embedding)。Embedding捕获了图的关键结构属性,因此在图中相近的节点在embedding space中也保持相近。假设与EGFRi耐药表型最相关的基因应该靠近“EGFR”或“NSCLC”节点。作者计算了每个基因和两个感兴趣的关键实体 “EGFR”和“NSCLC”在embedding space中的距离。

  • 临床富集评分(enrichment scores)

为了确保推荐系统捕获到临床证据,作者在特征集中纳入了奥希替尼治疗的EGFR突变型肺癌患者的基因组数据。

  • 成药性和基因必需性

传统方法是通过开发调节其关键驱动基因(靶标)活性的化合物或联合疗法来解决癌症中的耐药性。当药物开发作为优先考虑目标时,人们需要确保:(1)基因在原则上是易处理的,即它会以高亲和力常用的药物形式出现;(2)是非必需基因,因为必需基因的敲除可能对生物体中的其他细胞有害,而不仅仅作用于肿瘤细胞。考虑到第一点,作者限定了3种形式:抗体、小分子和其他形式(酶、寡核苷酸等等)。考虑到第二点,作者将范围锁定在DepMap癌症基因组数据库。

总之,最终的混合特征集包含27种特征 (补充表1)。混合集还通过图衍生的特征和基于文献的度量来扩充。

交互式界面帮助专家对CRISPR结果进行重新排名

在现实世界的场景中,决策是迭代的和主观的,一组特定目标的选择和同一变量的优化方向因专家而异。目标和相应优化方向的不同组合会导致不同形状的帕累托前沿,从而得出不同的一组推荐基因解集。为了适应不同的观点,并使医学领域专家能够探索目标之间的复杂权衡,作者构建了一个交互式应用程序SkywalkR(https://github.com/AstraZeneca/skywalkR46)(图2)。

评估表明大多数推荐结果被专家认为是可信的

为了评估推荐框架给出的结果和专家意见的异同,作者预设了一组默认的首选项。选择这组缺省值是为了模仿该领域专家对CRISPR筛选结果验证的过程,同时包括从文献中提取的图衍生特征和汇总指标。结果给出的列表包含57个推荐基因(图3)。为了收集领域专家对列表的意见,我们与Prodigy设置了一个交互式评估任务,由五位独立的专家将每个推荐的基因归类到一个或多个预设的类别中:(1)已知的耐药标记物;(2)以前未知的,但可信的;(3)以前未知的,且不清楚易处理性的;(4)不新颖,且不可信的。这里“不清楚易处理性”指的是缺乏明确的生物学验证途径。尽管专家意见之间存在预期的差异,但大多数推荐的基因(86%)被归类为“以前未知的、可信的”或“已知的耐药标记物”(图3)。

Shapley值表明CRISPR衍生特征的重要影响

为了进一步评估根据专家决策的目标,计算其Shapley值,将问题简化为一个二元分类任务,其中一个基因要么由专家选择,要么不由专家选择。为了分配阳性标签,作者使用一组100个基因,优先用于二级CRISPR筛选并且训练了两个随机森林模型:(1)基于特征的默认子集;(2)基于全套特征,包括临床、临床前、文献、CRISPR和图衍生类别特征(图4)。计算得到的Shapley值表明在两个实验中,CRISPR衍生的特征对基因分类的影响最大。

网络分析和临床知识表明,EGFR耐药机制是首选基因之一

为了将CRISPR筛选出的优先结果与已知的EGFR生物学知识联系起来,作者进行了通路富集分析和串扰分析,证实了“EGFR抑制剂在肺癌中的耐药机制”处于在顶级富集通路中。为了使用临床相关性信息额外注释推荐的基因,作者将结果在OncoKB数据库进行比较分析。OncoKB通过五个类别的注释来评估基因的改变:治疗、预后、诊断、耐药性和FDA等级。该评估证明作者的研究结果捕获了具有已知临床意义的基因(补充表3)。

实验验证表明表观遗传和Ras信号基因在介导耐药表型中起到关键调节作用

为了进一步验证推荐的基因,作者对结果进行实验验证,发现了一些生物学机制,如Hippo -WWTR1、NF1、KCTD信号通路与EGFRi耐药机制等。选择部分可以与奥希替尼联合起效的抑制剂靶标(SRC和EZH2),来评估他们在耐药模型中的联合获益。以及纳入了明确的EGFRi耐药标记物(MET和PTEN)作为验证研究的背景,在对奥希替尼敏感的EGFR突变阳性NSCLC细胞株中,操纵6个推荐基因(MET、WWTR1、EZH2、PTEN、NF1和KCTD5)的表达(图5A)。用于验证的基因分为“已知的”(作为真阳性)和“以前未知的”类别(图3)。PTEN、NF1和KCTD5是已知的EGFR-TKI耐药机制驱动因子,MAPK和PI3K/AKT信号通路的负调控因子。作者假设下调PTEN、NF1和KCTD5表达会介导稳定的耐药表型。为了验证这一假设,作者建立了一种基于流式细胞术的长期竞争实验 (图5B)。该实验表明,在对照(DMSO)条件下共培养14天后,NF1、PTEN、KCTD5表达的扰动(图5B、C)与非靶向对照(NTC)细胞相比增殖无显著不同。但当用奥希替尼治疗时,NF1、PTEN KO产生了适应性优势,与对照细胞相比增殖2到3倍(分别在PC-9或HCC827中) (图5C)。与HCC827细胞相比,KCTD5 KO在PC-9中观察到的耐药效应更显著。

EZH2表达的抑制剂被称为抗癌治疗的致敏剂。作者消除II-18细胞中的EZH2表达(补充图9D ),并在对照和治疗条件下追踪其增殖情况。实验发现II-18中EZH2表达缺失诱导了奥希替尼耐药表型的出现。

MET扩增通常与受体酪氨酸激酶的过度表达有关,进而导致EGFR下游通路活化。为了验证MET与奥希替尼耐药的相关性,激活、它在PC-9细胞中的表达(补充图9B ),并比较了对照(DMSO)和药物治疗组中的增殖情况。实验发现对照条件下,MET的过表达没有显著改变细胞增殖,而经过奥希替尼处理的实验组细胞增殖相较对照组显著增加(图5E)。

在PC-9中激活WWTR1表达时得到了类似的结果。WWTR1是Hippo通路中转录活性的效应器。长期竞争实验所示,在PC-9细胞中激活WWTR1,相较对照组细胞,经过奥希替尼处理的细胞产生大量耐药克隆增殖 (图5F和补充图9B)。

经推荐系统给出的另一个靶点是SRC原癌基因,一种非受体酪氨酸激酶,它之前被认为与EGFR-TKI耐药性相关。为了验证SRC是奥希替尼耐药机制驱动因子,作者采用了后天获得性耐药细胞株(图6A和补充图10A、C、G),生成了三种小分子SRC抑制剂(ECF-506、达沙替尼或塞卡替尼)的剂量反应曲线,比较了亲代克隆和耐药克隆的敏感性。耐药克隆用奥希替尼共处理。实验发现亲代细胞株通常对单一SRC抑制剂治疗产生耐药(图6B和补充图10B,D–F,H)。值得注意的是使用等效剂量的SRC抑制剂进行治疗,可以使所有的奥希替尼耐药(OR)的细胞株(PC-9、HCC827、NCI-H1975和HCC4006)对临床中等剂量的奥希替尼(160nM)敏感,从而显示出SRC在介导奥希替尼耐药机制中的重要性。

当奥希替尼与EZH2抑制剂他泽司他(tazemetostat)组合浓度增加时,奥希替尼的耐药呈浓度依赖性,抑制EZH2表达会增加奥希替尼耐药(图6C)。

总之通过初步的实验证明,推荐系统给出的基因子集——EZH2、KCTD5、MET、NF1、PTEN、SRC和WWTR1均会介导奥希替尼耐药。

除了已知的奥希替尼耐药标记物和上面讨论的有效标记物,作者还识别出其他几种奥希替尼耐药标记物,这些标记物仅有非常有限的先验知识或文献证据,但可能是NSCLC治疗中的潜在有效靶点,并可能用于构成奥希替尼组合新药(图3)。

推荐系统给出的两个基因FOSL1和BCL6,已经被证明参与了EGFR-TKI耐药机制 (补充图11)。FOSL1已被证明在MEK和Hippo信号通路之间的串扰中起着关键作用。驱动肿瘤生长的MEK信号通路调控异常和Hippo信号通路的关键因子(YAP,TAZ)均与NSCLC有关。BCL6在介导核心细胞功能如抗细胞凋亡和DNA损伤识别中起关键作用,并已被证明在NSCLC中起关键作用。

NRF2转录因子和下游信号传导(Keap1-Nrf2信号通路失调)也与肺癌EGFR-TKI耐药机制有关。除了识别KEAP1之外,推荐系统还将CAND1识别为奥希替尼耐药的标记物。最近研究表明,CAND1表达增加与非小细胞肺癌组织有关。总之,这些观察表明,作者的推荐方法不仅提出了众所周知的耐药标记物,而且能够识别以前未探索过的和有潜在希望的耐药驱动因子。

3讨论

该推荐方法存在局限性。首先,当将多目标优化方法应用于CRISPR问题时,在某些情况下存在获得不平衡解的风险。这样的解决方案占据了帕累托前沿的边缘,并且可以由根据单个目标具有相对高的值的一些基因产生。其次,考虑过多的目标/证据线是有风险的。作者考虑的目标越多,Pareto前沿就可能变得越宽,拓扑结构就越复杂。这种效应限制了明确选择一小组最优解的能力以下策略可以帮助克服这个问题:(1)依靠领域知识选择少量最重要的目标;(2) 使用标量化技术多个目标可以合并成一个单一目标;(3)基于专业知识和每种类型证据的相对重要性,引入单个目标的适应性权重;(4)多目标优化可以在目标的子选择上的连续阶段中执行,类似于马尔可夫决策过程。上述方法中的部分可以组合使用,如标量化和自适应权重。由于缺少“好的耐药机制标志物”的明确概念,该研究另一个缺点是如何评估结果的准确性。最后,与传统的推荐系统设置不同,无法根据用户反馈来逐步评估和改进预测。本研究中事实的最终来源是实验验证,基因在耐药表型中的驱动作用可以在体外或动物模型中进行测试。但目前由于价格昂贵,花费时间长,大规模的实验验证缺乏可行性。

4方法

EGFRi CRISPR筛选设计

在EGFR突变细胞株PC-9和HCC827(外显子19 EGFR缺失)以及含有继发性EGFR-T790M耐药突变的吉非替尼耐药克隆(PC-9T790M和HCC827T790M)中进行了全基因组CRISPR敲除和激活筛选。用EGFR抑制剂吉非替尼和奥希替尼处理细胞,以模拟临床上一、二线治疗中产生EGFR耐药的情况。

对于全基因组功能丧失的基因敲除(“CRISPRn”),使用18010个人类基因的sgRNA文库转导细胞株。对于全基因组功能获得(激活)的转录激活(“CRISPRa”),使用具有独特转录起始位点的23430编码同种型的sgRNA文库转导细胞系。经过CRISPR筛选后,用吉非替尼或奥希替尼(各100 nM)处理文库转导的细胞21天,以选择耐药基因。在所有六项研究中,MAGeCK算法被用于鉴定治疗组较对照组显著富集的基因。

CRISPR-pooled筛选分析

使用fastqc、mutltiqc评估测序数据的质量。使用自定义脚本将引导序列映射到Kosuke Yusa 3 library。根据每个样本的阅读深度、每个样本中基于基尼系数衡量出的guide RNA多样性以及样本的预期聚类来控制原始计数资料的数据质量。

三项主要比较研究:(i)对照样品vs.对命名为CvT的处理样品, (ii)对照样品vs.命名为CvP的质粒样品,(iii)处理样品vs.命名为TvP的质粒样品。使用MAGeCK v0.5.7进行CvT差异分析。先后使用BAGEL、CRISPRCleanR对CvP和TvP进行差异分析。BAGEL显著性阈值按照参考文献中的描述进行计算,错误发现率(FDR) 为5%。CvP比较分析用于进一步的质量评估。

然后使用desirability curves对CvT、CvP和TvP三组比较后进行汇总,以得出感兴趣的耐药或敏感基因排序。给定基因的可取性包含在0和1之间。根据定义的参数,1表示最感兴趣的基因。这个分数的设定考虑到了不同的因素。例如,它能够在排列感兴趣的基因时同时考虑p值和差异倍数 (LFC)的因素。对于耐药性,考虑到以下参数:

(i)如果FDR高于0.1,评估CvT的FDR的partial desirability设置为0,如果FDR较低,则设置为1。这使得只关注重要的基因。

(ii)当p值高于0.1时,评估CvT的p值的partial desirability被设定为0.01。当p值变低时,它会迅速增加,当p值为10-4时会达到1。该规则使得能够给予具有较低p值的基因更高的期望。

(iii)当效应大小高于平均LFC 3倍LFC标准差时,评估CvT大小效应的partial desirability设置为1,如果LFC低于此,则急剧下降至0.01。该规则能够给予具有更高尺寸效应的基因更高的期望。大于3倍LFC标准差者,partial desirability达到最大值1。

(iv)为了去除所有存在于感兴趣列表中的必需基因,如果基因在CvP和CvT中被认为是必需的,则该必需基因的partial desirability设置为0。如果具有负LFC的基因仍然存在,它们的partial desirability也被设置为0。这一规则过滤掉了许多假阳性,因为当敲除慢必需基因时,治疗组的细胞可能比对照组的细胞死亡得慢,导致CvP的假富集。

考虑到灵敏度,上述情况中的(i)和(ii)被采用。此外,当效应大小低于LFC的平均LFC - 3倍标准差时,评估CvT大小效应的partial desirability被设置为1,如果LFC高于该界限,则partial desirability急剧下降至0.01。partial desirability如参考文献1所述,用来对感兴趣的基因进行排名。

CRISPR筛选质量控制和重要性评估

开发了一个执行最终质检的技术流水线以确保其质控和与其他功能基因组中心内执行的筛选结果具有可比性。根据能否准确筛选出必需基因的方法来评估可靠性。将该研究结果与Hart等人和Cancer Dependency Map的结果相比较,必需基因的AUC检出均大于0.9。此外,通过检测对照组vs质粒中LFC的分布,以证实LFC分布以0为中心来表明在实验中的细胞系无存活问题(补充图12)。

CRISPR筛选衍生特征

确定了一个超过3000个耐药基因的起始列表用作重新排序。汇总一致性度量被定义为当出现一个“目标”基因时的细胞株总数,并根据desirability scores来定义“目标”基因。使用了两种不同阈值来定义CRISPRn和CRISPRa:(TvCCvP_OverallDesi>0.7&TvC_posFDR<0.1)和(TvCCvP_OverallDesi> 0.7&TvC_posFDR < 0.1)。

源自图衍生的特征

KG Embedding由RESCAL算法基于全图计算产生。使用Faiss软件包计算从人类基因节点到“EGFR”和“NSCLC”节点的L2距离。为了使图衍生度量与EGFRi耐药机制解释更相关,作者进一步关注蛋白质-蛋白质相互作用(PPI)子图。https://github.com/AstraZeneca/skywalkR-graph-features

临床富集特征

奥希替尼是一种不可逆的EGFR抑制剂,选择性靶向针对EGFR-T790M突变。作者汇总了五个临床试验(AURAext、AURA2、AURA3、FLAURA和ORCHARD)中接受奥西莫替尼治疗的患者的数据。AURAext是AURA试验的第二阶段延伸,对NSCLC患者给予80mg/天的奥希替尼治疗。AURA2是一项针对晚期NSCLC患者的单臂2期临床试验,这些患者在先前用EGFR-TKI治疗的基础上取得了进展,且携带EGFR-T790M突变。AURA3是一项3期随机对照试验,比较了奥希替尼和以铂类为主化疗药物在经EGFR- TKI治疗后进展的晚期NSCLC患者中的疗效。这些患者也携带EGFR-T790M突变。FLAURA是一项3期临床试验,针对使用奥希替尼一线治疗的晚期NSCLC患者,对比使用其他EGFR-TKI标准治疗方案患者的疗效。ORCHARD是一项针对晚期NSCLC患者的2期平台研究,这些患者已经接受了一线奥希替尼治疗。

总共分析了335名接受奥希替尼治疗的患者。来自Guardant Health和FMI基因面板的测序数据被用于识别基因改变。根据RECIST标准分类,部分缓解/完全缓解且PFS > 6个月的患者被分类为缓解者,并计算缓解者与无缓解者的基因变异富集情况。由于单个试验利用不同的临床基因组,富集指标保持试验特异性,不进行跨试验的汇总。该“富集分数”被用作多目标优化的特征。

成药性

采用OpenTargets的成药性评分,最高成药性评分为10分。https://github.com/melschneider/tractability_pipeline_v2

基因必需性

从DMC DepMap检索关于该基因是否是必需的信息。如果抑制靶基因导致DepMap中90%的细胞系的生存力降低,则将该基因标记为“必需”,否则为“非必需”。

转录组特征

包含在推荐系统框架中的特征“RNAseq_LFC”和“RNAseq_pval”是未经发表的内部实验,用于研究奥希替尼治疗对细胞系内基因上调的影响。该实验包括分别用奥希替尼和DMSO处理细胞系PC9和HCC827,以显示奥希替尼处理前后的转录组变化。https://github.com/AstraZeneca/skywalkR

模型和实现

帕累托前沿由rPref R包计算。最佳前沿面被标记为Pareto level 1,次优解并被标记为Pareto level 2,以此类推... Pareto level n。SkywalkR会返回Pareto level 1的基因。用户可以通过选择一个或多个变量在Pareto level内对推荐方案进行进一步排序。使用ranger包快速构建基因标签的二元分类器,fastshap包计算Shapley值,corrplot包生成相关系数图。

信号通路富集分析

使用MetaCore (Clarivate,https://portal.genego.com/)进行富集分析和串扰分析。

推荐基因的临床意义

将结果与MSK FDA批准的精确肿瘤学知识库OncoKB进行比较。

参考资料

Gogleva, A., Polychronopoulos, D., Pfeifer, M. et al. Knowledge graph-based recommendation framework identifies drivers of resistance in EGFR mutant non-small cell lung cancer. Nat Commun 13, 1667 (2022). https://doi.org/10.1038/s41467-022-29292-7

0 人点赞