Nat. Commun. | 通过异质图学习从空间解析的转录组数据剖析肿瘤微环境

2024-07-30 16:19:28 浏览数 (2)

DRUGAI

今天为大家介绍的是来自Luonan Chen团队的一篇论文。空间解析转录组学(SRT)通过分析肿瘤微环境(TME)的细胞内分子网络和细胞间通讯(CCC),实现了对TME的精确剖析。然而,缺乏对细胞、基因和组织区域之间复杂关系的计算探索,极大地限制了对TME复杂结构的解释能力。为此,作者引入了一种异质图(HG)学习方法stKeep,它整合了多模态和基因-基因相互作用,以从SRT数据中解读TME。stKeep利用HG通过结合基因、细胞和组织区域等多种节点特征来学习细胞模块和基因模块,分别识别TME内的细胞状态及其特定的基因-基因关系。此外,stKeep还通过HG推断每个细胞的CCC,并通过对比学习确保不同细胞状态下的CCC模式具有可比性。在各种癌症样本中,stKeep在解析TME方面表现优于其他工具,如检测双能基础细胞群、肿瘤性肌上皮细胞和分布在肿瘤或前沿区域的转移细胞。值得注意的是,stKeep识别出与疾病进展相关的关键转录因子、配体和受体,并通过独立临床数据的功能和生存分析进一步验证,突显其在临床预后和免疫治疗中的应用潜力。

癌症可以被视为一个肿瘤生态系统,癌细胞与非癌细胞(如免疫细胞和基质细胞)在其肿瘤微环境(TME)中合作,在各种恶劣条件(如缺氧和氧化应激)下努力生存。其中,癌细胞状态不仅受基因调控网络(GRNs)等细胞内分子网络的影响,还受通过细胞间通讯(CCC)传递的外部信号的影响。近期研究强调了TME在疾病发生、发展、转移和抗癌治疗中的重要性。因此,迫切需要全面了解癌细胞如何通过其细胞内分子网络和细胞间通讯适应其TME。

目前流行的空间解析转录组学(SRT)技术,如Visium、Stereo-seq和NanoString CosMXTM空间分子成像(SMI),在保持组织空间位置的同时对基因表达模式进行分析,从而生成包含组织学、空间位置和基因表达的多模态数据。这为准确识别与不同癌细胞状态相关的分子网络和细胞间通讯提供了机会。然而,SRT数据分析面临诸多挑战:通量低、灵敏度差,以及高水平的稀疏性和噪音。

最近,研究人员开发了多种计算方法来分析SRT数据,以识别空间域、细胞间通讯(CCC)和分子网络。具体来说:(i)基于深度学习的模型,如SpaGCN、STAGATE、CCST、RESEPT和Squidpy,以及基于统计的模型如Giotto、BayesSpace、SpatialPCA和SOTP,主要用于空间聚类。(ii)基于细胞群体的模型如Giotto和CellPhoneDB v3,以及以单细胞为中心的模型如SVCA、MISTy、SpaTalk、NCEM和COMMOT,主要用于推断CCC。(iii)一个名为SpaceX的贝叶斯统计模型被提出用于识别共享和簇特异性共表达网络。目前仍缺乏能够在TME中识别异质性细胞群体并进一步揭示其内部分子网络和外部细胞通讯机制的计算方法。

因此,作者引入了stKeep,一种图嵌入方法。stKeep整合了多模态数据(如组织学、基因表达、空间位置和组织区域)和基因-基因相互作用(如GRN、PPI和LRP),通过识别细胞模块、基因模块和细胞间通讯(CCC)来剖析肿瘤微环境(TME)的异质性。

模型部分

图 1

stKeep整合了组织图像、空间位置、基因表达、组织区域和基因-基因相互作用(如GRN、PPI和LRP),通过异质图(HG)学习构建细胞模块、基因模块和细胞间通讯(CCC),以剖析肿瘤生态系统(图1a-g)。通过利用HG捕捉细胞/点、基因和组织区域之间的复杂关系,stKeep便于学习TME相关细胞/点和基因的可比嵌入空间,从而识别出细胞模块和基因模块。此外,stKeep通过HG和对比学习聚合邻近细胞/点的信号,以推断CCC,有效反映TME内细胞状态的差异。

首先,stKeep将基因、细胞/点和组织区域(或细胞状态)等异质节点编码到统一的图中,其中节点代表实体,边表示实体之间的关系。细胞模块包含各种关系,包括一个细胞/点表达基因并属于某个组织区域,以及多个语义关系。同样,基因模块包含基因被细胞/点表达和在特定细胞状态下过度表达的关系,以及已知的基因-基因相互作用(包括GRN和PPI)。一旦HG构建完成,对于每个细胞/点(),细胞模块分别从其关联基因、区域和语义关联的细胞/点中计算局部层次表示()和全局语义表示()。stKeep利用对比自监督学习机制将和联系起来,相互强化,生成两个不同但语义相关的表示(图1d)。得到的表示R(即和的串联)可以进一步用于空间聚类、可视化和数据降噪(图1g)。然后,对于每个基因(),基因模块通过注意力机制自动整合来自关联细胞/点和细胞状态的信息,以及通过对比学习整合已知的基因-基因关系(图1e)。生成的基因表示G使得通过无监督聚类识别细胞状态特异性基因模块成为可能(图1g)。最后,stKeep通过基于注意力的异质图将邻近细胞/点的配体信息结合起来,推断给定细胞/点()的LRP相互作用(),同时通过对比学习确保推断的CCC模式在TME内不同细胞状态之间具有可比性(图1f)。派生的LRP相互作用L可以通过差异分析识别与不同癌细胞状态相关的LRP(图1g)。

stKeep通过细胞模块、基因模块和细胞间通讯改进了对异质性细胞群体的剖析

图 2

为了全面评估stKeep的性能,作者分析了来自三个独立实验的12个人类背外侧前额叶皮层(DLPF)切片,每个切片都基于形态特征和基因标记手动标注了层和白质(WM)。作者将stKeep与最近开发的三种方法(Squidpy、STAGATE和stMVC)进行比较,用于分析DLPFC数据集。作者使用Louvain算法预测簇,用平均轮廓宽度(ASW)评估聚类准确性,然后使用统一流形近似和投影(UMAP)空间可视化低维表示。结果显示,stKeep的预测与注释相比其他方法更一致,但stKeep的簇内表示似乎比stMVC稍远,表明stKeep有助于剖析更多异质性细胞群体(图2a、b)。

作者接着研究了stKeep是否能识别层特异性基因模块。对于每个切片,作者使用基因模块为2000个高变异基因计算50维特征,然后使用Louvain算法从这些特征中识别基因模块。发现(i)基因模块中识别的基因对比随机选择的基因对更紧密(Wilcoxon检验,p < 2.22e-16,这是一个接近零的非常小的数字);(ii)识别的基因对的基因表达相关性显著高于随机选择的对(Wilcoxon检验,p < 2.22e-16);(iii)大多数基因模块在特定簇中表现过表达,已知的层特异性基因分布在不同的基因模块中。例如,在切片151507中,层1特异性基因如AQP4、RELN和FABP7出现在基因模块2中;(iv)每个基因模块展示特定功能:WM基因模块与中枢神经系统髓鞘形成和少突胶质细胞分化有关;层6与细胞对糖皮质激素刺激的反应有关;层5与多巴胺神经递质释放循环有关;层4涉及神经丝束装配、外周神经系统轴突再生和神经内分泌细胞分化等多种功能;层3有助于促肾上腺皮质激素分泌和糖皮质激素受体信号通路;层2与调节突触传递和谷氨酸能传递有关;层1参与神经递质在胶质细胞中的摄取和代谢以及前神经板的形成;(v)切片151507的基因模块在至少四个其他独立切片中展示出层特异性模式,特别是在切片151508-151510中,确认了这些发现的可靠性。这些结果表明,stKeep能够自信地识别具有生物学意义的基因模块(图2c-f)。

作者将stKeep与COMMOT进行比较,以评估推断出的细胞间通讯(CCC)是否反映了不同细胞群体之间的差异。作者观察到:(i)虽然COMMOT的CCC强度相关性略高于stKeep,但在簇内点对和随机选择的点对之间,stKeep的相关性显著不同,突显了stKeep推断的CCC强度更能捕捉生物学相关性和特异性;(ii)令人惊讶的是,在对切片151669–151671的COMMOT分析中,簇内点的相关性低于随机选择的点对。这可能是因为COMMOT强调不同配体和受体之间的相互作用以及空间距离,可能在CCC推断过程中忽视了细胞状态的异质性;(iii)CCC模型推断出层特异性和共享的LRP相互作用模式,通过基尼指数指标进行评估。例如,在层1和层2中观察到显著的相互作用,如RELN → ITGB1和PENK → ADRA2A,而CALM1 → PTPRA相互作用在层2-6中占主导地位。这些发现表明,stKeep能够一致地估计不同细胞状态下的CCC强度,突显其捕捉相关通讯模式的能力(图2g、h)。

有趣的是,作者在切片151669(之前标注为层3、4、5、6和WM)中发现一个基因模块,显示层1、2和3的标志基因过表达,提示层3可能是包含层2和1的异质组织。为了验证这一发现,作者对标注的层3中的细胞模块和CCC进行了进一步分析。观察到:(i)层3中有三个不同的簇,其中两个代表层1和层2,通过已知标志基因如AQP4和FABP7(层1),以及ENC1和HPCAL1(层2)验证;(ii)层1和层2特异性的CCC在层3中高度和特异性地相互作用;(iii)更重要的是,层1和层2特异性基因和CCC在三个独立切片151670、151671和151672的层3中表现出过度活化,进一步支持了作者的发现。这些结果表明,stKeep通过细胞模块、基因模块和CCC提高了注释的准确性(图2i–k)。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Zuo, C., Xia, J., & Chen, L. (2024). Dissecting tumor microenvironment from spatially resolved transcriptomics data by heterogeneous graph learning. Nature Communications, 15(1), 5057.

0 人点赞