在多细胞生物中,细胞通过与其他细胞的交流来协调从早期发育到组织和器官成熟的各个方面。当它们不能正常交流时,疾病就会发生。在互作过程中,由细胞表达的配体结合到同源受体上,同源受体通过接收细胞和信号识别从配体细胞传输到接收细胞。尽管生物技术手段有了快速的发展,但对细胞间互作的全面了解仍然需要大量的研究。因此,通过系统推断由受体介导的细胞间通信已成为研究重点。特别是肿瘤的形成与肿瘤细胞、免疫细胞和细胞外基质的生态进化密切相关,肿瘤细胞可通过分泌因子重编程肿瘤微环境(Tumor MicroEnvironment, TME),将抗肿瘤细胞转化为肿瘤支持因子。TME包括多种细胞类型,包括恶性细胞、免疫细胞和基质细胞。它是肿瘤进展和免疫逃避的重要机制。此外,肿瘤细胞与正常细胞之间的交流会导致肿瘤的发生、恶化和转移。多种癌症行为紧密地与癌细胞之间以及癌细胞与间细胞之间的交叉联系在一起。因此,捕获肿瘤中潜在的细胞间交流至关重要。
推断细胞互作的主要思路
结合单细胞、空间和配受体库数据,研究互作主要包括以下几个步骤:
一、细胞的表达谱。通过scrna序列数据对细胞进行研究,以评估所有基因的表达水平。
二、基因表达矩阵的构建。基因表达矩阵是根据基因在不同细胞中的转录数据构建的。
三、参与细胞-细胞通信的相互作用蛋白(例如,配体和受体之间的相互作用),可以从数据源中获得。
四、基因筛查,与相互作用的蛋白质相关的基因仍然保留在上述基因表达矩阵中。
五、LRI分数计算。基因表达值被用作计算调节两种细胞类型的配体-受体对的相互作用分数的输入。
六、细胞间通信推断。来自所有介导两种细胞类型的LRIs的交互得分进行计算,以获得两种细胞类型之间互作的总体状态。
七、可视化。可视化工具被用来对细胞类型和细胞之间的通信评分进行交叉预估。
配受体数据库
从scRNA-seq数据重建细胞-细胞通信依赖于基因的共表达,其中给定配受体对中的两个基因分别来自两种细胞类型和相互作用的细胞。应用于细胞-细胞通信推理的主要一类基因来自于观察到的配体及其同源受体。下表列举了已知的配受体数据库,包括配体数量、受体数量、flris数量、数据库和链接。
Table1.Known ligand–receptor interaction databases
Database | Ligand | Receptor | LRI | URL |
---|---|---|---|---|
CellPhoneDB | 609 | 587 | 1396 | https://github.com/Teichlab/cellphonedb |
SingleCellSignalR | 807 | 750 | 3251 | https://github.com/SCA-IRCM |
ICELLNET | 326 | 223 | 752 | https://github.com/soumelis-lab/ICELLNET |
NATMI | 829 | 690 | 2293 | https://github.com/forrest-lab/NATMI/ |
CellTalkDB | 1885 | 3131 | 3398(human) | http://tcm.zju.edu.cn/celltalkdb |
CellTalkDB | 1809 | 4152 | 2033(mouse) | http://tcm.zju.edu.cn/celltalkdb |
Omnipath | 1758 | 6837 | 14348 | https://archive.omnipathdb.org/omnipath_webservice:intercell_latest.tsv |
可视化的工具
已经开发出各种可视化工具来分析细胞与细胞之间的通讯,利用这些工具可以更生动地描述细胞间的通讯。下表列举了经典的可视化方法。
Table2.Visualization tools of cell–cell communication
Tool | Function | Link |
---|---|---|
CellCall | Heatmap,Circos plot,Sankey plot,bubble plot,TFenrichment plot,ridge plot | https://github.com/ShellyCoder/cellcall |
CellChat | Hierarchical plot,circle plot,bubble plot,violin plot,alluvial plot | https://github.com/sqjin/CellChat |
NATMI | Heatmap,network graph,circosviews | https://github.com/asrhou/NATMI |
iTALK | Network plot,Circos plot,errorbar plot | https://github.com/kentnf/iTALK |
CellPhoneDB | Heatmap,dotplot,violinplot | https://www.cellphonedb.org |
NicheNet | Heatmap | https://github.com/saeyslab/nichenetr |
SingleCellSignalR | Small box plot,tabular plot,t-SNE plot,Circular plot,joined and separated expression plot | https://github.com/SCA-IRCM |
细胞通讯评分策略
聚焦于配体-受体共表达模式,细胞通讯评分可以结合已知的LRIs和单细胞转录组数据进行量化。经典的细胞通讯评分策略包括基于表达阈值的方法、基于丰度表达的方法、基于归一化表达的方法、基于特异性表达的方法、基于总表达的方法、基于正则化表达的方法和基于几何均值的方法。
给定配体i和受体j之间的LRIij,设li/rj分别表示来自单细胞转录组学表达配体i和受体j的细胞类型。LRIij介导的两种细胞类型ct1和ct2之间的交流评分可以根据以下评分策略计算。
一、Expression thresholding-based scoring approach:ct1表达配体的value和ct2表达受体的value大于某个阈值。
二、Expression product-based scoring approach:衡量细胞通讯基于细胞表达配体和受体的表达丰度,丰度越高,通讯可能性越大。
三、Expression normalization-based scoring approach: 首先对配受体的表达值进行归一化,基于归一化的值衡量细胞通讯。
四、Specificity expression-based scoring approach:基于特异性表达的评分方法考虑ct1/ct2中配体i/受体j的算术平均表达值和所有细胞中配体i/受体j的平均表达值之和.
五、Total expression-based scoring approach:研究LRIi,j介导的ct1/ct2中配体i/j的表达和。
六、Regularized product-based scoring approach:研究LRIi,j介导的ct1/ct2中配体i/j的算术平均表达量。
单细胞数据目前通常采用的方法则是Expression normalization-based scoring approach,但是在之前进行了一定的阈值选择。
细胞通讯的计算方法
在TMEs中,不同类型的细胞通过配体-受体介导相互通信。针对分泌配体及其同源细胞表面受体的共表达模式,细胞-细胞通信预测的计算方法不断得到发展。这些方法主要包括基于网络的方法,基于机器学习的方法,基于空间信息的方法和其他方法。下表列出了一些代表性的细胞-细胞通信推断方法,案例研究和链接。
Table3.Input,case study and code of inter cellular communication inference methods
Method | Tool | Input data | Casestudy | Code |
---|---|---|---|---|
Network | CCCExplorer | scRNA-seq;LRIs | Human lung cancer | http://209.160.41.231/u54/CCCExplorer |
NicheNet | scRNA-seq;LRIs;Signaling and protein-protein interactions gene regulatory interactions | HNSCC | https://github.com/saeyslab/nichenetr | |
NATMI | scRNA-seq;LRIs | Mouse heart | https://github.com/forrest-lab/NATMI | |
scConnect | scRNA-seq;LRIs | mousebrain;human melanoma | https://github.com/JonETJakobsson/scConnect | |
Machine learning | PyMINEr | scRNA-seq;LRI;cell-typeenrichment;SNP genome-wideassociations;protein-DNAinteractions | humanpancreaticislet | https://www.sciencescott.com/pyminer |
SoptSC | scRNA-seq;LRIs | Human and mouse early embryonic development;epidermal regeneration;hematopoiesis | https://github.com/WangShuxiong/SoptSC | |
SingleCellsignalR | scRNA-seq;LRIs;GOCC annotation;pathways | Mouse epidermis;wound | https://github.com/SCA-IRCM | |
RCA-CCA | scRNA-seq;bulk RNA-seq;SMC samples;whole-genome sequencing | Human colorectal cancer | https://github.com/SGI-CRC/scRNA-seq | |
Spatial information | CellTalker | scRNA-seq;LRIs;spatial organization;spatial images | HNSCC | https://github.com/arc85/celltalker |
SpaOTsc | scRNA-seq;LRIs;spatial transcriptome | Mouse brain | https://github.com/zcang/SpaOTsc | |
histoCAT | scRNA-seq;spatial images | Human breast cancer | https://github.com/BodenmillerGroup/histoCAT | |
Giotto | scRNA-seq;LRIs;spatial transcriptome;spatial images | Mouse brain | http://spatial.rc.fas.harvard.edu | |
squidpy | Spatial transcriptome;LRIs;spatial images | Coronal mouse brain | https://github.com/theislab/squidpy | |
Others | CellCall | scRNA-seq;LRIs;transcription factor | Human testicular cells | https://github.com/ShellyCoder/cellcall |
CellPhoneDB | Transcription factor scRNA-seq;LRIs | Murine melanoma | https://github.com/Teichlab/cellphonedb |
一、Network-based cell–cell communication prediction methods:基于网络的细胞-细胞通信预测方法将细胞类型之间的相互作用表示为一个网络,其中每个细胞类型被表示为node,一个定向细胞-细胞通讯被表示为edge。方法包括三个主要步骤:获取scRNA-seq和LRI数据库,基于网络算法计算介导两种细胞类型的每个配体-受体对的相互作用评分,通过识别的LRI评分调查潜在的细胞间通讯。
二、Machine learning-based cell–cell communication inference methods:基于机器学习的细胞-细胞通信预测方法通常包括四个主要步骤:预处理scRNA-seq和LRI数据,基于聚类算法识别细胞类型,对调节两种细胞类型的配体-受体对评分,并基于识别的配体-受体对评分推断两种细胞类型之间的通讯。
三、Spatial information-based cell–cell communication inference methods:基于空间信息的细胞间通信推断方法充分表征了空间定位信息和空间近端细胞类型,基于scRNA-seq数据、空间转录组数据和图像,发现不同细胞类型之间的信号crosstalk。
基于计算的细胞间通信识别方法主要包括数据获取和预处理、细胞类型识别、两种细胞类型的配体-受体对评分以及基于配体-受体对评分的细胞-细胞间通信预测四个步骤。计算方法显著促进了配体受体介导的细胞间通信推理。然而,计算工具不能探测配体和受体之间潜在的相互作用。基于机器学习的方法需要确定聚类的数量,同时解决negative LRIs缺乏的问题。基于空间信息的方法需要对不同的组学数据进行联合分析。下表总结了各种通讯方法的优劣势。
Table5.Advantages and disadvantages of cell–cell communication inference methods
Method | Tool | Advantages | Disadvantages |
---|---|---|---|
Network | NicheNet | Integrates multiple data sources;multiple species | Neglects that many receptors function as multi-subunit complexes |
NATMI | Uses the most complete LRI list;multiple species | Limited to original cellular annotations and dropouts;fail to model heterodimerization | |
CCCExplorer | Integrates multicellular transcriptome-and interactome-signalling data | Lack of a reasonably complete graphic characterization of microenvironmental signalling interaction network | |
Machinelearning | SoptSC | Combines target genes of pathways and their directionality | Requires curation of LRIs and their downstream pathways |
SingleCellsignalR | Models downstream signalling;multiple species | Requires downstream pathways | |
RCA-CCA | Reveals the diversity and dynamic relationships between different celltypes | Fails to define EMT patterns | |
Spatial information | CellTalker | Consider sspatial context | Fail to consider different subunits of ligands or receptors |
SpaOTsc | Combines structured and unbalanced optimal transport for investigating spatial properties of scRNA-seq data | Requires downstream pathways;lack of information involved in the spatial arrangement of specific celltypes | |
Giotto | Combines spatial transcriptomic data and image data | Only utilizes spatial coordinates and neglects gene expression and tissue-image information | |
Squidpy | Combines the spatial graph and the tissue image | Only utilizes spatial coordinates and neglects gene expression and tissue-image information | |
Others | CellCall | Combines transcription factors and target genes in a particular pathway | Additional false positives |
CellPhoneDB | Considers subunit architectures of ligands and receptors | Limited to acomplete LRI list;Fails to consider the spatial proximity of cells |
目前推断细胞通讯需要解决的问题
一、多组学数据的联合分析,其中主要是单细胞、空间和蛋白组组学数据。
二、细胞类型的识别:细胞类型的识别是一切分析的基础,无论是单细胞还是空间数据都需要研究是什么细胞类型之间的互作在起作用。
三、数据库的丰富:目前配受体数据库还在不断完善。
四、空间生态位:细胞类型之间的通讯不是所有细胞都参与,而是空间临近位置的细胞类型进行广泛的互作。
写在后面
肿瘤生态系统包含各种细胞类型,它们可以通过配体和受体之间的相互作用相互交流。瞄准这些相互作用有助于癌症的诊断和治疗。到目前为止,已经开发了几种细胞-细胞通信量化算法来说明肿瘤中发生了哪些LRIs以及这些LRIs如何影响结果。在这里探讨了基于scRNA-seq、空间转录组和LRI数据的细胞间通信推理的研究进展。介绍了细胞-细胞通信预测的pipeline,获取LRI数据库和可视化工具。并且强调经典的细胞间通信评分策略,分析了代表性的细胞间通信识别方法。
生活很好,有你更好