这篇文章是2022年7月4日发表在bioRxiv上的文章,主要讲的是利用单细胞多组学的技术解析一个药用植物的研究过程。
文章链接:https://www.biorxiv.org/content/10.1101/2022.07.04.498697v1
doi:https://doi.org/10.1101/2022.07.04.498697
研究团队主要是德国的马普研究所的天然产物研究团队和美国乔治亚大学的作物土壤改良团队。
研究背景
到目前为止,植物代谢途径的基因发现依赖于整个组织来源的代谢组和转录组数据集。从这些数据集中发现基因依赖于将基因的表达与感兴趣分子的存在联系起来,以及对酶生物化学转化的广泛知识。
有时,高质量的基因组组合通过允许识别生物合成的基因簇来进一步促进途径基因的发现,但这种空间聚集的途径基因组只出现在有限数量的植物途径中。总体而言,挖掘这些数据集以识别复杂代谢途径的所有基因通常需要对大量(数百或数千)候选基因进行功能筛选。当基因没有在基因组中共同调节或共同定位时,这些挖掘方法甚至会受到进一步的限制。
因此,获取植物基因组中编码的丰富的药理活性分子的途径一直受到限制。在植物中,这些复杂的特殊代谢物(天然产物)的生物合成途径不仅局限于不同的器官,如叶和根,而且局限于这些器官中不同的细胞类型,单细胞组学技术的出现具有巨大的潜力,可以彻底改变植物的代谢途径基因发现。此外,单细胞组学全面揭示了代谢途径是如何跨细胞类型划分的,这是理解专门代谢物功能的核心组成部分,以及赋予特殊生物合成和运输的细胞类型特异性所需的精确基因调控。
药用植物长春花属植物长春花属植物。可以产生单萜吲哚生物碱(MIA),这是一个天然产品家族,长春花是抗癌药物长春碱和长春新碱的唯一来源。在过去的30年里,通过对整个组织衍生的组学数据集进行传统的生化和共表达分析,已经发现了38个专门的MIA途径基因和几个转录因子,它们参与了茉莉酸诱导的MIA生物合成途径。同时它也已成为探索复杂专门化代谢途径的定位、运输和调节的机制基础的模式物种。
因此作者选用了先进的基因组组装、Hi-C染色体构象捕获和单细胞转录数据集如何使长春花冠菌MIA生物合成途径中的新发现成为可能。首先,证明了38步的MIA途径在叶片中的三种不同细胞类型中顺序表达,第二,关于根部MIA生物合成途径的细胞类型特异性基因表达的报道揭示了MIA基因在器官之间的可塑性表达。第三,利用远程染色体相互作用图揭示了MIA生物合成基因簇的3D组织,这些基因簇有助于在不同的器官和细胞类型中协调基因表达。第四,为了补充基因组和转录组数据集,开发了一种高通量、高分辨率、半定量的长春花叶细胞单细胞代谢组学图谱方法。最后,为了测试这些新出现的组学数据的力量,确定了一种新的细胞内转运蛋白以及产生脱水长春花碱的缺失的还原酶,脱水长春花碱是抗癌药物的重要工业前体。
结果
选用新的基因组装手段对长春花的基因组进行组装,提高相关的注释结果
由于一些专门的代谢途径已被证明在物理上聚集在植物基因组中,高质量的支架基因组的可用性对于加速基因发现是必不可少的。但是由于前期做的长春花的基因组是基于短读长进行测序的,因此有很多在后续进行基因组的拼接的时候有很多的scaffold的片段,没有拼接到染色体上,为了提高相关的结果,作者选用最新的长读数的测序手段,重新对染色体进行拼接,共获得8条染色体。并对其的拼接结果进行质量评估,发现测序拼接质量较好。
为了对基因组的结果进行注释,选用了不同组织来源的转录本信息进行模型对其进行训练。最后Busco对注释的基因模型的分析显示,96.1%的BUSCO是完整的,这表明人工检查和整理已知的MIA途径基因证实了高质量的注释结果。
基于上述的良好的基因组的结果,作者对MIA途径的基因进行分析,发现可以大致分为两个簇。其中有一个是基于这个基因组上新发现的簇。同时鉴定到了74个MIA基因的其余202个同源基因,这些基因大部分是由于基因组复制来的。并在第一个簇中发现了新的MIA生物合成基因。基于此,可以发现一个高质量的基因组对于解析长春花的MIA生物合成途径的基因及其代谢通路是至关重要的,也为相关的研究奠定了基础。
生物合成基因簇及其相关的染色体构象特征
利用前面组装好的高质量长春花基因组,作者利用成熟叶片的Hi-C数据,在三维空间中探索了生物合成基因之间的染色质相互作用,去揭示了与生物合成基因簇相关的不同染色体组织。
发现STR和TDC在物理上聚集在第3号染色体上(图a),为了验证该基因是否参与MIA的转运,作者在长春花幼叶中对该基因进行了病毒诱导的基因沉默(VIGS)。这两种代谢物在沉默的植株中没有明显的变化,但是检测到了SLTr在沉默组织中积聚。这种转运蛋白将扇豆素从胞浆运输到液泡中,在液泡中,限制性内酯合成酶处于定位状态。缺乏分离素的运输将导致分离素在胞质中积聚,此时反应醛将被还原为毒性较小的分离醇。因此,作者将该Mate转运蛋白命名为SLTr。
生物合成基因簇中并不是所有的基因都有相同的TAD。在2号染色体上发现了一系列局部复制的乙酰转移酶,其中包括三个先前鉴定的酶米诺辛-19-羟基-O-乙酰转移酶(MAT),Tabersonine衍生物19-O-乙酰基转移酶(TAT)和脱乙酰长春花碱乙酰基转移酶(DAT)。这一乙酰转移酶阵列被分为三个TAD,其中MAT和TAT在TAD II内,DAT在TAD III(图D)内。乙酰基转移酶在TADS中的分离与器官水平的表达模式一致;MAT和TAT在根中表达,但在叶中不表达,DAT在叶中表达,但在根中不表达(图E)。这些观察表明,染色体构象可能在控制器官特异性生物合成基因的表达,从而控制特定代谢物产生的定位模式方面具有调节作用。
利用单细胞转录组对叶片生物合成基因在细胞型分辨率下的表达进行系统研究
原位杂交实验已经确定了参与双吲哚生物碱生物合成的38个已知生物合成基因的子集的表达特异性,其中初始步骤位于内韧皮部相关实质(IPAP)细胞,下游酶位于表皮,晚期酶位于成体细胞。
作者对~8周龄的花叶片进行了单细胞RNA测序(scRNA-seq),构建了典型的叶片生物碱图谱,获得了~12,000个细胞和~12,000个基因的基因表达谱(图A)。使用Seurat将三个生物学重复进行整合,三个重复具有相似的集群模式。使用拟南芥标记基因同源基因指定细胞类型(图A)。
这两种细胞类型,IPAP和异体母细胞,是通过先前研究的玫瑰红曲霉的生物合成基因推断出来的,这些基因显示出细胞类型特异的表达。除此以外,作者使用Drop-Seq平台在单个细胞水平上分析了约900个细胞的基因表达情况。虽然使用Drop-Seq平台检测到的细胞类型较少,因为通量较低,但前3,000个可变基因的表达谱在两个不同平台检测到的细胞类型之间高度一致。10x平台检测到的细胞的表达谱与Drop-Seq检测到的表达谱高度一致(r>0.9)。综上所述,作者推断单细胞表达谱在两个实验平台上是稳定和可重复性的。
作者使用整个组织或器官衍生的Bulk mRNA-Seq进行的共表达分析,分析MIA生物合成途径的基因(图B)。但由于是bulk mrna-seq是对一整块组织的表达进行定量,在细胞水平上对mia途径的表达变化不是十分明显。因此,作者分析了scRNA-seq数据中生物合成基因在不同细胞类型中的表达,发现该途径在三种特定的叶细胞类型中都有明显的表达(图B)。与组织特异性表达相比,细胞类型特异性表达谱中分辨率的提高是明显的(图B)。
同时进行了基因共表达分析,生成了生物合成基因和先前报道的转录因子的网络图。该网络有三个主要模块,对应于IPAP、表皮和成体细胞(图C)。3-hydroxy-16-hydroxy-2,3-dihydro-3-hydroxytabersonine N-甲基转移酶(NMT)催化在网络图上连接表皮和成纤维细胞模块的步骤,在表皮和成纤维细胞中都有表达(图C)。
作者发现到serpentine synthase(SS)是异型母细胞共表达模块的成员。SS催化serpentine的形成,serpentine具有强烈的蓝色自体荧光,以前曾被用作成骨细胞的视觉标记。SS在异养细胞模块中的恢复证实了这种共表达分析的可靠性。在茉莉酸(JA)诱导下,MYC2和ORCA3转录因子被激活,进而激活MIA生物合成基因。然而,MYC2和ORCA3不是任何包含生物合成基因的模块的一部分(图C),这表明对JA的反应调节机制与控制细胞类型特异性表达的调节机制不同。
综上所述,叶子scRNA-seq数据集与先前建立的定位方法获得的数据一致,并为基因发现提供了准确和高分辨率的数据基础。此外,利用单细胞数据进行共表达分析,清晰了以前的调控关系。
与scRNA-seq耦合的高通量单细胞MS数据
代谢途径的分析依赖于代谢物-基因表达网络的产生,在该网络中,基因表达数据集与代谢组数据集相结合进行分析。然而,单细胞代谢组学(Scms)已经落后于scrna-seq,这是由于与分析物的丰度有关的内在限制,而代谢物不能像rna或dna那样被扩增。
由于单个细胞内的内容物含量较低,需要借助高精度的仪器进行测量,目前已经有了部分的研究进展,但是在植物上应用的比较少。到目前为止,对单个植物细胞的质谱分析要么依赖于MS成像,这受到相对较低的空间分辨率、复杂的样品制备方案和低通量的阻碍,要么依赖于活的单细胞质谱法(LSC-MS),这种方法需要耗费大量人力,不适合高通量数据集的产生。此外,两种方法都没有在质谱分析之前使用色层分离,这极大地限制了代谢物的准确结构定性和绝对定量。
为了解决这些限制,作者设计了一种方法,使用高精度的微流控细胞挑选机器人来从SievewellTM设备上收集从长春花叶中制备的原生质体。然后将原生质体转移到与UPLC/MS自动进样器兼容的96孔板上。使用现有的MIA标准对UPLC/MS方法进行优化。在这项研究中,作者在7个96孔板上收集了总共672个单细胞,对每个细胞都进行了UPLC/MS,允许同时进行非靶向和靶向代谢组学分析。由于对所有细胞的分析是在几天内进行的,作者将每个96孔板作为一个独立的实验,以控制由于实验和仪器变量而导致的批次之间的差异。在仔细检查选定的细胞后,86个样本被移除,主要是其中包含两个细胞或者没有样本,最后为586个细胞样本(图A)。
当使用5×104计数的强度阈值时,XCMS检测到34,729个峰。作者使用摄像机对冗余信号(同位素、加合物等)进行分组。只保留了最广泛检测到的峰,产生了8268个具有代表性的特征。最后,排除了没有在所有批次中检测到的峰,总共有933个特征峰。
通过PCA分析,可以获得两大类细胞,表皮细胞和成体细胞。在混合细胞质控样品上进行的MS/MS裂解实验,可以明确地识别关键的MIA,如长春花碱(m/z 337.19105M H ,C21H24N2O2)、长春花碱(m/z 427.22275M H ,C24H30N2O5)、长春花碱和serpentine synthase(SS)。
通过对数据进行标准化,结果发现异体成纤维细胞中积累的主要代谢物的浓度在毫米级范围内。在单个细胞中平均浓度为100 mM,产生这种代谢物的酶(阴极嘌呤合成酶,CS)位于表皮。但只在少数表皮细胞中检测到少量的紫苏氨酸。该MIA主要聚集在成纤维细胞中。长春花碱被认为是通过ABC转运蛋白CrTPT248的作用从表皮细胞输出到角质层,研究得到大量的长春花碱仍然滞留在叶片成纤维细胞内。因此作者推测,花青素是从表皮快速转运到成纤维细胞的。相反,大多数检测到的MIA的位置,包括长春花碱、长春花碱和serpentine synthase(SS),与它们的生物合成酶的细胞类型表达完全相关。
作者还对双吲哚生物碱(例如,脱水长春花碱、长春花碱和长春新碱)分析,均在成纤维细胞中检测到。脱水长春花碱(m/z 397.21218M 2H2 ,C46H56N4O8,AHVB)在几乎所有分析的成纤维细胞中检测到。而长春新碱(m/z 406.21747M 2H2 ,C46H58N4O9)仅存在于5个细胞中,未检测到长春新碱。这反映了长春花碱和长春新碱的低水平积累。然而,作为双吲哚生物碱前体的长春花碱和长春花碱存在于AHVB和长春花碱所在的同一细胞类型中,这表明参与双吲哚生物合成的酶也应该存在于成纤维细胞中。由于长春花碱和长春花碱的浓度比AHVB和长春花碱高两个数量级,导致双吲哚生物碱的偶联反应可能是一个限速步骤,这可能是由于偶联酶的低表达、低比活性,或者是由于两个单体在细胞内的区隔而阻碍了偶联。
先前已经报道了一种过氧化物酶,CrPRX1,它可以激活洋紫质形成金属亚胺中间体。令人惊讶的是,这种酶选择性地在表皮中表达(图B),而不是长春花碱、亚胺二聚体和AHVB的定位(图D)。
根单细胞转录组揭示了MIA生物合成途径的独特组织
除了叶片,作者还对玫瑰花的根进行了scRNA-seq,以比较和对比MIA生物合成基因在两个不同器官中的细胞特异性表达。
MIA在长春花叶和根中都产生,但在两个器官中都存在花青素和丹参碱,但根和叶中的丹参碱的衍生化过程不同。丹参素衍生的产物长春花碱,后来形成AHVB,长春花碱和长春新碱,只在叶子中发现,而丹参碱衍生的哈姆美林只在根中发现。根scRNA-seq数据集捕获了来自两个生物复制的~2,000个细胞的表达,这两个生物复制分为10个簇和6个主要组织类(图A)。两个重复之间的集群模式非常相似。MAT是先前通过原位杂交报道在表皮和皮质中表达的。在根scRNA-seq数据中,MAT也被发现具有双重定位(簇4和簇8)。簇4包含内胚层和皮质(PBL15,AED3)的标记基因,而簇8包含成纤维细胞表皮(TTG2,GL2)5,52,53的标记基因。
叶和根的核心MIA基因的空间组织不同,突显了这两个器官细胞特异性调控的可塑性。在叶片中,MIA途径在LAMT时从IPAP切换到表皮细胞,在NMT时从表皮细胞切换到异养细胞(图B),但在根中,该途径没有被划分为三种离散的细胞类型(图7B)。相反,MEP和环烯醚萜阶段在由皮质和内胚层组成的基质组织中特异表达(图B),同时也在基质组织中表达,表现出更扩散的表达模式(图B)与长春花碱在叶片中的生物合成类似,将tabersonine修饰为Hörhammeine的晚期衍生化酶在不同的细胞类型中被发现,而不是其他途径基因。TEX25(丹参素6,7-环氧酶)、T19H(丹参素19-羟基酶)54和TAT55(丹参素衍生物19-O-乙酰转移酶)都与MAT26一样在表皮中可检测到表达。
结论
在基因组学时代之前,很少有植物专门化的代谢途径被解决。然而,在过去的15年里,测序技术使得能够快速生成低成本和高质量的转录数据集,这反过来又促进了在广泛的植物物种中发现基因。此外,基因组序列的可用性,使发现物理聚集的生物合成基因成为可能。在这里,作者选用最先进的组学方法如何不仅通过高分辨率的基因表达空间分辨率来加速基因发现,而且其他组学数据如何促进构建更全面的基因组基因、在2-D(线性)和3-D(染色质)空间的基因调控以及基因最终产物,即代谢物。
在转录本证据的支持下,产生了高度连续的、染色体规模的基因组组件,显示了MIA生物合成途径基因的大量复制,其中一些基因聚集在线性基因组中。
检测细胞类型特异性基因表达数据的能力表明,MIA生物合成途径在空间和序列上分布在长春花叶中不同的细胞类型上,从而可以构建IPAP、表皮和成体细胞的细胞类型特异性共表达模块。
这里开发的高通量质谱学方法不仅显示了哪些代谢物在不同的细胞类型中共存,而且还允许作者测量整个细胞群体中代谢物的浓度。值得注意的是,虽然长春花碱是在表皮中合成的(生物合成酶CS的定位证明了这一点),但这种生物碱与长春花碱共定位,后者是在成纤维细胞中合成的(生物合成酶D4H和DAT的定位证明了这一点)。因此,花青素必须从表皮细胞间转运到成纤维细胞。值得注意的是,二聚形成脱水长春花碱(AHVB)的长春花碱和长春花碱的浓度在高毫米级范围内。相反,二聚产物AHVB在微摩尔范围内,表明偶联步骤是限速的。这一发现是设计策略的起点,可以用来对含有较高水平AHVB的月见草属植物进行基因工程。
这些最先进的组学数据集为发现长春花中与细胞类型特定的MIA生物合成和运输有关的剩余基因和调控序列提供了基础。由于四分之一的药物来自或起源于植物,这项研究证明了单细胞多组学在植物天然产物基因发现中的力量。作者互补性单细胞组学方法的应用将是开发整个植物王国中丰富的新化学物质的关键。
参考文献
Zhou F, Wang CY, Gutensohn M, Jiang L, Zhang P, Zhang D, Dudareva N, Lu S. A recruiting protein of geranylgeranyl diphosphate synthase controls metabolic flux toward chlorophyll biosynthesis in rice. Proc Natl Acad Sci U S A. 2017 Jun 27;114(26):6866-6871. doi: 10.1073/pnas.1705689114. Epub 2017 Jun 12. PMID: 28607067; PMCID: PMC5495272.
徐州更个人博客:https://xuzhougeng.top/archives/Assemble-genome-using-ALLHiC-with-HiC-Data
Facchini PJ, De Luca V. Opium poppy and Madagascar periwinkle: model non-model systems to investigate alkaloid biosynthesis in plants. Plant J. 2008 May;54(4):763-84. doi: 10.1111/j.1365-313X.2008.03438.x. PMID: 18476877.