北京时间2021年11月13日凌晨0时,美国加州大学圣地亚哥分校任兵教授课题组在国际学术期刊《细胞》(Cell)发表论文 ——“ A single-cell atlas of chromatin accessibility in the human genome”。
作者利用单细胞测序技术在30个人类组织中分析了约60万个细胞,并通过与之前数据的集成分析绘制了目前最大规模的人类单细胞染色质可及性图谱、在222个细胞亚型中注释了近120万个顺式作用元件,为解析基因转录调控机制,以及人类复杂疾病的致病机理提供了宝贵的参考资源。
张垲博士和博士生James D. Hocker为本文的共同第一作者。
人类基因组是一本包含约32亿个DNA碱基对的“无字天书”。大约1%的基因组属于编码区,负责指导信使RNA的转录及蛋白质的合成。余下的基因组虽然不直接参与蛋白质的编码,但越来越多的证据表明它们与基因的表达及调控息息相关。研究结果显示,人类基因组内的非编码区至少80%是有生物活性的,而并非之前认为的“垃圾”DNA(junk DNA)。其中,顺式作用元件(cis-regulatory element, CRE)是目前已知的最重要的功能性非编码区。顺式作用元件包括启动子、增强子、调控序列和可诱导元件等,它们通过与转录因子结合而调控基因转录的精确起始和转录效率。发生在顺式作用元件上的基因突变是许多重大疾病的发病机制之一,比如糖尿病,阿尔兹海默症,自身免疫病等。
在人类细胞中,总长约2米的基因组 DNA通过与组蛋白缠绕形成核小体,并经过螺旋折叠等方式盘绕形成染色体进而团聚于直径10微米的细胞核中。在细胞内的DNA需要进行转录等活动的时候,DNA才会从组蛋白中释放出来,裸露出需要与转录因子结合的位点,便于转录。我们把染色质的这种特性叫做染色质的可及性(chromatin accessibility),而将暴露的这段染色质称为“开放染色质”(open chromatin)。作为转录调控的核心区域,顺式作用元件附近的染色质通常具有较高的可及性。因此,利用全基因组染色质可及性检测技术比如ATAC-seq,我们就可以鉴定出细胞中潜在的顺式作用元件。
作为ENCODE(Encyclopedia of DNA Elements, DNA元件百科全书)计划的主要成员之一,任兵课题组长期致力于解析人类基因组中的所有功能性元件。此前,ENCODE计划已经分别在人类基因组和小鼠基因组中生成了近100万个和超过30万个顺式作用元件的注释,为科研界提供了宝贵的参考资源。美中不足的是,这些顺式作用元件的注释大部分产生于肿瘤细胞系以及器官组织样本。人体由大约37.2万亿个细胞组成。其中功能形态迥异的细胞类型超过200个。由于顺式作用元件的生物学活性通常具有极高的细胞特异性,在器官组织层面上的注释并不能直接迁移到细胞层面上,尤其对于某些稀有细胞群体更是如此。
为填补这一空缺,来自任兵课题组的研究人员克服了样本获取受限、组织类型差异性和庞大数据分析的复杂性这三大挑战,利用优化的高通量单细胞ATAC-seq测序技术对分布于30个不同成年人体组织中的60万个细胞构建了单细胞染色质可及性图谱。为详细分析获得的单细胞数据,研究团队优化了之前用于单细胞聚类和开放染色质鉴定的计算框架,通过生物信息学分析共识别了111个细胞亚型以及约120万个顺式作用元件,并对这些元件在111个细胞群体中的活性做出了精确注释。
利用这一计算框架,任兵课题组进一步将这些数据与之前发表的人类胚胎单细胞染色质可及性图谱进行了集成分析。研究团队对超过130万个细胞进行了聚类分析,共识别出分布于30个成年组织和15个胚胎组织的222种细胞亚型,并对每一个细胞亚型的顺式作用元件进行了注释。
为了寻找复杂疾病的致病机理和药物靶点,研究团队对240个疾病或性状的全基因组关联分析(GWAS)致病位点进行了细胞亚型富集分析,鉴定出了与复杂疾病或性状有直接关联的细胞亚型,以及位于顺式作用元件区域的潜在致病位点。研究团队随后利用对应组织里的三维空间组学数据预测出这些潜在致病位点的靶基因并利用计算模型识别出这些突变可能干扰的转录因子结合位点,为加速新型药物靶点的开发提供了重要的理论依据。
综上所述,该研究团队展示的单细胞数据资源规模庞大,对人类发育的不同阶段进行了较为全面的组织分析,所获得的数据可为更好地理解人类发育中罕见和常见疾病提供信息资源,同时也可为寻找具有细胞类型特异性的致病基因提供支持。未来,研究团队计划建立体外模型用于验证顺式作用元件在不同条件的生物活性,进一步揭示其在转录调控以及疾病发生发展中的重要作用。
相关论文信息:
https://doi.org/10.1016/j.cell.2021.10.024
编辑 | 余 荷
排版 | 王大雪 来源 | 小柯生命