转录因子(Transcription factor,TF)是一类能够以序列特异性方式结合DNA并对基因转录起关键调控作用的蛋白质,在各种生物过程和疾病发生中起非常关键的作用。鉴定、分类和注释转录因子以及分析转录因子的调控和功能等一直是研究的热点和基础,它们在生物体内形成一套指导基因表达的复杂系统引得众多科学家浓厚的研究兴趣。
为了揭开TF在生物体内调节机制的神秘面纱,科学家们探索了许多实验方法(如CHIP-seq)和预测工具(如seq logo,Jaspar数据库等),具体可以参见历史推文:
- R语言 - 绘制seq logo图
- Seq logo 在线绘制工具——Weblogo
- 一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点
- 2018 升级版Motif数据库Jaspar
下面介绍由华中科技大学生命科学与技术学院郭安源教授团队开发的动物转录因子注释和预测数据库(AnimalTFDB)。
AnimalTFDB数据库建设工作于2011年11月完成了第一版,至今持续维护和更新了7年,三个版本的文章分别都发表在牛津大学出版社(Oxford University Press)出版物《核酸研究》(Nucleic Acids Research)(2017年影响因子11.56),最新的3.0版本文章于2018年9月11日在线发表(https://doi.org/10.1093/nar/gky822). 如何快准狠地找到相关领域的经典文献?
1. AnimalTFDB 3.0 概览
AnimalTFDB 3.0版本中作者鉴定、分类和注释了97个物种全基因组水平的125,135个TF基因和80,060个转录辅因子基因。其中,根据转录因子DNA结合结构域(DBD),将TF进一步分为73个家族,根据TF辅助因子功能分为83个家族。新版本除了在数据上的扩展外,还提供多种搜索浏览方式(Famliy
、Species
或自定义搜索
)、2个在线预测工具Predict TF
和Predict TFBS
(分别可以批量预测转录因子和预测DNA序列上的转录因子结合位点)、Blast
工具和数据下载
功能。因为人类转录因子使用的广泛需求,作者在新版AnimalTFDB数据库中单独设计了一个人类TF数据库网络界面(HumanTFDB
:http://bioinfo.life.hust.edu.cn/HumanTFDB/)。
2. Browse
1. 通过TF的家族分类进行搜索:其中包含73个TF家族和83个TF辅助因子(cofactor)家族,再分别分为6类,选择一个家族后将显示TF家族内成员组成。
2. 通过TF的物种分类进行搜索:
在此我们选择人类:上面是该物种中TFs的统计柱状图,下方是对这些TFs的分类。
继续点击一个转录因子家族进入家族基因列表页面:表内显示其包含的家族成员的相关信息,此页面下面还显示了DBD的多序列比对(Multi-alignment
),以及对这些TFs的多重比对weblogo
图,还有该TF家族的简要介绍和参考。
点击结果表中的Ensembl ID
可直接查看转录因子的基本信息,如:功能结构域、TFBS seqlogo图、互作网络以及表达等。
3. Search
1.可以在右上角快速搜索框中输入Ensembl Gene ID
、Entrez Gene ID
或Gene Symbol
进行搜索。
2.此页面提供了四种高级搜索数据库的方法。 用户可以通过TF的基本信息(支持多种Gene ID)、注释信息(PPI
,Pathway
,GO
,Ortholog
和Paralog
)进行搜索。 对于人类的TFs,还可以根据TFs对应的mRNA和蛋白表达进行搜索,可以选择特定物种、组织类型、细胞系、发育阶段或癌症类型,以及基因表达水平的最低阈值来过滤搜索结果。
4. prediction
- TF prediction
用户可以根据自己的蛋白质序列中识别TF,支持一次上传高达1000个蛋白质序列(注意文件格式FASTA格式:每条序列第一行以>
开头,第二行是序列),并在几分钟内获得结果。
2.TF binding site prediction
用户可以根据自己的核苷酸序列中识别TF靶标,本数据库从TRANSFAC
,JASPAR
,HOCOMOCO
和hTFtarget
数据库中收集了TF基序矩阵。 使用这些矩阵扫描人类的比对序列,使用MEME Suite的检测功能(http://meme-suite.org/index.html) 来预测TF靶标。 在预测结果中,显示TF结合位点序列,得分,P值,Q值等信息,通过Filter by TF
显示特定的TF结果。
4. Blast
用户利用蛋白质或DNA序列在数据库中搜索TFs和辅助TFs,以找到同源基因并探索新的TF功能, 可以选择所有物种或特定物种的蛋白质序列作为BLAST数据库,同时可以指定e-value
值来进行筛选。
HumanTFBS数据库的功能与AnimalTFDB差不多,在此不做过多介绍。