Day-7 测序原理介绍
今天是最后一天啦!7天的时间悄然就过去啦!希望能够坚持养成每天学习的好习惯,今天肝了一份研究方案,测序原理这一块看得不是很仔细,明天会抽时间再看一遍滴!
测序的基础知识
第一代测序——桑格尔-双脱氧链终止法是最为经典的一代测序技术,至今仍是测序行业的金标准。
第二代测序——第二代DNA测序技术(next generation sequencing,NGS )-循环阵列合成测序法。
第三代测序——以PacBio公司的SMRT和Oxford Nanopore Technologies 的纳米孔单分子测序技术为标志,不需要经过PCR扩增,超长读长,可达二代测序的100倍以上,实现了对每一条DNA分子的单独测序。错误率比二代要高,达到10-15%。
名词结构化
基因组学(核酸序列分析)
全基因组测序(WGS)
全外显子组测序(WES)
简化基因组测序(RRGS)
作用
基因组作图(遗传图谱、物理图谱、转录本图谱)
核苷酸序列分析
基因定位
基因功能分析
转录组学(基因表达分析)
mRNA-Seq
IncRNA-Seq(长链非编码RNA)
sRNA-Seq(主要是miRNA-Seq)
作用
获得物种或者组织的转录本信息
得到转录本上基因的相关信息,如基因结构功能等
发现新的基因
基因结构优化
发现可变剪切
发现基因融合
基因表达差异分析
蛋白质组学
蛋白质组数据处理、蛋白及其修饰鉴定
构建蛋白质数据库、相关软件的开发和应用
蛋白质结构功能预测
蛋白质连锁图
代谢组学
代谢物指纹分析
代谢轮廓分析
常用的数据格式
DNA序列表征
Fastq
一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘ ’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价(quality value)。
Fasta
以“>”为开头,fasta格式标志。
序列ID号,gi号,NCBI数据库的标识符,具有唯一性。格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
序列描述。
碱基序列,序列中允许空格、换行、空行,一般一行60个。
GenBank
以LOCUS和一些注释行开始,序列的开头以“ORIGIN”标记,末尾以“//”标记。
EMBL
以标识符行(ID)开头,后面跟着更多注释行。序列的开头以“SQ”开头标记,序末尾以“//”标记。
附上思维导图嘿嘿