跟NBT一作学扩增子分析 | 2019微生物组—16S扩增子分析专题研讨论会第五期

2019-05-14 15:03:27 浏览数 (1)

在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2019年7月19-21日北京推出《16S扩增子分析》专题培训第五期,为大家提供一条走进生信大门的捷径、为同行提供一个扩增子分析实战学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创四段式教学(3天集中授课 自行练习2周 集中讲解答疑 上课视频回看反复练习),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据

关于学习生物信息学分析的重要性,请阅读《生物信息9天速成班—成为团队中不可或缺的人》。

课程简介

请详细阅读课程简介,如果以下内容您全精通,不必参加此培训。

本课程一共3天,每天6节课,共18节课,全部课程均理论与实战结合(只要课上讲的内容,都是要带你亲自实现的分析)。从分析平台搭建、Linux和R基础、图表解读和实战、扩增子分析标准流程、功能预测、统计分析以及各类高级分析(进化树、网络、环境因子、机器学习等),和CNS级图片修改排版。3天时间,老司机带您完成自学需要3个月甚至是3年的崎岖之路,助力您真正玩转扩增子分析。

课程大纲

每节课1小时一个主题,理论结合实战,学懂原理,实战操作,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。

编号

主题

简介

11

分析平台搭建

Win10:git、R、Rstudio、R包、STAMP、AI等

12

Linux基础

简介、优势、常用操作、序列处理、软件安装等

13

R基础

发展史、生物学中应用、ggplot2绘图、模板

14

图表解读

常用16种图表意义、使用场景

15

结果可视化

16种图表的数据整理和在线绘制

16

发表级图版制作

Adobe Illustrator制作CNS标准图版

21

扩增子介绍

背景知识、分析原理、科学问题

22

扩增子分析流程

vsearch usearch跨平台分析流程

23

STAMP统计分析

玩转样本筛选、差异比较和统计图表保存

24

多样性分析

R语言实现多样性、物种组成和差异比较图表

25

QIIME2

Linux平台QIIME2私人定制流程

26

网络分析

文章解读,实战网络绘制和属性比较

31

PICRUSt功能预测

KEEG功能组成预测和统计绘图

32

Faprotax,Bugbase

细菌元素循环和表型层面功能挖掘

33

机器学习

随机森林分类回归,重现两篇Nature分析、来源追溯

34

进化分析

序列筛选、比对、进化树构建和美化

35

环境因子

文章解读,高分文章重现

36

研究热点展望

总结、把握研究热点、展望技术发展趋势

37

考试50题

自评学习效果、知识点回顾

41

答疑-线上

答疑、考试内容串讲

教程内容简介如下:

一、生信基础知识和技巧

还在为没有Linux服务器而无法分析扩增子数据而苦恼吗?其实你的个人电脑就是扩增子分析的利器。易生信团队独创实现了跨平台的分析流程,在大家的Windows笔记本上可以轻松实现扩增子领域的绝大多数分析,第一节课带你轻松在自己的本本上搭建数据分析平台。

图1. 易生信首创基于Win10优化的扩增子分析流程,笔记本秒变大数据分析平台

推荐使用Windows10系统,8G及以上内存分析更流畅。 我们也会分享给大家在Linux上配置整个分析流程的代码 (Mac跟Linux类似,无须区别对待,但部分软件可能安装方式不同,未做深入测试,不建议参加培训时使用)。

同时讲解生物学家必要掌握的Shell和R语言基础知识,保证你高效、稳定的使用扩增子分析平台。

图2. Shell和R学习大纲,首创Rstuio中鼠标点击可完成Shell脚本和R语言分析,既打开生信的大门,又不会增加生物学家时间成本

二、图表解读和绘制

针对很多老师缺少系统的生信背景,看不懂分析文章图表,更对绘制各式图表手足无措。

我们推出过如下两个系列,共16篇原创文章,对8种图形进行讲解和R语言绘图。

  • 扩增子图表解读-理解文章思路
  • 扩增子统计绘图-冲击高分文章

但这些只是入门,在培训上,我们将结合发表高水平文章,进一步讲解16种常用分析图型结果的原理和使用范围,让您不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。

针对大家使用R语言绘图学习时间成本较高的问题,易生团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

图3. 16种常用图形的绘制。可使用我们的在线绘图工具实现。

为了让各种统计图片实现出版级的组图,特开设了一节Adobe Illustrator修图排版课,讲述基本使用技巧,轻松掌握精髓,让你文章图版档次向CNS看齐,轻松成为实验室的修图和拼图达人。

图4. AI排版本子图为CNS出版级组图示例(Science, 2016封面文章)

三、扩增子基础和分析流程

图5. 典型的扩增子结构模型图

  • 扩增子背景知识
  1. 背景:国际微生物组(人类HMP、环境EMP)计划、中国微生物组计划
  2. 研究对象:人、动物、植物、环境
  3. 研究方法:培养组学、扩增子测序 (最常用)、宏基因组、宏转录组、宏蛋白组、宏代谢组、宏表观组等
  4. 宏基因组学的研究热点:微生物多样性、宏基因组、培养组、肠菌与疾病、MWAS
  5. 扩增子基本原理:细菌/古菌 16S、真菌18S/ITS结构、引物选择等
  6. 实验设计:样品制备和建库中的误区
  7. 文章套路:扩增子分析SCI文章的物种组成、功能预测常用套路
  8. 主流方法优缺点比较:QIIME、QIIME2、mothur、Usearch-unois3、dada2等方法
  • 扩增子分析流程

之前我们发布了基于QIIME(引用13000 ) USEARCH(引用8000 )组合的史上最详细中文扩增子分析流程,累计阅读10000 。

  • 扩增子分析流程-把握分析细节

同时在去年也推出了2018年正式接档QIIME的最新流程QIIME2的官方中文帮助文档,累计阅读5万 。

  • QIIME2中文教程-把握分析趋势

想使用QIIME和QIIME2的小伙伴可直接点击上方链接学习。课上也会带大家用服务器操作,分享最新私人定制流程。

但上面两种分析流程仍有很多缺点,如需要Linux服务器,安装和操作复杂,学习时间成本过高等不足。

易生信团队组织宏基因组、生信宝典的一线生信专家,为广大生物学家,定制了一套安装部署简单、鼠标点击编程、支持主流操作系统、学习成本低、又灵活的扩增子分析流程,助力生物学家轻松分析数据,更专注生物学现象的挖掘。

图6. 扩增子分析流程金字塔,数据量从下向上逐渐减少

  • 扩增子流程如下:
  1. 实验设计的编写
  2. Illumina测序数据的质控:fastqc, mulitqc
  3. 质控流程:双端序列合并、切除barcode和引物、质控
  4. 生成OTU/ASV:序列去冗余、聚类clust_otu生成OTU或unoise3去噪生成ASV(Amplicon Sequence Variants)
  5. OTU筛选:嵌合体生成原理及去除方法、去除线粒体、叶绿体和宿主非特异扩增污染、生成代表性序列和OTU表
  6. 物种注释及进化树构建
  7. 常用Alpha多样性指数计算
  8. 常用Beta多样性距离矩阵计算

现在你可以在自己笔记本或台式机上轻松分析扩增子啦!并且支持最新的去噪生成ASV方法,想自己亲自分析的朋友,快来北京参加扩增子专题培训班吧!

图7. 常用宏基因组统计作图软件STAMP & LEfSe

引用过千次的STAMP绘制Extended barplot大家应该很常见,带你半小时速成。LEfSE引用超1700次,它的柱状图和圈图随处可见,但服务器超级难用,即上传痛苦,又要久等。我们为学员定制了国内专享服务器,随时为你服务。有服务器的伙伴还可以获得安装和使用的教程,在自己的服务器上可重复计算,不受网络和地域限制自己随时随地使用。

四、可重复计算和统计绘图

对于可重复计算要求比较高、对细节有进一步分析要求的学员,我们还会教大家当前最顶级的R语言统计分析框架,让你零基础轻松实现可重复计算,满足顶级文章的代码公开和网页可重复要求(这些资源在生信公司是价格几十万的绝密流程代码,一般人是没有机会见到的)。

图8. 数10种高质量图的R源代码实现可重复计算

在自己电脑上轻松修改输入文件、参数。可全程记录分析过程,保证从数据到发表级图形的可重复计算,让团队分析水平上升到大牛级别。

  1. Alpha多样性各种指数:Shannon、Chao1、Observed OTU、PD whole tree等,并配合Anova,LSD统计;
  2. Beta多样性各种距离矩阵:Bray Curtis、Jaccard、Weighted Unifrac、Unweighted Unifrac等结果的树状图、箱线图、散点图展示样品间差异;并配合Adonis, Anosim, MRPP统计
  3. 有监督的主坐标轴分析 (CCA/RDA),展示组间差异,anova.cca统计
  4. DESeq/edgeR/t.test/wilcoxon统计组间差异,计算Pvalue和FDR
  5. 热图、曼哈顿图、火山图展示两组间比较差异分类单元、OTU/ASV
  6. 韦恩图、三元图、网络图展示两组及多组间相同与不同

五、功能预测和机器学习

学习PICRUSt分析原理、常用结果展示样式及文章解读。实战进行官网、本地、在线分析,并对结果进行整理,方便STAMP、LEfSe以及R分析。下图为预测结果经STAMP快速分析的结果展示,学员可以在老师带领下35分钟内完成以上分析。

图9. 功能预测结果使用STAMP统计和可视化

对于不满足用KEGG功能预测和统计结果的小伙伴,我们还进一步讲解FAPROTAX (2016, Science)的分析,适合研究环境、元素循环的同行;此外还有BUGBASE分析,实现细菌代谢、厌氧性、革兰氏分类等表型预测,适合医学领域的同行使用。

图10. 重现两篇Nature文章机器学习分类和回归分析

上图:Wilck-2017-Nature,采用Adaboost进行分类和测试集验证准确率。 下图:Subramanian-2014-Nature,采用随机森进行回归、交叉验证、测试集检验模型准确率和热图展示特征OTUs时间序列变化。 高分文章离我们并不是遥不可及,在你的本本上,1个小时轻松重现每一个子图的分析和绘制。读懂这两类分析的结果。

六、网络和环境因子分析

图11. 两组网络比较、以及网络属性比较(Wang-2018-Gut)

还以为随便画个网络就能当文章的主图吗?这个时代早已成为历史。现在的高分文章,至少要求多网络比较,标配网络属性比较。在这里有微生物所微生物网络研究方向的博士,带你进入网络的世界,四步走实现即美观又有意义的网络分析:读懂网络——绘制单个网络——绘制多个网络——网络属性比较及可视化。这么前沿的技术,估计世界范围内只有这里会教你。

图12. 环境因子分析(Metcalf-2016-Science)

环境因子分析是很多研究的标配,常用的Vegan包引用过万次就知道它的重要性。但平时看到的图不是低分文章,就是不够美观。易生信团队精选Rob Knight团队2016年Science杂志中经典环境因子分析为例,让你的分析和可视化一步到位,向CNS看齐。

0 人点赞