毫无疑问,处理数据的首要条件是理解数据从产生,对应到我们这个系列,也就是了解三维基因组的背景知识,如下:
三维基因组学习笔记
看完我昨天的笔记,大概知道三维基因组不只是一种技术,但是最流行的当属Hi-C系列和ChIA-PET啦,也知道三维基因组可以探索基因组之间的互作关系,通常是分析loop和TAD,还有component等等,其中的流程下一讲再公布。
生物信息学基础
我们来先了解一下要想处理这些数据我们必须要有哪些生物信息学基础知识,毕竟还不会走路就排名想跑起来只能算是妄想,勉强动起来也只能是摔得鼻青脸肿!
生信工程师入门最佳指南
我在上面的入门指南其实介绍的非常清楚了必备知识,而且本次武汉菲沙基因的培训课程安排也是如此,昨天一直在试图普及三维基因组的背景知识,包括其前世今生和未来展望,已经该技术与其它各种ngs组学技术的结合在各种生物学领域的应用。所以今天应该是普及生物信息学基础知识,也就是linux和R语言。
但是我本人在这方面的经验实在是太丰富了,所以实在是想不到留下来的理由,就旷课一天回老家看看侄女侄子咯,这里就精选几个之前我们的linux和R语言的肺腑之言!
首先是linux
(去可视化概念 练习) 了解 命令 参数 文件 的模式
代码语言:javascript复制基础知识:cd -, cd .. , cd -, history, !5 , /home/ , /tmp/ , >,&,jobs,nohup 1,2,0
文件目录操作:ls,cd,pwd,mkdir,rm,mv,cp,touch,head,tail,less,more
系统管理: df,du,top,free,ps,ipconfig,netstat,ssh,scp,
用户权限:chown,chgrp,groups,ls
代码语言:javascript复制文本操作:awk,grep,sed,paste,cat,diff,wc,vi
可以选择使用腾讯云实验室的免费linux服务器或者干脆购买一个最低配版本云服务器,应该是十块钱一个月。
参考 生物信息学常见1000个软件的安装代码! 来安装软件,至少安装100 软件,力图掌握其中的规律,然后就 可以使用conda,都是需要学习掌握的。
如果学完了,理论上你看下面的总结应该是有茅塞顿开的感觉。
linux命令行文本操作一文就够
linux系统环境变量一文就够
构建shell脚本一文就够
然后是R语言
时刻牢记学习R语言是为了分析生物信息学数据,不要跑偏了。
- 约翰•霍普金斯大学的Bioconductor学习课程
- 斯坦福大学的暑期小课程-用bioconductor做统计分析
- a Little Book of R for Bioinformatics!
- 生物学家应该这样学R绘图-视频,数据,代码全公开
比如掌握R语言后,可以在GEO数据库的海洋里遨游,那么你应该是可以看懂下面的教程:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版 R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
有了R语言基础,就可以非常轻松的使用各种R包来辅助三维基因组数据处理啦。
理论上还需要会一点perl和python语言,因为三维基因组数据处理过程中会使用到通过perl和python语言编写的软件,不过时间很紧张,而这些基础知识通常是需要半年以上的训练才能算是掌握,这里就先跳过。
明天就开始我们的实战,敬请期待哦!