今天的内容终于到转录组下游啦,R比起Linux易懂很多,基本上改改分组信息无脑run就好
最大的收获是下面三部分
一、编码原则
KISS( Keep It Simple, Stupid)原则--保持简单、愚蠢(易于理解)
KISS原则使代码简单、清晰、易于理解。
每个方法应该只解决一个小问题,而不是实现很复杂的功能,
每个方法都不应该超过40-50行代码。
DRY(Don’t Repeat Yourself)原则--不要重复你自己 (分解,可重复利用)
DRY原则使代码可重复利用。
将代码和逻辑划分为更小的可重用单元,
并通过在需要的地方调用代码来重复使用这些单元代码。
总之,代码应解决一个小问题,满足易阅读和易维护。
二、count、FPKM/RPM/TPM傻傻分不清
count就是上游分析得到的直接数据,有很多的0
测序深度:对同一条基因分析得到的重复数,类似于流量大看的人就多,所以不能代表单个广告更受喜欢
基因长度:可以想象成接苹果的大篮筐,口径大的筐子接的苹果多,约长的基因对应纳入的片段就越多,不见得是这个基因表达更高
FPKM对测序深度和基因长度都进行考虑之后校正
RPM只校正测序深度,适合于miRNA的分析(18~32个碱基)
TPM用了更加烧脑的方法校正了测序深度和基因长度
三、三个转录组差异分析R包的差别
Deseq2和edgeR是专门针对转录组测序开发的,limma更多见于芯片分析(数据正态)
三个包都要求从count数据分析
其他:突然发现单细胞作为特殊的转录组确实具有很多共性,比如数据都有特别的格式,用assay来读各种数据,把样本信息都用稀疏矩阵的一个内容来放,以及样本都需要去除低表达和空样本,非常像,学了转录组对于后续理解单细胞很有帮助
>生信技能树,生信马拉松,火龙果老师