生信马拉松 Day19 转录组 RNA-Seq-4

2024-03-01 12:14:48 浏览数 (1)

今天的内容终于到转录组下游啦,R比起Linux易懂很多,基本上改改分组信息无脑run就好

最大的收获是下面三部分

一、编码原则

KISS( Keep It Simple, Stupid)原则--保持简单、愚蠢(易于理解)

KISS原则使代码简单、清晰、易于理解。

每个方法应该只解决一个小问题,而不是实现很复杂的功能,

每个方法都不应该超过40-50行代码。

DRY(Don’t Repeat Yourself)原则--不要重复你自己 (分解,可重复利用)

DRY原则使代码可重复利用。

将代码和逻辑划分为更小的可重用单元,

并通过在需要的地方调用代码来重复使用这些单元代码。

总之,代码应解决一个小问题,满足易阅读和易维护。

二、count、FPKM/RPM/TPM傻傻分不清

count就是上游分析得到的直接数据,有很多的0

测序深度:对同一条基因分析得到的重复数,类似于流量大看的人就多,所以不能代表单个广告更受喜欢

基因长度:可以想象成接苹果的大篮筐,口径大的筐子接的苹果多,约长的基因对应纳入的片段就越多,不见得是这个基因表达更高

FPKM对测序深度和基因长度都进行考虑之后校正

RPM只校正测序深度,适合于miRNA的分析(18~32个碱基)

TPM用了更加烧脑的方法校正了测序深度和基因长度

三、三个转录组差异分析R包的差别

Deseq2和edgeR是专门针对转录组测序开发的,limma更多见于芯片分析(数据正态)

三个包都要求从count数据分析

其他:突然发现单细胞作为特殊的转录组确实具有很多共性,比如数据都有特别的格式,用assay来读各种数据,把样本信息都用稀疏矩阵的一个内容来放,以及样本都需要去除低表达和空样本,非常像,学了转录组对于后续理解单细胞很有帮助

>生信技能树,生信马拉松,火龙果老师

0 人点赞