8.1-8.7 交流群问题汇总第7期

本系列为交流群一周问题汇总。目前群人数比较多，如果你想加群，加我微信回复进群，我拉你进来。

加我好友请备注姓名单位，否则一律忽略！

关键词：lefse；株高计算；网络；宏基因组基因丰度定量；Wilcox检验；two way anova；物种与环境相关性的方法；分析ITS网站；科研绘图；系统发育树；时间序列分析；革兰氏阴阳性比例

1. lefse分析

1.R实现lefse

microbiomeMarker：

https://github.com/yiluheihei/microbiomeMarker

写了篇简单的介绍：microbiomeMarker：整合多种biomarker分析工具的R包

2.另外MicrobiotaProcess这个包也可以做biomarker，原理大致与lefse相似。

3.lefse的python版本：

https://lucashelpme.top/src/其他02手动LefSE.html

2. 用照片算株高？

去找DL 表型组的文章，看看有没有已经标好的数据集和训练好的AI，然后自己用AutoGluon重新训练一下。

3. 网络是无向还是有向

计算得到的网络文件都是有向的。但是画图一般都画无向的。因为相关性本身没有方向。

4. 宏基因组中的基因丰度定量方法

问：

大概知道应该有两种方法可以进行基因定量（基于比对的和基于不比对的？），不比对的有salmon。在基于比对的方法中，先用bowtie2将质检后的序列和去冗余的contigs进行比对，将得到生成的sam文件，用samtools转化为bam文件并排序，这样得到的bam.sorted文件下一步该怎么计算read counts呢（或者可以说是contig counts）？

看到samtools里面有个命令是 samtools idxstats ，samtools的文档说是可以计算每个contigs被读取的次数，这个算不算是read counts呢？在另外的一些文献里面，有看到采用featurecounts进行计数的（这个也尝试过，问题一直出在gtf注释文件上），但更多的好像是用在转录组。不知道到大家都是用什么方法得到read counts数。回帖后的reads率大概都在70%以上。

答：

1.salmon一步到位，可用TPM值

2.回帖70%以上确实挺高的

3.DEseq2不太适合不适合微生物数据

4.可以试试这个软件coverm https://github.com/wwood/CoverM

它提供了很多计算abundance的方法，不用自己手动统计read counts。这个软件也是开发GTDB的团队做的，现在用它计算abundance的文章很多。软件也能够设置过滤低质量mapping的阈值，不用自己手动过滤了。

5. Wilcox检验使用条件

wilcoxon对样本数差异没有要求。

6. two way anova

问：

有两个影响因素，记为 A和B。A下面有三个分组数据（a.b.c） B下面有四组（1.2.3.4）是个3*4的交叉实验。本来是用one way anova，看不同处理的差异。比如a下面的1.2.3.4之间的差异，以及，1下面的a.b.c差异。如果用two way anova 是不是要先看是否有交叉效应？然后该用什么方法进行同一因素下的，另一个因素的组间比较呢

答：

1.没办法做各level间的，双因素分析应该只是用于看两个因素之间是否有交叉效应，如果要做各level间的还是应该用单因素吧，之前我遇到同样的问题，跟导师讨论后是这样解决的。

2.一个参考：

https://online.stat.psu.edu/stat502/lesson/4/4.1/4.1.1

7. 物种与环境相关性的方法

问：

关于微生物物种与环境变量的相关性，用RDA分析和做Mantel Test有什么区别，除了能否表示出显著性外，用哪个更好些

答：

mantel原理，之前文章中一张图有介绍：

R——ecodist&MRM methods

一句话：构建距离矩阵，矩阵展开为向量计算相关性。通过对矩阵进行置换得到P值。

RDA原理：

RDA, tb-RDA, CCA & db-RDA (constrained ordination)

https://www.davidzeleny.net/anadat-r/doku.php/en:rda_cca

群落分析的冗余分析（RDA）概述

https://mp.weixin.qq.com/s?__biz=MzIxNzc1Mzk3NQ==&mid=2247484372&idx=1&sn=c4536dc5cd97135219ba420738270db9&chksm=97f5b3cca0823adaa8ffff57e20d2d001d8361f9a9ca6bc9217c9ff1810bc3826472fc778813&token=1015994592&lang=zh_CN#rd

一句话：物种和环境因子做多元线性回归，得到的拟合值做PCA，得到约束排序。通过对统计量F构建null model进行置换得到P值。

8. 分析ITS网站

https://sbi.hki-jena.de/daniel

写个简单介绍：DAnIEL：真菌数据分析平台及相互作用关系数据库

9. 科研绘图工具

https://biorender.com/

10.系统发育树的目的

微生物组数据系统发育分析的方法

https://mp.weixin.qq.com/s/79qyX4jxZ47ySoysvV_r0g

11. 时间序列如何分析

可参考这篇NCC：气候变暖导致草地微生物群落的演替分异

https://mp.weixin.qq.com/s/33u3BuNK1XirRd0-GHBQTA

12. 革兰氏阴阳性比例

问：土壤微生物中革兰氏阳性菌的含量和革兰氏阴性菌的含量的比值有啥特殊的指示意义？

答：

参考

1.High microbial diversity stabilizes the responses of soil organic carbon decomposition to warming in the subsoil on the Tibetan Plateau

2.Temperature sensitivity of SOM decomposition is linked with a K-selected microbial community

这篇我之前简单介绍过：微生物类型与r/k生存策略

https 网络安全 r语言 node.js

0 人点赞