ISME:微生物网络构建的相关性方法在灵敏度和精确度方面差异很大

2022-05-18 08:30:28 浏览数 (1)

一篇较老的文章,之前看过,但是最近看到一些相关研究,又找到了这篇文章再看一次。

网上简单搜了一下,竟然还没有人解读过。因此本文简单总结结果。

背景

相关性网络(correlation networks)被用于表征微生物之间的相互作用。微生物(OTU)为节点,成对的特征为边,可提供有生物学或生物化学意义的关系。如共生微生物之间可能存在正相关,拮抗微生物之间存在负相关。环境因此的影响也会使微生物之间存在间接的相关。如系统发育相关的微生物有正相关的趋势。

然而,测量相关性网络存在挑战。

其中之一来自于群落的复杂性。如5000个物种的群落,两两关系个数将超过一千万;更何况还有多个物种之间的关系。

第二,微生物数据为相对丰度,不是绝对丰度。这种稀疏性和数据缺失使得统计分析很困难。

第三,微生物之间存在多样的关系类型,如线性,指数,周期性等等,难以全部检测。

方法

考察了91套数据,包括8种不同的样本模型。

研究的相关性方法:CoNet,LSA,MIC,RMT,SparCC,Bray-Curtis, Pearson, Spearman

检测指标:

true positives (TP)

false positives (FP)

TN (true negatives)

FN (false negatives)

sensitivity (true positive rate—TP/(TP FN))

specificity (true negative rate—TN/(FP TN))

precision (TP/(TP FP))

图1 a,样本类型;b,相关性方法

结果

1.不同相关性方法产生数量显著差异的边

Fig.S1 不同相关性方法共享的边的比例

2.抽样显著影响了边的推断

微生物是组成数据,总量保持不变。其中一个物种丰度升高,其他必然降低,因此产生假的相关。这种效应在小样本时更加明显。有效物种数越少,对边的影响越大。

基于秩次的方法,如MIC, Spearman和Bray-Curtis受组成数据影响稍微小一些。

不推荐用DESeq标准化方法来建立相关性,因为会产生负值。

目前的方法对于组成数据构建网络依然效果不好。

图2 圈越大表明越接近真实OTU之间的相关性。

3.FP受样本类型和相关性方法的影响

RMT和CoNet的FP比例最低。

总体来说所有方法的precision指标都很低。

Fig.S10 a, 模拟;b, 真实数据的FP。

4.常见的线性生态关系可被一些方法检测到

大多数工具都能很好地检测到互惠和共生,而偏害和部分专性互养不可检测。

所有工具都把寄生检测为共存而不是互斥,三个工具SparCC, Spearman和LSA把竞争检测为互斥。当关系变强,所有工具的效果都会变好。

对于3个及以上物种的关系,SparCC和LSA对竞争的检测效果最好。

总体来说,当群落超过3个物种时,目前所有工具都无法准确检测他们之间的相互作用关系。

图3 a, 成对;b, 三个及以上物种关系。

所有工具的准确性都很低。为了降低假阳性,作者建议去掉稀有OTU,阈值为~50% OTU

虽然去掉OTU会破坏网络结构,但是相比而言假阳性FP更不可接受。

图4 a-d, 真实数据条件下不同方法对于线性生态关系的准确性; e-h,非线性生态关系的准确性

5. 非线性的生态关系比线性关系更难以检测

Lotka–Volterra模型基于一阶微分方程,用于描述很多经典生态学模型。结果表明灵敏度相较于线性模型都下降~10%。

对于2个物种的关系,MIC, SparCC, LSA, CoNet和Spearman表现较好;对于6个物种的关系,SparCC和Pearson表现较好。

6. 时间相关关系随信号、采样频率和时间转换而变化

边和样本量、时间点都相关。

图5 时间序列相关的关系

7. 集成方法提高了精度和F1分数

当需要一定的precision, 可以使用包含CoNet, SparCC, Spearman和Pearson的集成方法。即用CoNet的方法和其他方法取交集。

如果允许存在较低的假阳性,且OUT超过一般都是0,可使用CoNet和Pearson的集成方法,增加F1值。

对于Lotka–Volterra70%的稀疏关系,LSA具有较高的准确性和F1值。

讨论

  • 采用0.05作为校正后的显著性P值的阈值太高了,用0.001更有用。
  • 测序技术和标准化方法对边影响同样很大,值得研究。
  • 本研究的RMT采用Pearson相关,效果比单独使用Pearson。但是RMT采用其他相关指数,如Spearman仍需研究。
  • 数据的稀疏性仍是最大的挑战之一。作者建议先去掉极度稀有的OTU再构建网络。
  • 如果OTU包含一半以上的0,网络构建效果将急剧下降。

作者推荐的方法选择流程:

图7 不同相关性方法的选择依据

0 人点赞