【Nature Biotechnology】四篇好文简读-专题1

2022-05-23 08:38:44 浏览数 (1)

论文题目:

Mapping single-cell data to reference atlases by transfer learning 论文摘要:

大型单细胞地图集现在经常被生成,来作为较小规模研究对象进行分析的参考。然而,由于数据集之间的批处理效应、计算资源的有限性和对原始数据的分享限制,从参考数据中学习是复杂的。本文介绍了一种深度学习策略,用于将查询数据集映射到称为单细胞体系结构手术(scArches)的参考数据之上。scArches 使用传输学习和参数优化来实现高效、分散、迭代的参考建立和利用已存在的参考而不需要共享原始数据得到新数据集的上下文化。通过使用小鼠大脑、胰腺、免疫和整个生物体地图集的例子,表明 scArches 在去除批处理效应的同时保留了生物状态信息,尽管使用的参数比从头整合少4个数量级。Scarch 推广到多模式参考映射,允许缺失模式的估算。最后,当映射到健康参考时,scArches保留了冠状病毒疾病2019(COVID-19)疾病变异,从而能够发现疾病特定的细胞状态。scArches 将通过支持迭代构建、更新、共享和高效使用参考地图集来促进合作项目。

论文链接:

https://www.nature.com/articles/s41587-021-01001-7

论文题目:

Improved metagenome binning and assembly using deep variational autoencoders

论文摘要:

尽管近年来宏基因组分箱研究取得了进展,但从宏基因组数据重建微生物物种仍然具有挑战性。由此本文开发了用于宏基因组分箱(VAMB)的变分自编码器,这是一个在聚类之前,使用深度变分自编码器对序列共丰度和k-mer分布信息进行编码的程序。本文证明了一个变分自动编码器能够集成这两种不同的数据类型,而不需要任何先前的数据集知识。VAMB优于现有的最先进的binners,在模拟和真实数据上分别重建29-98%和45%的近完全(NC)基因组。此外,VAMB能够分离紧密相关的菌株高达99.5%的平均核苷酸身份(ANI),并从1000个人类肠道微生物组样本数据集中重建了255和91个NC普通拟杆菌(Bacteroides vulgatus)和多氏拟杆菌(Bacteroides dorei)样本特异性基因组,作为两个截然不同的簇。本文使用这个数据集中的2606个NC箱来显示人类肠道微生物组的物种有不同的地理分布模式。VAMB可以在标准硬件上运行。

论文链接:

https://www.nature.com/articles/s41587-020-00777-4

github链接:

https://github.com/RasmussenLab/vamb

论文题目:

Identification of antimicrobial peptides from the human gut microbiome using deep learning 论文摘要:

人类肠道微生物组编码多种抗菌肽(AMPs),但AMPs的长度短,对计算预测提出了挑战。作者结合了多个自然语言处理神经网络模型,包括LSTM,Attention和BERT,以形成一个统一的管道,用于从人类肠道微生物组数据中识别候选AMP。在被确定为候选AMP的2349个序列中,有216个是化学合成的,其中181个显示出抗菌活性(阳性率为>83%)。这些肽中的大多数与训练集中的AMP序列同源性不到40%。对11种最强效AMP的进一步表征显示,对抗生素耐药的革兰氏阴性病原体具有高疗效,并且在将细菌负荷降低十倍以上方面显示出显着的功效。作者的研究展示了机器学习方法的潜力,可以从宏基因组数据中挖掘功能肽,并加速发现有前途的AMP候选分子以进行深入研究。

论文链接:

https://www.nature.com/articles/s41587-022-01226-0 Github链接:

https://github.com/mayuefine/c_AMPs-prediction

论文题目:

Learning protein fitness models from evolutionary and assay-labeled data 论文摘要:

基于机器学习的蛋白质适应性模型通常从无标签的、进化相关的序列或具有实验测量标签的变异序列中学习。对于只有有限的实验数据的情况下,最近的工作提出了结合这两种信息来源的方法。为了实现这一目标,作者提出了一个简单的组合方法,该方法与更复杂的方法相比具有竞争力,而且平均来说超过了后者。作者的方法是使用岭回归将特定位点的氨基酸特征与进化数据建模的一个概率密度特征相结合。在这种方法中,作者发现基于变自动编码器的概率密度模型显示出最佳的整体性能,尽管可以使用其他进化密度模型。此外,作者的分析强调了系统评估和充分基准方法的重要性。

论文链接:

https://www.nature.com/articles/s41587-021-01146-5 Github:

https://github.com/chloechsu/combining-evolutionary-and-assay-labelled-data

0 人点赞