一论文题目:
Removal of batch effects using distribution-matching residual networks 论文摘要:
实验得出的数据误差来源包括测量和一些物理现象。这个测量误差是由测量仪器和随机测量误差产生的系统组件的组合。一些新的生物技术,如流式细胞术和单细胞RNA-seq(scRNAseq)都被系统错误所困扰,如果数据没有得到适当的校准,可能会严重影响统计分析。我们提出了一种新的深度学习方法来消除批次效应。我们的方法是基于一个残差神经网络,训练以最小化两个重复的多元分布之间的最大平均差异。我们将我们的方法应用于大规模单细胞scRNA-seq数据集,并证明它有效地减弱了批次效应。
论文链接:
https://pubmed.ncbi.nlm.nih.gov/28419223/
二论文题目:
Generation of ENSEMBL-based proteogenomics databases boosts the identification of non-canonical peptides 论文摘要:
pypgatk 包和 pgdb 工作流程是基于 ENSEMBL 资源创建的蛋白质基因组学数据库。这些工具允许通过对假基因、lncRNA 和其他非规范转录物进行three-frame翻译,从新的蛋白质编码转录物生成蛋白质序列。它还包括来自其他经典蛋白质编码 mRNA 的外显子框架外翻译。此外,该工具能够从多个基因组变异来源生成变异蛋白质序列,包括 COSMIC、cBioportal、gnomAD 和从患者样本测序中检测到的突变。pypgatk 和 pgdb 为数据库处理提供了多种功能,包括通过 DecoyPyrat 算法优化目标/诱饵生成。最后,作者通过使用 pypgatk 和 pgdb 工作流程为 65 个细胞系生成细胞类型特定数据库,重新分析了 PRIDE 中的六个公共数据集,揭示了大量非规范或隐秘的肽,占已鉴定肽总数的 5% 以上。
论文链接:
https://doi.org/10.1093/bioinformatics/btab838 Github链接:
https://github.com/bigbio/py-pgatk/
三论文题目:
Hypergraph-based logistic matrix factorization for metabolite–disease interaction prediction 论文摘要:
功能相关代谢物是细胞调节的终末产物,与复杂疾病密切相关。疾病相关代谢物的鉴定对于疾病的诊断、预防和治疗至关重要。然而,大多数现有的计算方法通过计算成对关系来构建网络,这不适合挖掘高阶关系。在这项研究中,作者提出了一种基于超图的逻辑矩阵分解的方法-HGLMF以预测代谢物与疾病之间的潜在相互作用。首先,提取代谢物的分子结构和基因关联以及疾病的层次结构和GO功能注释,以构建代谢物和疾病的各种相似性度量。接下来,根据完成的交互网络计算代谢物(或疾病)的邻域相似度。其次,分别融合多个代谢物和疾病的网络,构建代谢物和疾病的超图结构。最后,提出了基于超图的逻辑矩阵分解来预测潜在的代谢物 - 疾病相互作用。在计算实验中,HGLMF 准确预测了代谢物-疾病相互作用,并且比其他最先进的方法表现更好。
论文链接:
https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab652/6367768 代码链接:
https://github.com/Mayingjun20179/HGLMF
四论文题目:
BERT-Kcr: Prediction of lysine crotonylation sites by a transfer learning method with pre-trained BERT models 论文摘要:
蛋白质赖氨酸巴豆酰化(Kcr)作为一种重要的翻译后修饰(PTMs)已引起广泛关注,它涉及细胞分化和代谢等重要生理活动。然而,用于Kcr识别的实验方法既昂贵又耗时。而计算方法可以以高效率和低成本预测Kcr位点。在这项研究中,作者提出了一种新的预测因子,用于蛋白质Kcr位点的预测,该预测因子是使用迁移学习方法开发的,具有来自transformers(BERT)模型的预训练双向编码器表示。这些模型最初用于自然语言处理(NLP)任务,如句子分类。在这里,作者将每个氨基酸转换成一个单词,作为预训练的BERT模型的输入信息。提取由BERT编码的特征,然后将其馈送到BiLSTM网络以构建最终模型。与其他机器学习和深度学习分类器构建的模型相比,对于10折交叉验证,BERT-Kcr在AUROC为0.983时取得了最佳性能。对独立测试集的进一步评估表明,BERT-Kcr优于最先进的Deep-Kcr模型,AUROC的改善率约为5%。实验结果表明,直接使用序列信息和先进的预训练自然语言处理模型是识别蛋白质翻译后修饰位点的有效方法。
论文链接:
https://doi.org/10.1093/bioinformatics/btab712
Github链接:
http://zhulab.org.cn/BERT-Kcr_models/