简读分享 | 尹成林 编辑 | 龙文韬
论文题目
Active Learning for Efficient Analysis of High-throughput Nanopore Data
论文摘要
作为第三代测序技术,纳米孔测序已被用于DNA、RNA甚至蛋白质的高通量测序。最近,许多研究开始使用机器学习技术来分析纳米孔产生的庞大数据。不幸的是,这项技术的成功归功于广泛的标记数据,而这些数据往往会产生巨大的劳动力成本。因此,迫切需要一种既能快速、高通量分析纳米孔数据,又能显着降低标记成本的新技术。为了实现上述目标,作者引入了主动学习,通过选择需要标记的样本来减轻巨大的劳动力成本。这项工作将几种先进的主动学习技术应用于纳米孔数据,包括 RNA 分类数据集 (RNA-CD) 和 Oxford Nanopore Technologies 条形码数据集 (ONT-BD)。由于纳米孔数据的复杂性(带有噪声序列),引入偏置约束来改进主动学习中的样本选择策略。实验结果表明,对于相同的性能指标,50%的标记量可以达到ONT-BD的最佳基线性能,而仅15%的标记量可以达到RNA-CD的最佳基线性能。至关重要的是,实验表明,主动学习技术可以帮助专家标记样本,并显着降低标记成本。主动学习可以大大减少大容量纳米孔数据难以标记的困境。作者希望主动学习可以应用于纳米孔序列分析中的其他问题。
论文链接
https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btac764/6851141