机器学习,尤其是深度学习的最新进展,为计算生物学中的复杂问题提供了强大的预测模型。然而,随着模型复杂性的增加,解释这些模型的行为变得尤为重要。
2024年8月9日,来自美国卡内基梅隆大学计算机学院的研究人员在Nature Methods发表文章“Applying interpretable machine learning in computational biology—pitfalls, recommendations and opportunities for new developments”。
本文概述了可解释机器学习(IML)的方法和评估技术,并讨论了将IML应用于计算生物学时遇到的挑战和陷阱。本文强调了在使用IML时的指导原则,并呼吁加强IML与计算生物学研究人员之间的合作,以应对大型语言模型(LLMs)带来的新机遇。
背景
近年来,机器学习极大地改变了计算生物学的面貌。高通量数据采集与迅猛发展的计算能力相结合,创造出了能够解决复杂生物学问题的预测模型。这些模型在基因表达预测、表观遗传修饰分析、蛋白质结构预测等多个领域都取得了显著成果。
随着模型复杂性的增加,解释模型行为的能力变得至关重要。在生物学领域,研究人员不仅需要模型的预测结果,还需要理解模型是如何得出这些结果的。这有助于验证模型的预测是否真实反映了生物机制,并为后续的生物实验提供指导。
计算生物学中的IML方法和评估
在计算生物学中,可解释机器学习方法主要分为两大类:事后解释法(post hoc explanations)和设计解释法(by-design explanations)。
图1:用于解释预测模型的两种主要IML方法是事后解释和设计解释
1. 事后解释法
事后解释法通常在模型设计和训练后应用,具有灵活性且与模型无关。特征重要性方法是事后解释法的核心,它通过为每个输入特征分配重要性值来揭示其对模型预测的贡献。基于梯度的方法(如DeepLIFT、Integrated Gradients)和基于扰动的方法(如SHAP、LIME)是两种主要的计算特征重要性的技术。
案例研究:Enformer模型通过组合卷积神经网络和Transformer层,利用注意力分数、输入梯度和基于扰动的分数等多种方法计算特征重要性,以了解基因表达的重要调控要素。
2、设计解释法
设计解释法构建的是自然可解释的模型,如线性模型、决策树。其他可解释的设计模型包括逻辑回归、决策规则和广义相加模型。虽然上述模型是IML文献中的传统设计模型,但计算生物学领域正在出现利用深度神经网络的最新进展和卓越性能的新设计IML方法。这些方法构建了生物学意义上的神经网络,或结合了注意力机制。
此外,计算生物学领域还出现了一些新的按设计IML方法,如DCell、P-NET和KPNN等生物信息神经网络,这些网络通过整合生物学知识提高了模型的可解释性。
3、评估技术
为了评估IML方法生成的解释质量,人们提出了忠实性和稳定性两个主要指标。
图2 IML方法的两种常见评估技术
3.1 忠实性
忠实性反映了解释在多大程度上反映了模型的真实机制。然而,现有的评估方法多基于合成数据,难以完全概括真实生物过程的复杂性。因此,更合适的评估方法可能需要依赖真实数据或专家知识。
3.2 稳定性
稳定性衡量的是对类似输入的解释一致性。由于许多流行方法(如SHAP、LIME)在真实世界数据集中表现出不稳定性,稳定性评估变得尤为重要。这有助于增强对IML方法生成的解释的信心。
计算生物学中使用IML的误区
随着计算生物学界越来越多地采用IML方法,我们发现了三个主要的陷阱。
图3 生物背景下IML解释的三个常见陷阱以及如何避免这些陷阱的概述
陷阱1:单一方法依赖。不同IML方法因其基本假设和算法的不同,往往会对相同的预测产生不同的解释。因此,依赖单一方法可能导致特征重要性出现偏差。建议采用多种IML方法并比较结果以获得更全面的理解。
案例研究:KPNN通过设计修改来增强特征重要性的鲁棒性,并利用模拟数据评估其有效性。这显示了采用多种IML方法的优势。
陷阱2:IML输出与生物学解释脱节。虽然IML方法可以识别高预测性特征,但通常需要后处理步骤来提供生物学解释。例如,在基因表达任务中,使用基因本体富集分析来确定关键基因的功能是常见的后处理方法。
案例研究:TF-MoDISco通过总结核苷酸级重要性得分并发现主题来揭示重要的序列模式。这展示了后处理步骤在将IML输出转化为生物学解释中的重要性。
陷阱3:结果呈现偏差。忠实性评估常选择性展示与已知生物机制一致的例子,导致对整体发现的不完整理解。为了进行更稳健的评估,建议对整个数据集的重要性得分进行定量分析。
案例研究:CITRUS通过对整个基因集进行统计检验来评估高关注度基因与已知癌症驱动基因之间的一致性。这种全面的评估方法有助于增强对结果的信心。
LLM时代的IML发展机遇
除了建立更好的实践来避免IML使用的陷阱外,还有很多机会为新的模型架构和生物应用开发新的IML技术。尽管生物应用的预测建模发展迅速,特别是随着LLM的最新进展,但解释这些模型的专业技术仍然落后。具体来说,最先进的基于Transformer的模型,如Enformer和Geneformer,仍然使用经典的IML方法(如注意力)进行解释,这种解释方法的有效性和可靠性仍然存在争议。随着LLMs的发展,计算生物学中的IML面临新的机遇和挑战。
- 标记化选择:标记化方案对模型假设和解释有重要影响。需要开发更精确的标记化方案以更好地表示生物数据的特性。
- 适应生物环境的IML方法:机制可解释性技术和基于提示的解释方法需要适应复杂的生物环境。尽管这些方法仍处于起步阶段,但它们具有在生物应用中提高模型可解释性的潜力。
- 多模态应用:整合多模态数据的IML方法有助于从更全面的角度理解细胞机制。然而,这要求定义新的评估技术来准确分配重要性分值。
- 可视化工具:开发适用于不同数据类型的专门可视化工具对于解释IML输出至关重要。这些工具应支持用户直观地探索模型行为和关键特征。
在遗传扰动研究、序列比较、细胞结构与功能建模等领域,IML方法的应用仍相对有限。这些领域为开发新的特定领域IML方法提供了大量机会。
结论
随着IML在计算生物学中的普及,制定标准化指南以详细说明评估IML方法的最佳实践变得尤为重要。IML与计算生物学界需共同努力,不断改进方法,并通过实验验证来提高预测的可靠性。未来,随着LLMs在生物学中的应用不断扩展,我们有理由相信IML将在促进新假设和生物发现方面发挥更加重要的作用。
参考资料:
Chen, V., Yang, M., Cui, W. et al. Applying interpretable machine learning in computational biology—pitfalls, recommendations and opportunities for new developments. Nat Methods 21, 1454–1461 (2024).
https://doi.org/10.1038/s41592-024-02359-7
--------- End ---------