揭开机器学习模型黑箱：模型可解释性方法总结和对比

基于高级机器学习的产品已经成为我们日常生活的一部分并且也存在于医疗保健等高级领域。理解基于ml的模型背后的如何决策是让用户获得对模型的信任、调试模型、发现偏差等等的关键。

解释人工智能黑盒模型是一个巨大的挑战。在这篇文章中，我将介绍特征归因和反事实解释的基本方法。稍后，您将了解两者之间的关系。本文基于Microsoft[1]在2020年发表的一篇论文。

基本的解释方法

基于归因的解释是提供对特征的评分或排名的方法，将每个特征的重要性传达给模型的输出。例如：

LIME：Local Interpretable Model-agnostic Explanations的缩写。通过名字便可以看出，该模型是一个局部可解释模型，并且是一个与模型自身的无关的可解释方法。使用训练的局部代理模型来对单个样本进行解释。假设对于需要解释的黑盒模型，取关注的实例样本，在其附近进行扰动生成新的样本点，并得到黑盒模型的预测值，使用新的数据集训练可解释的模型（如线性回归、决策树），得到对黑盒模型良好的局部近似。模型的权重用作解释，其中较大的系数意味着较高的重要性。

SHAP：基于 Shapley 值，这些值是使用该特征在所有特征的不同集合中的平均边际贡献计算得出的。可以在我之前的文章中找到更多关于它的信息。

基于反事实的解释是生成反事实示例 (CF) 的方法，这些示例在输入特征发生最小变化的情况下产生不同的模型输出。例如：

WachterCF：寻找一个尽可能接近原始输入 x 的示例 c*，以获得与原始输出 f(x) 不同的期望输出 y。

local

0 人点赞