顿新国：可解释人工智能问题

摘要：

当代人工智能技术在给人类带来多方面福利的同时，面临黑箱、鲁棒性和可解释性等问题，发展值得信赖的可解释人工智能已成为人工智能领域的核心关切。论文在论证可解释人工智能为什么重要的基础上，对可解释人工智能的内涵进行界定，进而提出发展可解释人工智能需遵循的一些原则，它们也可看作可解释人工智能需达致的目标和要求。论文最后提出了两点关于实现可解释人工智能途径的构想。

关键词：

人工智能可解释性可信赖性透明性可达性

一、引言

当代人工智能已成为世界各国的重大发展战略。随着人工智能的深入发展，以图像识别、深度学习为代表的人工智能技术给科学、工业和社会带来重大影响，它们在人脸识别、智能穿戴、电商产品推荐、电子支付、微信和脸书等领域的广泛应用，不仅在复杂视觉任务和策略博弈等方面展现出超出人类的表现，成为预测、模拟、勘探等科学任务不可或缺的工具，而且因其给人类社会生活方方面面带来深远影响，使之成为人类社会生活不可或缺的一部分。

人工智能技术在给科学、经济、生活等诸多方面带来红利，展现其威力的同时，它自身面临了一些挑战。例如，现在的人工智能深度学习模型越来越大且越来越复杂[1]，而一个含参数越多越复杂的模型往往在获得精确性的同时丢失了其可解释性，使得机器学习模型越来越不透明，像一个黑箱（black box）；再如，模型对于对抗性攻击缺乏鲁棒性（robustness）[2]，而这一缺陷将给自动驾驶等应用领域带来严重的安全风险。盖瑞·马库斯和欧内斯特·戴维斯也给出了当下AI的9个风险，包括基本超归因错误、鲁棒性的缺失、机器学习严重依赖于大量训练集的精准细节、盲目过分依赖数据并导致过时的社会偏见长期存在等。[3](P37-41)另一方面，人工智能的广泛应用带来歧视、偏见、隐私等问题，对社会伦理、法律等方面提出诸多挑战。特别地，它们在医疗、金融、自主杀伤性武器等关乎国计民生和国家安全等重要敏感领域的（可能）应用受到各国政府的高度关切，提出了一些监管调控原则和目标。我国国务院2017年颁布的《新一代人工智能发展规划》明确要求：在大力发展人工智能的同时，必须高度重视可能带来的安全风险挑战，加强前瞻预防与约束引导，最大限度降低风险，确保人工智能安全、可靠、可控发展。欧洲议会人工智能高级别专家组撰写的《可信赖人工智能的伦理指导》倡导发展可信赖（trustworthy）的人工智能，并确立了一个获得可信赖人工智能的框架，其中重要的三个因素是合法规性、伦理性和鲁棒性。

无论是当下人工智能研究和发展所重点关注的可信赖性问题、鲁棒性问题还是黑箱（非透明性）问题，它们都与人工智能的可解释性密切相关，甚至可以说，可解释性问题是解决鲁棒性问题，从而解决可信赖性问题的前提和基础。因此，人工智能的可解释性问题，或者说，可解释性人工智能（explainable artificial intelligence，通常简写为 XAI）问题成为目前人工智能领域的核心关切。

论文在论证人工智能的可解释性为什么重要的基础上，精确定义人工智能的可解释性，阐释可解释人工智能的核心关切或需要达致的目标，进而提出实现可解释人工智能途径的一些构想。

二、可解释性是人工智能的核心关切

人工智能程序或系统做出的决策通常是通过“算法”计算得出的，由此天生自带客观性光环，从而令一些人工智能的普通使用者、公司或机构的管理者、政府相关部门的管理和决策者心甘情愿地买单。但实际上，没人知道这些模型或算法究竟是怎样算出这个结果的。例如，在AlphaGo打败韩国围棋选手李世石后，其开发者都不知道它是如何决策走出制胜的一步。这可看作算法不透明导致的黑箱问题。另一个黑箱问题是由于开发者出于商业保密或其他目的，训练数据不公开而导致的，这一类黑箱问题会导致偏见、歧视等伦理和社会问题[4](PP92-113)。基于此，克劳福德等研究者在一份研究报告中呼吁“对所有核心公共机构（例如负责刑事司法、医疗保健、福利和教育的机构）使用禁令，立即停止使用‘黑匣子’人工智能和算法系统，而转向使用通过验证、审核或公共审查等机制来实现问责制”。[5](P239)“由于理解一个系统的弱点是提升该系统的第一步，解释就成为未来AI模型训练和验证过程的不可或缺的一部分。”[6]因此从AI自身的发展逻辑来看，可解释性对其至关重要。

1. 可解释性是可信赖人工智能的基础

关于人工智能可解释性的研究文献中有一个被大量引用的关于图像识别和分类的例子。在该例子中，一个深度神经网络结合逻辑回归的识别模型能将绝大部分图片正确分类，但却会将雪地上的哈士奇识别为狼。随后对该模型的可解释性研究表明，这是因为识别器根据其模型从训练数据中学到了“可以将大面积雪地作为识别狼的依据”这一规律，因为在训练样本中狼都以雪地为背景，而哈士奇不是。在实验中，人类评判员了解到这样的“决策”依据后，对该模型的信赖度下降到了11%。[7]无独有偶，谷歌的自动标签系统能正确地给一幅在玩飞盘的年轻人的图片打上标签，但在5分钟之后你可能会从该系统中得到荒谬至极的答案，一个贴着许多贴纸的停车标志，会被该系统错误地识别为“装了许多食品和饮料的冰箱”。[3](P24)显然这样不具鲁棒性、“不靠谱”的人工智能系统得不到用户的信赖，人们不会放心地使用相应的产品，特别是自动驾驶这种关系到用户生命的人工智能产品。因此，对AI系统的开发、配置和使用的信赖不仅是技术的内在属性和要求，而且是一个涉及AI应用的技术-社会系统的属性。为了更好地理解一个人工智能系统在实践中如何使用，我们应该将其放在一个大的技术-社会语境中。正如克里斯汀（Brain Christian）所说：“随着机器学习模型在世界的整个决策体系中的迅猛发展，许多人发现他们对这些模型内在是如何实际运行的所知甚少，他们对此感到不安。”[8](P89)

人工智能的可解释问题实际上是人机关系问题，它的重要性可以从解释对人与人之间信赖的重要性得到启发。以教育为例。某中学一位教师在给学生讲评试题时，为了让学生接受和相信所谓的“标准答案”，他对此进行了“解释”，试图说服学生，当然有学生未被说服。但在另一次考试中，同样的题目再次出现，而给出的“标准答案”明显与前次不同，于是学生提出了质疑。该教师再次对此次的答案给出似乎令人满意的“解释”。这样的情况出现几次以后，一些学生对该教师产生了很强的不信赖感。由于阅读理解、历史事件的意义等问题与主体密切相关，其自身可解释性差，对这些问题进行“解释”而导致的对教师的不信赖感普遍存在，甚至导致“追求确定性”的理科生失去对这些学科的兴趣。

科学家共同体乃至一般认知主体对科学假说的信赖也建立在解释的基础上。一般来说，一个科学假说或理论的提出和被接受与现象的解释有关。例如，在与真正的通用人工智能密切相关的当代意识科学中，广为接受的主流理论均因为它能解释某些人们关心的重要现象和问题。譬如，意识的高阶理论（higher-order theories）专注于解释心智状态具有意识的原因，它能较好地解释为什么有些内容有意识而某些内容不可能有意识（因为它们不能成为适当元表征状态的目标）；全局工作理论（global workspace theories）则能明确解释“意识通达”，即它能解释为什么某些表征可以被各式各样作为信息消费者的认知系统灵活使用。[9]在有多个相竞争的假说时，一个假说应该通过提供对目标现象的解释战胜对手，它应该具有更强大的解释力，即需要能合理解释比竞争对手更广泛的数据或现象，并能与临近领域的成功理论相结合。如果一个假说能解释更多的现象，特别是现有理论不能（很好）解释的那些现象，那么该假说更可能得到科学家团体的信赖，从而被接受下来进而被应用。一个好的解释除了解释力更强以外，科学哲学家利普顿认为一个“最佳解释”应是一个“最可爱的解释（loveliest explanation）”，即具有“更强潜在理解力的解释”。[10](P61)当然，在科学方法论中，一个假说被信赖和接受除了解释以外，还有其他一些考虑项，例如，一致性（包括自身的一致性以及与背景理论的相容性）、简单性、类比性等。[11]

人类认知共同体对科学的信赖以解释为基础，与科学一样，人工智能技术作为人类认知活动的产品，人类主体对人工智能及其产品的信赖也应以解释为基础。一般来说，人们对不能直接解释的、不可追踪的以及不可信赖的技术持谨慎态度。[12]从社会心理学来看，人类对其所熟知的事物，即知道其运作机制或方式及后果的事物，更具认同和安全感。具有可解释性从而能为人所知的人工智能系统及其产品更能得到用户的信赖，从而更有可能使用和购买它们，这无疑对人工智能的社会应用具有重要意义，从而助推人工智能技术的进一步开发。

2. 可解释性是人工智能治理的前提和基础

人工智能技术在日常生活中的广泛使用带来一些伦理、隐私和法律等方面（潜在的）风险和挑战，同时它在金融、医疗健康、自主性杀伤性武器等高风险领域的可能应用，更是受到各国相关管理部门的高度关切，这使得人工智能治理（AI governance）成为人工智能开发和应用中的一个关键环节。

政府管理部门批准人工智能系统的社会应用时，至少需主要评估人工智能系统的合规性、安全可控性、算法（决策）透明性、隐私觉知（privacy awareness）和数据治理、鲁棒性和可担责性（accountability）等，关于这些方面的评估均与人工智能的可解释性密切相关。例如，安全性可以分两个方面：人工智能系统自身的安全性和人类的安全性。在人工智能系统自身的安全性方面，它要能明确阐释在哪些方面易受攻击以及潜在的攻击形式（例如数据污染、网络攻击、基础设施等），它在意外情境或环境下如何反应？在受到对抗性攻击时该系统有何备用计划？在人的安全性方面，要能明确说明它有多大可能会给使用者或第三方带来伤害以及伤害的程度，还要能说明该人工智能系统在给出错误的结果或决策时会带来的损失或不利影响等。

算法透明性是人工智能治理的核心关切，好的人工智能系统不应该是黑箱，它应该明确解释其算法是如何决策的。例如，在银行业务中，要让网上贷款申请人知道他为何没能通过贷款申请或其额度为什么低于其申请额等。为此，在技术上，一方面要能明确说明算法系统的设计和开发所使用的方法，例如基于规则的人工智能系统要说明其编程方法或构造模型的方法，基于学习的人工智能系统要说明其训练算法的方法，包括输入数据是如何收集和筛选的；另一方面要说明测试和验证算法系统的方法，包括测试和验证的场景和案例、用作测试和验证的数据的相关信息等。关于算法透明性，人工智能系统还要说明，它做出的决策在多大程度上能被理解，在何种程度上它的决策会影响机构的决策程序。

当代人工智能系统主要使用深度学习技术，该技术严重依赖数据，而用于训练、测试和验证的数据收集和筛选又直接关系到个人隐私和算法公平性（fairness）等问题。受估的人工智能系统要能解释其所使用数据的来源、类型及范围，例如，是否以及在何种程度上包含敏感性私人数据，是否采取加密、匿名和聚合等措施来保护个人隐私。特别地，在训练数据的收集中是否涉及种族、性别、贫富、受教育程度、社会地位等方面的歧视和偏见，从而导致算法（模型）的不公平。

总之，可解释性是AI的实际应用面临的主要障碍。不能解释或理解为什么机器学习算法如此这般运行的主要原因是研发部门和商业市场部门之间的代沟，其实质是技术和社会之间的张力。在当今时代，人工智能技术研究和开发的唯一兴趣是结果和表现，但社会所关心的远不止人工智能系统在解决问题上的表现。对理解的研究是打开进一步提升模型及其实践效用大门的关键。同时，可解释性是构建安全可信的人工智能系统的关键。这要求人工智能系统要公开宣告它的目的以及它能做什么和不能做什么，它的决策对受影响的用户和管理者在相应程度上是可解释的。

三、可解释人工智能的内涵

一般说来，可解释人工智能是指具有可理解性的（understandability）人工智能，它是人工智能模型的一种性质。由于现在的人工智能主要基于机器学习，因此，可解释性主要指机器学习模型的可解释性，它是一个模型具有的使受众明了其运行机制的能力。关于可解释人工智能的研究可以看作一种旨在寻求理解为什么人工智能系统会那样决策，以及使AI系统更透明、安全可靠、值得信赖的原则的方法论。

在研究文献中，可解释性并不是一个非常明确和统一的概念，与之密切相关的概念有可诠释性（interpretability）、透明性（transparency）、可领会性（comprehensibility）等，在很多情况下它们被互换使用。在这些概念中，可理解性最为根本，它与这些概念都密切相关。可理解性指一个模型不需要解释它的内在结构或处理数据的算法就能使人理解其功能的特征，即能懂模型是如何工作的，它度量的是人能理解模型所作决策的程度。可解释性是一个模型的主动性质，从技术角度看，模型采取的带有澄清或细化其内在功能的意图的任何行动或程序；从社会角度看，可解释性可以看作模型达致或保证公平的能力。可诠释性可以看作模型的一种被动性质，它指的是一个模型可以被人类观察者明白或了解（make sense）的性质，它被界定为以可理解的术语为人提供解释或意义的能力[12]，这一特性经常被称为透明性。可诠释性不仅有助于确保决策过程中的公平性，例如检查和纠正数据集中的偏见，而且通过亮显可以改变预测的潜在对抗性扰动，从而提升鲁棒性。可诠释性还可用来保证只有有意义的变量可以推出结果，例如，保证模型推理中存在潜在的真正因果关系。可领会性主要指机器学习算法以人类可理解的方式表征其学习到的知识的能力[13]，它关涉到学习算法对其学习结果的表征问题。由于计算机归纳的结果是对给定实体的符号描述，它在语义和结构上类似人类观察同样实体时产生的结果，因此这些描述应该可直接用自然语言解释。可领会性通常与模型的复杂性的评估有关。显然，可领会性依赖受众理解模型所包含的知识的能力，在这一意义上，可领会性与可理解性密切相关。

透明性问题与人工智能饱受诟病的黑箱问题最密切相关，从而是研究文献关注最多的一个概念。一个模型是透明的，当且仅当它仅凭自身就是可理解的。算法透明性问题实际上是一个社会-技术问题，因为训练数据从哪儿以及如何收集、谁做了这些选择以及他们的动机等对算法透明性非常关键。由于不同的模型有不同的动机和不同程度的可理解性，同时它相对于开发者、用户、管理者等不同受众，因此模型可以分为不同的透明性。威勒（Adrain Weller）根据不同的受众和动机区分了8种不同的透明性。例如，对于开发者而言，模型的透明性是指理解他们的系统是如何工作、如何排错以及如何提升；对于用户，系统要提供它在做什么以及为什么这样做，要能预测系统在不可预知环境中会如何做，以及建立用户对技术的信任。[14](P25)通过计量算法的输入特征对于决策的影响，算法的透明度和简单性不仅令使用者得以理解AI算法做出的决策以及做出该决策的原因，而且使得相关政府管理部门和组织可以有效地检测该决策系统是否正常且适当的工作，以及是否符合监管要求，从而建立对该人工智能系统的信任。[15](PP12-13)

可解释人工智能问题不是一个纯技术问题，它不仅与社会对它的期许、要求和限制有关，并且与人的背景知识和认知能力等有关，因此应该将其置于大的技术-社会系统之中。更具体地说，可解释性人工智能问题实际是一个人机交互关系问题，因此，作为解释受众的人类主体在澄清人工智能的可解释性具有不可或缺的地位。例如，贡宁（D.Gunning）将人工智能限定在机器学习领域，将可解释人工智能定义为：“XAI创设一套人类使用者能理解、恰当信赖、高效管理新一代人工智能合作伙伴的机器学习技术。”[]阿列塔等人更强调突出受众在可解释人工智能中的重要地位，将可解释人工智能定义为：“给定受众，可解释的人工智能是那种能产生一些使其运行（functioning）清楚或易于理解的细节或理由的人工智能。”[12]这一定义尽管突出了人机交互这一合意特征，但对需要解释的“内容”只是笼统地规定为“使其运行”，没有精确地界定需解释的内容。

参照人工智能可解释性问题的相关研究，我们将可解释人工智能界定如下：相对于作为解释受众的不同人类群体，能以相应群体可清楚理解的方式知晓其学习、决策和预测机制，并取得受众信任和符合监管要求的人工智能。

在此，作为解释受众的人类共同体可分为三类：人工智能系统开发者、人工智能领域的相关监管人员和人工智能产品用户。相对不同的群体，对解释性有不同的要求，从而形成不同的可解释性层次。例如，相对系统开发者来说，人工智能系统的安全性、鲁棒性、可迁移性等更重要；相对于监管人员来说，系统的隐私觉知与保护、公平性、可担责性（accountability）等是重要的考量；而对人工智能产品的使用者来说，人工智能系统的可达性（accessibility）和决策如何产生更为重要，解释的精确性和专业性则不那么重要，而应该使用平实的自然语言以及利用视觉化等更易于理解的方式。

四、发展可解释人工智能的主要原则

根据我们所给的定义，可解释人工智能系统是一个基于人机沟通的交互系统，由于动机、应用场景、任务、用户等不同，人工智能系统的可解释性目标和要求也不尽相同。尽管如此，有一些管理机构和研究者提出了一些发展可解释性人工智能的基本原则。例如，美国国家标准与技术研究中心（NIST）给出了可解释人工智能系统须遵循的4个指导性原则[17]：

（1）解释原则，即系统要对其所有产品提供证据或理由；

（2）意义原则，即系统要提供能为个体用户所理解的解释；

（3）解释精确性原则，即解释要正确地反映系统产生输出的过程；

（4）知识限度原则，即系统只在它所设计的条件下或者系统对其输出有足够信心时才运行。

值得指出的是，并非所有研究者都赞成这4个原则，例如瓦赫特（Wachter）等人认为解释精确性要求太强，只需满足反事实解释即可。[18]我国学者在可解释人工智能系统须具备的能力方面提出了一些更具体的目标或要求[15](P10)：

（1）智能体要有自省及自辩的能力；

（2）智能体也要有对人类的认知和适应能力；

（3）智能体要有发明模型的能力。

不难看出，上面管理机构和专家学者提出的原则都是从技术层面给出的，NIST给出的原则更宽泛，而学者给出的更具体，这两套原则的基本缺陷是没有突出对人的关切，没有将可解释人工智能问题置于我们所强调的社会-技术这一大背景之中。为此，我们给出以下4个发展可解释人工智能的主要原则，它们也可以看作对可解释人工智能的基本要求。

1. 以人的自主性和福祉为核心关切

人工智能是人创生的，创生它的根本动机是谋求人的幸福，更好地促进人类发展，而不是开发威胁、操纵乃至奴役人的产品。在人工智能系统的设计中应遵循以人为中心的原则，应以增强和补充人类的认知、社会和文化技能、减轻工作负荷提高工作效率、健全体魄、丰富健康的文化娱乐生活、培养高尚的审美情趣等为目的。在AI系统的工作过程中要确保人对它的监督和控制，以便在AI系统运行不正常或可能输出超出其设计并因此引发经济和社会风险等意外结果时，人可以采取措施干预、调控、修正或终止。正如著名的人工智能专家斯图尔特·罗素所说，“以这种方式设计的机器会顺从人类：它们会征求许可；当指令不明确时，它们会谨慎行事；而且它们会允许自己被关掉。”[19](P264)

可解释的人工智能系统应有利于促进社会积极健康、可持续性发展。可解释的人工智能系统在完成特定应用任务和解决某些社会难题、助力社会发展的同时，要保证尽可能对环境友好，不能以破坏环境和生态为代价。当代人工智能系统为了追求工作的准确性，其基本解决途径是使用越来越多的训练数据和设置越来越多的参数，导致模型越来越大，能耗越来越高，这必将对环境造成不利影响，进而影响社会的可持续发展。

大数据驱动的人工智能系统在社会生活各领域的应用不仅会影响人的社交技能，而且会影响人与人之间的社会关系。人工智能系统在增强人的社交技能、丰富社交方式的同时，也会对人们的身心健康带来影响。例如，隔着屏幕的E-交流缺乏人之间面对面交流的亲和感，难以产生精神上的共鸣，躲在屏幕后面的冰冷信息传递可能“造就”越来越多的“社恐症”患者。数据对人工智能系统不可或缺，这些数据既包括用户为了使用人工智能系统而主动或被动提交的数据，也包括人和系统交互过程中生成的数据。它们的搜集、使用等可能涉及人的隐私保护、尊严、安全等。另外，可解释人工智能系统的开发、部署和应用充分关切人和社会组织之间的公平性，确保人工智能系统不会给它们带来偏见与歧视。

2. 可信赖性

人工智能的可解释性与人工智能系统的可信赖性密切相关。正如罗素所言，“有一个共识是，如果人工智能系统是可信的，那么人工智能决策必须是可以解释的”。[19](P267)人工智能系统是人出于一定的动机、满足人的特定需要而开发出来的产品，它需要得到社会的普遍认可和信赖才能得到大规模应用。因此，可信赖性是人工智能的内在要求，更是可解释人工智能的内在要求。同时，人工智能系统的可解释性的评估与人类对该系统的信任程度和系统的可靠性息息相关。[15](P15)

可信赖性有其社会心理根由。人的深度社会交往以对交往对象的信赖为前提和基础，这种信赖主要基于两个重要方面的考虑：安全性和恒常性。人对他认为安全的东西更加信赖。例如，与老虎等猛兽相比，人更喜欢小猫小狗等动物，因为他认为它们更安全，不会给其带来伤害。并且，人更容易相信其熟悉的人和物，因为他知道它们在相同的情况下会如此前一样行事，从而可以预测其行为后果。

人工智能系统归根结底是人所使用的产品，它是人沟通交互的对象，因此，可解释性人工智能系统也需要遵循人的社会交往的两个主要考虑项，即安全性和鲁棒性。在此，鲁棒性是恒常性在人工智能系统技术上的具化。

如前所述，对可解释人工智能的安全性要求可以分为两个方面：人工智能系统自身的安全性以及它对人的安全性。可解释人工智能系统要能解释它如何应对来自网络等方面的对抗性攻击，解释它如何保证在不同环境下的抗干扰性等。同时，它要解释它如何防止在意外情况下对用户或第三方造成伤害的风险。

人工智能系统的可信赖性的另一个关键要求是技术上的鲁棒性，既包括人工智能控制系统在异常情况下保持其功能正常运行的能力，也包括其模型的鲁棒性。后者指模型在构建它的受控实验室环境之外的现实世界中保持其表现和准确性的能力，具有鲁棒性的模型在近似的输入和情境下应该做出同样正确的判断、预测、决策，即其输出具有可重复性，并且这种可重复性能得到恰当的解释。

3. 透明性

透明性对人工智能系统在现实世界中的高效配置和应用非常关键[14](P23)，可以说是可解释人工智能系统的根本要求。一方面，透明性是解释模型决策和人工智能治理的前提；另一方面它是评估可解释人工智能系统在隐私保护和公平性等方面的依据。它包括数据、模型和商业模式等方面的透明性。例如，一个人工智能系统在数据收集、标签、使用范围和目的等方面应该是透明的、可追踪的，这样才可以评估该系统是否存在数据隐私问题、数据歧视和偏见问题等。

模型的透明性是指，模型凭其自身就可以被模型开发者、普通用户、相关部门管理者等人群理解它如何判断、决策或预测。透明性有三个不同层次：算法透明性、可解构性（decomposability）和可模拟性（simulatability）。这三者之间相互关联，例如，可模拟模型同时是可解构模型和算法透明模型。可模拟性指模型能被人模拟或严肃思考的能力，因此复杂性在此占据重要位置。一般来说，稀疏线性模型比稠密线性模型更具可模拟性。[]可解构性指模型具有的通过解释其构成部分（包括输入、参数和演算）来达到解释整个模型的能力。在众多AI算法决策系统中，只有线性回归、决策树、贝叶斯算法、K最临近等算法自身具有可解释性，在某个算法本身不可解释时，算法的可解构性使得我们可以基于算法自身的内部结构以事后构造可解释模型的方式，揭示原决策系统的决策机制和过程。因此，这一特性可以增强理解、解释模型行为的能力。一个算法透明的模型要是可解构的，必须施加下述一个限制条件，即模型的每个部分必须是人不需要任何额外的工具就可理解。算法透明性有不同的看待方式。它处理的是用户理解模型执行从输入到产生任何给定输出的过程的能力。通过计量算法的输入特征对决策的影响力，算法透明性和简单性有助于相关人群理解算法的决策机制，评估其是否符合相关规范和监管要求等。

值得指出的是，人工智能系统并非越透明越好，透明性可能会与人工智能系统的其他性质呈现紧张状态，“在某些装置中，更大的透明性会导致较低的效率、较低的公平性和可信赖性。”[14](P24)

4. 解释的可达性

与上面3个原则不一样，可达性原则是对人工智能系统所提供的解释的“形式”要求，即人工智能系统提供的解释要采用受模型决策影响的用户和监管者容易达致理解的方式。显然，一个好的可解释模型应该能够消除非技术型或非专家型的普通用户在碰到该算法时觉得难以领会的感觉。在一篇关于可解释人工智能的综述文章中，作者通过考察得出的结论是：“这一概念（即可达性）在考察的文献当中被看作第三值得考虑的目标。”[12]

可达性首要的是人工智能系统对其一般用户的可达性，意即它能让不懂相关技术的人明了系统是基于何种证据和理由以及如何做出某个决策。可解释系统的可达性与模型的复杂性和构建所使用的技术和工具的深奥与否密切相关。一般来说，一个模型使用的参数越少，模型就越小和越简单，从而更容易为人理解。另一方面，如果构建模型时使用的技术方法深奥难懂，非技术人员所及，那么使用该模型的人工智能系统的可达性就比较差。简单性这一方法论原则不仅适用于科学领域而且适用技术领域。因此，为了满足可达性这一要求，可解释人工智能的模型要相对简单，针对不同的任务场景和目的，要在模型的表现和可信赖性、可领会性之间保持一定的平衡。

可达性要求人工智能系统的解释准确明了。在内容上，解释应涵盖该系统的主要相关信息，特别是其使用目的、范围、功能和运作机制以及关于它处理的问题的信息等，解释应科学地表达这些信息，避免用户陷入误解的隐患。在呈现方式上，如果解释的呈现方式是文本，那么相应文本的语言应该是朴实、直接的自然语言，除非不可避免，要尽量不使用技术术语。在条件许可的情况下，解释的可视化呈现方式，即视觉解释，是一个很好的选择。视觉解释可以动态地可视化模型的行为，展现其过程。当然，为了提高其可理解性，可视化还可以结合其他技术，为用户介绍模型中各参数之间复杂的相互作用。实践中，举例是增进理解的好方法，无论文本解释还是可视化解释都可以通过典型案例来把握它们所体现的模型内部各要素之间的相互作用和关联。

五、余论：

实现可解释人工智能的途径

要真正实现可解释人工智能，必须首先清楚当代人工智能最根本的缺陷，即黑箱问题、鲁棒性问题等背后的更深层问题。著名英国皇家工程院院士、人工智能专家郭毅可认为：“人工智能技术今天依然面临着许多根本性的问题，一言以蔽之就是：它缺乏知识。现阶段，我们的机器并没有掌握总结知识、积累知识、应用知识、传承知识和建立组织管理知识体系的能力。”[21](P45)实现人机交互可解释人工智能的根本出路在于积极探索人类心智内在结构，理解人类认知、推理和决策的一般原理。实现这一目标，有两个更具体的途径。

第一，构建具有足够多人类常识和背景知识、有能力深刻理解周边现实世界的人工智能系统。受过深度学习训练的人工智能系统会将一辆车身上印着大幅广告的行驶中的巴士识别为冰箱，但一个未成年的正常人类儿童会将其正确地判定为巴士。这一案例充分体现了常识、背景知识、对周围现实环境的实际感知和理解在人类认知和决策行为中的重要作用。当然，出于不同动机或解决不同问题的非通用人工智能系统需要具备的常识和背景知识、对世界的理解和洞察力可能不尽相同，但它们必须具备与其目的和任务匹配的相应知识和能力。

第二，最佳解释推理与深度学习相结合。人工智能领域近70年的根本争论是人工智能系统应该基于符号推理还是人脑神经网络系统。毫无疑问，目前在主导地位的是数据驱动的神经网络深度学习技术。实际上这两个进路并不矛盾，理论上来说可以将这两者融合，如何融合符号推理与深度学习这两个进路甚至被称为人工智能领域的“圣杯”问题。当代深度学习三巨头之一的杨立昆（Yann LeCun）在与LeCun实验室的“常驻哲学家”布朗宁（Jacob Browning）合作发表的一篇论文中，似乎弱化了其先前强硬的深度学习立场，认为：“许多深度学习研究者相信深度学习已经在进行符号推理，并将继续改进它。”[22]

两者融合的一个恰当模式是构建“最佳解释推理深度学习”的双层人工智能系统。由于深度学习是目前成熟的主流技术，现仅简要说明最佳解释推理系统。最佳解释指的是对数据之间的规律性联系作最简单、最符合直觉的解释。最佳解释推理旨在把握数据在某些方面（模型中的参数）的规律性，特别是参数之间的因果关系，并利用这种因果关系进行因果推理，做出判断、决策、预测等。因此，最佳解释推理可以看作发现因果关系、进行因果解释、做出因果预测的统一推理模式。这一推理模式要用到人的背景知识和常识，同时，通过这一推理模式获得的知识又可以作为深度学习的数据和信息。

作者简介

顿新国，南京大学哲学系教授，南京大学现代逻辑与逻辑应用研究所研究员，博士研究生导师。主要研究方向为现代归纳逻辑、形式知识论。

本文发表于：《江苏行政学院学报》，2023年第3期。

参考文献

[1] Song Han, Jeff Pool, John Tran, William J.Dally. Learning both weights and connections for efficient neural network [C]. In: Advances in Neural Information Processing Systems (NIPS), 2015.

[2] Aleksander Madry,Aleksander Makelov,Schmidt,L, Dimitris Tsipras,Adrain Vladu. Towards deep learning models resistant to adversarial attacks [C]. In: International Conference on Learning Representations, 2018.

[3] [美]盖瑞·马库斯、欧内斯特·戴维斯. 如何创造可信的AI [M]. 龙志勇译. 杭州：浙江教育出版社, 2020年.

[4] [美]凯西·奥尼尔. 算法霸权——数学杀伤性武器的威胁 [M]. 马青玲译. 北京：中信出版集团, 2018年.

[5] [美]梅瑞狄斯·布鲁萨德. 人工不智能——计算机如何误解世界 [M]. 陈少芸译. 北京：中信出版集团, 2021年.

[6] Wojciech Samek，Klaus-Robert Müller. Towards Explainable Artificial Intelligence [C]. In: W. Samek et al. (Eds.): Explainable AI, LNAI 11700, Springer, 2019.

[7] Macro Ribeiro , Sameer Singh , Carlos Guestrin . Why should I trust you? Explaining the predictions of any classifier[C]. Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, 2016.

[8] Brain Christian. The Alignment Problem [M]. New York, New York: W.W. Norton & Company, 2020.

[9] Anil K. Seth, Tim Bayne. Theories of consciousness [J]. Nature Reviews · Neuoscience, 2022, (23).

[10] Lipton Peter. The Inference to the Best Explanation [M]. London and New York: Routledge, 2004．

[11] Thagard Paul R . The Best Explanation: Criteria for Theory Choice [J]．The Journal of Philosophy, 1978，(75)．

[12] Alejandro Barredo Arrieta, Natalia D ́ıaz-Rodr ́ıguez, et al. Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI [J]. Information Fusion, 2020, (58).

[13] Michael Gleicher. A framework for considering comprehensibility in modeling [J]. Big data, 2016, (4) .

[14] Adrain Weller. Transparency: Motivation and Challenges [M]. in W. Samek et al. (Eds): Explainable AI, LNAI 11700, 2019.

[15] 杨强，范力欣、朱军、陈一昕、张拳石、朱松纯. 可解释人工智能导论 [M]. 北京：电子工业出版社, 2022年.

[16] David Gunning. Explainable Artificial Intelligence (xAI), Tech. rep., Defense Advanced Research Projects Agency (DARPA) , 2017.

[17] P. Jonathon Philips, Carina A. Hahn, Peter C. Fontana. Four Principles of Explainable Artificial Intelligence. Draft NISTIR 8312, 2020. https://doi.org/10.6028/NIST.IR.8312-draft.

[18] Sandra Wachter, Brent Mittelstadt, Chris Russell . Counterfactual explanations without opening the black box: Automated decisions and the GDPR [J] . Harv. JL & Tech., 2017, (31).

[19] [美]斯图尔特·罗素. AI新生：破解人机共存密码 [M]. 张羿译. 北京：中信出版社, 2020年.

[20] Robert Tibshirani. Regression shrinkage and selection via the lasso [J]. Journal of the Royal Statistical Society: Series B (Methodological) , 1996, (58).

[21] 郭毅可.论人工智能历史、现状与未来发展战略 [J]. 学术前沿,2021, (12).

[22] Jacob Browning, Yann LeCun. What AI Can Tell Us About Intelligence [EB/OL] . https://www.noemamag.com/what-ai-can-tell-us-about-intelligence/.

版权属于原作者，仅用于学术分享

人工智能模型数据算法系统

0 人点赞