百度发布首个集分析与增强于一体的可信AI工具集TrustAI

5月20日，在WAVE SUMMIT 2022深度学习开发者峰会上,百度发布首个集可信分析和增强于一体的可信AI工具集-TrustAI，帮助NLP领域开发者了解神经网络模型的预测机制，构建更加可信、效果更强的模型，助力神经网络模型更安全、可靠地落地于实际应用中。

⭐ 开源地址 ⭐

点击阅读原文GET

https://github.com/PaddlePaddle/TrustAI

随着AI技术的发展，神经网络(NN)模型广泛落地于行业应用中，但由于NN模型的黑盒性质，降低了使用者对其信任度，阻碍了AI技术更大规模的落地，尤其是对模型可靠性和安全性要求比较高的领域，如金融、医疗等。因此模型的可解释性、鲁棒性、安全可控等问题受到广泛关注。

模型的可解释性，是指其预测机制是可解释的，开发者能够诊断模型的问题所在并提出优化方案。模型的鲁棒性，要求模型预测结果不受数据中的无关干扰影响。模型的安全可控，需要控制模型从数据中学习歧视、欺诈等不良行为，降低模型应用中的不确定性风险，防止其影响使用者做出正确决策。

百度为NLP领域开发者提供一套可探索模型预测机制并可增强模型效果的可信学习技术与工具，助力NLP领域开发者构建效果更强、更加可信的模型。

图1 可信AI–探索模型预测机制并增强模型

TRUST AI

集可信分析和增强功能于一体

可信分析：提供了特征级和实例级两种证据分析方法，以及覆盖底层预训练模型和多个NLP具体任务的可信评测数据，多维度分析和评测模型的预测机制。
可信增强：提供了基于可信分析的模型和数据缺陷识别方法，也同时提供多种低成本的模型增强策略。

图2 首个集可信分析和增强于一体的可信AI工具集

接下来，本文将详细介绍TrustAI的功能。

可信分析方法

TrustAI提供特征级证据和实例级证据分析方法，全方位解释模型的预测，帮助开发者了解模型预测机制，以及协助使用者基于证据做出正确决策。

特征级数据分析

根据模型预测结果，从输入文本中提取模型预测所依赖的证据，即输入文本中支持模型预测的重要词，如图3实例中红色字体所示。以第二条输入“他家卫生条件没有那么好”为例，模型预测为“负向”情感，其依赖证据为“家/条件/没/好”等词。开发者可以根据模型预测依赖证据的合理性，有选择地使用模型预测的结果。

图3 特征级证据分析

实例级证据分析

从训练数据中找出对当前预测影响较大的若干数据作为预测证据，如图4中蓝色底色内的训练数据，即为支持当前测试文本的证据。开发者基于实例级证据可对训练数据中的问题进行分析，如识别训练集中的脏数据、识别数据稀疏等。

图4 实例级证据分析

当前，TrustAI提供了3种常用的特征级证据分析方法和2种实例级证据分析方法。近期，TrustAI还将提供更多的证据分析方法，供开发者使用。

可信评测数据

自然语言理解任务可信评测数据

TrustAI提供了情感分析、相似度计算、阅读理解等3个任务的可信评测数据。针对每一条评测数据，TrustAI提供了人工标注证据和扰动数据。以图5中原始输入“环境可以，房间一般，温泉就是个噱头”为例，人工标注证据为红色字体部分，支持负向情感判断。同时，TrustAI针对每一条原始数据提供了其对应的扰动数据，见图5“扰动数据”实例。扰动数据用来评估模型的鲁棒性。