AI不是万灵神药！看看普林斯顿大学的这份“假AI防骗报告”

来源：cs.princeton.ed

编辑：小芹、大明

本文转自公众号：新智元

【导读】普林斯顿大学教授最新报告《如何区分AI“万灵假药”》近日火了，很多宣称采用AI算法预测社会后果的技术，实际不比线性回归模型好多少。你怎么看AI“万灵假药”？

AI不是万灵药，但越来越多的人把它说成是万灵药，在这些人的鼓吹下，更多的人可能真的会把AI当成万灵药。

那么，如何在周围人都在吹的氛围下冷静下来，分辨真假？近日，普林斯顿大学计算机系Arvind Narayanan副教授撰写了一份报告，题目就是《如何区分AI“万灵假药”》。

报告全文要点如下：

1、有很多与AI无关的东西都被打上AI标签，目前已经诞生的真正的、有社会影响力的AI技术无意间充当了这些冒牌货的保护伞。

2、很多宣称采用AI算法的技术涉及对社会后果的预测。事实是，我们并不能预测未来，但当涉及AI时，这个常识似乎就我们无视了。

3、在风险行为预测上，手动评分要比AI评分靠谱得多。比如违规驾驶，人工计分，到一定程度吊销驾照，这个计分还是要交给人来做。

作者首先举了个例子。下边这个网站宣称，只用一段30秒的短视频，就能评估出你的职业前途和工作的稳定程度。听起来是不是很神奇？只要拍一段视频传上去，网站就会自动评估出多个指标，可视化呈现后给出一个综合评分。

它声称，评估分数结果和视频中的你说的内容甚至都没关系，完全是AI算法根据肢体语言、讲话的方式和风格这些东西得出的。

而实际上，这只是个加了外壳的“随机数生成器”。你的职业是否稳定，全看运气。

为什么这种包装成AI的假货这么多？

第一、现在的“AI”是个时髦的保护伞，和AI沾边可以提升身价。

第二、一些AI技术确实实现了真正的、获得大众认可的巨大进步。

第三、大部分群众不懂AI，企业可以把任何东西贴上AI标签，再卖出去。

这个例子只是说明在HR领域的问题，实际上在其他领域内，这种对AI技术的故意夸大的现象可能更严重。在这份报告中，作者将现在的AI应用模式大体分为3类。

第一类：认知类AI技术。主要包括内容识别（包括反图片搜索）、人脸识别、基于医疗影像的辅助诊断、文本-语音转换，以及DeepFake等。作者认为，这类技术基本上属于货真价实的快速技术进步，甚至DeepFake的过于逼真表现还引发了人们在道德上的担忧。

作者认为，这类AI技术造假或吹牛空间不大的主要原因是结果和判断标准的确定性。无论是人脸识别还是文本-语音转换，其对错标准是非常明确的。

第二类：自动化判断类AI技术。包括垃圾邮件检测、盗版内容检测、论文自动评分、内容推荐等。这类应用尽管还远远称不上完善，但是正在进步，应用前景在逐步拓宽。

对于这类AI来说，判断标准开始变得有些模糊，一篇文章写得好不好，一封电邮是不是垃圾邮件，对于这些问题，不同的人可能会有不同的看法，AI会逐步学习人类的判断和推理方式，但往往免不了犯错。

第三类：社会后果预测类AI。包括职业表现预测、惯犯行为预测、政策预测、恐怖袭击预测等。作者认为，这类AI基本上其真实性都是值得怀疑的。

作者认为，在我们自己尚且不能预测未来的情况下，却要把这个任务交给AI，并根据结果来制定政策，这种选择有违常识，而且很可能造成不良后果。

AI预测社会后果？效果比线性回归好不了多少

第三类AI应用有关预测社会后果，它们大多数时候从根本上就是可疑的：

预测犯罪惯犯
预测工作表现
预测警务
预测恐怖主义风险
预测问题儿童

本文也主要集中在第三类AI应用，因为这部分骗子最多。

前面展示了一些工具，声称可以用来预测工作适合性。同样，保释决定是基于对累犯的算法预测做出的。此外，依据一种分析社交媒体帖子并预测恐怖主义风险的算法，有人在边境被拒之门外。

这些问题很难，因为我们无法预测未来。这应该是常识。但当人工智能涉足其中时，人们似乎决定要搁置常识。

真实、快速进步的：

Shazam(一款音乐识别应用)
反向图片搜索
人脸识别
基于医学成像的医疗诊断
语音转文本
Deepfakes

不完美、但正在改进的：

垃圾邮件检测
版权侵犯
自动论文评分
仇恨语音检测
内容推荐

基本上可疑的：

预测累犯
预测工作成功
预测警务
预测恐怖主义风险
预测问题儿童

当然，这与AI的用途(所有的机器人技术、游戏……不在此列)相去甚远。然而，重点是说明对于不同类型的任务，精度的限制在数量和质量上是如何不同的。

接下来将展示，第三类应用中不管投入多少数据，都并没有真正的改进。

案例：社会后果能被预测吗？

普林斯顿大学社会学家Matthew Salganik等人此前发布《脆弱家庭与儿童福利研究》，涉及457名研究人员，并形成了一个数据集，开展机器学习挑战赛。

“脆弱家庭（未婚家长与孩子组成的家庭）与孩子福利”项目跟踪研究了1998-2000年出生在美国大城市的近5000名儿童（大约四分之三是未婚父母所生），这些儿童所在的“家庭”比普通家庭面临更大的分裂和贫困的危险。研究围绕四个方面展开：（1）未婚父母，尤其是父亲的条件和能力是什么？（2）未婚父母关系的本质是什么？（3）这些家庭出生的孩子是怎样生活的？（4）政策和环境条件如何影响这样的家庭和儿童？该项目的人口研究数据档案办公室公开提供六组相关数据。

据我所知，这是衡量社会结果可预见性的最严格的努力。

他们收集了关于每个孩子和家庭的大量数据，这些数据是基于多年来的深入访谈和多次重复的家庭观察得出的。

脆弱家庭挑战赛（FFC）的设置与许多其他机器学习竞赛类似。任务是基于训练实例学习背景数据与结果数据之间的关系。比赛期间以准确性排行榜进行评估，并在比赛结束后基于留存数据进行评估。

从出生到9岁的所有背景数据，以及15岁的一些训练数据，他们的任务是准确预测以下关键类别的结果：

孩子的平均成绩（学业成绩）
孩子们的勇气（激情和毅力）
家庭的物质困难（衡量极端贫困的程度）
驱逐家庭（不支付租金或抵押）
照顾者的裁员
工作培训（如果主要照顾者将参加工作技能计划）

完美预测对应于决定系数R^2趋近于1。预测每个实例的平均值对应于R^2趋近于0(即模型根本没有学会区分实例)。

大多数人的直觉认为R^2的值在0.5到0.8之间。许多组织这次挑战的专家都抱有很高的期望。

然而，实际结果却令人大失所望：R^2的值介于0.03到0.23之间。

要知道：数百名专业的的AI/ML研究人员和学生参与了挑战，他们被激励去最大化预测的准确性，而且，每个家庭都被赋予了1.3万个特征。这些是表现最好的模型。

相比之下，只有4个变量的线性回归模型，所得到的结果并不比AI模型差多少(上图绿色线)。

换句话说，“AI”比简单的线性公式好不了多少！

这是症结所在。回归分析已经有一百年的历史了。

同样的发现在其他许多领域都有。

上图是一个“预测再次犯罪”的AI。注意这是正确率，而不是R^2，所以65%只比随机稍好一点。实际的准确性可能更低，因为虽然这个工具声称可以预测累犯，但实际上它预测的是再次被逮捕，因为这是有数据记录的。因此，至少算法的一些预测性能来自于能够预测的警务偏差。

观点：在预测社会后果方面，人工智能并不比仅使用几个特征的人工评分好多少。

这是一个可以证伪的观点。当然，如果出现相反的证据，我愿意改变我的想法，或者给这个说法加上适当的说明。但鉴于目前的证据，这似乎是最谨慎的观点。

驾照上的扣分可以被看作是预测事故风险的一种方法。一些研究发现，这样的系统校准得相当好。我们早就知道，在很多领域，如果我们真正想做的只是预测(通常不是)，那么简单的公式比人类的预测更准确，即使是经过多年训练的专家。

Daniel Kahneman 解释说，这是因为人类的预测往往是“嘈杂的”：给定相同的输入，不同的人(甚至是同一个人在不同的时间)会做出截然不同的预测。使用统计公式则消除了噪音。

人工智能在预测社会后果方面的危害：

对个人数据的需求
权力从领域专家大规模转移到不负责任的科技公司手中
缺乏可解释性
影响干预
准确性流于表面
……

与人工评分规则相比，人工智能预测有很多缺点。

最重要的是缺乏可解释性。想象一下这样一个系统，当你每次被交警拦下时，交警将你的数据输入电脑，而不是从驾照上扣分。大多数时候你可以自由驾驶，但突然某天，黑盒系统告诉你，你不能再开车了。不幸的是，我们今天在很多领域都有这样的系统。

总结

人工智能擅长某些任务，但无法预测社会后果。
我们必须抵制意图混淆这一事实的巨大商业利益。
在大多数情况下，手动评分规则同样准确，更加透明，值得考虑。

编程算法神经网络深度学习人工智能线性回归

0 人点赞