AI不是万灵神药!看看普林斯顿大学的这份“假AI防骗报告”

2019-11-22 17:30:43 浏览数 (1)

来源:cs.princeton.ed

编辑:小芹、大明

本文转自公众号:新智元

【导读】普林斯顿大学教授最新报告《如何区分AI“万灵假药”》近日火了,很多宣称采用AI算法预测社会后果的技术,实际不比线性回归模型好多少。你怎么看AI“万灵假药”?

AI不是万灵药,但越来越多的人把它说成是万灵药,在这些人的鼓吹下,更多的人可能真的会把AI当成万灵药。

那么,如何在周围人都在吹的氛围下冷静下来,分辨真假?近日,普林斯顿大学计算机系Arvind Narayanan副教授撰写了一份报告,题目就是《如何区分AI“万灵假药”》

报告全文要点如下:

1、有很多与AI无关的东西都被打上AI标签,目前已经诞生的真正的、有社会影响力的AI技术无意间充当了这些冒牌货的保护伞。

2、很多宣称采用AI算法的技术涉及对社会后果的预测。事实是,我们并不能预测未来,但当涉及AI时,这个常识似乎就我们无视了。

3、在风险行为预测上,手动评分要比AI评分靠谱得多。比如违规驾驶,人工计分,到一定程度吊销驾照,这个计分还是要交给人来做。

作者首先举了个例子。下边这个网站宣称,只用一段30秒的短视频,就能评估出你的职业前途和工作的稳定程度。听起来是不是很神奇?只要拍一段视频传上去,网站就会自动评估出多个指标,可视化呈现后给出一个综合评分。

它声称,评估分数结果和视频中的你说的内容甚至都没关系,完全是AI算法根据肢体语言、讲话的方式和风格这些东西得出的。

而实际上,这只是个加了外壳的“随机数生成器”。你的职业是否稳定,全看运气。

为什么这种包装成AI的假货这么多?

第一、 现在的“AI”是个时髦的保护伞,和AI沾边可以提升身价。

第二、 一些AI技术确实实现了真正的、获得大众认可的巨大进步。

第三、 大部分群众不懂AI,企业可以把任何东西贴上AI标签,再卖出去。

这个例子只是说明在HR领域的问题,实际上在其他领域内,这种对AI技术的故意夸大的现象可能更严重。在这份报告中,作者将现在的AI应用模式大体分为3类。

第一类:认知类AI技术。主要包括内容识别(包括反图片搜索)、人脸识别、基于医疗影像的辅助诊断、文本-语音转换,以及DeepFake等。作者认为,这类技术基本上属于货真价实的快速技术进步,甚至DeepFake的过于逼真表现还引发了人们在道德上的担忧。

作者认为,这类AI技术造假或吹牛空间不大的主要原因是结果和判断标准的确定性。无论是人脸识别还是文本-语音转换,其对错标准是非常明确的。

第二类:自动化判断类AI技术。包括垃圾邮件检测、盗版内容检测、论文自动评分、内容推荐等。这类应用尽管还远远称不上完善,但是正在进步,应用前景在逐步拓宽。

对于这类AI来说,判断标准开始变得有些模糊,一篇文章写得好不好,一封电邮是不是垃圾邮件,对于这些问题,不同的人可能会有不同的看法,AI会逐步学习人类的判断和推理方式,但往往免不了犯错。

第三类:社会后果预测类AI。包括职业表现预测、惯犯行为预测、政策预测、恐怖袭击预测等。作者认为,这类AI基本上其真实性都是值得怀疑的。

作者认为,在我们自己尚且不能预测未来的情况下,却要把这个任务交给AI,并根据结果来制定政策,这种选择有违常识,而且很可能造成不良后果。

AI预测社会后果?效果比线性回归好不了多少

第三类AI应用有关预测社会后果,它们大多数时候从根本上就是可疑的

  • 预测犯罪惯犯
  • 预测工作表现
  • 预测警务
  • 预测恐怖主义风险
  • 预测问题儿童

本文也主要集中在第三类AI应用,因为这部分骗子最多。

前面展示了一些工具,声称可以用来预测工作适合性。同样,保释决定是基于对累犯的算法预测做出的。此外,依据一种分析社交媒体帖子并预测恐怖主义风险的算法,有人在边境被拒之门外。

这些问题很难,因为我们无法预测未来。这应该是常识。但当人工智能涉足其中时,人们似乎决定要搁置常识。

真实、快速进步的:

  • Shazam(一款音乐识别应用)
  • 反向图片搜索
  • 人脸识别
  • 基于医学成像的医疗诊断
  • 语音转文本
  • Deepfakes

不完美、但正在改进的:

  • 垃圾邮件检测
  • 版权侵犯
  • 自动论文评分
  • 仇恨语音检测
  • 内容推荐

基本上可疑的:

  • 预测累犯
  • 预测工作成功
  • 预测警务
  • 预测恐怖主义风险
  • 预测问题儿童

当然,这与AI的用途(所有的机器人技术、游戏……不在此列)相去甚远。然而,重点是说明对于不同类型的任务,精度的限制在数量和质量上是如何不同的。

接下来将展示,第三类应用中不管投入多少数据,都并没有真正的改进

案例:社会后果能被预测吗?

普林斯顿大学社会学家Matthew Salganik等人此前发布《脆弱家庭与儿童福利研究》,涉及457名研究人员,并形成了一个数据集,开展机器学习挑战赛。

“脆弱家庭(未婚家长与孩子组成的家庭)与孩子福利”项目跟踪研究了1998-2000年出生在美国大城市的近5000名儿童(大约四分之三是未婚父母所生),这些儿童所在的“家庭”比普通家庭面临更大的分裂和贫困的危险。研究围绕四个方面展开:(1)未婚父母,尤其是父亲的条件和能力是什么?(2)未婚父母关系的本质是什么?(3)这些家庭出生的孩子是怎样生活的?(4)政策和环境条件如何影响这样的家庭和儿童? 该项目的人口研究数据档案办公室公开提供六组相关数据。

据我所知,这是衡量社会结果可预见性的最严格的努力。

他们收集了关于每个孩子和家庭的大量数据,这些数据是基于多年来的深入访谈和多次重复的家庭观察得出的。

脆弱家庭挑战赛(FFC)的设置与许多其他机器学习竞赛类似。任务是基于训练实例学习背景数据与结果数据之间的关系。比赛期间以准确性排行榜进行评估,并在比赛结束后基于留存数据进行评估。

从出生到9岁的所有背景数据,以及15岁的一些训练数据,他们的任务是准确预测以下关键类别的结果:

  • 孩子的平均成绩(学业成绩)
  • 孩子们的勇气(激情和毅力)
  • 家庭的物质困难(衡量极端贫困的程度)
  • 驱逐家庭(不支付租金或抵押)
  • 照顾者的裁员
  • 工作培训(如果主要照顾者将参加工作技能计划)

完美预测对应于决定系数R^2趋近于1。预测每个实例的平均值对应于R^2趋近于0(即模型根本没有学会区分实例)。

大多数人的直觉认为R^2的值在0.5到0.8之间。许多组织这次挑战的专家都抱有很高的期望。

然而,实际结果却令人大失所望:R^2的值介于0.03到0.23之间

要知道:数百名专业的的AI/ML研究人员和学生参与了挑战,他们被激励去最大化预测的准确性,而且,每个家庭都被赋予了1.3万个特征。这些是表现最好的模型。

相比之下,只有4个变量的线性回归模型,所得到的结果并不比AI模型差多少(上图绿色线)。

换句话说,“AI”比简单的线性公式好不了多少!

这是症结所在。回归分析已经有一百年的历史了。

同样的发现在其他许多领域都有。

上图是一个“预测再次犯罪”的AI。注意这是正确率,而不是R^2,所以65%只比随机稍好一点。实际的准确性可能更低,因为虽然这个工具声称可以预测累犯,但实际上它预测的是再次被逮捕,因为这是有数据记录的。因此,至少算法的一些预测性能来自于能够预测的警务偏差。

观点:在预测社会后果方面,人工智能并不比仅使用几个特征的人工评分好多少。

这是一个可以证伪的观点。当然,如果出现相反的证据,我愿意改变我的想法,或者给这个说法加上适当的说明。但鉴于目前的证据,这似乎是最谨慎的观点。

驾照上的扣分可以被看作是预测事故风险的一种方法。一些研究发现,这样的系统校准得相当好。我们早就知道,在很多领域,如果我们真正想做的只是预测(通常不是),那么简单的公式比人类的预测更准确,即使是经过多年训练的专家。

Daniel Kahneman 解释说,这是因为人类的预测往往是“嘈杂的”:给定相同的输入,不同的人(甚至是同一个人在不同的时间)会做出截然不同的预测。使用统计公式则消除了噪音。

人工智能在预测社会后果方面的危害:

  • 对个人数据的需求
  • 权力从领域专家大规模转移到不负责任的科技公司手中
  • 缺乏可解释性
  • 影响干预
  • 准确性流于表面
  • ……

与人工评分规则相比,人工智能预测有很多缺点。

最重要的是缺乏可解释性。想象一下这样一个系统,当你每次被交警拦下时,交警将你的数据输入电脑,而不是从驾照上扣分。大多数时候你可以自由驾驶,但突然某天,黑盒系统告诉你,你不能再开车了。不幸的是,我们今天在很多领域都有这样的系统。

总结

  • 人工智能擅长某些任务,但无法预测社会后果。
  • 我们必须抵制意图混淆这一事实的巨大商业利益。
  • 在大多数情况下,手动评分规则同样准确,更加透明,值得考虑。

0 人点赞