为什么AI感知与人类感知很难直接比较？

这篇文章是我们对人工智能研究论文的评论的一部分，这是一系列探索人工智能最新发现的文章。

人类层面的表现。人类层面的准确性。无论是面部识别、物体检测还是问题回答，这些术语都是你能从开发人工智能系统的公司经常听到的。值得称道的是，近年来出现了许多由人工智能算法驱动的伟大产品，这主要归功于机器学习和深度学习的进步。

但是这些比较中的许多只考虑了在有限的数据集上测试深度学习算法的最终结果。这种方法会对人工智能系统产生错误的预期，并在它们被赋予关键任务时产生危险的结果。

在最近的一项研究中，一组来自德国不同组织和大学的研究人员强调了评估深度学习在处理视觉数据方面所面临的挑战。在他们题为《比较人类和机器感知的臭名昭著的困难》的论文中，研究人员强调了目前比较深层神经网络和人类视觉系统的方法中存在的问题。

在他们的研究中，这位科学家进行了一系列的实验，深入挖掘深度学习结果的表层，并将其与人类视觉系统的工作进行了比较。他们的发现提醒我们，在将人工智能与人类进行比较时，我们必须保持谨慎，即使它在相同的任务上表现出相同或更好的表现。

人类和计算机视觉的复杂性

在似乎无休止的重建人类感知能力的探索中，目前为止，目前为止，深度学习中的计算机视觉领域取得了最有利的结果。卷积神经网络（CNN）是一种常用于计算机视觉深度学习算法的体系结构，它可以完成传统软件难以完成的任务。

然而，将神经网络与人类的感知能力进行比较仍然是一个挑战。这在一定程度上是因为我们对人类的视觉系统和大脑还有很多东西要学习的地方。深度学习系统的复杂工作方式也使问题更加复杂。深层神经网络以非常复杂的方式工作，而这些方式往往会使它们自己的创造者感到困惑。

近年来，一个研究机构试图评估神经网络的内部工作原理及其在处理现实世界中情况的鲁棒性。德国研究人员在他们的论文中写道：“尽管进行了大量的研究，但比较人类和机器的感知并不简单。”。

在科学家们的研究中，它们重点集中在三个领域来测量人类和深度神经网络如何处理视觉数据。

神经网络如何感知轮廓？

第一个测试涉及轮廓检测。在这个实验中，人类和人工智能参与者都必须说明出一幅图像是否包含封闭轮廓线。..这里的目标是了解深度学习算法是否能够学习闭合和开放形状的概念，以及它们是否能够在各种情况下检测到它们。

你能分辨出上面哪个图像包含一个闭合的形状吗?

对人类来说，一个封闭的轮廓两侧有许多开放的轮廓，这在视觉上是非常突出的。相比之下，探测封闭的等高线对 DNNs 来说可能比较困难，因为它们可能需要远距离的等高线整合”研究人员写道。

在实验中，科学家们使用了ResNet-50，一种由微软人工智能研究人员开发的流行卷积神经网络。他们使用迁移学习在 14000 张闭合和开放轮廓图像上调整人工智能模型。

然后，他们在各种类似训练数据的例子上测试人工智能，并逐渐向其他方向转移。最初的发现表明，一个训练有素的神经网络似乎掌握了封闭轮廓的概念。尽管该网络是在只包含有直线形状的数据集上训练的，但它也可以在曲线上表现良好。

科学家们写道：“这些结果表明，我们的模型确实学习了开放和闭合轮廓的概念，并执行了类似于人类的轮廓整合过程。”

ResNet神经网络能够检测出各种开放的和封闭的轮廓图像，尽管只训练了直线样本的训练。

然而，进一步的研究表明，其他不影响人的行为的变化降低了人工智能模型结果的准确性。例如，改变线条的颜色和宽度会导致深度学习模型的精度突然下降。当形状变大到一定尺寸时，模型似乎也很难检测到形状。

当看到包含不同颜色和厚度的线条的图像，以及形状大于训练集的图像时，ResNet-50 神经网络就会挣扎。

神经网络对对抗干扰也非常敏感，精心设计的变化是肉眼看不到，但会破坏机器学习系统的行为。

右边的图像经过了对抗性的干扰，也就是人类察觉不到的噪声。对于人眼来说，这两个图像是相同的。但是对于神经网络来说，它们是不同的图像。

为了进一步研究人工智能的决策过程，科学家们使用了特征包网络（bag-of - feature network），这是一种试图定位有助于深度学习模型决策的数据位的技术。研究人员发现，分析证明了“确实存在一些局部特征，比如端点与短边的结合，这些特征通常可以给出正确的类标签。”。

机器学习能推理图像吗?

第二个实验测试了深度学习算法在抽象视觉推理中的能力。实验所用的数据是基于综合视觉推理测试（SVRT），在这个测试中，人工智能必须回答需要理解图片中不同形状之间关系的问题。测试包括相同-不同的任务（例如，图片中的两个形状是否相同？）以及空间任务（例如，较小的形状是否位于较大形状的中心？）。人类的观察者很容易解决这些问题。

SVRT 挑战要求参与的 AI 解决相同-不同和空间的任务。

在他们的实验中，研究人员使用ResNet-50 测试了它在不同大小的训练数据集上的表现。结果表明，在28000个样本上进行微调优化的预训练模型在相同的不同任务和空间任务上都表现良好。（之前的实验将一个非常小的神经网络训练成一百万张图像。）随着研究人员减少训练样本的数量，人工智能的性能下降，但是在相同的不同任务中下降的速度更快。

“同-异任务比空间推理任务需要更多的训练样本”，研究人员写道，并补充道，“这不能作为前馈神经网络和人类视觉系统之间存在系统性差异的证据。”

研究人员指出，人类的视觉系统天生就预先训练过大量抽象的视觉推理任务。这使得在低数据的情况下测试深度学习模型是不公平的，而且几乎不可能得出关于人类和人工智能的内部信息处理差异的可靠结论。

研究人员写道：“很有可能，对这两种任务从零开始训练的人类视觉系统，在样本效率方面表现出与 ResNet-50 类似的差异。”。

测量深度学习的认知差距

识别差距是视觉系统中最有趣的测试之一。考虑以下图像，在不向下滚动的前提下，你能告诉我它是什么吗？

下面是同一图像的缩小视图。毫无疑问这是只猫。如果我给你看图像的另一部分（也许是耳朵）的特写镜头，你可能有更大的机会预测图像中的内容。我们人类需要看到一定数量的整体形状和图案才能识别图像中的物体。放大得越多，删除的特征越多，就越难区分图像中的内容。

根据它们所包含的特征，猫图像不同部分的特写镜头会对我们的感知产生不同的影响。

深度学习系统也以特征为基础，但它们的工作方式更为微妙。神经网络有时会发现人眼看不到的微小特征，但即使在非常近距离放大时也能检测到。

在最后的实验中，研究人员试图通过逐渐放大图像来测量深度神经网络的识别差距，直到人工智能模型的精度开始大幅下降。

此前的实验表明，人的图像识别缺口与深度神经网络存在很大的差异。但在他们的论文中，研究人员指出，之前大多数关于神经网络识别缺口的测试都是基于人类选择的图像补丁。这些斑块有利于人类的视觉系统。

当他们在“机器选择”的补丁上测试他们的深度学习模型时，研究人员得到的结果显示人类和人工智能有着相似的差距。

识别间隙测试评估放大图像如何影响人工智能的精度

研究人员写道：“这些结果凸显了在完全相同的基础上测试人类和机器的重要性，以及在实验设计中避免人类偏见的重要性。”。人和机器之间的所有条件、指令和程序都应该尽可能接近，以确保所有观察到的差异都是由于内在不同的决策策略，而不是由于测试程序的差异。”

缩小人工智能与人类智能之间的差距

随着我们的人工智能系统变得越来越复杂，我们将不得不开发更复杂的方法来测试它们。该领域先前的研究表明，许多用于测量计算机视觉系统精度的流行基准是误导性的。德国研究人员的这项工作是许多尝试测量人工智能和更好地量化人工智能和人类智能之间的区别的努力之一。他们得出的结论可以为未来的人工智能研究提供方向。

研究人员写道：“在人类和机器的比较研究中，最主要的挑战似乎是人类内部强烈的解释偏见。”。“适当的分析工具和广泛的交叉检查（如网络架构的变化、实验程序的校准、泛化测试、对抗性例子和受限网络的测试）有助于对发现的解释合理化，并将这种内部偏见放到正确的角度。总而言之，在比较人类和机器的感知时，必须注意不要强加我们人类的系统性偏见。”

卷积神经网络腾讯云测试服务图像处理深度学习神经网络

0 人点赞