打好人工智能战争 —— 未来智能化战争之作战构想（上）

摘要

这是一个快速变化的时代，颠覆性技术不断出现，特别是在人工智能（AI）领域。虽然人工智能技术是由商业部门开发，主要用于商业用途，但其在军事领域具有明显潜力，因而世界各地的武装部队对尚处于雏形的智能化国防体系进行了实验，以便充分利用这些系统，完成战时与平时任务。

澳大利亚也不例外，《2020年国防战略更新》中明确对此领域拨款，开始将人工智能引入国防。这一过程涉及开发人工智能应用，解决特定的战术级和战略级军事问题，建立熟练的人工智能团队，与合作伙伴和盟国合作，将道德融入人工智能应用程序，并进行人工智能实验。今年，在澳大利亚首都地区费尔拜恩（Fairbairn）启动了国防技术加速ColLab（Defence TechnologyAcceleration ColLab），表明该计划正式落地。

这篇文章围绕这一主题，从战术和作战层面上探讨了人工智能在未来海、陆、空作战行动中可能发挥的作用。这一领域鲜有研究。到目前为止，大部分讨论都集中在关键的技术问题和关注点上。这说明，人工智能或许能够在未来战争中起着举足轻重的作用，但目前仍存在许多不确定性。本文首涉这一论题，必将引发诸多讨论，澄清部分问题。

文章认为，人工智能将应用于大多数军事装备；然而，它的通用性意味着在现有的作战体系中人工智能的应用可能只是初级水平。鉴于此，人工智能在中短期内的主要作战用途是“发现和愚弄”。人工智能具有机器学习功能，能够发现隐藏在高杂波背景中的事物；就这个功能而言，它表现优异，比人类更强，而且速度更快。然而，有很多种方法可以骗过人工智能。这样说来，它优异的发现能力显然不够稳健。在海、陆、空作战层面考虑应用人工智能时，它的这两个关键特征或会产生巨大影响。本文探讨的作战构想与没有人工智能技术加持的作战构想明显不同。

本文所提出的构想旨在引发人们思考，探索在未来的智能化战场上人机团队如何作战。这样的战场在目前看来略失真实，甚至接近科幻。即便如此，许多国家已经积极行动，在规划、研究和开发方面取得了巨大进展。调整军事方向非一朝一夕之功。鉴于此，我们需要立刻行动起来。

引言

人工智能（AI）技术发展迅速，已成为军队的重要组成部分。美国国防部已将对人工智能的投资从2016–17年的约6亿美元增加到2021–22年的25亿美元，涉及600多个项目[1]。中国已开始实施“下一代人工智能发展计划”，旨在在2030年前使中国成为人工智能的第一大国，并将中国人民解放军（PLA）从“信息化”战争方式转变为“智能化战争”[2]。更为引人注目的是，俄罗斯总统宣称“人工智能是未来……谁成为这个领域的领导者，谁就是世界的统治者”[3]。这些上层规划和响亮的口号已初见成效。

美国海军（USN）的无人水面艇（USV）“海上猎人”号使用船上传感器、雷达和摄像头的数据，通过人工智能进行导航，在没有船员的情况下从加利福尼亚航行到夏威夷，然后返回[4]。同时，在美国国防高级研究计划局（DARPA）的主持下，一架智能化模拟F-16战斗机最近在多次模拟、近距离空战事件中全面击败了一名经验丰富的人类飞行员控制的类似模拟机[5]。在类似的陆战评估中，美国陆军发现，智能化部队的战斗力是非智能化部队的10倍[6]。

中国人民解放军使用人工智能来自动化指挥控制系统，制定预测性作战计划，应对情侦监数据融合挑战，提高战场决策的速度和准确性。此外，解放军已在试航搭载人工智能的无人水面艇，未来将用于南海，并开始试验无人坦克，同时一家中国私营公司公开展示了使用人工智能的武装无人机群[7]。

俄罗斯落后于美国和中国，但目前正在实施一项国家人工智能战略以迎头赶上[8]。在军事领域，俄罗斯也有几项工作正在进行中。其中一项主要工作致力于将人工智能应用于信息战，包括心理战（战术上）和破坏敌国的社会凝聚力（战略上）。另一项工作是利用人工智能，通过开发无人驾驶地面车辆（UGV）、遥感器、战术指挥控制系统以及无人航空载具（UAV，即无人机）来提高地面作战行动的有效性。还有一项工作是国家防空网中的指挥控制系统的自动化。

这初步表明，人工智能或许能够在未来战争中发挥重要作用，但尚存在不确定性。人工智能广泛应用于民用领域，尤其是消费品领域，在军事环境中，仅倾向于作战部署。此外，Ëü在军事领域的应用也未经过实战检验。即便如此，因为这种技术的潜能，军队也绝不能忽视人工智能应用。

需要注意的是，在可预见的未来可用的是狭隘而非通用的人工智能技术。狭隘人工智能（Narrow AI）能够以相当于或高于人类智力的水平完成特定领域内的特定任务；其应用受环境所限。而通用人工智能（GeneralAI）具有完全的人类智慧，能够完成任何领域中的任何任务。通用人工智能何时实现尚无定论，但应该还有几十年的时间。在军事领域内，各国中短期想解决的问题是如何在现代战场上应用狭隘人工智能技术。

自然而然地，人们在定义人工智能时往往与人类智力做类比。例如，2018年美国国防部的人工智能战略将人工智能定义为“机器执行通常需要人类智力的任务的能力……”。这种理解将技术拟人化，同时不经意间将人工智能的应用限制在只有人类可以执行的任务上。

实际应用中，人工智能有时比人类做得更好，有时则不然。人工智能和人类能力的维恩图在某些领域可能会重叠，但若认为两者一致则未免有失偏颇。人工智能有一定的智力，因为它具有解决问题的能力，但同时又是非人类的，因此，思维方式与人类不同。

因此，本文的侧重点是人工智能技术所能实现的广泛功能而非它与人类能力的关系。2019年国防创新委员会采用这种方法，将人工智能定义为“用于执行目标导向任务的各种信息处理技能和技术，以及在执行该任务时进行推理的手段”。

乍一看，这个定义似乎不够精确，因为它没有涵盖人工智能可能实际执行的军事或民用任务。但这种模糊性正是当代人工智能应用的一个关键属性。人工智能的应用方式多种多样，因此属于社会中常见的通用技术。例如，早期出现的电就是这种通用技术，现已得到广泛应用，毋庸置疑，未来仍会长期存在并使用。电为原本死气沉沉的机器注入了生命力，人工智能将为它们提供推理能力，完成任务。人工智能应该会引入到许多甚或大多数军事装备中，因此，未来战场将不可避免地实现某种程度的智能化。

为了在战场上战胜对手，军队会想法设法持续提升战斗力。长久以来，技术在战场上一直是综合应用，充分利用人类和机器的优势，做到取长补短。人工智能应该也是大同小异。相比于独立行事，与人类稳妥合作预期会发挥最大效用。

考虑到这些因素，新技术本身并不会立刻给战场带来优势，而是需要人类加以妥善利用。根据之前对早期技术创新的分析，用科学的思想指导新技术的使用是新技术在军事领域得以成功应用的关键。历史学家Williamson Murray和Allan Millet曾表示：

证据表明，首要任务是构想未来。军事机构不仅需要进行初始的智力投资构想未来战争，而且必须殚精竭虑，不断审视这些构想，辨别这些战争与以往冲突有何不同……（在这方面）任何对未来战争的构想几乎一定是模糊、片面的，无法做到详细和准确，更遑论科学意义上的预测性。然而，构想并不足以产生成功的创新。人们对未来冲突的看法也必须不偏不倚，与实际的作战情况密切相关。

与现实的残酷战争的联系主要体现在战术层面。战略规定了目标、总的方法和要使用的兵力，战术则具体明确了这些兵力应如何对付狡猾、灵活的对手。战斗胜利不一定带来战略上的成功，美国对越战争就很好地诠释了这一点。反之，战斗失败却一定会导致战略失败。战术上总是失败的话，战略再好也无法成功实施。Clausewitz写道：“一切都取决于战术结果……所以，我们认为，有必要强调，所有的战略规划都唯一取决于战术上的成功……这在任何情况下都是决策的实际基础。”战术一般包括对友军的调遣（根据友军之间的情况和敌人情况）以及这些部队在战场上的使用。

本文将这些线索串在一起，为未来智能化战场上使用人机团队提出了作战构想。这样的战场，特别是将陆战扩展到空战和海战时，将会是线性和深度的结合，同时体现消耗和机动概念。这种作战构想提供的广泛视野会帮助读者了解未来如何在战术和战斗水平上使用狭隘人工智能系统。

本文开篇讨论了一整套人工智能技术所涵盖的各种技术要素，包括高级计算机处理和大数据以及云计算和物联网方面的技术。第2章探讨了如何利用人工智能发动战争，并从攻防两个方面提出了总体作战构想。这些构想处于作战层面和战术层面之间的模糊地带，涉及友军的调遣以及己方在战场上的武力运用。

第3、4、5章分别将智能化攻防这两个总体构想应用于海、陆、空领域。在调遣友军和交战方面，各个领域的战斗情况迥然不同，需要构想出不同的人工智能使用方法。这三个领域无法简单用一个概念全覆盖，除非将其高度抽象到难以理解的地步。这种前瞻性构想接近于科幻。为了避免这种情况，每一构想都以当代的作战思维为基础，并对当前和新兴的智能化海、陆、空平台和系统进行了探讨，进一步明晰所提出的概念。

本文提出的作战构想旨在抛砖引玉，希望读者就未来以及如何为未来做好准备展开热烈讨论。可以这些作战构想为基础，探讨其他智能化战场构想的实用性、可能性和有用性。对建议进行批判性地分析并不断调整以便进行更深入的分析和改进，通过这一辩证过程，才能不断优化作战构想。

本文所述构想在性质和范围上有所限制。就性质而言，为了更具针对性，对海、陆、空的构想是分别进行讨论的。需要说明的是，这种针对性意味着某些领域（如俄罗斯在影响战中使用人工智能，或中国在社会管理和内部防御中使用人工智能）不包括在内。出于类似的原因，针对各领域的构想主要针对作战，对后勤仅少量涉及，并避开了教育、训练、管理和指挥控制等关键领域。需要注意的是，没有讨论网络和太空等新领域，仅提及了它们与传统的陆、海、空战术交战的关系。

本文以人工智能为研究对象，将这一新技术与作战方式和战术使用相结合。因为这一侧重点，文章就不同于许多军队以往制定的众多人工智能战略和计划。总的来说，这些战略和计划着眼于内部，阐述的是如何研究、获取人工智能技术并进行具体应用，而本文是对前者的补充，将这些战略和计划与更广泛的作战业务联系起来。

第1章技术驱动因素

现代战争需要使用技术，同时也受技术的影响。所使用的技术决定了军队可采取的行动，在战术和作战层面赋予并限制了武力运用能力。技术和战争紧密交织，但涉及到人工智能，却有一个小小的不同。

人工智能主要是一种商业驱动的技术。因此，军队须跟上商业领域对人工智能的开发和利用。这与冷战期间（1947–1991年）军方主导的技术发展形成了鲜明对比。那时，军方会精心规划技术变革，谨慎管理对现役兵力结构造成的影响。今天，在人工智能领域，商业世界的需求和市场的机遇推动了技术创新和采用。现役军事装备的淘汰时间点有时取决于外部商业领域和市场，或与军队的计划使用时间并不一致。

需要注意的是，人工智能，无论是民用还是军用，都不是独立存在的。实际上，人工智能的应用是多个技术构件的组合，卡内基梅隆大学（Carnegie-MellonUniversity）称之为“人工智能堆栈”（AI stack）。堆栈的感知（Perceive）层包括计算、无线云网络及设备（例如传感器）和物联网，用以感知周围的世界。决策(Decide)层包括海量数据管理、机器学习、数字模型和决策支持辅助工具。最后，行动（Act）层包括计划和行动（优化、战略推理、知识）、自主技术和供人类操作员进行操作的人机界面。重要的是，道德贯穿各层。

很明显，堆栈不仅是人工智能，而是涉及众多交互技术。这些技术共同运行，产生组合效应，能力和效果远远大于单独使用各项技术。如果管理得当，这种组合可以带来指数级变化，随着越来越多新技术的加入，变化会越来越快。

不过，指数变化可能存在中期上限。有些人已经看到了终点，预计人工智能将出现“秋天”，甚至可能会回归“寒冬”。人工智能此前曾经历过两次寒冬（1974–1980和1987–1993），所得到的关注和资金双双下滑。如果历史重现，技术进步将出现停滞。

虽然仍会有较大创新，但这些创新将局限在当前的技术范式之内，而无法突破，应用模式是将当前或近期的人工智能技术应用于新任务。然而，与商业领域相比，人工智能还未深入到军事领域。在军事方面，人工智能可能存在多种应用方式等待我们开发。本章探讨了与人工智能和机器学习、大数据、云计算和物联网相关的技术。

1.1人工智能计算

人工智能可以追溯到大约70年前，阿兰·图灵（Alan Turing）在1950年发表了一篇开创性的论文《计算机器与智能》。今天的前沿概念之一“神经网络”甚至也起源于1957年左右。在很大程度上，关键的问题不在于有关人工智能的想法，而在于是否有足够的计算能力来实现这些想法。

1997年，IBM的深蓝电脑击败了国际象棋世界冠军加里·卡斯帕罗夫（GaryKasparov），这戏剧性的一幕说明已经有足够的计算能力来发挥人工智能的潜力。深蓝的人工智能使用C语言编写的基于规则的传统软件。该软件汇集了专家知识，由计算机程序员和国际象棋大师合作开发。

在使用问题、逻辑和搜索的符号表示时，深蓝的基于规则的人工智能属于有效的老式人工智能（GOFAI）。这种手动获取知识的“专家”系统可以称为“第一波”人工智能。GOFAI擅长对狭义问题进行逻辑推理，但不善于处理不确定性，没有学习或概括能力。

第二波人工智能有两大进步。具有大规模并行处理能力、搭载机器学习软件的图形处理单元经济实惠，唾手可得，可以满足视频游戏玩家的需求。之后，又出现了大型数据集，可供带有图形处理单元的机器学习。

现代人工智能的核心是机器学习。机器学习不是像深蓝那样一步一步来编程，而是利用算法从所提供的数据中进行推理学习。算法是计算机用来解决问题的一系列指令和规则。在机器学习中，算法—而非GOFAI那样的外部人类计算机程序员—创建了人工智能所使用的规则。对于不同的训练数据，可以使用相同的学习算法生成不同的规则和指令，完成各种新任务。一般来说，用于训练学习算法的数据越多，设计的规则和指令就越好。

有两种主要的机器学习方法：有监督学习和无监督学习。在有监督学习中，学习算法是基于标注数据的。例如，标注为“运输机”的运输机照片通过算法输入，这样算法就能创建出规则，用以后续对此类图片进行分类。有监督学习需要大量的人力对数据进行分类和标记。

无监督学习使用未标注的数据。在此过程中，机器学习算法从所接收到的数据中自行识别出模式。这就天然存在一个问题：很难知道学习算法实际产生了什么样的数据关联。

有监督学习系统的性能极高，但需要庞大的标注数据集。相比之下，无监督学习系统的性能往往不太稳定，难以预测。学习系统的选择取决于任务，因为两者在解决不同类型的问题上各有优势。以从海量金融数据中检测欺诈为例，监督学习更适合于识别与已知行为相匹配的潜在欺诈行为。相比之下，无监督学习系统可以发现未经确认的新欺诈行为模式。

强化学习是一种无监督学习，在此过程中，学习算法与动态环境交互，动态环境提供反馈，正确完成任务获得奖励，错误则会受到惩罚。AlphaGo人工智能通过强化学习进行训练，包括与人类专家比赛。2016年，它击败了世界围棋冠军。长期以来，人们一直认为围棋的战略战术对于人工智能来说是一个特别大的挑战。这次胜利令人震惊，极大地影响了中国军事思想家对人工智能的接受程度。

概念上与此相似的是生成式对抗网络（GAN），它们相互竞争以提高性能。每个网络都试图欺骗对方，加大对方正确完成任务的难度。考虑到对手可能会伪造数据，让数据看起来愈加真实，可使用较小的数据集进行训练。

AlphaGo Zero是AlphaGo的更新版本，它使用GAN训练方式与自己对抗，从而持续进行自我优化。AlphaGo Zero只内置了围棋规则，但经过三天的自我训练，在进行了数百万次模拟对抗后，就能够打败人类训练的AlphaGo。

强化学习和GAN虽然在实验室环境展现了美好前景，但在现实世界中却很难操作。在输入、输出和交互方面，现实世界没有游戏那样的限制。有些人认为，AlphaGoZero的骄人战绩部分原因是围棋的特殊规则有利于GAN训练。此外，学习能力需要时间，在实验室模拟之外无法加速。最后，现实世界中失败可能会造成严重后果，而不是简单的吃一堑长一智。

当强化学习和GAN系统能够生成自己的数据而不依赖于所提供的数据时，它们才能发挥最大作用，但实际上，它们主要用于模拟与操作环境非常相似的场景中。这可能比最初设想的要常见，例如，可以通过强化学习训练机器人上下楼梯。

目前，最先进的机器学习是深度学习，算法层层叠加，形成人工神经网络。这些算法对运行中接收到的新数据不断进行训练，随着时间的推移，性能持续提高。他们边“工作”边学习，因此能够做出让人意外的紧急响应，无论好坏。相比之下，传统的无监督机器学习仍然依赖于原始的数据集训练。使用深度学习的人工智能系统在图像分类、语音识别和游戏对抗等方面的性能已经超越了人类。

深度学习的一个主要问题是可解释性低。IBM Watson物联网的首席数据科学家RomeoKienzler曾指出，“我们知道深度学习是有效的，而且效果很好，但我们并不完全理解这其中的原因或方式”。这种“可解释性问题”有时被认为是所有人工智能的共性问题，实际上主要是神经网络和深度学习的问题。许多其他类型的机器学习算法—例如决策树—具有很高的可解释性。矛盾之处在于，易于解释的人工智能输出的准确率要远远低于那些可解释性较低的输出。

第二波人工智能具有强大的感知和学习能力，能进行合理的分类和预测。然而，与第一波人工智能相比，第二波人工智能的推理能力很低，无法将在一个领域学到的知识转移到另一领域。第一波和第二波人工智能的优缺点意味着，与其说近期的第二波人工智能取代了之前的第一波人工智能，不如说创新方向已经转向新的人工智能形式。美国前国防部副部长Robert Work是人工智能的有力倡导者，他认为，这两种浪潮可以而且应该有效地结合起来：

以我们现有的计算能力，我认为，我们在第二波机器学习方面花了太多的精力，而在第一波专家系统上却缺乏足够关注，主要是因为它使用if/then逻辑，无须担心可解释性。它是内置于程序中的。问题出现后可以复现，让我们确切地了解发生了什么。（就美国海军拥有的）自主舰艇（而言），……你可以按下按钮，舰艇就能在诺福克和巴林之间自主航行。所有的（航海）规则都属于第一波人工智能，就是简简单单的if/then（如果/那么）。如果舰艇要靠港（靠岸）……（那么）你就要做出响应。但是需要在（驾驶台）摄像头中进行机器学习，只为了判断，“这是一艘集装箱船还是一艘帆船？它的速度是多少？”只有将机器学习和专家系统（合理）结合，才能实现这个目的……在第一波浪潮中，还有很多事情要做。

DARPA现在正在研究第三波人工智能，它可以随环境而变。人们设想，未来的这个第三次浪潮在训练时需要的数据要少得多，能够用自然语言交谈，需要极少的监督就能正常工作。这波人工智能将第一波和第二波人工智能结合起来，可以提供多种能力。

1.1.1 人工智能应用

与人类或更传统的人类编程、基于规则的计算机相比，当前的人工智能在解决某些特定问题上更能保证一致性。解决结果通常是概率性的，对问题的响应采用了置信度加权，结果未必总是相同。人工智能能够快速识别模式，检测隐藏在大量非结构化数据集中的项目，这一点非常重要，因为全球80%人口的数据都是非结构化的。从广义上讲，当前人工智能主要有以下五个功能：

•识别。对事物进行分类（例如，根据症状、指示和告警诊断问题），确定项目之间的关系（例如数据之间的关系）。图像和人脸识别、变化检测和图像地理定位都属于这方面的功能。

•分组。这涉及到聚类，即对所提供的数据进行分析，确定相关性和子集，例如，评估特定问题由哪些因素导致。生活模式分析就体现了人工智能的分组功能。

•生成。这一功能是指在接收到特定输入后创建图像或文本，例如，识别语音并做出适当响应。

•预测。指根据历史时间序列数据预测未来变化，例如，判断机器何时会出现故障的预测性维护。

•规划。为复杂活动使用数字模型，确定可能的结果，例如，进行作战模拟或为决策者提供假设分析。

这些任务长期以来由人类承担，但现在越来越多地借助于计算机完成。人工智能带来的增值是能促进任务更有效地完成，速度更快，不受能力所限，有时甚至完全不需要人力介入。人工智能带来的好处可以总结为效能、速度和可扩展性。

这些特性意味着人工智能系统被赋予更大的自主性，就像陆地自主车和机群那样。授予部分或全部自主权关键取决于执行特定功能时是否基于数据做出决策。人工智能使用算法分析数据，然后进行决策。从广义上讲，这意味着，首先，问题应可衡量，以便搜集相应数据，其次，这些问题可以简化为算法。许多问题都符合这两个标准。

1.1.2 人工智能的缺陷

在某些情况下，人类的解决办法可能比人工智能更好。有些智能机器相当脆弱，通常无法处理微小的环境变化。此外，它们的领域适应性较差，将一个环境中学到的知识应用到另一个环境中时显得比较吃力。此外，一般认为人类更擅长归纳，能够从有限的信息中得出结论。人类通常在具有高度不确定性的环境中能做出更合理的判断。

就技术缺陷而言，机器学习失败的最常见原因是训练数据不能充分反映人工智能遇到的真实情况。原因有很多。用于训练的数据可能比正常使用时实际观察到的数据质量更高。或者，人工智能拥有完整的数据，在实验室中能够学习并得出解决方案；但是，在现实世界中，有些输入数据可能会丢失、模糊、损坏或失真，从而产生处理错误。最后，虽然人工智能训练可能基于所有参与者或元素的完美信息，在许多真实世界的交互中，信息可能被有意或无意地隐藏，或者干脆未知。

人工智能训练失败也可能来自对抗性攻击。武装部队甚至平民个人都有可能试图欺骗机器学习人工智能系统。在这种情况下，愚弄人工智能算法比开发人工智能算法要省事得多。比如，设计各种主、被动方法来阻止个人使用面部识别人工智能系统。最近有项研究指出，保护人工智能机器学习有两种方法：（1）检测输入错误样本的攻击者，（2）改进训练阶段；其中后者更优。

机器学习人工智能还有一个固有的设计问题。如果训练数据未根据实际变化定期更新，则在现实世界中的性能通常会随着时间的推移而下降。这一特征被称为“概念漂移”，意思是，现实世界的数据经常表现为数据流，随着时间的推移会悄然变化；在此过程中，人工智能的机器学习会逐渐过时，分析输入数据时，准确性会越来越差。对于机器学习人工智能，软件工程老格言“软件永远都能改进”（Software is never done）仍然适用。

对于边工作边训练的人工智能系统（如自适应人工智能），这种逐渐退化的过程会越来越快。这种系统一开始运行良好，但随着反复再训练，一定会变得愈加不稳定。微软的实验性聊天机器人Tay就是这样，最初通过神经网络进行训练。

Tay上线后利用推特与公众在线互动，目的是通过这些互动进行机器学习，从而不断提高其性能。然而，推特上的水军利用攻击性的推文对Tay进行了再培训，导致Tay在回答一些问题时使用了种族主义俚语，表现出了极右意识形态。因为Tay的推文持续恶化，微软在16小时后关闭了它[9]。俄罗斯的搜索引擎Yandex也试验了一款类似的人工智能聊天机器人，名为“爱丽丝”。该款机器人像Tay一样，仅上线一天就变成了流氓[10]。

相反，使用单一固定数据集训练的人工智能提供了更多的可预测性，但正如前文所述，它无法管理环境变化。

这些人工智能缺陷带来的总体影响是，人类用户必须不断监测并验证人工智能系统输出，必要时还要更新系统。人类发挥着关键作用。迄今为止的理论研究表明，人们很难确知机器学习系统何时失败甚或是否能如期运行[11]，也并不十分清楚人工智能技术的故障模式[12]。因此，人工智能技术尚无法实现“傻瓜式应用”（Setand forget）。

1.1.3 大数据

2018年，德国总理默克尔说了那句很著名的话：“数据是21世纪的原材料。”[13]人工智能需要学习和处理数据，最后产生结果。从某种意义上说，数据是人工智能运行的燃料。

人工智能能够分析结构化数据和非结构化数据，提供关系、模式和关联信息。结构化数据经过组织，被输入关系数据库（如电子表格），用简单的算法就能方便、快速地搜索到。这些数据根据所使用计算机系统的要求进行了格式编排。物联网涉及分布广泛的各种传感器，许多会产生结构化数据，可随时进行机机交互。

相反，非结构化数据无法填入数据库的行和列中。非结构化数据文件包括电子邮件、文档、社交媒体、视频、图像、音频文件、演示文稿和网页。这些数据由人类或机器产生，例如无人侦察机和远程图像设备。

人工智能只有在训练后才能析非结构化数据。输入的数据越多，人工智能机器学习就会越可靠。除了数量，数据的质量同样重要。低质量的数据会误导人工智能，输出不可靠的结果。人工智能需要标准化、规范化、经过验证的丰富数据，并删除重复数据；这一过程的大部分属于“数据整理”（Data wrangling）这个大概念。2015年，美国国防部首次将数据的质量置于数量之上。

数据存储对于确保质量有一定的作用。即使数据存储在多个不同的系统中，也应该只有一个数据视图。要做到这一点，良好的数据卫生（Data hygiene）至关重要。数据应该干干净净，也就是说，基本上没有错误。与此相反，脏数据（Dirtydata）则包括冗余数据、错误数据、不完整数据和过时信息。组织需要制定复杂的数据策略来解决数据的可用性、搜集、卫生和治理问题。

清理数据的任务需要人类参与。数据清理工具对许多过程进行自动化，加快任务执行速度。然而，这些工具并无自主性，需要由熟练的数据科学家逐列指导。在数据清理过程中，由于未知的未知（Unknown Unknowns）而产生了更复杂的问题，数据集不同，问题也不同，因此不太适合使用自动化工具。因此，有特定数据集经验的数据科学家仍不可或缺[14]。

1.1.4 数据管理

要实现智能化，军队需要获得数据。军队历来都需要大量保存和存档记录，但大部分数据都保存在组织的一个个“孤岛”中，大多数人无法访问。由于无法确定搜集哪些数据供未来使用，这一问题变得愈加复杂。兰德公司在2020年的一项关于美国空军使用人工智能进行指挥控制的研究中指出：

对于数据，商业部门似乎……趋向于“ËÑ¼¯一切”。前提是，有些数据流可能包含未发现的相关性，并且难以预测未来的数据需求。随着作战构想的积极发展和测试，联合全域指挥控制（Joint All-DomainCommand and Control）的数据需求不断变化。为了满足未来的所有数据需求，空军需要采取“保存一切”的方法[15]。

鉴于存储成本急剧下降，这种保存数据的方法现在可以实现。最新的海量数据存储方法是将数据注入到“数据湖”（Data lake）中，这是一种低成本、大容量的计算环境，用于存储和管理非结构化和半结构化数据。在数据湖中，数据的用途尚未确定，即数据是“原始”的，尽管易于访问和更新。这些原始数据可用于人工智能机器学习。然而，数据湖需要数据科学家进行管理，确保适当的质量和治理措施到位，避免形成数据沼泽。

在硬件方面，数据湖是一个由互相连接的计算机组成的网络，提供存储和计算资源，形成用于数据收集和处理的中央存储库。分布式网络环境中的这种数据共享允许根据需要随时访问数据。

这项技术的应用产生了“数据结构”（Datafabric）这一概念，形象地说，就像是“一种覆盖了巨大空间的织物，将多个数据位置、类型和来源连接起来，并提供数据访问方法”[16]。数据结构体系构想了一个集成平台，支持数据管理，对数据的访问和使用不受数据的存放或产生位置所限。这种体系提供了统一的数据管理框架，允许跨存储进行无缝数据访问和处理[17]。

数据结构体系可以将业务功能重新组织和打包，实现企业级效果。数据结构能够支持组织进行快速重组，满足新的需求和环境。这些“可组合企业”设计能实现模块化、高效、持续改进和适应性创新[18]。

1.1.5 数据问题

机器学习人工智能通过学习训练数据集来学习。在此过程中，算法判断的是关于数据集而非外部世界的事实。如果数据集太小，那么人工智能对问题的理解可能有偏差或不完整。如果任务很复杂，使用了大型数据集，那么，需要做的决定会很多，人工智能可能无法判断轻重缓急，因而一视同仁。此外，由于各种原因，用于训练人工智能的数据集可能会有偏差，导致输出不太可靠。

在军事行动中，还有一些其他问题。随着战术形势的变化，数据的相关性可能会迅速下降，很快沦为“历史文物”。作战环境千变万化。有时，只能获取稀疏数据集，为人工智能提供有限的训练数据，使其性能难以确定。此外，刚刚搜集到的数据很难立刻用于训练人工智能，或者没有足够的时间利用新数据。

数据本质上是第二波人工智能的问题。使用机器学习技术搜集、标记和清理训练人工智能所需的数据通常需要大量时间，成本一般很高[19]。

1.2支撑技术

1.2.1 云计算

许多数字技术连接到云，从外部来源而不是设备本身的硬盘上存储、访问数据和程序。上世纪90年代末，积云图用来表示互联网，因此，通过互联网访问服务就被比喻成“云”。

云原生计算对人工智能特别重要，因为人工智能系统内部通常无法满足机器学习需要的数据和处理能力。事实上，从美国空军人工智能实施中得到的一个重要经验是，高质量的人工智能学习需要将最新数据快速放入云中，以便随时访问，而不是慢腾腾地手动输入。

有了云数据存储，人工智能计算机的位置似乎不再重要，而连通性则成了关键动力。然而，在某些情况下，数据主权、频谱可用性和数据延迟可能会为这种存储方式带来麻烦。不仅如此，当前的一些云存储技术并没有针对人工智能机器学习技术进行优化。私有、公共、国内、国际、人类和机器等各种来源的数据以及机密数据会被实时访问，对其进行清理、标准化和规范化必然存在挑战。此外，军事云是一种特殊的挑战，因为在恶劣的电子对抗环境中，必须保证它们的可访问性。

在大型组织中，有一种趋势是各部门分别部署自己的云，每个云具有不同的数据格式、访问程序和授权用户。但是，若没有单一的通用企业云，数据就不能自动与所有人共享，安全补丁无法完全分发，新软件也不能广泛集成。美国联合人工智能中心负责人评论美国国防部打造企业云的工作时指出，“没有企业云，人工智能就形不成规模，仍然只能是一系列小型的封闭项目”[20]。

1.2.2 物联网

物联网是一个大规模的互联设备（物）网络，机器之间在没有人类干预的情况下进行信息交换。在民用领域，联网设备迅速增加，预计将从2018年的70亿增加到2021年的350亿[21]。其中多数为运动传感器、恒温器、照明、仪表和成像设备等简单设备；更复杂的设备包括智能电视、音箱和电器、可穿戴设备、工业机器人、无人机、自动驾驶车辆以及军事领域的武器。

物联网网络允许远程监控，会生成大量数据。例如，空客A-350客机有大约6000个传感器，每运行一天产生2.5TB的数据。将物联网网络连接到实时分析数据的边缘设备，将最重要的信息转发到云中，删除其余信息，可以降低存储和带宽成本[22]。

这种边缘计算将部分数据处理能力放在网络边缘而不是放在遥远的集中云设施中，解决了云性能问题，例如延迟、连接、隐私、安全、带宽和拥挤及有争议的电磁环境。然后，可以在数据的来源处或附近进行计算，而不是依赖于远程的集中云设施。边缘设备也常常充当不同网络（即不同的云）的入口或出口。

当前，大多数边缘计算用人工智能芯片完成。这类芯片体积小，相对便宜，耗电低，发热少，易于集成到手持设备（如智能手机）和非消费设备（如工业机器人）中。虽说如此，在未来的实际应用中，人工智能计算一般会以设备云的方式混合使用。选择什么样的混合方式取决于人工智能处理类型。

例如，带有人工智能芯片的低成本无人机使用机器学习算法来发现海中冲浪的人是否深陷险境或有鲨鱼靠近，而无需通过无线方式连接到云[23]。这些无人机装有智能手机片上系统（system-on-a-chip）应用处理器，具有处理、图形、内存、连接和人工智能等功能。

物联网网络可以由固定和移动设备组成，包括无人机。移动设备可以组成群，相互协作。有两种主要设计方法。比较简单的是集中式系统，用一个中心组件（机器人或外部计算机）协调所有机器人及其任务。虽然集中式系统简单直接，但很难扩展，因为增加机器人就会增加中心站的处理负载。此外，系统本身并没有充分利用每个机器人的计算能力。对于军用来说，最严重的问题是中心部件是单点故障。所以说，集中式系统缺乏稳健性[24]。

另一种方法是机器人之间直接交换无线信息，或采用间接方式，将信息传递到环境中。这种分布式方法天然具有稳健性，没有单点故障。一个机器人出现故障，机群的整体性能只会有同等程度的降低。此外，分布式方法更具灵活性和扩展性。如果不需要使用整个机群，可以将机器人分成更小的群组，执行不同的任务。相反，如果当前机群中的机器人数量无法满足任务需要，可以方便地添加其他机器人[25]。

美国国防高级研究计划局（DARPA）设计的“马赛克战”概念将人工智能和一些相关技术结合在一起。在这种架构下，部署在战场上的物联网是异构系统，大致分为传感器、武器和判定元件。最关键的是，这些网元彼此之间都可以通信，还能通过云与总指挥控制系统进行通信。

现代军队使用的攻击链模型与感知-决策-行动逻辑流程紧密结合。相比之下，在“马赛克战”概念中，大型物联网中的数据流形成了一个攻击网（Killweb），在这一网络中，可以近乎实时地选择并采用实现任务的最佳路径。物联网领域中充斥着动态变化的数据流，而不是像攻击链模型所示的一成不变。因此，“马赛克战”概念为指挥官提供了包含冗余节点和多个攻击路径的高弹性网络。此外，马赛克概念旨在实现扩展性，以便物联网的规模和网元根据战场环境的需要进行增减[26]。

要实现“马赛克战”概念，物联网网元需要人工智能边缘计算。此外，总指挥控制系统需要使用人工智能来支持人类指挥官控制战斗。在这个不断变化的、包含大量异构元素的网络上，确定最佳通信链路和数据流具有相当大的技术复杂性，在这一网络中，各元素之间需要通过通信系统传输数据，在技术上存在挑战。

参考文献

[1]DanielS. Hoadley，Kelley M. Sayler.人工智能与国家安全：2020年11月10日更新（华盛顿特区：国会研究服务部，2020），2.https://crsreports.congress.gov/product/pdf/R/R45178/10

[2]国防部长办公室.提交国会的年度报告：涉及中华人民共和国的军事和安全发展（华盛顿特区：国防部长办公室，2020），16.https://media.defense.gov/2020/Sep/01/2002488689/-1/-1/1/2020-DOD-CHINA-MILITARY-POWER-REPORT-FINAL.PDF

[3]AlinaPolykova的《弱者的武器：俄罗斯和人工智能驱动的不对称战争》中引用的普京总统原话，[报告]，人工智能和新兴技术倡议，布鲁金斯，2018年11月15日在线发布.https://www.brookings.edu/research/weapons-of-the-weak-russia-and-ai-driven-asymmetric-warfare/

[4]JuricaDujmovic.搭载人工智能的美国海军无人舰“海上猎人”号.MarketWatch，2019年7月3日.https://www.marketwatch.com/story/drone-warship-sea-hunter-of-the-us-navy-is-powered-by-artificial-intelligence-2019-07-03

[5]国防高级研究计划局.AlphaDogfight试验预示着人类与机器共生的未来（华盛顿：国防高级研究计划局，2020年8月26日）.https://www.darpa.mil/news-events/2020-08-26

[6]Sydney J. Freedberg Jr.用人工智能和机器人碾压敌人.防务快讯（Breaking Defense），2019年12月19日.https://breakingdefense.com/2019/12/ai-robots-crush-foes-in-army-wargame/

[7]国防部长办公室.提交国会的年度报告，161,142–143.

[8]NikolaiMarkotkin，ElenaChernenko.俄罗斯的人工智能发展：目标与现实.卡内基莫斯科中心，2020年5月8日.https://carnegie.ru/commentary/82422

[9]Sarah Perez.在被推特用户教会种族歧视之后，新款人工智能机器人Tay惨遭微软关闭【更新】.科技危机（Tech Crunch），2016年3月25日.https://techcrunch.com/2016/03/24/microsoft-silences-its-new-a-i-bot-tay-after-twitter-users-teach-it-racism/

[10]Natasha Lomas.另一人工智能聊天机器人再次大放厥词.科技危机（Tech Crunch），2017年10月25日.https://techcrunch.com/2017/10/24/another-ai-chatbot-shown-spouting-offensive-views/

[11]AIM实施团队.AIM倡议，11.

[12]人工智能的下一次战役.国防高级研究计划局，2020年1月9日查阅.https://www.darpa.mil/work-with-us/ai-next-campaign

[13]安吉拉·默克尔.联邦总理在2018年1月24日达沃斯世界经济论坛年会上的讲话.联邦政府，2018年，录音文字记录，第13段.https://www. bundesregierung.de/breg-en/chancellor/speech-by-federal-chancellor-angela-merkel-at-the-world-economic-forum-annual-meeting-in-davos-on-24-january-2018-455144

[14]Sherril Lingel等人.现代战争的联合全域指挥控制：识别和开发人工智能应用的分析框架（圣莫尼卡：兰德公司，2020），37–38. https://www.rand.org/pubs/research_reports/RR4408z1.html.

[15]Lingel等人.35–36.

[16]Talend.何为数据结构？第3段，2020年1月9日查阅.https://www.talend.com/ resources/what-is-data-fabric/

[17]Gartner发布了2019年10大数据与分析技术趋势.Gartner，2019年2月8日新闻报道.https://www.gartner.com/en/newsroom/press-releases/2019-02-18- gartner-identifies-top-10-data-and-analytics-technolo

[18]KaseyPanetta.5大趋势推动Gartner新兴技术成熟度曲线.Gartner,2020年8月18日.https://www.gartner.com/smarterwithgartner/5-trends-drive-the-gartner-hype-cycle-for-emerging-technologies-2020/

[19]人工智能的下一次战役.

[20]Sydney J.Freedberg.大战争的大数据：绝地与中俄之战.防务快讯（Breaking Defense），2019年8月12日.第7段.https://breakingdefense.com/2019/08/big-data-for-big-wars-jedi-vs-china-russia/

[21]Gilad David Maayan.2020年物联网概要：统计、风险和解决方案.今日安全（Security Today）,2020年1月13日.https://securitytoday.com/Articles/2020/01/13/The-IoT-Rundown-for-2020. aspx?p=1

[22]Duncan Stewart等人.将人工智能引入设备：边缘人工智能芯片大放异彩，德勤洞察（Deloitte Insights），2019年12月9日. https://www2.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2020/ai-chips.html

[23]Nabin Sharma，Michael Blumenstein.结合人工智能和无人机技术的鲨鱼侦察机在澳大利亚海岸用于发现鲨鱼并帮助游泳者.对话（The Conversation），2018年9月28日.https://theconversation.com/sharkspotter-combines-ai-and-drone-technology-to-spot-sharks-and-aid-swimmers-on-australian-beaches-92667

[24]MordechaiBen-Ari，FrancescoMondada.机器人学原理（Cham:SpringerOpen，2018），252.

[25]Ben-Ari，Mondada.机器人学原理，252.

[26]Bryan Clark，Daniel Patt，Harrison Schramm.马赛克战：利用人工智能和自主系统实施以决策为中心的作战（华盛顿：战略与预算评估中心，2020年），27–32.https://csbaonline.org/uploads/documents/Mosaic_Warfare_Web.pdf；David A.Deptula等人.恢复美国的军事竞争力：马赛克战（阿灵顿：米切尔航空航天研究所，2019），4，7–8，32.

原文链接：

https://tasdcrc.com.au/wp-content/uploads/2021/02/JSPS_4.pdf

关于小蜜蜂翻译组公益译文项目

小蜜蜂翻译组公益译文项目，旨在分享国外先进网络安全理念、规划、框架、技术标准与实践，将网络安全战略性文档翻译为中文，为网络安全从业人员提供参考，促进国内安全组织在相关方面的思考和交流。

内容编辑：英文翻译组责任编辑：高深

机器学习神经网络深度学习人工智能数据湖

0 人点赞