OpenAI成功的背后，鲜为人知的游戏训练史

2022年，OpenAI旗下ChatGPT横空出世，人工智能再次成为全球瞩目的焦点。ChatGPT的成功得益于OpenAI团队在人工智能大语言模型和强化学习领域持续不断地投入、探索和创新。但鲜为人知的是，在OpenAI不断迭代升级的过程中，电子游戏也曾发挥过举足轻重的作用。早期的OpenAI 曾在2019年打造出名为OpenAI Five的游戏AI，并成功击败了两届DOTA2国际邀请赛的世界冠军OG战队（恭喜OG！）。

前几天，来自斯坦福大学和谷歌的研究人员也构建了一个名为Smallville的2D虚拟游戏场景，并将25个基于ChatGPT的AI智能体置于该游戏场景中进行训练，研究发现25个AI智能体实现了对人类行为的可信模拟，他们不仅能够相互交谈，还能够与自身所处环境互动，记住并回忆它们所做的和观察到的事情，并作出相应决策。[1]

那么，为什么OpenAI会选择电子游戏作为训练和测试AI模型，电子游戏对于AI的发展究竟意味着什么？

鲜为人知：Open AI团队为AI打造专属“游戏训练”平台

在展开OpenAI与DOTA2的故事之前，不妨简要回顾下电子游戏与OpenAI那段鲜为人知的历史，或许能够帮助我们更好的理解电子游戏与OpenAI之间的关系。

成立于2015年12月美国旧金山，OpenAI最初是一个由小团队组成的非盈利性质的人工智能实验室，其目标是通过与其他机构和研究者的“自由合作”，向公众开放AI专利和研究成果。OpenAI在成立之时并未获得太多关注，在成立一年后（2016年12月），OpenAI对外发布了首款产品基于电子游戏的AI测试平台“Universe”。这是一款能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台，其发布时间甚至早于第一代GPT（基于转换器的生成式预训练模型）产品。

OpenAI 的Universe是一个训练 AI 通用智能水平的开源平台，由微软、英伟达等公司参与建设，其中包含多达1000多种游戏训练环境，主要包括了各类Flash游戏、Atari 2600游戏，以及《GTA 5》等PC游戏。OpenAI研究人员介绍说，Universe平台最初是从李飞飞等人创立的ImageNet数据库项目中获得启发，希望把ImageNet在降低图像识别错误率上的成功经验引入到通用人工智能的研究上来，取得实质进展。[2]

图1 OpenAI Universe平台

对于OpenAI而言，打造Universe的最终目标是训练出一个“通用人工智能”，可以灵活地将在训练环境中积累和掌握的经验快速应用到陌生、困难的环境。

当时的人工智能发展已经在“听、说、看”感知智能取得了一定突破，基于强化学习的AlphaGo也刚刚击败了人类围棋世界冠军，但在OpenAI团队看来，这些突破依旧没有跳出“弱人工智能（Narrow AI）”的范畴，并不具备理解问题的和解决问题的能力。[2]

OpenAI团队认为，要想让人工智能具备这种能力，就必须将其置于更为广泛和复杂的环境中进行训练，只有通过不断的训练，才能让人工智能发展出可以有效迁移复用的知识和问题解决策略，而电子游戏就是这个“训练环境”的绝佳选择。[3]

最佳陪练：OpenAI从DOTA2中学到了什么？

事实上，早在2017年的DOTA2国际邀请赛上，OpenAI的智能体已经能在1v1比赛中击败过顶尖人类职业选手；在2018年DOTA2国际邀请赛上崭露头角，与人类玩家组成的职业战队过招；而到了2019年4月，OpenAI对外宣布旗下的智能体项目OpenAI Five已经能够在5V5的比赛中击败DOTA2世界冠军OG职业战队，成为了首个击败电子竞技游戏世界冠军战队的AI系统。

OpenAI团队为什么要选择DOTA2作为训练环境呢？在开发OpenAI five之前，OpenAI团队一直在探寻如何让AI在深度强化学习方向上实现突破，创造性地提升智能体的效率。当时，一般强化学习（RL）的研究人员倾向于认为，如果想让智能体在长时间游戏中表现出色，就难免需要一些根本上的新突破，比如采用Hierarchical Reinforcement learning（分层强化学习）的方式，即将复杂问题分解成若干子问题（sub-problem），通过分而治之(divide and conquer)的方法，逐个解决子问题从而最终解决一个复杂问题。[4]

而以规则复杂、要素众多、环境多变，同时也是全球拥有超高人气的电子游戏DOTA2，顺理成章地成为了OpenAI的首选，正如OpenAI团队所言“相比标准的RL开发环境，DOTA2显得更加有趣，也更加困难。但是，如果一个AI能在像DOTA这样复杂的游戏里超越人类水平，那这个AI本身就是一个里程碑。”相较于AI之前在国际象棋和围棋里取得的成就，像DOTA2这类复杂的游戏能更好地捕捉现实世界中的混乱和连续性，使其训练出的AI能够拥有更好的通用性，使之更有可能应用于游戏之外的人类社会。

为了战胜DOTA2人类职业战队，OpenAI 团队进行了长达数年的努力，详细拆解游戏中各类复杂规则和问题，并依次不断调整优化AI模型。

DOTA2的游戏内容十分丰富，而且还存在“战争迷雾”设定，即单位和建筑物只能看到它们周围的区域，地图的其余部分被迷雾所覆盖，AI需要根据不完全信息进行推断，而国际象棋和围棋则都是全信息游戏。下图是OpenAI Five使用的观察空间和动作空间的交互式演示，它把整张地图看做一个有2万个数据的列表，并通过8个列举值的列表来采取行动[5]：

图2 OpenAI Five决策过程

在OpenAI战胜DOTA2 Ti冠军OG战队时，OpenAI Five团队使用的训练计算量比2018年的版本增加了8倍，并在10个实时月内经历了大约4万5千年的DOTA2游戏，平均每天的游戏量相当于人类玩家250年的积累。[6]

在战胜人类世界冠军之后的总结中，OpenAI团队提及他们在DOTA2中的训练环境中，学到了最重要的一点是：如果想要提升智能体的性能，其根本并非要实现训练方法的突破，而是要不断扩大规模。如果规模够大、结构够合理，AI依旧可以表现出强大的能力。正如OpenAI首席科学家Ilya Sutskever 所言“我们坚信越大越好，OpenAI 的目标就是扩大规模。”[7]

OpenAI在DOTA2上的尝试，为AI强化学习效率提升提供了方向，这些都成为了ChatGPT的养分。在Ilya Sutskever看来，“通过DOTA2的训练，OpenAI的学习模式从“强化学习”转变为了“基于人类反馈的强化学习（RLHF）”,而这些与GPT技术的结合，才最终塑造出了ChatGPT。”[8]

未来之路：AIGC 助力游戏内容生产

如今，伴随着以ChatGPT为代表的AIGC技术的成熟，AI也开始反向助力游戏的内容生产。ChatGPT真的能辅助游戏制作吗？首先，不妨让我们来听听ChatGPT自己的回答：

GPT-4可以在多个方面辅助游戏制作。以下是一些具体的应用场景[9]：

1、游戏剧本和故事创作：GPT-4可以生成故事情节、角色设定和对话，为游戏制作提供创意灵感。

2、任务和关卡设计：GPT-4可以根据提供的游戏类型和主题生成任务、关卡设计和谜题，帮助设计师更高效地制作游戏内容。

3、人工智能NPC：GPT-4可以生成自然的对话和反应，使得游戏内的非玩家角色（NPC）更加真实、有趣。

4、自动生成游戏文档：GPT-4可以帮助制作团队编写设计文档、技术文档和测试用例等，提高生产效率。

5、游戏本地化：GPT-4支持多种语言，可以辅助游戏的翻译和本地化工作，让游戏能够更好地适应不同地区的市场。

6、社区管理和客户支持：GPT-4可以帮助回答玩家的问题、解决技术问题并对玩家反馈进行分类和总结，提高客户支持的效率和质量。

7、游戏内文本和资源生成：GPT-4可以帮助生成游戏内的文本，如物品描述、任务说明等，减轻游戏开发者的负担。

8、测试和质量保证：GPT-4可以帮助分析游戏的错误报告，确定可能的问题来源，以及为开发团队提供修复建议。

9、创意概念和美术设计：虽然GPT-4主要以文本处理为主，但它可以为美术设计团队提供创意概念和设计建议，有助于创造独特的游戏视觉效果。

通过与游戏制作团队的协作，GPT-4有望提高游戏开发的效率、创新性和质量。当然，GPT-4仍然是一个AI辅助工具，它不能完全替代人类的创造力和专业知识。在实际应用中，开发者需要根据自己的需求和项目特点，合理地利用GPT-4的能力。

看完以上GPT-4的回答，不禁会想问ChatGPT回答真的能够在现实中实现吗？目前来看，ChatGPT的确可以制作一些简单的数字游戏，但对于制作3A游戏大作而言，显然有些捉襟见肘。

Digital Trends的一份新报告详细介绍了如何使用流行的对话和脚本生成器来创建可玩的PC游戏。报告指出，只需来自用户的几个简单提示，ChatGPT就发明了自己的基于数学的逻辑益智游戏。不仅如此，它还生成了一些简单的游戏代码，后来变成了一款令人上瘾的免费浏览器游戏，已经在网上引起了一些轰动。但是，当被问到是否可以制作出像《最后生还者》(The Last of US)这样的3A游戏大作时，ChatGPT显然有些“茫然”，只能够简单吐露出一些故事情节，无法为游戏生成代码。[10]

图3 ChatGPT自动生成简单的数字游戏

虽然对于游戏复杂规则的设计、代码的编写等工作，在短期内依旧需要依靠人工来解决，但是以ChatGPT为代表的人工智能，已经能够帮助游戏开发者们生成对话、脚本和其他数字资产，提升游戏开发者的工作效率，帮助游戏开发者们简单地填充虚拟的游戏空间，缩短游戏制作的周期。

而随着AIGC技术发展，游戏AI智能体（决策智能）也会随之不断迭代升级。正如文章开头提及的斯坦福和谷歌团队训练的AI智能体，其已经能够基于大模型实现一些简单的决策，而生成式智能(AIGC)和决策智能的结合，将打开通用人工智能的大门。

可以预见的是，未来AI与游戏的发展势必会更加紧密的联系在一起。现实中，已经有越多越多的人们意识到游戏与人工智能的共生关系：2023年3月25日出版的最新一期《经济学人》刊文，认为游戏在21世纪全球流行文化及国际竞争中扮演重要地位。在系列报道中，《经济学人》也为AI 技术的革命和普及，将会带动“用户自制游戏的兴起”，“人工智能技术的发展将允许开发者用简单的文本、语音指令创建交互式3D模型”，极大降低游戏制作的门槛。Omdia发布的2023年技术趋势展望报告中，也将“游戏科技（GamesTech）”列为最值得关注的技术趋势之一，并认为游戏AI将成为2023年游戏开发中最受关注的热门技术话题。[11] 此外，在中国音数协游戏工委、中国游戏产业研究院与多家单位合作推出《游戏科技能力与科技价值研究报告》中，面向游戏与电子通信、硬件制造等领域的行业调研数据显示，81%的受访者认同游戏促进了AI技术的发展。

在OpenAI Five之后，包括索尼、腾讯在内的多家科技公司都开始基于游戏训练AI智能体。前者基于《GT赛车》游戏创新了AI强化学习算法，研究成果登上《Nature》杂志封面；后者基于《王者荣耀》游戏开发出AI开放研究平台“开悟”，助力构建产学研体系。

回到文章的开头，OpenAI团队选择游戏训练AI的初心是想要打造出“通用人工智能”。而对于通用人工智能的发展而言，目前以ChatGPT为代表的大语言训练模型，让人们窥见到了AGI（通用人工智能）的未来图景，而以游戏AI为代表的决策智能，以及游戏提供的绝佳AI训练场，也正在加快AI走向通用的进程。

我们期待未来的AI能够与游戏在实现“通用人工智能”的道路上携手共进，为人类社会的发展带来更多美好的期待。

感谢腾讯AI Lab danierdeng，腾讯研究院田小军、胡璇等多位老师在本文写作过程中给予的支持与帮助！

参考资料来源:

[1]Source:https://www.businessinsider.com/ai-avatars-let-loose-in-virtual-town-display-beginnings-agi-2023-4

[2]Source：https://openai.com/research/universe

[3]Source：https://openai.com/research/universe

[4]Source：https://openai.com/research/openai-five

[5]Source：https://openai.com/research/openai-five

[6]Source：

https://openai.com/research/openai-five-defeats-dota-2-world-champions

本文作者：

王枢腾讯研究院研究员

人工智能游戏强化学习 openai 模型

0 人点赞