新智元报道
编辑:好困 桃子
【新智元导读】见过学霸打王者的样子吗?这不,清华、中科大、耶鲁等世界12所顶尖高校学霸集结,一来打王者,二来搞科研。
之前凑在一起「打王者」的学霸又来了!
成都大运会开幕在即,「世界大学生数智竞技邀请赛」正式启动。
国际级规模的大赛共邀请了12支队伍(包含中国大陆地区4所高校、中国港澳台地区及海外8所高校)参加。
每支队伍都需要训练三位英雄,并在之后让自己的AI进行「3V3」的对战,而获得冠军的团队可获得高达20万的奖金。
在此前的1V1中,各大高校的AI各种「骚操作」不断。
比如,丝血完成反杀之后,又闪现进塔的蓝方貂蝉。
在这背后默默提供支持的,正是以「强化学习」为基础,《王者荣耀》和腾讯AI Lab共同研发的AI开放研究平台 —— 开悟。
不过,为什么是强化学习?
强化学习和游戏有什么关系?
强化学习(Reinforcement Learning)是除了监督学习和非监督学习之外的第三种基本的机器学习方法。一定程度上,一些复杂的强化学习算法在具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平,算是现阶段人工智能领域研究中的一门「必修课」。
举个例子,不知道大家还记不记得曾经风靡一时的Flappy Bird吗,这其实就是一个典型的强化学习场景:
1. 智能体——小鸟
2. 与智能体进行交互的「环境」——参差不齐的水管
3. 智能体可能做出的「动作」——向上飞一下或者什么都不做
4. 智能体采取的行动所遵循的「策略」——为躲避水管而采取行动的概率
5. 智能体在采取行动时得到的「奖励」——飞得越远得分就越高
环境会给智能体一个观测值,智能体接收到环境给的观测值之后会做出一个动作, 这个动作给予一个奖励,以及给出一个新的观测值。智能体根据环境给予的奖励值去更新自己的策略。
最终,智能体能通过强化学习找到一种方法,使自己从系统的每个状态中提取的平均价值最大化。
虽然早在上世纪50年代,强化学习的相关理论就已经开始成形。但真正走入到大众的视野之中,还是要靠着「游戏」。
2016年1月,DeepMind的围棋AI——AlphaGo登上《Nature》封面:Mastering the game of Go with deep neural networks and tree search(通过深度神经网络和搜索树,学会围棋游戏)。
通过利用强化学习的Value Networks(价值网络)和 Policy Networks(策略网络),AlphaGo可以实现棋盘位置的评估,以及步法的选择。
两个月后,AlphaGo在和李世石的对战中实现惊天逆转,取得胜利。
看到AlphaGo的成功,OpenAI直呼厉害!
于是在2016年11月,OpenAI Five正式立项。
虽然相比于更加正经的围棋来说,玩《Dota 2》的OpenAI Five感觉完全是在「不务正业」。但实际上,后者的难度其实要高得多:
OpenAI Five需要从8000到80000个动作中做出选择,其中每一步还需观察约16000个值。相比之下,国际象棋中平均的可行动作是35个,围棋是250个。
经过近3年的训练,OpenAI Five在2019年以2:0击败了世界冠军团队。
同年,DeepMind也祭出了自己潜心打造的AlphaStar,在《星际争霸2》中以5比0的比分,击败了顶尖的职业级玩家。
当然,除了利用已有的游戏场景训练强化学习智能体以外,也可以从0打造「训练基地」。
2021年,在斯坦福教授李飞飞的带领下,研究小组创建了一个计算机模拟的「游乐场」——DERL(深度进化强化学习)。
在这篇刊登在《自然通讯》上的论文中,团队设置了一个虚拟空间,并将简单的模拟生物放入其中。当然,这些生物只是一些通过「随机方式」进行移动的「几何图形」(Unimal)。
这些Unimal生长在不同的星球中,星球中充满了「起伏的山丘」和「低矮的障碍物」,他们在更加激烈的环境中展开竞争。
Unimal必须通过这些多变的地形,并将一个块状物移动到目标位置,而只有胜者才能继续产生后代。
李飞飞的这项研究也位学界带来了一种新的思路:当我们不知道该如何设计执行特殊任务的机器人时,不妨在强化学习的环境中让它们自己「进化」出合适的形态。
说到这里其实已经不难看出,不管是顶级的公司,还是大学的教授都在利用游戏 强化学习的形式来探索人工智能新的边界。
在如此重要的领域里,怎么能少了中国团队的身影。
于是乎,王者荣耀AI正式发布。
与《Dota2》和《星际争霸2》类似,在《王者荣耀》中玩家的动作状态空间高达10的20000次方,远远大于围棋及其他游戏,甚至超过整个宇宙的原子总数(10的80次方)。
王者荣耀AI产品可以分为两个部分:「打游戏」的王者绝悟以及「造绝悟」的开悟平台。
王者绝悟,简单来说就是《王者荣耀》版的OpenAI Five或AlphaStar,它是《王者荣耀》与腾讯AI Lab共同探索人工智能在游戏场景应用而推出的「策略协作型AI」。
其中,「策略」指的是AI能够通过获取到的信息,分析局势优化策略,做出更有利于获胜的行为。「协作」则指操作游戏内多个智能体(即多个不同的英雄)互相配合,协同推进博弈。
在2018年对战顶尖水平的非职业战队时,王者绝悟就表现出即时策略团队协作能力。
在对方团灭后,兵线还尚未到达,下路高地塔还有过半血量,王者绝悟果断选择四人轮流抗塔,无兵线强拆。
不过,在训练这些AI之前,首先得有一个可供训练的平台。
对于DeepMind和OpenAI来说,只需稍稍发挥一下自己的影响力就能在现成的游戏平台上开启「深度合作」模式。
然而,对于普通的研究者来说,想要在这些游戏上做研究就只能调用开放的接口了,体验上来讲肯定要差许多。
不过,以《王者荣耀》为模拟环境的开悟平台就不一样了,虽然也是基于游戏,但却是开放的。
再结合上算法、 数据、算力的优势,开悟平台可以为学术研究人员提供一个全栈打通的闭环科研验证环境。
除了可以提供「AI 游戏」的研究场景,以及大规模弹性算力来支撑AI的研究外,还有统一的强化框架来加速研发。
不仅如此,开悟平台还会提供通用的训练和推理服务,进一步加速AI的训练。
比如开篇提到的去年《王者荣耀》开悟AI赛事的1V1比拼中,清北、中科院、浙大等20余所高校,借助开悟平台提供的算法、算力、数据、场景等资源,训练出了自己的AI模型。
也许在观众看来,双方的比拼是一场操作水平的竞技。但是实际上,这是强化学习技术层面上的角逐 —— AI是如何应用大策略,比如何时进攻、何时撤退、在哪埋伏;以及微观数据判断 —— 比如血量的计算、出装、技能CD计算等等。
如果没有开悟平台的话,也许这些表面是电竞比拼,实际是科技水平对决的精彩比赛也就不复存在了。
但,可能又会有新的疑问出现了。
为何要在游戏中研究人工智能?
其实答案很简单。
最直接的原因就是AI可以构建建更动态有趣的游戏环境和更灵活多变的游戏角色,提升游戏制作效率和玩家的游戏体验。
当然,更重要的意义是将人工智能技术应用于诸如医疗、制造、无人驾驶、城市管理等现实生活中的领域。
而游戏则为AI技术研发提供了具有明显优势的虚拟实验环境:
- 提供易于量化的训练和评估指标
游戏中的等级、血量、经济等等,都有助于为AI设定任务目标,同时还能为检验AI能力提供统一的验证评估标准。
- 难度接近甚至超过很多现实任务
比如《王者荣耀》需要分析存在战争迷雾的游戏环境,还需要预测敌方的行为,更需要友方的互相协作。在这样的环境中成功研发的AI技术在学习解决复杂的现实任务时会更加得心应手。
- 更快的速度、更低的成本
不同于现实任务,游戏环境的一切都发生在计算机系统内部,因此在这个环境中进行开发的成本要低得多,而且也能以更快的速度大规模并行式地进行训练。
- 更多场景、更加安全
游戏可以AI模型提供各种各样,甚至是十分危险的场景模拟,比如为自动驾驶AI构建横穿马路的行人,或者各种极端的天气等等。
看起来不太直观?
不如,我们在现实世界中尝试一下用强化学习训练智能体开车吧。
由于模型的初始参数时随机的,所以智能体最开始经常一脚油就带着车冲向了路边的篱笆上,研究人员不得不赶紧把方向打回来。
基于人工的干预,智能体便得到了自己动作的「奖励」,知道这样操作是不对的。
还好整个过程有惊无险,而智能体的操作也逐渐娴熟了起来。
在经过11次训练之后,终于学会了沿着道路行驶。
当然了,这只是研究人员做的一个实验,真正可用的AI可不能这么训练。
不过,如此一来也可以看出,直接在现实中训练AI不仅十分耗时,而且场景不能太复杂,毕竟万一反应不及时,这「成本」就太高了……
虽然,强化学习在理论上具有诸多优势,但实际的落地却并没有像深度学习那样轰轰烈烈。即便如此,也已经在不少领域取得了进展。
比如在工业方面,南京大学的俞扬教授带领团队利用强化学习实现了汽车的检验。
汽车上市之前需要调参数,这其中涉及到很多仿真,通常需要几十年的经验积累。
而俞扬团队花了大概两个月的时间,整理清楚了数据和流程,以及发动机该怎么控制。虽然对行业一无所知,但有了这个数据以后,强化学习自己把发动机模型、整车模型全部建立了出来。
经过两次测试,每一次所有排放都在降低,而且这个降低的值是完全无法通过传统的人工调整达到的。
除了这些看得见摸得着的原因之外,强化学习还承载起了研究人员的一个美好的「梦想」:通用人工智能(AGI)的诞生。
AGI会在游戏里诞生吗?
AGI的最终目标是终结者中的「天网」吗?绝对不是!
正如AI发展的终点是为了人类更加美好的生活,AGI同样如此。当机器能够拥有和人类一样智能的那天,万事都变得简单了。
然而,对于应该如何实现这一目标,虽然各路专家们还无法完全达成一致,但肯定不是监督学习。
于是剩下的两个分支自然也就形成了:以Meta(LeCun)为首的自监督学习派;以DeepMind和OpenAI为首的强化学习派。
2021年6月,DeepMind首席研究科学家、伦敦大学学院教授David Silver在题为「Reward is enough」的论文中指出,人工智能及其相关能力不是通过制定和解决复杂问题而产生的,而是通过坚持一个简单而强大的原则:奖励最大化。
简而言之,Silver等人认为,智能的定义是使奖励最大化的能力,同时奖励的最大化也可以用来来解释智力以及通用人工智能的出现。
但是在我们到达AGI之前,没人知道答案是什么。
因此,在这个时候,做再多的尝试也不为过。
而开悟平台的出现,也让感兴趣的研究人员们可以更容易地接触到强化学习。
其中的开悟平台以「AI 游戏」为切入,让越来越多的人可以参与到探讨和研究之中,并进一步将在该游戏测试环境中探索得到的新技术和新方法,应用于日常生活中的现实问题。
目前,以开悟为平台基础,两届「腾讯开悟多智能体强化学习高校邀请赛」已经成功落地,国内20 名校积极响应,成为国内高校顶级AI竞赛。
通往AGI没有唯一路径,随着入局者的增加,AGI这个领域的最终命题也许可以找到更多通道。
而借着大运会「智慧大运」东风,即将举办的「世界大学生数智竞技邀请赛」正是提供了这样一个更具影响力和更具国际化的舞台,从而吸引到来自各地的AI人才加入。
毕竟,AI行业里流传着这么一句话:「下一个AI的里程碑,很有可能会在复杂游戏里诞生」。
当更多人参与到开悟平台所搭建的王者荣耀AI赛事中的时候,我们与那个电影中构想的未来就又近了一步。
以开悟平台为载体,王者荣耀AI赛事此前已经举办了2届高校赛。此次的大运会上,大运会执委会和《王者荣耀》还宣布了「开悟AI多智能体博弈」和「王者荣耀世界高校电竞」两条赛道。
看得出来,做AI,《王者荣耀》是认真的。
此外,邀请赛进入大运会还能够促进产学研用一体化,让中国算法平台走向世界,促进人才与技术交流。
或许,这次的比赛还能为未来通用人工智能技术发展埋下一颗「小小的」种子。