詹士 在宥 金磊 发自 WAIC 量子位 报道 | 公众号 QbitAI
王者荣耀,顺利成为全场焦点。
这不是你以为的KPL(王者荣耀职业联赛)现场。
而是企业云集的上海世界人工智能大会(WAIC 2021)的一角。
人类 VS 绝悟(AI),2万元现金 2万Q币奖励。
成功激发了在场所有人的热情。
甚至在场外,肉身缺席的PonyMa,“临门一脚”地发来语音,专门宣布这件事。
重视程度,可见一斑。
于是,这件事也顺利登上了各大榜的热门话题。
接下来,一同来看下这场人机大战。
面对AI,人类不能输!
5位挑战者上台坐定,随着主持人一声令下,比赛正式开始。
禁英雄(Ban)阶段,AI的动作就有说道——次次禁蒙恬。
至于为什么,现场工作人员解释道:
AI根本不Care人头,上来就快速推塔带线,这都是跟职业队练出来的。 蒙恬这种英雄4级后爆发推塔很强,甚至一打五都可能。
嘿,别看只是个AI,战术还玩得挺溜。
最终阵容如下:
- 人类:耀、鲁班、婉儿、韩信和大乔。
- 绝悟:孙尚香、达摩、牛魔王、雅典娜和奕星。
OK,大战开始!
开局原本各自对线好好发育,绝悟纠集4个英雄想来灭掉中路大乔和耀也没得逞。
但等到2分钟打龙时,绝悟分别在两个龙区拿到2个人头。
下一分钟,绝悟又在下路纠集4打2拿到2人头,一下就把差距拉到4:0,还拆了一个塔。
就此人类崩了,等到跑车出击时差距已经拉到7:0。
到最后,绝悟5个英雄甚至越高地塔进去疯狂输出人类,3:16,直接被推……
啪的一下,就很快有木有!
随着战斗结束,主持人凡尔赛般安慰选手:
希望大家不要有心理负担,享受游戏快乐最重要。
被虐的不止是路人
但我们一同回看下AI的操作。
毫无破绽就不说了,配合度和精准度都高很多。
比如越塔杀人:
进入水晶区火中取栗:
还懂得当退就退,绝不恋战:
当然AI也有犯傻时候,残血还在踟蹰:
于是,就着AI这种“骚操作”,参与比赛的现场观众没能胜AI一场。
绝大部分战斗甚至没有推掉一个塔。
因此,一人三杀、团队十杀均能获得奖励,虽然只有Q币,没有现金。
虽说绝悟实在强,不过,人类不服输的意志是被彻底挑动起来的!
连主持人都忍不住了:
每次Ban人时劝诫大家不要选操作太难的英雄,挑自己擅长的来。 绝悟会Ban元歌和露娜,这两个英雄有会玩的选手可以优先选。
也正因大家都明白对战不易,每次人类方首杀AI总能获得喝彩,有一位哪吒反复击杀AI,更是赢得满堂鼓掌:
好!!!
我们大致算了一下,开展2天大约有15波参赛队组团挑战。
较好组合一局内凭借操作加上依托己方塔打防守反击,勉强在人头数上与AI差距不大。
但,也仅止步于人头数差距不大——
而这,还是官方将AI战力调低过的…
或许你会说,前来挑战的都是路人才会如此。
不不不。
还真不是如此。
绝悟在现场也同职业选手大战4个回合。
这些选手ID分别为重庆 QGhappy.Hurt、成都 AG 超玩会。无痕、武汉 eStarPro. 诺言、深圳 DYG. 小义以及辰鬼。
最终,他们与绝悟比分3:1,仍然是AI胜。
不过一位现场工作人员向量子位爆料:
并不是真的AI多厉害,而是人类选手缺乏配合上的磨合,直接上来打表演赛,倘若按专业电竞比赛集训磨合再与AI对战,胜负尚未可知。
而关于绝悟唯一那次失败,量子位专门向其询问感受,对方表示:
这都正常…
口气云淡风轻。
绝悟背后的骚技术
绝悟碾压人类的技术是什么?
根据腾讯官方说法,绝悟并没有所谓“开挂”,在游戏中的客观条件限制是一致的。
“绝悟”区别于人的优点主要有两点:
- 首先,训练效率非常高,一天的训练强度高达人类 440 年(腱鞘炎警告);
- 其次,不受情绪、性格影响,配合障碍更低。
用一句话概括就是,比你理性,不被情绪左右,没有那种世俗欲望,还比你勤奋。
绝悟之所以要如此勤奋,也是被王者荣耀逼的——这游戏太难了。
首先,作为是一个无法预料对方操作的不完全信息游戏,玩家需要不断探视野,敌我双方的实时位置、状态等信息不透明,AI也需要在这样的前提下做决策;
其次,王者荣耀对局复杂。
100多个英雄,这其中的阵容组合高达10的15次方种,不同的组合对应的打法又不一样。
另一方面,游戏中的角色状态、种种操作加上装备选择相当复杂。
光是想想已经头大,还要在策略规划、目标选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择。
我们也向现场技术人员做了请教:绝悟AI与谷歌ALPHAGO能力是否雷同?
对方表示:
绝悟算力水平远超ALPHAGO,因为围棋游戏背后的可能性远少于王者。 后者除操作英雄,还有协同打团,BAN人及不同英雄配合需要考虑进去,所需算力不在一个量级。
工作人员还透露了一个惊人的数字:
AI在一局里操作可能性大概有10的2万次方种。
什么概念?
整个宇宙原子总数也只是10的80次方!
如此复杂情景对绝悟背后的AI技术要求极高。
最初版本的“绝悟”通过监督学习方法来训练,以海量有标记的训练数据为基础,推导出行为预测函数,实现拟人化。也因此,标注数据质量尤为重要。
随着研发团队在深度强化学习、多智能体决策课题上的研究不断深入,“绝悟”不再需要模仿人类数据,转而通过与自己对战,进一步提升微操水平和大局观,达到了王者荣耀职业电竞水平。
强化学习通过构建奖励和惩罚刺激环境的角度出发,优化AI行为逻辑。
根据团队技术负责人杨光介绍:
AI会通过奖励(reward)反馈,知道一个行为做的好还是不好。在获得大量反馈后,AI会渐渐摸索出能够取得胜利的行为,表现出‘学会’玩游戏的效果。
这个方法的优点在于,不依赖已有数据并且能够探索出新的策略,甚至于超越当前人类的认知,在行为多样性和完成任务的能力方面有了质的提升。
比如在训练后期,AI 甚至自己探索出了全新策略,“比如‘绝悟’经常多人抱团吃线,从而达到经济的最大化”。
上述技术相关论文早在2018年已经公布。
今年5月,绝悟也已在线上与很多玩家开启对战,各家媒体跟进宣传。
论及绝悟又有什么新变化?
现场工作人员向量子位独家透露,今年5月至今,绝悟采用了更多训练KPL职业选择操作数据进行训练。
另一方面,腾讯AI Lab长期保持与顶尖高效合作,通过贡献技术数据,高校相应成果与技术也参与其中,由此,“绝悟”水平也达到了今天顶尖选手层次。
看完对阵AI现场及技术,不瞒你说,我这个铂金段位自己也一个没忍住报名1V1。
由于只能选限定的部分英雄,日常张飞刘禅的我,也不得已选了关羽。
于是乎,被虐了个5:1,而那1杀是塔点掉的……
经历完这些,我已卸载王者,告别一场赚2万的幻想,安心工作去了……
— 完 —