天天插天天狠天天透,天天狠天天插

淺友們好~我是史中，我的日常生活是開撩五湖四海的科技大牛，我會(huì)嘗試各種姿勢(shì)，把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友，不妨加微信（shizhongmax）。

王者榮耀的B面：

人類在此喧鬧，AI卻在他們腳下悟道

文 | 史中

孫悟空在曠野上狂奔，喉嚨里喊出：I'm Real!！

他把金箍棒直插入地，炫目的振波四散沖開，眨眼間，又跳到敵人近身左右開弓，一頓輸出行云流水，對(duì)方血槽見半。

然而，就在下一秒，猴子卻突然判若兩猴，握著鐵棍，失神呆立，任由對(duì)手揪住一陣爆錘，剛才的威風(fēng)無影無蹤。

原因很簡(jiǎn)單：我在打《王者榮耀》——?jiǎng)倓偽疫€在操縱孫悟空，現(xiàn)在我把手指從屏幕上挪開了。

在0和1編織的賽博世界里，哪怕貴為齊天大圣，沒有玩家的“靈魂注入”，它也只是一具皮囊。

孫悟空并不 Real。

看到這兒，很多淺友可能會(huì)哭笑不得：中哥你在說啥？孫悟空不就是個(gè)游戲角色么？游戲角色不用人操縱，難道還能自己上陣殺敵不成？

誒，那可真不一定哦。

最近我就遇到一群人，他們用了6年時(shí)間在王者峽谷里鋪下了千萬行代碼，完成了三連殺：

第一、用人工智能指揮英雄戰(zhàn)勝了無數(shù)人類好手。

第二、他們還把《王者榮耀》改造成了AI科研的試煉場(chǎng)；

第三、他們甚至把小小屏幕背后的游戲變成了“多智能體協(xié)作”這個(gè)人類前沿技術(shù)命題的悟道之地。

聽我細(xì)細(xì)道來。

（一）為英雄披上“AI戰(zhàn)甲”

2016年，成都，一群人圍坐在會(huì)議室里，眼神如哲學(xué)家般深邃，如圣徒一樣虔誠，仿佛面前有一團(tuán)篝火。

坐在C位的這個(gè)，名叫黃藍(lán)梟。

你也許不認(rèn)識(shí)這位老哥，但很可能以特別的方式和他“神交已久”。因?yàn)樗褪峭跽邩s耀的執(zhí)行制作人，也是天美L1工作室的總經(jīng)理。

多少個(gè)夜晚，你在被窩里端著手機(jī)上分的時(shí)候，四舍五入就是在黃藍(lán)梟和他的同事們營造的王者峽谷里輾轉(zhuǎn)纏綿。

當(dāng)時(shí)，這群人正是在討論這個(gè)古老而詩意的命題——能不能用人工智能控制王者榮耀的英雄去戰(zhàn)斗？

看到這兒，你腦袋上可能又有問號(hào)了：王者榮耀的開發(fā)團(tuán)隊(duì)不好好做游戲，為啥非要用人工智能打游戲呢？

要搞清楚這個(gè)事兒，我們不妨坐在黃藍(lán)梟和王者榮耀技術(shù)負(fù)責(zé)人楊光身邊，聽聽他們?cè)谡f什么。

彼時(shí)的《王者榮耀》還不是現(xiàn)在這般耀眼的“全民游戲”，里面可選的英雄也只有幾十位，遠(yuǎn)沒有后來的一百多個(gè)。

雖然很多英雄正在秘密開發(fā)中，但有一個(gè)問題賊拉困擾他們，那就是——這個(gè)英雄放出去之后，可不敢“太能打”。

這是為啥呢？

因?yàn)槿绻募寄芴，那么，玩家用原來自己熟悉的英雄肯定打不過它，只好被迫搶著選這個(gè)英雄（或Ban掉它），這還有啥意思？

就像蹺蹺板一頭被300斤的大胖子壓得死死的，角色失去了“平衡性”。

平衡才有趣（截圖出自短片《Balance》）

那怎么才能讓一個(gè)新英雄在出生的那一刻，就和其他舊英雄是“平衡”的呢？

其實(shí)，在游戲開發(fā)界有一個(gè)祖?zhèn)髅丶掠⑿郯l(fā)布之前，要找很多專業(yè)游戲測(cè)試員，用它跟老英雄打上幾千場(chǎng)。各種姿勢(shì)都盡量測(cè)試一遍，最終勝率在50%上下，那就說明它不比別人厲害也不比別人弱雞嘛。

“祖宗之法”雖好，卻有三個(gè)問題：

第一、測(cè)試員畢竟是人不是神，難以面面俱到。英雄放出去后，上億玩家的智慧一起轟炸，還是難免發(fā)現(xiàn)一些騷操作，打破平衡性。
第二、人工測(cè)試太貴，越是要測(cè)試得萬無一失，越是需要更多測(cè)試員，就越貴；
第三、測(cè)試員一多，又難免走漏風(fēng)聲。新英雄提前泄密，是游戲的大忌。

聽到這兒，黃藍(lán)梟看向你：這位同學(xué)，你有啥好辦法？

估計(jì)你會(huì)說：

那能不能搞一個(gè)水平很高的機(jī)器人，左手新英雄，右手舊英雄，自己跟自己大戰(zhàn)十萬回合？

反正電腦也不吃盒飯，有電就能跑，不僅省時(shí)，還能比人類測(cè)試得更完善，還不擔(dān)心泄密，一舉三得！

你看，這不就回到我們剛才說的“用人工智能打游戲”了么？

人工智能腦補(bǔ)了十萬場(chǎng)對(duì)局

“這個(gè)打游戲的人工智能是怎么做出來的呢？”我好奇心爆棚。

黃藍(lán)梟示意我慢慢來，在繼續(xù)講故事之前，他得先給我科普一個(gè)小知識(shí)。

從游戲開發(fā)的角度，“用電腦控制的角色”有個(gè)統(tǒng)稱，叫“智能體”。

他說。

如果寬泛地說，智能體的歷史可非常悠久。

就拿大家都熟悉的1985版《超級(jí)瑪麗》來說，那個(gè)一上來就收走了無數(shù)小白人頭的“香菇怪”就可以看做是最簡(jiǎn)單的“智能體”。

進(jìn)一步說，《仙劍》《最終幻想》里那些叨逼叨的 NPC 也是智能體；

再看《星際爭(zhēng)霸》《王者榮耀》里，那些小兵、野怪就更是智能體了。

這里要猛敲黑板?。?！

人工智能是近幾年才成熟的，那在這之前，驅(qū)動(dòng)“智能體”的經(jīng)典技術(shù)叫做“狀態(tài)機(jī)”或“行為樹”。

所謂行為樹，可以理解為是一個(gè)身上長(zhǎng)滿了“開關(guān)”的機(jī)器人。

比如天氣黑了，就相當(dāng)于觸發(fā)了一個(gè)開關(guān)，機(jī)器人就要做一個(gè)動(dòng)作；對(duì)手發(fā)了一個(gè)招，就觸發(fā)了另一個(gè)開關(guān)，機(jī)器人就會(huì)躲避，然后按照預(yù)先寫好的腳本還擊。這個(gè)和工業(yè)上的機(jī)器人原理類似。
總之，所有反應(yīng)的背后都是一條條具體的規(guī)則。規(guī)則越完備、越細(xì)致，機(jī)器人就看起來更聰明。

黃藍(lán)梟解釋。

這是一個(gè)簡(jiǎn)單的行為樹示意圖。

用行為樹驅(qū)動(dòng)的智能體在《王者榮耀》里早就有了，用在小兵、野怪的控制、新手教程之類的很多地方。

那還要人工智能干啥？

這是因?yàn)?，行為樹存在天花板，里面的?guī)則即使寫得再精細(xì)，水平最多也就相當(dāng)于“青銅”。

用“行為樹”來測(cè)試新英雄的平衡性顯然不靠譜——這就像戰(zhàn)士們?nèi)粘Ｓ冒糇硬倬毩耸f次，上戰(zhàn)場(chǎng)之后看到對(duì)手掏出了機(jī)關(guān)槍。。。

現(xiàn)在你就明白了，回到2016年，王者 AI 團(tuán)隊(duì)想要的東西準(zhǔn)確來說是——“用人工智能驅(qū)動(dòng)的高級(jí)智能體”。

做出這種“智能體”，所需的技術(shù)約等于人類科技的極限，純靠天美工作室的能力恐怕不夠。。。

大伙兒發(fā)愁，從哪兒找點(diǎn)厲害的幫手呢？

此時(shí)，我們不妨把王者團(tuán)隊(duì)的故事按下暫停，挪一下地圖，從天府之國穿越到祖國南海。

2016年的深圳，騰訊總部，有另一幫人同樣聚在會(huì)議室里，眼神如哲學(xué)家般深邃，如圣徒一樣虔誠，仿佛面前有一團(tuán)篝火。

這群人來自騰訊鼎鼎大名的人工智能實(shí)驗(yàn)室——騰訊 AI Lab。

給不熟悉的淺友多介紹一句，騰訊AI Lab，基本代表了他們?nèi)斯ぶ悄芗夹g(shù)的最高水準(zhǔn)。

他們做出的病理 AI 云平臺(tái)，可以輔助醫(yī)生看細(xì)胞涂片，識(shí)別一些早期癌癥的準(zhǔn)確率相當(dāng)于3~5年經(jīng)驗(yàn)的醫(yī)生；
他們做出的藥物研發(fā)系統(tǒng)“云深”，可以大大加快新藥研制的速度。
他們做出的圍棋 AI 選手“絕藝”，可以優(yōu)雅地讓世界冠軍柯潔兩子還能擊敗他；

楊巍，就是騰訊 AI Lab 的創(chuàng)始成員之一。

楊巍

當(dāng)時(shí)，他和同事們剛剛做出絕藝，雖然橫掃一票人類圍棋大師，但他感覺不到狂喜——因?yàn)榘肽昵?，DeepMind 剛剛用阿法狗虐完李世石，中國人做得再牛，也不是“首創(chuàng)”了。。。

那怎么才能做出比下圍棋的AI更厲害的人工智能呢？

糾結(jié)中，楊巍劃開手機(jī)屏幕，突然看到了《王者榮耀》的圖標(biāo)——“比圍棋更復(fù)雜的游戲，我們騰訊有??！”

王者榮耀團(tuán)隊(duì)和 AI Lab 一拍即合。

大家躊躇滿志，既然要做出最能打的AI，那就得起個(gè)最能打的名字。斗戰(zhàn)勝佛悟空不正是中國文化里最能打的人（猴）么？這個(gè)AI還是“絕藝”的同胞兄弟，按照“絕”字輩排下去，就叫“王者絕悟”?。閿⑹龊?jiǎn)便，下文簡(jiǎn)稱絕悟）

回憶起這個(gè)“夢(mèng)開始的地方”，黃藍(lán)梟還是激動(dòng)不已。

用人工智能去測(cè)試英雄的平衡性、改善新手教學(xué)關(guān)卡，讓玩家玩得更爽，這當(dāng)然是現(xiàn)實(shí)目的，但僅僅這樣理解它的意義，就太簡(jiǎn)單了。
我們看到了一個(gè)更大的機(jī)會(huì)：《王者榮耀》這個(gè)純國產(chǎn)自研的IP如果可以突破“游戲”的局限，成為一個(gè)訓(xùn)練智能體協(xié)作的基礎(chǔ)設(shè)施，那才能對(duì)社會(huì)和產(chǎn)業(yè)有更深遠(yuǎn)的幫助！

他說。

楊巍接受委派，成為了絕悟的AI技術(shù)帶頭人，心潮奔涌。

然而，熱情的巖漿即刻冷卻，變成了沉重的磚石。

舉目四望，當(dāng)時(shí)整個(gè)地球上還很少有人公開用AI打“復(fù)雜游戲”的計(jì)劃，也沒有研究者公布相關(guān)學(xué)術(shù)論文，更沒有成熟的代碼、算法可以參考——標(biāo)準(zhǔn)的“三無狀態(tài)”。

該從哪兒下手呢？

（二）英雄的“內(nèi)啡肽”

在普通人看來，圍棋和《王者榮耀》是毫無關(guān)系的兩種玩意兒——前門樓子和胯骨軸子。但在楊巍這種專業(yè)大牛的眼里，《王者榮耀》其實(shí)可以理解為升級(jí)版的圍棋。

只不過，升級(jí)的跨度有點(diǎn)大就是了。。。

楊巍告訴我，它們的區(qū)別主要有三：

第一、圍棋的玩法是一對(duì)一，王者榮耀的玩法是五對(duì)五（5v5），可以不嚴(yán)謹(jǐn)?shù)乩斫鉃椤?0個(gè)人一起下的圍棋”。
第二、圍棋是回合制比賽，我下的時(shí)候你只能看。但王者榮耀是“即時(shí)競(jìng)技”，兩邊同時(shí)肝，誰猶豫一秒就會(huì)敗北。
第三、圍棋盤面就361個(gè)點(diǎn)，黑方和白方看到的局面都是完整的、一致的。可王者榮耀的游戲玩家只能看到自己視野內(nèi)的局面，至于視野外的敵人具體在干嘛，那純得靠“猜”了。

從數(shù)學(xué)的角度看，玩這種（有絕對(duì)強(qiáng)度的）對(duì)抗游戲，要想勝率達(dá)到絕對(duì)意義的100%，其實(shí)只有一種辦法——窮舉。

就拿圍棋來說，對(duì)手下完一招棋之后，我如果可以把棋盤上所有能下子的點(diǎn)位都思考一遍，然后在每種可能性的基礎(chǔ)上，再把接下來對(duì)手可能下的點(diǎn)位再思考一遍，以此類推，把億萬種不同的“劇本”全都嘗試過，最終就能“遍歷”所有的“狀態(tài)空間”。

這相當(dāng)于每一種走法將會(huì)導(dǎo)致的結(jié)局我全了如指掌，那想輸也輸不了。。。

但壞消息是：窮舉圍棋的每一種姿勢(shì)只在理論上可行，現(xiàn)實(shí)中，它已經(jīng)超越了所有計(jì)算機(jī)的計(jì)算極限。

還有更壞的消息：王者榮耀的狀態(tài)空間比圍棋更大，更是超越人類計(jì)算機(jī)極限不知哪里去了。粗略估計(jì)一下，打一局王者，里面可能有10的20000次方種操作的可能性。不好意思，宇宙中原子的總數(shù)也只有10的80次方個(gè)。這事兒估計(jì)上帝也做不到。。。

不用窮舉法，那用啥法呢？

用“依葫蘆畫瓢法”。

還是舉個(gè)生活中的小栗子吧。

你是一個(gè)360斤的胖子，想減肥到120斤，這是你的終極目標(biāo)。

為了達(dá)到這個(gè)目標(biāo)，你得分成10086個(gè)步驟來做。而每一步里，你還面臨10086種選擇。

比如早晨第一步就有“不吃早餐”、“吃包子”、“吃面條”、“吃雞蛋”、吃“肉夾饃”。。。（你完全沒辦法窮舉）

可是，哪個(gè)操作能提高最終的“勝率”，你完全不知道??！

這時(shí)候，最好的辦法不是原地苦想，而是看哪位老哥曾經(jīng)減肥成功，你模仿他的操作。

如果他早餐吃的是“雞蛋沙拉”，那你也應(yīng)該先嘗試吃“雞蛋沙拉”；他第二步是“晨跑30分鐘”，那你也應(yīng)該這樣。（雖然從上帝視角來看，一定存在更適合你的辦法，但你就！是！不！知！道！最好的選擇只有模仿。。。）

絕悟最初學(xué)習(xí)打王者也是同樣的道理，這個(gè)過程的學(xué)名叫“模仿學(xué)習(xí)”。

模仿誰呢？模仿職業(yè)電競(jìng)選手。

王者榮耀的高手大概都知道，有一個(gè)名叫 KPL（王者榮耀職業(yè)聯(lián)賽）的比賽，是這款游戲的最高殿堂，每年職業(yè)選手都會(huì)在這里來一次華山論劍，而這些比賽錄像都是公開的。

于是，騰訊 AI Lab 趕緊把這些錄像都找來，讓人工智能學(xué)習(xí)。

KPL 比賽現(xiàn)場(chǎng)

人工智能當(dāng)然不會(huì)排排坐背著手聽老師講課——所謂學(xué)習(xí)是通過一種叫做“獎(jiǎng)勵(lì)”的東西實(shí)現(xiàn)的。

這一點(diǎn)和人類的進(jìn)步過程也超級(jí)相似。人在不斷實(shí)現(xiàn)目標(biāo)的過程，大腦會(huì)分泌“獎(jiǎng)勵(lì)遞質(zhì)”內(nèi)啡肽。

還拿減肥舉例：今天你跑步半小時(shí)，內(nèi)啡肽就會(huì)分泌；晚餐八分飽，又會(huì)分泌；睡個(gè)好覺頭腦清醒，又會(huì)分泌；直至最后減肥成功，大分泌。

人類的“內(nèi)啡肽分泌體系”是千萬年進(jìn)化的結(jié)果，可絕悟沒這些，腦袋里是一張白紙——所有的“獎(jiǎng)勵(lì)機(jī)制”都需要人類從頭設(shè)計(jì)。

所以，人工智能的訓(xùn)練，本質(zhì)上就是獎(jiǎng)勵(lì)設(shè)計(jì)的過程！

楊巍一語道破天機(jī)。

這段科普截取自X科技實(shí)驗(yàn)室的視頻節(jié)目，他們很好地解釋了絕悟的訓(xùn)練過程，非常推薦，鏈接附后。

比如，敵人被擊中掉血，我方英雄該怎么賞？對(duì)方英雄出招被我躲過，賞多少？對(duì)方英雄被擊殺，怎么賞？推掉一個(gè)塔，怎么賞？打團(tuán)幫同伴擋住敵人大招，怎么賞？

當(dāng)然除了正獎(jiǎng)賞，還有負(fù)獎(jiǎng)賞——罰。

比如，我方英雄被擊中殘血，應(yīng)該罰多少？如果罰得太多，英雄就會(huì)不敢出戰(zhàn)，各種逃竄，甚至掉一絲血就想回城補(bǔ)血；如果罰得太少，英雄又會(huì)傻沖，容易被團(tuán)滅。

你看，這種獎(jiǎng)勵(lì)的設(shè)計(jì)過程非常精細(xì)——往往獎(jiǎng)勵(lì)值變化一點(diǎn)點(diǎn)，就會(huì)導(dǎo)致訓(xùn)練出來的英雄性格迥異。所以，需要技術(shù)宅們蹲在電腦前反復(fù)調(diào)整實(shí)驗(yàn)，才會(huì)試出理想的結(jié)果。

注意看，這里殺敵的獎(jiǎng)勵(lì)反而是負(fù)的，因?yàn)檫@個(gè)過程會(huì)導(dǎo)致其他獎(jiǎng)勵(lì)都在增加，如果此處再給獎(jiǎng)勵(lì)會(huì)讓AI過于執(zhí)著于擊殺敵人。（由此可見獎(jiǎng)勵(lì)調(diào)整過程中有很多反直覺的操作。）

怎么樣，聽上去這個(gè)“絕悟訓(xùn)練計(jì)劃”天衣無縫吧。

呵呵。

（三）少年絕悟

我們把時(shí)間軸拉到2017年。

彼時(shí)，已經(jīng)“埋頭苦練”半年的絕悟一招一式都有了模樣，感覺棒棒噠，迫不及待想找個(gè)對(duì)手試一下。

“來，你們出個(gè)強(qiáng)人跟絕悟打一場(chǎng)！”楊巍對(duì)王者團(tuán)隊(duì)下戰(zhàn)書。

王者的同學(xué)說，我們不是有負(fù)責(zé)新手教學(xué)的“行為樹”么，絕悟先跟行為樹打一仗，贏了再說唄。

“哼，竟然小瞧人?！睏钗∷麄兒咧∏呀^悟和行為樹的接口連通，兩邊干了一架。

結(jié)果。。。。絕悟被打得滿地找牙。

之前說過，行為樹的水平大概是“倔強(qiáng)青銅”，這么一比的話，彼時(shí)的絕悟水平大概就是。。。躺平廢柴。。。

啊，我們一群人開發(fā)了半年的人工智能，比不上一個(gè)王者開發(fā)同學(xué)花半個(gè)月寫的行為樹，那感覺簡(jiǎn)直無地自容。當(dāng)時(shí)就覺得這玩意兒簡(jiǎn)直太難了。

楊巍回憶。

受了打擊，他跟業(yè)內(nèi)專家交流，倒倒苦水。

本想求點(diǎn)“練兵高招”，可大家的意見卻如五雷轟頂：這玩意兒做出來的可能性確實(shí)不大，早點(diǎn)放棄，也不是不行。。。

可是，眼看團(tuán)隊(duì)同學(xué)們每天還在冥思苦想解決辦法，自己放棄，這可怎么見江東父老呢？他只好頂住壓力，裝作無事發(fā)生，繼續(xù)鼓勵(lì)大伙兒。

果然，功夫不負(fù)苦心人，有兩個(gè)方向漸漸在他們的視野里清晰起來：

第一，即便是 KPL 高手，也不意味著每一個(gè)操作都是正確的嘛！他們也有失誤，也會(huì)有平庸的操作，不能啥都跟他們學(xué)。
第二，人類打游戲時(shí)是左手控制方向，右手控制出招，分別是兩個(gè)腦區(qū)負(fù)責(zé)的。那是不是絕悟也應(yīng)該把“走位”和“出招”分開來訓(xùn)練呢？

先說第一個(gè)方向。

怎么讓 AI 學(xué)到人類精華呢？

黃藍(lán)梟派出幾位精銳的游戲策劃師，他們不僅是游戲的主創(chuàng)成員，更是打游戲的高手。這些高手的任務(wù)很奇特：不用干別的，就盯著屏幕把比賽錄像看N遍。

因?yàn)樗麄儗?duì)游戲的理解特別深刻，所以，有些我們看上去炫酷的操作，在他們眼里反而是平平無奇的花架子；有些容易被忽略的微操，在他們心中恰恰是功底深厚的神來之筆（老玩家應(yīng)該明白這種感覺）。

就這樣，他們調(diào)動(dòng)畢生經(jīng)驗(yàn)，把真正的優(yōu)秀操作一個(gè)不落地標(biāo)記出來。

這個(gè)操作，就是人類高手的經(jīng)驗(yàn)被“提純”成《九陰真經(jīng)》的過程。接下來，只要推著絕悟的后背傳入它體內(nèi)就好。

這是英雄學(xué)會(huì)了“利用草叢”，陰在草叢后面等對(duì)手進(jìn)入攻擊距離，猛然跳出一波帶走。

這是兩個(gè)英雄學(xué)會(huì)了“配合”，英雄A用護(hù)甲保護(hù)殘血隊(duì)友B，并且打出空間，隊(duì)友B默契地用技能擊殺對(duì)手。

再說第二個(gè)方向。

他們把涉及位置移動(dòng)的操作全部交給一個(gè)系統(tǒng)訓(xùn)練，又把涉及出招的操作交給另一個(gè)系統(tǒng)訓(xùn)練。這樣一分開，果然，絕悟的腦子不再是一團(tuán)漿糊，操作清爽多了。

需要強(qiáng)調(diào)的是，這個(gè)思路還進(jìn)一步啟發(fā)了他們，除了左右手操作分開訓(xùn)練，是不是還能把其他一些重要的決策也獨(dú)立訓(xùn)練呢？

于是，他們又搞出了好幾個(gè)獨(dú)立的“腦區(qū)”：

比如有一個(gè)腦區(qū)專門負(fù)責(zé)“猜測(cè)敵人位置”：每時(shí)每刻根據(jù)現(xiàn)場(chǎng)的情況修改判斷，比如在這個(gè)草叢沒有見到對(duì)手，那對(duì)手在另外草叢的概率就會(huì)增高；
比如還有一個(gè)腦區(qū)專門負(fù)責(zé)“大局研判”，基于現(xiàn)在的戰(zhàn)勢(shì)，我應(yīng)該往哪里走才對(duì)整體最有利？有了大局研判，英雄的格局就打開了，不會(huì)在屏幕這一小塊區(qū)域里戀戰(zhàn)，而是能運(yùn)動(dòng)起來，及時(shí)出現(xiàn)在險(xiǎn)要位置。

兩個(gè)紅點(diǎn)，分別表示了此時(shí)此刻英雄在全局的目標(biāo)和在本地的目標(biāo)。就是由兩個(gè)腦區(qū)生成的。

這些腦區(qū)雖然獨(dú)立思考，卻能很好地協(xié)作：

1、他們都能根據(jù)自己了解的情況產(chǎn)生“獎(jiǎng)勵(lì)值”；

2、諸多腦區(qū)的“獎(jiǎng)勵(lì)值”綜合在一起，共同對(duì)英雄的行為施加影響；

3、這種操作，就像用幾根細(xì)細(xì)的絲線來共同控制木偶那樣。

經(jīng)過這么一堆改進(jìn)，絕悟的水平果然開始慢慢提高。

懷著忐忑的心情，騰訊 AI Lab 的同事又讓絕悟跟行為樹約了一架——這次，換行為樹滿地找牙了。

艾瑪，大仇終于得報(bào)！絕悟團(tuán)隊(duì)的技術(shù)宅們復(fù)盤絕悟的戰(zhàn)斗錄像，就像老父親拿著兒子補(bǔ)考了十次的60分成績(jī)單，熱淚盈眶，瀕死的自信心總算緩過來一些。

可信心這個(gè)東西，幾天不打擊，又會(huì)變得膨脹。

2017年底，又練了幾個(gè)月的團(tuán)隊(duì)覺得絕悟的水平可以了，是時(shí)候找?guī)讉€(gè)真人胖揍一頓立立威了。于是他們?cè)谝淮胃邔庸芾頃?huì)上，熱情挑逗茶歇中的領(lǐng)導(dǎo)們跟絕悟來上一局。

領(lǐng)導(dǎo)們興致來了：玩就玩，正好看看你們的水平如何。

本來騰訊 AI Lab 他們盤算的是，領(lǐng)導(dǎo)又不是專業(yè)選手，水平能有多強(qiáng)，絕悟別把人類虐太慘就好。結(jié)果，很快他就發(fā)現(xiàn)自己魯莽了。這幾位自告奮勇的領(lǐng)導(dǎo)有兩個(gè)都是王者段位，其他都是星耀。

豪華陣容直接把絕悟虐在當(dāng)場(chǎng)，氣氛一度有些尷尬。。。

領(lǐng)導(dǎo)說來啊再打一局，絕悟團(tuán)隊(duì)說對(duì)不起打擾了。。。

這次“慘痛教訓(xùn)”，讓他們學(xué)得老乖了。

“猥瑣發(fā)育，別浪?！焙髞砭统闪宋覀兺跽呓^悟的研發(fā)方針。和打游戲一個(gè)道理嘛。

黃藍(lán)梟說。

果然，絕悟狠狠猥瑣了大半年，閉關(guān)苦練，戰(zhàn)力大幅提升。直到2018年，陸續(xù)有“同行”的新聞爆出，阿法狗的開發(fā)者 DeepMind 正在挑戰(zhàn)用AI打《星際爭(zhēng)霸》，馬斯克參與創(chuàng)建的 OpenAI 也開始打 Dota 的主意。

黃藍(lán)梟默默點(diǎn)頭，果然大家都想到一起去了。

這種情況，就不該再猥瑣下去了，是時(shí)候讓絕悟也揭開面紗——找真實(shí)的人類來一場(chǎng)《王者榮耀》公開賽了！

“可是，那時(shí)候絕悟的能力也許打不過頂尖職業(yè)賽手吧？”我問。

“不是也許，就是打不過。因?yàn)槭歉诼殬I(yè)選手屁股后面學(xué)的，理論上沒辦法比人家更厲害。”他笑。

選來選去，王者絕悟團(tuán)隊(duì)挑中了幾位游戲主播和前KPL選手，在2018年的 KPL 總決賽上向他們發(fā)起挑戰(zhàn)。這些玩家當(dāng)然也很厲害，但畢竟不是巔峰狀態(tài)的職業(yè)選手，想來和當(dāng)時(shí)的絕悟水平正好相配。

絕悟?qū)﹃嚽奥殬I(yè) KPL 選手辰鬼、零度和職業(yè)解說白樂、九天和立人組成的人類戰(zhàn)隊(duì)。

楊巍帶隊(duì)去了現(xiàn)場(chǎng)。他還記得，比賽前一晚雙方就開始“斗智斗勇”了。

主播隊(duì)和絕悟隊(duì)進(jìn)行了友好的賽前會(huì)面。主播隊(duì)說我們很菜，楊巍說不不不我們才菜。主播說你們敢把絕悟拿出來，肯定有把握。楊巍說真沒有，你們明天千萬別打得太認(rèn)真。

一陣尷尬沉默，主播們終于說出了那個(gè)藏在心底的請(qǐng)求：今晚能不能先讓我們私下打一局，體驗(yàn)一下絕悟的實(shí)力？

楊巍的頭搖成撥浪鼓。他眼角余光瞥見同事們，這群人頭搖得比他還厲害。

雖然表面不能讓別人看出來，但其實(shí)心里確實(shí)沒底。

因?yàn)?AI 訓(xùn)練的原理就決定了它不可能覆蓋所有可能性。對(duì)手一旦使出怪招，天知道會(huì)觸發(fā)什么Bug。萬一絕悟有啥弱點(diǎn)被對(duì)方拿捏了，第二天我們必?cái)o疑啊。。。

楊巍回憶。

就在麻桿打狼兩頭害怕的曖昧氣氛中，比賽正式打響。

畫面通過直播信號(hào)忠實(shí)地向千萬觀眾傳送。楊巍和同事坐在導(dǎo)播臺(tái)后面，手心里全是汗。這場(chǎng)比賽沒有彩排，只有上帝才知道結(jié)局。

剛開始幾分鐘，主播隊(duì)的英雄配合默契，像拳頭一樣猛攻，而絕悟的幾個(gè)英雄卻像五指伸開。這種溫吞的戰(zhàn)術(shù)讓觀眾完全看不懂，而且局面上，絕悟也是且戰(zhàn)且退，仿佛屏幕上寫滿了“招架不住”。。。

楊巍都快昏過去了。

比賽到三分半，絕悟已經(jīng)被“四殺”

當(dāng)時(shí)我已經(jīng)開始想，如果輸?shù)舯荣?，回去要怎么和領(lǐng)導(dǎo)交代，怎么總結(jié)教訓(xùn)了。。。

他說。

然而，現(xiàn)場(chǎng)觀眾卻漸漸陷入沉默，因?yàn)榻^悟穩(wěn)住了陣腳，溫吞的防守變成有條不紊的輸出，竟然開始一點(diǎn)點(diǎn)扳回局面。

那一刻，楊巍突然意識(shí)到，除了技戰(zhàn)術(shù)本身，AI 相比人類還有一個(gè)巨大的優(yōu)勢(shì)，那就是無論局面如何危在旦夕，它都不會(huì)受到情緒影響，因?yàn)樗蜎]有情緒！

反觀主播，心態(tài)開始肉眼可見地出現(xiàn)滑坡、滑坡、滑坡、泥石流。

這是絕悟最終取勝的畫面。

人類戰(zhàn)隊(duì)水晶被拆那一瞬間，藏在導(dǎo)播臺(tái)后面的楊巍他們彈射起來，高聲歡呼。導(dǎo)播轉(zhuǎn)過身來怒目而視：吵什么！我們正在直播呢！！

絕悟脖子上戴滿花環(huán)，載譽(yù)而歸。

可是，和榮譽(yù)一起到來的，卻是巨大的瓶頸。

（四）自己“揍”自己

問你個(gè)問題：孫悟空和他師傅菩提老祖誰更厲害？

那還用說，肯定是當(dāng)師傅的菩提老祖更厲害。西游記里說孫悟空只跟菩提老祖學(xué)了個(gè)皮毛。就算他把菩提老祖的技能全學(xué)會(huì)，那也只是和菩提老祖打個(gè)平手。

糾結(jié)點(diǎn)就在這兒。從“模仿學(xué)習(xí)”的原理來看，是不存在“青出于藍(lán)而勝于藍(lán)”的可能的。AI無論多努力，最多只能學(xué)到師傅的八成功力。

換句話說，絕悟要想繼續(xù)精進(jìn)，超過頂尖職業(yè)選手的水平，已經(jīng)沒有師傅可以教得了它了。

只剩一種選擇：自己教自己——讓 AI 通過無數(shù)次和自己對(duì)戰(zhàn)，領(lǐng)悟進(jìn)階的真諦。

用人工智能的“黑話”來說，這種自學(xué)行為就叫“強(qiáng)化學(xué)習(xí)”。

你還記得當(dāng)年，在 AlphaGo（阿法狗）之后，又出來一個(gè) AlphaZero（零狗）么？

這個(gè)零狗就是通過自己跟自己下了好幾億盤棋自學(xué)成才的。后來證明，它比阿法狗還能打一萬倍，人類絕無希望戰(zhàn)勝。

這張圖是強(qiáng)化學(xué)習(xí)的架構(gòu)圖（點(diǎn)擊可以放大）。最左邊是輸入信息，包括：不可見信息（猜的）、小地圖、己方英雄、敵方戰(zhàn)斗單位（英雄、小兵、野怪、塔）；中間是數(shù)據(jù)通過不同的神經(jīng)網(wǎng)絡(luò)；右邊是輸出結(jié)果，包括大局的研判、現(xiàn)在應(yīng)該做的事情（做啥，怎么做，對(duì)誰做）。

楊巍告訴我，從2019年開始，在絕悟團(tuán)隊(duì)里就專門拉出來一支“特種兵”，用強(qiáng)化學(xué)習(xí)的方式秘密訓(xùn)練“絕悟2.0”。

可是，特種兵面前卻是一個(gè)岔路口：

向左走，是把之前已經(jīng)學(xué)成的“絕悟1.0”拿來繼續(xù)深造成“2.0”；

向右走，是從零開始訓(xùn)練“絕悟2.0”。

這倆有啥區(qū)別呢？

如果在絕悟1.0基礎(chǔ)上深造，相當(dāng)于大學(xué)畢業(yè)直接考研，難度不大，但大學(xué)階段養(yǎng)成的“積習(xí)”已經(jīng)定型，受限于這個(gè)歷史包袱，很難有翻天覆地的進(jìn)步；

如果從一張白紙訓(xùn)練絕悟2.0，那么雖然能拋掉歷史包袱，但可想而知計(jì)算量非常巨大，萬一模型和參數(shù)調(diào)整不好，就可能面臨“沒練會(huì)，先練廢”的慘烈局面。。。

技術(shù)宅們商量了一下，欲練神功必先“自宮”，是男人就該對(duì)自己狠一點(diǎn)，咱從零開始。

最初數(shù)據(jù)看起來都很完美，但時(shí)間一點(diǎn)點(diǎn)過去，模型還是不收斂，而且曲線開始搖擺，甚至突然一下就跌到負(fù)值。。。

楊巍回憶。

這個(gè)局面就有點(diǎn)尷尬了。

訓(xùn)練模型就好比燒制一個(gè)巨大的陶瓶——放在窯里繼續(xù)等待，也許再等十天半個(gè)月模型可以定型；但也可能再等個(gè)一年半載也無法定型；更有可能等了很久，燒出來一看，已經(jīng)碎裂。。。

翻遍了頂級(jí)期刊論文，也沒人研究過面對(duì)這種情況應(yīng)該怎么辦。楊巍他們知道，自己站在實(shí)踐的最前沿，只能摸著石頭過河了。

仔細(xì)反思，他們想到了一種辦法：

之前的操作是想畢其功于一役，把10個(gè)英雄放在5v5的地圖里一鍋燉，當(dāng)然就會(huì)造成模型異常復(fù)雜。那能不能把訓(xùn)練分成幾步走呢？

順著這個(gè)思路，他們制定了周密的計(jì)劃：

第一步，先在1v1的場(chǎng)景下把英雄分別練好。

第二步，把100個(gè)英雄分成20組，每5個(gè)英雄固定組隊(duì)，讓每組英雄自己和自己先進(jìn)行5v5訓(xùn)練。

第三步，固定組隊(duì)英雄訓(xùn)練完畢，再把英雄打亂編隊(duì)，開始亂斗訓(xùn)練。

這個(gè)操作就像學(xué)生上課一樣，一章比一章難，一學(xué)期比一學(xué)期進(jìn)階，所以又叫做“課程學(xué)習(xí)”。

可以拿學(xué)象棋來比喻，先學(xué)會(huì)兵，再學(xué)王，再一步步學(xué)會(huì)其他棋子。

說干就干。果然按照這個(gè)思路調(diào)整的“課程”，既保證了能從零開始訓(xùn)練，又保證了訓(xùn)練強(qiáng)度不會(huì)爆棚。

至此，已經(jīng)沒有什么能夠阻擋絕悟2.0的水平突飛猛進(jìn)了。

這張圖顯示的是不同階段的“課程”。注意紅圈里的紅線高于藍(lán)線。這表明，“上過前兩課”的人工智能表現(xiàn)要超過“沒上前兩課直接訓(xùn)練第三課”的人工智能。

2019年夏天，絕悟2.0按奈不住，在王者榮耀世界冠軍杯半決賽中對(duì)現(xiàn)役選手發(fā)起挑戰(zhàn)，4位中國選手和一位馬來西亞選手組成聯(lián)隊(duì)迎戰(zhàn)。

這次表演賽，絕悟又把絕地反擊的戲碼來了一遍，戰(zhàn)勝了人類。

確切地說，是戰(zhàn)勝了人類玩家里最職業(yè)的那一撥。

5個(gè)人類高手對(duì)面，是5把空椅子。

這次比賽結(jié)果擺在眼前，黃藍(lán)梟長(zhǎng)出一口氣。

從2016年開始的艱難跋涉，絕悟用了整整3年，終于爬到了金字塔尖。這背后的心酸艱難和幾次瀕臨放棄，無法與人言說。

好在上天眷顧，絕悟成了。

講到這兒，我們的故事就如同一條小河開始匯入大眾記憶。

很多人可能還記得，2020年“五一”，正是很多人被疫情封在家的時(shí)候，《王者榮耀》猝不及防地升了一次級(jí)，多出了一個(gè)模塊，名字就叫“挑戰(zhàn)絕悟”。

沒錯(cuò)，王者 AI 團(tuán)隊(duì)決定，把絕悟向普通人開放，所有人都能來挑戰(zhàn)。

一方面，讓人類來挑戰(zhàn)AI，本來就是一個(gè)新奇的游戲環(huán)節(jié)；另一方面，上億玩家圍毆絕悟，對(duì)絕悟的能力和穩(wěn)定性都是前所未有的試煉。何樂而不為呢？

“這么多人打絕悟，你不擔(dān)心大家找到什么 Bug 嗎？”我問楊巍。

“這回我有信心了！再說，如果真有 Bug 被找到，沒準(zhǔn)兒大家更開心，能達(dá)到意想不到的宣傳效果呢！”楊巍笑。

果然，“挑戰(zhàn)絕悟”一出來，玩家們鉚足了勁兒開始研究干掉絕悟的“邪術(shù)”。還有大神在網(wǎng)上發(fā)帖，跟寫論文一樣闡述他發(fā)現(xiàn)的絕悟弱點(diǎn)。場(chǎng)面不要太熱鬧。

追帖的人中，就有楊巍。

有時(shí)候看大家的帖子我覺得很有趣。因?yàn)锳I的訓(xùn)練過程是一個(gè)復(fù)雜的“黑盒子”，很多絕悟的操作連我們團(tuán)隊(duì)自己都很難解釋，別人猜的就更不準(zhǔn)了。

但大家的熱情很鼓舞我們?！癆I的可解釋性”確實(shí)是一個(gè)值得研究的前沿領(lǐng)域，所以后來我們也開發(fā)了解析模塊，專門負(fù)責(zé)理解絕悟每一個(gè)操作背后的“理由”。

他說。

這張圖一定程度解釋了絕悟的思路——不同階段，絕悟的意圖不同。上圖顯示：推塔的時(shí)候，AI的注意力分布；下圖顯示：攻擊水晶的時(shí)候，AI的注意力分布。

其實(shí)，對(duì)王者 AI 團(tuán)隊(duì)來說，最令人驕傲的成績(jī)不是訓(xùn)練出“絕悟”，而是碰了無數(shù)墻壁，終于找到了訓(xùn)練“多智能體協(xié)作”的那條路。

他們把這些經(jīng)驗(yàn)總結(jié)成訓(xùn)練框架，寫成論文發(fā)表在了國際頂級(jí)期刊上。

這下，全世界的“多智能體協(xié)作”研究者終于不會(huì)再像楊巍當(dāng)年那樣，沒有任何可以參考的文獻(xiàn)了，人工智能的邊界也由此確鑿無疑地前進(jìn)了一點(diǎn)點(diǎn)。

王者 AI 團(tuán)隊(duì)把過去幾年摸索出的一整套“強(qiáng)化學(xué)習(xí)框架”寫成論文，投到頂級(jí)學(xué)術(shù)會(huì)議（NeurlPS 2020）發(fā)表。

我剛剛一直在說“多智能體協(xié)作”，估計(jì)很多淺友會(huì)感到陌生。

其實(shí)，“多智能體協(xié)作”是解決很多現(xiàn)實(shí)難題的基石技術(shù)之一。你不妨跟我一起想象一下：

把王者榮耀的英雄們換成汽車，把地圖換成街道，就變成了一個(gè)智能駕駛問題；

把英雄們的大招換成機(jī)械臂的動(dòng)作，就變成了協(xié)作生產(chǎn)問題；

把游戲里的分路換成大廈里的電梯井，就變成了電梯調(diào)度問題；

把防御塔看成燃燒的火焰，那么，一群英雄圍毆它就變成了火場(chǎng)救災(zāi)問題。

這樣的例子不勝枚舉。

這么說吧，如果要造出《終結(jié)者》里 T-800 那種“通用人工智能”機(jī)器人，一定要先突破“多智能體協(xié)作”技術(shù)。（我曾在《人工智能殺人回憶》里詳細(xì)寫過如何造一個(gè)“T-800”，淺友們可以點(diǎn)擊復(fù)習(xí)。）

至此，我們?cè)倩剡^頭來看黃藍(lán)梟所說的那句話：“我們絕不僅僅是用人工智能提升游戲體驗(yàn)，而是要讓它對(duì)社會(huì)和產(chǎn)業(yè)有更深遠(yuǎn)的幫助。”也許，你會(huì)有更深的感受。

沒錯(cuò)，他們要試著鑿穿王屋太行，向那個(gè)誘人卻迷霧重重的遠(yuǎn)方前進(jìn)。

目標(biāo)雖是星辰大海，可這第一步該邁哪條腿呢？

（五）開悟

2019年，黃藍(lán)梟往母校電子科大跑了好幾趟，然后又馬不停蹄地跑去中科大、北大、清華。

他在推進(jìn)一個(gè)“秘密計(jì)劃”——把訓(xùn)練絕悟的一整套平臺(tái)封裝成一個(gè)“試煉場(chǎng)”，并且免費(fèi)開放給這些高校。

這個(gè)試煉場(chǎng)，表面上是煉AI，其實(shí)是煉人的：

第一，同學(xué)們當(dāng)然可以在其中訓(xùn)練出“屬于自己的絕悟”，但其實(shí)這并不重要。

第二，通過訓(xùn)絕悟的實(shí)操過程，可以讓更多人學(xué)會(huì)AI，愛上AI，成為AI人才，這才重要。

第三，這些人才可以帶著他們的經(jīng)驗(yàn)和代碼走向各個(gè)產(chǎn)業(yè)，繼續(xù)解決不同場(chǎng)景下具體的“智能體協(xié)作”問題，這更重要。

王者 AI 團(tuán)隊(duì)和騰訊 AI LAB 決定給這個(gè)試煉場(chǎng)起名叫“開悟”。

開悟官網(wǎng)的介紹

背后的邏輯不言自明：星辰大海過于遙遠(yuǎn)，靠“單排上分”太孤獨(dú)了，得先找到無數(shù)開悟的人“組團(tuán)開黑”才能抵達(dá)。

不過，要做出一個(gè)穩(wěn)定好用的試煉場(chǎng)絕非易事。

這就像你請(qǐng)朋友來你家教Ta做飯。你肯定不能直接把Ta丟到廚房，說你自己研究吧，這樣，人家連油鹽醬醋在哪兒都找不著。。。

實(shí)際上，你需要“封裝”出一個(gè)人家看得懂、易上手的廚房。

首先，你得把菜洗干凈、把調(diào)料放好，這就是預(yù)制的算法和模型。

其次，你得把炒菜的原理和順序給人家講清楚，還要把用不到的調(diào)料藏在柜子里以防人家拿錯(cuò)，這就是AI訓(xùn)練框架。

最后，你還得給人家把煤氣灶準(zhǔn)備好，這就是數(shù)據(jù)和算力。

這樣一來，如果你是新廚子（學(xué)生），只要按順序放菜放料，也能炒出一盤不錯(cuò)的菜；如果你是大師傅（研究者），就可以自備獨(dú)特的食材和調(diào)料，炒出一份米其林餐廳標(biāo)準(zhǔn)的菜。

用王者 AI 團(tuán)隊(duì)的話說就是：王者切墩，學(xué)生炒菜。

開悟的開放從電子科大、中科大、北大、清華4所學(xué)校試點(diǎn)。

同學(xué)們學(xué)了一個(gè)學(xué)期，怎么判斷學(xué)習(xí)成果好不好呢？

這個(gè)簡(jiǎn)單，搞一個(gè)全國高校的大比賽，誰訓(xùn)練的AI打贏了，就說明誰學(xué)得好唄！這就是“開悟多智能體強(qiáng)化學(xué)習(xí)大賽”。

第一屆比賽定在2020年8月開鑼，初賽是單挑，復(fù)賽是團(tuán)戰(zhàn)。每個(gè)參賽隊(duì)必須用一套模型來控制所有指定英雄。

黃藍(lán)梟原本還很擔(dān)心同學(xué)們參賽的熱情不高?；诉@么大的成本，萬一冷場(chǎng)了多尷尬。。。

但，他多慮了。

學(xué)生們的血液都是100度的，聽說要爭(zhēng)勝負(fù)，還是打王者，一下子都來勁了。一開始是本科生，后來連碩士、博士都聞風(fēng)而來，各種壓箱底稀奇古怪的腦洞招式全掏出來招呼。

楊巍在給第一屆大賽季軍（中國科學(xué)院自動(dòng)化研究所隊(duì)）頒獎(jiǎng)。

作為評(píng)委的楊巍看了大家的作品，簡(jiǎn)直比喝了濃咖啡還提神。

“在有限的算力下，很多同學(xué)做出來的模型收斂速度甚至要好于市面上一些主流模型。這說明在模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)上，我們遠(yuǎn)遠(yuǎn)沒走到頭，還有很多技術(shù)空間可以拓展?！彼锌?。

第一屆比賽在高校中一炮而紅。到了第二屆，參賽隊(duì)伍猛然擴(kuò)充到了二十幾支，上次失利的隊(duì)伍要“血洗前恥”，上次贏的隊(duì)伍想“衛(wèi)冕成功”，上次沒參賽的說：別爭(zhēng)了，冠軍在此。

第二屆比賽的現(xiàn)場(chǎng)轉(zhuǎn)播

AI 是冷血的，但訓(xùn)練 AI 的人卻是有血有肉的。

清華大學(xué)的選手邵鍵準(zhǔn)對(duì)他們訓(xùn)練的魯班的“成長(zhǎng)過程”如數(shù)家珍：“從一開始被對(duì)面AI胖揍，到后來只掉一管血，最后甚至扭扭屁股走位就躲掉了對(duì)面的技能，AI成長(zhǎng)的過程，也是對(duì)我自己的鼓勵(lì)?！?/span>

中科大的趙鑒養(yǎng)成了一個(gè)習(xí)慣：總愛親自上陣和自己的AI對(duì)戰(zhàn)?！皬囊婚_始虐 AI，到后來開始打不過自己的 AI，這個(gè)過程回想起來是一件很浪漫的事。”他說。

四川大學(xué)的劉朋森評(píng)價(jià)自己的參賽歷程，用了簡(jiǎn)短幾個(gè)詞：創(chuàng)造生命、望子成龍、欣慰、奇妙。

讓他們把訓(xùn)練 AI 的過程和生活對(duì)比，有人把訓(xùn)練AI比作爬山，有人比作馬拉松，有人比作訓(xùn)練神奇寶貝，還有人比作吃火鍋——遇到不同的問題就像吃不同的菜，總之最后所有的菜都要吃完，而且吃飽了就很滿足。。。

但更多的同學(xué)都把自己的 AI 看成孩子。有趣的事情恰恰在此：他們?cè)谧约哼€是孩子的生命階段，就提前學(xué)會(huì)了對(duì)一個(gè)新生命的呵護(hù)、希冀、包容和祝福。

學(xué)術(shù)交流環(huán)節(jié)

而黃藍(lán)梟注意到一個(gè)細(xì)節(jié)：戰(zhàn)隊(duì)選手中有很多非人工智能專業(yè)的同學(xué)，他們的熱情一點(diǎn)都不比科班同學(xué)低，作品也很優(yōu)秀。

賽后不久，開悟團(tuán)隊(duì)的郵箱突然收到一封來自高中生的郵件。這個(gè)同學(xué)說自己對(duì)AI很感興趣，但苦于還沒上大學(xué)，想問問去哪里可以用到開悟。。。

對(duì)于人工智能的熱愛其實(shí)根植于很多人的心底，只是因?yàn)檫^去缺乏一個(gè)既有趣又好用門檻又低的學(xué)習(xí)平臺(tái)，很多本來應(yīng)該進(jìn)入人工智能領(lǐng)域的人就這樣錯(cuò)過了，這太可惜了。

黃藍(lán)梟感慨。

這些反饋給了開悟團(tuán)隊(duì)極大的鼓舞。比賽剛一落幕，開悟團(tuán)隊(duì)又開始馬不停蹄地走訪更多學(xué)校，擴(kuò)大開悟的落地范圍。

就在不久前，黃藍(lán)梟和楊光一起做了個(gè)重大決定：他們準(zhǔn)備找合適的時(shí)機(jī)把《王者榮耀》的“游戲內(nèi)核+開悟平臺(tái)”打包公開出來，讓更多對(duì)AI感興趣的研究者（無論什么職業(yè)、年齡、背景）都可以下載回來做研究。

開悟正試著創(chuàng)造一個(gè)“人工智能面前人人平等的世界”。

（六）一個(gè)“游戲”的使命

雖然緩慢，但預(yù)言正在成真。

2022年，西南交通大學(xué)計(jì)劃開展一個(gè)研究：把源于開悟平臺(tái)的人工智能模型遷移到了智能交通燈的控制。

王者榮耀的英雄們不在虛擬空間里游走，而是鉆進(jìn)了信號(hào)燈；他們的任務(wù)也不再是打團(tuán)推塔，而是協(xié)作指揮交通、控制車流，在真實(shí)世界里輸出服務(wù)。

在這一刻，“孫悟空”終于可以喊出：I'm Real。

黃藍(lán)梟告訴我，西南交大項(xiàng)目只是一個(gè)開始，類似的“產(chǎn)業(yè)+開悟”合作還有好多好多，但大都在陸續(xù)展開階段，現(xiàn)在還不方便透露，大家敬請(qǐng)期待。

楊巍告訴我，如果看向技術(shù)的未來，《王者榮耀》對(duì)人工智能的貢獻(xiàn)可能遠(yuǎn)不止于此。

例如在“內(nèi)容生成”方向，目前前沿的研究可以做到讓 AI 根據(jù)角色設(shè)定自動(dòng)生成對(duì)白，也可以根據(jù)模型智能生成步態(tài)、行為。

如此一來，過去通過“真人+動(dòng)捕+純?nèi)斯ば拚眮碜龅?NPC，未來都可以用人工智能生來輔助制作，既省時(shí)省錢，又提升效果。

這些技術(shù)同樣可以脫離游戲，幫助制造未來的“服務(wù)機(jī)器人”或“形象更友好的機(jī)器人”。

而在“智能決策”方向，即便絕悟已經(jīng)打遍天下無敵手，但放眼未來，它仍在“嬰兒階段”。未來可做的事情還有很多。

第一個(gè)就是：“博弈場(chǎng)景”。

你有沒有發(fā)現(xiàn)，游戲和游戲其實(shí)是不同的？

圍棋、《王者榮耀》所代表的游戲類型是競(jìng)技性的，這種游戲背后的邏輯是只要我的“絕對(duì)戰(zhàn)力”比對(duì)手強(qiáng)，就能擊敗對(duì)手。

但還有一種游戲是博弈性的，比如猜拳、麻將。沒有一種策略可以穩(wěn)贏，我能不能贏取決于對(duì)手做了什么。

楊巍說。

這種博弈游戲的奧義，是要 AI 來分析不同策略的“抗性”。

用這種游戲訓(xùn)練出來的 AI，未來可以輔助國際商品貿(mào)易、拍賣、市場(chǎng)預(yù)測(cè)等強(qiáng)博弈的現(xiàn)實(shí)場(chǎng)景中。

第二個(gè)是：“擬人化”。

在很多游戲中，真人玩家的目標(biāo)可能不僅僅是“贏”，例如很多人喜歡玩出自己的風(fēng)格，或者打出某種畫面。

所以，人工智能也不應(yīng)該僅僅局限于“如何贏”這一件事上，怎么打得有趣、漂亮，其實(shí)是更難的研究方向。

比如在王者中，有養(yǎng)豬流，就是4個(gè)人圍繞一個(gè)人；有野核流，以打野為核心，還有鬼谷子體系、大喬體系等等。

其實(shí)完全可以通過調(diào)整獎(jiǎng)勵(lì)值來訓(xùn)練不同的“AI 風(fēng)格”，這些訓(xùn)練經(jīng)驗(yàn)未來就可以發(fā)展成人工智能的性格和情感。

楊巍說。

我們從騰訊 AI Lab 在2021年發(fā)表的論文中可以看出有趣的東西：

紅色區(qū)域表示“強(qiáng)化學(xué)習(xí) AI”會(huì)選擇的打法，橙色區(qū)域表示人類玩家會(huì)選擇的打法，而藍(lán)色區(qū)域就是調(diào)整不同風(fēng)格后 AI 學(xué)會(huì)的打法。

可以看出，“藍(lán)色AI”掌握了所有流派的打法。

第三個(gè)是：“人機(jī)配合”。

現(xiàn)在的游戲 AI 很多都用于“AI+AI”的配合模式。但在真正的生活中，“人+AI”配合的情況才是多數(shù)。

比如你在打王者榮耀的時(shí)候，有時(shí)會(huì)和隊(duì)友說：我要發(fā)起進(jìn)攻了！這時(shí)候隊(duì)友就知道了你的意圖，當(dāng)然他可以選擇和你一起來，也可以選擇不跟你來。

同理，你也應(yīng)該可以和 AI 配合，你說你要發(fā)起進(jìn)攻，AI也可以根據(jù)它對(duì)形勢(shì)的判斷，選擇跟不跟你上。

他說。

“AI還可以不聽指揮么？”我驚訝。

“當(dāng)然了，這種情況下人和AI是合作關(guān)系，不是操控關(guān)系。這種合作的效果可能比'百分百服從’更好。”他說。

我腦海里突然浮現(xiàn)出一個(gè)畫面：也許將來 AI 機(jī)器人可以代替警犬和人類一起工作，它們有自己的智慧，有自己的性格，有自己的判斷和原則，也有一顆獨(dú)特的勇敢的心。

反正肯定比邊牧強(qiáng)。

然而在我看來，真正科幻的是：一個(gè)曾經(jīng)被很多人冷眼看待的游戲，通過這種方式和國家的科技硬實(shí)力血脈相通，息息相關(guān)。

雖然不一定人人可以參透，但某些東西命中注定：

當(dāng)一個(gè)既有趣味性，又包含豐富的變量和操作接口的游戲殺出重圍，成為十幾億人熟悉的“全民游戲”那一刻起，就沒有誰比它更適合成為“AI 多智能體”的研究平臺(tái)了。

從這個(gè)角度看，讓《王者榮耀》成為人工智能發(fā)展歷程上的一部分，已經(jīng)不僅僅是騰訊的選擇，恐怕更是騰訊的責(zé)任。

（七）當(dāng)王者榮耀成為“玫瑰園”

在我和黃藍(lán)梟聊天的過程中，他總強(qiáng)調(diào)一個(gè)詞：“自主 IP”。

意思是，王者榮耀是中國人自研的游戲，其中的形象也都是以中國文化和美學(xué)偏好為出發(fā)點(diǎn)所創(chuàng)造的。

但我很不解：一個(gè)“打游戲的人工智能”，或者一個(gè)“AI研究平臺(tái)”，研究不是底層技術(shù)么？至于它操縱的是關(guān)羽張飛妲己貂蟬還是什么蟲族獸族巫師，這有啥區(qū)別？？

“不，有很大的區(qū)別！”黃藍(lán)梟堅(jiān)持。

我們做的雖然是技術(shù)，但技術(shù)的背后更是文化。

你有沒有注意到，很多70后、80后甚至90后，他們一想起曹操，那個(gè)形象其實(shí)是日本人心中的曹操形象。原因很簡(jiǎn)單，我們兒時(shí)玩的三國游戲很多都來自日本，所以美學(xué)定義也同時(shí)被日本掌握了。

他說。

黃藍(lán)梟

同樣，AlphaGo 是人工智能歷史上里程碑的作品，但是，它卻很難有一個(gè)貼切的中文譯名。仔細(xì)辨認(rèn)，你不難在“阿法狗”這個(gè)翻譯里發(fā)現(xiàn)戲謔和絲絲無奈。再看“開悟”，這卻是一個(gè)古老的東方詞匯，佛教和道教均有釋義。

黃藍(lán)梟開始了他的設(shè)想：

有朝一日，如果《王者榮耀》和開悟平臺(tái)成為了國際上最流行的多智能體訓(xùn)練研究平臺(tái)，那么，附加于人類最先進(jìn)技術(shù)之上的文化角色，就順理成章的是花木蘭，是孫悟空，而不是米老鼠、唐老鴨。

由此，中國文化的包容和閃耀，也一同走向了不分種族膚色，所有人的內(nèi)心深處，成為科技史中不可磨滅的地層。

黃藍(lán)梟對(duì)于王者榮耀的“癡情”，出乎我的意料。我并未設(shè)想過一個(gè)輕飄飄的“游戲”可以如此重若泰山地駐扎在歷史的長(zhǎng)河。

但他說服了我。

在我看來，黃藍(lán)梟的終極夢(mèng)想是把《王者榮耀》從一個(gè)“競(jìng)技場(chǎng)”變成一個(gè)“玫瑰園”。

你在競(jìng)技場(chǎng)里獲得的，是激情、勝利、熱血和快感；但你在玫瑰園里獲得的，卻是滿眼鮮艷，是和芬芳共處的時(shí)光，是一段銘記良久的溫情記憶。

技術(shù)的追求當(dāng)然沒有止境，而把文化融入科技記憶，這條路更是沒有終點(diǎn)的。

他說。

告別王者AI這群人，我甚至有點(diǎn)羨慕，羨慕他們所仰望的星空，以及他們短暫的人生里，每時(shí)每刻都更加靠近永恒的篤定和浪漫。

不知為何，我突然想起國際象棋大師伊曼紐·拉斯克曾說的一句話：如果宇宙中存在其他的智能生命，它幾乎一定會(huì)下圍棋。

如果宇宙中還存在其他生命，他會(huì)不會(huì)打王者榮耀呢？

尾圖為旅行者一號(hào)在太陽系盡頭拍攝的地球

（Pale blue dot）

參考論文：

·Hierarchical Macro Strategy Model for MOBA Game AI

https://arxiv.org/pdf/1812.07887.pdf

·Towards Playing Full MOBA Games with Deep Reinforcement Learning

https://arxiv.org/pdf/2011.12692.pdf

·Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings

https://arxiv.org/ftp/arxiv/papers/2011/2011.12582.pdf

·Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

https://arxiv.org/pdf/1912.09729.pdf

·Learning Diverse Policies in MOBA Games via Macro-Goals

https://arxiv.org/pdf/2110.14221.pdf

·Actor-Criticpolicy Optimization in a Large-Scale Imperfect-Information Game

https://openreview.net/pdf?id=DTXZqTNV5nW

參考視頻：

·王者峽谷一條街，打聽打聽誰是爹？AI是爹

https://www.bilibili.com/video/BV17w411f7Ti?spm_id_from=333.999.0.0

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区