九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
王者榮耀的B面:人類在此喧鬧,AI卻在他們腳下悟道

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會(huì)嘗試各種姿勢(shì),把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。



王者榮耀的B面:

人類在此喧鬧,AI卻在他們腳下悟道

文 | 史中

孫悟空在曠野上狂奔,喉嚨里喊出:I'm Real!!

他把金箍棒直插入地,炫目的振波四散沖開,眨眼間,又跳到敵人近身左右開弓,一頓輸出行云流水,對(duì)方血槽見半。

然而,就在下一秒,猴子卻突然判若兩猴,握著鐵棍,失神呆立,任由對(duì)手揪住一陣爆錘,剛才的威風(fēng)無影無蹤。

原因很簡(jiǎn)單:我在打《王者榮耀》——?jiǎng)倓偽疫€在操縱孫悟空,現(xiàn)在我把手指從屏幕上挪開了。

在0和1編織的賽博世界里,哪怕貴為齊天大圣,沒有玩家的“靈魂注入”,它也只是一具皮囊。

孫悟空并不 Real。

看到這兒,很多淺友可能會(huì)哭笑不得:中哥你在說啥?孫悟空不就是個(gè)游戲角色么?游戲角色不用人操縱,難道還能自己上陣殺敵不成?

誒,那可真不一定哦。

最近我就遇到一群人,他們用了6年時(shí)間在王者峽谷里鋪下了千萬行代碼,完成了三連殺:

第一、用人工智能指揮英雄戰(zhàn)勝了無數(shù)人類好手。

第二、他們還把《王者榮耀》改造成了AI科研的試煉場(chǎng);

第三、他們甚至把小小屏幕背后的游戲變成了“多智能體協(xié)作”這個(gè)人類前沿技術(shù)命題的悟道之地。

聽我細(xì)細(xì)道來。

(一)為英雄披上“AI戰(zhàn)甲” 

2016年,成都,一群人圍坐在會(huì)議室里,眼神如哲學(xué)家般深邃,如圣徒一樣虔誠,仿佛面前有一團(tuán)篝火。

坐在C位的這個(gè),名叫黃藍(lán)梟。

你也許不認(rèn)識(shí)這位老哥,但很可能以特別的方式和他“神交已久”。因?yàn)樗褪峭跽邩s耀的執(zhí)行制作人,也是天美L1工作室的總經(jīng)理。

多少個(gè)夜晚,你在被窩里端著手機(jī)上分的時(shí)候,四舍五入就是在黃藍(lán)梟和他的同事們營造的王者峽谷里輾轉(zhuǎn)纏綿。

當(dāng)時(shí),這群人正是在討論這個(gè)古老而詩意的命題——能不能用人工智能控制王者榮耀的英雄去戰(zhàn)斗?

看到這兒,你腦袋上可能又有問號(hào)了:王者榮耀的開發(fā)團(tuán)隊(duì)不好好做游戲,為啥非要用人工智能打游戲呢?

要搞清楚這個(gè)事兒,我們不妨坐在黃藍(lán)梟和王者榮耀技術(shù)負(fù)責(zé)人楊光身邊,聽聽他們?cè)谡f什么。

彼時(shí)的《王者榮耀》還不是現(xiàn)在這般耀眼的“全民游戲”,里面可選的英雄也只有幾十位,遠(yuǎn)沒有后來的一百多個(gè)。

雖然很多英雄正在秘密開發(fā)中,但有一個(gè)問題賊拉困擾他們,那就是——這個(gè)英雄放出去之后,可不敢“太能打”。

這是為啥呢?

因?yàn)槿绻募寄芴,那么,玩家用原來自己熟悉的英雄肯定打不過它,只好被迫搶著選這個(gè)英雄(或Ban掉它),這還有啥意思?

就像蹺蹺板一頭被300斤的大胖子壓得死死的,角色失去了“平衡性”。

平衡才有趣(截圖出自短片《Balance》)

那怎么才能讓一個(gè)新英雄在出生的那一刻,就和其他舊英雄是“平衡”的呢?

其實(shí),在游戲開發(fā)界有一個(gè)祖?zhèn)髅丶掠⑿郯l(fā)布之前,要找很多專業(yè)游戲測(cè)試員,用它跟老英雄打上幾千場(chǎng)。各種姿勢(shì)都盡量測(cè)試一遍,最終勝率在50%上下,那就說明它不比別人厲害也不比別人弱雞嘛。

“祖宗之法”雖好,卻有三個(gè)問題:

第一、測(cè)試員畢竟是人不是神,難以面面俱到。英雄放出去后,上億玩家的智慧一起轟炸,還是難免發(fā)現(xiàn)一些騷操作,打破平衡性。

第二、人工測(cè)試太貴,越是要測(cè)試得萬無一失,越是需要更多測(cè)試員,就越貴;

第三、測(cè)試員一多,又難免走漏風(fēng)聲。新英雄提前泄密,是游戲的大忌。

聽到這兒,黃藍(lán)梟看向你:這位同學(xué),你有啥好辦法?

估計(jì)你會(huì)說:

那能不能搞一個(gè)水平很高的機(jī)器人,左手新英雄,右手舊英雄,自己跟自己大戰(zhàn)十萬回合?

反正電腦也不吃盒飯,有電就能跑,不僅省時(shí),還能比人類測(cè)試得更完善,還不擔(dān)心泄密,一舉三得!

你看,這不就回到我們剛才說的“用人工智能打游戲”了么?

人工智能腦補(bǔ)了十萬場(chǎng)對(duì)局

“這個(gè)打游戲的人工智能是怎么做出來的呢?”我好奇心爆棚。

黃藍(lán)梟示意我慢慢來,在繼續(xù)講故事之前,他得先給我科普一個(gè)小知識(shí)。

從游戲開發(fā)的角度,“用電腦控制的角色”有個(gè)統(tǒng)稱,叫“智能體”。

他說。

如果寬泛地說,智能體的歷史可非常悠久。

就拿大家都熟悉的1985版《超級(jí)瑪麗》來說,那個(gè)一上來就收走了無數(shù)小白人頭的“香菇怪”就可以看做是最簡(jiǎn)單的“智能體”。

進(jìn)一步說,《仙劍》《最終幻想》里那些叨逼叨的 NPC 也是智能體;

再看《星際爭(zhēng)霸》《王者榮耀》里,那些小兵、野怪就更是智能體了。

這里要猛敲黑板?。?!

人工智能是近幾年才成熟的,那在這之前,驅(qū)動(dòng)“智能體”的經(jīng)典技術(shù)叫做“狀態(tài)機(jī)”“行為樹”。

所謂行為樹,可以理解為是一個(gè)身上長(zhǎng)滿了“開關(guān)”的機(jī)器人。

比如天氣黑了,就相當(dāng)于觸發(fā)了一個(gè)開關(guān),機(jī)器人就要做一個(gè)動(dòng)作;對(duì)手發(fā)了一個(gè)招,就觸發(fā)了另一個(gè)開關(guān),機(jī)器人就會(huì)躲避,然后按照預(yù)先寫好的腳本還擊。這個(gè)和工業(yè)上的機(jī)器人原理類似。

總之,所有反應(yīng)的背后都是一條條具體的規(guī)則。規(guī)則越完備、越細(xì)致,機(jī)器人就看起來更聰明。

黃藍(lán)梟解釋。

這是一個(gè)簡(jiǎn)單的行為樹示意圖。

用行為樹驅(qū)動(dòng)的智能體在《王者榮耀》里早就有了,用在小兵、野怪的控制、新手教程之類的很多地方。

那還要人工智能干啥?

這是因?yàn)?,行為樹存在天花板,里面的?guī)則即使寫得再精細(xì),水平最多也就相當(dāng)于“青銅”。

用“行為樹”來測(cè)試新英雄的平衡性顯然不靠譜——這就像戰(zhàn)士們?nèi)粘S冒糇硬倬毩耸f次,上戰(zhàn)場(chǎng)之后看到對(duì)手掏出了機(jī)關(guān)槍。。。

現(xiàn)在你就明白了,回到2016年,王者 AI 團(tuán)隊(duì)想要的東西準(zhǔn)確來說是——“用人工智能驅(qū)動(dòng)的高級(jí)智能體”

做出這種“智能體”,所需的技術(shù)約等于人類科技的極限,純靠天美工作室的能力恐怕不夠。。。

大伙兒發(fā)愁,從哪兒找點(diǎn)厲害的幫手呢?

此時(shí),我們不妨把王者團(tuán)隊(duì)的故事按下暫停,挪一下地圖,從天府之國穿越到祖國南海。

2016年的深圳,騰訊總部,有另一幫人同樣聚在會(huì)議室里,眼神如哲學(xué)家般深邃,如圣徒一樣虔誠,仿佛面前有一團(tuán)篝火。

這群人來自騰訊鼎鼎大名的人工智能實(shí)驗(yàn)室——騰訊 AI Lab。

給不熟悉的淺友多介紹一句,騰訊AI Lab,基本代表了他們?nèi)斯ぶ悄芗夹g(shù)的最高水準(zhǔn)。

他們做出的病理 AI 云平臺(tái),可以輔助醫(yī)生看細(xì)胞涂片,識(shí)別一些早期癌癥的準(zhǔn)確率相當(dāng)于3~5年經(jīng)驗(yàn)的醫(yī)生;

他們做出的藥物研發(fā)系統(tǒng)“云深”,可以大大加快新藥研制的速度。

他們做出的圍棋 AI 選手“絕藝”,可以優(yōu)雅地讓世界冠軍柯潔兩子還能擊敗他;

楊巍,就是騰訊 AI Lab 的創(chuàng)始成員之一。

楊巍

當(dāng)時(shí),他和同事們剛剛做出絕藝,雖然橫掃一票人類圍棋大師,但他感覺不到狂喜——因?yàn)榘肽昵?,DeepMind 剛剛用阿法狗虐完李世石,中國人做得再牛,也不是“首創(chuàng)”了。。。

那怎么才能做出比下圍棋的AI更厲害的人工智能呢?

糾結(jié)中,楊巍劃開手機(jī)屏幕,突然看到了《王者榮耀》的圖標(biāo)——“比圍棋更復(fù)雜的游戲,我們騰訊有??!”

王者榮耀團(tuán)隊(duì)和 AI Lab 一拍即合。

大家躊躇滿志,既然要做出最能打的AI,那就得起個(gè)最能打的名字。斗戰(zhàn)勝佛悟空不正是中國文化里最能打的人(猴)么?這個(gè)AI還是“絕藝”的同胞兄弟,按照“絕”字輩排下去,就叫“王者絕悟”?。閿⑹龊?jiǎn)便,下文簡(jiǎn)稱絕悟)

回憶起這個(gè)“夢(mèng)開始的地方”,黃藍(lán)梟還是激動(dòng)不已。

用人工智能去測(cè)試英雄的平衡性、改善新手教學(xué)關(guān)卡,讓玩家玩得更爽,這當(dāng)然是現(xiàn)實(shí)目的,但僅僅這樣理解它的意義,就太簡(jiǎn)單了。

我們看到了一個(gè)更大的機(jī)會(huì):《王者榮耀》這個(gè)純國產(chǎn)自研的IP如果可以突破“游戲”的局限,成為一個(gè)訓(xùn)練智能體協(xié)作的基礎(chǔ)設(shè)施,那才能對(duì)社會(huì)和產(chǎn)業(yè)有更深遠(yuǎn)的幫助!

他說。

楊巍接受委派,成為了絕悟的AI技術(shù)帶頭人,心潮奔涌。

然而,熱情的巖漿即刻冷卻,變成了沉重的磚石。

舉目四望,當(dāng)時(shí)整個(gè)地球上還很少有人公開用AI打“復(fù)雜游戲”的計(jì)劃,也沒有研究者公布相關(guān)學(xué)術(shù)論文,更沒有成熟的代碼、算法可以參考——標(biāo)準(zhǔn)的“三無狀態(tài)”。

該從哪兒下手呢?

(二)英雄的“內(nèi)啡肽” 

在普通人看來,圍棋和《王者榮耀》是毫無關(guān)系的兩種玩意兒——前門樓子和胯骨軸子。但在楊巍這種專業(yè)大牛的眼里,《王者榮耀》其實(shí)可以理解為升級(jí)版的圍棋。

只不過,升級(jí)的跨度有點(diǎn)大就是了。。。

楊巍告訴我,它們的區(qū)別主要有三:

第一、圍棋的玩法是一對(duì)一,王者榮耀的玩法是五對(duì)五(5v5),可以不嚴(yán)謹(jǐn)?shù)乩斫鉃椤?0個(gè)人一起下的圍棋”。

第二、圍棋是回合制比賽,我下的時(shí)候你只能看。但王者榮耀是“即時(shí)競(jìng)技”,兩邊同時(shí)肝,誰猶豫一秒就會(huì)敗北。

第三、圍棋盤面就361個(gè)點(diǎn),黑方和白方看到的局面都是完整的、一致的。可王者榮耀的游戲玩家只能看到自己視野內(nèi)的局面,至于視野外的敵人具體在干嘛,那純得靠“猜”了。

從數(shù)學(xué)的角度看,玩這種(有絕對(duì)強(qiáng)度的)對(duì)抗游戲,要想勝率達(dá)到絕對(duì)意義的100%,其實(shí)只有一種辦法——窮舉。

就拿圍棋來說,對(duì)手下完一招棋之后,我如果可以把棋盤上所有能下子的點(diǎn)位都思考一遍,然后在每種可能性的基礎(chǔ)上,再把接下來對(duì)手可能下的點(diǎn)位再思考一遍,以此類推,把億萬種不同的“劇本”全都嘗試過,最終就能“遍歷”所有的“狀態(tài)空間”。

這相當(dāng)于每一種走法將會(huì)導(dǎo)致的結(jié)局我全了如指掌,那想輸也輸不了。。。

但壞消息是:窮舉圍棋的每一種姿勢(shì)只在理論上可行,現(xiàn)實(shí)中,它已經(jīng)超越了所有計(jì)算機(jī)的計(jì)算極限。

還有更壞的消息:王者榮耀的狀態(tài)空間比圍棋更大,更是超越人類計(jì)算機(jī)極限不知哪里去了。粗略估計(jì)一下,打一局王者,里面可能有10的20000次方種操作的可能性。不好意思,宇宙中原子的總數(shù)也只有10的80次方個(gè)。這事兒估計(jì)上帝也做不到。。。

不用窮舉法,那用啥法呢?

“依葫蘆畫瓢法”。

還是舉個(gè)生活中的小栗子吧。

你是一個(gè)360斤的胖子,想減肥到120斤,這是你的終極目標(biāo)。

為了達(dá)到這個(gè)目標(biāo),你得分成10086個(gè)步驟來做。而每一步里,你還面臨10086種選擇。

比如早晨第一步就有“不吃早餐”、“吃包子”、“吃面條”、“吃雞蛋”、吃“肉夾饃”。。。(你完全沒辦法窮舉)

可是,哪個(gè)操作能提高最終的“勝率”,你完全不知道??!

這時(shí)候,最好的辦法不是原地苦想,而是看哪位老哥曾經(jīng)減肥成功,你模仿他的操作。

如果他早餐吃的是“雞蛋沙拉”,那你也應(yīng)該先嘗試吃“雞蛋沙拉”;他第二步是“晨跑30分鐘”,那你也應(yīng)該這樣。(雖然從上帝視角來看,一定存在更適合你的辦法,但你就!是!不!知!道!最好的選擇只有模仿。。。)

絕悟最初學(xué)習(xí)打王者也是同樣的道理,這個(gè)過程的學(xué)名叫“模仿學(xué)習(xí)”

模仿誰呢?模仿職業(yè)電競(jìng)選手。

王者榮耀的高手大概都知道,有一個(gè)名叫 KPL(王者榮耀職業(yè)聯(lián)賽)的比賽,是這款游戲的最高殿堂,每年職業(yè)選手都會(huì)在這里來一次華山論劍,而這些比賽錄像都是公開的。

于是,騰訊 AI Lab 趕緊把這些錄像都找來,讓人工智能學(xué)習(xí)。

KPL 比賽現(xiàn)場(chǎng)

人工智能當(dāng)然不會(huì)排排坐背著手聽老師講課——所謂學(xué)習(xí)是通過一種叫做“獎(jiǎng)勵(lì)”的東西實(shí)現(xiàn)的。

這一點(diǎn)和人類的進(jìn)步過程也超級(jí)相似。人在不斷實(shí)現(xiàn)目標(biāo)的過程,大腦會(huì)分泌“獎(jiǎng)勵(lì)遞質(zhì)”內(nèi)啡肽。

還拿減肥舉例:今天你跑步半小時(shí),內(nèi)啡肽就會(huì)分泌;晚餐八分飽,又會(huì)分泌;睡個(gè)好覺頭腦清醒,又會(huì)分泌;直至最后減肥成功,大分泌。

人類的“內(nèi)啡肽分泌體系”是千萬年進(jìn)化的結(jié)果,可絕悟沒這些,腦袋里是一張白紙——所有的“獎(jiǎng)勵(lì)機(jī)制”都需要人類從頭設(shè)計(jì)。

所以,人工智能的訓(xùn)練,本質(zhì)上就是獎(jiǎng)勵(lì)設(shè)計(jì)的過程!

楊巍一語道破天機(jī)。

這段科普截取自X科技實(shí)驗(yàn)室的視頻節(jié)目,他們很好地解釋了絕悟的訓(xùn)練過程,非常推薦,鏈接附后。

比如,敵人被擊中掉血,我方英雄該怎么賞?對(duì)方英雄出招被我躲過,賞多少?對(duì)方英雄被擊殺,怎么賞?推掉一個(gè)塔,怎么賞?打團(tuán)幫同伴擋住敵人大招,怎么賞?

當(dāng)然除了正獎(jiǎng)賞,還有負(fù)獎(jiǎng)賞——罰。

比如,我方英雄被擊中殘血,應(yīng)該罰多少?如果罰得太多,英雄就會(huì)不敢出戰(zhàn),各種逃竄,甚至掉一絲血就想回城補(bǔ)血;如果罰得太少,英雄又會(huì)傻沖,容易被團(tuán)滅。

你看,這種獎(jiǎng)勵(lì)的設(shè)計(jì)過程非常精細(xì)——往往獎(jiǎng)勵(lì)值變化一點(diǎn)點(diǎn),就會(huì)導(dǎo)致訓(xùn)練出來的英雄性格迥異。所以,需要技術(shù)宅們蹲在電腦前反復(fù)調(diào)整實(shí)驗(yàn),才會(huì)試出理想的結(jié)果。

注意看,這里殺敵的獎(jiǎng)勵(lì)反而是負(fù)的,因?yàn)檫@個(gè)過程會(huì)導(dǎo)致其他獎(jiǎng)勵(lì)都在增加,如果此處再給獎(jiǎng)勵(lì)會(huì)讓AI過于執(zhí)著于擊殺敵人。(由此可見獎(jiǎng)勵(lì)調(diào)整過程中有很多反直覺的操作。)

怎么樣,聽上去這個(gè)“絕悟訓(xùn)練計(jì)劃”天衣無縫吧。

呵呵。

(三)少年絕悟 

我們把時(shí)間軸拉到2017年。

彼時(shí),已經(jīng)“埋頭苦練”半年的絕悟一招一式都有了模樣,感覺棒棒噠,迫不及待想找個(gè)對(duì)手試一下。

“來,你們出個(gè)強(qiáng)人跟絕悟打一場(chǎng)!”楊巍對(duì)王者團(tuán)隊(duì)下戰(zhàn)書。

王者的同學(xué)說,我們不是有負(fù)責(zé)新手教學(xué)的“行為樹”么,絕悟先跟行為樹打一仗,贏了再說唄。

“哼,竟然小瞧人?!睏钗∷麄兒咧∏呀^悟和行為樹的接口連通,兩邊干了一架。

結(jié)果。。。。絕悟被打得滿地找牙。

之前說過,行為樹的水平大概是“倔強(qiáng)青銅”,這么一比的話,彼時(shí)的絕悟水平大概就是。。。躺平廢柴。。。

啊,我們一群人開發(fā)了半年的人工智能,比不上一個(gè)王者開發(fā)同學(xué)花半個(gè)月寫的行為樹,那感覺簡(jiǎn)直無地自容。當(dāng)時(shí)就覺得這玩意兒簡(jiǎn)直太難了。

楊巍回憶。

受了打擊,他跟業(yè)內(nèi)專家交流,倒倒苦水。

本想求點(diǎn)“練兵高招”,可大家的意見卻如五雷轟頂:這玩意兒做出來的可能性確實(shí)不大,早點(diǎn)放棄,也不是不行。。。

可是,眼看團(tuán)隊(duì)同學(xué)們每天還在冥思苦想解決辦法,自己放棄,這可怎么見江東父老呢?他只好頂住壓力,裝作無事發(fā)生,繼續(xù)鼓勵(lì)大伙兒。


果然,功夫不負(fù)苦心人,有兩個(gè)方向漸漸在他們的視野里清晰起來:

第一,即便是 KPL 高手,也不意味著每一個(gè)操作都是正確的嘛!他們也有失誤,也會(huì)有平庸的操作,不能啥都跟他們學(xué)。

第二,人類打游戲時(shí)是左手控制方向,右手控制出招,分別是兩個(gè)腦區(qū)負(fù)責(zé)的。那是不是絕悟也應(yīng)該把“走位”和“出招”分開來訓(xùn)練呢?

先說第一個(gè)方向。

怎么讓 AI 學(xué)到人類精華呢?

黃藍(lán)梟派出幾位精銳的游戲策劃師,他們不僅是游戲的主創(chuàng)成員,更是打游戲的高手。這些高手的任務(wù)很奇特:不用干別的,就盯著屏幕把比賽錄像看N遍。

因?yàn)樗麄儗?duì)游戲的理解特別深刻,所以,有些我們看上去炫酷的操作,在他們眼里反而是平平無奇的花架子;有些容易被忽略的微操,在他們心中恰恰是功底深厚的神來之筆(老玩家應(yīng)該明白這種感覺)。

就這樣,他們調(diào)動(dòng)畢生經(jīng)驗(yàn),把真正的優(yōu)秀操作一個(gè)不落地標(biāo)記出來。

這個(gè)操作,就是人類高手的經(jīng)驗(yàn)被“提純”成《九陰真經(jīng)》的過程。接下來,只要推著絕悟的后背傳入它體內(nèi)就好。

這是英雄學(xué)會(huì)了“利用草叢”,陰在草叢后面等對(duì)手進(jìn)入攻擊距離,猛然跳出一波帶走。

這是兩個(gè)英雄學(xué)會(huì)了“配合”,英雄A用護(hù)甲保護(hù)殘血隊(duì)友B,并且打出空間,隊(duì)友B默契地用技能擊殺對(duì)手。

再說第二個(gè)方向。

他們把涉及位置移動(dòng)的操作全部交給一個(gè)系統(tǒng)訓(xùn)練,又把涉及出招的操作交給另一個(gè)系統(tǒng)訓(xùn)練。這樣一分開,果然,絕悟的腦子不再是一團(tuán)漿糊,操作清爽多了。

需要強(qiáng)調(diào)的是,這個(gè)思路還進(jìn)一步啟發(fā)了他們,除了左右手操作分開訓(xùn)練,是不是還能把其他一些重要的決策也獨(dú)立訓(xùn)練呢?

于是,他們又搞出了好幾個(gè)獨(dú)立的“腦區(qū)”:

比如有一個(gè)腦區(qū)專門負(fù)責(zé)“猜測(cè)敵人位置”:每時(shí)每刻根據(jù)現(xiàn)場(chǎng)的情況修改判斷,比如在這個(gè)草叢沒有見到對(duì)手,那對(duì)手在另外草叢的概率就會(huì)增高;

比如還有一個(gè)腦區(qū)專門負(fù)責(zé)“大局研判”,基于現(xiàn)在的戰(zhàn)勢(shì),我應(yīng)該往哪里走才對(duì)整體最有利?有了大局研判, 英雄的格局就打開了, 不會(huì)在屏幕這一小塊區(qū)域里戀戰(zhàn),而是能運(yùn)動(dòng)起來,及時(shí)出現(xiàn)在險(xiǎn)要位置。




兩個(gè)紅點(diǎn),分別表示了此時(shí)此刻英雄在全局的目標(biāo)和在本地的目標(biāo)。就是由兩個(gè)腦區(qū)生成的。


這些腦區(qū)雖然獨(dú)立思考,卻能很好地協(xié)作:

1、他們都能根據(jù)自己了解的情況產(chǎn)生“獎(jiǎng)勵(lì)值”;

2、諸多腦區(qū)的“獎(jiǎng)勵(lì)值”綜合在一起,共同對(duì)英雄的行為施加影響;

3、這種操作,就像用幾根細(xì)細(xì)的絲線來共同控制木偶那樣。



經(jīng)過這么一堆改進(jìn),絕悟的水平果然開始慢慢提高。

懷著忐忑的心情,騰訊 AI Lab 的同事又讓絕悟跟行為樹約了一架——這次,換行為樹滿地找牙了。

艾瑪,大仇終于得報(bào)!絕悟團(tuán)隊(duì)的技術(shù)宅們復(fù)盤絕悟的戰(zhàn)斗錄像,就像老父親拿著兒子補(bǔ)考了十次的60分成績(jī)單,熱淚盈眶,瀕死的自信心總算緩過來一些。

可信心這個(gè)東西,幾天不打擊,又會(huì)變得膨脹。

2017年底,又練了幾個(gè)月的團(tuán)隊(duì)覺得絕悟的水平可以了,是時(shí)候找?guī)讉€(gè)真人胖揍一頓立立威了。于是他們?cè)谝淮胃邔庸芾頃?huì)上,熱情挑逗茶歇中的領(lǐng)導(dǎo)們跟絕悟來上一局。

領(lǐng)導(dǎo)們興致來了:玩就玩,正好看看你們的水平如何。

本來騰訊 AI Lab 他們盤算的是,領(lǐng)導(dǎo)又不是專業(yè)選手,水平能有多強(qiáng),絕悟別把人類虐太慘就好。結(jié)果,很快他就發(fā)現(xiàn)自己魯莽了。這幾位自告奮勇的領(lǐng)導(dǎo)有兩個(gè)都是王者段位,其他都是星耀。

豪華陣容直接把絕悟虐在當(dāng)場(chǎng),氣氛一度有些尷尬。。。

領(lǐng)導(dǎo)說來啊再打一局,絕悟團(tuán)隊(duì)說對(duì)不起打擾了。。。

這次“慘痛教訓(xùn)”,讓他們學(xué)得老乖了。

“猥瑣發(fā)育,別浪?!焙髞砭统闪宋覀兺跽呓^悟的研發(fā)方針。和打游戲一個(gè)道理嘛。

黃藍(lán)梟說。

果然,絕悟狠狠猥瑣了大半年,閉關(guān)苦練,戰(zhàn)力大幅提升。直到2018年,陸續(xù)有“同行”的新聞爆出,阿法狗的開發(fā)者 DeepMind 正在挑戰(zhàn)用AI打《星際爭(zhēng)霸》,馬斯克參與創(chuàng)建的 OpenAI 也開始打 Dota 的主意。

黃藍(lán)梟默默點(diǎn)頭,果然大家都想到一起去了。

這種情況,就不該再猥瑣下去了,是時(shí)候讓絕悟也揭開面紗——找真實(shí)的人類來一場(chǎng)《王者榮耀》公開賽了!

“可是,那時(shí)候絕悟的能力也許打不過頂尖職業(yè)賽手吧?”我問。

“不是也許,就是打不過。因?yàn)槭歉诼殬I(yè)選手屁股后面學(xué)的,理論上沒辦法比人家更厲害。”他笑。

選來選去,王者絕悟團(tuán)隊(duì)挑中了幾位游戲主播和前KPL選手,在2018年的 KPL 總決賽上向他們發(fā)起挑戰(zhàn)。這些玩家當(dāng)然也很厲害,但畢竟不是巔峰狀態(tài)的職業(yè)選手,想來和當(dāng)時(shí)的絕悟水平正好相配。

絕悟?qū)﹃嚽奥殬I(yè) KPL 選手辰鬼、零度和職業(yè)解說白樂、九天和立人組成的人類戰(zhàn)隊(duì)。


楊巍帶隊(duì)去了現(xiàn)場(chǎng)。他還記得,比賽前一晚雙方就開始“斗智斗勇”了。

主播隊(duì)和絕悟隊(duì)進(jìn)行了友好的賽前會(huì)面。主播隊(duì)說我們很菜,楊巍說不不不我們才菜。主播說你們敢把絕悟拿出來,肯定有把握。楊巍說真沒有,你們明天千萬別打得太認(rèn)真。

一陣尷尬沉默,主播們終于說出了那個(gè)藏在心底的請(qǐng)求:今晚能不能先讓我們私下打一局,體驗(yàn)一下絕悟的實(shí)力?

楊巍的頭搖成撥浪鼓。他眼角余光瞥見同事們,這群人頭搖得比他還厲害。

雖然表面不能讓別人看出來,但其實(shí)心里確實(shí)沒底。

因?yàn)?AI 訓(xùn)練的原理就決定了它不可能覆蓋所有可能性。對(duì)手一旦使出怪招,天知道會(huì)觸發(fā)什么Bug。萬一絕悟有啥弱點(diǎn)被對(duì)方拿捏了,第二天我們必?cái)o疑啊。。。

楊巍回憶。

就在麻桿打狼兩頭害怕的曖昧氣氛中,比賽正式打響。



畫面通過直播信號(hào)忠實(shí)地向千萬觀眾傳送。楊巍和同事坐在導(dǎo)播臺(tái)后面,手心里全是汗。這場(chǎng)比賽沒有彩排,只有上帝才知道結(jié)局。

剛開始幾分鐘,主播隊(duì)的英雄配合默契,像拳頭一樣猛攻,而絕悟的幾個(gè)英雄卻像五指伸開。這種溫吞的戰(zhàn)術(shù)讓觀眾完全看不懂,而且局面上,絕悟也是且戰(zhàn)且退,仿佛屏幕上寫滿了“招架不住”。。。

楊巍都快昏過去了。

比賽到三分半,絕悟已經(jīng)被“四殺”

當(dāng)時(shí)我已經(jīng)開始想,如果輸?shù)舯荣?,回去要怎么和領(lǐng)導(dǎo)交代,怎么總結(jié)教訓(xùn)了。。。

他說。

然而,現(xiàn)場(chǎng)觀眾卻漸漸陷入沉默,因?yàn)榻^悟穩(wěn)住了陣腳,溫吞的防守變成有條不紊的輸出,竟然開始一點(diǎn)點(diǎn)扳回局面。

那一刻,楊巍突然意識(shí)到,除了技戰(zhàn)術(shù)本身,AI 相比人類還有一個(gè)巨大的優(yōu)勢(shì),那就是無論局面如何危在旦夕,它都不會(huì)受到情緒影響,因?yàn)樗蜎]有情緒!

反觀主播,心態(tài)開始肉眼可見地出現(xiàn)滑坡、滑坡、滑坡、泥石流。

這是絕悟最終取勝的畫面。


人類戰(zhàn)隊(duì)水晶被拆那一瞬間,藏在導(dǎo)播臺(tái)后面的楊巍他們彈射起來,高聲歡呼。導(dǎo)播轉(zhuǎn)過身來怒目而視:吵什么!我們正在直播呢!!

絕悟脖子上戴滿花環(huán),載譽(yù)而歸。

可是,和榮譽(yù)一起到來的,卻是巨大的瓶頸。




(四)自己“揍”自己 


問你個(gè)問題:孫悟空和他師傅菩提老祖誰更厲害?

那還用說,肯定是當(dāng)師傅的菩提老祖更厲害。西游記里說孫悟空只跟菩提老祖學(xué)了個(gè)皮毛。就算他把菩提老祖的技能全學(xué)會(huì),那也只是和菩提老祖打個(gè)平手。

糾結(jié)點(diǎn)就在這兒。從“模仿學(xué)習(xí)”的原理來看,是不存在“青出于藍(lán)而勝于藍(lán)”的可能的。AI無論多努力,最多只能學(xué)到師傅的八成功力。

換句話說,絕悟要想繼續(xù)精進(jìn),超過頂尖職業(yè)選手的水平,已經(jīng)沒有師傅可以教得了它了。

只剩一種選擇:自己教自己——讓 AI 通過無數(shù)次和自己對(duì)戰(zhàn),領(lǐng)悟進(jìn)階的真諦。

用人工智能的“黑話”來說,這種自學(xué)行為就叫“強(qiáng)化學(xué)習(xí)”。

你還記得當(dāng)年,在 AlphaGo(阿法狗)之后,又出來一個(gè) AlphaZero(零狗)么?

這個(gè)零狗就是通過自己跟自己下了好幾億盤棋自學(xué)成才的。后來證明,它比阿法狗還能打一萬倍,人類絕無希望戰(zhàn)勝。

這張圖是強(qiáng)化學(xué)習(xí)的架構(gòu)圖(點(diǎn)擊可以放大)。最左邊是輸入信息,包括:不可見信息(猜的)、小地圖、己方英雄、敵方戰(zhàn)斗單位(英雄、小兵、野怪、塔);中間是數(shù)據(jù)通過不同的神經(jīng)網(wǎng)絡(luò);右邊是輸出結(jié)果,包括大局的研判、現(xiàn)在應(yīng)該做的事情(做啥,怎么做,對(duì)誰做)。


楊巍告訴我,從2019年開始,在絕悟團(tuán)隊(duì)里就專門拉出來一支“特種兵”,用強(qiáng)化學(xué)習(xí)的方式秘密訓(xùn)練“絕悟2.0”。

可是,特種兵面前卻是一個(gè)岔路口:

向左走,是把之前已經(jīng)學(xué)成的“絕悟1.0”拿來繼續(xù)深造成“2.0”;

向右走,是從零開始訓(xùn)練“絕悟2.0”。



這倆有啥區(qū)別呢?

如果在絕悟1.0基礎(chǔ)上深造,相當(dāng)于大學(xué)畢業(yè)直接考研,難度不大,但大學(xué)階段養(yǎng)成的“積習(xí)”已經(jīng)定型,受限于這個(gè)歷史包袱,很難有翻天覆地的進(jìn)步;

如果從一張白紙訓(xùn)練絕悟2.0,那么雖然能拋掉歷史包袱,但可想而知計(jì)算量非常巨大,萬一模型和參數(shù)調(diào)整不好,就可能面臨“沒練會(huì),先練廢”的慘烈局面。。。

技術(shù)宅們商量了一下,欲練神功必先“自宮”,是男人就該對(duì)自己狠一點(diǎn),咱從零開始。



最初數(shù)據(jù)看起來都很完美,但時(shí)間一點(diǎn)點(diǎn)過去,模型還是不收斂,而且曲線開始搖擺,甚至突然一下就跌到負(fù)值。。。

楊巍回憶。

這個(gè)局面就有點(diǎn)尷尬了。

訓(xùn)練模型就好比燒制一個(gè)巨大的陶瓶——放在窯里繼續(xù)等待,也許再等十天半個(gè)月模型可以定型;但也可能再等個(gè)一年半載也無法定型;更有可能等了很久,燒出來一看,已經(jīng)碎裂。。。

翻遍了頂級(jí)期刊論文,也沒人研究過面對(duì)這種情況應(yīng)該怎么辦。楊巍他們知道,自己站在實(shí)踐的最前沿,只能摸著石頭過河了。

仔細(xì)反思,他們想到了一種辦法:

之前的操作是想畢其功于一役,把10個(gè)英雄放在5v5的地圖里一鍋燉,當(dāng)然就會(huì)造成模型異常復(fù)雜。那能不能把訓(xùn)練分成幾步走呢?

順著這個(gè)思路,他們制定了周密的計(jì)劃:

第一步,先在1v1的場(chǎng)景下把英雄分別練好。

第二步,把100個(gè)英雄分成20組,每5個(gè)英雄固定組隊(duì),讓每組英雄自己和自己先進(jìn)行5v5訓(xùn)練。

第三步,固定組隊(duì)英雄訓(xùn)練完畢,再把英雄打亂編隊(duì),開始亂斗訓(xùn)練。

這個(gè)操作就像學(xué)生上課一樣,一章比一章難,一學(xué)期比一學(xué)期進(jìn)階,所以又叫做“課程學(xué)習(xí)”。

可以拿學(xué)象棋來比喻,先學(xué)會(huì)兵,再學(xué)王,再一步步學(xué)會(huì)其他棋子。


說干就干。果然按照這個(gè)思路調(diào)整的“課程”,既保證了能從零開始訓(xùn)練,又保證了訓(xùn)練強(qiáng)度不會(huì)爆棚。

至此,已經(jīng)沒有什么能夠阻擋絕悟2.0的水平突飛猛進(jìn)了。

這張圖顯示的是不同階段的“課程”。注意紅圈里的紅線高于藍(lán)線。這表明,“上過前兩課”的人工智能表現(xiàn)要超過“沒上前兩課直接訓(xùn)練第三課”的人工智能。


2019年夏天,絕悟2.0按奈不住,在王者榮耀世界冠軍杯半決賽中對(duì)現(xiàn)役選手發(fā)起挑戰(zhàn),4位中國選手和一位馬來西亞選手組成聯(lián)隊(duì)迎戰(zhàn)。

這次表演賽,絕悟又把絕地反擊的戲碼來了一遍,戰(zhàn)勝了人類。

確切地說,是戰(zhàn)勝了人類玩家里最職業(yè)的那一撥。

5個(gè)人類高手對(duì)面,是5把空椅子。


這次比賽結(jié)果擺在眼前,黃藍(lán)梟長(zhǎng)出一口氣。

從2016年開始的艱難跋涉,絕悟用了整整3年,終于爬到了金字塔尖。這背后的心酸艱難和幾次瀕臨放棄,無法與人言說。

好在上天眷顧,絕悟成了。

講到這兒,我們的故事就如同一條小河開始匯入大眾記憶。

很多人可能還記得,2020年“五一”,正是很多人被疫情封在家的時(shí)候,《王者榮耀》猝不及防地升了一次級(jí),多出了一個(gè)模塊,名字就叫“挑戰(zhàn)絕悟。



沒錯(cuò),王者 AI 團(tuán)隊(duì)決定,把絕悟向普通人開放,所有人都能來挑戰(zhàn)。

一方面,讓人類來挑戰(zhàn)AI,本來就是一個(gè)新奇的游戲環(huán)節(jié);另一方面,上億玩家圍毆絕悟,對(duì)絕悟的能力和穩(wěn)定性都是前所未有的試煉。何樂而不為呢?

“這么多人打絕悟,你不擔(dān)心大家找到什么 Bug 嗎?”我問楊巍。

“這回我有信心了!再說,如果真有 Bug 被找到,沒準(zhǔn)兒大家更開心,能達(dá)到意想不到的宣傳效果呢!”楊巍笑。

果然,“挑戰(zhàn)絕悟”一出來,玩家們鉚足了勁兒開始研究干掉絕悟的“邪術(shù)”。還有大神在網(wǎng)上發(fā)帖,跟寫論文一樣闡述他發(fā)現(xiàn)的絕悟弱點(diǎn)。場(chǎng)面不要太熱鬧。

追帖的人中,就有楊巍。

有時(shí)候看大家的帖子我覺得很有趣。因?yàn)锳I的訓(xùn)練過程是一個(gè)復(fù)雜的“黑盒子”,很多絕悟的操作連我們團(tuán)隊(duì)自己都很難解釋,別人猜的就更不準(zhǔn)了。

但大家的熱情很鼓舞我們?!癆I的可解釋性”確實(shí)是一個(gè)值得研究的前沿領(lǐng)域,所以后來我們也開發(fā)了解析模塊,專門負(fù)責(zé)理解絕悟每一個(gè)操作背后的“理由”。

他說。

這張圖一定程度解釋了絕悟的思路——不同階段,絕悟的意圖不同。上圖顯示:推塔的時(shí)候,AI的注意力分布;下圖顯示:攻擊水晶的時(shí)候,AI的注意力分布。


其實(shí),對(duì)王者 AI 團(tuán)隊(duì)來說,最令人驕傲的成績(jī)不是訓(xùn)練出“絕悟”,而是碰了無數(shù)墻壁,終于找到了訓(xùn)練“多智能體協(xié)作”的那條路。

他們把這些經(jīng)驗(yàn)總結(jié)成訓(xùn)練框架,寫成論文發(fā)表在了國際頂級(jí)期刊上。

這下,全世界的“多智能體協(xié)作”研究者終于不會(huì)再像楊巍當(dāng)年那樣,沒有任何可以參考的文獻(xiàn)了,人工智能的邊界也由此確鑿無疑地前進(jìn)了一點(diǎn)點(diǎn)。

王者 AI 團(tuán)隊(duì)把過去幾年摸索出的一整套“強(qiáng)化學(xué)習(xí)框架”寫成論文,投到頂級(jí)學(xué)術(shù)會(huì)議(NeurlPS 2020)發(fā)表。


我剛剛一直在說“多智能體協(xié)作”,估計(jì)很多淺友會(huì)感到陌生。

其實(shí),“多智能體協(xié)作”是解決很多現(xiàn)實(shí)難題的基石技術(shù)之一。你不妨跟我一起想象一下:

把王者榮耀的英雄們換成汽車,把地圖換成街道,就變成了一個(gè)智能駕駛問題;

把英雄們的大招換成機(jī)械臂的動(dòng)作,就變成了協(xié)作生產(chǎn)問題;

把游戲里的分路換成大廈里的電梯井,就變成了電梯調(diào)度問題;

把防御塔看成燃燒的火焰,那么,一群英雄圍毆它就變成了火場(chǎng)救災(zāi)問題。

這樣的例子不勝枚舉。

這么說吧,如果要造出《終結(jié)者》里 T-800 那種“通用人工智能”機(jī)器人,一定要先突破“多智能體協(xié)作”技術(shù)。(我曾在《人工智能殺人回憶》里詳細(xì)寫過如何造一個(gè)“T-800”,淺友們可以點(diǎn)擊復(fù)習(xí)。)

至此,我們?cè)倩剡^頭來看黃藍(lán)梟所說的那句話:“我們絕不僅僅是用人工智能提升游戲體驗(yàn),而是要讓它對(duì)社會(huì)和產(chǎn)業(yè)有更深遠(yuǎn)的幫助。”也許,你會(huì)有更深的感受。

沒錯(cuò),他們要試著鑿穿王屋太行,向那個(gè)誘人卻迷霧重重的遠(yuǎn)方前進(jìn)。

目標(biāo)雖是星辰大海,可這第一步該邁哪條腿呢?




(五)開悟 


2019年,黃藍(lán)梟往母校電子科大跑了好幾趟,然后又馬不停蹄地跑去中科大、北大、清華。

他在推進(jìn)一個(gè)“秘密計(jì)劃”——把訓(xùn)練絕悟的一整套平臺(tái)封裝成一個(gè)“試煉場(chǎng)”,并且免費(fèi)開放給這些高校。

這個(gè)試煉場(chǎng),表面上是煉AI,其實(shí)是煉人的:

第一,同學(xué)們當(dāng)然可以在其中訓(xùn)練出“屬于自己的絕悟”,但其實(shí)這并不重要。

第二,通過訓(xùn)絕悟的實(shí)操過程,可以讓更多人學(xué)會(huì)AI,愛上AI,成為AI人才,這才重要。

第三,這些人才可以帶著他們的經(jīng)驗(yàn)和代碼走向各個(gè)產(chǎn)業(yè),繼續(xù)解決不同場(chǎng)景下具體的“智能體協(xié)作”問題,這更重要。

王者 AI 團(tuán)隊(duì)和騰訊 AI LAB 決定給這個(gè)試煉場(chǎng)起名叫“開悟”。

開悟官網(wǎng)的介紹


背后的邏輯不言自明:星辰大海過于遙遠(yuǎn),靠“單排上分”太孤獨(dú)了,得先找到無數(shù)開悟的人“組團(tuán)開黑”才能抵達(dá)。

不過,要做出一個(gè)穩(wěn)定好用的試煉場(chǎng)絕非易事。

這就像你請(qǐng)朋友來你家教Ta做飯。你肯定不能直接把Ta丟到廚房,說你自己研究吧,這樣,人家連油鹽醬醋在哪兒都找不著。。。

實(shí)際上,你需要“封裝”出一個(gè)人家看得懂、易上手的廚房。

首先,你得把菜洗干凈、把調(diào)料放好,這就是預(yù)制的算法和模型。

其次,你得把炒菜的原理和順序給人家講清楚,還要把用不到的調(diào)料藏在柜子里以防人家拿錯(cuò),這就是AI訓(xùn)練框架。

最后,你還得給人家把煤氣灶準(zhǔn)備好,這就是數(shù)據(jù)和算力。

這樣一來,如果你是新廚子(學(xué)生),只要按順序放菜放料,也能炒出一盤不錯(cuò)的菜;如果你是大師傅(研究者),就可以自備獨(dú)特的食材和調(diào)料,炒出一份米其林餐廳標(biāo)準(zhǔn)的菜。

用王者 AI 團(tuán)隊(duì)的話說就是:王者切墩,學(xué)生炒菜



開悟的開放從電子科大、中科大、北大、清華4所學(xué)校試點(diǎn)。

同學(xué)們學(xué)了一個(gè)學(xué)期,怎么判斷學(xué)習(xí)成果好不好呢?

這個(gè)簡(jiǎn)單,搞一個(gè)全國高校的大比賽,誰訓(xùn)練的AI打贏了,就說明誰學(xué)得好唄!這就是“開悟多智能體強(qiáng)化學(xué)習(xí)大賽”

第一屆比賽定在2020年8月開鑼,初賽是單挑,復(fù)賽是團(tuán)戰(zhàn)。每個(gè)參賽隊(duì)必須用一套模型來控制所有指定英雄。

黃藍(lán)梟原本還很擔(dān)心同學(xué)們參賽的熱情不高?;诉@么大的成本,萬一冷場(chǎng)了多尷尬。。。

但,他多慮了。

學(xué)生們的血液都是100度的,聽說要爭(zhēng)勝負(fù),還是打王者,一下子都來勁了。一開始是本科生,后來連碩士、博士都聞風(fēng)而來,各種壓箱底稀奇古怪的腦洞招式全掏出來招呼。


楊巍在給第一屆大賽季軍(中國科學(xué)院自動(dòng)化研究所隊(duì))頒獎(jiǎng)。


作為評(píng)委的楊巍看了大家的作品,簡(jiǎn)直比喝了濃咖啡還提神。

“在有限的算力下,很多同學(xué)做出來的模型收斂速度甚至要好于市面上一些主流模型。這說明在模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)上,我們遠(yuǎn)遠(yuǎn)沒走到頭,還有很多技術(shù)空間可以拓展?!彼锌?。

第一屆比賽在高校中一炮而紅。到了第二屆,參賽隊(duì)伍猛然擴(kuò)充到了二十幾支,上次失利的隊(duì)伍要“血洗前恥”,上次贏的隊(duì)伍想“衛(wèi)冕成功”,上次沒參賽的說:別爭(zhēng)了,冠軍在此。

第二屆比賽的現(xiàn)場(chǎng)轉(zhuǎn)播


AI 是冷血的,但訓(xùn)練 AI 的人卻是有血有肉的。

清華大學(xué)的選手邵鍵準(zhǔn)對(duì)他們訓(xùn)練的魯班的“成長(zhǎng)過程”如數(shù)家珍:“從一開始被對(duì)面AI胖揍,到后來只掉一管血,最后甚至扭扭屁股走位就躲掉了對(duì)面的技能,AI成長(zhǎng)的過程,也是對(duì)我自己的鼓勵(lì)?!?/span>

中科大的趙鑒養(yǎng)成了一個(gè)習(xí)慣:總愛親自上陣和自己的AI對(duì)戰(zhàn)?!皬囊婚_始虐 AI,到后來開始打不過自己的 AI,這個(gè)過程回想起來是一件很浪漫的事。”他說。

四川大學(xué)的劉朋森評(píng)價(jià)自己的參賽歷程,用了簡(jiǎn)短幾個(gè)詞:創(chuàng)造生命、望子成龍、欣慰、奇妙。

讓他們把訓(xùn)練 AI 的過程和生活對(duì)比,有人把訓(xùn)練AI比作爬山,有人比作馬拉松,有人比作訓(xùn)練神奇寶貝,還有人比作吃火鍋——遇到不同的問題就像吃不同的菜,總之最后所有的菜都要吃完,而且吃飽了就很滿足。。。

但更多的同學(xué)都把自己的 AI 看成孩子。有趣的事情恰恰在此:他們?cè)谧约哼€是孩子的生命階段,就提前學(xué)會(huì)了對(duì)一個(gè)新生命的呵護(hù)、希冀、包容和祝福。


學(xué)術(shù)交流環(huán)節(jié)


而黃藍(lán)梟注意到一個(gè)細(xì)節(jié):戰(zhàn)隊(duì)選手中有很多非人工智能專業(yè)的同學(xué),他們的熱情一點(diǎn)都不比科班同學(xué)低,作品也很優(yōu)秀。

賽后不久,開悟團(tuán)隊(duì)的郵箱突然收到一封來自高中生的郵件。這個(gè)同學(xué)說自己對(duì)AI很感興趣,但苦于還沒上大學(xué),想問問去哪里可以用到開悟。。。

對(duì)于人工智能的熱愛其實(shí)根植于很多人的心底,只是因?yàn)檫^去缺乏一個(gè)既有趣又好用門檻又低的學(xué)習(xí)平臺(tái),很多本來應(yīng)該進(jìn)入人工智能領(lǐng)域的人就這樣錯(cuò)過了,這太可惜了。

黃藍(lán)梟感慨。

這些反饋給了開悟團(tuán)隊(duì)極大的鼓舞。比賽剛一落幕,開悟團(tuán)隊(duì)又開始馬不停蹄地走訪更多學(xué)校,擴(kuò)大開悟的落地范圍。

就在不久前,黃藍(lán)梟和楊光一起做了個(gè)重大決定:他們準(zhǔn)備找合適的時(shí)機(jī)把《王者榮耀》的“游戲內(nèi)核+開悟平臺(tái)”打包公開出來,讓更多對(duì)AI感興趣的研究者(無論什么職業(yè)、年齡、背景)都可以下載回來做研究。

開悟正試著創(chuàng)造一個(gè)“人工智能面前人人平等的世界”。



(六)一個(gè)“游戲”的使命 


雖然緩慢,但預(yù)言正在成真。

2022年,西南交通大學(xué)計(jì)劃開展一個(gè)研究:把源于開悟平臺(tái)的人工智能模型遷移到了智能交通燈的控制。

王者榮耀的英雄們不在虛擬空間里游走,而是鉆進(jìn)了信號(hào)燈;他們的任務(wù)也不再是打團(tuán)推塔,而是協(xié)作指揮交通、控制車流,在真實(shí)世界里輸出服務(wù)。



在這一刻,“孫悟空”終于可以喊出:I'm Real。

黃藍(lán)梟告訴我,西南交大項(xiàng)目只是一個(gè)開始,類似的“產(chǎn)業(yè)+開悟”合作還有好多好多,但大都在陸續(xù)展開階段,現(xiàn)在還不方便透露,大家敬請(qǐng)期待。

楊巍告訴我,如果看向技術(shù)的未來,《王者榮耀》對(duì)人工智能的貢獻(xiàn)可能遠(yuǎn)不止于此。

例如在“內(nèi)容生成”方向,目前前沿的研究可以做到讓 AI 根據(jù)角色設(shè)定自動(dòng)生成對(duì)白,也可以根據(jù)模型智能生成步態(tài)、行為。

如此一來,過去通過“真人+動(dòng)捕+純?nèi)斯ば拚眮碜龅?NPC,未來都可以用人工智能生來輔助制作,既省時(shí)省錢,又提升效果。

這些技術(shù)同樣可以脫離游戲,幫助制造未來的“服務(wù)機(jī)器人”或“形象更友好的機(jī)器人”。



而在“智能決策”方向,即便絕悟已經(jīng)打遍天下無敵手,但放眼未來,它仍在“嬰兒階段”。未來可做的事情還有很多。


第一個(gè)就是:“博弈場(chǎng)景”。

你有沒有發(fā)現(xiàn),游戲和游戲其實(shí)是不同的?

圍棋、《王者榮耀》所代表的游戲類型是競(jìng)技性的,這種游戲背后的邏輯是只要我的“絕對(duì)戰(zhàn)力”比對(duì)手強(qiáng),就能擊敗對(duì)手。

但還有一種游戲是博弈性的,比如猜拳、麻將。沒有一種策略可以穩(wěn)贏,我能不能贏取決于對(duì)手做了什么。

楊巍說。

這種博弈游戲的奧義,是要 AI 來分析不同策略的“抗性”。

用這種游戲訓(xùn)練出來的 AI,未來可以輔助國際商品貿(mào)易、拍賣、市場(chǎng)預(yù)測(cè)等強(qiáng)博弈的現(xiàn)實(shí)場(chǎng)景中。



第二個(gè)是:“擬人化”。

在很多游戲中,真人玩家的目標(biāo)可能不僅僅是“贏”,例如很多人喜歡玩出自己的風(fēng)格,或者打出某種畫面。

所以,人工智能也不應(yīng)該僅僅局限于“如何贏”這一件事上,怎么打得有趣、漂亮,其實(shí)是更難的研究方向。

比如在王者中,有養(yǎng)豬流,就是4個(gè)人圍繞一個(gè)人;有野核流,以打野為核心,還有鬼谷子體系、大喬體系等等。

其實(shí)完全可以通過調(diào)整獎(jiǎng)勵(lì)值來訓(xùn)練不同的“AI 風(fēng)格”,這些訓(xùn)練經(jīng)驗(yàn)未來就可以發(fā)展成人工智能的性格和情感。

楊巍說。

我們從騰訊 AI Lab 在2021年發(fā)表的論文中可以看出有趣的東西:

紅色區(qū)域表示“強(qiáng)化學(xué)習(xí) AI”會(huì)選擇的打法,橙色區(qū)域表示人類玩家會(huì)選擇的打法,而藍(lán)色區(qū)域就是調(diào)整不同風(fēng)格后 AI 學(xué)會(huì)的打法。

可以看出,“藍(lán)色AI”掌握了所有流派的打法 。



第三個(gè)是:“人機(jī)配合”。

現(xiàn)在的游戲 AI 很多都用于“AI+AI”的配合模式。但在真正的生活中,“人+AI”配合的情況才是多數(shù)。

比如你在打王者榮耀的時(shí)候,有時(shí)會(huì)和隊(duì)友說:我要發(fā)起進(jìn)攻了!這時(shí)候隊(duì)友就知道了你的意圖,當(dāng)然他可以選擇和你一起來,也可以選擇不跟你來。

同理,你也應(yīng)該可以和 AI 配合,你說你要發(fā)起進(jìn)攻,AI也可以根據(jù)它對(duì)形勢(shì)的判斷,選擇跟不跟你上。

他說。

“AI還可以不聽指揮么?”我驚訝。

“當(dāng)然了,這種情況下人和AI是合作關(guān)系,不是操控關(guān)系。這種合作的效果可能比'百分百服從’更好。”他說。

我腦海里突然浮現(xiàn)出一個(gè)畫面:也許將來 AI 機(jī)器人可以代替警犬和人類一起工作,它們有自己的智慧,有自己的性格,有自己的判斷和原則,也有一顆獨(dú)特的勇敢的心。

反正肯定比邊牧強(qiáng)。



然而在我看來,真正科幻的是:一個(gè)曾經(jīng)被很多人冷眼看待的游戲,通過這種方式和國家的科技硬實(shí)力血脈相通,息息相關(guān)。

雖然不一定人人可以參透,但某些東西命中注定:

當(dāng)一個(gè)既有趣味性,又包含豐富的變量和操作接口的游戲殺出重圍,成為十幾億人熟悉的“全民游戲”那一刻起,就沒有誰比它更適合成為“AI 多智能體”的研究平臺(tái)了。

從這個(gè)角度看,讓《王者榮耀》成為人工智能發(fā)展歷程上的一部分,已經(jīng)不僅僅是騰訊的選擇,恐怕更是騰訊的責(zé)任。



(七)當(dāng)王者榮耀成為“玫瑰園” 


在我和黃藍(lán)梟聊天的過程中,他總強(qiáng)調(diào)一個(gè)詞:“自主 IP”

意思是,王者榮耀是中國人自研的游戲,其中的形象也都是以中國文化和美學(xué)偏好為出發(fā)點(diǎn)所創(chuàng)造的。

但我很不解:一個(gè)“打游戲的人工智能”,或者一個(gè)“AI研究平臺(tái)”,研究不是底層技術(shù)么?至于它操縱的是關(guān)羽張飛妲己貂蟬還是什么蟲族獸族巫師,這有啥區(qū)別??

“不,有很大的區(qū)別!”黃藍(lán)梟堅(jiān)持。

我們做的雖然是技術(shù),但技術(shù)的背后更是文化。

你有沒有注意到,很多70后、80后甚至90后,他們一想起曹操,那個(gè)形象其實(shí)是日本人心中的曹操形象。原因很簡(jiǎn)單,我們兒時(shí)玩的三國游戲很多都來自日本,所以美學(xué)定義也同時(shí)被日本掌握了。

他說。

黃藍(lán)梟


同樣,AlphaGo 是人工智能歷史上里程碑的作品,但是,它卻很難有一個(gè)貼切的中文譯名。仔細(xì)辨認(rèn),你不難在“阿法狗”這個(gè)翻譯里發(fā)現(xiàn)戲謔和絲絲無奈。再看“開悟”,這卻是一個(gè)古老的東方詞匯,佛教和道教均有釋義。

黃藍(lán)梟開始了他的設(shè)想:

有朝一日,如果《王者榮耀》和開悟平臺(tái)成為了國際上最流行的多智能體訓(xùn)練研究平臺(tái),那么,附加于人類最先進(jìn)技術(shù)之上的文化角色,就順理成章的是花木蘭,是孫悟空,而不是米老鼠、唐老鴨。

由此,中國文化的包容和閃耀,也一同走向了不分種族膚色,所有人的內(nèi)心深處,成為科技史中不可磨滅的地層。

黃藍(lán)梟對(duì)于王者榮耀的“癡情”,出乎我的意料。我并未設(shè)想過一個(gè)輕飄飄的“游戲”可以如此重若泰山地駐扎在歷史的長(zhǎng)河。

但他說服了我。



在我看來,黃藍(lán)梟的終極夢(mèng)想是把《王者榮耀》從一個(gè)“競(jìng)技場(chǎng)”變成一個(gè)“玫瑰園”。

你在競(jìng)技場(chǎng)里獲得的,是激情、勝利、熱血和快感;但你在玫瑰園里獲得的,卻是滿眼鮮艷,是和芬芳共處的時(shí)光,是一段銘記良久的溫情記憶。

技術(shù)的追求當(dāng)然沒有止境,而把文化融入科技記憶,這條路更是沒有終點(diǎn)的。

他說。

告別王者AI這群人,我甚至有點(diǎn)羨慕,羨慕他們所仰望的星空,以及他們短暫的人生里,每時(shí)每刻都更加靠近永恒的篤定和浪漫。

不知為何,我突然想起國際象棋大師伊曼紐·拉斯克曾說的一句話:如果宇宙中存在其他的智能生命,它幾乎一定會(huì)下圍棋。

如果宇宙中還存在其他生命,他會(huì)不會(huì)打王者榮耀呢?

尾圖為旅行者一號(hào)在太陽系盡頭拍攝的地球
(Pale blue dot)




參考論文:
·Hierarchical Macro Strategy Model for MOBA Game AI
https://arxiv.org/pdf/1812.07887.pdf
·Towards Playing Full MOBA Games with Deep Reinforcement Learning
https://arxiv.org/pdf/2011.12692.pdf
·Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings
https://arxiv.org/ftp/arxiv/papers/2011/2011.12582.pdf
·Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
https://arxiv.org/pdf/1912.09729.pdf
·Learning Diverse Policies in MOBA Games via Macro-Goals
https://arxiv.org/pdf/2110.14221.pdf
·Actor-Criticpolicy Optimization in a Large-Scale Imperfect-Information Game
https://openreview.net/pdf?id=DTXZqTNV5nW

參考視頻:
·王者峽谷一條街,打聽打聽誰是爹?AI是爹
https://www.bilibili.com/video/BV17w411f7Ti?spm_id_from=333.999.0.0
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
《王者榮耀》想靠AI,做點(diǎn)兒改變未來的大事
“王者英雄練習(xí)場(chǎng)”上線 IT之家
王者榮耀英雄演練怎么更換英雄
不知火舞#王者榮耀#AI
王者榮耀黑科技:最新隱藏英雄代碼大全,查看隱藏英雄必備資料
王者榮耀最裝逼的英雄...
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服