淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會(huì)嘗試各種姿勢(shì),把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。
王者榮耀的B面:
人類在此喧鬧,AI卻在他們腳下悟道
文 | 史中
孫悟空在曠野上狂奔,喉嚨里喊出:I'm Real!!
他把金箍棒直插入地,炫目的振波四散沖開,眨眼間,又跳到敵人近身左右開弓,一頓輸出行云流水,對(duì)方血槽見半。
然而,就在下一秒,猴子卻突然判若兩猴,握著鐵棍,失神呆立,任由對(duì)手揪住一陣爆錘,剛才的威風(fēng)無影無蹤。
原因很簡(jiǎn)單:我在打《王者榮耀》——?jiǎng)倓偽疫€在操縱孫悟空,現(xiàn)在我把手指從屏幕上挪開了。
在0和1編織的賽博世界里,哪怕貴為齊天大圣,沒有玩家的“靈魂注入”,它也只是一具皮囊。
孫悟空并不 Real。
看到這兒,很多淺友可能會(huì)哭笑不得:中哥你在說啥?孫悟空不就是個(gè)游戲角色么?游戲角色不用人操縱,難道還能自己上陣殺敵不成?
誒,那可真不一定哦。
最近我就遇到一群人,他們用了6年時(shí)間在王者峽谷里鋪下了千萬行代碼,完成了三連殺:
第一、用人工智能指揮英雄戰(zhàn)勝了無數(shù)人類好手。
第二、他們還把《王者榮耀》改造成了AI科研的試煉場(chǎng);
第三、他們甚至把小小屏幕背后的游戲變成了“多智能體協(xié)作”這個(gè)人類前沿技術(shù)命題的悟道之地。
聽我細(xì)細(xì)道來。
(一)為英雄披上“AI戰(zhàn)甲”
2016年,成都,一群人圍坐在會(huì)議室里,眼神如哲學(xué)家般深邃,如圣徒一樣虔誠,仿佛面前有一團(tuán)篝火。
坐在C位的這個(gè),名叫黃藍(lán)梟。
你也許不認(rèn)識(shí)這位老哥,但很可能以特別的方式和他“神交已久”。因?yàn)樗褪峭跽邩s耀的執(zhí)行制作人,也是天美L1工作室的總經(jīng)理。
多少個(gè)夜晚,你在被窩里端著手機(jī)上分的時(shí)候,四舍五入就是在黃藍(lán)梟和他的同事們營造的王者峽谷里輾轉(zhuǎn)纏綿。
當(dāng)時(shí),這群人正是在討論這個(gè)古老而詩意的命題——能不能用人工智能控制王者榮耀的英雄去戰(zhàn)斗?
看到這兒,你腦袋上可能又有問號(hào)了:王者榮耀的開發(fā)團(tuán)隊(duì)不好好做游戲,為啥非要用人工智能打游戲呢?
要搞清楚這個(gè)事兒,我們不妨坐在黃藍(lán)梟和王者榮耀技術(shù)負(fù)責(zé)人楊光身邊,聽聽他們?cè)谡f什么。
彼時(shí)的《王者榮耀》還不是現(xiàn)在這般耀眼的“全民游戲”,里面可選的英雄也只有幾十位,遠(yuǎn)沒有后來的一百多個(gè)。
雖然很多英雄正在秘密開發(fā)中,但有一個(gè)問題賊拉困擾他們,那就是——這個(gè)英雄放出去之后,可不敢“太能打”。
這是為啥呢?
因?yàn)槿绻募寄芴,那么,玩家用原來自己熟悉的英雄肯定打不過它,只好被迫搶著選這個(gè)英雄(或Ban掉它),這還有啥意思?
就像蹺蹺板一頭被300斤的大胖子壓得死死的,角色失去了“平衡性”。
平衡才有趣(截圖出自短片《Balance》)
那怎么才能讓一個(gè)新英雄在出生的那一刻,就和其他舊英雄是“平衡”的呢?
其實(shí),在游戲開發(fā)界有一個(gè)祖?zhèn)髅丶掠⑿郯l(fā)布之前,要找很多專業(yè)游戲測(cè)試員,用它跟老英雄打上幾千場(chǎng)。各種姿勢(shì)都盡量測(cè)試一遍,最終勝率在50%上下,那就說明它不比別人厲害也不比別人弱雞嘛。
“祖宗之法”雖好,卻有三個(gè)問題:
第一、測(cè)試員畢竟是人不是神,難以面面俱到。英雄放出去后,上億玩家的智慧一起轟炸,還是難免發(fā)現(xiàn)一些騷操作,打破平衡性。
第二、人工測(cè)試太貴,越是要測(cè)試得萬無一失,越是需要更多測(cè)試員,就越貴;
第三、測(cè)試員一多,又難免走漏風(fēng)聲。新英雄提前泄密,是游戲的大忌。
聽到這兒,黃藍(lán)梟看向你:這位同學(xué),你有啥好辦法?
估計(jì)你會(huì)說:
那能不能搞一個(gè)水平很高的機(jī)器人,左手新英雄,右手舊英雄,自己跟自己大戰(zhàn)十萬回合?
反正電腦也不吃盒飯,有電就能跑,不僅省時(shí),還能比人類測(cè)試得更完善,還不擔(dān)心泄密,一舉三得!
你看,這不就回到我們剛才說的“用人工智能打游戲”了么?
人工智能腦補(bǔ)了十萬場(chǎng)對(duì)局
“這個(gè)打游戲的人工智能是怎么做出來的呢?”我好奇心爆棚。
黃藍(lán)梟示意我慢慢來,在繼續(xù)講故事之前,他得先給我科普一個(gè)小知識(shí)。
從游戲開發(fā)的角度,“用電腦控制的角色”有個(gè)統(tǒng)稱,叫“智能體”。
他說。
如果寬泛地說,智能體的歷史可非常悠久。
就拿大家都熟悉的1985版《超級(jí)瑪麗》來說,那個(gè)一上來就收走了無數(shù)小白人頭的“香菇怪”就可以看做是最簡(jiǎn)單的“智能體”。
進(jìn)一步說,《仙劍》《最終幻想》里那些叨逼叨的 NPC 也是智能體;
再看《星際爭(zhēng)霸》《王者榮耀》里,那些小兵、野怪就更是智能體了。
這里要猛敲黑板?。?!
人工智能是近幾年才成熟的,那在這之前,驅(qū)動(dòng)“智能體”的經(jīng)典技術(shù)叫做“狀態(tài)機(jī)”或“行為樹”。
所謂行為樹,可以理解為是一個(gè)身上長(zhǎng)滿了“開關(guān)”的機(jī)器人。
比如天氣黑了,就相當(dāng)于觸發(fā)了一個(gè)開關(guān),機(jī)器人就要做一個(gè)動(dòng)作;對(duì)手發(fā)了一個(gè)招,就觸發(fā)了另一個(gè)開關(guān),機(jī)器人就會(huì)躲避,然后按照預(yù)先寫好的腳本還擊。這個(gè)和工業(yè)上的機(jī)器人原理類似。
總之,所有反應(yīng)的背后都是一條條具體的規(guī)則。規(guī)則越完備、越細(xì)致,機(jī)器人就看起來更聰明。
黃藍(lán)梟解釋。
這是一個(gè)簡(jiǎn)單的行為樹示意圖。
用行為樹驅(qū)動(dòng)的智能體在《王者榮耀》里早就有了,用在小兵、野怪的控制、新手教程之類的很多地方。
那還要人工智能干啥?
這是因?yàn)?,行為樹存在天花板,里面的?guī)則即使寫得再精細(xì),水平最多也就相當(dāng)于“青銅”。
用“行為樹”來測(cè)試新英雄的平衡性顯然不靠譜——這就像戰(zhàn)士們?nèi)粘S冒糇硬倬毩耸f次,上戰(zhàn)場(chǎng)之后看到對(duì)手掏出了機(jī)關(guān)槍。。。
現(xiàn)在你就明白了,回到2016年,王者 AI 團(tuán)隊(duì)想要的東西準(zhǔn)確來說是——“用人工智能驅(qū)動(dòng)的高級(jí)智能體”。
做出這種“智能體”,所需的技術(shù)約等于人類科技的極限,純靠天美工作室的能力恐怕不夠。。。
大伙兒發(fā)愁,從哪兒找點(diǎn)厲害的幫手呢?
此時(shí),我們不妨把王者團(tuán)隊(duì)的故事按下暫停,挪一下地圖,從天府之國穿越到祖國南海。
2016年的深圳,騰訊總部,有另一幫人同樣聚在會(huì)議室里,眼神如哲學(xué)家般深邃,如圣徒一樣虔誠,仿佛面前有一團(tuán)篝火。
這群人來自騰訊鼎鼎大名的人工智能實(shí)驗(yàn)室——騰訊 AI Lab。
給不熟悉的淺友多介紹一句,騰訊AI Lab,基本代表了他們?nèi)斯ぶ悄芗夹g(shù)的最高水準(zhǔn)。
他們做出的病理 AI 云平臺(tái),可以輔助醫(yī)生看細(xì)胞涂片,識(shí)別一些早期癌癥的準(zhǔn)確率相當(dāng)于3~5年經(jīng)驗(yàn)的醫(yī)生;
他們做出的藥物研發(fā)系統(tǒng)“云深”,可以大大加快新藥研制的速度。
他們做出的圍棋 AI 選手“絕藝”,可以優(yōu)雅地讓世界冠軍柯潔兩子還能擊敗他;
楊巍,就是騰訊 AI Lab 的創(chuàng)始成員之一。
楊巍
當(dāng)時(shí),他和同事們剛剛做出絕藝,雖然橫掃一票人類圍棋大師,但他感覺不到狂喜——因?yàn)榘肽昵?,DeepMind 剛剛用阿法狗虐完李世石,中國人做得再牛,也不是“首創(chuàng)”了。。。
那怎么才能做出比下圍棋的AI更厲害的人工智能呢?
糾結(jié)中,楊巍劃開手機(jī)屏幕,突然看到了《王者榮耀》的圖標(biāo)——“比圍棋更復(fù)雜的游戲,我們騰訊有??!”
王者榮耀團(tuán)隊(duì)和 AI Lab 一拍即合。
大家躊躇滿志,既然要做出最能打的AI,那就得起個(gè)最能打的名字。斗戰(zhàn)勝佛悟空不正是中國文化里最能打的人(猴)么?這個(gè)AI還是“絕藝”的同胞兄弟,按照“絕”字輩排下去,就叫“王者絕悟”?。閿⑹龊?jiǎn)便,下文簡(jiǎn)稱絕悟)
回憶起這個(gè)“夢(mèng)開始的地方”,黃藍(lán)梟還是激動(dòng)不已。
用人工智能去測(cè)試英雄的平衡性、改善新手教學(xué)關(guān)卡,讓玩家玩得更爽,這當(dāng)然是現(xiàn)實(shí)目的,但僅僅這樣理解它的意義,就太簡(jiǎn)單了。
我們看到了一個(gè)更大的機(jī)會(huì):《王者榮耀》這個(gè)純國產(chǎn)自研的IP如果可以突破“游戲”的局限,成為一個(gè)訓(xùn)練智能體協(xié)作的基礎(chǔ)設(shè)施,那才能對(duì)社會(huì)和產(chǎn)業(yè)有更深遠(yuǎn)的幫助!
他說。
楊巍接受委派,成為了絕悟的AI技術(shù)帶頭人,心潮奔涌。
然而,熱情的巖漿即刻冷卻,變成了沉重的磚石。
舉目四望,當(dāng)時(shí)整個(gè)地球上還很少有人公開用AI打“復(fù)雜游戲”的計(jì)劃,也沒有研究者公布相關(guān)學(xué)術(shù)論文,更沒有成熟的代碼、算法可以參考——標(biāo)準(zhǔn)的“三無狀態(tài)”。
該從哪兒下手呢?
(二)英雄的“內(nèi)啡肽”
在普通人看來,圍棋和《王者榮耀》是毫無關(guān)系的兩種玩意兒——前門樓子和胯骨軸子。但在楊巍這種專業(yè)大牛的眼里,《王者榮耀》其實(shí)可以理解為升級(jí)版的圍棋。
只不過,升級(jí)的跨度有點(diǎn)大就是了。。。
楊巍告訴我,它們的區(qū)別主要有三:
第一、圍棋的玩法是一對(duì)一,王者榮耀的玩法是五對(duì)五(5v5),可以不嚴(yán)謹(jǐn)?shù)乩斫鉃椤?0個(gè)人一起下的圍棋”。
第二、圍棋是回合制比賽,我下的時(shí)候你只能看。但王者榮耀是“即時(shí)競(jìng)技”,兩邊同時(shí)肝,誰猶豫一秒就會(huì)敗北。
第三、圍棋盤面就361個(gè)點(diǎn),黑方和白方看到的局面都是完整的、一致的。可王者榮耀的游戲玩家只能看到自己視野內(nèi)的局面,至于視野外的敵人具體在干嘛,那純得靠“猜”了。
從數(shù)學(xué)的角度看,玩這種(有絕對(duì)強(qiáng)度的)對(duì)抗游戲,要想勝率達(dá)到絕對(duì)意義的100%,其實(shí)只有一種辦法——窮舉。
就拿圍棋來說,對(duì)手下完一招棋之后,我如果可以把棋盤上所有能下子的點(diǎn)位都思考一遍,然后在每種可能性的基礎(chǔ)上,再把接下來對(duì)手可能下的點(diǎn)位再思考一遍,以此類推,把億萬種不同的“劇本”全都嘗試過,最終就能“遍歷”所有的“狀態(tài)空間”。
這相當(dāng)于每一種走法將會(huì)導(dǎo)致的結(jié)局我全了如指掌,那想輸也輸不了。。。
但壞消息是:窮舉圍棋的每一種姿勢(shì)只在理論上可行,現(xiàn)實(shí)中,它已經(jīng)超越了所有計(jì)算機(jī)的計(jì)算極限。
還有更壞的消息:王者榮耀的狀態(tài)空間比圍棋更大,更是超越人類計(jì)算機(jī)極限不知哪里去了。粗略估計(jì)一下,打一局王者,里面可能有10的20000次方種操作的可能性。不好意思,宇宙中原子的總數(shù)也只有10的80次方個(gè)。這事兒估計(jì)上帝也做不到。。。
不用窮舉法,那用啥法呢?
用“依葫蘆畫瓢法”。
還是舉個(gè)生活中的小栗子吧。
你是一個(gè)360斤的胖子,想減肥到120斤,這是你的終極目標(biāo)。
為了達(dá)到這個(gè)目標(biāo),你得分成10086個(gè)步驟來做。而每一步里,你還面臨10086種選擇。
比如早晨第一步就有“不吃早餐”、“吃包子”、“吃面條”、“吃雞蛋”、吃“肉夾饃”。。。(你完全沒辦法窮舉)
可是,哪個(gè)操作能提高最終的“勝率”,你完全不知道??!
這時(shí)候,最好的辦法不是原地苦想,而是看哪位老哥曾經(jīng)減肥成功,你模仿他的操作。
如果他早餐吃的是“雞蛋沙拉”,那你也應(yīng)該先嘗試吃“雞蛋沙拉”;他第二步是“晨跑30分鐘”,那你也應(yīng)該這樣。(雖然從上帝視角來看,一定存在更適合你的辦法,但你就!是!不!知!道!最好的選擇只有模仿。。。)
絕悟最初學(xué)習(xí)打王者也是同樣的道理,這個(gè)過程的學(xué)名叫“模仿學(xué)習(xí)”。
模仿誰呢?模仿職業(yè)電競(jìng)選手。
王者榮耀的高手大概都知道,有一個(gè)名叫 KPL(王者榮耀職業(yè)聯(lián)賽)的比賽,是這款游戲的最高殿堂,每年職業(yè)選手都會(huì)在這里來一次華山論劍,而這些比賽錄像都是公開的。
于是,騰訊 AI Lab 趕緊把這些錄像都找來,讓人工智能學(xué)習(xí)。
KPL 比賽現(xiàn)場(chǎng)
人工智能當(dāng)然不會(huì)排排坐背著手聽老師講課——所謂學(xué)習(xí)是通過一種叫做“獎(jiǎng)勵(lì)”的東西實(shí)現(xiàn)的。
這一點(diǎn)和人類的進(jìn)步過程也超級(jí)相似。人在不斷實(shí)現(xiàn)目標(biāo)的過程,大腦會(huì)分泌“獎(jiǎng)勵(lì)遞質(zhì)”內(nèi)啡肽。
還拿減肥舉例:今天你跑步半小時(shí),內(nèi)啡肽就會(huì)分泌;晚餐八分飽,又會(huì)分泌;睡個(gè)好覺頭腦清醒,又會(huì)分泌;直至最后減肥成功,大分泌。
人類的“內(nèi)啡肽分泌體系”是千萬年進(jìn)化的結(jié)果,可絕悟沒這些,腦袋里是一張白紙——所有的“獎(jiǎng)勵(lì)機(jī)制”都需要人類從頭設(shè)計(jì)。
所以,人工智能的訓(xùn)練,本質(zhì)上就是獎(jiǎng)勵(lì)設(shè)計(jì)的過程!
楊巍一語道破天機(jī)。
這段科普截取自X科技實(shí)驗(yàn)室的視頻節(jié)目,他們很好地解釋了絕悟的訓(xùn)練過程,非常推薦,鏈接附后。
比如,敵人被擊中掉血,我方英雄該怎么賞?對(duì)方英雄出招被我躲過,賞多少?對(duì)方英雄被擊殺,怎么賞?推掉一個(gè)塔,怎么賞?打團(tuán)幫同伴擋住敵人大招,怎么賞?
當(dāng)然除了正獎(jiǎng)賞,還有負(fù)獎(jiǎng)賞——罰。
比如,我方英雄被擊中殘血,應(yīng)該罰多少?如果罰得太多,英雄就會(huì)不敢出戰(zhàn),各種逃竄,甚至掉一絲血就想回城補(bǔ)血;如果罰得太少,英雄又會(huì)傻沖,容易被團(tuán)滅。
你看,這種獎(jiǎng)勵(lì)的設(shè)計(jì)過程非常精細(xì)——往往獎(jiǎng)勵(lì)值變化一點(diǎn)點(diǎn),就會(huì)導(dǎo)致訓(xùn)練出來的英雄性格迥異。所以,需要技術(shù)宅們蹲在電腦前反復(fù)調(diào)整實(shí)驗(yàn),才會(huì)試出理想的結(jié)果。
注意看,這里殺敵的獎(jiǎng)勵(lì)反而是負(fù)的,因?yàn)檫@個(gè)過程會(huì)導(dǎo)致其他獎(jiǎng)勵(lì)都在增加,如果此處再給獎(jiǎng)勵(lì)會(huì)讓AI過于執(zhí)著于擊殺敵人。(由此可見獎(jiǎng)勵(lì)調(diào)整過程中有很多反直覺的操作。)
怎么樣,聽上去這個(gè)“絕悟訓(xùn)練計(jì)劃”天衣無縫吧。
呵呵。
(三)少年絕悟
我們把時(shí)間軸拉到2017年。
彼時(shí),已經(jīng)“埋頭苦練”半年的絕悟一招一式都有了模樣,感覺棒棒噠,迫不及待想找個(gè)對(duì)手試一下。
“來,你們出個(gè)強(qiáng)人跟絕悟打一場(chǎng)!”楊巍對(duì)王者團(tuán)隊(duì)下戰(zhàn)書。
王者的同學(xué)說,我們不是有負(fù)責(zé)新手教學(xué)的“行為樹”么,絕悟先跟行為樹打一仗,贏了再說唄。
“哼,竟然小瞧人?!睏钗∷麄兒咧∏呀^悟和行為樹的接口連通,兩邊干了一架。
結(jié)果。。。。絕悟被打得滿地找牙。
之前說過,行為樹的水平大概是“倔強(qiáng)青銅”,這么一比的話,彼時(shí)的絕悟水平大概就是。。。躺平廢柴。。。
啊,我們一群人開發(fā)了半年的人工智能,比不上一個(gè)王者開發(fā)同學(xué)花半個(gè)月寫的行為樹,那感覺簡(jiǎn)直無地自容。當(dāng)時(shí)就覺得這玩意兒簡(jiǎn)直太難了。
楊巍回憶。
受了打擊,他跟業(yè)內(nèi)專家交流,倒倒苦水。
本想求點(diǎn)“練兵高招”,可大家的意見卻如五雷轟頂:這玩意兒做出來的可能性確實(shí)不大,早點(diǎn)放棄,也不是不行。。。
可是,眼看團(tuán)隊(duì)同學(xué)們每天還在冥思苦想解決辦法,自己放棄,這可怎么見江東父老呢?他只好頂住壓力,裝作無事發(fā)生,繼續(xù)鼓勵(lì)大伙兒。
果然,功夫不負(fù)苦心人,有兩個(gè)方向漸漸在他們的視野里清晰起來:
第一,即便是 KPL 高手,也不意味著每一個(gè)操作都是正確的嘛!他們也有失誤,也會(huì)有平庸的操作,不能啥都跟他們學(xué)。
第二,人類打游戲時(shí)是左手控制方向,右手控制出招,分別是兩個(gè)腦區(qū)負(fù)責(zé)的。那是不是絕悟也應(yīng)該把“走位”和“出招”分開來訓(xùn)練呢?
先說第一個(gè)方向。
怎么讓 AI 學(xué)到人類精華呢?
黃藍(lán)梟派出幾位精銳的游戲策劃師,他們不僅是游戲的主創(chuàng)成員,更是打游戲的高手。這些高手的任務(wù)很奇特:不用干別的,就盯著屏幕把比賽錄像看N遍。
因?yàn)樗麄儗?duì)游戲的理解特別深刻,所以,有些我們看上去炫酷的操作,在他們眼里反而是平平無奇的花架子;有些容易被忽略的微操,在他們心中恰恰是功底深厚的神來之筆(老玩家應(yīng)該明白這種感覺)。
就這樣,他們調(diào)動(dòng)畢生經(jīng)驗(yàn),把真正的優(yōu)秀操作一個(gè)不落地標(biāo)記出來。
這個(gè)操作,就是人類高手的經(jīng)驗(yàn)被“提純”成《九陰真經(jīng)》的過程。接下來,只要推著絕悟的后背傳入它體內(nèi)就好。
這是英雄學(xué)會(huì)了“利用草叢”,陰在草叢后面等對(duì)手進(jìn)入攻擊距離,猛然跳出一波帶走。
這是兩個(gè)英雄學(xué)會(huì)了“配合”,英雄A用護(hù)甲保護(hù)殘血隊(duì)友B,并且打出空間,隊(duì)友B默契地用技能擊殺對(duì)手。
再說第二個(gè)方向。
他們把涉及位置移動(dòng)的操作全部交給一個(gè)系統(tǒng)訓(xùn)練,又把涉及出招的操作交給另一個(gè)系統(tǒng)訓(xùn)練。這樣一分開,果然,絕悟的腦子不再是一團(tuán)漿糊,操作清爽多了。
需要強(qiáng)調(diào)的是,這個(gè)思路還進(jìn)一步啟發(fā)了他們,除了左右手操作分開訓(xùn)練,是不是還能把其他一些重要的決策也獨(dú)立訓(xùn)練呢?
于是,他們又搞出了好幾個(gè)獨(dú)立的“腦區(qū)”:
比如有一個(gè)腦區(qū)專門負(fù)責(zé)“猜測(cè)敵人位置”:每時(shí)每刻根據(jù)現(xiàn)場(chǎng)的情況修改判斷,比如在這個(gè)草叢沒有見到對(duì)手,那對(duì)手在另外草叢的概率就會(huì)增高;
比如還有一個(gè)腦區(qū)專門負(fù)責(zé)“大局研判”,基于現(xiàn)在的戰(zhàn)勢(shì),我應(yīng)該往哪里走才對(duì)整體最有利?有了大局研判, 英雄的格局就打開了, 不會(huì)在屏幕這一小塊區(qū)域里戀戰(zhàn),而是能運(yùn)動(dòng)起來,及時(shí)出現(xiàn)在險(xiǎn)要位置。
1、他們都能根據(jù)自己了解的情況產(chǎn)生“獎(jiǎng)勵(lì)值”; 2、諸多腦區(qū)的“獎(jiǎng)勵(lì)值”綜合在一起,共同對(duì)英雄的行為施加影響; 3、這種操作,就像用幾根細(xì)細(xì)的絲線來共同控制木偶那樣。
“猥瑣發(fā)育,別浪?!焙髞砭统闪宋覀兺跽呓^悟的研發(fā)方針。和打游戲一個(gè)道理嘛。
雖然表面不能讓別人看出來,但其實(shí)心里確實(shí)沒底。 因?yàn)?AI 訓(xùn)練的原理就決定了它不可能覆蓋所有可能性。對(duì)手一旦使出怪招,天知道會(huì)觸發(fā)什么Bug。萬一絕悟有啥弱點(diǎn)被對(duì)方拿捏了,第二天我們必?cái)o疑啊。。。
當(dāng)時(shí)我已經(jīng)開始想,如果輸?shù)舯荣?,回去要怎么和領(lǐng)導(dǎo)交代,怎么總結(jié)教訓(xùn)了。。。
向左走,是把之前已經(jīng)學(xué)成的“絕悟1.0”拿來繼續(xù)深造成“2.0”; 向右走,是從零開始訓(xùn)練“絕悟2.0”。
最初數(shù)據(jù)看起來都很完美,但時(shí)間一點(diǎn)點(diǎn)過去,模型還是不收斂,而且曲線開始搖擺,甚至突然一下就跌到負(fù)值。。。
第一步,先在1v1的場(chǎng)景下把英雄分別練好。 第二步,把100個(gè)英雄分成20組,每5個(gè)英雄固定組隊(duì),讓每組英雄自己和自己先進(jìn)行5v5訓(xùn)練。 第三步,固定組隊(duì)英雄訓(xùn)練完畢,再把英雄打亂編隊(duì),開始亂斗訓(xùn)練。
有時(shí)候看大家的帖子我覺得很有趣。因?yàn)锳I的訓(xùn)練過程是一個(gè)復(fù)雜的“黑盒子”,很多絕悟的操作連我們團(tuán)隊(duì)自己都很難解釋,別人猜的就更不準(zhǔn)了。 但大家的熱情很鼓舞我們?!癆I的可解釋性”確實(shí)是一個(gè)值得研究的前沿領(lǐng)域,所以后來我們也開發(fā)了解析模塊,專門負(fù)責(zé)理解絕悟每一個(gè)操作背后的“理由”。
把王者榮耀的英雄們換成汽車,把地圖換成街道,就變成了一個(gè)智能駕駛問題; 把英雄們的大招換成機(jī)械臂的動(dòng)作,就變成了協(xié)作生產(chǎn)問題; 把游戲里的分路換成大廈里的電梯井,就變成了電梯調(diào)度問題; 把防御塔看成燃燒的火焰,那么,一群英雄圍毆它就變成了火場(chǎng)救災(zāi)問題。
第一,同學(xué)們當(dāng)然可以在其中訓(xùn)練出“屬于自己的絕悟”,但其實(shí)這并不重要。 第二,通過訓(xùn)絕悟的實(shí)操過程,可以讓更多人學(xué)會(huì)AI,愛上AI,成為AI人才,這才重要。 第三,這些人才可以帶著他們的經(jīng)驗(yàn)和代碼走向各個(gè)產(chǎn)業(yè),繼續(xù)解決不同場(chǎng)景下具體的“智能體協(xié)作”問題,這更重要。
首先,你得把菜洗干凈、把調(diào)料放好,這就是預(yù)制的算法和模型。 其次,你得把炒菜的原理和順序給人家講清楚,還要把用不到的調(diào)料藏在柜子里以防人家拿錯(cuò),這就是AI訓(xùn)練框架。 最后,你還得給人家把煤氣灶準(zhǔn)備好,這就是數(shù)據(jù)和算力。
對(duì)于人工智能的熱愛其實(shí)根植于很多人的心底,只是因?yàn)檫^去缺乏一個(gè)既有趣又好用門檻又低的學(xué)習(xí)平臺(tái),很多本來應(yīng)該進(jìn)入人工智能領(lǐng)域的人就這樣錯(cuò)過了,這太可惜了。
你有沒有發(fā)現(xiàn),游戲和游戲其實(shí)是不同的? 圍棋、《王者榮耀》所代表的游戲類型是競(jìng)技性的,這種游戲背后的邏輯是只要我的“絕對(duì)戰(zhàn)力”比對(duì)手強(qiáng),就能擊敗對(duì)手。 但還有一種游戲是博弈性的,比如猜拳、麻將。沒有一種策略可以穩(wěn)贏,我能不能贏取決于對(duì)手做了什么。
比如在王者中,有養(yǎng)豬流,就是4個(gè)人圍繞一個(gè)人;有野核流,以打野為核心,還有鬼谷子體系、大喬體系等等。 其實(shí)完全可以通過調(diào)整獎(jiǎng)勵(lì)值來訓(xùn)練不同的“AI 風(fēng)格”,這些訓(xùn)練經(jīng)驗(yàn)未來就可以發(fā)展成人工智能的性格和情感。
比如你在打王者榮耀的時(shí)候,有時(shí)會(huì)和隊(duì)友說:我要發(fā)起進(jìn)攻了!這時(shí)候隊(duì)友就知道了你的意圖,當(dāng)然他可以選擇和你一起來,也可以選擇不跟你來。 同理,你也應(yīng)該可以和 AI 配合,你說你要發(fā)起進(jìn)攻,AI也可以根據(jù)它對(duì)形勢(shì)的判斷,選擇跟不跟你上。
我們做的雖然是技術(shù),但技術(shù)的背后更是文化。 你有沒有注意到,很多70后、80后甚至90后,他們一想起曹操,那個(gè)形象其實(shí)是日本人心中的曹操形象。原因很簡(jiǎn)單,我們兒時(shí)玩的三國游戲很多都來自日本,所以美學(xué)定義也同時(shí)被日本掌握了。
有朝一日,如果《王者榮耀》和開悟平臺(tái)成為了國際上最流行的多智能體訓(xùn)練研究平臺(tái),那么,附加于人類最先進(jìn)技術(shù)之上的文化角色,就順理成章的是花木蘭,是孫悟空,而不是米老鼠、唐老鴨。 由此,中國文化的包容和閃耀,也一同走向了不分種族膚色,所有人的內(nèi)心深處,成為科技史中不可磨滅的地層。
技術(shù)的追求當(dāng)然沒有止境,而把文化融入科技記憶,這條路更是沒有終點(diǎn)的。