今天,DeepMind的通用棋類算法,也是迄今最強(qiáng)的棋類AI——AlphaZero,經(jīng)過同行評(píng)議,被頂級(jí)期刊 Science 以封面論文的形式,正式引入學(xué)界和公眾的視野。
一年前,DeepMind靜靜地在arXiv貼出了AlphaZero的預(yù)印版論文,當(dāng)即就在圈內(nèi)引發(fā)轟動(dòng):AlphaZero從零開始訓(xùn)練,2小時(shí)擊敗最強(qiáng)將棋AI,4小時(shí)擊敗最強(qiáng)國(guó)際象棋AI,8小時(shí)擊敗最強(qiáng)圍棋AI(李世石版AlphaGo)。
AlphaZero沒有使用人類知識(shí)(除了棋類基本規(guī)則),從零開始訓(xùn)練,快速掌握日本將棋、國(guó)際象棋和圍棋這三種復(fù)雜棋類游戲,展現(xiàn)出令人耳目一新的獨(dú)道風(fēng)格,拓展了人類智慧,并證明了機(jī)器擁有創(chuàng)造性的可能。
國(guó)際象棋大師卡斯帕羅夫——20年前輸給IBM深藍(lán)的國(guó)際象棋世界冠軍,今天在Science發(fā)表社論,表示他很高興看到AlphaZero展現(xiàn)出了像他一樣“動(dòng)態(tài)、開放”的棋風(fēng):
“傳統(tǒng)觀點(diǎn)以為,機(jī)器將通過無休止的枯燥操作趨近完美,最終導(dǎo)致平局。但據(jù)我觀察,AlphaZero優(yōu)先考慮棋子的活動(dòng)而非盤面上的點(diǎn)數(shù)優(yōu)勢(shì),更喜歡在我看來有風(fēng)險(xiǎn)和激進(jìn)的地方落子。
AlphaZero證明了機(jī)器也能成為專家,機(jī)器生成的知識(shí)也值得人類去學(xué)習(xí)?!癆lphaZero以這樣一種強(qiáng)大而有用的方式超越了我們,”卡斯帕羅夫?qū)懙溃骸爸灰谔摂M知識(shí)(virtual knowledge)能夠生成的領(lǐng)域,這個(gè)模型都可能復(fù)制到任何其他任務(wù)上。”
IBM深藍(lán)的共同創(chuàng)造者之一Murray Campbell,也在Science發(fā)表評(píng)論文章,指出DeepMind論文使用通用的搜索方法,結(jié)合蒙特卡羅樹搜索(MCTS),增強(qiáng)了深度強(qiáng)化學(xué)習(xí)。
“盡管MCTS已經(jīng)成為圍棋程序中的標(biāo)準(zhǔn)搜索方法,但迄今為止,幾乎沒有證據(jù)表明它在國(guó)際象棋或?qū)⑵逯杏杏??!盋ampbell寫道:“DeepMind展示了深度強(qiáng)化學(xué)習(xí)與MCTS算法相結(jié)合的力量,從隨機(jī)初始化的參數(shù)開始,讓神經(jīng)網(wǎng)絡(luò)通過自我對(duì)弈不斷更新參數(shù)?!?/div>
下面,就讓我們一起來看看,AlphaZero的論文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis親自撰文,闡述他們?nèi)绾斡?000個(gè)TPU,讓AlphaZero快速掌握將棋、國(guó)際象棋和圍棋。
用5000個(gè)TPU,快速掌握將棋、圍棋和國(guó)際象棋
傳統(tǒng)國(guó)際象棋的引擎依賴于由人類高手玩家“手工制作”的數(shù)千條規(guī)則和啟發(fā)式方法,它們都試圖解釋游戲中可能發(fā)生的每一種結(jié)果。
日本將棋程序也是特定于游戲的,使用與國(guó)際象棋程序類似的搜索引擎和算法。
AlphaZero則采用了一種完全不同的方法,用深度神經(jīng)網(wǎng)絡(luò)和通用算法取代了這些“手工制作”的規(guī)則,而這些算法對(duì)基本規(guī)則之外的游戲卻一無所知。
在國(guó)際象棋中,AlphaZero僅用了4個(gè)小時(shí)便首次超越了Stockfish;在日本將棋中,AlphaZero在2小時(shí)后首次超過Elmo;在圍棋方面,AlphaZero在2016年的比賽中,經(jīng)過30個(gè)小時(shí)的鏖戰(zhàn),首次擊敗了傳奇棋手李世石。注:每個(gè)訓(xùn)練步驟代表了4096個(gè)落子位置。
為了學(xué)習(xí)每一個(gè)游戲,一個(gè)未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通過強(qiáng)化學(xué)習(xí)與自己對(duì)打數(shù)百萬次。
一開始,它完全是隨機(jī)的,但是隨著時(shí)間的推移,系統(tǒng)從輸贏中開始學(xué)習(xí),并根據(jù)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整,使其在未來可以選擇更有利的走法。
網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜性,國(guó)際象棋需要9小時(shí),將棋需要12小時(shí),圍棋需要13天。
“AlphaZero的一些舉動(dòng),例如將王將移至棋盤中央是有違將棋理論的,從人類的角度來看,它的這些舉動(dòng)似乎是將自己置于危險(xiǎn)境地。但令人難以置信的是,它仍然控制著局面。AlphaZero獨(dú)特的游戲風(fēng)格向我們展示了將棋的新可能性?!?/span>
羽生善治,日本將棋棋士,獲得七項(xiàng)頭銜的“永世稱號(hào)”,亦是日本將棋史上第一個(gè)達(dá)成七冠王與“永世七冠”的人,改寫了將棋界多項(xiàng)歷史紀(jì)錄
訓(xùn)練后的網(wǎng)絡(luò)用于指導(dǎo)搜索算法(蒙特卡羅樹搜索,MCTS),選擇游戲中最有有利的動(dòng)作。對(duì)于每次移動(dòng),AlphaZero僅搜索傳統(tǒng)國(guó)際象棋引擎所考慮的一小部分位置。
例如,在國(guó)際象棋中,它每秒僅搜索6萬個(gè)位置,相比之下,Stockfish大約有6千萬個(gè)位置。
這些經(jīng)過全面訓(xùn)練的系統(tǒng)是在國(guó)際象棋(Stockfish)和將棋(Elmo)最強(qiáng)大的“手工引擎”以及我們之前自學(xué)的AlphaGo Zero系統(tǒng)(已知最強(qiáng)大的圍棋選手)的幫助下進(jìn)行測(cè)試的。
每個(gè)程序都在它們所設(shè)計(jì)的硬件上運(yùn)行。Stockfish和Elmo使用了44個(gè)CPU核,而AlphaZero和AlphaGo Zero使用了一臺(tái)擁有4個(gè)第一代TPU和44個(gè)CPU核的機(jī)器。第一代TPU在推理速度上與NVIDIA Titan V GPU等商用硬件大致相似,但架構(gòu)并不具有直接可比性。
所有的比賽都有時(shí)間控制,每場(chǎng)比賽3小時(shí),外加每一步額外的15秒。
在每次評(píng)估中,AlphaZero都毫無懸念地?fù)魯×藢?duì)手:
在國(guó)際象棋比賽中,AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish,贏得155場(chǎng)比賽,在1000場(chǎng)比賽中只輸了6場(chǎng)。為了驗(yàn)證AlphaZero的穩(wěn)健性,我們還進(jìn)行了一系列比賽,這些比賽都是從常見的“人類開局方式”開始的。在每一種開局情況下,AlphaZero都擊敗了Stockfish。我們還與最新開發(fā)版本的Stockfish以及它的變體打過比賽,在所有的比賽中,AlphaZero都贏了。
在將棋比賽中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。
在圍棋比賽中,AlphaZero擊敗了AlphaGo Zero,贏得了61%的比賽。
獨(dú)創(chuàng)棋風(fēng),拓展人類智慧,邁向通用學(xué)習(xí)系統(tǒng)重要一步
然而,讓人感到最著迷的是AlphaZero的行棋風(fēng)格。例如,在國(guó)際象棋中,AlphaZero在自我訓(xùn)練中獨(dú)立發(fā)現(xiàn)并走出了人類棋手常用的定式,如開局、王不立險(xiǎn)地(King safety)和兵的走法。
但是,由于這些都是自學(xué)的,因此不會(huì)受傳統(tǒng)觀念的影響,AlphaZero還開創(chuàng)出了自己的直覺和策略,產(chǎn)生了一系列令人興奮的新穎思路,為幾個(gè)世紀(jì)以來國(guó)際象棋戰(zhàn)略戰(zhàn)術(shù)的思考提供了有益的補(bǔ)充。
過去一個(gè)多世紀(jì)以來,國(guó)際象棋一直被用作衡量人類和機(jī)器認(rèn)知水平的黃金標(biāo)準(zhǔn)。 AlphaZero取得的非凡成果,刷新了這門古老的棋盤游戲和尖端科學(xué)之間的顯著聯(lián)系。
前國(guó)際象棋世界冠軍 加里·卡斯帕羅夫
在與AlphaZero對(duì)弈時(shí),棋手注意到的第一件事就是它的行棋風(fēng)格,國(guó)際象棋大師Matthew Sadler說道,“它會(huì)懷著明確的目的和力量來瓦解對(duì)手的王”。Sadler和女子國(guó)際象棋大師Natasha Regan一起分析AlphaZero,并寫作出版了專著《Game Changer:AlphaZero的顛覆性國(guó)際象棋策略和人工智能潛力》。
AlphaZero的行棋風(fēng)格非常靈活,最大限度地提升己方子力配備的靈活性和機(jī)動(dòng)性,同時(shí)最大限度地降低對(duì)手子力的靈活性和機(jī)動(dòng)性。
與我們的通常想法不同的是,AlphaZero似乎對(duì)“子力”本身的重視程度較低,而重視“子力”是現(xiàn)代國(guó)際象棋的基本行棋思路,棋盤上每個(gè)子都具有價(jià)值,如果一個(gè)玩家在棋盤上的子力高于對(duì)手,那么他就擁有子力優(yōu)勢(shì)。而AlphaZero甚至愿意在棋局早期犧牲子力,以獲得長(zhǎng)期收益。
“令人印象深刻的是,AlphaZero在行棋時(shí)能將這種風(fēng)格應(yīng)用在各種各樣的開局和定式中。”Matthew說道,他也觀察到,AlphaZero從走第一步開始就體現(xiàn)出了這種明確的的性,且一以貫之,其風(fēng)格體現(xiàn)得非常明顯。
“過去的傳統(tǒng)國(guó)際象棋軟件已經(jīng)非常穩(wěn)定,幾乎不會(huì)出現(xiàn)明顯錯(cuò)誤,但在面對(duì)沒有具體和可計(jì)算解決方案的時(shí),其行棋會(huì)發(fā)生偏差,”他說:“正是在這種時(shí)候,才是AlphaZero發(fā)揮其'感覺'、'洞察'或'直覺'的地方?!?/div>
這種獨(dú)特的能力,在其他傳統(tǒng)的國(guó)際象棋引擎中是看不到的。目前,AlphaZero已經(jīng)被用來在世界國(guó)際象棋錦標(biāo)賽上為棋迷們提供有關(guān)Magnus Carlsen和Fabiano Caruana(現(xiàn)男子國(guó)際象棋等級(jí)分前兩名)對(duì)局的新見解和評(píng)論。
“我們可以看看AlphaZero的分析,與頂級(jí)國(guó)際象棋大師對(duì)棋局的分析,甚至和棋手實(shí)戰(zhàn)著法有何不同,這真是令人著迷的一件事。AlphaZero可以作為整個(gè)國(guó)際象棋社區(qū)的強(qiáng)大教學(xué)工具?!?/div>
AlphaZero的“教誨”,讓我們想起了2016年AlphaGo與圍棋世界冠軍李世乭對(duì)弈時(shí)的場(chǎng)景。在那次比賽中,AlphaGo走出了許多極具創(chuàng)造性的致勝著法,包括在第2局比賽中的執(zhí)黑第37手,這手棋推翻了人類數(shù)百年的思路。這些著法已經(jīng)被包括李世乭本人在內(nèi)的所有級(jí)別的棋手和愛好者研究過。
他們對(duì)此表示:“我之前還認(rèn)為AlphaGo是基于概率來計(jì)算的,它只是一臺(tái)機(jī)器。但當(dāng)我看到這手棋時(shí),我改變了想法。毫無疑問,AlphaGo是有創(chuàng)造性的。”
“人機(jī)大戰(zhàn)”的影響力已經(jīng)遠(yuǎn)遠(yuǎn)超出了國(guó)際象棋本身。這些自學(xué)成才的專家級(jí)機(jī)器不僅表現(xiàn)優(yōu)異,棋力非凡,而且從自己創(chuàng)造的新知識(shí)中學(xué)習(xí)。
加里·卡斯帕羅夫 前國(guó)際象棋世界冠軍
和圍棋一樣,我們對(duì)AlphaZero在國(guó)際象棋上的創(chuàng)造性突破感到興奮,自從計(jì)算機(jī)時(shí)代以來,人工智能時(shí)時(shí)面臨著巨大挑戰(zhàn),包括巴貝奇、圖靈、馮·諾依曼在內(nèi)的早期計(jì)算機(jī)先驅(qū)人物,都曾試圖設(shè)計(jì)國(guó)際象棋程序,但AlphaZero的用途不僅僅是國(guó)際象棋、將棋和圍棋。
為了創(chuàng)建能夠解決各種現(xiàn)實(shí)問題的智能系統(tǒng),它們需要更加靈活,能夠適應(yīng)新情況。雖然目前在實(shí)現(xiàn)這一目標(biāo)方面取得了一些進(jìn)展,但AI的通用化問題仍然是研究中的一項(xiàng)重大挑戰(zhàn),經(jīng)過訓(xùn)練的AI系統(tǒng)面對(duì)特定任務(wù)時(shí)能夠以極高標(biāo)準(zhǔn)完成,但任務(wù)只要稍有變化往往就會(huì)失敗。
AlphaZero掌握了三種不同的復(fù)雜游戲,這可能是朝著解決這一問題邁出的重要一步。盡管目前還處于早期階段,但AlphaZero取得的進(jìn)步,以及在蛋白質(zhì)折疊系統(tǒng)AlphaFold等其他項(xiàng)目上的令人鼓舞的結(jié)果,讓我們對(duì)實(shí)現(xiàn)通用學(xué)習(xí)系統(tǒng)的使命充滿信心,相信未來我們能夠找到一些新的解決方案,解決最重要、最復(fù)雜的科學(xué)問題。
(原標(biāo)題:AlphaZero達(dá)成終極進(jìn)化體,史上最強(qiáng)棋類AI降臨?。?/div>
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存
查看更多類似文章