2017 年末,DeepMind 推出了 AlphaZero——一套能夠從零開始自主學習國際象棋、將棋(類似于日本版的國際象棋)以及圍棋的技藝,從而全面超越各項目世界冠軍的系統(tǒng)。
對于這一系統(tǒng)帶來的初步成果,整個公司的研發(fā)人員都感到非常興奮,并很高興看到國際象棋界成員對此做出的熱烈回應。他們在 AlphaZero 的棋藝當中發(fā)現(xiàn)了一種突破性、高度動態(tài)且“不同于傳統(tǒng)”的對弈風格,這也使其完全不同于以往存在過的任何棋類游戲引擎。
今天,AlphaZero 登上了著名的《科學》雜志,并以封面論文的形式發(fā)表,它背后的公司 DeepMind 也在官方博客上撰文,為這一系統(tǒng)取得的最新成就進行了詳細解析,InfoQ 將全文翻譯整理如下:
今天,我們很高興地發(fā)布 AlphaZero 的完整評估報告,這篇論文已經(jīng)公開發(fā)表在《科學》雜志上:
http://science.sciencemag.org/content/362/6419/1140
評審編輯已經(jīng)確認并更新了這些初步結果。論文描述了 AlphaZero 如何快速學習每一種棋類,包括在僅獲得游戲基本規(guī)則、但完全不存在內(nèi)置指導的前提下從隨機游戲開始,一步步成長為有史以來最強大的棋手。
這種從零開始學習每種棋類的能力由于不受人類固有思維的約束,因此產(chǎn)生出一種獨特、有悖于傳統(tǒng),但卻極具創(chuàng)造性與動態(tài)思考的對弈風格。國際象棋大量馬修·薩德勒(Matthew Sadler)與女子國際象棋大師娜塔莎·里根(Natasha Regan)在即將于明年 1 月出版的《游戲規(guī)則改變者(Game Changer)》一書中分析了 AlphaZero 進行的數(shù)千盤國際象棋對弈,并發(fā)現(xiàn)其風格不同于任何傳統(tǒng)的國際象棋引擎。馬修表示,“這就像是發(fā)現(xiàn)了古代棋藝大師的秘籍一樣。”
傳統(tǒng)的國際象棋引擎——包括世界計算機國際象棋冠軍 Stockfish 與 IBM 廣為人知的“深藍”——依賴于數(shù)千條由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息嘗試解釋游戲中的每一種可能性。將棋同樣遵循此理,其程序僅適用于將棋本身,但采用與國際象棋程序類似的搜索引擎與算法。
AlphaZero 采取的方法則完全不同,其利用一套深層神經(jīng)網(wǎng)絡與大量通用型算法取代了那些手工制作的規(guī)則,而且這些算法除了棋類的基本規(guī)則之外一無所知。
在國際象棋當中,AlphaZero 僅用了 4 個小時便成功擊敗 Stockfish; 在將棋方面,其擊敗 Elmo 則僅用掉 2 個小時 ; 至于圍棋,AlphaZero 在 30 個小時即擊敗曾于 2016 年壓倒世界冠軍李世石的 AlphaGo 版本。注意:每個訓練步驟代表 4096 個盤面位置。
為了學習每種棋類,這套未經(jīng)訓練的神經(jīng)網(wǎng)絡會通過一種被稱為強化學習的實驗與試錯過程完成數(shù)百萬盤自我對弈。起初,其完全是在隨機亂下 ; 但隨著時間的推移,系統(tǒng)會從勝利、失敗以及平局當中學習經(jīng)驗,從而調(diào)整神經(jīng)網(wǎng)絡參數(shù),使其更有可能在未來的選擇中做出有利判斷。網(wǎng)絡所需要的訓練量取決于游戲的風格與復雜程度——國際象棋大約需要 9 個小時,將其大約需要 12 個小時,而圍棋則需要 13 天。
這套經(jīng)過訓練的網(wǎng)絡被用于指導一種搜索算法——被稱為蒙特卡洛樹搜索(簡稱 MCTS)——坐而選擇當前盤面下最為有利的棋步。對于每一步棋,AlphaZero 所需要的位置搜索量只相當于傳統(tǒng)國際象棋引擎的一小部分。例如在國際象棋當中,AlphaZero 每秒只需要搜索 6 萬個位置 ; 相比之下,Stockfish 則需要搜索大約 6000 萬個位置。
經(jīng)過全面訓練之后,這套系統(tǒng)被用于對抗最強大的傳統(tǒng)國際象棋(Stockfish)與將棋(Elmo)引擎,甚至還包括 AlphaZero“一奶同胞”的大哥 AlphaGo——全球最強圍棋棋手。
然而,更令人著迷的是 AlphaZero 在對弈過程中展現(xiàn)出的行棋風格。例如,在國際象棋當中,AlphaZero 在自我學習與訓練當中獨立發(fā)現(xiàn)并使用了常見的人類行棋模式,例如開口、保王以及兵陣等等。然而,由于自學成才且完全不受傳統(tǒng)觀念的影響,AlphaZero 也發(fā)展出了自己的直覺與策略。其提出的一系列令人興奮的新穎想法,大大拓展了幾個世紀以來人類對于國際象棋戰(zhàn)略的理解。
棋手們首先注意到的,一定是 AlphaZero 的行棋風格。馬修·薩德勒表示,“它的走法充滿了目的性與攻擊性,始終圍繞著對方的王進行謀劃?!币源藶榛A,AlphaZero 還擁有著高度動態(tài)化的對弈能力,這最大限度提高了其棋路的靈活性與移動性,同時最大限制著對方棋子的靈活性與移動性。與直覺相反,AlphaZero 似乎對于“棋子角色”的重視程度較低?,F(xiàn)代競技項目的一大基礎特性,所有參與方都具有價值。如果某一選手在棋盤上的棋子價值高于對方,則表示前者在棋子角色方面具有優(yōu)勢。但不同于此,AlphaZero 更傾向于在開局之初就犧牲這些棋子角色,從而獲得更為長遠的形勢性收益。
馬修指出,“令人印象深刻的是,它在各種角色與位點上都表現(xiàn)出這種強烈的行棋風格?!彼瑫r觀察到,AlphaZero 在起步階段會非??桃獾匾浴芭c人類非常相似的意圖”設計開局。
馬修解釋稱,“傳統(tǒng)引擎非常穩(wěn)定,幾乎不會出現(xiàn)明顯的錯誤。但在面對沒有具體且可參考解決方案的位置時,則顯得束手無策。相比之下,AlphaZero 則能夠在這樣的位置上表現(xiàn)出「感覺」、「洞察」或者「直覺」?!?/p>
這種獨特的能力是其它傳統(tǒng)國際象棋引擎所不具備的,而且也在最近的世界國際象棋錦標賽當中為國際象棋愛好者們帶來了新的思路與啟發(fā)。馬格努斯·卡爾森(Magnus Carlsen)與法比亞諾·卡魯安納(Fabiano Caruana)之間的比賽就有所體現(xiàn),《游戲規(guī)則改變者》一書就對此做出了進一步探討。娜塔莎·里根表示,“對 AlphaZero 以及頂級國際象棋引擎乃至頂級大師的行棋方式進行分析,著實令人著迷。”
AlphaZero 帶來的經(jīng)驗,也與 2016 年 AlphaGo 與傳奇圍棋大師李世石間的對弈有所呼應。在此次比賽當中,AlphaGo 走出了許多極具創(chuàng)造性的取勝手法,包括在第二場比賽中只用 37 步即告勝出——這徹底推翻了數(shù)百年來人類對于圍棋運動的理解。這些棋步已經(jīng)被包括李世石本人在內(nèi)的眾多棋手奉為經(jīng)典案例。在評論第 37 步時,李世石表示,“我一直認為 AlphaGo 屬于那種基于概率的計算工具,畢竟它只是一臺機器。但在看到這一步時,我改變了看法。不可否認,AlphaGo 擁有真正的創(chuàng)造力?!?/p>
與圍棋一樣,我們也對 AlphaZero 在國際象棋領域表現(xiàn)出的創(chuàng)造性感到興奮。自從計算機時代開始以來,國際象棋一直是人工智能技術面臨的主要挑戰(zhàn)——包括巴貝奇、圖靈、香農(nóng)以及馮·諾伊曼在內(nèi)的眾多早期開拓者都在努力設計能夠解決國際象棋問題的方案。但 AlphaZero 的適用于并不僅限于國際象棋、將棋或者圍棋。為了建立起能夠解決各類現(xiàn)實問題的智能系統(tǒng),我們要求其具備靈活性并能夠適應各種新情況。雖然我們已經(jīng)在實現(xiàn)這一目標方面取得了一定進展,但其仍然是人工智能研究中的一大核心挑戰(zhàn)。目前的系統(tǒng)雖然能夠以極高的標準掌握特定技能,但卻往往無法解決甚至只經(jīng)過略微修改的任務。
AlphaZero 這種掌握三種不同復雜棋類(甚至有可能涵蓋一切完美信息類項目)的能力代表著克服這一問題的重要一步。這證明單一算法完全有可能在不同的具體規(guī)則之下學習并發(fā)現(xiàn)新知識。另外,盡管尚處于早期發(fā)展階段,但 AlphaZero 的創(chuàng)造性見解加上我們在 AlphaFold 等其它項目中觀察到的振奮人心的結果,使我們對于創(chuàng)建通用學習系統(tǒng)這一目標充滿信心。這意味著我們有望發(fā)現(xiàn)更多新的解決方案,從而攻克那些最重要也最復雜的科學問題。
下載論文:
https://deepmind.com/documents/260/alphazero_preprint.pdf
原文鏈接:
https://deepmind.com/blog/alphazero·shedding·new·light·grand·games·chess·shogi·and·go/
聯(lián)系客服