本文來(lái)源于微信公眾號(hào):找借口安靜
原址:https://diamond.jp/articles/amp/154418?skin=amp
原題:囲碁AIのすさまじい進(jìn)化をプロ棋士が解説、人間の棋譜はもう不要?
摘自:『週刊ダイヤモンド』特別レポート
作者:大橋拓文 六段
翻譯:找借口安靜
大腦相同的情況下,學(xué)習(xí)人類棋譜的AlphaGo更強(qiáng)
AlphaGo Zero將原先的AlphaGo所有版本超越之后,就出現(xiàn)了“人類的數(shù)據(jù),其實(shí)都是無(wú)用功”的說(shuō)法。但是從目前來(lái)看,我們有理由證明人類的數(shù)據(jù)其實(shí)還是有用的。
導(dǎo)入了人類棋譜的AlphaGo最強(qiáng)版本是AlphaGo Master版本,Master在2017年年初達(dá)成了對(duì)職業(yè)棋手們的60連勝,一鳴驚人。DeepMind團(tuán)隊(duì)從對(duì)局結(jié)果進(jìn)行數(shù)字化,采用了Elo Rating的手段,比較這些版本的強(qiáng)弱程度(評(píng)分越大表示越強(qiáng))。
在這里我們需要注意的是,出現(xiàn)了兩個(gè)AlphaGo Zero。初期的20 Blocks版本和超越AlphaGo Master的40 Blocks版本。Blocks是模擬人腦用來(lái)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的大小。Blocks越大,我們就默認(rèn)為它更聰明。
那么,我們最想知道的是Master的Blocks數(shù)量。AlphaGo的工作人員表示,Master用的是20 Blocks。也就是說(shuō),同樣是20 Blocks的情況下,AlphaGo Zero比導(dǎo)入了人類棋譜的Master要稍遜一籌。另外,AlphaGo采用的神經(jīng)網(wǎng)絡(luò)使用的是最新的“ResNet”,一個(gè)Blocks有兩層,如果想知道更多信息的話,請(qǐng)參考我的拙作《讀得懂的圍棋AI大全(よくわかる囲碁AI大全)》。
在世界大賽上,全新AI驚人的第3手棋
在圍棋AI突飛猛進(jìn)的時(shí)候,12月9日和10日,圍棋AI的世界大賽“AI龍星戰(zhàn)”在東京秋葉原舉行。吸引了全球共20支隊(duì)伍參加比賽。雖然AlphaGo沒(méi)有參加,但是眾多圍棋AI仍然進(jìn)行了激烈的戰(zhàn)斗。名次排在前列的圍棋AI如下。
此次冠軍是前面介紹的,中國(guó)騰訊公司開發(fā)的絕藝。采用淘汰賽賽制的本賽,排名前列的AI都是以中日大戰(zhàn)的形式展開,本屆比賽中,中國(guó)的團(tuán)隊(duì)均獲得了勝利。特別是絕藝團(tuán)隊(duì)在AlphaGo Zero的論文發(fā)布后一個(gè)月之后,就引入了該項(xiàng)技術(shù),在大賽開賽前實(shí)力獲得更大的提升。但是絕藝其實(shí)導(dǎo)入了很多人類棋手的棋譜??磥?lái)要迅速做出圍棋AI軟件,導(dǎo)入人類棋譜的方式是最有效的。
但是讓我引起注意的是首次參加就獲得第三名的好成績(jī),并獲得新人獎(jiǎng)的中國(guó)新星“天壤”。我之所以關(guān)注天壤的原因,是因?yàn)樗鲁隽撕芏嗒?dú)特的棋,然后這些棋和AlphaGo Zero非常相似。
為了能更好的理解“天壤”的獨(dú)特性,首先在這里簡(jiǎn)單介紹一下圍棋的基本策略。我們先看圖1。
黑棋圍出來(lái)的空右上角和中央都是16目,但是相較于中央用了16顆黑棋,角上僅用了8顆。所以角上的目數(shù)效率較高。
圍棋是雙方占據(jù)地盤的游戲。黑棋■圍出來(lái)的▲,其實(shí)都是黑棋的目數(shù)。角上和中央雖然都是16目,但是我們分別數(shù)一下黑棋各自所花的子數(shù)。
角上用了8子,但是中央是角上的兩倍用了16子。所以大家應(yīng)該看懂了,為了奪得目數(shù),角上的效率要更好一些。而圍棋的基本策略,首先都是占4個(gè)角開始戰(zhàn)斗。
角上開始行棋對(duì)人類來(lái)說(shuō)是基本定式,但是“天壤”的布局讓人感覺(jué)大放異彩。我們先介紹一下“天壤”對(duì)DeepZenGo的半決賽第3手棋。
半決賽天壤執(zhí)黑對(duì)DeepZenGo。圍棋一般都在效率較高的4個(gè)角開局,黑1白2之后,黑3白4在A位B位附近行棋是正常情況。但是天壤黑3直接選擇動(dòng)手。
通常情況下,黑3和白4各自在A、B或者在其附近行棋。為了保證目數(shù)而率先在4個(gè)角行棋。但是天壤在白2之后,直接在黑3選擇進(jìn)入白角。
在這里選擇下在3-3位,稱作點(diǎn)三三,這在我之前的文章《圍棋AI也有個(gè)性!職業(yè)棋手通過(guò)對(duì)局發(fā)覺(jué)》也提到過(guò),這手棋是AlphaGo布局階段非常喜歡的一手棋。即便如此,AlphaGo也是在A位或者B位有子的情況下才會(huì)選擇點(diǎn)三三。
但是在AlphaGo Zero在自我學(xué)習(xí)的過(guò)程中,黑棋第3手就開始選擇點(diǎn)三三。黑棋不先在A或者B位在角上行棋,而是在白棋占角之后直接選擇在第3手點(diǎn)角,可以看出這是黑棋比較有預(yù)謀的一手棋。這樣的次序,是通過(guò)自我對(duì)局進(jìn)行學(xué)習(xí)的圍棋AI最顯著的特點(diǎn)。
像人類的AI與不像人類的AI
天壤的開發(fā)者表示,他們果然沒(méi)有使用人類的棋譜進(jìn)行學(xué)習(xí)。天壤是一家中國(guó)的AI企業(yè),為了能在其他領(lǐng)域上使用,就開發(fā)了圍棋AI。
即便如此,我們知道AlphaGo Zero是在谷歌的巨大資源下進(jìn)行學(xué)習(xí)。但是天壤在發(fā)表論文后僅一個(gè)月的時(shí)間就進(jìn)入了世界大賽第三的高度,這也可以代表了天壤的價(jià)值。
點(diǎn)三三等有關(guān)圍棋個(gè)性的下法,我在之前的文章也有所提及。我覺(jué)得人工智能通過(guò)自我對(duì)局提升自己的水平,使得他們喜歡在布局階段就點(diǎn)三三。這一次天壤團(tuán)隊(duì)模仿了AlphaGo Zero的手段,使得點(diǎn)三三變成了常態(tài),這也讓這個(gè)假設(shè)有了有利的證據(jù)。同時(shí),在龍星戰(zhàn)獲得冠亞軍的絕藝和DeepZenGo,他們更多的使用了人類的數(shù)據(jù),所以早早選擇點(diǎn)三三的情況就比較少見。
就像這樣,現(xiàn)在的圍棋AI界,有在導(dǎo)入人類的數(shù)據(jù)之后得到有效提升的團(tuán)隊(duì),就像是人類一樣的AI;還有采用了其他方式創(chuàng)作出來(lái)的不像人類的AI,確實(shí)非常有意思。
人工智能就像指數(shù)函數(shù)那樣的進(jìn)步迅速,而人類的知識(shí)究竟能看清到什么程度,目前可以說(shuō)在做相關(guān)的實(shí)驗(yàn)。我們不僅為于人類棋風(fēng)完全不一樣的人工智能感到興奮的同時(shí),我更覺(jué)得導(dǎo)入人類的棋譜對(duì)AI的學(xué)習(xí)更加有效讓我更加興奮一些。人工智能的進(jìn)步與人類的智慧相融合,我們期待出現(xiàn)更多富有創(chuàng)新性的產(chǎn)品。
(弈客編輯YK009)
聯(lián)系客服