引言
這必將是載入史冊(cè)的一天。
人機(jī)圍棋巔峰大戰(zhàn)第一局,人類輸了。
賽前的預(yù)測(cè),棋界絕大多數(shù)認(rèn)為李世石必勝,科技界則大約是兩派各半。
認(rèn)為李世石必勝的一方并非全都是出于傲慢無知,更多人不能相信的只是——這么快??萍冀缫灿泻芏嗳肆私馑惴ㄖ笳J(rèn)為AlphaGo還不足以戰(zhàn)勝人類
從去年10月的五盤棋譜,到谷歌公開的論文,人們認(rèn)為圍棋AI仍然存在弱點(diǎn),存在不能在這么短的時(shí)間內(nèi)解決的問題,而這些問題將會(huì)導(dǎo)致AI在巔峰對(duì)決中失利。
然而,
李世石輸了。
關(guān)于這盤棋,會(huì)有很多解讀。不止在今天,甚至在數(shù)十年之后,這盤棋還可能會(huì)被拿出來研究,從棋譜上,更從人機(jī)不同的思維上。不論未來回看這盤棋的是人類還是真正有了自我意識(shí)的AI,想必都會(huì)有與當(dāng)下的我們不同的感受。而我們有義務(wù)把我們的感受和思考記錄下來,讓后人知道當(dāng)時(shí)的人究竟是如何理解這盤棋,他們有哪些錯(cuò)誤的認(rèn)識(shí)、可笑的想法,又有哪些深刻的洞察。
我們來看看,今天這盤棋,究竟發(fā)生了什么。這盤棋可能將是有史以來職業(yè)棋手最難以統(tǒng)一意見的對(duì)局,以下觀點(diǎn)是我個(gè)人見解,只是在圍棋AI時(shí)代毫無預(yù)兆迅猛而來時(shí),一名棋手盡可能理性的分析和思考。
一、李世石的針對(duì)性策略
從棋譜來看,我認(rèn)為李世石在這盤棋前后主要使用了一個(gè)試探,和兩個(gè)策略。
1)試探:從未出現(xiàn)過的布局
李世石第7手,沒有按常規(guī)布局在上邊連片,而選擇走在右邊。李世石自己在職業(yè)比賽中從未使用過這一開局,甚至整個(gè)職業(yè)圍棋界,沒有人見過這一開局。
李世石不按常規(guī)布局,顯然是對(duì)電腦的一種試探。在去年10月AlphaGo對(duì)樊麾的五盤棋中,所有開局都是常規(guī)布局,雖然那五盤的開局在今天已經(jīng)不是主流,但都是曾經(jīng)流行一時(shí)的布局。
避開流行布局,甚至避開曾經(jīng)流行過的已經(jīng)被淘汰的布局,選擇一個(gè)從未出現(xiàn)過的布局。李世石在考驗(yàn)AlphaGo在布局階段的應(yīng)變能力。我們知道AlphaGo的深度學(xué)習(xí)基于大量已有對(duì)局的數(shù)據(jù),那么,面對(duì)一個(gè)棋譜庫(kù)里從未見過的布局,AlphaGo你將如何應(yīng)對(duì)?
AlphaGo給出了完美的回答。
白8掛角正常,黑9二間高夾最為激烈。白10,這一手……非常出色。
通常情況下,在右上白8遭遇二間高夾的時(shí)候,白10是“不存在”的一手,它不在任何定式之中。面對(duì)黑9,白棋有諸多定式選擇,卻沒有白10這一手。
然而,我認(rèn)為白10是好手。
白10的好處在于使黑7變成效率低下的一手,雖然在右上局部白棋稍稍虧損,但加上黑7的低效,白棋一點(diǎn)也不吃虧。
AI竟然會(huì)通盤考慮!傳統(tǒng)的圍棋AI,會(huì)根據(jù)已有棋譜來走定式,定式是經(jīng)過長(zhǎng)期檢驗(yàn)的局部雙方可以接受的定型。然而定式的弊端就在于,不同的周圍環(huán)境,定式的適用性有所不同。從這盤棋來看,黑9夾擊之后,白棋如果選擇面對(duì)二間高夾最常用的“妖刀”定式,即走在15位,反而將使黑7的位置成為絕對(duì)的好點(diǎn),黑7的效率將會(huì)大大提升。
實(shí)戰(zhàn)白棋選擇了一個(gè)定式里沒有的、局部稍虧的、卻使得黑7這個(gè)遙遠(yuǎn)棋子的效率變低的下法,非常清楚地證明了兩點(diǎn):
電腦不依靠背譜來下棋
電腦的考慮基于全局而非局部。
當(dāng)然,第一點(diǎn)其實(shí)在對(duì)樊麾的棋譜中已經(jīng)可以看出來。在對(duì)樊麾的常規(guī)開局中,AI出現(xiàn)了數(shù)次不同于“譜著”的下法。其中有一盤出現(xiàn)“大雪崩”定式,電腦選擇的次序是定式和棋譜里沒有的,而且是從邏輯上不如譜著的。注意,這里強(qiáng)調(diào)是邏輯上不如譜著,而不是在經(jīng)驗(yàn)上。即,AI當(dāng)時(shí)的次序是“絕對(duì)弱于”譜著,只可能虧沒可能便宜,雖然選點(diǎn)是正確的,但在我們看來是“次序錯(cuò)誤”。這體現(xiàn)出,AlphaGo不依賴于定式和譜著,但也暴露出AI在邏輯上的不足,反應(yīng)在棋盤上就可能會(huì)出現(xiàn)次序錯(cuò)誤。這一點(diǎn),也是棋手普遍不看好AI能戰(zhàn)勝李世石的一個(gè)原因。
但這一問題在這盤棋我們并沒有看到。起碼,沒有非常明顯地顯現(xiàn)出來(后面會(huì)提到一個(gè)細(xì)微的類似問題)。
而第二點(diǎn)則是這盤棋AI開局給我們秀出的能力。他輕易擺脫了李世石設(shè)下的定式圈套,以全局的視野作出了定式中不存在的選擇。
如果說第一點(diǎn)是我們?cè)贏lphaGo對(duì)樊麾時(shí)已經(jīng)能夠看到的情況,那么第二點(diǎn)則是這局棋在布局階段對(duì)人類試探的完美答復(fù)。如果只依靠大量棋譜堆砌出來的局部圖像識(shí)別,AI做不出這樣的選擇。
2)策略一:開放式復(fù)雜局面
李世石第一次試探得到了AI的完美答復(fù),然后李世石使用了他的一個(gè)重要策略。從局后來看,正是這一策略導(dǎo)致了李世石局面的被動(dòng),但在賽前,我們并未想到這一點(diǎn)。
我們不知道李世石在賽前有沒有接受人工智能領(lǐng)域?qū)<覍?duì)Alphago算法的分析,但從李世石采取的策略來看,他顯然有非常強(qiáng)的針對(duì)性。
我們知道,深度學(xué)習(xí)在圍棋盤上的主要作用是大量剪枝,通過價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò),將搜索的空間大幅減小,形成“棋感”。在這個(gè)基礎(chǔ)上,再輔以傳統(tǒng)的蒙特卡洛算法做搜索計(jì)算,最終確定落子的選擇。圍棋中存在一些封閉的計(jì)算空間,比如局部的“死活題”,對(duì)于AI而言可以通過窮舉來遍歷每一個(gè)選點(diǎn),從而完成計(jì)算,得出落子點(diǎn)。但圍棋中更難的部分是開放式的復(fù)雜局面,每一處的不同選擇都會(huì)波及到其它地方,所謂“牽一發(fā)而動(dòng)全身”。而這種局面頭緒繁多,可供思考的選點(diǎn)很多,不同選點(diǎn)之后變化的深度和廣度都很大,并且往往一個(gè)細(xì)微的計(jì)算失誤會(huì)導(dǎo)致整局棋的徹底失敗。對(duì)于職業(yè)棋手而言,這種局面正是最難把握的局面之一。
賽前有人猜測(cè),AlphaGo的剪枝面對(duì)開放性復(fù)雜局面的效用將會(huì)降低,而搜索的深度廣度和準(zhǔn)確度要求又使得AI不能依靠蒙特卡洛算法達(dá)到精確,因此這很可能是基于深度學(xué)習(xí)和蒙特卡洛的圍棋AI的一個(gè)弱點(diǎn)。
不論李世石是否了解到這些,總之他使用了一個(gè)策略:迅速導(dǎo)入開放式復(fù)雜局面。
這里不做過于具體的技術(shù)分析。李世石第23手靠,和第27手擋,將局面導(dǎo)向了開放式復(fù)雜局面。原本李世石有更為柔和的選擇,但他選擇了最為強(qiáng)硬的下法。我們看到,AI的白24、26、28是非常敏銳的戰(zhàn)斗嗅覺,完全沒有避戰(zhàn)。
從我的經(jīng)驗(yàn)來看,這個(gè)戰(zhàn)斗是由黑方挑起的,而黑方挑起戰(zhàn)斗的時(shí)機(jī)并不成熟。在勢(shì)均力敵的對(duì)局中,我們往往會(huì)試圖在認(rèn)為有超過50%成功率的時(shí)機(jī)選擇戰(zhàn)斗,只是棋手有力戰(zhàn)派和穩(wěn)健派的分別,力戰(zhàn)派對(duì)于戰(zhàn)斗的判斷會(huì)更為樂觀一些。
李世石是偏力戰(zhàn)的棋手。但在本局中,這一開戰(zhàn)時(shí)機(jī)仍然是過早了,可以說是立足未穩(wěn)時(shí)沖向了敵營(yíng)。我相信在對(duì)手是人的情況下李世石通常不會(huì)如此選擇,他會(huì)尋找一個(gè)更合適的時(shí)機(jī)展開戰(zhàn)斗,而且他本身就是一個(gè)極為擅長(zhǎng)尋找戰(zhàn)機(jī)的大師。
但是他選擇了不等布局結(jié)束,直接開戰(zhàn)。
仔細(xì)觀察可以看到,AI是有機(jī)會(huì)避開這種局面的。
白42手可以選擇在1位這里貼吃,選擇吃掉中間兩子,棄掉上邊三子形成轉(zhuǎn)換,如此便會(huì)避免復(fù)雜的戰(zhàn)斗局面,形勢(shì)也并不落后。但實(shí)戰(zhàn)白棋選擇把上邊三子跳出,形成混戰(zhàn)局面。這是更強(qiáng)的下法。
那么,在進(jìn)入開放性復(fù)雜局面之后,AlphaGo的表現(xiàn)如何呢?
答案是,非常好。
這步靠,本身似乎是“不成立”的,因?yàn)楹谄蹇梢暂p易地征吃白棋。這一步是業(yè)余棋手絕難想到的下法,因?yàn)榘灼逵疑献陨碚幱诜朗貭顟B(tài),順著往下貼是本能下法。然而AI下出這一步,在防守時(shí)反手一擊,包含了棄子整形、試問應(yīng)手等諸多人類理解的含義。
誠(chéng)然,黑棋可以很輕易地吃掉白棋靠出來的這個(gè)棋子,但代價(jià)是黑1的俗手打吃和白4的先手便宜。職業(yè)棋手能夠很容易地看出白棋送一個(gè)子整形是有所便宜的,但AI也能輕松地做出這一判斷,并且在防守時(shí)有此“意識(shí)”,真的很神奇。
當(dāng)然,對(duì)于跨斷送吃這步棋究竟是否“好”,棋界并不能給出十分確定的統(tǒng)一答案。但是AI下出這步棋,仍然是對(duì)其能力的展現(xiàn),起碼認(rèn)為AI不會(huì)主動(dòng)棄子、不會(huì)防守反擊的論斷可以休矣。
棋局至此,其間的進(jìn)程在這里不做技術(shù)細(xì)節(jié)上的評(píng)論。簡(jiǎn)而言之,面對(duì)開放式復(fù)雜局面,白棋處理得井然有序,該棄的棄,該取的取。李世石的第一策略宣告失敗。
這證明了,基于深度學(xué)習(xí)和蒙特卡洛的圍棋AI面對(duì)“開放性復(fù)雜局面”時(shí)的能力并未如設(shè)想般下降,反而應(yīng)對(duì)得法,在李世石挑起不利戰(zhàn)斗的情況下取得了局面的領(lǐng)先。
李世石或許意識(shí)到了這一策略并未奏效,于是迅速調(diào)整,進(jìn)入了第二策略。
3)策略二:膠著的細(xì)棋局面
事實(shí)證明AlphaGo并不懼怕復(fù)雜的戰(zhàn)斗格局,于是李世石選擇及時(shí)收手,試圖將局面導(dǎo)向細(xì)棋。
細(xì)棋局面下,要求雙方在每一處細(xì)小的地域爭(zhēng)奪上都盡量做到極致,一兩處的失誤雖然不會(huì)造成大片傷亡,但常常足以致負(fù)。
第77手,這是李世石第二策略的開始。這手棋宣告停戰(zhàn),進(jìn)入膠著的細(xì)棋狀態(tài),比拼后半盤的功力。如果不選擇停戰(zhàn),李世石可以考慮直接在左下掛角,引誘白中腹兩子逃出,進(jìn)而繼續(xù)戰(zhàn)斗。
但李世石認(rèn)為第一策略的試探已經(jīng)完畢,沒有奏效,因此選擇了第二策略。
接下來的棋局,我們轉(zhuǎn)換一下視角,從AlphaGo的角度來探究。
二、AlphaGo的爭(zhēng)議著法
關(guān)于AlphaGo在此局的表現(xiàn),棋界比較一致的觀點(diǎn)是從布局到中盤的激戰(zhàn)白棋下得很好,分歧點(diǎn)主要在對(duì)AlphaGo在后半盤的表現(xiàn)。
1) 緩手?
第一個(gè)焦點(diǎn)是第80手。上一手黑棋剛在下邊掛角,白棋正常的下法是在左邊跟著守一步。但實(shí)戰(zhàn)白棋選擇脫先,在左上補(bǔ)了一手。黑棋上一步?jīng)]有選擇在左上馬上行動(dòng),是認(rèn)為這樣直接作戰(zhàn)并沒有把握。實(shí)戰(zhàn)先在下邊掛角,穩(wěn)住實(shí)地,再作圖謀。
面對(duì)左下掛角,局部跟著應(yīng)一個(gè)是最常見的下法。但黑棋在確保了下邊的地域之后,左上可能會(huì)選擇現(xiàn)在2位迂回,如果白棋毫不退讓,那么6位再戰(zhàn)出相當(dāng)嚴(yán)厲。如果白棋退讓,黑棋可以得到左上的角地。這里具體的定型變化并不容易得出結(jié)論,存在不少分支。
實(shí)戰(zhàn)白棋選擇了脫先補(bǔ)左上,左下黑棋得到“雙飛燕”作為補(bǔ)償。至此,對(duì)棋局的判斷出現(xiàn)分歧。做直播的棋手中,有一些認(rèn)為此時(shí)已經(jīng)是黑棋優(yōu)勢(shì),白棋上一步補(bǔ)棋是大緩手。也有人認(rèn)為白上一步雖然緩,但形勢(shì)還是白棋不錯(cuò)。
上一步究竟是不是緩手?我們這里先不做結(jié)論,往下看。
2) 惡手?
下一個(gè)焦點(diǎn)在第86手。
白86斷,又是棋譜里沒有的下法。不過對(duì)局至此,我們對(duì)此已經(jīng)并不驚訝。這步斷的意圖對(duì)人而言很好理解,由于黑棋右邊很厚,白棋想通過棄子整形,使黑棋的厚勢(shì)變得重復(fù)、效率低下。從人的角度來看,這是白棋最明顯的意圖。
實(shí)戰(zhàn)結(jié)果,棋手普遍認(rèn)為左下白棋虧損,并且是嚴(yán)重虧損。這是因?yàn)?,黑棋圍住了一大塊空,白棋實(shí)地受損。
但是,這個(gè)圖存在一定的風(fēng)險(xiǎn),關(guān)于這個(gè)風(fēng)險(xiǎn)我們留到后面來說。
三、載入史冊(cè)的一手!
左下定型結(jié)束,人類棋手普遍產(chǎn)生樂觀情緒:李世石優(yōu)勢(shì),AI也不過如此嘛。
然而,接下來的AlphaGo的一步棋成為了此局最為閃耀的明星。
白102,右邊三路點(diǎn)!
這一手必將載入圍棋的史冊(cè),與古今諸多妙手共同譜寫燦爛的篇章!
在未來的AI棋譜中,必將留下非常多震撼人心的妙手:它們或許比這一手更加精妙,或許比這一手更加深?yuàn)W,但它們都無法取代這一手在圍棋歷史中的位置!
此手完全出乎了李世石的預(yù)料,他面對(duì)這一手,進(jìn)行了全局唯一一次長(zhǎng)考,仍然遭受重創(chuàng)。
在直播時(shí),也有職業(yè)高手在白棋下出這一步之前已經(jīng)預(yù)測(cè)到這一手。但是,對(duì)于人而言這里有一件非常有趣又苦惱的事情:對(duì)局者對(duì)于對(duì)方這種著法的預(yù)計(jì)往往不如觀戰(zhàn)者。
這是因?yàn)?,觀戰(zhàn)者可以很輕松地站在雙方的立場(chǎng)來思考棋局,為雙方尋找最強(qiáng)的著法;而對(duì)局者更多時(shí)候是在思考自己的著法,相較而言會(huì)容易忽略對(duì)方隱蔽的強(qiáng)手。李世石如果預(yù)料到這一手,或許會(huì)在之前找機(jī)會(huì)刺一下作為防備。但作為對(duì)局者很難有如此周密的行為,尤其在面對(duì)AI的時(shí)候,更難想到電腦會(huì)有如此強(qiáng)的手段。
更有趣的是,這一手包含了相當(dāng)大的計(jì)算量,有不少需要計(jì)算的分支,如果是人來下,即使能想到這一步,離真正算清楚并下出來還有不小的距離。也就是說,即使人類看到這一步,也要通過大量時(shí)間的計(jì)算來驗(yàn)證這一步是否成立。然而,電腦下出這一步,并不比其他的著法用時(shí)更長(zhǎng),相反比后面一些人類看來簡(jiǎn)單甚至必然的著法用時(shí)更短。
我們不禁要問:AI真的都算清楚了嗎?
AI、真、的、都、算、清、楚、了、嗎??
棋局至此,我認(rèn)為已經(jīng)是白棋稍優(yōu)的局面,但也有人認(rèn)為仍是細(xì)棋。
實(shí)戰(zhàn)黑棋123手以下明顯虧損,如圖尖頂活角優(yōu)于實(shí)戰(zhàn)。但此圖究竟誰勝,還需要深入的仔細(xì)研究。我個(gè)人的意見是,白棋稍優(yōu),并且我猜測(cè)AlphaGo也認(rèn)為能贏。
黑123以下在目數(shù)上虧損了接近一個(gè)貼目,使得棋局直接失去了懸念。最終雙方盤面接近,李世石無法貼目,投子認(rèn)負(fù)。
我們驚異于AlphaGo的表現(xiàn),驚嘆于李世石的敗北。對(duì)于接下來的比賽,很關(guān)鍵的一個(gè)問題是,AlphaGo究竟有沒有失誤?
四、AlphaGo的“失誤”
這盤棋AlphaGo有沒有失誤?
令人欣慰,從人的眼光來看,我們可以找到AlphaGo的明顯失誤。這種失誤不是指那種基于人類經(jīng)驗(yàn)而認(rèn)為的失誤(經(jīng)驗(yàn)有可能會(huì)騙人),而是可以通過邏輯分析來確認(rèn)的失誤。
1)“失誤”一:
白136手吃。對(duì)于職業(yè)棋手而言很容易判斷,應(yīng)該吃在一路,比實(shí)戰(zhàn)便宜大約1目。
2)“失誤”二:
白142手擋,對(duì)于職業(yè)棋手而言,這也是一個(gè)很容易確認(rèn)的明顯虧損。
白棋正確的下法是1位跳,這樣將來留下了5、7、9吃兩子救回三子的下法,從目數(shù)上分析明顯優(yōu)于實(shí)戰(zhàn)(大約1-2目)。即使白棋不在5位扳,走8位先手粘掉也優(yōu)于實(shí)戰(zhàn)一點(diǎn)點(diǎn)。
這兩處“失誤”都是在局部,沒有任何與外界的關(guān)聯(lián)性,屬于封閉式的失誤,其虧損可以用邏輯推理的方式證明。相較于AI展示出來的水平,似乎這兩個(gè)失誤是“不應(yīng)該”的。
基于此,又有棋手表示:“這都看不到,AI不過如此啊”。
前面“惡手”里講到的左下角白棋的問題,也有人看做是第三個(gè)失誤。但那個(gè)失誤的性質(zhì)與這兩個(gè)不同,我們對(duì)那個(gè)失誤的認(rèn)定在很大程度上還是基于經(jīng)驗(yàn)的,雖然也包含了邏輯推理,但并不完全。在我看來,按照笛卡爾的理論,對(duì)這那失誤的認(rèn)定是可懷疑的。
但這兩個(gè)失誤卻不可懷疑。既然如此,我為什么要在標(biāo)題里給“失誤”打引號(hào)呢?
這引出了一個(gè)非常有趣的話題:在棋盤上,失誤的定義是什么?
3)不同的“失誤”定義
對(duì)于我們棋手而言,什么是棋盤上的失誤?假如我們把基于經(jīng)驗(yàn)認(rèn)定的失誤都排除在外,只留下基于邏輯推理認(rèn)定的失誤,那么失誤意味著:A在邏輯上優(yōu)于B,而我選擇了B。
在這個(gè)意義上,只要我們找到了“可確認(rèn)的更優(yōu)下法”,就認(rèn)為我們出現(xiàn)了失誤。
但是,對(duì)于AI而言,失誤是否意味著相同的事情?我們?cè)趺蠢斫釧I出現(xiàn)了在我們看來低于其水準(zhǔn)的失誤?
這就涉及到AI的算法問題。假如AI有一天窮盡了圍棋,那么只要它有一步不踏在最優(yōu)解集合里,就是失誤。但是,現(xiàn)在的AI還遠(yuǎn)無法窮盡圍棋。
AlphaGo的算法運(yùn)用了神經(jīng)網(wǎng)絡(luò)加蒙特卡洛,蒙特卡洛算法的一個(gè)特點(diǎn)是:不求最優(yōu)。
蒙特卡洛算法給出搜索之后的勝率評(píng)估,然后AI會(huì)根據(jù)這個(gè)勝率來選擇落子點(diǎn)。也就是說,AlphaGo本來就不追求最強(qiáng)最優(yōu)的下法,它只是追求在它看來勝率最高的下法。
那么,回到前面那兩個(gè)“失誤”,之所以打上引號(hào),是因?yàn)樵贏lphaGo看來,或許這根本不是失誤!
雖然在我們?nèi)祟惪磥?,邏輯上明顯A優(yōu)于B,但AI在那時(shí)認(rèn)為兩者的勝率相似,從獲勝的角度來說,兩者沒有區(qū)別!甚至A之后的犯錯(cuò)概率高于B,從而導(dǎo)致它認(rèn)為B的勝率高于A!
如果兩條路同樣能通往勝利,在AI的意義上,你還能說它是失誤嗎?
或許能!
但是前提條件是人類利用這種“失誤”擊敗了它!否則,在AI的意義上我們無法指責(zé)那是它的失誤。
再回過頭看前面,白棋左上的補(bǔ)棋和左下?lián)p目搶得先手,真的是可以確認(rèn)的壞棋嗎?
左上的補(bǔ)棋,證明AI認(rèn)為補(bǔ)棋的勝率優(yōu)于走左下,這一判斷很可能是建立在AI對(duì)右邊那手點(diǎn)的認(rèn)識(shí)之上。甚至大家公認(rèn)的左下白棋虧損,也可能是基于對(duì)右邊那手點(diǎn)的認(rèn)識(shí),希望在左下?lián)屢粋€(gè)先手,并且在勝率上認(rèn)為這是沒有問題的。
而李世石對(duì)形勢(shì)的判斷顯然是基于沒注意右邊那手點(diǎn)。
五、AlphaGo的“弱點(diǎn)”
這么說,難道AlphaGo真的就不可戰(zhàn)勝了?不一定。從這盤棋中,我們可以看出AlphaGo的弱點(diǎn)。問題在于,這幾個(gè)弱點(diǎn)是否足以影響人機(jī)對(duì)決的勝負(fù)?
1) 邏輯缺失
雖然上一章我認(rèn)為對(duì)AI失誤的認(rèn)定需要謹(jǐn)慎,但在另一個(gè)層面上,這還是說明了AlphaGO的弱點(diǎn)。
深度學(xué)習(xí)加蒙特卡洛,AlphaGo在剪枝和搜索這兩方面的能力在這盤棋中已經(jīng)得到證明,人類下棋同樣依靠剪枝和搜索,并不能在這兩點(diǎn)占得上風(fēng)。
但是,AlphaGo的算法缺乏邏輯能力。這一點(diǎn)實(shí)際上在10月對(duì)陣樊麾時(shí)已經(jīng)有所體現(xiàn),在這一局的兩處“失誤”則體現(xiàn)更為明顯。
蒙特卡洛算法使它并不是根據(jù)“邏輯上A優(yōu)于B”來做選擇,而是根據(jù)AB各自的勝率來做決策。
在準(zhǔn)確性上,概率不如邏輯。
AI基于邏輯缺失而導(dǎo)致的“失誤”,是否可能成為人類棋手的突破口?
2) 逃避劫爭(zhēng)?
AI面對(duì)復(fù)雜劫爭(zhēng)時(shí)的糟糕表現(xiàn),是蒙特卡洛時(shí)期固有的頑疾。去年在北京奪冠的圍棋AI,在對(duì)陣連笑時(shí)甚至不能理解循環(huán)劫,不停地找劫來回提,使局面一塌糊涂。這是因?yàn)?,基于概率,循環(huán)劫也總有打贏的可能。這也是第一個(gè)弱點(diǎn)的延伸,如果基于邏輯,會(huì)明白這是不可能的事情。
使用的深度學(xué)習(xí)的AI能否避免這個(gè)問題?目前我還沒有看到。不過,似乎AI有刻意逃避劫爭(zhēng)的傾向。
回到有爭(zhēng)議的左下角,棋手普遍認(rèn)為白棋如圖是最強(qiáng)的下法,
但是AlphaGo可能擔(dān)心劫爭(zhēng):
黑6開劫是最強(qiáng)的下法,在右邊點(diǎn)一手找劫,接下來可能形成轉(zhuǎn)換,白棋是否肯定便宜?粗粗一看,不能確定。
另一處有趣的是最后的官子:
此時(shí)白棋勝勢(shì)已定,在做最后的定型。黑棋左下先手搜刮,白棋需要做活。
實(shí)戰(zhàn)白棋選擇的是1、3做活,并非最強(qiáng)手。
最強(qiáng)手是白1,成連環(huán)劫活,目數(shù)優(yōu)于實(shí)戰(zhàn)。
但是,無論是出于不考慮最強(qiáng)手,還是出于對(duì)劫爭(zhēng)的逃避,實(shí)戰(zhàn)白棋沒有這樣選擇。
這么看來,起碼AlphaGo還沒有顯示出它有應(yīng)對(duì)復(fù)雜劫爭(zhēng)的能力。
那么,劫爭(zhēng)是否會(huì)是AlphaGo的一個(gè)命門呢?
在我目前看來,AlphaGo最可能的弱點(diǎn)只有這兩個(gè)。
六、人類可能的策略
基于對(duì)AlphaGo弱點(diǎn)的分析,我認(rèn)為李世石接下來可選擇的策略并不是很多。
1,我最期待的策略是,李世石按照人類研究很深的套路開局,因?yàn)锳I并不會(huì)背套路。即使不能憑此占優(yōu)勢(shì),也要盡可能保持局面的均勢(shì)。在這個(gè)條件下,AI或許會(huì)在一些簡(jiǎn)單的局部因邏輯缺失而有所虧損,人類牢牢把握住這些微小的利益,最終取得小勝。不過,這似乎并不是李世石常用的風(fēng)格。
2,另一個(gè)策略是在局面選擇中盡可能制造劫爭(zhēng),即制造對(duì)方不開劫就不利的局面。當(dāng)然,AlphaGo目前沒展現(xiàn)出復(fù)雜劫爭(zhēng)的能力并不能證明它沒有這種能力,因此這種策略是存在風(fēng)險(xiǎn)的,太過刻意是不行的,還要考慮局面的自然和均衡。
七、結(jié)語
如果我們只用人類思考圍棋的方式來理解AI,或許我們將永遠(yuǎn)都不知道是怎么輸?shù)摹?/span>
如果我們只用人類思考圍棋的方式來理解AlphaGo,或許我們將永遠(yuǎn)都不知道是怎么輸?shù)摹?/span>
聯(lián)系客服