北京時(shí)間1月29日消息,人工智能近日取得了重大突破。谷歌在英國的研究人員研發(fā)的一款計(jì)算機(jī)系統(tǒng)在圍棋比賽中擊敗了一名頂尖棋手。作為一種古老的東方策略類游戲,在過去的幾十年間,圍棋曾無數(shù)次使人工智能敗下陣來。
在大多數(shù)用來考察人類智慧的游戲中,如國際象棋、拼字游戲、奧賽羅棋、甚至《絕境邊緣》(Jeopardy,一個(gè)益智問答游戲節(jié)目)中,機(jī)器都能毫不費(fèi)力地?fù)魯∪祟?。但圍棋是一個(gè)例外。這款游戲有著2500年的歷史,比國際象棋要艱深復(fù)雜得多,即使是最機(jī)敏的計(jì)算機(jī)系統(tǒng),也比人類圍棋大師要差了一大截。就在本月初,一些業(yè)內(nèi)頂尖的人工智能專家還質(zhì)疑近期內(nèi)我們能否在這方面取得突破。去年更有很多人認(rèn)為,還要再過十年,機(jī)器才可能在圍棋比賽中取得上風(fēng)。
但谷歌已經(jīng)成功了。“這比我想象的要快得多。”法國研究人員雷米?科隆(Rémi Coulom)說道。他研發(fā)的人工智能系統(tǒng)曾是世界上最出色的機(jī)器圍棋選手。
谷歌DeepMind團(tuán)隊(duì)自稱“人工智能領(lǐng)域的阿波羅計(jì)劃”。2015年10月,他們在倫敦組織了一場機(jī)器與人類之間的對決。該團(tuán)隊(duì)研發(fā)的系統(tǒng)名叫AlphaGo,它要對付的人類選手是歐洲圍棋冠軍樊麾。在《自然》雜志的一名編輯和英國圍棋聯(lián)合會(British Go Federation)的一名權(quán)威人士的監(jiān)督下,他們連續(xù)進(jìn)行了五輪較量,AlphaGo均取得了勝利。“無論是作為一名研究人員還是編輯,這都算是我職業(yè)生涯中最令人激動(dòng)的時(shí)刻之一?!薄蹲匀弧冯s志編輯唐吉?肖爾德博士(Tanguy Chouard)在本周二的一次記者會上說道。
英國時(shí)間1月27日早晨,《自然》雜志發(fā)表了一篇論文,詳細(xì)介紹了DeepMind團(tuán)隊(duì)研發(fā)的系統(tǒng)。該系統(tǒng)采用了一種名叫“深度學(xué)習(xí)”(deep learning)的人工智能技術(shù),這種技術(shù)在該領(lǐng)域的地位正變得越來越重要。DeepMind的研究人員從專業(yè)棋手那里收集了大量走棋方法,總步數(shù)多達(dá)3000萬次,并利用這些數(shù)據(jù)對AlphaGo系統(tǒng)進(jìn)行了訓(xùn)練。但這還只是第一步而已。從理論上來說,這樣的訓(xùn)練方式頂多能讓計(jì)算機(jī)系統(tǒng)和最優(yōu)秀的人類選手達(dá)到同等水平,不可能超越人類。因此研究人員先讓該系統(tǒng)自己和自己比賽,在這一過程中產(chǎn)生更多的走棋方法,然后再用這些方法訓(xùn)練新的人工智能系統(tǒng),逐步提高其圍棋水平。
“最重要的是,AlphaGo不僅僅是一個(gè)出色的人工智能系統(tǒng),只知道實(shí)行人工植入的規(guī)則”,負(fù)責(zé)監(jiān)管DeepMind團(tuán)隊(duì)的德米斯?哈薩比斯(Demis Hassabis)說道,“它還采用了目前普遍使用的機(jī)器學(xué)習(xí)技術(shù),從而在圍棋比賽中取勝。”
這次勝利其實(shí)并沒有那么新奇。谷歌、Facebook和微軟等線上服務(wù)提供商已經(jīng)使用了深度學(xué)習(xí)技術(shù),用于辨認(rèn)圖像、識別語音、以及理解自然語言等。DeepMind將深度學(xué)習(xí)與一種名為“增強(qiáng)學(xué)習(xí)”的技術(shù)和其它方法結(jié)合起來,說明在未來的世界中,機(jī)器人能夠?qū)W會執(zhí)行各種動(dòng)作,還能對周圍環(huán)境做出反應(yīng)?!皩τ跈C(jī)器人來說,這是順理成章的事情。”哈薩比斯說道。
他還認(rèn)為這些手段能加速科學(xué)研究的進(jìn)展。在他的想象中,科學(xué)家有一天會和人工智能系統(tǒng)一起工作,而這些人工智能系統(tǒng)將會被運(yùn)用到可能取得豐碩成果的研究領(lǐng)域中去。“計(jì)算機(jī)系統(tǒng)能夠處理大量數(shù)據(jù),揭露數(shù)據(jù)結(jié)構(gòu)特征,工作效率遠(yuǎn)比人類專家要高——有些事情人類甚至根本做不到。”哈薩比斯解釋道,“這些計(jì)算機(jī)系統(tǒng)甚至能為人類專家指明研究方向,引領(lǐng)他們?nèi)〉猛黄?。?
但就目前來看,圍棋仍然是哈薩比斯最關(guān)注的領(lǐng)域。在讓AlphaGo在辦公室中打敗人類選手之后,哈薩比斯及其團(tuán)隊(duì)希望能在公開的競技場上,和世界頂級圍棋選手一決高下。今年三月中旬,AlphaGo將挑戰(zhàn)韓國棋手李世乭,后者贏得的國際大獎(jiǎng)數(shù)居世界第二,是過去十年中獲勝次數(shù)最多的棋手。哈薩比斯將他視為“圍棋世界中的費(fèi)德勒”。
以“貌”取勝 2014年年初,科隆研發(fā)的圍棋軟件Crazystone在日本的一次錦標(biāo)賽中向圍棋大師依田紀(jì)基(Norimoto Yoda)發(fā)起了挑戰(zhàn),并取得了勝利。但這次對決并不公平,因?yàn)闄C(jī)器可以先走四步,占據(jù)了巨大的優(yōu)勢。當(dāng)時(shí)科隆預(yù)言稱,人工智能至少要再過十年才能在無讓子的圍棋比賽中取勝。
這項(xiàng)挑戰(zhàn)的難度是由圍棋本身的特點(diǎn)決定的。即使是最強(qiáng)大的超級計(jì)算機(jī),也缺乏在合理的時(shí)間內(nèi)、分析出每種走法可能的結(jié)果的能力。1997年,“深藍(lán)”擊敗了世界頂級象棋棋手加里?卡斯帕羅夫,它使用的算法名叫“蠻力窮舉法”。它分析了每一種可能的走法將產(chǎn)生的結(jié)果,而人類是不可能考慮這么多的。但這種方法對圍棋就無效了。在國際象棋中,平均每回合有35種走棋方式。而圍棋每回合有250種可能的走棋方式,250種中的每一種又有250種,以此類推。哈薩比斯指出,圍棋棋盤上可能的布棋方式總和比宇宙中所有原子的數(shù)量還多。
利用一種名叫蒙特卡洛樹的搜索算法,像Crazystone這樣的程序可以提前算出很多步走棋結(jié)果。再配合其它技術(shù),它們還可以逐步去除需要分析的走法。這樣一來,它們遲早會打敗一些出色的棋手——但無法擊敗最出色的棋手。對于棋類大師來說,走棋很多時(shí)候靠的都是直覺。棋手會根據(jù)棋子的整體分布來選擇走法,而不會細(xì)致地分析每一步的結(jié)果?!昂玫奈恢每雌饋砭秃芎茫惫_比斯說道,他本身就是一名圍棋棋手,“圍棋似乎也遵循一定的審美原則,所以這種游戲才得以延續(xù)數(shù)千年?!?
但在2014、15年之交,一些人工智能專家,包括愛丁堡大學(xué)、Facebook、以及DeepMind團(tuán)隊(duì)的研究人員,開始采用深度學(xué)習(xí)法解決圍棋問題。他們的想法是,這種技術(shù)能模擬人類的直覺,而直覺正是下圍棋時(shí)必不可少的東西。“圍棋是一種含蓄的游戲,講究圖案的配合,”哈薩比斯說道,“而那正是深度學(xué)習(xí)法所擅長的領(lǐng)域?!?
自我增強(qiáng)
深度學(xué)習(xí)需要依賴所謂的“神經(jīng)網(wǎng)絡(luò)”,即由硬件和軟件組成的、模擬人類大腦中神經(jīng)網(wǎng)的網(wǎng)絡(luò)。這些網(wǎng)絡(luò)采用的不是蠻力窮舉法,也不依靠人工植入的行動(dòng)準(zhǔn)則。它們會對大量數(shù)據(jù)進(jìn)行分析,試圖“學(xué)會”執(zhí)行某個(gè)特定的任務(wù)。如果讓神經(jīng)網(wǎng)絡(luò)看大量的袋鼠照片,它就能學(xué)會認(rèn)出一只袋鼠。如果讓它聽大量的單詞,你再讀出這個(gè)單詞時(shí),它就能聽出來你說的是什么。如果讓它了解大量的圍棋走棋方法,它就能學(xué)會下圍棋。
DeepMind團(tuán)隊(duì)、愛丁堡大學(xué)和Facebook的研究人員希望,神經(jīng)網(wǎng)絡(luò)能夠通過“觀察”棋子位置掌握下圍棋的方法,和人類差不多。Facebook近日在一篇論文中指出,這一技術(shù)使用起來相當(dāng)不錯(cuò)。他們將深度學(xué)習(xí)法和蒙特卡洛樹搜索方法結(jié)合起來,成功讓計(jì)算機(jī)打敗了一些人類圍棋棋手。不過他們還沒有擊敗Crazystone和其它頂尖的人工智能系統(tǒng)。
但DeepMind成功將這一概念向前推動(dòng)了一大步。在接受了3000萬步人類的圍棋走法訓(xùn)練之后,DeepMind神經(jīng)網(wǎng)絡(luò)能夠以57%的成功率預(yù)測人類下一步的走棋方法。這個(gè)成功率可謂十分驚人(此前的記錄是44%)。接下來,哈薩比斯及其團(tuán)隊(duì)采用增強(qiáng)學(xué)習(xí)法,讓這個(gè)神經(jīng)網(wǎng)絡(luò)和另一個(gè)與之稍有不同的網(wǎng)絡(luò)進(jìn)行比拼。在兩個(gè)神經(jīng)網(wǎng)絡(luò)比賽的同時(shí),系統(tǒng)會追蹤哪種走法帶來的效益最大。利用這種方法,該系統(tǒng)越來越能夠識別出哪種走法能夠取得成功,哪種走法則會導(dǎo)致失敗。
“AlphaGo的神經(jīng)網(wǎng)絡(luò)和自己比賽了上百萬次,在這一過程中不斷改進(jìn),全靠自己學(xué)會了新的走棋策略。” DeepMind團(tuán)隊(duì)的一名研究人員戴維?希爾佛(David Silver)說道。
據(jù)希爾佛稱,這種方法使AlphaGo在眾多會下圍棋的人工智能系統(tǒng)中脫穎而出,其中也包括Crazystone系統(tǒng)。然后研究人員將上一步得到的結(jié)果輸入二級神經(jīng)網(wǎng)絡(luò)中。該網(wǎng)絡(luò)使用一級網(wǎng)絡(luò)建議的走棋方法,使用了很多相同的方法來預(yù)測每一步的結(jié)果。這和“深藍(lán)”下象棋時(shí)的方法類似,只不過AlphaGo系統(tǒng)會邊下邊學(xué),分析更多數(shù)據(jù),而不是通過蠻力窮舉法探索每種可能的結(jié)果。利用這種方法,AlphaGo不僅學(xué)會了如何打敗現(xiàn)有的人工智能系統(tǒng),還擊敗了頂級的人類棋手。
精密芯片 和大多數(shù)先進(jìn)神經(jīng)網(wǎng)絡(luò)一樣,DeepMind系統(tǒng)使用的機(jī)器也配備了圖形處理器(GPU)。這些芯片最初是用來為游戲和其它對圖形敏感的程序處理圖像的,但研究人員發(fā)現(xiàn),GPU也很適合用來開展深度學(xué)習(xí)。哈薩比斯表示,只需要用一臺裝配了大量GPU芯片的計(jì)算機(jī),DeepMind就能夠運(yùn)行得很好。但在與樊麾對戰(zhàn)時(shí),研究人員使用了規(guī)模更大的計(jì)算機(jī)網(wǎng),共裝載了170枚GPU芯片和1200臺標(biāo)準(zhǔn)處理器(CPU)。該系統(tǒng)在訓(xùn)練時(shí)和實(shí)際作戰(zhàn)時(shí),使用的都是這一大規(guī)模計(jì)算機(jī)網(wǎng)。
等AlphaGo前往韓國挑戰(zhàn)世界冠軍李世乭時(shí),哈薩比斯的團(tuán)隊(duì)將使用同樣的裝置,不過他們會對其進(jìn)行不斷改進(jìn)。這意味著,他們需要聯(lián)網(wǎng)才能和李世乭作戰(zhàn)?!拔覀冋阡佋O(shè)自己需要的網(wǎng)絡(luò)光纖。”哈薩比斯說道。
據(jù)科隆和其他專家稱,打敗世界冠軍李世乭比打敗樊麾要難得多。但科隆對DeepMind團(tuán)隊(duì)寄予厚望。在過去的十年中,他一直在努力打造能擊敗世界頂級棋手的圍棋系統(tǒng),而他現(xiàn)在認(rèn)為,這樣的系統(tǒng)已經(jīng)被研發(fā)出來了?!拔椰F(xiàn)在買GPU買得不亦樂乎?!彼f道。
更進(jìn)一步 AlphaGo具有極其重要的意義。它采用的技術(shù)不僅能用于機(jī)器人和科研領(lǐng)域,從類似Siri的移動(dòng)數(shù)碼助手,到進(jìn)行金融投資,這一技術(shù)在很多任務(wù)中都能助人一臂之力?!澳憧梢杂盟鼇斫鉀Q各種棘手的問題,處理任何需要用到策略的、類似于游戲的事情。”深度學(xué)習(xí)初創(chuàng)公司Skymind的創(chuàng)始人克里斯?尼克爾森(Chris Nicholson)說道,“比如戰(zhàn)爭或商業(yè)(金融)交易等?!?
有些人對此感到有些擔(dān)憂,尤其是當(dāng)他們想到DeepMind系統(tǒng)是通過自學(xué)學(xué)會圍棋的時(shí)候。該系統(tǒng)不僅僅是通過人類提供的數(shù)據(jù)來學(xué)習(xí)的,它還會產(chǎn)生自己的數(shù)據(jù),做到自己教自己。就在前幾個(gè)月,特斯拉創(chuàng)始人伊隆?馬斯克和其他人紛紛表達(dá)了自己的擔(dān)憂,認(rèn)為這樣的人工智能系統(tǒng)遲早會超越人類,并脫離我們的掌控。
但DeepMind系統(tǒng)還處在哈薩比斯等研究人員的嚴(yán)密控制之下。雖然他們正在使用該系統(tǒng)破解一款極為復(fù)雜的游戲,但游戲到底只是游戲而已。的確,要想媲美真正的人類智慧,AlphaGo還有很長的一段路要走,還遠(yuǎn)稱不上超級智能。“眼下的情況非常規(guī)范,”人工智能法律教授、華盛頓大學(xué)的技術(shù)政策實(shí)驗(yàn)室創(chuàng)始人雷恩?卡羅(Ryan Calo)說道,“該系統(tǒng)的理解能力并未真正達(dá)到人類的水平?!钡撓到y(tǒng)指明的方向的確如此。如果DeepMind的人工智能系統(tǒng)能理解圍棋的玩法,也許它遲早會明白更多的東西?!皶粫麄€(gè)宇宙都僅僅是一盤巨大的圍棋呢?”卡羅問道