一條自學成才的“狗”
10月18日,杭州,中國棋手柯潔在連續(xù)5局猜先拿到黑棋的情況下,完成逆轉,決賽中最終擊敗小2歲的許嘉陽,首次奪得利民杯星銳戰(zhàn)冠軍。
獲勝后的柯潔難掩興奮之情,在微博上表示結局美好,并幽默地向新生代棋手喊話:現(xiàn)在的中日韓新銳一個比一個優(yōu)秀...但希望你們記住我——你們的前輩是很厲害的。
8個小時后,柯潔又發(fā)了一條微博,但這條微博傳達的情緒卻與剛剛獲勝的喜悅格格不入??聺嵏袊@:人類實在太多余了。
讓柯潔發(fā)出這聲沉重的嘆息是因為AlphaGo又重出江湖了。而這次,是更加強大的“新狗”AlphaGo Zero。
江山代有“新狗”出
2016 年在 AlphaGo 和韓國棋手李世石的對戰(zhàn)后,人工智能棋手開始進入大眾的視野。今年5月27日,“阿爾法狗”與年輕有為的中國棋手柯潔迎來終局對決,在歷經(jīng)約3個半小時的對弈后,柯潔投子認輸,執(zhí)黑的“AlphaGo”中盤獲勝。至此,人機大戰(zhàn)2.0結束,柯潔在與AlphaGo的三番棋全部告負。
在賽后的發(fā)布會上,柯潔就坦言“感謝這個強大的對手,讓我知道我居然會有這么大的差距,希望以后自己能再進步一點,差距再小一點,AlphaGo團隊太了不起了,冷靜,可怕,完美的對手?!?/strong>
比賽結束后,AlphaGo宣布不再和人下棋。
但它的創(chuàng)造者并沒有因此停下腳步,就在昨天,專注于推進人工智能(AI)研究的谷歌子公司Deepmind又在《自然》期刊上發(fā)表了關于 AlphaGo的新論文,并宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗)。
更恐怖的是,Zero經(jīng)過三天訓練就能夠擊敗AlphaGo Lee (即去年戰(zhàn)勝李世石的版本),節(jié)約了90%+的時間,且勝率是100:0。四十天之后,Zero甚至超越了姐妹版本Master(即今年戰(zhàn)勝柯潔的版本),對Master實現(xiàn)90%勝率。Zero達到目前人類的棋力,只花了3天時間,大約70小時,下了490萬局。很多人說,阿爾法元3天,超過了人類3000年。
無招勝有招
和以前的 AlphaGo相比,“新狗”比“老狗”具有以下特點:
從零開始學習,不需要任何人類的經(jīng)驗
使用更少的算力得到了更好的結果
發(fā)現(xiàn)了新的圍棋定式
將策略網(wǎng)絡和值網(wǎng)絡合并
使用了深度殘差網(wǎng)絡
特別需要注意的是第一點。據(jù)DeepMind的創(chuàng)始人 Demis Hassabis 介紹,它的學習從零開始,且單純基于與自己的對弈。人類的輸入僅限于棋盤和棋子,沒有任何人類數(shù)據(jù)。AlphaGo Zero僅用到一張神經(jīng)網(wǎng)絡,這張網(wǎng)絡經(jīng)過訓練,專門預測程序自身的棋步和棋局的贏家,在每次自我對弈中進步。新程序只使用一臺機器和4個TPU。
AlphaGo Zero就像人類初學者,需要經(jīng)歷一定時間摸索。不同訓練階段進行的三場自我對弈游戲中的頭80步,圖中顯示的下法來自AlphaGo Zero的一個版本,這個版本的神經(jīng)網(wǎng)絡由20個模塊組成。
通俗點來說,AlphaGo Zero是無監(jiān)督學習的產(chǎn)物,它是自學成才的。
我們知道,舊版AlphaGo接受的訓練是,觀摩由實力強大的業(yè)余或專業(yè)棋手對弈的海量棋局。但AlphaGo Zero沒有獲得這樣的幫助,它自我對弈數(shù)百萬次,并從中學習。一開始,它只是隨意把棋子放在棋盤上,但后來它發(fā)現(xiàn)了獲勝的策略,棋藝就快速提升了。
金庸的武俠小說中,有一境界叫“無招勝有招”。這一境界的最大特點是“忘記”,能將所學的招式忘得越多越好。一切武功招式都只不過是武學的形骸,都要通通忘記,只有記住了其精髓所在,舉手投足間,如行云流水。
無論張無忌還是令狐沖,手中無招,心中也無招,出手渾然天成,制人不制于人。這是武學的最高境界,無所不至,無堅不摧。
AlphaGo Zero從一出生就是一張“白紙”,把一切忘記,把一切歸零,自己摸索,自己發(fā)現(xiàn)規(guī)律。人的經(jīng)驗或許能幫助機器掌握智能,但或許人的經(jīng)驗是有缺陷的,不如讓機器自己發(fā)現(xiàn)新的,更好的規(guī)律。
由于在硬件和算法上的進步,AlphaGo變得越來越有效率
人類研究圍棋已經(jīng)上千年,有了無數(shù)經(jīng)驗和無數(shù)定式。我們自以為洞曉了圍棋的全部真諦,參透了圍棋的偉大奧義,什么是“妙手”,什么是“臭手”,什么“二連星布局”、“十王走馬勢”,什么“壓強不壓弱”、“棋從斷處生”,誰知道人工智能以“無招勝有招”的策略和算法技術就把人類幾千年的金科玉律輕易擊破,很多以前教科書中篤定蠢不可及的敗筆,突然成了神來之筆。
劉慈欣在科幻小說《三體Ⅲ:死神永生》里有句名言:“弱小和無知不是生存的障礙,傲慢才是。”
“阿法狗”的不斷進化,會讓我們窺見科技的力量,也灼以我們深深的挫敗感。然而,我們不能把曾經(jīng)的傲慢情緒急速轉化為幻滅感,我們應該一邊驕傲,一邊謙卑,這種較量更能試出我們的潛能。
人生本有盡,宇宙永無窮。我們看到了人工智能的不可一世,也讓我們看到更加嶄新的自己。
聯(lián)系客服