新AlphaGo首度揭秘：單機(jī)運(yùn)行，4個(gè)TPU，算法更強(qiáng)

原創(chuàng) 量子位 2017-05-24 15:15

2017-05-24 業(yè)余無段量子位

舒石唐旭發(fā)自東瑤村

量子位報(bào)道 | 公眾號(hào) QbitAI

到底是誰擊敗了柯潔？

答案似乎顯而易見。但量子位之所以問這個(gè)問題，是因?yàn)槿缃駬魯】聺嵉腁lphaGo，與去年擊敗李世乭的AlphaGo，有著本質(zhì)的區(qū)別。

DeepMind把AlphaGo粗略分成幾個(gè)版本：

第一代，是擊敗樊麾的AlphaGo Fan。與Zen/Crazy Stone等之前的圍棋軟件相比，棋力要高出4子。
第二代，是擊敗李世乭的AlphaGo Lee。與上一代相比，棋力高出3子。
第三代，是柯潔如今的對(duì)手，也是年初60連勝的：AlphaGo Master。相比于擊敗李世乭的版本，棋力又再次提升3子。

需要強(qiáng)調(diào)的是，AlphaGo Lee和AlphaGo Master有著根本不同。不同在哪里，今天DeepMind創(chuàng)始人兼CEO哈薩比斯(Demis Hassabis)，AlphaGo團(tuán)隊(duì)負(fù)責(zé)人席爾瓦(Dave Silver)聯(lián)手首度揭開新版AlphaGo的秘密。

量子位這一篇推送的內(nèi)容，整理自哈薩比斯、席爾瓦今日上午的主題演講，還有今日午間量子位對(duì)這兩位DeepMind核心人物的專訪。

單機(jī)運(yùn)算，更強(qiáng)的策略/價(jià)值網(wǎng)絡(luò)

首先用數(shù)據(jù)說話。

AlphaGo Lee

運(yùn)行于谷歌云，耗用50個(gè)TPU進(jìn)行計(jì)算
每次搜索計(jì)算后續(xù)50步，計(jì)算速度為10000個(gè)位置/秒
2016年在首爾擊敗李世乭

作為對(duì)比，20年前擊敗卡斯帕羅夫的IBM深藍(lán)，可以搜索計(jì)算一億個(gè)位置。席爾瓦表示，AlphaGo并不需要搜索那么多位置。

AlphaGo Master

運(yùn)行于谷歌云，但只用一個(gè)TPU機(jī)器
自學(xué)成才，AlphaGo自我對(duì)弈提高棋力
擁有更強(qiáng)大的策略/價(jià)值網(wǎng)絡(luò)

由于應(yīng)用了更高效的算法，這次和柯潔對(duì)戰(zhàn)的AlphaGo Master，運(yùn)算量只有上一代AlphaGo Lee的十分之一。所以單個(gè)TPU機(jī)器足以支撐。

AlphaGo團(tuán)隊(duì)的黃士杰博士也在朋友圈表示，最新的AlphaGo可以被稱為單機(jī)版。而上一代AlphaGo使用了分布式計(jì)算。

在會(huì)后接受量子位采訪時(shí)，席爾瓦證實(shí)此次AlphaGo仍然使用了第一代TPU，而不是前不久公布的第二代。

另外席爾瓦澄清說：“今年升級(jí)版的AlphaGo是在單機(jī)上運(yùn)行的，它的物理服務(wù)器上部署了4個(gè)TPU”。

顯然PPT有個(gè)小小的誤導(dǎo)。

如果你想更進(jìn)一步了解TPU，這里有幾篇量子位的報(bào)道推薦：

《詳解谷歌第二代TPU：功耗性能究竟如何？巨頭想用它干什么？》
《Google展示AI新實(shí)力：第二代TPU、AutoML》
《Google深度揭秘TPU：一文看懂內(nèi)部原理，以及為何碾壓GPU》

回到AlphaGo，可能你也注意到了，這個(gè)新版本的圍棋AI有了更強(qiáng)大的策略/價(jià)值網(wǎng)絡(luò)。下面圍繞這一點(diǎn)繼續(xù)解密。

△ 席爾瓦

AlphaGo的算法

為了講清楚新的策略/價(jià)值網(wǎng)絡(luò)強(qiáng)在哪里，還是應(yīng)該首先介紹一下AlphaGo的算法如何構(gòu)成。席爾瓦介紹，量子位搬運(yùn)如下。

當(dāng)初DeepMind團(tuán)隊(duì)，之所以選擇圍棋方向進(jìn)行研究，一個(gè)重要的原因在于圍棋是構(gòu)建和理解運(yùn)算的最佳試驗(yàn)臺(tái)，而且圍棋的復(fù)雜性遠(yuǎn)超國際象棋，這讓電腦無法通過深藍(lán)一樣的暴力窮舉方式破解圍棋的奧秘。

擊敗李世乭的AlphaGo，核心是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。DeepMind團(tuán)隊(duì)希望AlphaGo最終能夠理解圍棋，形成全局觀。席爾瓦表示，AlphaGo Lee由12層神經(jīng)網(wǎng)絡(luò)構(gòu)成，而AlphaGo Master有40層神經(jīng)網(wǎng)絡(luò)。

這些神經(jīng)網(wǎng)絡(luò)進(jìn)一步細(xì)分為兩個(gè)功能網(wǎng)絡(luò)：

策略網(wǎng)絡(luò)（policy network）
價(jià)值網(wǎng)絡(luò)（value network）

在這兩個(gè)網(wǎng)絡(luò)的訓(xùn)練中，使用了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種方式。

首先基于人類的專家?guī)鞌?shù)據(jù)，對(duì)策略網(wǎng)絡(luò)的上百萬參數(shù)進(jìn)行調(diào)整。調(diào)整的目標(biāo)，是讓策略網(wǎng)絡(luò)在相同的情況下，能夠達(dá)到人類圍棋高手的水平：下出同樣的一步棋。

然后是強(qiáng)化學(xué)習(xí)，讓人工智能進(jìn)行自我博弈，這一訓(xùn)練結(jié)束后，就形成了價(jià)值網(wǎng)絡(luò)，這被用于對(duì)未來的棋局輸贏進(jìn)行預(yù)測(cè)，在不同的下法中作出優(yōu)劣判斷。

通過策略網(wǎng)絡(luò)，可以降低搜索的寬度，減少候選項(xiàng)，收縮復(fù)雜性。而且不會(huì)讓AlphaGo下出瘋狂不靠譜的步驟。

另一方面，通過價(jià)值網(wǎng)絡(luò)減少深度，當(dāng)AlphaGo計(jì)算到一定的深度，就會(huì)停止。AlphaGo不需要一直窮盡到最后。

把這個(gè)兩個(gè)結(jié)合起來，就是AlphaGo的樹搜索。通過策略網(wǎng)絡(luò)選出幾個(gè)可能的路徑，然后對(duì)這些路徑進(jìn)行評(píng)估，最后把結(jié)果提交給樹頂。這個(gè)過程重復(fù)幾百上千次，最后AlphaGo得出贏棋概率最高的一步。

新策略/價(jià)值網(wǎng)絡(luò)如何煉成

那么新的新策略/價(jià)值網(wǎng)絡(luò)，到底強(qiáng)在哪里？

AlphaGo Master這次成了自己的老師，用席爾瓦的話說，這位圍棋AI是自學(xué)成才。它從自我對(duì)弈的棋局里進(jìn)行學(xué)習(xí)，積累了最好的訓(xùn)練數(shù)據(jù)。“上一代AlphaGo成為下一代的老師”席爾瓦形容道。

通過AlphaGo的自我博弈，不斷吸取經(jīng)驗(yàn)、提高棋力，這一次AlphaGo用自我對(duì)弈訓(xùn)練出的策略網(wǎng)絡(luò)，可以做到不需要更多運(yùn)算，直接給出下一步的決策。

這種改變明顯減少了對(duì)計(jì)算力的需求。

另一個(gè)價(jià)值網(wǎng)絡(luò)，也是基于AlphaGo的自我對(duì)弈進(jìn)行訓(xùn)練，通過對(duì)弈后的復(fù)盤，價(jià)值網(wǎng)絡(luò)能夠?qū)W到哪一步是關(guān)鍵所在。通過高質(zhì)量的自我對(duì)弈，訓(xùn)練價(jià)值網(wǎng)絡(luò)預(yù)測(cè)哪一步更重要。

席爾瓦表示：“在任何一步，AlphaGo都會(huì)準(zhǔn)確預(yù)測(cè)如何能贏”。

這個(gè)過程不斷反復(fù)迭代，最終打造了一個(gè)更強(qiáng)大的AlphaGo。自我博弈，帶來數(shù)據(jù)質(zhì)量的提高，從而推動(dòng)了AlphaGo的快速提升。

如此前一樣，DeepMind證實(shí)也會(huì)公布這一代AlphaGo的相關(guān)論文。更多的細(xì)節(jié)，我們可以期待Deepm稍后的發(fā)布。

攻克智能，解決問題

AlphaGo來自DeepMind。2010年DeepMind在倫敦成立，目前有500名員工，其中一半是科學(xué)家。哈薩比斯說，DeepMind要把人工智能科學(xué)家、數(shù)據(jù)和計(jì)算力結(jié)合在一起，推動(dòng)人工智能的發(fā)展。

△ 哈薩比斯

這家公司的愿景：第一是攻克智能。第二是用智能解決所有問題。

換句話說，DeepMind的目標(biāo)是構(gòu)建通用人工智能。所謂通用人工智能，首先AI具備學(xué)習(xí)的能力，其次能舉一反三，執(zhí)行各種不同的任務(wù)。如何抵達(dá)這個(gè)目標(biāo)？哈薩比斯說有兩個(gè)工具：深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。

AlphaGo就是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合。AlphaGo也是DeepMind邁向通用人工智能目標(biāo)的一步，盡管現(xiàn)在它更多的專注于圍棋領(lǐng)域。

哈薩比斯表示，希望通過AlphaGo的研究，讓機(jī)器獲得直覺和創(chuàng)造力。

這里所謂的直覺，是通過體驗(yàn)直接獲得的初步感知。無法表達(dá)出來，可通過行為確認(rèn)其存在和正誤。

而創(chuàng)造力，是通過組合已有知識(shí)產(chǎn)生新穎或獨(dú)特想法的能力。AlphaGo顯然已展示出了這些能力，盡管領(lǐng)域有限。

“未來能夠看到人機(jī)結(jié)合的巨大力量，人類智慧將被人工智能放大。”哈薩比斯說。目前AlphaGo的技術(shù)已經(jīng)被用于數(shù)據(jù)中心，能節(jié)約15%的電能；另外也能被用于材料、醫(yī)療、智能手機(jī)和教育等領(lǐng)域。

盡管已經(jīng)連戰(zhàn)連捷，AlphaGo仍然有繼續(xù)探索的空間。哈薩比斯和DeepMind仍然想在圍棋領(lǐng)域繼續(xù)追問：我們離最優(yōu)解還有多遠(yuǎn)？怎樣才是完美棋局？

當(dāng)今社會(huì)已有越來越多的數(shù)據(jù)產(chǎn)生，然而人類往往無法通過這些數(shù)據(jù)了解全局的變化，在這種情況下人工智能有可能推動(dòng)科研繼續(xù)進(jìn)步。

一切正如國際象棋棋王卡斯帕羅夫所說：

“深藍(lán)已經(jīng)結(jié)束，AlphaGo才剛開始。”

專訪全文

△ 哈薩比斯、席爾瓦接受量子位等專訪

提問：在Master已經(jīng)對(duì)包括柯潔在內(nèi)的人類棋手60連勝之后，舉辦這場(chǎng)比賽的意義在哪里？

哈薩比斯：Master在網(wǎng)上下的都是快棋，人類棋手在下棋時(shí)時(shí)間控制得可能不會(huì)太精準(zhǔn)，人類棋手在網(wǎng)上的注意力也不一定完全集中，因此我們?nèi)匀恍枰聺嵾M(jìn)行對(duì)弈來對(duì)AlphaGo進(jìn)行測(cè)試。

同時(shí)，通過這些網(wǎng)上的對(duì)弈，第一，是希望測(cè)試一下AlphaGo的系統(tǒng)；第二，也是希望為圍棋界提供一些新的想法和思路，給柯潔一定備戰(zhàn)的時(shí)間，也為他提供一些分析AlphaGo打法的素材。

提問：關(guān)于AlphaGo的行業(yè)應(yīng)用，有哪些您比較看好？今后Deepmind會(huì)不會(huì)在中國開展一些行業(yè)應(yīng)用？

哈薩比斯：首先，AlphaGo背后的支撐技術(shù)相當(dāng)多，目前在其他領(lǐng)域的應(yīng)用還在早期探索階段。我上午談到的一些應(yīng)用，只是AlphaGo圍棋可能應(yīng)用中的一小部分。在未來，我們肯定會(huì)將AlphaGo的技術(shù)在Google領(lǐng)域的應(yīng)用，也許在中國也會(huì)有相應(yīng)的業(yè)務(wù)。

提問：AlphaGo是否已經(jīng)實(shí)現(xiàn)了無監(jiān)督學(xué)習(xí)？它是否在向著強(qiáng)人工智能邁進(jìn)？

席爾瓦：首先，AlphaGo使用的是增強(qiáng)學(xué)習(xí)的方法。我們只能說，AlphaGo在某一特定領(lǐng)域?qū)崿F(xiàn)了自己的直覺和意識(shí)——這和我們所說的人類通過直接訓(xùn)練產(chǎn)生的意識(shí)可能有很大不同。因?yàn)樗⒎沁@種人類意識(shí)，因此有機(jī)會(huì)被應(yīng)用到其他領(lǐng)域，不僅限于圍棋。

提問：Hassabis先生上午提到，人工智能必須要被正確應(yīng)用。那么這種“正確”包括哪些原則？

哈薩比斯：兩個(gè)層面。第一，AI必須造福人類，應(yīng)該用于類似科學(xué)、制藥這類幫助人類的領(lǐng)域，而不能用于一些不好的事情，比如研發(fā)武器；第二，AI不能只為少數(shù)公司或個(gè)人所使用、，它應(yīng)該是全人類共享的。

提問：上午的演講中兩位提到，這一代AlphaGo只需要一個(gè)TPU進(jìn)行運(yùn)算，而上一代和李世石對(duì)戰(zhàn)時(shí)的AlphaGo則部署了50個(gè)TPU；但這代系統(tǒng)所需的計(jì)算量只是上一代的十分之一。為什么會(huì)出現(xiàn)這種比例上的差距？

席爾瓦：我來澄清一下。今年升級(jí)版的AlphaGo是在單機(jī)上運(yùn)行的，它的物理服務(wù)器上部署了4個(gè)TPU。

提問：為什么AlphaGo下棋是勻速的？

席爾瓦：我們?cè)趯?duì)AlphaGo訓(xùn)練時(shí)就已經(jīng)發(fā)現(xiàn)，它在對(duì)弈時(shí)進(jìn)行的計(jì)算是持續(xù)的、穩(wěn)定的，在總共的比賽過程中，它的計(jì)算量是恒定的。我們?yōu)锳lphaGo制定了一種求穩(wěn)的時(shí)間控制策略，也就是最大限度地利用自己的比賽時(shí)間，如果要將比賽時(shí)間的利用率最大化，勻速當(dāng)然是最好的。

△ 穆斯塔法等接受量子位等專訪

提問：圍棋相對(duì)簡單，AI在現(xiàn)實(shí)中應(yīng)用，有哪些阻礙？

穆斯塔法：我們對(duì)此有過深入思考，DeepMind創(chuàng)立的使命中指出，我們要打造通用型的人工智能技術(shù)，并接受相應(yīng)的監(jiān)督監(jiān)管。此前我們和眾多的機(jī)構(gòu)共同成立AI聯(lián)盟，以遵循倫理和安全的方式，進(jìn)行算法的開發(fā)。

提問：技術(shù)落地過程中，如何避免侵犯隱私？

穆斯塔法：新技術(shù)的部署應(yīng)用過程中，確實(shí)出現(xiàn)了跟監(jiān)督監(jiān)管機(jī)制不匹配的情況，現(xiàn)在科技的力量已經(jīng)非常強(qiáng)大，在這種情況下，技術(shù)快速發(fā)展。所謂的數(shù)字化技術(shù)或設(shè)備進(jìn)行平衡，是我們不斷推進(jìn)的事情。

我們希望加強(qiáng)醫(yī)生患者對(duì)技術(shù)的信任，第一是展示臨床使用的效果，第二我們一開始就公開表示，系統(tǒng)處理的數(shù)據(jù)，完全在監(jiān)管范圍之內(nèi)，不會(huì)應(yīng)用到其他業(yè)務(wù)之中。

提問：DeepMind目前是什么結(jié)構(gòu)？

穆斯塔法：DeepMind分為兩個(gè)結(jié)構(gòu)，哈薩比斯負(fù)責(zé)研發(fā)，我負(fù)責(zé)商業(yè)應(yīng)用。應(yīng)用又分成三個(gè)組：1、Google組 2、醫(yī)療組，和英國NHS合作 3、馬上要成立的能源組。我們希望與專家合作，獲取必要的數(shù)據(jù)。

我們和Google不同部門合作，有不同的形式。

提問：為什么先把AI應(yīng)用在醫(yī)療領(lǐng)域？而不是金融等

穆斯塔法：商業(yè)利潤不是我們最重要的驅(qū)動(dòng)力。我們選擇行業(yè)從兩點(diǎn)出發(fā)：首先，是否有助于技術(shù)研究；其次，是否有助于完成社會(huì)使命。

醫(yī)療行業(yè)季度的低效，技術(shù)停滯不前已經(jīng)很久。

提問：一手研發(fā)，一手商業(yè)化，有沒有隱藏的技術(shù)細(xì)節(jié)？

穆斯塔法：我們盡量多在開源的時(shí)候，提供有助于別人的資料。當(dāng)然，我們不是100%都公布技術(shù)細(xì)節(jié)。當(dāng)然我們會(huì)盡量多的做開源。

提問：驅(qū)動(dòng)AI應(yīng)用的數(shù)據(jù)是否足夠，以及是所需要的數(shù)據(jù)？

穆斯塔法：我們做過一個(gè)統(tǒng)計(jì)。世界上，最優(yōu)秀的放射科專家，一生也就看三萬張X光照片，我們的算法可以看幾百萬張，能夠開發(fā)出疑難雜癥的意識(shí)和本能。我們能夠?qū)λ惴ㄔ鰪?qiáng)準(zhǔn)確率，表現(xiàn)非常穩(wěn)定。

人類專家看X光片，可能只有三分之二的共識(shí)達(dá)成。所以我們的想法是，用算法做X光片，然后配上不同的疾病專家，這樣效果更好。

【完】

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

新AlphaGo首度揭秘：單機(jī)運(yùn)行，4個(gè)TPU，算法更強(qiáng)