雷鋒網(wǎng)按:近日,深度學習大牛 Yoshua Bengio 在 Beneficial AI 大會上發(fā)表了一篇題為《創(chuàng)造人類水平AI》的演講,分享了他對于極深網(wǎng)絡(Very Deep NN)和 GAN 等前沿技術的一些看法和思考。Yoshua Bengio認為:極深網(wǎng)絡在序列數(shù)據(jù)和高層抽象等領域具有巨大的發(fā)展前景;GAN雖然是前沿熱點,但非常難以訓練,因此開發(fā)者需要對其保持清醒的頭腦。另外,在演講的結尾,Yoshua Bengio還分享了他的一個最新研究方向,即利用行動(action)引導表征學習(representation learning)的方法來發(fā)現(xiàn)事物間的潛在關系。
以下為演講原文和PPT,雷鋒網(wǎng)編譯。
今天我會在這里討論一下深度學習和人工智能方面最近的一些最新發(fā)展,也會講一下我個人關于深度學習和人工智能目前局限性的思考,同時分享一些我理解的創(chuàng)造媲美人類水平AI的努力方向。當然,我沒辦法告訴大家具體什么時候人工智能將超越人類,實際上我認為做這種預測是不理性的。但這并不妨礙我們一起利用今天一下午的時間對此做一番有意義的探討。
感謝深度學習在過去幾年的快速發(fā)展,讓我們看到最近在學術領域出現(xiàn)了很多技術突破。其中首當其沖的是語音識別以及計算機視覺方面的長足進步。在這兩個領域中,現(xiàn)在我們已經(jīng)獲得了經(jīng)過訓練的計算機系統(tǒng)以及媲美人類能力的參照指標。當然,計算機系統(tǒng)的能力依舊在很多很多方面無法與人類相比。但是這些足以向人們展示這兩個領域已經(jīng)取得的長足的進步。
最近在機器翻譯領域也產(chǎn)生了令人吃驚的進展,我也會在演講中提及這部分的一些例子。雖然它還沒有演化成為工業(yè)級的產(chǎn)品,但人工神經(jīng)網(wǎng)絡方面的應用正在以驚人的速度帶領我們朝著計算機推理能力、注意力和記憶能力的方向走的更加深入。我認為這對于未來來說是讓人興奮的,因為在過去幾十年中,人工神經(jīng)網(wǎng)絡的應用能力普遍被認為會局限在模式識別領域,但現(xiàn)在我們真的在使用人工神經(jīng)網(wǎng)絡去解決過去十年人工智能在嘗試解決的一些經(jīng)典問題。
我也注意到在強化學習方面的巨大進步,比如像下圍棋這樣的情境。也許在場的各位還有人不太了解機器人和控制系統(tǒng)領域近來的發(fā)展,實際上,我認為這個領域的快速發(fā)展才剛剛開始。
還有另一個并非實際的應用領域,但會為許多工業(yè)應用打下基礎的學術領域,這就是循環(huán)神經(jīng)網(wǎng)絡和極深神經(jīng)網(wǎng)絡。這兩個領域也取得了讓我們可以更好地處理序列數(shù)據(jù)甚至是處理抽象概念的技術進步。我在演講的最后會好好地聊一下這兩個領域。
在這里,我選擇了一個機器翻譯中注意力模型的應用作為例子。我們已經(jīng)在這個課題上研究了幾年。在深度學習支撐下的機器翻譯應用中,一個過去很多年我們一直抱有的、非?;A的的想法是我們將要學習的其實是從一種特定語言的文本到語義的通用表達的映射,而后我們會將語義解碼成為另外一種語言。這樣的想法作為一個單獨的公理是不足以成立的。這個想法的問題在于,當語句或者段落的長度不停增長的時候,這樣的做法已經(jīng)失去了它的合理性。試想一下你必須把一整個文檔壓縮成一個固定長度的向量,這是一種荒唐的做法,同時也不是我們人類做翻譯時的做法。
當人類翻譯一本書的時候,在翻譯語句的過程中,翻譯者會記錄在原書中已經(jīng)翻譯到了哪個位置,這是注意力在翻譯過程中的應用。人類的注意力中會有一個虛擬的指針,指向原文中目前已經(jīng)翻譯到了的位置。這樣基于人類是如何進行翻譯的觀察,除了對機器翻譯的發(fā)展產(chǎn)生了巨大的推動作用之外,對于推理能力、記憶能力和使用人工神經(jīng)網(wǎng)絡處理數(shù)據(jù)結構能力方面的進步也產(chǎn)生了積極的影響。
為了衡量這樣的影響,我們可以簡單看一下事情是如何演進的。當我們三年前剛剛開始研究機器翻譯的時候,初期的結果是很慘淡的,跟最近的結果相比較是非常差的。我們慢慢地改進并且得到了一些進展,直到我們偶然間發(fā)現(xiàn)了人類虛擬的注意力模型這件事情,它對我們的研究起到了至關重要的作用。在它的幫助下,最終我們也達到了基于短語的機器翻譯技術所能達到的翻譯水平,也許在一些語言組合上我們甚至超越了之前的技術。但是我們仍舊抱有疑問:這樣的技術能夠在非常巨大的數(shù)據(jù)集合上得到很好的結果嗎?
最近,谷歌公布的機器翻譯技術已經(jīng)發(fā)展到了令人振奮的水平。谷歌搜集了非常多的數(shù)據(jù),遠遠超過任何人類個體在一生中能夠學習的知識體量,并使用這樣量級的數(shù)據(jù)訓練了他們現(xiàn)在的機器翻譯系統(tǒng),這基本上已經(jīng)是非常接近人類翻譯能力的機器翻譯系統(tǒng)了。一些關于PBMT(Phrase-based Machine Translation,即傳統(tǒng)基于短語的機器翻譯),GNMT(Google Neural Machine Translation,即谷歌基于神經(jīng)網(wǎng)絡的機器翻譯)和人類翻譯的對比數(shù)據(jù)顯示,機器翻譯和人類翻譯能力之間的差距已經(jīng)被明顯縮小了。我不想對此做太多贅述,相關數(shù)據(jù)大家也可以很方便的在網(wǎng)上查到,這里我想強調的是:幾年前我們期待的、在機器翻譯領域的長足進步目前已經(jīng)成為了現(xiàn)實。
現(xiàn)在,讓我簡短地講一下為什么我相信深度學習會帶來更多優(yōu)秀的研究成果。在講這個話題之前,讓我們共同回溯一下,機器學習在前進的道路上,為了能夠達到人類水平的人工智能都需要哪些基本要素。我總結的基本要素包括以下五個。
1. 你要明白:想要創(chuàng)造智能的機器,這個機器就必須具備非常非常多的知識。人工智能要回答的一個非常基本的問題是,如何把這么多的知識裝進機器中。在機器學習的過程中,這些知識需要以數(shù)據(jù)的形式被機器所使用。這樣,非常非常多的知識就意味著非常非常多的數(shù)據(jù)。無論學習的形式是監(jiān)督學習,無監(jiān)督學習還是強化學習,這一條都是機器學習的基本要素。
2. 要學習如此之多的知識并保存在機器中,我們需要一個非常靈活的模型,不能是像過去統(tǒng)計學和以前機器學習中普遍存在的、簡單初級的模型。
3. 要使用非常多的數(shù)據(jù)去訓練出強大而靈活的模型,我們就需要足夠的計算能力。最近機器學習領域的成功有一部分要歸功于我們有了GPU的幫助。我想未來幾年學術界會和工業(yè)界有很多的合作,其中工業(yè)界會提供大筆的資金來創(chuàng)造專門用于運行人工神經(jīng)網(wǎng)絡的硬件系統(tǒng)。
4. 另外一個并沒有引起許多人注意的,而且是目前人工神經(jīng)網(wǎng)絡的最主要的優(yōu)點是,你可以很快的得到問題的答案,我們把這稱之為計算形式的高效推理。并不是所有的機器學習模型都具備這樣的特點。事實上,一般來說,如果想從數(shù)據(jù)得來的知識出發(fā)解決特定問題,你會需要指數(shù)級別的計算量來解答各種不同的中間問題。這里使用的方法是一種近似答案尋找系統(tǒng),這樣的系統(tǒng)在訓練的時候就是以找到近似答案為目的的。
5. 除去上面提到的四點之外,決定深度學習能提供更多更好結果的最重要的要素是,深度學習結合了擁有能夠戰(zhàn)勝維度詛咒的先驗假設(powerful priors that can defeat the curse of dimensionality),這些先驗假設(assumption)對于我們想利用人工智能解決的問題來說也是合理而且有效的。你可以把這些先驗假設當做先導條件,這些先導條件可以幫助我們在一定程度上脫離維度詛咒。我來嘗試講的更清楚一點。
深度學習關于世界的其中一個基本假設是組合性(compostionality)。人類使用組合性的假設來理解世界,而且將其使用在工程解決方案中、使用在語言理解中。我們可以通過將不同的信息碎片組合起來的方式理解和回答關于世界的問題。這種方法在深度人工神經(jīng)網(wǎng)絡中應用起來是十分自然的,它以兩種方式呈現(xiàn):即并行性和順序性。
并行性背后的想法是分布式的描述,我們通過把不互斥的特征和屬性組合起來的辦法來表達我們的認知和想法。這是所謂特征學習背后的理論,我在下一頁中會有更多的描述。在學習深度方面,低層次的特征將會被組合起來,而且不同層次的特征也會被組合起來。這樣跨層次的特征組合是一種順序性的組合。并行性和順序性這兩種方式都是非常有用的。
為了更好的理解分布式描述和為什么這樣的方式可以為你節(jié)省指數(shù)級別的計算量,這里我介紹一個分析人物照片的例子。假設我們已經(jīng)訓練了一個人工神經(jīng)網(wǎng)絡去理解照片中抽象的特征和屬性。當然這些特征不是預定義的,他們是被機器發(fā)現(xiàn)的。也許機器的一個計算單元會發(fā)現(xiàn)照片中的人物是否戴了眼鏡,另一個單元會發(fā)現(xiàn)人物是男性還是女性,另外一個單元會發(fā)現(xiàn)人物是否是兒童,以此類推。這些特征不一定非得是語義上清晰的屬性,但是大家可以先想象成這樣。
假設你有100個特征,每一個特征是二元的,那你就會有1024種不同的特征組合需要機器來依據(jù)特征去分類?,F(xiàn)實中可能不會有足夠多的訓練數(shù)據(jù)來覆蓋所有可能出現(xiàn)的組合,神奇的地方在于我們可以從所有組合的一個子集中推導出新的組合。我們可以不用遍歷所有可能的組合而做這樣的推導背后的原因是我們可以在不考慮其他特征值的情況下學習每一個特征。
一個例子是,為了知道人物是否戴眼鏡,你不需要知道人物是男是女或者人物是否是兒童,以及人物頭發(fā)的顏色或者人物穿什么款式的裙子。這樣的情況對很多特征來講都是成立的,因為很多屬性都是這樣獨立存在的。也就是說,例子或者說參數(shù)的增長是線性的(而不是傳統(tǒng)統(tǒng)計學意義上指數(shù)級的增長),與屬性的數(shù)量成正比。這樣,訓練所需的數(shù)據(jù)量就小了很多。
我認為,目前我們依舊距離人類水平的人工智能有很大的距離。
在新聞中可能出現(xiàn)了太多對于人工智能的宣傳和炒作,我認為我們低估了一些我們正面對的非常困難的問題。其中一個例子是目前工業(yè)級人工智能的成功絕大多是都是純粹的監(jiān)督學習的成果。
另外一個問題是我們目前最先進的系統(tǒng)所使用的歸納方法其實還是非常簡單的。我們目前的學習系統(tǒng)仍舊依賴于數(shù)據(jù)中非常淺顯的提示,因此這些系統(tǒng)在非訓練的情境下很難有好的效果。這同時也意味著這些系統(tǒng)可以很容易地上當受騙,例如只看物體的顏色和圖片的背景,如果圖片背景中有很多綠色,即使沒有動物在圖片中,系統(tǒng)仍舊會認為圖片中的就是動物。
所以,我一直在強調的事情是更多地去思考如何讓機器更好的學習和發(fā)現(xiàn)高層次的抽象概念。我也在自己的研究中力圖推進這個方向。這樣的訓練可能要求我們添加多個時間尺度。這就和長時間跨度、依賴性學習的概念有了聯(lián)系。
另一個技術上的問題是我們仍舊很依賴于舊的bakcprop,也即 smooth differential predictors。這樣的技巧需要光滑可微的前導參數(shù),雖然這也是目前的研究熱點,但這并不是我們目前研究中所需要的。
我們需要在無監(jiān)督學習中做的更好。人類在無監(jiān)督學習中表現(xiàn)的非常好。比如說在父母沒有給小孩子講過牛頓定律和微分方程的時候,一個兩歲的兒童就能夠了解直觀的物理原理。我們在深度無監(jiān)督學習方面已經(jīng)做了很多年的研究,但是目前我們有的方法都有一些局限性,在這里因為時間的關系我們就不展開講了。我們最近在自動回歸模型上取得了很多進展,但是我不認為這些模型會將我們帶入一個更高的研究階段,因為這些模型學習的并不是帶有潛在變量的抽象表達。
我們最近在變分自編碼器(VAE)和對抗生成網(wǎng)絡(GAN)方向上也取得了一些成功,這都是研究的最前沿。但是它們很難被訓練,而且它們學習和發(fā)現(xiàn)抽象概念的能力還不是很令人滿意。但我在這里還是希望向你們展示一下最近的成果。
這是我們兩年前在GAN上得到的一些結果。對于數(shù)字的學習結果是不錯的,但是對于自然圖片的學習結果還不是很好。接下來是一年前的結果,內容仍然局限在一個類型上。
這是現(xiàn)在的結果,這些并不是真正的火山圖片,而是機器生成的火山圖片。這個系統(tǒng)可以生成它所理解的1000個類型的圖片。
這些圖片看起來讓人印象深刻,但是系統(tǒng)本身在某些方面仍舊很呆板。(下圖為 Plug & Play 生成網(wǎng)絡的圖像)
那么,我們還需要什么呢?
我認為我們仍需要讓計算機更自主地學習,無監(jiān)督的學習,試著讓機器發(fā)現(xiàn)一些潛在的因果關系。
另外一件我們覺得重要,但尚未成功的事情是基于模型的強化學習,強化學習和無監(jiān)督學習結合在一起,這會讓機器更好的處理一些全新的情境。想象一下自動駕駛汽車,這個情景下充滿了訓練中少見、危險而機器必須處理的情況。我們目前的方法還不能夠很好處理這些情況。我們需要機器有能力去想象一些與訓練實例差別很大的情景,因為對這些情景的處理通常都至關重要。
我們還需要更多的計算能力,我認為這在接下去的幾年或者幾十年中就會實現(xiàn)。
我們同時需要在多時間尺度的處理方面取得進展。
我認為接下來在理解語言方面會有進展,但如果我們不能在發(fā)現(xiàn)和表達高層次抽象概念上取得更大的進展,那我們在機器語義理解的發(fā)展上將進入一個瓶頸期。
有一件事情我想在這里指出的是,如果我們愿意,我們完全可以擁有一款被動的、可以非常好地理解我們世界的人工智能系統(tǒng),但是著并不會對我們的世界產(chǎn)生重大的推動性影響??墒?,一旦我們擁有了智能的機器,我們就不會只局限于使用它們去回答一些簡單的問題,我們會希望它們能夠主動地去完成一些事情。這樣的希望就給我們提出了一個關于獎勵機制的有趣問題。其中我個人非常關注的一點是,機器如何學會人類的價值觀,我認為這才是訓練真正“聰明”的AI的關鍵,即 wise AI。
最后我想提出的一個問題是:使用現(xiàn)實世界中的行動(action)來指導表征學習(representation learning)。這是一個我最近開始研究的新方向。這個研究想要解答的問題是什么才算是好的表征學習,以及如何搞清楚數(shù)據(jù)中各種解釋因子(explanatory factors)之間的潛在關系。目前的想法是,如果我們在現(xiàn)實世界中存在著一些可以控制這些解釋因子的代理(agent),而這些因子又與那些可以被控制的事情對應,那么我們就有機會利用這些因子對事物間的關系做基本的解釋(underlying explanations)。
原演講鏈接:https://youtu.be/ZHYXp3gJCaI,雷鋒網(wǎng)編譯
聯(lián)系客服