他山之石,可以攻玉。
相較于AI,腦科學(xué)無(wú)異于“他山之石”。一些人工神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)在借助了人類大腦的特點(diǎn)之后有了比較大的性能提升,例如Drought能夠通過(guò)阻止特征檢測(cè)器的共同作用來(lái)提高神經(jīng)網(wǎng)絡(luò)的性能,這就借助了腦網(wǎng)絡(luò)有選擇激活神經(jīng)元的特點(diǎn)。
那么,人類大腦究竟具體在哪些方面對(duì)人工智能進(jìn)行了啟發(fā)呢?
5月19日,中國(guó)圖形圖像學(xué)會(huì)主辦的第一期GSIG云講堂,中科院自動(dòng)化所余山研究員在 “從腦網(wǎng)絡(luò)到類腦網(wǎng)絡(luò)計(jì)算”主題演講中提到大致可以從四個(gè)方面借鑒大腦:硬件、算法、計(jì)算、學(xué)習(xí)。
他還提到:目前的人工神經(jīng)網(wǎng)絡(luò)或者說(shuō)人工智能的主要問(wèn)題是其局限于一個(gè)單獨(dú)、專門的特殊領(lǐng)域,它不能像人一樣的在很多不同的領(lǐng)域都實(shí)現(xiàn)比較高的智能。也就是說(shuō)AI還遠(yuǎn)沒(méi)有達(dá)到通用智能水平。
而目前人腦是唯一我們知道能夠?qū)崿F(xiàn)通用智能的一個(gè)例子,要想讓AI從專用智能轉(zhuǎn)換到通用智能,比較明確的方向是借鑒人腦。
有人認(rèn)為類腦計(jì)算目前面臨的困難有兩個(gè):第一我們還沒(méi)完全弄清楚大腦如何處理信息,第二腦網(wǎng)絡(luò)和我們現(xiàn)在人工設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上有很大的區(qū)別。
根據(jù)現(xiàn)有的挑戰(zhàn)我們?nèi)绾谓梃b大腦,或者說(shuō)從什么意義上借鑒大腦呢?余山提到,從鳥(niǎo)的飛行中得到啟發(fā),模仿并制作其羽毛、翅膀只是簡(jiǎn)單的模仿。
而根據(jù)鳥(niǎo)類飛行的空氣動(dòng)力學(xué)設(shè)計(jì)飛機(jī)則是機(jī)制和原理上的借鑒。人工智能先驅(qū)之一,David Marr 曾經(jīng)提到,對(duì)于任何一個(gè)信息處理系統(tǒng),都可以從不同的層面去理解它,他認(rèn)為有三個(gè)層次:硬件層次、算法層次、計(jì)算的層次。其中硬件層次是關(guān)系到物理層面的設(shè)計(jì);算法層次是關(guān)系到信息系統(tǒng)如何做;計(jì)算的層次關(guān)系到的是系統(tǒng)做什么以及它為什么要做這些事情。
后來(lái)有人在Marr的基礎(chǔ)上提出了一個(gè)更高的層面,即學(xué)習(xí)的層面,即系統(tǒng)是如何逐漸學(xué)會(huì)做它所做的事情的。顯然,Marr提出的三個(gè)層次都屬于靜態(tài)的觀點(diǎn),而學(xué)習(xí)層面直接給借鑒下了動(dòng)態(tài)的定義。
余山認(rèn)為, 可以從這些不同的層面分析開(kāi)展類腦計(jì)算或類腦智能研究可行的路徑。
從硬件層面來(lái)看,傳統(tǒng)的電子計(jì)算機(jī)使用的是馮諾依曼架構(gòu)?;驹硎牵河?jì)算機(jī)有一個(gè)輸入和輸出系統(tǒng),中央處理單元應(yīng)該分成兩個(gè)部分,一個(gè)是個(gè)處理單元,另一個(gè)是存儲(chǔ)單元,也就是一個(gè)是CPU,一個(gè)是內(nèi)存。
在做數(shù)據(jù)處理的時(shí)候,把數(shù)據(jù)從存儲(chǔ)單元把調(diào)用到 CPU當(dāng)中,處理完了之后再返回存儲(chǔ)單元。這會(huì)面臨的問(wèn)題是:存儲(chǔ)單元和處理單元之間做高頻的快速的搬運(yùn)非常消耗能源。
如上圖GPU的時(shí)鐘頻率和能量頻率的關(guān)系,可以清晰的看到近代計(jì)算機(jī)的發(fā)展趨勢(shì)是GPU的時(shí)鐘頻率和能量頻率都是越來(lái)越高的。其中時(shí)鐘頻率代表:數(shù)據(jù)從存儲(chǔ)搬到內(nèi)存的速度。能量頻率代表功率。
與現(xiàn)代計(jì)算機(jī)的發(fā)展模式相反,大腦的功率只有20W左右,相當(dāng)于一個(gè)暗淡的白熾燈。
那么,高能耗會(huì)帶來(lái)什么問(wèn)題呢?以IBM在2000年開(kāi)發(fā)的一個(gè)用來(lái)做生物信息學(xué)研究的計(jì)算機(jī)為例,有144個(gè)tb的內(nèi)存,然后14萬(wàn)個(gè)處理器,然后功耗為1.4個(gè)兆瓦。每當(dāng)這個(gè)運(yùn)行的時(shí)候,必須有一個(gè)專門的電站為其供能。所以,這大大限制了遠(yuǎn)程的應(yīng)用,嵌入式的運(yùn)用。
最新的研究成果是存算一體。即借鑒神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu), 并不將存儲(chǔ)和處理分開(kāi),將這兩大部分放在一塊,極大的解決了數(shù)據(jù)來(lái)回搬運(yùn)的能源消耗問(wèn)題。這是被稱為神經(jīng)形態(tài)或神經(jīng)擬態(tài)芯片的研究方向, 在2014年,IBM曾經(jīng)設(shè)計(jì)了此類方向的芯片,國(guó)內(nèi)的清華大學(xué)等也推出了自己設(shè)計(jì)的芯片。
在算法層面,在生物腦和人工神經(jīng)網(wǎng)絡(luò)之間也有非常重要的聯(lián)系。
第一個(gè)例子是突觸的概率釋放與Dropout算法之間的關(guān)系. 生物神經(jīng)網(wǎng)絡(luò)信息釋放的方式,即生物神經(jīng)網(wǎng)絡(luò)神經(jīng)元之間的連接是通過(guò)一個(gè)叫做突觸的結(jié)構(gòu),這個(gè)結(jié)構(gòu)就是兩個(gè)神經(jīng)元之間進(jìn)行信息交互的地方。前面一個(gè)神經(jīng)元有一個(gè)動(dòng)作電位之后,它會(huì)釋放一種神經(jīng)遞質(zhì)的化學(xué)物質(zhì),而這種化學(xué)物質(zhì)被后一個(gè)神經(jīng)元吸收之后就會(huì)轉(zhuǎn)化成電信號(hào),這樣實(shí)現(xiàn)了電信號(hào)在神經(jīng)元之間的傳遞。
這里面兩個(gè)神經(jīng)元信息傳遞的關(guān)鍵是:電信號(hào)促使化學(xué)物質(zhì)釋放。
當(dāng)然,這種方式也有個(gè)缺點(diǎn),即神經(jīng)沖動(dòng)導(dǎo)致神經(jīng)遞質(zhì)釋放并不總是成功的。它其實(shí)有很高的失敗概率,成功概率的中位數(shù)可能就是在0.2~0.3之間,也就是說(shuō)有80%左右的概率信息傳輸失敗。
在生物學(xué)中,如此大的失敗概率,其實(shí)有它獨(dú)特的意義。很多證據(jù)表明生物學(xué)不是做不到更高的可靠性,有的神經(jīng)元之間的信息傳遞能夠接近100%。
而大多數(shù)只有20%~30%的概率的原因可能是這樣能使神經(jīng)網(wǎng)絡(luò)更快更好的學(xué)習(xí)。最新的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法Dropout就很好地說(shuō)明了這一點(diǎn),在網(wǎng)絡(luò)訓(xùn)練時(shí)候隨機(jī)地關(guān)閉某些神經(jīng)元,而在測(cè)試的時(shí)候讓所有神經(jīng)元都工作,如此方法讓神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力有了明顯的提高。
第二個(gè)例子是有關(guān)神經(jīng)網(wǎng)絡(luò)的臨界狀態(tài)。這也跟余山研究員自己的研究相關(guān)。所謂臨界就是:當(dāng)系統(tǒng)中神經(jīng)元活動(dòng)的傳播系數(shù)大于1的時(shí)候,比如第一步只有一個(gè)神經(jīng)元激活,那么第二步會(huì)有很多神經(jīng)元激活,到了第三步會(huì)產(chǎn)生爆炸。當(dāng)傳播系數(shù)小于1的時(shí)候,第一步只有激活多個(gè)神經(jīng)元,下一步才能激活一個(gè)神經(jīng)元,系統(tǒng)的活動(dòng)會(huì)快速消退。當(dāng)系數(shù)等于1的時(shí)候,系統(tǒng)狀態(tài)會(huì)保持相對(duì)穩(wěn)定,那么此狀態(tài)就會(huì)稱為臨界。
所以不管是亞臨界狀態(tài)(傳播系數(shù)小于1)還是超臨界狀態(tài)(傳播系數(shù)大于1)都不利于信息的傳遞和處理。只有在臨界狀態(tài)的情況,信息可以通過(guò)這些神經(jīng)元的活動(dòng)模式把它保持下來(lái),傳播出去。
另外,臨界狀態(tài)能否在人工神經(jīng)網(wǎng)絡(luò)中應(yīng)用,余山老師提到,如上圖所示,他們利用了一個(gè)水池計(jì)算模型,整個(gè)模型中間是一個(gè)隨機(jī)連接的遞歸神經(jīng)網(wǎng)絡(luò)。可以對(duì)中間的模型進(jìn)行權(quán)重調(diào)節(jié),可以調(diào)成超臨界的轉(zhuǎn)態(tài),從而讓連接特別強(qiáng),也可以調(diào)節(jié)成亞臨界狀態(tài),讓權(quán)重非常弱。如上圖,SR代表譜半徑,小于1是亞臨界轉(zhuǎn)態(tài),大于1是超臨界狀態(tài),等于1是臨界狀態(tài)??梢钥吹?,在臨界狀態(tài)此網(wǎng)絡(luò)的錯(cuò)誤率是最低的,所以臨界狀態(tài)的功能優(yōu)勢(shì)在人工神經(jīng)網(wǎng)絡(luò)中同樣適用。
但是上圖中系統(tǒng)過(guò)于依賴于臨界狀態(tài), 特別是當(dāng)水池的規(guī)模變大的時(shí)候.,這意味著稍微有一點(diǎn)偏差,有一點(diǎn)稍微隨機(jī)擾動(dòng),它的性能會(huì)受到很大的損失。
如何解決?大腦給我們的啟示是:自適應(yīng)機(jī)制。也就是大腦之所以能保持臨界狀態(tài),最主要的自適應(yīng)機(jī)制,即能夠通過(guò)學(xué)習(xí)而逐漸適應(yīng)環(huán)境。所以給人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一個(gè)自適應(yīng)機(jī)制,如果網(wǎng)絡(luò)超臨界了,那么讓網(wǎng)絡(luò)自適應(yīng)調(diào)小權(quán)重。如果亞臨界了,就讓網(wǎng)絡(luò)自適應(yīng)調(diào)大權(quán)重,實(shí)驗(yàn)結(jié)果顯示這樣的系統(tǒng)能夠兼顧臨界狀態(tài)的功能優(yōu)勢(shì)與魯棒性。
人工神經(jīng)網(wǎng)絡(luò)也面臨在信息傳輸?shù)倪^(guò)程中, 網(wǎng)絡(luò)活動(dòng)爆炸或是快速消失的問(wèn)題, 這樣會(huì)帶來(lái)所謂的 “梯度消散”的問(wèn)題, 目前主流的解決方案是 用 Batch Norm或是 Layer Norm, 也即在人工神經(jīng)網(wǎng)絡(luò)當(dāng)中的每?jī)蓚€(gè)處理層次之間添加一個(gè)專門的處理層級(jí)層。這個(gè)層的作用是把前面?zhèn)鬟^(guò)來(lái)的信號(hào)做調(diào)整,要么把信號(hào)增強(qiáng)一些,要么把它衰減一些,讓后面層的反應(yīng)不至于太強(qiáng),也不至于太弱。但是因?yàn)樗羞@些新增層都是額外的計(jì)算負(fù)擔(dān)。一個(gè)有意思的思路是借鑒上面說(shuō)到的自適應(yīng),或叫自組織臨界態(tài)的想法來(lái)保持網(wǎng)絡(luò)中信息傳播的平衡, 這還需要進(jìn)一步探索。
除了算法層面的借鑒,在計(jì)算的層面相對(duì)更抽象一點(diǎn)。我們作為人,擁有的智能很重要的一個(gè)特點(diǎn)就是靈活,人并不是非常死板觀察事物,我們可以隨機(jī)應(yīng)變。在同樣的情況下,同樣的刺激,然后可以做出不同的反應(yīng)。舉例子來(lái)說(shuō),如果刀在廚房中就是切菜,而在犯罪現(xiàn)場(chǎng),人會(huì)有不同的聯(lián)想。
這是人的一個(gè)計(jì)算原則,叫做情境相關(guān)的處理。
在心理學(xué)上或者認(rèn)知科學(xué)上有很多實(shí)驗(yàn)范式可以來(lái)研究這個(gè)問(wèn)題,如上圖,呈現(xiàn)同樣的一個(gè)詞, 如果被詢問(wèn)到這個(gè)詞是什么意思,你會(huì)回答是“紅色”,如果問(wèn)到這個(gè)詞是什么顏色,你會(huì)回答“綠色”,這種就叫做情境相關(guān)的處理。
這種根據(jù)不同條件進(jìn)行靈活調(diào)整的能力,當(dāng)前主流的神經(jīng)網(wǎng)絡(luò)做不到,它們擅長(zhǎng)的是建立輸入-輸出間固定的映射, 比如面孔識(shí)別。
但是如果想讓現(xiàn)有的神經(jīng)網(wǎng)絡(luò)去適應(yīng)更復(fù)雜的動(dòng)態(tài)變化的環(huán)境,就需要引入像人這樣的隨機(jī)應(yīng)變的能力。
從大腦結(jié)構(gòu)來(lái)看,人除了有從感覺(jué)輸入到運(yùn)動(dòng)輸出這個(gè)通路,在這之上還有一條調(diào)控的通路,這在神經(jīng)科學(xué)里面主要是大腦前額葉起的作用。前額葉區(qū)域決定了人的隨機(jī)應(yīng)變能力。
基于此,余山老師提到了一種新的網(wǎng)絡(luò)架構(gòu),情境處理模塊(CDP)。主要是解決動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)內(nèi)部信息處理的問(wèn)題。其思想是對(duì)于不同任務(wù)的輸入,由CDP模塊根據(jù)任務(wù)對(duì)于同樣的輸入信號(hào)進(jìn)行對(duì)應(yīng)的旋轉(zhuǎn),從而使得網(wǎng)絡(luò)能夠?qū)τ谕瑯拥妮斎?能根據(jù)任務(wù)要求有不同的輸出。在數(shù)據(jù)集CelebA上測(cè)試的時(shí),面對(duì)40個(gè)屬性人臉識(shí)別任務(wù),使用一個(gè)能夠靈活適應(yīng)任務(wù)的分類器,對(duì)比40個(gè)分類器的傳統(tǒng)系統(tǒng),達(dá)到了很高的精準(zhǔn)度。
注:CelebA:一個(gè)面部識(shí)別數(shù)據(jù)集,里面包含很多明星面部,每一個(gè)面孔有40個(gè)屬性。
在學(xué)習(xí)層面,神經(jīng)網(wǎng)絡(luò)面臨的一個(gè)重要問(wèn)題是災(zāi)難性遺忘,即神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)不同的任務(wù)時(shí)候,如果不把不同任務(wù)的訓(xùn)練樣本混在一起去訓(xùn)練,往往在學(xué)習(xí)新的任務(wù)時(shí)候舊的任務(wù)就忘了。例如讓神經(jīng)網(wǎng)絡(luò)識(shí)別一只狗,它性能可能很強(qiáng)。但在第二個(gè)任務(wù),如果你只讓神經(jīng)網(wǎng)絡(luò)去看貓的圖片,學(xué)習(xí)怎么識(shí)別貓,神經(jīng)網(wǎng)絡(luò)效果可能會(huì)非常好,但是這時(shí)候你再回頭讓他去看狗的圖片,神經(jīng)網(wǎng)絡(luò)就識(shí)別不出來(lái)。其實(shí)這很好理解,因?yàn)樵谟?xùn)練的時(shí)候權(quán)重要做改變,就是針對(duì)貓的任務(wù)做了改變之后,就把原來(lái)針對(duì)狗的任務(wù)學(xué)會(huì)的知識(shí)忘掉了。
人腦就沒(méi)有這么嚴(yán)重的災(zāi)難遺忘。人類可以學(xué)習(xí)不同的任務(wù),最后實(shí)現(xiàn)能力的不斷提升。所以,克服災(zāi)難遺忘是對(duì)人工神經(jīng)網(wǎng)絡(luò)或者未來(lái)的通用的人工智能是非常關(guān)鍵的一點(diǎn)。
針對(duì)這一點(diǎn),余山老師提到,他們近期提出了正交權(quán)重修改 (orthogonal weights modification,OWM) 算法, 有效地克服了災(zāi)難性遺忘的難題, 使得單個(gè)神經(jīng)網(wǎng)絡(luò)不僅可以先學(xué)識(shí)別狗, 再學(xué)識(shí)別貓, 而且可以逐漸的學(xué)習(xí)多達(dá)數(shù)千個(gè)類型的識(shí)別. 這一新型學(xué)習(xí)算法和前面介紹的和情境依賴處理 (CDP) 模塊配合。能夠使人工神經(jīng)網(wǎng)絡(luò)具備了強(qiáng)大的連續(xù)學(xué)習(xí)和情境依賴學(xué)習(xí)能力,其中,OWM 算法可以有效克服神經(jīng)網(wǎng)絡(luò)中的災(zāi)難性遺忘,實(shí)現(xiàn)連續(xù)學(xué)習(xí);而受大腦前額葉皮層啟發(fā)的 CDP 模塊可以有效整合情境信息,調(diào)制神經(jīng)網(wǎng)絡(luò)的信息處理過(guò)程。
這樣就使得神經(jīng)網(wǎng)絡(luò)能夠持續(xù)的學(xué)習(xí)在什么條件下怎么做正確的事, 為最終實(shí)現(xiàn)類人的靈活性提供了可能。
除了上面四個(gè)層次的借鑒之外,余山老師還介紹了如何將先驗(yàn)知識(shí)壓縮及注入神經(jīng)網(wǎng)絡(luò)、從符號(hào)計(jì)算到語(yǔ)義理解、從有監(jiān)督的分類訓(xùn)練到無(wú)監(jiān)督的重構(gòu)和預(yù)測(cè)等類腦計(jì)算的思路。
如何將先驗(yàn)知識(shí)壓縮及注入神經(jīng)網(wǎng)絡(luò):所謂先驗(yàn)知識(shí),舉個(gè)例子來(lái),語(yǔ)言其實(shí)是有很強(qiáng)大的經(jīng)驗(yàn)結(jié)構(gòu)處理,最早神經(jīng)科學(xué)家或者說(shuō)認(rèn)知科學(xué)家在爭(zhēng)論說(shuō)語(yǔ)言其實(shí)是學(xué)不會(huì)的,我們本身有先天的結(jié)構(gòu)讓我們比較容易學(xué)習(xí)語(yǔ)言,這種先天的結(jié)構(gòu)就是先驗(yàn)知識(shí)。當(dāng)前的神經(jīng)網(wǎng)絡(luò)基本上都是從頭學(xué)起的,沒(méi)什么先驗(yàn)知識(shí)在里面,我們應(yīng)該更深入的去理解我們大腦的先驗(yàn)知識(shí)是怎么樣積累下來(lái)的。
從符號(hào)計(jì)算到語(yǔ)義理解:目前的自然語(yǔ)言處理的系統(tǒng)基本上的訓(xùn)練的材料還是語(yǔ)料,純粹是文字或者說(shuō)叫符號(hào)。以中文屋(Chinese Room)實(shí)驗(yàn)為例,里面包含的是純粹是做一些非常簡(jiǎn)單的信息處理工作,只是從符號(hào)到符號(hào),沒(méi)有真正理解內(nèi)在的含義。要讓神經(jīng)網(wǎng)絡(luò)要克服這個(gè)問(wèn)題,未來(lái)還是應(yīng)該向大腦去學(xué)習(xí)。
有監(jiān)督的分類訓(xùn)練到無(wú)監(jiān)督的重構(gòu)和預(yù)測(cè):當(dāng)前在分類任務(wù)上識(shí)別的訓(xùn)練好的網(wǎng)絡(luò)往往在復(fù)雜環(huán)境下工作并不是特別好,最大的一個(gè)啟示就是我們?nèi)绻慈说囊曈X(jué)系統(tǒng)的發(fā)育,并不是這種用分類或者是分割或者檢測(cè)這種監(jiān)督信號(hào)去訓(xùn)練,例如,小孩學(xué)習(xí)識(shí)別物體,完全是靠自監(jiān)督的方式來(lái)把這個(gè)世界看清楚。真正強(qiáng)有力的人工智能,包括像計(jì)算機(jī)視覺(jué)的一些設(shè)計(jì),可能不是端到端的監(jiān)督訓(xùn)練的方式,而是采用了類腦的分階段、并且包含無(wú)監(jiān)督或自監(jiān)督的訓(xùn)練方式,最近機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)展也體現(xiàn)了這一策略正在逐漸受到人們的關(guān)注
最后, 余山總結(jié)說(shuō), 雖然我們對(duì)于大腦的了解尚不完備, 生物腦和人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)也有很大的差異,但是這并不是開(kāi)展類腦計(jì)算研究的本質(zhì)障礙. 神經(jīng)科學(xué)和認(rèn)知科學(xué)的研究已經(jīng)發(fā)現(xiàn)了大腦的很多機(jī)制性原理, 這些知識(shí)能夠指導(dǎo)我們不斷改善智能系統(tǒng)的設(shè)計(jì), 最終有望實(shí)現(xiàn)在不同層面上受腦啟發(fā)的更加強(qiáng)大、高效的人工智能.
來(lái)源:中國(guó)圖象圖形學(xué)學(xué)會(huì)CSIG
聯(lián)系客服