大數(shù)據(jù)文摘出品
編譯:臻臻、Shan LIU、龍牧雪
大部分人不會喜歡遺忘的感覺。
回到家順手把鑰匙丟在一個角落就再也想不起來放在哪兒了,街角偶遇一個同事卻怎么拍腦袋也叫不出他的名字……我們害怕遺忘,討厭遺忘。
然而,生而為人,健忘其實是種關(guān)鍵能力。
對于人類而言,遺忘絕不僅僅是“想不起來”,而是一個幫助大腦吸收新信息并鍛煉有效決策的積極過程。
現(xiàn)在,數(shù)據(jù)科學(xué)家們正在嘗試應(yīng)用神經(jīng)科學(xué)原理來改進機器學(xué)習(xí),并且堅信人類大腦能夠解鎖圖靈完備的人工智能。
人腦為什么需要遺忘
我們的大腦被普遍認作為信息過濾器。先放入一大堆亂七八糟的數(shù)據(jù),篩選有用的信息,然后清理任何不相關(guān)的細節(jié),用以陳述故事或作出決策。清除沒用的細節(jié)是為了給新數(shù)據(jù)騰出儲存空間,類似在計算機上運行磁盤清理。
用神經(jīng)生物學(xué)的術(shù)語來說,遺忘發(fā)生于神經(jīng)元之間的突觸連接減弱或者消失之時,同時隨著新神經(jīng)元的發(fā)育,他們又會重新連接海馬回路,覆蓋現(xiàn)有記憶。
對于人類來說,遺忘有兩個好處:
通過減少過時信息對我們決策的影響來增強靈活性
防止過度擬合過去的特定事件和促進概括能力
為了有效地適應(yīng)環(huán)境,人類需要有策略性遺忘的能力。
計算機也需要遺忘?
計算機的遺忘與人類的不同,這是人工智能面臨的一大挑戰(zhàn)。深度神經(jīng)網(wǎng)絡(luò)在完成機器學(xué)習(xí)任務(wù)方面非常成功,但它們的遺忘方式也與我們不一樣。
舉一個簡單的例子,如果你教一個講英語的孩子學(xué)習(xí)西班牙語,這個孩子會在學(xué)習(xí)過程中應(yīng)用英語學(xué)習(xí)的技巧,比如名詞、動詞動態(tài)、句子建立方法等。同時他會忘記那些不相關(guān)的部分,比如口音、嘟囔、語調(diào)等。如此,這個孩子可以在策略性遺忘的同時逐漸學(xué)習(xí)和建立新的思維方式。
相比之下,如果你已經(jīng)訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)英語,那么它的參數(shù)則已經(jīng)適應(yīng)了英語問題的解法。此時你要教它學(xué)習(xí)西班牙語,它就會生成新的適應(yīng)系統(tǒng)并覆蓋以前為學(xué)習(xí)英語所獲得的知識,刪除所有內(nèi)容并重新開始。這被稱作“災(zāi)難性遺忘”,并被認為是“神經(jīng)網(wǎng)絡(luò)的一個根本局限”。
雖然這還是一個新領(lǐng)域,最近科學(xué)家們已經(jīng)在探索克服這種限制的潛在理論,并取得了長足的進步。
3個方法教AI學(xué)會遺忘
長短期記憶網(wǎng)絡(luò)(LSTM)
LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò),它使用特定的學(xué)習(xí)機制來決定在任意一個節(jié)點哪些信息需要記住,哪些需要更新,哪些需要關(guān)注。
LSTM工作機制如何?一個簡單的解釋是拿電影來做類比:假設(shè)一個計算機正在嘗試通過分析先前的場景來預(yù)測電影中接下來會發(fā)生的事。一個場景是一個女人拿著一把刀,計算機會猜測她是一個廚師還是兇手呢?另一個場景中,一個女人和一個男人在金色拱門下吃壽司:計算機會猜他們是在日本還是麥當勞呢?或者其實他們是在圣路易斯?
大拱門是美國圣路易斯的標志性建筑
LSTM通過以下3步提升神經(jīng)網(wǎng)絡(luò):
遺忘/記憶
“當場景結(jié)束,模型應(yīng)該忘記當前場景的位置,所處時間,并重置任何特定場景的信息;然而,如果場景中的一個角色死亡了,機器則應(yīng)該繼續(xù)記住他不再活著的事實。因此,我們希望機器能學(xué)習(xí)掌握一個相互獨立的遺忘/記憶機制,這樣當新信息進來時,它知道什么觀念該保留什么該丟棄。”
——Edwin Chen
保存
當模型看到一張新圖像,它需要了解這個圖像是否有什么信息值得被使用和保存。如果一個女人在某個場景中路過廣告牌,機器應(yīng)該記住這個廣告牌還是將其視作噪聲數(shù)據(jù)忽略掉呢?
劃重點
我們可能需要記住電影中的這個女人是個母親這一信息點,因為我們稍后會看見她的孩子們,但是這個信息在她不出現(xiàn)的場景里可能并不重要,所以在那些場景里我們不需要重點關(guān)注。同樣,并非所有存儲在神經(jīng)網(wǎng)絡(luò)的長期記憶中的內(nèi)容都是立即相關(guān)的,所以LSTM所做的就是在安全保存所有信息備用的同時,幫助決定哪一部分在哪一時刻被重點關(guān)注。
彈性權(quán)重固化(EWC)
EWC是由谷歌旗下DeepMind的研究人員于2017年3月創(chuàng)建的一種算法,旨在模擬一種被稱為突觸整合的神經(jīng)科學(xué)過程。在突觸整合過程中,我們的大腦評估一項任務(wù),計算許多用于執(zhí)行任務(wù)的神經(jīng)元的重要性,同時權(quán)衡哪些神經(jīng)元對正確執(zhí)行任務(wù)更為重要。
這些關(guān)鍵的神經(jīng)元被編譯為重要的,并且在隨后的任務(wù)中相對不可能被覆蓋。同樣,在神經(jīng)網(wǎng)絡(luò)中,多個連接(如神經(jīng)元)被用于執(zhí)行任務(wù)。EWC將一些連接編譯為至關(guān)重要的,從而保護他們不被覆蓋/遺忘。
在下面的圖表中,你可以看到研究人員將EWC應(yīng)用于Atari游戲時發(fā)生了什么。藍線表示標準的深度學(xué)習(xí)過程,紅線及棕線則由EWC提供以顯示改進后的結(jié)果:
瓶頸理論
瓶頸理論由耶路撒冷希伯來大學(xué)的計算機科學(xué)家和神經(jīng)科學(xué)家Naftali Tishby在2017年秋提出。這個構(gòu)想是,網(wǎng)絡(luò)擺脫了嘈雜的無關(guān)細節(jié)的輸入數(shù)據(jù),就好比用瓶頸將信息擠壓,只保留與基本概念最相關(guān)的特征。
Tishby解釋說,神經(jīng)網(wǎng)絡(luò)經(jīng)歷了兩個階段的學(xué)習(xí)——擬合與壓縮。在擬合過程中,網(wǎng)絡(luò)標記其訓(xùn)練數(shù)據(jù);而在更漫長的壓縮過程中,它“丟棄關(guān)于數(shù)據(jù)的信息,只跟蹤最強大的特征”,也即是那些最能幫助它泛化的特征。通過這種方式,壓縮成為策略性遺忘的一種方式,掌控這一瓶頸也可能成為AI研究人員用于構(gòu)建未來更強大神經(jīng)網(wǎng)絡(luò)的新目標和體系的一個工具。
正如Tishby所說:“遺忘才是學(xué)習(xí)過程中最重要的一部分?!?/span>
相關(guān)報道:
https://hackernoon.com/machine-un-learning-why-forgetting-might-be-the-key-to-ai-406445177a80
【今日機器學(xué)習(xí)概念】
Have a Great Definition
Contributors
回復(fù)“志愿者”加入我們
聯(lián)系客服