中國(guó)人工智能資訊智庫(kù)社交主平臺(tái)新智元主辦的 AI WORLD 2017 世界人工智能大會(huì)11月8日在北京國(guó)家會(huì)議中心舉行,大會(huì)以“AI 新萬象,中國(guó)智能+”為主題,上百位AI領(lǐng)袖作了覆蓋技術(shù)、學(xué)術(shù)和產(chǎn)業(yè)最前沿的報(bào)告和討論,2000多名業(yè)內(nèi)人士參會(huì)。新智元?jiǎng)?chuàng)始人兼CEO楊靜在會(huì)上發(fā)布全球首個(gè)AI專家互動(dòng)資訊平臺(tái)“新智元V享圈”。
全程回顧新智元AI World 2017世界人工智能大會(huì)盛況:
新智元推薦
【新智元導(dǎo)讀】本文簡(jiǎn)單的介紹了神經(jīng)網(wǎng)絡(luò)近50年的發(fā)展歷程,從1968年的Hubel和Wiesel開展的貓實(shí)驗(yàn),一直到李飛飛教授等人的成果。從本質(zhì)上講解了人工神經(jīng)網(wǎng)絡(luò)的原理及學(xué)習(xí)過程,對(duì)于想了解神經(jīng)網(wǎng)絡(luò)起源及發(fā)展歷程的讀者而言,是一篇較為合適的文章。
如何像人類大腦一樣完成一項(xiàng)視覺任務(wù)是復(fù)雜的,比如深度感知、目標(biāo)跟蹤、邊緣檢測(cè)等,而掃描環(huán)境和定位是大腦經(jīng)常做的事情,這些都被人們認(rèn)為是理所當(dāng)然的事情。在過去某段時(shí)間里,研究者們可能從來沒有想過創(chuàng)建類似人類大腦處理任務(wù)一樣的系統(tǒng)。然而,在過去的50年中,我們已經(jīng)從神經(jīng)科學(xué)中看似一些小的突破轉(zhuǎn)向能夠描述圖片中場(chǎng)景的“電腦”。
在神經(jīng)科學(xué)課程教學(xué)過程中,有很多趣聞發(fā)生以幫助同學(xué)們更好地理解大腦是如何工作的。比如Phineas Gauge是一名美國(guó)的鐵路工人,在某次施工時(shí)遭遇爆炸事故,被一根鐵棍擊穿頭顱,幸運(yùn)的是他活了下來,但是他的左額葉皮質(zhì)受到損傷,導(dǎo)致語言障礙,同時(shí)也影響其生理性格;還有Britten的論文描述大腦何時(shí)再混亂的移動(dòng)點(diǎn)鐘發(fā)現(xiàn)信號(hào)。所有這些零碎的研究開始加深我們對(duì)大腦如何工作的理解。
還有類似的一個(gè)例子,為人類視覺和計(jì)算機(jī)視覺的大量研究奠定了基礎(chǔ),那就是著名的Hubel和Wiesel的研究。由于二人在心理學(xué)上的突出貢獻(xiàn),獲得了1981年的諾貝爾和平獎(jiǎng),此外他們?cè)谝曈X系統(tǒng)的信息處理方面也獲得了突破性的發(fā)現(xiàn)。他們打響了研究神經(jīng)元的第一槍,他們通過連接一個(gè)電極到一個(gè)神經(jīng)元上,就能夠聽到神經(jīng)元對(duì)一條光的刺激作出的反應(yīng)。他們對(duì)V1大腦皮層神經(jīng)元的工作原理有了新的了解,這是令人興奮的新認(rèn)識(shí),該研究有助于闡明V1神經(jīng)元的映射和相關(guān)功能。
在下面的視頻中,演示了 V1神經(jīng)元是如何對(duì)待位置和角度的光條做出反應(yīng)的,當(dāng)光條移動(dòng)時(shí),就會(huì)有裂紋,這表明你聽到貓的神經(jīng)元對(duì)刺激做出的反應(yīng)。
視頻://v.youku.com/v_show/id_XNDc0MTg0NzA4.html?spm=5176.100239.blogcont241263.10.nADySV
通過這個(gè)實(shí)驗(yàn),他們演示了幾種類型的神經(jīng)元只有在某些刺激下是如何被激活的,另一個(gè)有趣的特征是細(xì)胞似乎自然地映射到不同角度,如下圖所示,V1的每一部分都包含一組非常特殊的神經(jīng)元,這些神經(jīng)元通常對(duì)特定角度的光條作出反應(yīng)。
這些細(xì)胞的反應(yīng)以某種方式結(jié)合起來,理論上能夠創(chuàng)建一個(gè)自下向上的自然世界形象,也就是說,通過接收許多神經(jīng)元對(duì)各種光條的反應(yīng),人類大腦開始繪制出周圍的圖景。
一晃近30年過去了,江山代有才人出,時(shí)代屬于Olshausen和David JField二位研究者。兩位研究人員都專注于計(jì)算神經(jīng)科學(xué)領(lǐng)域,這個(gè)領(lǐng)域主要是研究大腦如何編碼和解碼信息,并推動(dòng)了這個(gè)領(lǐng)域相關(guān)工作的進(jìn)一步發(fā)展。事實(shí)上,他們?cè)谧约旱墓ぷ髦幸昧薍ubel和Wiesel的研究成果。此外,他們不只是注重單一的光條,還拍攝了照片,開始研究如何通過算法識(shí)別和編碼圖像內(nèi)部的特征。
他們?cè)?996年(20多年前)寫的一篇叫做自然圖像統(tǒng)計(jì)和高效編碼,本文的目的是討論在圖像識(shí)別應(yīng)用中失敗的Hebbian學(xué)習(xí)模型。具體來說,Hebbian學(xué)習(xí)算法利用了主成分分析算法學(xué)習(xí),但存在的問題是,該模型不能同時(shí)學(xué)習(xí)定位、定向以及帶通結(jié)構(gòu)來繪制自然圖像。從理論上講,該模型部分源自于Hubel和Wiesel在關(guān)的研究成果,除此之外,對(duì)192個(gè)神經(jīng)元的輸出進(jìn)行了建模。
他們的研究表明,在對(duì)自然圖像客觀存在的規(guī)律進(jìn)行編碼時(shí),模型的建立更多地側(cè)重于稀疏性會(huì)使得模型更有效。
使用一個(gè)稀疏模型,該模型限制每個(gè)基函數(shù)列表所需的系數(shù)數(shù)目,來表示一個(gè)圖像中的各種特征,由下式證明:
其主體部分是為了找到實(shí)際圖像和函數(shù)表示圖像之間的最低平均誤差。
然后與代價(jià)函數(shù)一起迫使算法限制表示圖像表示所需的系數(shù)數(shù)量。
使用梯度下降算法最大限度地減少表示圖像所需的系數(shù)數(shù)量,但是該篇論文自身還沒有顯示出能夠?qū)⑻卣鬓D(zhuǎn)化為圖像的神經(jīng)網(wǎng)絡(luò)。
在1991年,互聯(lián)網(wǎng)剛剛普及。現(xiàn)在科學(xué)已經(jīng)從檢測(cè)貓的神經(jīng)元對(duì)光條刺激的反應(yīng)轉(zhuǎn)到神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,該模型能夠輸出圖像的實(shí)際特征。在1996年的那篇論文中,最后一行是“未來一項(xiàng)重要而令人興奮的挑戰(zhàn)將是如何將這些原理推理到更高級(jí)的皮層視覺領(lǐng)域以提供預(yù)測(cè)”。這是一個(gè)挑戰(zhàn),通過利用低級(jí)的特,然后創(chuàng)建一個(gè)自下而上的網(wǎng)絡(luò)模型來真正地預(yù)測(cè)一副圖像。
Olshausen等人的模型類似于上圖,如果你對(duì)深度學(xué)習(xí)了解的話,那么對(duì)這個(gè)輸出低級(jí)特征的矩陣看起來是不是非常熟悉。
在過去的幾年中,很多論文都使用了與上圖非常相似的矩陣,這些矩陣被用作卷積神經(jīng)網(wǎng)絡(luò)的卷積層??梢园l(fā)現(xiàn),這應(yīng)該是模擬單個(gè)神經(jīng)元對(duì)視覺刺激的反應(yīng)方式。
此時(shí)此刻,利用這些低層次的特征來預(yù)測(cè)圖像的實(shí)際背景不再是Olshausen等人論文中的最后一行中的理論猜想,這在今天變成了現(xiàn)實(shí)。
這同時(shí)也說明了神經(jīng)元能夠識(shí)別光條的原因,神經(jīng)網(wǎng)絡(luò)可以利用低層次的特征預(yù)測(cè)圖像所包含的信息。2015年斯坦福大學(xué)的Andrej Karpathy和李飛飛發(fā)表了一篇關(guān)于這一問題的重要論文——Deep Visual-Semantic Alignments for Generating Image Descriptions。在這篇論文中,演示了通過一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)能夠詳細(xì)描述圖像,如下圖所示,不僅僅只是指出了圖片中有一只貓或一只狗,而且能夠詳細(xì)描述圖像內(nèi)容,比如“男孩在尾板上做后空翻”等。雖然現(xiàn)在它并不完美,但它相較于1968年而言,仍是一個(gè)跨越式的發(fā)展!
從1968年到現(xiàn)在,這是一個(gè)漫長(zhǎng)的發(fā)展過程。本文引用的論文從1968年開始到2015結(jié)束都快有50年的時(shí)間。然而,從大局來看,神經(jīng)網(wǎng)絡(luò)的發(fā)展只會(huì)越來越快,它不僅僅只是用來識(shí)別圖像,還被用于醫(yī)學(xué)圖像的癌癥檢測(cè)、預(yù)測(cè)人類的情感表達(dá)、自動(dòng)駕駛等等各個(gè)領(lǐng)域。
接下來的50年里,計(jì)算機(jī)視覺的發(fā)展前景如何?歡迎廣大讀者留言發(fā)表自己的看法。
作者信息
SeattleDataGuy,軟件工程師,專注于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及數(shù)據(jù)科學(xué)。
本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區(qū)組織翻譯。
聯(lián)系客服