九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
深度學(xué)習(xí)的起源、發(fā)展和現(xiàn)狀

 2016-07-20  11:07:04

1深度學(xué)習(xí)的起源[1]

      人工智能(Artificial Intelligence)就像長生不老和星際漫游一樣,是人類最美好的夢想之一。雖然計(jì)算機(jī)技術(shù)已經(jīng)取得了長足的進(jìn)步,但是到目前為止,還沒有一臺電腦能產(chǎn)生“自我”的意識。計(jì)算機(jī)能夠具有人的意識起源于圖靈測試(Turing Testing)問題的產(chǎn)生,由“計(jì)算機(jī)科學(xué)之父”及“人工智能之父”英國數(shù)學(xué)家阿蘭·圖靈在1950年的一篇著名論文《機(jī)器會思考嗎?》里提出圖靈測試的設(shè)想:

      把一個人和一臺計(jì)算機(jī)分別隔離在兩間屋子,然后讓屋外的一個提問者對兩者進(jìn)行問答測試。如果提問者無法判斷哪邊是人,哪邊是機(jī)器,那就證明計(jì)算機(jī)已具備人的智能。

      但是半個世紀(jì)過去了,人工智能的進(jìn)展,遠(yuǎn)遠(yuǎn)沒有達(dá)到圖靈試驗(yàn)的標(biāo)準(zhǔn)。這不僅讓多年翹首以待的人們心灰意冷,認(rèn)為人工智能是忽悠,相關(guān)領(lǐng)域是“偽科學(xué)”。直到深度學(xué)習(xí)(Deep Learning)的出現(xiàn),讓人們看到了一絲曙光。至少,圖靈測試已不再是那么遙不可及了。2013年4月,《麻省理工學(xué)院技術(shù)評論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)之首。

     了解深度學(xué)習(xí)的起源,首先讓我們先來了解一下人類的大腦是如何工作的。1981年的諾貝爾醫(yī)學(xué)獎,分發(fā)給了David Hubel、Torsten Wiesel和Roger Sperry。前兩位的主要貢獻(xiàn)是,發(fā)現(xiàn)了人的視覺系統(tǒng)的信息處理是分級。如圖1所示,從視網(wǎng)膜(Retina)出發(fā),經(jīng)過低級的V1區(qū)提取邊緣特征,到V2區(qū)的基本形狀或目標(biāo)的局部,再到高層V4的整個目標(biāo)(如判定為一張人臉),以及到更高層的PFC(前額葉皮層)進(jìn)行分類判斷等。也就是說高層的特征是低層特征的組合,從低層到高層的特征表達(dá)越來越抽象和概念化。

       

               

  圖1 人的視覺處理系統(tǒng)

        這個發(fā)現(xiàn)激發(fā)了人們對于神經(jīng)系統(tǒng)的進(jìn)一步思考。大腦的工作過程,是一個對接收信號不斷迭代、不斷抽象概念化的過程,如圖2所示。例如,從原始信號攝入開始(瞳孔攝入像素),接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定眼前物體的形狀,比如是橢圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是張人臉),最后識別人臉。這個過程其實(shí)和我們的常識是相吻合的,因?yàn)閺?fù)雜的圖形,往往就是由一些基本結(jié)構(gòu)組合而成的。同時我們還可以看出:大腦是一個深度架構(gòu),認(rèn)知過程也是深度的。

 

圖2 視覺系統(tǒng)分層處理結(jié)構(gòu)

        而深度學(xué)習(xí),恰恰就是通過組合低層特征形成更加抽象的高層特征(或?qū)傩灶悇e)。例如,在計(jì)算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到一個低層次表達(dá),例如邊緣檢測器、小波濾波器等,然后在這些低層次表達(dá)的基礎(chǔ)上,通過線性或者非線性組合,來獲得一個高層次的表達(dá)。此外,不僅圖像存在這個規(guī)律,聲音也是類似的。

2深度學(xué)習(xí)的發(fā)展

2.1從感知機(jī)到神經(jīng)網(wǎng)絡(luò)

2.1.1 最簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)—感知機(jī)

        1943年,心理學(xué)家Warren Mcculloch和數(shù)理邏輯學(xué)家Walter Pitts在合作的論文[7]中提出并給出了人工神經(jīng)網(wǎng)絡(luò)的概念及人工神神經(jīng)元的數(shù)學(xué)模型,從而開創(chuàng)了人類神經(jīng)網(wǎng)絡(luò)研究的時代。

        1949年,心理學(xué)家Donald Hebb在論文[8]中提出了神經(jīng)心理學(xué)理論,Hebb認(rèn)為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程最終是發(fā)生在神經(jīng)元之間的突觸部位,突觸的聯(lián)結(jié)強(qiáng)度隨著突觸前后神經(jīng)元的活動而變化,變化的量與兩個神經(jīng)元的活性之和成正比。

        1956年,心理學(xué)家Frank Rosenblatt受到這種思想的啟發(fā),認(rèn)為這個簡單想法足以創(chuàng)造一個可以學(xué)習(xí)識別物體的機(jī)器,并設(shè)計(jì)了算法和硬件(如圖3所示)。直到1957年,F(xiàn)rank Rosenblatt在《New York Times》上發(fā)表文章《Electronic ‘Brain’ Teaches Itself》,首次提出了可以模型人類感知能力的機(jī)器,并稱之為感知機(jī)Perceptron)[2]。

 

圖3 Frank Rosenblatt和感知機(jī)的提出

       感知機(jī)是有單層計(jì)算單元的神經(jīng)網(wǎng)絡(luò),由線性元件及閾值元件組成。感知機(jī)的邏輯圖如圖4所示。

 

圖4 感知機(jī)模型

        Frank Rosenblatt對Hebb的理論猜想提出了數(shù)學(xué)論證方法:

感知機(jī)的數(shù)學(xué)模型( 是閾值):

 

其中,f[.]是階躍函數(shù),并且有:

 

感知器的做大作用就是對輸入的樣本分類,故它可以作為分類器,感知器對輸入信號的分類如下(A類,B類):

 

當(dāng)感知器的輸出為1時,輸入樣本為A類;輸出為-1時,輸入樣本為B類。由此可知感知器的分類邊界是:

 

在輸入樣本只有兩個分量x1和x2時,則分類邊界條件:

 

即:

 

從坐標(biāo)軸上表示如圖5所示:

 

圖5 感知機(jī)的二元線性分類

2.1.2感知機(jī)算法

        感知機(jī)的學(xué)習(xí)算法:目的在于計(jì)算出恰當(dāng)?shù)臋?quán)系數(shù)(w1,w2,…,wn),使系統(tǒng)對一個特定的樣本(x1,x2,…,xn)能產(chǎn)生期望值d。

感知機(jī)學(xué)習(xí)算法步驟如下:

1) 對權(quán)系數(shù)設(shè)置初值;

2) 輸入一個樣本(x1,x2,…,xn)以及它的期望輸出d;

3) 計(jì)算實(shí)際輸出值:

 

4) 根據(jù)實(shí)際輸出求誤差e:

e=d-Y 

5) 用誤差e去修改權(quán)系數(shù):

 

6) 轉(zhuǎn)到第2步,一直執(zhí)行到一切樣本均穩(wěn)定為止。

        感知機(jī)是整個神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),神經(jīng)元通過激勵函數(shù)確定輸出,神經(jīng)元之間通過權(quán)值進(jìn)行傳遞能量,權(quán)重的確定根據(jù)誤差來進(jìn)行調(diào)節(jié),這個方法的前景是整個網(wǎng)絡(luò)是收斂的。這個問題,F(xiàn)rank Rosenblatt在1957年證明了這個結(jié)論。

        有關(guān)感知機(jī)的成果,由Frank Rosenblatt在1958年發(fā)表在文章[9]里。1962年,他又出版了[10]一書,向大眾深入解釋感知機(jī)的理論知識及背景假設(shè)。此書介紹了一些重要的概念及定理證明,例如感知機(jī)收斂定理。

2.1.3 單層感知機(jī)的局限性

        單層感知機(jī)僅對線性問題具有分類能力,即僅用一條直線可分的圖形,如圖6所示。還有邏輯“”或邏輯“”,采用一條直線分割0和1,如圖7所示。

 

圖6 線性可分問題

 

(a)邏輯“與”的真值表和二維樣本圖

(b)邏輯“或”的真值表和二維樣本圖

 

圖7邏輯“與”和“或”的線性劃分

       但是,如果讓感知機(jī)解決非線性問題,單層感知機(jī)就無能為力了,如圖8所示。例如,“異或”就是非線性運(yùn)算,無法用一條直線分割開來,如圖9所示。

 

圖8 非線性不可分問題

 

圖9 邏輯“異或”的非線性不可分

2.1.4 多層感知機(jī)的瓶頸[3]

       雖然,感知機(jī)最初被認(rèn)為有著良好的發(fā)展?jié)撃埽歉兄獧C(jī)最終被證明不能處理諸多的模式識別問題。1969年,Marvin Minsky和Seymour Papery在[11]中,仔細(xì)分析了以感知機(jī)為代表的單層感知機(jī)在計(jì)算能力上的局限性,證明感知機(jī)不能解決簡單的異或(XOR)等線性不可分問題,但Rosenblatt和Minsky及Papery等人在當(dāng)時已經(jīng)了解到多層神經(jīng)網(wǎng)絡(luò)能夠解決線性不可分的問題。

       既然一條直線無法解決分類問題,當(dāng)然就會有人想到用彎曲的折線來分類樣本,因此在單層感知機(jī)的輸入層和輸出層之間加入隱藏層,就構(gòu)成了多層感知機(jī),目的是通過凸域能夠正確分類樣本。多層感知機(jī)結(jié)構(gòu)如圖10所示。

 

 

圖10 多層感知機(jī)

 

        對單層感知機(jī)和多層感知機(jī)的分類能力進(jìn)行比較,如表1所示:

 

   

        由表1可知,隨著隱藏層的層數(shù)增多,凸域?qū)⒖梢孕纬扇我獾男螤睿虼丝梢越鉀Q任何復(fù)雜的分類問題。雖然多層感知機(jī)缺失是非常理想的分類器,但是問題也隨之而來:隱藏層的權(quán)值怎么訓(xùn)練?對于各隱層的節(jié)點(diǎn)來說,它們并不存在期望輸出,所以也無法通過感知機(jī)的學(xué)習(xí)規(guī)則來訓(xùn)練多層感知機(jī)。因此,多層感知機(jī)的訓(xùn)練也遇到了瓶頸,人工神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了低潮期。

        通過圖11可見人工神經(jīng)網(wǎng)絡(luò)最初的發(fā)展史。1969年Marvin Minsky和Seymour Papery在[11]一書中提出了上述的感知機(jī)的研究瓶頸,指出理論上還不能證明將感知機(jī)模型擴(kuò)展到多層網(wǎng)絡(luò)是有意義的。這在人工神經(jīng)網(wǎng)絡(luò)的歷史上書寫了及其灰暗的一章。對于ANN的研究,始于1890年開始于美國心理學(xué)家W.James對于人腦結(jié)構(gòu)與功能的研究,半個世紀(jì)后W.S.McCulloch和W.A.Pitts提出了M-P模型,之后的1958年Frank Rosenblatt在這個基礎(chǔ)上又提出了感知機(jī),此時對ANN的演技正處在升溫階段,[11]這本書的出現(xiàn)(1988有所更正并更名為[12])為這剛剛?cè)计鸬娜斯ど窠?jīng)網(wǎng)絡(luò)之火潑了一大盆冷水。一時間人們仿佛感覺以感知機(jī)為基礎(chǔ)的ANN的研究突然走到盡頭。于是,幾乎所有為ANN提供的研究基金都枯竭了,很多領(lǐng)域的專家紛紛放棄了這方面課題的研究。

 

圖11 ANN簡史

2.1.5神經(jīng)網(wǎng)絡(luò)的崛起

       真理的果實(shí)總是垂青于能夠堅(jiān)持研究的科學(xué)家。盡管ANN的研究陷入了前所未有的低谷,但仍有為數(shù)不多的學(xué)者致力于ANN的研究。直到1982年美國加州理工學(xué)院的物理學(xué)家John J.Hopfield博士提出的Hopfield網(wǎng)絡(luò)和David E.Rumelhart以及James L.McCelland研究小組發(fā)表的《并行分布處理》。這兩個成果重新激起了人們對ANN的研究興趣,使人們對模仿腦信息處理的智能計(jì) 算機(jī)的研究重新充滿了希望。

       前者暫不討論,后者對具有非線性連續(xù)變換函數(shù)的多層感知器的誤差反向傳播(Error Back Propagation)算法進(jìn)行了詳盡的分析,實(shí)現(xiàn)了 Minsky 關(guān)于多層網(wǎng)絡(luò)的設(shè)想。誤差反向傳播即反向傳播算法(Backpropagation algorithm,BP)[13]。

       前面我們說到,多層感知器在如何獲取隱層的權(quán)值的問題上遇到了瓶頸。既然我們無法直接得到隱層的權(quán)值,能否先通過輸出層得到輸出結(jié)果和期望輸出的誤差來間接調(diào)整隱層的權(quán)值呢?BP算法就是采用這樣的思想設(shè)計(jì)出來的算法,它的基本思想:學(xué)習(xí)過程由信號的正向傳播誤差的反向傳播兩個過程組成。如圖12所示。

 

圖12 反向傳播的基本思想

 

1) 正向傳播時,輸入樣本從輸入層傳入,經(jīng)各隱層逐層處理后,傳向輸出層。若輸出層的實(shí)際輸出與期望的輸出不符,則轉(zhuǎn)入誤差的反向傳播階段。

2) 反向傳播時,將輸出以某種形式通過隱層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權(quán)值的依據(jù)。

       結(jié)合了BP算法的神經(jīng)網(wǎng)絡(luò)稱為BP神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)路模型中采用反向傳播算法所帶來的問題是:基于局部梯度下降對權(quán)值進(jìn)行調(diào)整容易出現(xiàn)梯度彌散(Gradient Diffusion)現(xiàn)象,根源在于非凸目標(biāo)代價函數(shù)導(dǎo)致求解陷入局部最優(yōu),而不是全局最優(yōu)。而且,隨著網(wǎng)絡(luò)層數(shù)的增多,這種情況會越來越嚴(yán)重。這一問題的產(chǎn)生制約了神經(jīng)網(wǎng)絡(luò)的發(fā)展。

2.2 神經(jīng)網(wǎng)絡(luò)之后的又一突破—深度學(xué)習(xí)

       直至2006年,加拿大多倫多大學(xué)教授Geoffrey Hinton深度學(xué)習(xí)的提出以及模型訓(xùn)練方法的改進(jìn)打破了BP神經(jīng)網(wǎng)絡(luò)發(fā)展的瓶頸。Hinton在世界頂級學(xué)術(shù)期刊《科學(xué)》上的一篇論文[1]中提出了兩個觀點(diǎn):(1)多層人工神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的特征學(xué)習(xí)能力,深度學(xué)習(xí)模型學(xué)習(xí)得到的特征數(shù)據(jù)對原始數(shù)據(jù)有更本質(zhì)的代表性,這將大大便于分類和可視化問題;(2)對于深度神經(jīng)網(wǎng)絡(luò)很難訓(xùn)練達(dá)到最優(yōu)的問題,可以采用逐層訓(xùn)練方法解決。將上層訓(xùn)練好的結(jié)果作為下層訓(xùn)練過程中的初始化參數(shù)。在這一文獻(xiàn)中深度模型的訓(xùn)練過程中逐層初始化采用無監(jiān)督學(xué)習(xí)方式。

       值得一提的是,從感知機(jī)誕生到神經(jīng)網(wǎng)絡(luò)的發(fā)展,再到深度學(xué)習(xí)的萌芽,深度學(xué)習(xí)的發(fā)展并非一帆風(fēng)順。直到2006年,Geoffrey Hinton提出深度置信網(wǎng)(Deep Belief Net:DBN)[2],其由一系列受限波爾茲曼機(jī)(Restricted Boltzmann Machine:RBM)[3]組成,提出非監(jiān)督貪心逐層訓(xùn)練(Layerwise Pre-Training)算法,應(yīng)用效果才取得突破性進(jìn)展,其與之后Ruslan Salakhutdinov提出的深度波爾茲曼機(jī)(Deep Boltzmann Machine:DBM)[4]重新點(diǎn)燃了人工智能領(lǐng)域?qū)τ谏窠?jīng)網(wǎng)絡(luò)(Neural Network)和波爾茲曼機(jī)(Boltzmann Machine)[5]的熱情,才由此掀起了深度學(xué)習(xí)的浪潮。從目前的最新研究進(jìn)展來看,只要數(shù)據(jù)足夠大、隱藏層足夠深,即便不加“Pre-Training”預(yù)處理,深度學(xué)習(xí)也可以取得很好的結(jié)果,反映了大數(shù)據(jù)和深度學(xué)習(xí)相輔相成的內(nèi)在聯(lián)系。此外,雖說非監(jiān)督(如DBM方法)是深度學(xué)習(xí)的一個優(yōu)勢,深度學(xué)習(xí)當(dāng)然也可用于帶監(jiān)督的情況(也即給予了用戶手動標(biāo)注的機(jī)會),實(shí)際上帶監(jiān)督的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network:CNN)[6]方法目前就應(yīng)用得越來越多,乃至正在超越DBM。

       深度學(xué)習(xí)是一列在信息處理階段利用非監(jiān)督特征學(xué)習(xí)和模型分析分類功能的,具有多層分層體系結(jié)構(gòu)的機(jī)器學(xué)習(xí)技術(shù)。深度學(xué)習(xí)的本質(zhì)是對觀察數(shù)據(jù)進(jìn)行分層特征表示,實(shí)現(xiàn)將低級特征進(jìn)一步抽象成高級特征表示。

       深度學(xué)習(xí)可以分為三類:(1)生成型深度結(jié)構(gòu):生成型深度結(jié)構(gòu)旨在模式分析過程中描述觀察到的課件數(shù)據(jù)的高階相關(guān)屬性,或者描述課件數(shù)據(jù)和其相關(guān)類別的聯(lián)合概率分布。由于不關(guān)心數(shù)據(jù)的標(biāo)簽,人們經(jīng)常使用非監(jiān)督特征學(xué)習(xí)。當(dāng)應(yīng)用生成模型結(jié)構(gòu)到模式識別中時,一個重要的任務(wù)就是預(yù)訓(xùn)練。但是當(dāng)訓(xùn)練數(shù)據(jù)有限時,學(xué)習(xí)較低層的網(wǎng)絡(luò)是困難的。因此,一般采用先學(xué)習(xí)每一個較低層,然后在學(xué)習(xí)較高層的方式,通過貪婪地逐層訓(xùn)練,實(shí)現(xiàn)從底向上分層學(xué)習(xí)。屬于生成型深度結(jié)構(gòu)的深度學(xué)習(xí)模型有:自編碼器、受限玻爾茲曼機(jī)、深度置信網(wǎng)絡(luò)等。(2)判別型深度結(jié)構(gòu):判別型深度結(jié)構(gòu)的目的是通過描述可見數(shù)據(jù)的類別的后驗(yàn)概率分布為模式分類提供辨別力。屬于判別型深度結(jié)構(gòu)的深度學(xué)習(xí)模型主要有卷積神經(jīng)網(wǎng)絡(luò)和深凸網(wǎng)絡(luò)等。(3)混合型深度結(jié)構(gòu):混合型深度結(jié)構(gòu)的目的是對數(shù)據(jù)進(jìn)行判別,是一種包含了生成和判別兩部分結(jié)構(gòu)的模型。在應(yīng)用生成型深度結(jié)構(gòu)解決分類問題時,因?yàn)楝F(xiàn)有的生成型結(jié)構(gòu)大多數(shù)都是用于對數(shù)據(jù)的判別,可以結(jié)合判別型模型在預(yù)訓(xùn)練階段對網(wǎng)絡(luò)的所有權(quán)值進(jìn)行優(yōu)化。例如通過深度置信網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練后的深度神經(jīng)網(wǎng)絡(luò)。

3 什么是深度學(xué)習(xí)

       深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)算法研究中的一個新的技術(shù),其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)是相對于簡單學(xué)習(xí)而言的,目前多數(shù)分類、回歸等學(xué)習(xí)算法都屬于簡單學(xué)習(xí)或者淺層結(jié)構(gòu),淺層結(jié)構(gòu)通常只包含1層或2層的非線性特征轉(zhuǎn)換層,典型的淺層結(jié)構(gòu)有高斯混合模型(GMM)、隱馬爾科夫模型(HMM)、條件隨機(jī)域(CRF)、最大熵模型(MEM)、邏輯回歸(LR)、支持向量機(jī)(SVM)和多層感知器(MLP)。(其中,最成功的分類模型是SVM,SVM使用一個淺層線性模式分離模型,當(dāng)不同類別的數(shù)據(jù)向量在低維空間無法劃分時,SVM會將它們通過核函數(shù)映射到高維空間中并尋找分類最優(yōu)超平面。)淺層結(jié)構(gòu)學(xué)習(xí)模型的相同點(diǎn)是采用一層簡單結(jié)構(gòu)將原始輸入信號或特征轉(zhuǎn)換到特定問題的特征空間中。淺層模型的局限性對復(fù)雜函數(shù)的表示能力有限,針對復(fù)雜分類問題其泛化能力受到一定的制約,比較難解決一些更加復(fù)雜的自然信號處理問題,例如人類語音和自然圖像等。深度學(xué)習(xí)可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),表征輸入數(shù)據(jù),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。

       深度學(xué)習(xí)可以簡單理解為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的拓展。如圖13所示,深度學(xué)習(xí)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)之間有相同的地方,二者的相同之處在于,深度學(xué)習(xí)采用了與神經(jīng)網(wǎng)絡(luò)相似的分層結(jié)構(gòu):系統(tǒng)是一個包括輸入層、隱層(可單層、可多層)、輸出層的多層網(wǎng)絡(luò),只有相鄰層的節(jié)點(diǎn)之間有連接,而同一層以及跨層節(jié)點(diǎn)之間相互無連接。

 

 

圖13 傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)

 

        深度學(xué)習(xí)框架將特征和分類器結(jié)合到一個框架中,用數(shù)據(jù)去學(xué)習(xí)特征,在使用中減少了手工設(shè)計(jì)特征的巨大工作量??此囊粋€別名:無監(jiān)督特征學(xué)習(xí)(Unsupervised Feature Learning),就可以顧名思義了。無監(jiān)督(Unsupervised)學(xué)習(xí)的意思就是不需要通過人工方式進(jìn)行樣本類別的標(biāo)注來完成學(xué)習(xí)。因此,深度學(xué)習(xí)是一種可以自動地學(xué)習(xí)特征的方法。(準(zhǔn)確地說,深度學(xué)習(xí)首先利用無監(jiān)督學(xué)習(xí)對每一層進(jìn)行逐層預(yù)訓(xùn)練(Layerwise Pre-Training)去學(xué)習(xí)特征;每次單獨(dú)訓(xùn)練一層,并將訓(xùn)練結(jié)果作為更高一層的輸入;然后到最上層改用監(jiān)督學(xué)習(xí)從上到下進(jìn)行微調(diào)(Fine-Tune)去學(xué)習(xí)模型。)

       深度學(xué)習(xí)通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),只需簡單的網(wǎng)絡(luò)結(jié)構(gòu)即可實(shí)現(xiàn)復(fù)雜函數(shù)的逼近,并展現(xiàn)了強(qiáng)大的從大量無標(biāo)注樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。深度學(xué)習(xí)能夠獲得可更好地表示數(shù)據(jù)的特征,同時由于模型的層次深(通常有5層、6層,甚至10多層的隱藏層節(jié)點(diǎn))、表達(dá)能力強(qiáng),因此有能力表示大規(guī)模數(shù)據(jù)。對于圖像、語音這種特征不明顯(需要手工設(shè)計(jì)且很多沒有直觀的物理含義)的問題,深度模型能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果。相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)作出了重大的改進(jìn),在訓(xùn)練上的難度(如梯度彌散問題)可以通過“逐層預(yù)訓(xùn)練”來有效降低。

      值的注意的是,深度學(xué)習(xí)不是萬能的,像很多其他方法一樣,它需要結(jié)合特定領(lǐng)域的先驗(yàn)知識,需要和其他模型結(jié)合才能得到最好的結(jié)果。此外,類似于神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)的另一局限性是可解釋性不強(qiáng),像個“黑箱子”一樣不知為什么能取得好的效果,以及不知如何有針對性地去具體改進(jìn),而這有可能成為產(chǎn)品升級過程中的阻礙。

      近年來,深度學(xué)習(xí)的發(fā)展逐漸成熟。2012年6月,《紐約時報(bào)》披露了Google Brain項(xiàng)目,吸引了公眾的廣泛關(guān)注。這個項(xiàng)目是由著名的斯坦福大學(xué)的機(jī)器學(xué)習(xí)教授Andrew Ng和在大規(guī)模計(jì)算機(jī)系統(tǒng)方面的世界頂尖專家Jeff Dean共同主導(dǎo),用16,000個CPU Core的并行計(jì)算平臺去訓(xùn)練含有10億個節(jié)點(diǎn)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),使其能夠自我訓(xùn)練,對2萬個不同物體的1,400萬張圖片進(jìn)行辨識。在開始分析數(shù)據(jù)前,并不需要向系統(tǒng)手工輸入任何諸如“臉、肢體、貓的長相是什么樣子”這類特征。Jeff Dean說:“我們在訓(xùn)練的時候從來不會告訴機(jī)器:‘這是一只貓’(即無標(biāo)注樣本)。系統(tǒng)其實(shí)是自己發(fā)明或領(lǐng)悟了‘貓’的概念。

      2014年3月,同樣也是基于深度學(xué)習(xí)方法,F(xiàn)acebook的DeepFace項(xiàng)目使得人臉識別技術(shù)的識別率已經(jīng)達(dá)到了97.25%,只比人類識別97.5%的正確率略低那么一點(diǎn)點(diǎn),準(zhǔn)確率幾乎可媲美人類。該項(xiàng)目利用了9層的神經(jīng)網(wǎng)絡(luò)來獲得臉部表征,神經(jīng)網(wǎng)絡(luò)處理的參數(shù)高達(dá)1.2億。

      以及2016年3月人工智能圍棋比賽,由位于英國倫敦的谷歌(Google)旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團(tuán)隊(duì)開發(fā)的AlphaGo戰(zhàn)勝了世界圍棋冠軍、職業(yè)九段選手李世石,并以4:1的總比分獲勝。AlphaGo的主要工作原理就是深度學(xué)習(xí),通過兩個不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來改進(jìn)下棋:第一大腦:落子選擇器 (Move Picker)和第二大腦:棋局評估器 (Position Evaluator)。這些大腦是多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識別圖片在結(jié)構(gòu)上是相似的。它們從多層啟發(fā)式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網(wǎng)絡(luò)處理圖片一樣。經(jīng)過過濾,13個完全連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

4深度學(xué)習(xí)的研究現(xiàn)狀

       深度學(xué)習(xí)極大地促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展,收到世界各國相關(guān)領(lǐng)域研究人員和高科技公司的重視,語音、圖像和自然語言處理是深度學(xué)習(xí)算法應(yīng)用最廣泛的三個主要研究領(lǐng)域:

4.1深度學(xué)習(xí)在語音識別領(lǐng)域研究現(xiàn)狀

      長期以來,語音識別系統(tǒng)大多是采用高斯混合模型(GMM)來描述每個建模單元的概率模型。由于這種模型估計(jì)簡單,方便使用大規(guī)模數(shù)據(jù)對其訓(xùn)練,該模型有較好的區(qū)分度訓(xùn)練算法,保證了該模型能夠很好的訓(xùn)練。在很長時間內(nèi)占據(jù)了語音識別應(yīng)用領(lǐng)域主導(dǎo)性地位。但是GMM實(shí)質(zhì)上一種淺層學(xué)習(xí)網(wǎng)絡(luò)模型,特征的狀態(tài)空間分布不能夠被充分描述。而且,使用GMM建模數(shù)據(jù)的特征為數(shù)通常只有幾十維,這使得特征之間的相關(guān)性不能被充分描述。最后GMM建模實(shí)質(zhì)上是一種似然概率建模方式,即使一些模式分類之間的區(qū)分性能夠通過區(qū)分度訓(xùn)練模擬得到,但是效果有限。

      從2009年開始,微軟亞洲研究院的語音識別專家們和深度學(xué)習(xí)領(lǐng)軍人物Hinton合作。2011年微軟公司推出基于深度神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng),這一成果將語音識別領(lǐng)域已有的技術(shù)框架完全改變。采用深度神經(jīng)網(wǎng)絡(luò)后,樣本數(shù)據(jù)特征間相關(guān)性信息得以充分表示,將連續(xù)的特征信息結(jié)合構(gòu)成高維特征,通過高維特征樣本對深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。由于深度神經(jīng)網(wǎng)絡(luò)采用了模擬人腦神經(jīng)架構(gòu),通過逐層的進(jìn)行數(shù)據(jù)特征提取,最終得到適合進(jìn)行模式分類處理的理想特征。

4.2深度學(xué)習(xí)在圖像識別領(lǐng)域研究現(xiàn)狀

      對于圖像的處理是深度學(xué)習(xí)算法最早嘗試應(yīng)用的領(lǐng)域。早在1989年,加拿大多倫多大學(xué)教授Yann LeCun就和他的同事提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)它是一種包含卷積層的深度神經(jīng)網(wǎng)絡(luò)模型。通常一個卷機(jī)神經(jīng)網(wǎng)絡(luò)架構(gòu)包含兩個可以通過訓(xùn)練產(chǎn)生的非線性卷積層,兩個固定的子采樣層和一個全連接層,隱藏層的數(shù)量一般至少在5個以上。CNN的架構(gòu)設(shè)計(jì)是受到生物學(xué)家Hube和Wiesel的動物視覺模型啟發(fā)而發(fā)明的,尤其是模擬動物視覺皮層的V1層和V2層中簡單細(xì)胞和復(fù)雜細(xì)胞在視覺系統(tǒng)的功能。起初卷積神經(jīng)網(wǎng)絡(luò)在小規(guī)模的問題上取得了當(dāng)時世界最好成果。但是在很長一段時間里一直沒有取得重大突破。主要原因是卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在大尺寸圖像上一直不能取得理想結(jié)果,比如對于像素?cái)?shù)很大的自然圖像內(nèi)容的理解,這使得它沒有引起計(jì)算機(jī)視覺研究領(lǐng)域足夠的重視。2012年10月,Hinton教授以及他的學(xué)生采用更深的卷神經(jīng)網(wǎng)絡(luò)模型在著名的ImageNet問題上取得了世界最好結(jié)果,使得對于圖像識別的領(lǐng)域研究更進(jìn)一步。

      自卷積神經(jīng)網(wǎng)絡(luò)提出以來,在圖像識別問題上并沒有取得質(zhì)的提升和突破,直到2012年Hinton構(gòu)建深度神經(jīng)網(wǎng)絡(luò)才去的驚人的成果。這主要是因?yàn)閷λ惴ǖ母倪M(jìn),在網(wǎng)絡(luò)的訓(xùn)練中引入了權(quán)重衰減的概念,有效的減小權(quán)重幅度,防止網(wǎng)絡(luò)過擬合。更關(guān)鍵的是計(jì)算機(jī)計(jì)算能力的提升,GPU加速技術(shù)的發(fā)展,使得在訓(xùn)練過程中可以產(chǎn)生更多的訓(xùn)練數(shù)據(jù),使網(wǎng)絡(luò)能夠更好的擬合訓(xùn)練數(shù)據(jù)。2012年國內(nèi)互聯(lián)網(wǎng)巨頭百度公司將相關(guān)最新技術(shù)成功應(yīng)用到人臉識別和自然圖像識別問題,并推出相應(yīng)的產(chǎn)品?,F(xiàn)在的深度學(xué)習(xí)網(wǎng)絡(luò)模型已經(jīng)能夠理解和識別一般的自然圖像。深度學(xué)習(xí)模型不僅大幅提高了圖像識別的精度,同時也避免了需要消耗大量時間進(jìn)行人工特征的提取,使得在線運(yùn)行效率大大提升。

4.3深度學(xué)習(xí)在自然語言處理領(lǐng)域研究現(xiàn)狀

     自然語言處理問題是深度學(xué)習(xí)在除了語音和圖像處理之外的另一個重要的應(yīng)用領(lǐng)域。數(shù)十年以來,自然語言處理的主流方法是基于統(tǒng)計(jì)的模型,人工神經(jīng)網(wǎng)絡(luò)也是基于統(tǒng)計(jì)方法模型之一,但在自然語言處理領(lǐng)域卻一直沒有被重視。語言建模時最早采用神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語言處理的問題。美國NEC研究院最早將深度學(xué)習(xí)引入到自然語言處理研究中,其研究院從2008年起采用將詞匯映射到一維矢量空間和多層一維卷積結(jié)構(gòu)去解決詞性標(biāo)注、分詞、命名實(shí)體識別和語義角色標(biāo)注四個典型的自然語言處理問題。他們構(gòu)建了一個網(wǎng)絡(luò)模型用于解決四個不同問題,都取得了相當(dāng)精確的結(jié)果。總體而言,深度學(xué)習(xí)在自然語言處理上取得的成果和在圖像語音識別方面相差甚遠(yuǎn),仍有待深入研究。

參考文獻(xiàn)

[1] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

[2] Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.

[3] Salakhutdinov R, Mnih A, Hinton G. Restricted Boltzmann machines for collaborative filtering[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 791-798.

[4] Salakhutdinov R, Hinton G E. Deep Boltzmann Machines[C]//AISTATS. 2009, 1: 3.

[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for Boltzmann machines[J]. Cognitive science, 1985, 9(1): 147-169.

[6] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[7] McCulloch W S, Pitts W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5(4): 115-133.

[8] Hebb D. 0.(1949) The organization of behavior[J]. 1968.

[9] Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain[J]. Psychological review, 1958, 65(6): 386.

[10] Orbach J. Principles of Neurodynamics. Perceptrons and the Theory of Brain Mechanisms[J]. Archives of General Psychiatry, 1962, 7(3): 218-219.

[11] Minsky M, Papert S. Perceptrons[J]. 1969.

[12] Minsky M L, Papert S A. Perceptrons (expanded edition) MIT Press[J]. Cam-bridge, Mass, 1988.

[13] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Cognitive modeling, 1988, 5(3): 1.

參考網(wǎng)頁

[1] http://blog.csdn.net/tiandijun/article/details/25184947

[2] http://www.cnblogs.com/GarfieldEr007/p/5517387.html

[3] http://blog.csdn.net/chinabhlt/article/details/44137987

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
深入淺出談?wù)勆疃葘W(xué)習(xí)~
Deep Learning(深度學(xué)習(xí))之(二)Deep Learning的基本思想
大話深度信念網(wǎng)絡(luò)(DBN)
關(guān)于深度學(xué)習(xí),這些知識點(diǎn)你需要了解一下
數(shù)據(jù)挖掘干貨總結(jié)(十)
講真,你應(yīng)該了解的機(jī)器學(xué)習(xí)40年發(fā)展史
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服