編者的話:
本期文章” Deep learning”發(fā)表在2015年5月的《Nature》期刊上,是由深度學(xué)習(xí)領(lǐng)域最為知名的學(xué)者Yann LeCun、Yoshua Bengio和Geoffrey Hinton首次合作的綜述文章。
2016年初,阿爾法狗(AlphaGo)擊敗李世石,也讓深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)名聲大噪。然而不為人知的是,在相當(dāng)長(zhǎng)的一段時(shí)期內(nèi),神經(jīng)網(wǎng)絡(luò)經(jīng)歷了非常曲折的發(fā)展過(guò)程。尤其是從90年代開始,機(jī)器學(xué)習(xí)領(lǐng)域中向量機(jī)(SVM),可學(xué)習(xí)理論(Boosting),概率圖模型(Graphical Model)等研究的興起,導(dǎo)致大量研究人員的轉(zhuǎn)向,神經(jīng)網(wǎng)絡(luò)的研究一度陷入停滯。而在神經(jīng)網(wǎng)絡(luò)研究最困難的時(shí)期,正是本文作者Yann LeCun、Yoshua Bengio和Geoffrey Hinton等少數(shù)學(xué)者的堅(jiān)持,使人們真正認(rèn)識(shí)到深度學(xué)習(xí)的價(jià)值,也讓深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究迎來(lái)了更加光明的時(shí)代。
因內(nèi)容較多,關(guān)于深度學(xué)習(xí)淺談,我們也會(huì)分上下兩期進(jìn)行介紹。上期就深度學(xué)習(xí)的概念進(jìn)行介紹,下期針對(duì)深度學(xué)習(xí)的種類進(jìn)行討論。
深度學(xué)習(xí)淺談(上)
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,它基于神經(jīng)網(wǎng)絡(luò)框架,通過(guò)模擬人腦學(xué)習(xí)的方式的來(lái)處理數(shù)據(jù),通過(guò)神經(jīng)網(wǎng)絡(luò)的分層處理,將低層特征組合形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
Geoffrey Hinton于2006年在《Science》上發(fā)表的論文首次提出深度學(xué)習(xí)的主要觀點(diǎn):
1)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;
2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過(guò)“逐層初始化”(layer-wise pre-training)來(lái)有效克服,逐層初始化可通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)。
機(jī)器學(xué)習(xí)的關(guān)鍵在于對(duì)對(duì)象特征的處理。因此幾十年來(lái),人工智能領(lǐng)域一直想要構(gòu)建一個(gè)模式識(shí)別系統(tǒng)或者機(jī)器學(xué)習(xí)系統(tǒng),比如分類器,將原始數(shù)據(jù)的外部屬性(如圖像的像素值)轉(zhuǎn)換成一個(gè)合適的內(nèi)部特征表示或特征向量,來(lái)對(duì)輸入的樣本進(jìn)行檢測(cè)或分類。但是這樣的處理方式需要相當(dāng)專業(yè)的知識(shí)來(lái)手工獲取特征。深度學(xué)習(xí)的優(yōu)點(diǎn)在于,它用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和分層特征提取的高效算法來(lái)替代手工獲取特征的方式。因此該文章的作者Yann LeCun、Yoshua Bengio、Geoffrey Hinton(2015)將深度學(xué)習(xí)定義為“一種特征學(xué)習(xí)方法,把原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的但是非線性的模型轉(zhuǎn)變成為更高層次的,更加抽象的表達(dá)。通過(guò)足夠多的轉(zhuǎn)換的組合,非常復(fù)雜的函數(shù)也可以被學(xué)習(xí)”。
從2012年取得ImageNet競(jìng)賽的標(biāo)志性事件之后,深度學(xué)習(xí)不斷取得一系列的重大進(jìn)展,解決了人工智能界的盡最大努力很多年仍沒(méi)有進(jìn)展的問(wèn)題,除了在圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域打破了紀(jì)錄,還在其他的領(lǐng)域擊敗了其他機(jī)器學(xué)習(xí)技術(shù),包括預(yù)測(cè)潛在的藥物分子的活性、分析粒子加速器數(shù)據(jù)、重建大腦回路、預(yù)測(cè)非編碼DNA突變對(duì)基因表達(dá)和疾病的影響。更令人驚訝的是,深度學(xué)習(xí)在自然語(yǔ)言理解的各項(xiàng)任務(wù)中也有非??上驳某晒?,特別是主題分類、情感分析、自動(dòng)問(wèn)答和語(yǔ)言翻譯。如今深度學(xué)習(xí)已經(jīng)成為人工智能中最炙手可熱的研究方向。深度學(xué)習(xí)的原理為何?又能夠取得如此突破?本文希望結(jié)合本次推送的文章,通過(guò)對(duì)深度學(xué)習(xí)的大致介紹,讓讀者對(duì)深度學(xué)習(xí)主要的原理和方法有一個(gè)基本的認(rèn)識(shí)。
機(jī)器學(xué)習(xí)中,不論是否是深層,最常見的形式是監(jiān)督學(xué)習(xí)。如果要建立一個(gè)分類系統(tǒng),對(duì)包含了一座房子、一輛汽車、一個(gè)人或一個(gè)寵物的圖像進(jìn)行分類,首先要收集大量的房子,汽車,人與寵物的圖像的數(shù)據(jù)集,并對(duì)每個(gè)對(duì)象標(biāo)上它的類別。在訓(xùn)練期間,機(jī)器會(huì)獲取一副圖片,然后產(chǎn)生一個(gè)輸出,這個(gè)輸出以向量形式的分?jǐn)?shù)來(lái)表示,每個(gè)類別都有一個(gè)這樣的向量。
圖 1 特征提取
為了最終完成分類的目標(biāo),我們必須去提取被分類對(duì)象的特征來(lái)區(qū)分這些對(duì)象,比如在對(duì)摩托車進(jìn)行分類識(shí)別時(shí)(如圖1),傳統(tǒng)的識(shí)別方法是將特征提取和分類器設(shè)計(jì)分開處理,然后在應(yīng)用時(shí)合二為一。因此首先需要提取圖中摩托車的特征,然后把提取出來(lái)的特征放到學(xué)習(xí)算法中。良好的特征提取,對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用,直接決定了系統(tǒng)的計(jì)算和測(cè)試的效果。但是,這樣的處理方式導(dǎo)致了兩方面的問(wèn)題,一方面,在傳統(tǒng)的數(shù)據(jù)挖掘方法中,特征的選擇一般都是通過(guò)手工完成的,手工選取的好處是可以借助人的經(jīng)驗(yàn)或者專業(yè)知識(shí)選擇出正確的特征;缺點(diǎn)是效率低,而且在復(fù)雜的問(wèn)題中,人工選擇可能也會(huì)陷入困惑。另一方面,許多機(jī)器學(xué)習(xí)技術(shù)使用的是線性分類器來(lái)對(duì)人工提取的特征進(jìn)行分類。在圖像和語(yǔ)音識(shí)別過(guò)程中,線性分類器需要的輸入-輸出函數(shù)要對(duì)輸入樣本中不相關(guān)因素的變化不要過(guò)于的敏感,如位置的變化,目標(biāo)的方向或光照,或者語(yǔ)音中音調(diào)或語(yǔ)調(diào)的變化等,而對(duì)于一些特定的微小變化需要非常敏感(例如,一只白色的狼和跟狼類似的白色狗——薩莫耶德犬之間的差異)。在像素這一級(jí)別上,兩條薩莫耶德犬在不同的姿勢(shì)和在不同的環(huán)境下的圖像可以說(shuō)差異是非常大的,但是一只薩摩耶德犬和一只狼在相同的位置并在相似背景下的兩個(gè)圖像可能就非常類似。
如何區(qū)分對(duì)象細(xì)微和本質(zhì)的特征上的差別呢?深度學(xué)習(xí)從人腦視覺神經(jīng)的處理機(jī)制中獲得了靈感。
圖 2 大腦視覺處理機(jī)制
1958年,兩位后來(lái)的諾貝爾醫(yī)學(xué)獎(jiǎng)得主DavidHubel 和Torsten Wiesel 發(fā)現(xiàn):大腦的視覺系統(tǒng)在處理視網(wǎng)膜傳遞過(guò)來(lái)的感官信息時(shí),并未直接地對(duì)數(shù)據(jù)進(jìn)行處理,而是將接收到的刺激信號(hào)通過(guò)一個(gè)復(fù)雜的層狀網(wǎng)絡(luò)模型,進(jìn)而得到對(duì)視覺信息的認(rèn)識(shí)(如圖2)。 例如,當(dāng)人在看到氣球的時(shí)候,大腦所獲取的信息并不是一張完整的氣球的圖片,而是從原始信號(hào)攝入開始(瞳孔攝入像素),接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀,是圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是只氣球),也就表示,神經(jīng)-中樞-大腦的工作過(guò)程,是一個(gè)不斷分層抽象的過(guò)程。因此大腦視覺系統(tǒng)的功能是對(duì)感知信號(hào)進(jìn)行特征提取和計(jì)算,而不僅僅是簡(jiǎn)單地重現(xiàn)視網(wǎng)膜的圖像。
這一生理學(xué)的發(fā)現(xiàn),促成了計(jì)算機(jī)人工智能在四十年后的突破性進(jìn)展。深度學(xué)習(xí)恰恰是借鑒了大腦視覺系統(tǒng)處理信息特征的這一思路,從而實(shí)現(xiàn)自動(dòng)的特征學(xué)習(xí),而不需要人工參與特征的選取。2006年前后,CIFAR(加拿大高級(jí)研究院)把一些研究者聚集在一起,人們對(duì)深度前饋式神經(jīng)網(wǎng)絡(luò)重新燃起了興趣。研究者們提出了一種非監(jiān)督的學(xué)習(xí)方法,這種方法可以創(chuàng)建一些網(wǎng)絡(luò)層來(lái)檢測(cè)特征而不使用帶標(biāo)簽的數(shù)據(jù),這些網(wǎng)絡(luò)層可以用來(lái)重構(gòu)或者對(duì)特征檢測(cè)器的活動(dòng)進(jìn)行建模。通過(guò)預(yù)訓(xùn)練過(guò)程,深度網(wǎng)絡(luò)的權(quán)值可以被初始化為合理的值。然后一個(gè)輸出層被添加到該網(wǎng)絡(luò)的頂部,并且使用標(biāo)準(zhǔn)的反向傳播算法進(jìn)行微調(diào)。比如,一副圖像的原始格式是一個(gè)像素?cái)?shù)組,那么在第一層上的學(xué)習(xí)特征通常指的是在圖像的特定位置和方向上有沒(méi)有邊的存在。第二層通常會(huì)根據(jù)那些邊的位置而來(lái)檢測(cè)圖案,這時(shí)候會(huì)忽略掉一些邊上的一些小的干擾。第三層或許會(huì)把那些圖案進(jìn)行組合,從而使其對(duì)應(yīng)于熟悉目標(biāo)的某部分。隨后的一些層會(huì)將這些部分再組合,從而構(gòu)成待檢測(cè)目標(biāo)。在這一過(guò)程,深度學(xué)習(xí)在多個(gè)層級(jí)中通過(guò)組合低層特征形成更抽象的高層特征。LeCun Y,Bengio Y和HintonG(2015)認(rèn)為,這就是深度學(xué)習(xí)的關(guān)鍵優(yōu)勢(shì)。
深度學(xué)習(xí)的體系結(jié)構(gòu)是簡(jiǎn)單模塊的多層堆棧,所有(或大部分)模塊的目標(biāo)是學(xué)習(xí),還有許多計(jì)算非線性輸入輸出的映射。堆棧中的每個(gè)模塊將其輸入進(jìn)行轉(zhuǎn)換,以增加特征的可選擇性和不變性。比如說(shuō),具有5到20層的非線性多層系統(tǒng)能夠?qū)崿F(xiàn)非常復(fù)雜的功能,比如輸入數(shù)據(jù)對(duì)細(xì)節(jié)非常敏感——能夠區(qū)分白狼和薩莫耶德犬,同時(shí)又具有強(qiáng)大的抗干擾能力,比如可以忽略掉不同的背景、姿勢(shì)、光照和周圍的物體等。
參考文獻(xiàn):
LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015,521(7553): 436-444.
http://www.leiphone.com/news/201605/zZqsZiVpcBBPqcGG.html
http://www.jeyzhang.com/cnn-learning-notes-1.html
http://dataunion.org/9822.html
http://www.10tiao.com/html/617/201608/2650790861/1.html
http://blog.csdn.net/heyongluoyao8/article/details/48636251
https://zh.wikipedia.org/wiki/LSTM
http://blog.csdn.net/zouxy09/article/details/8781543
深度學(xué)習(xí)淺談(下)
卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional neural networks)是深度學(xué)習(xí)中最具代表性的一類框架,從21世紀(jì)開始,卷積神經(jīng)網(wǎng)絡(luò)就被成功的大量用于檢測(cè)、分割、物體識(shí)別以及圖像識(shí)別的各個(gè)領(lǐng)域,比如交通信號(hào)識(shí)別,生物信息分割,面部探測(cè),文本、行人探測(cè)等,特別是最近幾年,卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域更是取得了巨大的成功。
在圖像識(shí)別中,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)組合圖像的低級(jí)特征的來(lái)合成高級(jí)特征,即先將圖像局部邊緣的組合形成基本圖案,這些圖案形成物體的局部,然后再形成物體。在這個(gè)過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)使用4個(gè)關(guān)鍵的想法來(lái)進(jìn)行特征處理:局部連接(local connections)、權(quán)值共享(shared weights)、池化(pooling)以及多網(wǎng)絡(luò)層(many layers)的使用。
圖 3 局部連接
局部連接可以大大減少訓(xùn)練參數(shù)的數(shù)量(如圖3)。比如,圖中左邊是全連接,右邊是局部連接。對(duì)于一個(gè)1000 × 1000的輸入圖像而言,如果下一個(gè)隱藏層的神經(jīng)元數(shù)目為10^6個(gè),采用全連接則有1000 ×1000 × 10^6 = 10^12個(gè)權(quán)值參數(shù),如此數(shù)目巨大的參數(shù)幾乎難以訓(xùn)練;而采用局部連接,隱藏層的每個(gè)神經(jīng)元僅與圖像中10 × 10的局部圖像相連接,那么此時(shí)的權(quán)值參數(shù)數(shù)量為10 × 10 × 10^6 =10^8,將直接減少4個(gè)數(shù)量級(jí)。
圖 4 權(quán)值共享
另外一種減少參數(shù)的方式是權(quán)值共享(如圖4)。局部連接中隱藏層的每一個(gè)神經(jīng)元連接的是一個(gè)10 × 10的局部圖像,因此有10 × 10個(gè)權(quán)值參數(shù),將這10 × 10個(gè)權(quán)值參數(shù)共享給剩下的神經(jīng)元,也就是說(shuō)隱藏層中10^6個(gè)神經(jīng)元的權(quán)值參數(shù)相同,此時(shí)不管隱藏層神經(jīng)元的數(shù)目是多少,需要訓(xùn)練的參數(shù)就是這 10× 10個(gè)權(quán)值參數(shù)(也就是卷積核(也稱濾波器)的大?。T谟?jì)算機(jī)視覺和圖像處理中,卷積時(shí)的權(quán)值矩陣被稱為卷積核(Kernel),在信號(hào)處理中也成為濾波(Filter)。不同的卷積核能夠得到圖像的不同映射下的特征,稱之為特征映射(FeatureMap)。
卷積神經(jīng)網(wǎng)絡(luò)主要包括兩種網(wǎng)絡(luò)層(如圖5),分別是卷積層(convolutional layer)和池化/采樣層(pooling layers)。卷積層的作用是提取圖像的各種特征,卷積層中的單元被組織在特征映射中,其中每個(gè)單元通過(guò)濾波器組的權(quán)值來(lái)連接到前一層的特征映射中的局部塊,然后這個(gè)局部加權(quán)和被傳給一個(gè)非線性函數(shù)(激勵(lì)函數(shù)),比如ReLU。特征映射中的所有單元共享相同的濾波器組.。不同的特征映射使用不同的濾波器組。池化層的作用是對(duì)原始特征信號(hào)進(jìn)行抽象,從而大幅度減少訓(xùn)練參數(shù),減輕模型過(guò)擬合的程度。池化層把相似的特征進(jìn)行合并,一般地,池化單元選擇特征映射中的一個(gè)局部塊的最大值或是平均值,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù),降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行的反向傳播算法和在一般的深度網(wǎng)絡(luò)上是一樣的,可以讓所有的濾波器組的權(quán)值得到訓(xùn)練。在數(shù)學(xué)上,由于特征映射執(zhí)行的過(guò)濾操作是離散的卷積,卷積神經(jīng)網(wǎng)絡(luò)因此得名。
圖 5 卷積神經(jīng)網(wǎng)絡(luò)
對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,LeCun Y,Bengio Y,Hinton G(2015)重點(diǎn)提到了標(biāo)志性的2012年的ImageNet競(jìng)賽。在該競(jìng)賽中,深度卷積神經(jīng)網(wǎng)絡(luò)被用在上百萬(wàn)張網(wǎng)絡(luò)圖片數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了1000個(gè)不同的類。該結(jié)果獲得了前所未有的成功,幾乎比當(dāng)時(shí)最好的方法降低了一半的錯(cuò)誤率。這個(gè)成功來(lái)自有效地利用了GPU、ReLU、一個(gè)新的被稱為dropout的正則技術(shù),以及通過(guò)分解現(xiàn)有樣本產(chǎn)生更多訓(xùn)練樣本的技術(shù)。這個(gè)成功給計(jì)算機(jī)視覺帶來(lái)一場(chǎng)革命。正是這次競(jìng)賽讓學(xué)界重新認(rèn)識(shí)到深度學(xué)習(xí)的價(jià)值,并且得到Google、Facebook、Microsoft、IBM,yahoo!、Twitter和Adobe等公司的高度重視。
深度學(xué)習(xí)在自然語(yǔ)言處理的應(yīng)用中,將語(yǔ)義信息處理成稠密、低維的實(shí)值向量。向量的每一維都表示文本的某種潛在的語(yǔ)法或語(yǔ)義特征。這樣的表示形式被稱作分布式特征表示(Distributed representations)。將原有高維、稀疏、離散的詞匯表示方法(又稱One-hot表示)映射為分布式特征表示這一種降維方法,可有效克服機(jī)器學(xué)習(xí)中的維數(shù)災(zāi)難(Curseof Dimensionality)問(wèn)題,從而獲得更好的學(xué)習(xí)效果。在分布式特征表示中,不同維度表示了詞的不同主題,各維度上的數(shù)值表示了一個(gè)詞對(duì)于不同主題的權(quán)重,這相當(dāng)于將原來(lái)線性不可分的一個(gè)詞抽取出其各個(gè)屬性,從而更有利于分類。這樣的處理方式,可以通過(guò)計(jì)算向量之間相似度的方法(如余弦相似度),來(lái)計(jì)算語(yǔ)義的相似度。 比如西紅柿和番茄的詞向量比較相似,即使在訓(xùn)練中我們并沒(méi)有觀察到番茄,但通過(guò)兩者的詞向量,我們也可以判斷兩者的相似程度很高,從而緩解了自然語(yǔ)言處理中常見的數(shù)據(jù)稀疏問(wèn)題。
LeCun Y,BengioY,Hinton G(2015)認(rèn)為,特征表示基于對(duì)邏輯啟發(fā)和神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí)。在邏輯啟發(fā)的范式中,一個(gè)符號(hào)實(shí)例表示某一事物,因?yàn)槠湮ㄒ坏膶傩耘c其他符號(hào)實(shí)例相同或者不同。該符號(hào)實(shí)例沒(méi)有內(nèi)部結(jié)構(gòu),并且結(jié)構(gòu)與使用是相關(guān)的,為了理解符號(hào)的語(yǔ)義,就必須與變化的推理規(guī)則合理對(duì)應(yīng)。與之相反,神經(jīng)網(wǎng)絡(luò)利用了大量活動(dòng)載體、權(quán)值矩陣和標(biāo)量非線性化,來(lái)實(shí)現(xiàn)能夠支撐簡(jiǎn)單容易的、具有常識(shí)推理的快速“直覺”功能。這樣一來(lái),可以更容易的預(yù)測(cè)目標(biāo)輸出,比如將本地文本的內(nèi)容作為輸入,訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)句子中下一個(gè)單詞。
遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)又稱循環(huán)神經(jīng)網(wǎng)絡(luò),不同于傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)(feedforwardneural network),遞歸神經(jīng)網(wǎng)絡(luò)中的每層的神經(jīng)元之間是有向連接的,即神經(jīng)元間連接構(gòu)成有向圖。利用這樣的結(jié)構(gòu),遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,因此可以處理更廣泛的時(shí)間序列數(shù)據(jù)。RNNs一次處理一個(gè)輸入序列元素,同時(shí)維護(hù)網(wǎng)絡(luò)隱藏層中包含過(guò)去時(shí)間序列數(shù)據(jù)的歷史信息的“狀態(tài)向量”。
圖 6 遞歸神經(jīng)網(wǎng)絡(luò)
RNNs一旦展開(如圖6),可以將之視為一個(gè)所有層共享同樣權(quán)值的深度前饋神經(jīng)網(wǎng)絡(luò)。但是在實(shí)際的訓(xùn)練中,這樣的結(jié)構(gòu)會(huì)產(chǎn)生“梯度的爆發(fā)與消失”(exploding and vanishing gradients)問(wèn)題,難以做到長(zhǎng)期保存信息。為了解決這個(gè)問(wèn)題,一些學(xué)者提出了采用了特殊隱式單元的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM,long short-termmemory networks),由于獨(dú)特的設(shè)計(jì)結(jié)構(gòu),LSTM適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件,該結(jié)構(gòu)可以長(zhǎng)期的保存輸入。LSTM單元包含一個(gè)嘗試將信息儲(chǔ)存較久的存儲(chǔ)單元。這個(gè)記憶單元的入口被一些特殊的門神經(jīng)元(gate neurons)所保護(hù),被保護(hù)的功能包括保存、寫入和讀取操作。
LSTM網(wǎng)絡(luò)被證明比傳統(tǒng)的RNNs效果更好。目前LSTM網(wǎng)絡(luò)或者相關(guān)的門控單元同樣用于編碼和解碼網(wǎng)絡(luò),并且在機(jī)器翻譯中表現(xiàn)良好。而在過(guò)去幾年中,幾位學(xué)者提出了用于增強(qiáng)RNNs的記憶的其他模塊,比如神經(jīng)圖靈機(jī)和記憶網(wǎng)絡(luò)等。
最后,LeCun Y,Bengio Y,Hinton G(2015)提出了對(duì)于深度學(xué)習(xí)的未來(lái)展望。
無(wú)監(jiān)督學(xué)習(xí)對(duì)于重新點(diǎn)燃深度學(xué)習(xí)的熱潮起到了促進(jìn)的作用,但是純粹的有監(jiān)督學(xué)習(xí)的成功蓋過(guò)了無(wú)監(jiān)督學(xué)習(xí)。在本篇綜述中雖然這不是重點(diǎn),LeCun Y,Bengio Y和HintonG(2015)還是期望無(wú)監(jiān)督學(xué)習(xí)在長(zhǎng)期內(nèi)越來(lái)越重要。無(wú)監(jiān)督學(xué)習(xí)在人類和動(dòng)物的學(xué)習(xí)中占據(jù)主導(dǎo)地位:通過(guò)觀察能夠發(fā)現(xiàn)世界的內(nèi)在結(jié)構(gòu),而不是單純被告知每一個(gè)客觀事物的名稱。
人類視覺是一個(gè)智能的、基于特定方式的利用小或大分辨率的視網(wǎng)膜中央窩與周圍環(huán)繞區(qū)域?qū)饩€采集成像的活躍的過(guò)程。LeCun Y,Bengio Y,HintonG(2015)期望未來(lái)在機(jī)器視覺方面會(huì)有更多的進(jìn)步,這些進(jìn)步來(lái)自那些端對(duì)端的訓(xùn)練系統(tǒng),并結(jié)合ConvNets和RNNs,采用強(qiáng)化學(xué)習(xí)來(lái)決定走向。結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的系統(tǒng)雖然正處于初級(jí)階段,但已經(jīng)在分類任務(wù)中超過(guò)了被動(dòng)視頻系統(tǒng),并在學(xué)習(xí)操作視頻游戲中產(chǎn)生了令人印象深刻的效果。
在未來(lái)幾年,自然語(yǔ)言理解將是深度學(xué)習(xí)做出巨大影響的另一個(gè)領(lǐng)域。LeCun Y,Bengio Y,HintonG(2015)預(yù)測(cè)那些利用了RNNs的系統(tǒng)將會(huì)更好地理解句子或者整個(gè)文檔。
最終,在人工智能方面取得的重大進(jìn)步將來(lái)自那些結(jié)合了復(fù)雜推理表示學(xué)習(xí)(representation learning )的系統(tǒng)。盡管深度學(xué)習(xí)和簡(jiǎn)單推理已經(jīng)在語(yǔ)音和手寫字識(shí)別應(yīng)用了很長(zhǎng)一段時(shí)間,但仍需要通過(guò)操作大量向量的新范式來(lái)代替基于規(guī)則的字符表達(dá)式操作。
參考文獻(xiàn):
LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015,521(7553): 436-444.
http://www.leiphone.com/news/201605/zZqsZiVpcBBPqcGG.html
http://www.jeyzhang.com/cnn-learning-notes-1.html
http://dataunion.org/9822.html
http://www.10tiao.com/html/617/201608/2650790861/1.html
http://blog.csdn.net/heyongluoyao8/article/details/48636251
https://zh.wikipedia.org/wiki/LSTM
http://blog.csdn.net/zouxy09/article/details/8781543
作者簡(jiǎn)介:
聯(lián)系客服