成人福利在线观看免费视频,夜夜天天操

編者的話：

本期文章” Deep learning”發(fā)表在2015年5月的《Nature》期刊上，是由深度學(xué)習(xí)領(lǐng)域最為知名的學(xué)者Yann LeCun、Yoshua Bengio和Geoffrey Hinton首次合作的綜述文章。

2016年初，阿爾法狗(AlphaGo)擊敗李世石，也讓深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)名聲大噪。然而不為人知的是，在相當(dāng)長(zhǎng)的一段時(shí)期內(nèi)，神經(jīng)網(wǎng)絡(luò)經(jīng)歷了非常曲折的發(fā)展過(guò)程。尤其是從90年代開始，機(jī)器學(xué)習(xí)領(lǐng)域中向量機(jī)（SVM），可學(xué)習(xí)理論(Boosting)，概率圖模型（Graphical Model）等研究的興起，導(dǎo)致大量研究人員的轉(zhuǎn)向，神經(jīng)網(wǎng)絡(luò)的研究一度陷入停滯。而在神經(jīng)網(wǎng)絡(luò)研究最困難的時(shí)期，正是本文作者Yann LeCun、Yoshua Bengio和Geoffrey Hinton等少數(shù)學(xué)者的堅(jiān)持，使人們真正認(rèn)識(shí)到深度學(xué)習(xí)的價(jià)值，也讓深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究迎來(lái)了更加光明的時(shí)代。

因內(nèi)容較多，關(guān)于深度學(xué)習(xí)淺談，我們也會(huì)分上下兩期進(jìn)行介紹。上期就深度學(xué)習(xí)的概念進(jìn)行介紹，下期針對(duì)深度學(xué)習(xí)的種類進(jìn)行討論。

深度學(xué)習(xí)淺談（上）

什么是深度學(xué)習(xí)？

深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究，它基于神經(jīng)網(wǎng)絡(luò)框架，通過(guò)模擬人腦學(xué)習(xí)的方式的來(lái)處理數(shù)據(jù)，通過(guò)神經(jīng)網(wǎng)絡(luò)的分層處理，將低層特征組合形成更加抽象的高層表示屬性類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

Geoffrey Hinton于2006年在《Science》上發(fā)表的論文首次提出深度學(xué)習(xí)的主要觀點(diǎn)：

1）多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫，從而有利于可視化或分類；

2）深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度，可以通過(guò)“逐層初始化”（layer-wise pre-training）來(lái)有效克服，逐層初始化可通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)。

機(jī)器學(xué)習(xí)的關(guān)鍵在于對(duì)對(duì)象特征的處理。因此幾十年來(lái)，人工智能領(lǐng)域一直想要構(gòu)建一個(gè)模式識(shí)別系統(tǒng)或者機(jī)器學(xué)習(xí)系統(tǒng)，比如分類器，將原始數(shù)據(jù)的外部屬性（如圖像的像素值）轉(zhuǎn)換成一個(gè)合適的內(nèi)部特征表示或特征向量，來(lái)對(duì)輸入的樣本進(jìn)行檢測(cè)或分類。但是這樣的處理方式需要相當(dāng)專業(yè)的知識(shí)來(lái)手工獲取特征。深度學(xué)習(xí)的優(yōu)點(diǎn)在于，它用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和分層特征提取的高效算法來(lái)替代手工獲取特征的方式。因此該文章的作者Yann LeCun、Yoshua Bengio、Geoffrey Hinton（2015）將深度學(xué)習(xí)定義為“一種特征學(xué)習(xí)方法，把原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的但是非線性的模型轉(zhuǎn)變成為更高層次的，更加抽象的表達(dá)。通過(guò)足夠多的轉(zhuǎn)換的組合，非常復(fù)雜的函數(shù)也可以被學(xué)習(xí)”。

從2012年取得ImageNet競(jìng)賽的標(biāo)志性事件之后，深度學(xué)習(xí)不斷取得一系列的重大進(jìn)展，解決了人工智能界的盡最大努力很多年仍沒(méi)有進(jìn)展的問(wèn)題，除了在圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域打破了紀(jì)錄，還在其他的領(lǐng)域擊敗了其他機(jī)器學(xué)習(xí)技術(shù)，包括預(yù)測(cè)潛在的藥物分子的活性、分析粒子加速器數(shù)據(jù)、重建大腦回路、預(yù)測(cè)非編碼DNA突變對(duì)基因表達(dá)和疾病的影響。更令人驚訝的是，深度學(xué)習(xí)在自然語(yǔ)言理解的各項(xiàng)任務(wù)中也有非?？上驳某晒?，特別是主題分類、情感分析、自動(dòng)問(wèn)答和語(yǔ)言翻譯。如今深度學(xué)習(xí)已經(jīng)成為人工智能中最炙手可熱的研究方向。深度學(xué)習(xí)的原理為何？又能夠取得如此突破？本文希望結(jié)合本次推送的文章，通過(guò)對(duì)深度學(xué)習(xí)的大致介紹，讓讀者對(duì)深度學(xué)習(xí)主要的原理和方法有一個(gè)基本的認(rèn)識(shí)。

深度學(xué)習(xí)原理-來(lái)自人腦的啟發(fā)

機(jī)器學(xué)習(xí)中，不論是否是深層，最常見的形式是監(jiān)督學(xué)習(xí)。如果要建立一個(gè)分類系統(tǒng)，對(duì)包含了一座房子、一輛汽車、一個(gè)人或一個(gè)寵物的圖像進(jìn)行分類，首先要收集大量的房子，汽車，人與寵物的圖像的數(shù)據(jù)集，并對(duì)每個(gè)對(duì)象標(biāo)上它的類別。在訓(xùn)練期間，機(jī)器會(huì)獲取一副圖片，然后產(chǎn)生一個(gè)輸出，這個(gè)輸出以向量形式的分?jǐn)?shù)來(lái)表示，每個(gè)類別都有一個(gè)這樣的向量。

圖 1 特征提取

為了最終完成分類的目標(biāo)，我們必須去提取被分類對(duì)象的特征來(lái)區(qū)分這些對(duì)象，比如在對(duì)摩托車進(jìn)行分類識(shí)別時(shí)（如圖1），傳統(tǒng)的識(shí)別方法是將特征提取和分類器設(shè)計(jì)分開處理，然后在應(yīng)用時(shí)合二為一。因此首先需要提取圖中摩托車的特征，然后把提取出來(lái)的特征放到學(xué)習(xí)算法中。良好的特征提取，對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用，直接決定了系統(tǒng)的計(jì)算和測(cè)試的效果。但是，這樣的處理方式導(dǎo)致了兩方面的問(wèn)題，一方面，在傳統(tǒng)的數(shù)據(jù)挖掘方法中，特征的選擇一般都是通過(guò)手工完成的，手工選取的好處是可以借助人的經(jīng)驗(yàn)或者專業(yè)知識(shí)選擇出正確的特征；缺點(diǎn)是效率低，而且在復(fù)雜的問(wèn)題中，人工選擇可能也會(huì)陷入困惑。另一方面，許多機(jī)器學(xué)習(xí)技術(shù)使用的是線性分類器來(lái)對(duì)人工提取的特征進(jìn)行分類。在圖像和語(yǔ)音識(shí)別過(guò)程中，線性分類器需要的輸入-輸出函數(shù)要對(duì)輸入樣本中不相關(guān)因素的變化不要過(guò)于的敏感，如位置的變化，目標(biāo)的方向或光照，或者語(yǔ)音中音調(diào)或語(yǔ)調(diào)的變化等，而對(duì)于一些特定的微小變化需要非常敏感（例如，一只白色的狼和跟狼類似的白色狗——薩莫耶德犬之間的差異）。在像素這一級(jí)別上，兩條薩莫耶德犬在不同的姿勢(shì)和在不同的環(huán)境下的圖像可以說(shuō)差異是非常大的，但是一只薩摩耶德犬和一只狼在相同的位置并在相似背景下的兩個(gè)圖像可能就非常類似。

如何區(qū)分對(duì)象細(xì)微和本質(zhì)的特征上的差別呢？深度學(xué)習(xí)從人腦視覺神經(jīng)的處理機(jī)制中獲得了靈感。

圖 2 大腦視覺處理機(jī)制

1958年，兩位后來(lái)的諾貝爾醫(yī)學(xué)獎(jiǎng)得主DavidHubel 和Torsten Wiesel 發(fā)現(xiàn)：大腦的視覺系統(tǒng)在處理視網(wǎng)膜傳遞過(guò)來(lái)的感官信息時(shí)，并未直接地對(duì)數(shù)據(jù)進(jìn)行處理，而是將接收到的刺激信號(hào)通過(guò)一個(gè)復(fù)雜的層狀網(wǎng)絡(luò)模型，進(jìn)而得到對(duì)視覺信息的認(rèn)識(shí)（如圖2）。例如，當(dāng)人在看到氣球的時(shí)候，大腦所獲取的信息并不是一張完整的氣球的圖片，而是從原始信號(hào)攝入開始（瞳孔攝入像素），接著做初步處理（大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向），然后抽象（大腦判定，眼前的物體的形狀，是圓形的），然后進(jìn)一步抽象（大腦進(jìn)一步判定該物體是只氣球），也就表示，神經(jīng)-中樞-大腦的工作過(guò)程，是一個(gè)不斷分層抽象的過(guò)程。因此大腦視覺系統(tǒng)的功能是對(duì)感知信號(hào)進(jìn)行特征提取和計(jì)算，而不僅僅是簡(jiǎn)單地重現(xiàn)視網(wǎng)膜的圖像。

這一生理學(xué)的發(fā)現(xiàn)，促成了計(jì)算機(jī)人工智能在四十年后的突破性進(jìn)展。深度學(xué)習(xí)恰恰是借鑒了大腦視覺系統(tǒng)處理信息特征的這一思路，從而實(shí)現(xiàn)自動(dòng)的特征學(xué)習(xí)，而不需要人工參與特征的選取。2006年前后，CIFAR（加拿大高級(jí)研究院）把一些研究者聚集在一起，人們對(duì)深度前饋式神經(jīng)網(wǎng)絡(luò)重新燃起了興趣。研究者們提出了一種非監(jiān)督的學(xué)習(xí)方法，這種方法可以創(chuàng)建一些網(wǎng)絡(luò)層來(lái)檢測(cè)特征而不使用帶標(biāo)簽的數(shù)據(jù)，這些網(wǎng)絡(luò)層可以用來(lái)重構(gòu)或者對(duì)特征檢測(cè)器的活動(dòng)進(jìn)行建模。通過(guò)預(yù)訓(xùn)練過(guò)程，深度網(wǎng)絡(luò)的權(quán)值可以被初始化為合理的值。然后一個(gè)輸出層被添加到該網(wǎng)絡(luò)的頂部，并且使用標(biāo)準(zhǔn)的反向傳播算法進(jìn)行微調(diào)。比如，一副圖像的原始格式是一個(gè)像素?cái)?shù)組，那么在第一層上的學(xué)習(xí)特征通常指的是在圖像的特定位置和方向上有沒(méi)有邊的存在。第二層通常會(huì)根據(jù)那些邊的位置而來(lái)檢測(cè)圖案，這時(shí)候會(huì)忽略掉一些邊上的一些小的干擾。第三層或許會(huì)把那些圖案進(jìn)行組合，從而使其對(duì)應(yīng)于熟悉目標(biāo)的某部分。隨后的一些層會(huì)將這些部分再組合，從而構(gòu)成待檢測(cè)目標(biāo)。在這一過(guò)程，深度學(xué)習(xí)在多個(gè)層級(jí)中通過(guò)組合低層特征形成更抽象的高層特征。LeCun Y，Bengio Y和HintonG（2015）認(rèn)為，這就是深度學(xué)習(xí)的關(guān)鍵優(yōu)勢(shì)。

深度學(xué)習(xí)的體系結(jié)構(gòu)是簡(jiǎn)單模塊的多層堆棧，所有（或大部分）模塊的目標(biāo)是學(xué)習(xí)，還有許多計(jì)算非線性輸入輸出的映射。堆棧中的每個(gè)模塊將其輸入進(jìn)行轉(zhuǎn)換，以增加特征的可選擇性和不變性。比如說(shuō)，具有5到20層的非線性多層系統(tǒng)能夠?qū)崿F(xiàn)非常復(fù)雜的功能，比如輸入數(shù)據(jù)對(duì)細(xì)節(jié)非常敏感——能夠區(qū)分白狼和薩莫耶德犬，同時(shí)又具有強(qiáng)大的抗干擾能力，比如可以忽略掉不同的背景、姿勢(shì)、光照和周圍的物體等。

參考文獻(xiàn):

LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature， 2015,521(7553): 436-444.

http://www.leiphone.com/news/201605/zZqsZiVpcBBPqcGG.html

http://www.jeyzhang.com/cnn-learning-notes-1.html

http://dataunion.org/9822.html

http://www.10tiao.com/html/617/201608/2650790861/1.html

http://blog.csdn.net/heyongluoyao8/article/details/48636251

https://zh.wikipedia.org/wiki/LSTM

http://blog.csdn.net/zouxy09/article/details/8781543

深度學(xué)習(xí)淺談（下）

卷積神經(jīng)網(wǎng)絡(luò)與圖像理解

卷積神經(jīng)網(wǎng)絡(luò)（CNN，Convolutional neural networks）是深度學(xué)習(xí)中最具代表性的一類框架，從21世紀(jì)開始，卷積神經(jīng)網(wǎng)絡(luò)就被成功的大量用于檢測(cè)、分割、物體識(shí)別以及圖像識(shí)別的各個(gè)領(lǐng)域，比如交通信號(hào)識(shí)別，生物信息分割，面部探測(cè)，文本、行人探測(cè)等，特別是最近幾年，卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域更是取得了巨大的成功。

在圖像識(shí)別中，卷積神經(jīng)網(wǎng)絡(luò)通過(guò)組合圖像的低級(jí)特征的來(lái)合成高級(jí)特征，即先將圖像局部邊緣的組合形成基本圖案，這些圖案形成物體的局部，然后再形成物體。在這個(gè)過(guò)程中，卷積神經(jīng)網(wǎng)絡(luò)使用4個(gè)關(guān)鍵的想法來(lái)進(jìn)行特征處理：局部連接（local connections）、權(quán)值共享（shared weights）、池化（pooling）以及多網(wǎng)絡(luò)層（many layers）的使用。

圖 3 局部連接

局部連接可以大大減少訓(xùn)練參數(shù)的數(shù)量（如圖3）。比如，圖中左邊是全連接，右邊是局部連接。對(duì)于一個(gè)1000 × 1000的輸入圖像而言，如果下一個(gè)隱藏層的神經(jīng)元數(shù)目為10^6個(gè)，采用全連接則有1000 ×1000 × 10^6 = 10^12個(gè)權(quán)值參數(shù)，如此數(shù)目巨大的參數(shù)幾乎難以訓(xùn)練；而采用局部連接，隱藏層的每個(gè)神經(jīng)元僅與圖像中10 × 10的局部圖像相連接，那么此時(shí)的權(quán)值參數(shù)數(shù)量為10 × 10 × 10^6 =10^8，將直接減少4個(gè)數(shù)量級(jí)。

圖 4 權(quán)值共享

另外一種減少參數(shù)的方式是權(quán)值共享（如圖4）。局部連接中隱藏層的每一個(gè)神經(jīng)元連接的是一個(gè)10 × 10的局部圖像，因此有10 × 10個(gè)權(quán)值參數(shù)，將這10 × 10個(gè)權(quán)值參數(shù)共享給剩下的神經(jīng)元，也就是說(shuō)隱藏層中10^6個(gè)神經(jīng)元的權(quán)值參數(shù)相同，此時(shí)不管隱藏層神經(jīng)元的數(shù)目是多少，需要訓(xùn)練的參數(shù)就是這 10× 10個(gè)權(quán)值參數(shù)（也就是卷積核(也稱濾波器)的大?。Ｔ谟?jì)算機(jī)視覺和圖像處理中，卷積時(shí)的權(quán)值矩陣被稱為卷積核(Kernel)，在信號(hào)處理中也成為濾波(Filter)。不同的卷積核能夠得到圖像的不同映射下的特征，稱之為特征映射（FeatureMap）。

卷積神經(jīng)網(wǎng)絡(luò)主要包括兩種網(wǎng)絡(luò)層（如圖5），分別是卷積層（convolutional layer）和池化/采樣層(pooling layers)。卷積層的作用是提取圖像的各種特征，卷積層中的單元被組織在特征映射中，其中每個(gè)單元通過(guò)濾波器組的權(quán)值來(lái)連接到前一層的特征映射中的局部塊，然后這個(gè)局部加權(quán)和被傳給一個(gè)非線性函數(shù)（激勵(lì)函數(shù)），比如ReLU。特征映射中的所有單元共享相同的濾波器組.。不同的特征映射使用不同的濾波器組。池化層的作用是對(duì)原始特征信號(hào)進(jìn)行抽象，從而大幅度減少訓(xùn)練參數(shù)，減輕模型過(guò)擬合的程度。池化層把相似的特征進(jìn)行合并，一般地，池化單元選擇特征映射中的一個(gè)局部塊的最大值或是平均值，由于一個(gè)映射面上的神經(jīng)元共享權(quán)值，因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)，降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行的反向傳播算法和在一般的深度網(wǎng)絡(luò)上是一樣的，可以讓所有的濾波器組的權(quán)值得到訓(xùn)練。在數(shù)學(xué)上，由于特征映射執(zhí)行的過(guò)濾操作是離散的卷積，卷積神經(jīng)網(wǎng)絡(luò)因此得名。

圖 5 卷積神經(jīng)網(wǎng)絡(luò)

對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用，LeCun Y，Bengio Y，Hinton G（2015）重點(diǎn)提到了標(biāo)志性的2012年的ImageNet競(jìng)賽。在該競(jìng)賽中，深度卷積神經(jīng)網(wǎng)絡(luò)被用在上百萬(wàn)張網(wǎng)絡(luò)圖片數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含了1000個(gè)不同的類。該結(jié)果獲得了前所未有的成功，幾乎比當(dāng)時(shí)最好的方法降低了一半的錯(cuò)誤率。這個(gè)成功來(lái)自有效地利用了GPU、ReLU、一個(gè)新的被稱為dropout的正則技術(shù)，以及通過(guò)分解現(xiàn)有樣本產(chǎn)生更多訓(xùn)練樣本的技術(shù)。這個(gè)成功給計(jì)算機(jī)視覺帶來(lái)一場(chǎng)革命。正是這次競(jìng)賽讓學(xué)界重新認(rèn)識(shí)到深度學(xué)習(xí)的價(jià)值，并且得到Google、Facebook、Microsoft、IBM，yahoo！、Twitter和Adobe等公司的高度重視。

分布式特征表示與語(yǔ)言處理

深度學(xué)習(xí)在自然語(yǔ)言處理的應(yīng)用中，將語(yǔ)義信息處理成稠密、低維的實(shí)值向量。向量的每一維都表示文本的某種潛在的語(yǔ)法或語(yǔ)義特征。這樣的表示形式被稱作分布式特征表示（Distributed representations）。將原有高維、稀疏、離散的詞匯表示方法（又稱One-hot表示）映射為分布式特征表示這一種降維方法，可有效克服機(jī)器學(xué)習(xí)中的維數(shù)災(zāi)難（Curseof Dimensionality）問(wèn)題，從而獲得更好的學(xué)習(xí)效果。在分布式特征表示中，不同維度表示了詞的不同主題，各維度上的數(shù)值表示了一個(gè)詞對(duì)于不同主題的權(quán)重，這相當(dāng)于將原來(lái)線性不可分的一個(gè)詞抽取出其各個(gè)屬性，從而更有利于分類。這樣的處理方式，可以通過(guò)計(jì)算向量之間相似度的方法（如余弦相似度），來(lái)計(jì)算語(yǔ)義的相似度。比如西紅柿和番茄的詞向量比較相似，即使在訓(xùn)練中我們并沒(méi)有觀察到番茄，但通過(guò)兩者的詞向量，我們也可以判斷兩者的相似程度很高，從而緩解了自然語(yǔ)言處理中常見的數(shù)據(jù)稀疏問(wèn)題。

LeCun Y，BengioY，Hinton G（2015）認(rèn)為，特征表示基于對(duì)邏輯啟發(fā)和神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí)。在邏輯啟發(fā)的范式中，一個(gè)符號(hào)實(shí)例表示某一事物，因?yàn)槠湮ㄒ坏膶傩耘c其他符號(hào)實(shí)例相同或者不同。該符號(hào)實(shí)例沒(méi)有內(nèi)部結(jié)構(gòu)，并且結(jié)構(gòu)與使用是相關(guān)的，為了理解符號(hào)的語(yǔ)義，就必須與變化的推理規(guī)則合理對(duì)應(yīng)。與之相反，神經(jīng)網(wǎng)絡(luò)利用了大量活動(dòng)載體、權(quán)值矩陣和標(biāo)量非線性化，來(lái)實(shí)現(xiàn)能夠支撐簡(jiǎn)單容易的、具有常識(shí)推理的快速“直覺”功能。這樣一來(lái)，可以更容易的預(yù)測(cè)目標(biāo)輸出，比如將本地文本的內(nèi)容作為輸入，訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)句子中下一個(gè)單詞。

遞歸神經(jīng)網(wǎng)絡(luò)

遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）又稱循環(huán)神經(jīng)網(wǎng)絡(luò)，不同于傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)（feedforwardneural network），遞歸神經(jīng)網(wǎng)絡(luò)中的每層的神經(jīng)元之間是有向連接的，即神經(jīng)元間連接構(gòu)成有向圖。利用這樣的結(jié)構(gòu)，遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞，因此可以處理更廣泛的時(shí)間序列數(shù)據(jù)。RNNs一次處理一個(gè)輸入序列元素，同時(shí)維護(hù)網(wǎng)絡(luò)隱藏層中包含過(guò)去時(shí)間序列數(shù)據(jù)的歷史信息的“狀態(tài)向量”。

圖 6 遞歸神經(jīng)網(wǎng)絡(luò)

RNNs一旦展開（如圖6），可以將之視為一個(gè)所有層共享同樣權(quán)值的深度前饋神經(jīng)網(wǎng)絡(luò)。但是在實(shí)際的訓(xùn)練中，這樣的結(jié)構(gòu)會(huì)產(chǎn)生“梯度的爆發(fā)與消失”（exploding and vanishing gradients）問(wèn)題，難以做到長(zhǎng)期保存信息。為了解決這個(gè)問(wèn)題，一些學(xué)者提出了采用了特殊隱式單元的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)（LSTM，long short-termmemory networks），由于獨(dú)特的設(shè)計(jì)結(jié)構(gòu)，LSTM適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件，該結(jié)構(gòu)可以長(zhǎng)期的保存輸入。LSTM單元包含一個(gè)嘗試將信息儲(chǔ)存較久的存儲(chǔ)單元。這個(gè)記憶單元的入口被一些特殊的門神經(jīng)元（gate neurons）所保護(hù)，被保護(hù)的功能包括保存、寫入和讀取操作。

LSTM網(wǎng)絡(luò)被證明比傳統(tǒng)的RNNs效果更好。目前LSTM網(wǎng)絡(luò)或者相關(guān)的門控單元同樣用于編碼和解碼網(wǎng)絡(luò)，并且在機(jī)器翻譯中表現(xiàn)良好。而在過(guò)去幾年中，幾位學(xué)者提出了用于增強(qiáng)RNNs的記憶的其他模塊，比如神經(jīng)圖靈機(jī)和記憶網(wǎng)絡(luò)等。

深度學(xué)習(xí)的未來(lái)展望

最后，LeCun Y，Bengio Y，Hinton G（2015）提出了對(duì)于深度學(xué)習(xí)的未來(lái)展望。

無(wú)監(jiān)督學(xué)習(xí)對(duì)于重新點(diǎn)燃深度學(xué)習(xí)的熱潮起到了促進(jìn)的作用，但是純粹的有監(jiān)督學(xué)習(xí)的成功蓋過(guò)了無(wú)監(jiān)督學(xué)習(xí)。在本篇綜述中雖然這不是重點(diǎn)，LeCun Y，Bengio Y和HintonG（2015）還是期望無(wú)監(jiān)督學(xué)習(xí)在長(zhǎng)期內(nèi)越來(lái)越重要。無(wú)監(jiān)督學(xué)習(xí)在人類和動(dòng)物的學(xué)習(xí)中占據(jù)主導(dǎo)地位：通過(guò)觀察能夠發(fā)現(xiàn)世界的內(nèi)在結(jié)構(gòu)，而不是單純被告知每一個(gè)客觀事物的名稱。

人類視覺是一個(gè)智能的、基于特定方式的利用小或大分辨率的視網(wǎng)膜中央窩與周圍環(huán)繞區(qū)域?qū)饩€采集成像的活躍的過(guò)程。LeCun Y，Bengio Y，HintonG（2015）期望未來(lái)在機(jī)器視覺方面會(huì)有更多的進(jìn)步，這些進(jìn)步來(lái)自那些端對(duì)端的訓(xùn)練系統(tǒng)，并結(jié)合ConvNets和RNNs，采用強(qiáng)化學(xué)習(xí)來(lái)決定走向。結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的系統(tǒng)雖然正處于初級(jí)階段，但已經(jīng)在分類任務(wù)中超過(guò)了被動(dòng)視頻系統(tǒng)，并在學(xué)習(xí)操作視頻游戲中產(chǎn)生了令人印象深刻的效果。

在未來(lái)幾年，自然語(yǔ)言理解將是深度學(xué)習(xí)做出巨大影響的另一個(gè)領(lǐng)域。LeCun Y，Bengio Y，HintonG（2015）預(yù)測(cè)那些利用了RNNs的系統(tǒng)將會(huì)更好地理解句子或者整個(gè)文檔。

最終，在人工智能方面取得的重大進(jìn)步將來(lái)自那些結(jié)合了復(fù)雜推理表示學(xué)習(xí)（representation learning ）的系統(tǒng)。盡管深度學(xué)習(xí)和簡(jiǎn)單推理已經(jīng)在語(yǔ)音和手寫字識(shí)別應(yīng)用了很長(zhǎng)一段時(shí)間，但仍需要通過(guò)操作大量向量的新范式來(lái)代替基于規(guī)則的字符表達(dá)式操作。