日韩福利片午夜在线观看,天天怕夜夜怕狠狠怕

Deep Learning最簡(jiǎn)單的一種方法是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)，人工神經(jīng)網(wǎng)絡(luò)（ANN）本身就是具有層次結(jié)構(gòu)的系統(tǒng)，如果給定一個(gè)神經(jīng)網(wǎng)絡(luò)，我們假設(shè)其輸出與輸入是相同的，然后訓(xùn)練調(diào)整其參數(shù)，得到每一層中的權(quán)重。自然地，我們就得到了輸入I的幾種不同表示（每一層代表一種表示），這些表示就是特征。自動(dòng)編碼器就是一種盡可能復(fù)現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò)。為了實(shí)現(xiàn)這種復(fù)現(xiàn)，自動(dòng)編碼器就必須捕捉可以代表輸入數(shù)據(jù)的最重要的因素，就像PCA那樣，找到可以代表原信息的主要成分。

具體過(guò)程簡(jiǎn)單的說(shuō)明如下：

1）給定無(wú)標(biāo)簽數(shù)據(jù)，用非監(jiān)督學(xué)習(xí)學(xué)習(xí)特征：

在我們之前的神經(jīng)網(wǎng)絡(luò)中，如第一個(gè)圖，我們輸入的樣本是有標(biāo)簽的，即（input, target），這樣我們根據(jù)當(dāng)前輸出和target（label）之間的差去改變前面各層的參數(shù)，直到收斂。但現(xiàn)在我們只有無(wú)標(biāo)簽數(shù)據(jù)，也就是右邊的圖。那么這個(gè)誤差怎么得到呢？

如上圖，我們將input輸入一個(gè)encoder編碼器，就會(huì)得到一個(gè)code，這個(gè)code也就是輸入的一個(gè)表示，那么我們?cè)趺粗肋@個(gè)code表示的就是input呢？我們加一個(gè)decoder解碼器，這時(shí)候decoder就會(huì)輸出一個(gè)信息，那么如果輸出的這個(gè)信息和一開(kāi)始的輸入信號(hào)input是很像的（理想情況下就是一樣的），那很明顯，我們就有理由相信這個(gè)code是靠譜的。所以，我們就通過(guò)調(diào)整encoder和decoder的參數(shù)，使得重構(gòu)誤差最小，這時(shí)候我們就得到了輸入input信號(hào)的第一個(gè)表示了，也就是編碼code了。因?yàn)槭菬o(wú)標(biāo)簽數(shù)據(jù)，所以誤差的來(lái)源就是直接重構(gòu)后與原輸入相比得到。

2）通過(guò)編碼器產(chǎn)生特征，然后訓(xùn)練下一層。這樣逐層訓(xùn)練：

那上面我們就得到第一層的code，我們的重構(gòu)誤差最小讓我們相信這個(gè)code就是原輸入信號(hào)的良好表達(dá)了，或者牽強(qiáng)點(diǎn)說(shuō)，它和原信號(hào)是一模一樣的（表達(dá)不一樣，反映的是一個(gè)東西）。那第二層和第一層的訓(xùn)練方式就沒(méi)有差別了，我們將第一層輸出的code當(dāng)成第二層的輸入信號(hào)，同樣最小化重構(gòu)誤差，就會(huì)得到第二層的參數(shù)，并且得到第二層輸入的code，也就是原輸入信息的第二個(gè)表達(dá)了。其他層就同樣的方法炮制就行了（訓(xùn)練這一層，前面層的參數(shù)都是固定的，并且他們的decoder已經(jīng)沒(méi)用了，都不需要了）。

3）有監(jiān)督微調(diào)：

經(jīng)過(guò)上面的方法，我們就可以得到很多層了。至于需要多少層（或者深度需要多少，這個(gè)目前本身就沒(méi)有一個(gè)科學(xué)的評(píng)價(jià)方法）需要自己試驗(yàn)調(diào)了。每一層都會(huì)得到原始輸入的不同的表達(dá)。當(dāng)然了，我們覺(jué)得它是越抽象越好了，就像人的視覺(jué)系統(tǒng)一樣。

到這里，這個(gè)AutoEncoder還不能用來(lái)分類數(shù)據(jù)，因?yàn)樗€沒(méi)有學(xué)習(xí)如何去連結(jié)一個(gè)輸入和一個(gè)類。它只是學(xué)會(huì)了如何去重構(gòu)或者復(fù)現(xiàn)它的輸入而已?；蛘哒f(shuō)，它只是學(xué)習(xí)獲得了一個(gè)可以良好代表輸入的特征，這個(gè)特征可以最大程度上代表原輸入信號(hào)。那么，為了實(shí)現(xiàn)分類，我們就可以在AutoEncoder的最頂?shù)木幋a層添加一個(gè)分類器（例如羅杰斯特回歸、SVM等），然后通過(guò)標(biāo)準(zhǔn)的多層神經(jīng)網(wǎng)絡(luò)的監(jiān)督訓(xùn)練方法（梯度下降法）去訓(xùn)練。

也就是說(shuō)，這時(shí)候，我們需要將最后層的特征code輸入到最后的分類器，通過(guò)有標(biāo)簽樣本，通過(guò)監(jiān)督學(xué)習(xí)進(jìn)行微調(diào)，這也分兩種，一個(gè)是只調(diào)整分類器（黑色部分）：

另一種：通過(guò)有標(biāo)簽樣本，微調(diào)整個(gè)系統(tǒng)：（如果有足夠多的數(shù)據(jù)，這個(gè)是最好的。end-to-end learning端對(duì)端學(xué)習(xí)）

一旦監(jiān)督訓(xùn)練完成，這個(gè)網(wǎng)絡(luò)就可以用來(lái)分類了。神經(jīng)網(wǎng)絡(luò)的最頂層可以作為一個(gè)線性分類器，然后我們可以用一個(gè)更好性能的分類器去取代它。

在研究中可以發(fā)現(xiàn)，如果在原有的特征中加入這些自動(dòng)學(xué)習(xí)得到的特征可以大大提高精確度，甚至在分類問(wèn)題中比目前最好的分類算法效果還要好！

AutoEncoder存在一些變體，這里簡(jiǎn)要介紹下兩個(gè)：

Sparse AutoEncoder稀疏自動(dòng)編碼器：

當(dāng)然，我們還可以繼續(xù)加上一些約束條件得到新的Deep Learning方法，如：如果在AutoEncoder的基礎(chǔ)上加上L1的Regularity限制（L1主要是約束每一層中的節(jié)點(diǎn)中大部分都要為0，只有少數(shù)不為0，這就是Sparse名字的來(lái)源），我們就可以得到Sparse AutoEncoder法。

如上圖，其實(shí)就是限制每次得到的表達(dá)code盡量稀疏。因?yàn)橄∈璧谋磉_(dá)往往比其他的表達(dá)要有效（人腦好像也是這樣的，某個(gè)輸入只是刺激某些神經(jīng)元，其他的大部分的神經(jīng)元是受到抑制的）。

Denoising AutoEncoders降噪自動(dòng)編碼器：

降噪自動(dòng)編碼器DA是在自動(dòng)編碼器的基礎(chǔ)上，訓(xùn)練數(shù)據(jù)加入噪聲，所以自動(dòng)編碼器必須學(xué)習(xí)去去除這種噪聲而獲得真正的沒(méi)有被噪聲污染過(guò)的輸入。因此，這就迫使編碼器去學(xué)習(xí)輸入信號(hào)的更加魯棒的表達(dá)，這也是它的泛化能力比一般編碼器強(qiáng)的原因。DA可以通過(guò)梯度下降算法去訓(xùn)練。

9.3、Restricted Boltzmann Machine (RBM)限制波爾茲曼機(jī)

假設(shè)有一個(gè)二部圖，每一層的節(jié)點(diǎn)之間沒(méi)有鏈接，一層是可視層，即輸入數(shù)據(jù)層（v)，一層是隱藏層(h)，如果假設(shè)所有的節(jié)點(diǎn)都是隨機(jī)二值變量節(jié)點(diǎn)（只能取0或者1值），同時(shí)假設(shè)全概率分布p(v,h)滿足Boltzmann 分布，我們稱這個(gè)模型是Restricted BoltzmannMachine (RBM)。

下面我們來(lái)看看為什么它是Deep Learning方法。首先，這個(gè)模型因?yàn)槭嵌繄D，所以在已知v的情況下，所有的隱藏節(jié)點(diǎn)之間是條件獨(dú)立的（因?yàn)楣?jié)點(diǎn)之間不存在連接），即p(h|v)=p(h₁|v)…p(h_n|v)。同理，在已知隱藏層h的情況下，所有的可視節(jié)點(diǎn)都是條件獨(dú)立的。同時(shí)又由于所有的v和h滿足Boltzmann 分布，因此，當(dāng)輸入v的時(shí)候，通過(guò)p(h|v) 可以得到隱藏層h，而得到隱藏層h之后，通過(guò)p(v|h)又能得到可視層，通過(guò)調(diào)整參數(shù)，我們就是要使得從隱藏層得到的可視層v1與原來(lái)的可視層v如果一樣，那么得到的隱藏層就是可視層另外一種表達(dá)，因此隱藏層可以作為可視層輸入數(shù)據(jù)的特征，所以它就是一種Deep Learning方法。

如何訓(xùn)練呢？也就是可視層節(jié)點(diǎn)和隱節(jié)點(diǎn)間的權(quán)值怎么確定呢？我們需要做一些數(shù)學(xué)分析。也就是模型了。

聯(lián)合組態(tài)（jointconfiguration）的能量可以表示為：

而某個(gè)組態(tài)的聯(lián)合概率分布可以通過(guò)Boltzmann 分布（和這個(gè)組態(tài)的能量）來(lái)確定：

因?yàn)殡[藏節(jié)點(diǎn)之間是條件獨(dú)立的（因?yàn)楣?jié)點(diǎn)之間不存在連接），即：

然后我們可以比較容易（對(duì)上式進(jìn)行因子分解Factorizes）得到在給定可視層v的基礎(chǔ)上，隱層第j個(gè)節(jié)點(diǎn)為1或者為0的概率：

同理，在給定隱層h的基礎(chǔ)上，可視層第i個(gè)節(jié)點(diǎn)為1或者為0的概率也可以容易得到：

給定一個(gè)滿足獨(dú)立同分布的樣本集：D={v⁽¹⁾, v⁽²⁾,…, v^(N)}，我們需要學(xué)習(xí)參數(shù)θ={W,a,b}。

我們最大化以下對(duì)數(shù)似然函數(shù)（最大似然估計(jì)：對(duì)于某個(gè)概率模型，我們需要選擇一個(gè)參數(shù)，讓我們當(dāng)前的觀測(cè)樣本的概率最大）：

也就是對(duì)最大對(duì)數(shù)似然函數(shù)求導(dǎo)，就可以得到L最大時(shí)對(duì)應(yīng)的參數(shù)W了。

如果，我們把隱藏層的層數(shù)增加，我們可以得到Deep Boltzmann Machine(DBM)；如果我們?cè)诳拷梢晫拥牟糠质褂秘惾~斯信念網(wǎng)絡(luò)（即有向圖模型，當(dāng)然這里依然限制層中節(jié)點(diǎn)之間沒(méi)有鏈接），而在最遠(yuǎn)離可視層的部分使用Restricted Boltzmann Machine，我們可以得到DeepBelief Net（DBN）。

9.4、Deep Belief Networks深信度網(wǎng)絡(luò)

DBNs是一個(gè)概率生成模型，與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對(duì)，生成模型是建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布，對(duì)P(Observation|Label)和 P(Label|Observation)都做了評(píng)估，而判別模型僅僅而已評(píng)估了后者，也就是P(Label|Observation)。對(duì)于在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用傳統(tǒng)的BP算法的時(shí)候，DBNs遇到了以下問(wèn)題：

（1）需要為訓(xùn)練提供一個(gè)有標(biāo)簽的樣本集；

（2）學(xué)習(xí)過(guò)程較慢；

（3）不適當(dāng)?shù)膮?shù)選擇會(huì)導(dǎo)致學(xué)習(xí)收斂于局部最優(yōu)解。

DBNs由多個(gè)限制玻爾茲曼機(jī)（Restricted Boltzmann Machines）層組成，一個(gè)典型的神經(jīng)網(wǎng)絡(luò)類型如圖三所示。這些網(wǎng)絡(luò)被“限制”為一個(gè)可視層和一個(gè)隱層，層間存在連接，但層內(nèi)的單元間不存在連接。隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出來(lái)的高階數(shù)據(jù)的相關(guān)性。

首先，先不考慮最頂構(gòu)成一個(gè)聯(lián)想記憶（associative memory）的兩層，一個(gè)DBN的連接是通過(guò)自頂向下的生成權(quán)值來(lái)指導(dǎo)確定的，RBMs就像一個(gè)建筑塊一樣，相比傳統(tǒng)和深度分層的sigmoid信念網(wǎng)絡(luò)，它能易于連接權(quán)值的學(xué)習(xí)。

最開(kāi)始的時(shí)候，通過(guò)一個(gè)非監(jiān)督貪婪逐層方法去預(yù)訓(xùn)練獲得生成模型的權(quán)值，非監(jiān)督貪婪逐層方法被Hinton證明是有效的，并被其稱為對(duì)比分歧（contrastive divergence）。

在這個(gè)訓(xùn)練階段，在可視層會(huì)產(chǎn)生一個(gè)向量v，通過(guò)它將值傳遞到隱層。反過(guò)來(lái)，可視層的輸入會(huì)被隨機(jī)的選擇，以嘗試去重構(gòu)原始的輸入信號(hào)。最后，這些新的可視的神經(jīng)元激活單元將前向傳遞重構(gòu)隱層激活單元，獲得h（在訓(xùn)練過(guò)程中，首先將可視向量值映射給隱單元；然后可視單元由隱層單元重建；這些新可視單元再次映射給隱單元，這樣就獲取新的隱單元。執(zhí)行這種反復(fù)步驟叫做吉布斯采樣）。這些后退和前進(jìn)的步驟就是我們熟悉的Gibbs采樣，而隱層激活單元和可視層輸入之間的相關(guān)性差別就作為權(quán)值更新的主要依據(jù)。

訓(xùn)練時(shí)間會(huì)顯著的減少，因?yàn)橹恍枰獑蝹€(gè)步驟就可以接近最大似然學(xué)習(xí)。增加進(jìn)網(wǎng)絡(luò)的每一層都會(huì)改進(jìn)訓(xùn)練數(shù)據(jù)的對(duì)數(shù)概率，我們可以理解為越來(lái)越接近能量的真實(shí)表達(dá)。這個(gè)有意義的拓展，和無(wú)標(biāo)簽數(shù)據(jù)的使用，是任何一個(gè)深度學(xué)習(xí)應(yīng)用的決定性的因素。

在最高兩層，權(quán)值被連接到一起，這樣更低層的輸出將會(huì)提供一個(gè)參考的線索或者關(guān)聯(lián)給頂層，這樣頂層就會(huì)將其聯(lián)系到它的記憶內(nèi)容。而我們最關(guān)心的，最后想得到的就是判別性能，例如分類任務(wù)里面。

在預(yù)訓(xùn)練后，DBN可以通過(guò)利用帶標(biāo)簽數(shù)據(jù)用BP算法去對(duì)判別性能做調(diào)整。在這里，一個(gè)標(biāo)簽集將被附加到頂層（推廣聯(lián)想記憶），通過(guò)一個(gè)自下向上的，學(xué)習(xí)到的識(shí)別權(quán)值獲得一個(gè)網(wǎng)絡(luò)的分類面。這個(gè)性能會(huì)比單純的BP算法訓(xùn)練的網(wǎng)絡(luò)好。這可以很直觀的解釋，DBNs的BP算法只需要對(duì)權(quán)值參數(shù)空間進(jìn)行一個(gè)局部的搜索，這相比前向神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，訓(xùn)練是要快的，而且收斂的時(shí)間也少。

DBNs的靈活性使得它的拓展比較容易。一個(gè)拓展就是卷積DBNs（Convolutional Deep Belief Networks(CDBNs)）。DBNs并沒(méi)有考慮到圖像的2維結(jié)構(gòu)信息，因?yàn)檩斎胧呛?jiǎn)單的從一個(gè)圖像矩陣一維向量化的。而CDBNs就是考慮到了這個(gè)問(wèn)題，它利用鄰域像素的空域關(guān)系，通過(guò)一個(gè)稱為卷積RBMs的模型區(qū)達(dá)到生成模型的變換不變性，而且可以容易得變換到高維圖像。DBNs并沒(méi)有明確地處理對(duì)觀察變量的時(shí)間聯(lián)系的學(xué)習(xí)上，雖然目前已經(jīng)有這方面的研究，例如堆疊時(shí)間RBMs，以此為推廣，有序列學(xué)習(xí)的dubbed temporal convolutionmachines，這種序列學(xué)習(xí)的應(yīng)用，給語(yǔ)音信號(hào)處理問(wèn)題帶來(lái)了一個(gè)讓人激動(dòng)的未來(lái)研究方向。

目前，和DBNs有關(guān)的研究包括堆疊自動(dòng)編碼器，它是通過(guò)用堆疊自動(dòng)編碼器來(lái)替換傳統(tǒng)DBNs里面的RBMs。這就使得可以通過(guò)同樣的規(guī)則來(lái)訓(xùn)練產(chǎn)生深度多層神經(jīng)網(wǎng)絡(luò)架構(gòu)，但它缺少層的參數(shù)化的嚴(yán)格要求。與DBNs不同，自動(dòng)編碼器使用判別模型，這樣這個(gè)結(jié)構(gòu)就很難采樣輸入采樣空間，這就使得網(wǎng)絡(luò)更難捕捉它的內(nèi)部表達(dá)。但是，降噪自動(dòng)編碼器卻能很好的避免這個(gè)問(wèn)題，并且比傳統(tǒng)的DBNs更優(yōu)。它通過(guò)在訓(xùn)練過(guò)程添加隨機(jī)的污染并堆疊產(chǎn)生場(chǎng)泛化性能。訓(xùn)練單一的降噪自動(dòng)編碼器的過(guò)程和RBMs訓(xùn)練生成模型的過(guò)程一樣。

9.5、Convolutional Neural Networks卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種，已成為當(dāng)前語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò)，降低了網(wǎng)絡(luò)模型的復(fù)雜度，減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時(shí)表現(xiàn)的更為明顯，使圖像可以直接作為網(wǎng)絡(luò)的輸入，避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。卷積網(wǎng)絡(luò)是為識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè)多層感知器，這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。

CNNs是受早期的延時(shí)神經(jīng)網(wǎng)絡(luò)（TDNN）的影響。延時(shí)神經(jīng)網(wǎng)絡(luò)通過(guò)在時(shí)間維度上共享權(quán)值降低學(xué)習(xí)復(fù)雜度，適用于語(yǔ)音和時(shí)間序列信號(hào)的處理。

CNNs是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。它利用空間關(guān)系減少需要學(xué)習(xí)的參數(shù)數(shù)目以提高一般前向BP算法的訓(xùn)練性能。CNNs作為一個(gè)深度學(xué)習(xí)架構(gòu)提出是為了最小化數(shù)據(jù)的預(yù)處理要求。在CNN中，圖像的一小部分（局部感受區(qū)域）作為層級(jí)結(jié)構(gòu)的最低層的輸入，信息再依次傳輸?shù)讲煌膶?，每層通過(guò)一個(gè)數(shù)字濾波器去獲得觀測(cè)數(shù)據(jù)的最顯著的特征。這個(gè)方法能夠獲取對(duì)平移、縮放和旋轉(zhuǎn)不變的觀測(cè)數(shù)據(jù)的顯著特征，因?yàn)閳D像的局部感受區(qū)域允許神經(jīng)元或者處理單元可以訪問(wèn)到最基礎(chǔ)的特征，例如定向邊緣或者角點(diǎn)。

1）卷積神經(jīng)網(wǎng)絡(luò)的歷史

1962年Hubel和Wiesel通過(guò)對(duì)貓視覺(jué)皮層細(xì)胞的研究，提出了感受野(receptive field)的概念，1984年日本學(xué)者Fukushima基于感受野概念提出的神經(jīng)認(rèn)知機(jī)(neocognitron)可以看作是卷積神經(jīng)網(wǎng)絡(luò)的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò)，也是感受野概念在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的首次應(yīng)用。神經(jīng)認(rèn)知機(jī)將一個(gè)視覺(jué)模式分解成許多子模式（特征），然后進(jìn)入分層遞階式相連的特征平面進(jìn)行處理，它試圖將視覺(jué)系統(tǒng)模型化，使其能夠在即使物體有位移或輕微變形的時(shí)候，也能完成識(shí)別。

通常神經(jīng)認(rèn)知機(jī)包含兩類神經(jīng)元，即承擔(dān)特征抽取的S-元和抗變形的C-元。S-元中涉及兩個(gè)重要參數(shù)，即感受野與閾值參數(shù)，前者確定輸入連接的數(shù)目，后者則控制對(duì)特征子模式的反應(yīng)程度。許多學(xué)者一直致力于提高神經(jīng)認(rèn)知機(jī)的性能的研究：在傳統(tǒng)的神經(jīng)認(rèn)知機(jī)中，每個(gè)S-元的感光區(qū)中由C-元帶來(lái)的視覺(jué)模糊量呈正態(tài)分布。如果感光區(qū)的邊緣所產(chǎn)生的模糊效果要比中央來(lái)得大，S-元將會(huì)接受這種非正態(tài)模糊所導(dǎo)致的更大的變形容忍性。我們希望得到的是，訓(xùn)練模式與變形刺激模式在感受野的邊緣與其中心所產(chǎn)生的效果之間的差異變得越來(lái)越大。為了有效地形成這種非正態(tài)模糊，F(xiàn)ukushima提出了帶雙C-元層的改進(jìn)型神經(jīng)認(rèn)知機(jī)。

Van Ooyen和Niehuis為提高神經(jīng)認(rèn)知機(jī)的區(qū)別能力引入了一個(gè)新的參數(shù)。事實(shí)上，該參數(shù)作為一種抑制信號(hào)，抑制了神經(jīng)元對(duì)重復(fù)激勵(lì)特征的激勵(lì)。多數(shù)神經(jīng)網(wǎng)絡(luò)在權(quán)值中記憶訓(xùn)練信息。根據(jù)Hebb學(xué)習(xí)規(guī)則，某種特征訓(xùn)練的次數(shù)越多，在以后的識(shí)別過(guò)程中就越容易被檢測(cè)。也有學(xué)者將進(jìn)化計(jì)算理論與神經(jīng)認(rèn)知機(jī)結(jié)合，通過(guò)減弱對(duì)重復(fù)性激勵(lì)特征的訓(xùn)練學(xué)習(xí)，而使得網(wǎng)絡(luò)注意那些不同的特征以助于提高區(qū)分能力。上述都是神經(jīng)認(rèn)知機(jī)的發(fā)展過(guò)程，而卷積神經(jīng)網(wǎng)絡(luò)可看作是神經(jīng)認(rèn)知機(jī)的推廣形式，神經(jīng)認(rèn)知機(jī)是卷積神經(jīng)網(wǎng)絡(luò)的一種特例。

2）卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò)，每層由多個(gè)二維平面組成，而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。

圖：卷積神經(jīng)網(wǎng)絡(luò)的概念示范：輸入圖像通過(guò)和三個(gè)可訓(xùn)練的濾波器和可加偏置進(jìn)行卷積，濾波過(guò)程如圖一，卷積后在C1層產(chǎn)生三個(gè)特征映射圖，然后特征映射圖中每組的四個(gè)像素再進(jìn)行求和，加權(quán)值，加偏置，通過(guò)一個(gè)Sigmoid函數(shù)得到三個(gè)S2層的特征映射圖。這些映射圖再進(jìn)過(guò)濾波得到C3層。這個(gè)層級(jí)結(jié)構(gòu)再和S2一樣產(chǎn)生S4。最終，這些像素值被光柵化，并連接成一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，得到輸出。

一般地，C層為特征提取層，每個(gè)神經(jīng)元的輸入與前一層的局部感受野相連，并提取該局部的特征，一旦該局部特征被提取后，它與其他特征間的位置關(guān)系也隨之確定下來(lái)；S層是特征映射層，網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成，每個(gè)特征映射為一個(gè)平面，平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù)，使得特征映射具有位移不變性。

此外，由于一個(gè)映射面上的神經(jīng)元共享權(quán)值，因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)，降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)特征提取層（C-層）都緊跟著一個(gè)用來(lái)求局部平均與二次提取的計(jì)算層（S-層），這種特有的兩次特征提取結(jié)構(gòu)使網(wǎng)絡(luò)在識(shí)別時(shí)對(duì)輸入樣本有較高的畸變?nèi)萑棠芰Α?/span>

3）關(guān)于參數(shù)減少與權(quán)值共享

上面聊到，好像CNN一個(gè)牛逼的地方就在于通過(guò)感受野和權(quán)值共享減少了神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)的個(gè)數(shù)。那究竟是啥的呢？

下圖左：如果我們有1000x1000像素的圖像，有1百萬(wàn)個(gè)隱層神經(jīng)元，那么他們?nèi)B接的話（每個(gè)隱層神經(jīng)元都連接圖像的每一個(gè)像素點(diǎn)），就有1000x1000x1000000=10^12個(gè)連接，也就是10^12個(gè)權(quán)值參數(shù)。然而圖像的空間聯(lián)系是局部的，就像人是通過(guò)一個(gè)局部的感受野去感受外界圖像一樣，每一個(gè)神經(jīng)元都不需要對(duì)全局圖像做感受，每個(gè)神經(jīng)元只感受局部的圖像區(qū)域，然后在更高層，將這些感受不同局部的神經(jīng)元綜合起來(lái)就可以得到全局的信息了。這樣，我們就可以減少連接的數(shù)目，也就是減少神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的權(quán)值參數(shù)的個(gè)數(shù)了。如下圖右：假如局部感受野是10x10，隱層每個(gè)感受野只需要和這10x10的局部圖像相連接，所以1百萬(wàn)個(gè)隱層神經(jīng)元就只有一億個(gè)連接，即10^8個(gè)參數(shù)。比原來(lái)減少了四個(gè)0（數(shù)量級(jí)），這樣訓(xùn)練起來(lái)就沒(méi)那么費(fèi)力了，但還是感覺(jué)很多的啊，那還有啥辦法沒(méi)？

我們知道，隱含層的每一個(gè)神經(jīng)元都連接10x10個(gè)圖像區(qū)域，也就是說(shuō)每一個(gè)神經(jīng)元存在10x10=100個(gè)連接權(quán)值參數(shù)。那如果我們每個(gè)神經(jīng)元這100個(gè)參數(shù)是相同的呢？也就是說(shuō)每個(gè)神經(jīng)元用的是同一個(gè)卷積核去卷積圖像。這樣我們就只有多少個(gè)參數(shù)？？只有100個(gè)參數(shù)?。。?！親！不管你隱層的神經(jīng)元個(gè)數(shù)有多少，兩層間的連接我只有100個(gè)參數(shù)啊！親！這就是權(quán)值共享??！親！這就是卷積神經(jīng)網(wǎng)絡(luò)的主打賣點(diǎn)??！親！（有點(diǎn)煩了，呵呵）也許你會(huì)問(wèn)，這樣做靠譜嗎？為什么可行呢？這個(gè)……共同學(xué)習(xí)。

好了，你就會(huì)想，這樣提取特征也忒不靠譜吧，這樣你只提取了一種特征??？對(duì)了，真聰明，我們需要提取多種特征對(duì)不？假如一種濾波器，也就是一種卷積核就是提出圖像的一種特征，例如某個(gè)方向的邊緣。那么我們需要提取不同的特征，怎么辦，加多幾種濾波器不就行了嗎？對(duì)了。所以假設(shè)我們加到100種濾波器，每種濾波器的參數(shù)不一樣，表示它提出輸入圖像的不同特征，例如不同的邊緣。這樣每種濾波器去卷積圖像就得到對(duì)圖像的不同特征的放映，我們稱之為Feature Map。所以100種卷積核就有100個(gè)Feature Map。這100個(gè)Feature Map就組成了一層神經(jīng)元。到這個(gè)時(shí)候明了了吧。我們這一層有多少個(gè)參數(shù)了？100種卷積核x每種卷積核共享100個(gè)參數(shù)=100x100=10K，也就是1萬(wàn)個(gè)參數(shù)。才1萬(wàn)個(gè)參數(shù)啊！親！（又來(lái)了，受不了了！）見(jiàn)下圖右：不同的顏色表達(dá)不同的濾波器。

嘿喲，遺漏一個(gè)問(wèn)題了。剛才說(shuō)隱層的參數(shù)個(gè)數(shù)和隱層的神經(jīng)元個(gè)數(shù)無(wú)關(guān)，只和濾波器的大小和濾波器種類的多少有關(guān)。那么隱層的神經(jīng)元個(gè)數(shù)怎么確定呢？它和原圖像，也就是輸入的大小（神經(jīng)元個(gè)數(shù)）、濾波器的大小和濾波器在圖像中的滑動(dòng)步長(zhǎng)都有關(guān)！例如，我的圖像是1000x1000像素，而濾波器大小是10x10，假設(shè)濾波器沒(méi)有重疊，也就是步長(zhǎng)為10，這樣隱層的神經(jīng)元個(gè)數(shù)就是(1000x1000 )/ (10x10)=100x100個(gè)神經(jīng)元了，假設(shè)步長(zhǎng)是8，也就是卷積核會(huì)重疊兩個(gè)像素，那么……我就不算了，思想懂了就好。注意了，這只是一種濾波器，也就是一個(gè)Feature Map的神經(jīng)元個(gè)數(shù)哦，如果100個(gè)Feature Map就是100倍了。由此可見(jiàn)，圖像越大，神經(jīng)元個(gè)數(shù)和需要訓(xùn)練的權(quán)值參數(shù)個(gè)數(shù)的貧富差距就越大。

需要注意的一點(diǎn)是，上面的討論都沒(méi)有考慮每個(gè)神經(jīng)元的偏置部分。所以權(quán)值個(gè)數(shù)需要加1 。這個(gè)也是同一種濾波器共享的。

總之，卷積網(wǎng)絡(luò)的核心思想是將：局部感受野、權(quán)值共享（或者權(quán)值復(fù)制）以及時(shí)間或空間亞采樣這三種結(jié)構(gòu)思想結(jié)合起來(lái)獲得了某種程度的位移、尺度、形變不變性。

4）一個(gè)典型的例子說(shuō)明

一種典型的用來(lái)識(shí)別數(shù)字的卷積網(wǎng)絡(luò)是LeNet-5（效果和paper等見(jiàn)這）。當(dāng)年美國(guó)大多數(shù)銀行就是用它來(lái)識(shí)別支票上面的手寫數(shù)字的。能夠達(dá)到這種商用的地步，它的準(zhǔn)確性可想而知。畢竟目前學(xué)術(shù)界和工業(yè)界的結(jié)合是最受爭(zhēng)議的。

那下面咱們也用這個(gè)例子來(lái)說(shuō)明下。

LeNet-5共有7層，不包含輸入，每層都包含可訓(xùn)練參數(shù)（連接權(quán)重）。輸入圖像為32*32大小。這要比Mnist數(shù)據(jù)庫(kù)（一個(gè)公認(rèn)的手寫數(shù)據(jù)庫(kù)）中最大的字母還大。這樣做的原因是希望潛在的明顯特征如筆畫斷電或角點(diǎn)能夠出現(xiàn)在最高層特征監(jiān)測(cè)子感受野的中心。

我們先要明確一點(diǎn)：每個(gè)層有多個(gè)Feature Map，每個(gè)Feature Map通過(guò)一種卷積濾波器提取輸入的一種特征，然后每個(gè)Feature Map有多個(gè)神經(jīng)元。

C1層是一個(gè)卷積層（為什么是卷積？卷積運(yùn)算一個(gè)重要的特點(diǎn)就是，通過(guò)卷積運(yùn)算，可以使原信號(hào)特征增強(qiáng)，并且降低噪音），由6個(gè)特征圖Feature Map構(gòu)成。特征圖中每個(gè)神經(jīng)元與輸入中5*5的鄰域相連。特征圖的大小為28*28，這樣能防止輸入的連接掉到邊界之外（是為了BP反饋時(shí)的計(jì)算，不致梯度損失，個(gè)人見(jiàn)解）。C1有156個(gè)可訓(xùn)練參數(shù)（每個(gè)濾波器5*5=25個(gè)unit參數(shù)和一個(gè)bias參數(shù)，一共6個(gè)濾波器，共(5*5+1)*6=156個(gè)參數(shù)），共156*(28*28)=122,304個(gè)連接。

S2層是一個(gè)下采樣層（為什么是下采樣？利用圖像局部相關(guān)性的原理，對(duì)圖像進(jìn)行子抽樣，可以減少數(shù)據(jù)處理量同時(shí)保留有用信息），有6個(gè)14*14的特征圖。特征圖中的每個(gè)單元與C1中相對(duì)應(yīng)特征圖的2*2鄰域相連接。S2層每個(gè)單元的4個(gè)輸入相加，乘以一個(gè)可訓(xùn)練參數(shù)，再加上一個(gè)可訓(xùn)練偏置。結(jié)果通過(guò)sigmoid函數(shù)計(jì)算?？捎?xùn)練系數(shù)和偏置控制著sigmoid函數(shù)的非線性程度。如果系數(shù)比較小，那么運(yùn)算近似于線性運(yùn)算，亞采樣相當(dāng)于模糊圖像。如果系數(shù)比較大，根據(jù)偏置的大小亞采樣可以被看成是有噪聲的“或”運(yùn)算或者有噪聲的“與”運(yùn)算。每個(gè)單元的2*2感受野并不重疊，因此S2中每個(gè)特征圖的大小是C1中特征圖大小的1/4（行和列各1/2）。S2層有12個(gè)可訓(xùn)練參數(shù)和5880個(gè)連接。

圖：卷積和子采樣過(guò)程：卷積過(guò)程包括：用一個(gè)可訓(xùn)練的濾波器f_x去卷積一個(gè)輸入的圖像（第一階段是輸入的圖像，后面的階段就是卷積特征map了），然后加一個(gè)偏置b_x，得到卷積層C_x。子采樣過(guò)程包括：每鄰域四個(gè)像素求和變?yōu)橐粋€(gè)像素，然后通過(guò)標(biāo)量W_x+1加權(quán)，再增加偏置b_x+1，然后通過(guò)一個(gè)sigmoid激活函數(shù)，產(chǎn)生一個(gè)大概縮小四倍的特征映射圖S_x+1。

所以從一個(gè)平面到下一個(gè)平面的映射可以看作是作卷積運(yùn)算，S-層可看作是模糊濾波器，起到二次特征提取的作用。隱層與隱層之間空間分辨率遞減，而每層所含的平面數(shù)遞增，這樣可用于檢測(cè)更多的特征信息。

C3層也是一個(gè)卷積層，它同樣通過(guò)5x5的卷積核去卷積層S2，然后得到的特征map就只有10x10個(gè)神經(jīng)元，但是它有16種不同的卷積核，所以就存在16個(gè)特征map了。這里需要注意的一點(diǎn)是：C3中的每個(gè)特征map是連接到S2中的所有6個(gè)或者幾個(gè)特征map的，表示本層的特征map是上一層提取到的特征map的不同組合（這個(gè)做法也并不是唯一的）。（看到?jīng)]有，這里是組合，就像之前聊到的人的視覺(jué)系統(tǒng)一樣，底層的結(jié)構(gòu)構(gòu)成上層更抽象的結(jié)構(gòu)，例如邊緣構(gòu)成形狀或者目標(biāo)的部分）。

剛才說(shuō)C3中每個(gè)特征圖由S2中所有6個(gè)或者幾個(gè)特征map組合而成。為什么不把S2中的每個(gè)特征圖連接到每個(gè)C3的特征圖呢？原因有2點(diǎn)。第一，不完全的連接機(jī)制將連接的數(shù)量保持在合理的范圍內(nèi)。第二，也是最重要的，其破壞了網(wǎng)絡(luò)的對(duì)稱性。由于不同的特征圖有不同的輸入，所以迫使他們抽取不同的特征（希望是互補(bǔ)的）。

例如，存在的一個(gè)方式是：C3的前6個(gè)特征圖以S2中3個(gè)相鄰的特征圖子集為輸入。接下來(lái)6個(gè)特征圖以S2中4個(gè)相鄰特征圖子集為輸入。然后的3個(gè)以不相鄰的4個(gè)特征圖子集為輸入。最后一個(gè)將S2中所有特征圖為輸入。這樣C3層有1516個(gè)可訓(xùn)練參數(shù)和151600個(gè)連接。

S4層是一個(gè)下采樣層，由16個(gè)5*5大小的特征圖構(gòu)成。特征圖中的每個(gè)單元與C3中相應(yīng)特征圖的2*2鄰域相連接，跟C1和S2之間的連接一樣。S4層有32個(gè)可訓(xùn)練參數(shù)（每個(gè)特征圖1個(gè)因子和一個(gè)偏置）和2000個(gè)連接。

C5層是一個(gè)卷積層，有120個(gè)特征圖。每個(gè)單元與S4層的全部16個(gè)單元的5*5鄰域相連。由于S4層特征圖的大小也為5*5（同濾波器一樣），故C5特征圖的大小為1*1：這構(gòu)成了S4和C5之間的全連接。之所以仍將C5標(biāo)示為卷積層而非全相聯(lián)層，是因?yàn)槿绻鸏eNet-5的輸入變大，而其他的保持不變，那么此時(shí)特征圖的維數(shù)就會(huì)比1*1大。C5層有48120個(gè)可訓(xùn)練連接。

F6層有84個(gè)單元（之所以選這個(gè)數(shù)字的原因來(lái)自于輸出層的設(shè)計(jì)），與C5層全相連。有10164個(gè)可訓(xùn)練參數(shù)。如同經(jīng)典神經(jīng)網(wǎng)絡(luò)，F(xiàn)6層計(jì)算輸入向量和權(quán)重向量之間的點(diǎn)積，再加上一個(gè)偏置。然后將其傳遞給sigmoid函數(shù)產(chǎn)生單元i的一個(gè)狀態(tài)。

最后，輸出層由歐式徑向基函數(shù)（Euclidean Radial Basis Function）單元組成，每類一個(gè)單元，每個(gè)有84個(gè)輸入。換句話說(shuō)，每個(gè)輸出RBF單元計(jì)算輸入向量和參數(shù)向量之間的歐式距離。輸入離參數(shù)向量越遠(yuǎn)，RBF輸出的越大。一個(gè)RBF輸出可以被理解為衡量輸入模式和與RBF相關(guān)聯(lián)類的一個(gè)模型的匹配程度的懲罰項(xiàng)。用概率術(shù)語(yǔ)來(lái)說(shuō)，RBF輸出可以被理解為F6層配置空間的高斯分布的負(fù)log-likelihood。給定一個(gè)輸入模式，損失函數(shù)應(yīng)能使得F6的配置與RBF參數(shù)向量（即模式的期望分類）足夠接近。這些單元的參數(shù)是人工選取并保持固定的（至少初始時(shí)候如此）。這些參數(shù)向量的成分被設(shè)為-1或1。雖然這些參數(shù)可以以-1和1等概率的方式任選，或者構(gòu)成一個(gè)糾錯(cuò)碼，但是被設(shè)計(jì)成一個(gè)相應(yīng)字符類的7*12大?。?4）的格式化圖片。這種表示對(duì)識(shí)別單獨(dú)的數(shù)字不是很有用，但是對(duì)識(shí)別可打印ASCII集中的字符串很有用。

使用這種分布編碼而非更常用的“1 of N”編碼用于產(chǎn)生輸出的另一個(gè)原因是，當(dāng)類別比較大的時(shí)候，非分布編碼的效果比較差。原因是大多數(shù)時(shí)間非分布編碼的輸出必須為0。這使得用sigmoid單元很難實(shí)現(xiàn)。另一個(gè)原因是分類器不僅用于識(shí)別字母，也用于拒絕非字母。使用分布編碼的RBF更適合該目標(biāo)。因?yàn)榕csigmoid不同，他們?cè)谳斎肟臻g的較好限制的區(qū)域內(nèi)興奮，而非典型模式更容易落到外邊。

RBF參數(shù)向量起著F6層目標(biāo)向量的角色。需要指出這些向量的成分是+1或-1，這正好在F6 sigmoid的范圍內(nèi)，因此可以防止sigmoid函數(shù)飽和。實(shí)際上，+1和-1是sigmoid函數(shù)的最大彎曲的點(diǎn)處。這使得F6單元運(yùn)行在最大非線性范圍內(nèi)。必須避免sigmoid函數(shù)的飽和，因?yàn)檫@將會(huì)導(dǎo)致?lián)p失函數(shù)較慢的收斂和病態(tài)問(wèn)題。

5）訓(xùn)練過(guò)程

神經(jīng)網(wǎng)絡(luò)用于模式識(shí)別的主流是有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)，無(wú)指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)更多的是用于聚類分析。對(duì)于有指導(dǎo)的模式識(shí)別，由于任一樣本的類別是已知的，樣本在空間的分布不再是依據(jù)其自然分布傾向來(lái)劃分，而是要根據(jù)同類樣本在空間的分布及不同類樣本之間的分離程度找一種適當(dāng)?shù)目臻g劃分方法，或者找到一個(gè)分類邊界，使得不同類樣本分別位于不同的區(qū)域內(nèi)。這就需要一個(gè)長(zhǎng)時(shí)間且復(fù)雜的學(xué)習(xí)過(guò)程，不斷調(diào)整用以劃分樣本空間的分類邊界的位置，使盡可能少的樣本被劃分到非同類區(qū)域中。

卷積網(wǎng)絡(luò)在本質(zhì)上是一種輸入到輸出的映射，它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān)系，而不需要任何輸入和輸出之間的精確的數(shù)學(xué)表達(dá)式，只要用已知的模式對(duì)卷積網(wǎng)絡(luò)加以訓(xùn)練，網(wǎng)絡(luò)就具有輸入輸出對(duì)之間的映射能力。卷積網(wǎng)絡(luò)執(zhí)行的是有導(dǎo)師訓(xùn)練，所以其樣本集是由形如：（輸入向量，理想輸出向量）的向量對(duì)構(gòu)成的。所有這些向量對(duì)，都應(yīng)該是來(lái)源于網(wǎng)絡(luò)即將模擬的系統(tǒng)的實(shí)際“運(yùn)行”結(jié)果。它們可以是從實(shí)際運(yùn)行系統(tǒng)中采集來(lái)的。在開(kāi)始訓(xùn)練前，所有的權(quán)都應(yīng)該用一些不同的小隨機(jī)數(shù)進(jìn)行初始化?！靶‰S機(jī)數(shù)”用來(lái)保證網(wǎng)絡(luò)不會(huì)因權(quán)值過(guò)大而進(jìn)入飽和狀態(tài)，從而導(dǎo)致訓(xùn)練失?。弧安煌庇脕?lái)保證網(wǎng)絡(luò)可以正常地學(xué)習(xí)。實(shí)際上，如果用相同的數(shù)去初始化權(quán)矩陣，則網(wǎng)絡(luò)無(wú)能力學(xué)習(xí)。

訓(xùn)練算法與傳統(tǒng)的BP算法差不多。主要包括4步，這4步被分為兩個(gè)階段：

第一階段，向前傳播階段：

a）從樣本集中取一個(gè)樣本(X,Y_p)，將X輸入網(wǎng)絡(luò)；

b）計(jì)算相應(yīng)的實(shí)際輸出O_p。

在此階段，信息從輸入層經(jīng)過(guò)逐級(jí)的變換，傳送到輸出層。這個(gè)過(guò)程也是網(wǎng)絡(luò)在完成訓(xùn)練后正常運(yùn)行時(shí)執(zhí)行的過(guò)程。在此過(guò)程中，網(wǎng)絡(luò)執(zhí)行的是計(jì)算（實(shí)際上就是輸入與每層的權(quán)值矩陣相點(diǎn)乘，得到最后的輸出結(jié)果）：

O_p=F_n（…（F₂（F₁（X_pW^（1））W^（2））…）W^（n））

第二階段，向后傳播階段

a）算實(shí)際輸出O_p與相應(yīng)的理想輸出Y_p的差；

b）按極小化誤差的方法反向傳播調(diào)整權(quán)矩陣。

6）卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)

卷積神經(jīng)網(wǎng)絡(luò)CNN主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測(cè)層通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，所以在使用CNN時(shí)，避免了顯式的特征抽取，而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)；再者由于同一特征映射面上的神經(jīng)元權(quán)值相同，所以網(wǎng)絡(luò)可以并行學(xué)習(xí)，這也是卷積網(wǎng)絡(luò)相對(duì)于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性，其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò)，權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性，特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過(guò)程中數(shù)據(jù)重建的復(fù)雜度。

流的分類方式幾乎都是基于統(tǒng)計(jì)特征的，這就意味著在進(jìn)行分辨前必須提取某些特征。然而，顯式的特征提取并不容易，在一些應(yīng)用問(wèn)題中也并非總是可靠的。卷積神經(jīng)網(wǎng)絡(luò)，它避免了顯式的特征取樣，隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)。這使得卷積神經(jīng)網(wǎng)絡(luò)明顯有別于其他基于神經(jīng)網(wǎng)絡(luò)的分類器，通過(guò)結(jié)構(gòu)重組和減少權(quán)值將特征提取功能融合進(jìn)多層感知器。它可以直接處理灰度圖片，能夠直接用于處理基于圖像的分類。

卷積網(wǎng)絡(luò)較一般神經(jīng)網(wǎng)絡(luò)在圖像處理方面有如下優(yōu)點(diǎn)： a）輸入圖像和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能很好的吻合；b）特征提取和模式分類同時(shí)進(jìn)行，并同時(shí)在訓(xùn)練中產(chǎn)生；c）權(quán)重共享可以減少網(wǎng)絡(luò)的訓(xùn)練參數(shù)，使神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得更簡(jiǎn)單，適應(yīng)性更強(qiáng)。

7）小結(jié)

CNNs中這種層間聯(lián)系和空域信息的緊密關(guān)系，使其適于圖像處理和理解。而且，其在自動(dòng)提取圖像的顯著特征方面還表現(xiàn)出了比較優(yōu)的性能。在一些例子當(dāng)中，Gabor濾波器已經(jīng)被使用在一個(gè)初始化預(yù)處理的步驟中，以達(dá)到模擬人類視覺(jué)系統(tǒng)對(duì)視覺(jué)刺激的響應(yīng)。在目前大部分的工作中，研究者將CNNs應(yīng)用到了多種機(jī)器學(xué)習(xí)問(wèn)題中，包括人臉識(shí)別，文檔分析和語(yǔ)言檢測(cè)等。為了達(dá)到尋找視頻中幀與幀之間的相干性的目的，目前CNNs通過(guò)一個(gè)時(shí)間相干性去訓(xùn)練，但這個(gè)不是CNNs特有的。

十、總結(jié)與展望

1）Deep learning總結(jié)

深度學(xué)習(xí)是關(guān)于自動(dòng)學(xué)習(xí)要建模的數(shù)據(jù)的潛在（隱含）分布的多層（復(fù)雜）表達(dá)的算法。換句話來(lái)說(shuō)，深度學(xué)習(xí)算法自動(dòng)的提取分類需要的低層次或者高層次特征。高層次特征，一是指該特征可以分級(jí)（層次）地依賴其他特征，例如：對(duì)于機(jī)器視覺(jué)，深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到它的一個(gè)低層次表達(dá)，例如邊緣檢測(cè)器，小波濾波器等，然后在這些低層次表達(dá)的基礎(chǔ)上再建立表達(dá)，例如這些低層次表達(dá)的線性或者非線性組合，然后重復(fù)這個(gè)過(guò)程，最后得到一個(gè)高層次的表達(dá)。

Deep learning能夠得到更好地表示數(shù)據(jù)的feature，同時(shí)由于模型的層次、參數(shù)很多，capacity足夠，因此，模型有能力表示大規(guī)模數(shù)據(jù)，所以對(duì)于圖像、語(yǔ)音這種特征不明顯（需要手工設(shè)計(jì)且很多沒(méi)有直觀物理含義）的問(wèn)題，能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果。此外，從模式識(shí)別特征和分類器的角度，deep learning框架將feature和分類器結(jié)合到一個(gè)框架中，用數(shù)據(jù)去學(xué)習(xí)feature，在使用中減少了手工設(shè)計(jì)feature的巨大工作量（這是目前工業(yè)界工程師付出努力最多的方面），因此，不僅僅效果可以更好，而且，使用起來(lái)也有很多方便之處，因此，是十分值得關(guān)注的一套框架，每個(gè)做ML的人都應(yīng)該關(guān)注了解一下。

當(dāng)然，deep learning本身也不是完美的，也不是解決世間任何ML問(wèn)題的利器，不應(yīng)該被放大到一個(gè)無(wú)所不能的程度。

2）Deep learning未來(lái)

深度學(xué)習(xí)目前仍有大量工作需要研究。目前的關(guān)注點(diǎn)還是從機(jī)器學(xué)習(xí)的領(lǐng)域借鑒一些可以在深度學(xué)習(xí)使用的方法，特別是降維領(lǐng)域。例如：目前一個(gè)工作就是稀疏編碼，通過(guò)壓縮感知理論對(duì)高維數(shù)據(jù)進(jìn)行降維，使得非常少的元素的向量就可以精確的代表原來(lái)的高維信號(hào)。另一個(gè)例子就是半監(jiān)督流行學(xué)習(xí)，通過(guò)測(cè)量訓(xùn)練樣本的相似性，將高維數(shù)據(jù)的這種相似性投影到低維空間。另外一個(gè)比較鼓舞人心的方向就是evolutionary programming approaches（遺傳編程方法），它可以通過(guò)最小化工程能量去進(jìn)行概念性自適應(yīng)學(xué)習(xí)和改變核心架構(gòu)。

Deep learning還有很多核心的問(wèn)題需要解決：

（1）對(duì)于一個(gè)特定的框架，對(duì)于多少維的輸入它可以表現(xiàn)得較優(yōu)（如果是圖像，可能是上百萬(wàn)維）？

（2）對(duì)捕捉短時(shí)或者長(zhǎng)時(shí)間的時(shí)間依賴，哪種架構(gòu)才是有效的？

（3）如何對(duì)于一個(gè)給定的深度學(xué)習(xí)架構(gòu)，融合多種感知的信息？

（4）有什么正確的機(jī)理可以去增強(qiáng)一個(gè)給定的深度學(xué)習(xí)架構(gòu)，以改進(jìn)其魯棒性和對(duì)扭曲和數(shù)據(jù)丟失的不變性？

（5）模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法？

探索新的特征提取模型是值得深入研究的內(nèi)容。此外有效的可并行訓(xùn)練算法也是值得研究的一個(gè)方向。當(dāng)前基于最小批處理的隨機(jī)梯度優(yōu)化算法很難在多計(jì)算機(jī)中進(jìn)行并行訓(xùn)練。通常辦法是利用圖形處理單元加速學(xué)習(xí)過(guò)程。然而單個(gè)機(jī)器GPU對(duì)大規(guī)模數(shù)據(jù)識(shí)別或相似任務(wù)數(shù)據(jù)集并不適用。在深度學(xué)習(xí)應(yīng)用拓展方面，如何合理充分利用深度學(xué)習(xí)在增強(qiáng)傳統(tǒng)學(xué)習(xí)算法的性能仍是目前各領(lǐng)域的研究重點(diǎn)。

十一、參考文獻(xiàn)和Deep Learning學(xué)習(xí)資源

（1）Deep Learning

http://deeplearning.net/

（2）Deep Learning Methods for Vision

http://cs.nyu.edu/~fergus/tutorials/deep_learning_cvpr12/

（3）Neural Network for Recognition of Handwritten Digits[Project]

http://www.codeproject.com/Articles/16650/Neural-Network-for-Recognition-of-Handwritten-Digi

（4）Training a deep autoencoder or a classifier on MNIST digits

http://www.cs.toronto.edu/~hinton/MatlabForSciencePaper.html

（5）Ersatz：deep neural networks in the cloud

http://www.ersatz1.com/

（6）Deep Learning