作者:滄笙踏歌
來源 | AI部落聯(lián)盟(ID:AI_Tribe)
本文首先從4個方面(張量、生成模型、序列學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí))追蹤深度學(xué)習(xí)幾十年的發(fā)展史,然后再介紹主流的26個深度學(xué)習(xí)模型。
1.深度學(xué)習(xí)發(fā)展史
深度學(xué)習(xí)的發(fā)展史主要是我?guī)讉€月前看的唐杰老師的學(xué)生整理的一個博文,現(xiàn)在找不到博文了。憑借記錄加上我的理解,簡單寫一寫吧。如果還有人知道這個博文,歡迎告知,我把鏈接放上來,供大家更好的學(xué)習(xí)。(編者注:https://weibo.com/2126427211/GavUQjfLa?type=comment#_rnd1543405779148)
主要按最早研究出現(xiàn)的時間,從4個方面來追蹤深度學(xué)習(xí)的發(fā)展史。
1.1 張量
1958年Frank提出感知機(jī),但后來被一些學(xué)者發(fā)現(xiàn)因算力的不足,制約了較大神經(jīng)網(wǎng)絡(luò)的計算,導(dǎo)致很長時間發(fā)展緩慢。
Fukushima在1979年左右提出Neocognitron,感覺這是卷積和池化的雛形。
Hinton在1986年提出反向傳播的思想和多層感知機(jī)(BPNN/MLP),有非常大的意義,對未來幾十年(可以說直到現(xiàn)在)影響深遠(yuǎn)。
接下來比較重要的發(fā)展是,LeCun在1998年提出LeNet-5,7層的CNN做數(shù)字識別。
然后AlexNet在12年在ImageNet奪冠,主要是CNN+Dropout+Relu,又是Hinton極大的帶動了DL的發(fā)展,大佬的地位毋庸置疑。另外相似的還有15年的GoogLeNet。
總算有華人大佬作出大貢獻(xiàn)了,16年何愷明(CV領(lǐng)域應(yīng)該無人不知)提出Resnet,還拿了best paper,影響較大,當(dāng)然效果也很好。另外相似的還有17年的DenseNet。
17年Capsule Network登場了,又是Hinton。我比較看好膠囊網(wǎng)絡(luò)在NLP領(lǐng)域的發(fā)展,雖然現(xiàn)在還沒太明顯的效果。因為用膠囊網(wǎng)絡(luò)來做文本的特征表示的話,可以極大的豐富特征,更適合處理文本這種比較靈活的數(shù)據(jù)。
1.2 生成模型
上世紀(jì)80年代提出RBM,06年疊加成Deep Belief Network(DBN),這算是重新疊加網(wǎng)絡(luò)的一個比較重要的開始吧。
上世紀(jì)80年代Hinton提出Auto-Encode,過了較長時間Bengio在08年提出Denoise Auto-Encode。Welling在13年提出Variational Auto-Encode。
接下來,在14年Goodfellow和Bengio等提出GAN,從此生成網(wǎng)絡(luò)不僅是AE以及其變種(Denoise Auto-Encode、Variational Auto-Encode等)了,可以這么說:GAN的出現(xiàn)極大的提高了生成模型的地位和熱點(diǎn),GAN也是席卷NLP、CV、AI等領(lǐng)域的各大頂會,甚至是一些best paper。另外,陸續(xù)出現(xiàn)很多很多GAN的變種,比如DCGAN、CGAN、PGGAN、LAPGAN、InfoGAN、WGAN、F-GAN、SeqGAN、LeakGAN等。
1.3 序列學(xué)習(xí)
1982年提出hopfield network,1997年 Schmidhuber提出LSTM。Hinton組在13年把RNN用在語音識別上取得巨大突破,RNN立馬爆火。
03年提出LM(語言模型),13年提出w2v,佩服Bengio,這也是我為啥千里迢迢跑去找Benign合影的原因之一。w2v帶來的影響不言而喻,目前NLP領(lǐng)域基本上所有Paper都會用到詞向量,包括也影響了后面出現(xiàn)的Glove、FastText、ELMo(18年2月)、Transformer(18年6月)、Bert(18年10月提出,Jacob一戰(zhàn)封神,我感覺至少是18年NLP領(lǐng)域最大的發(fā)展,甚至可以說是近幾年最大的發(fā)展)等。Bert的出現(xiàn),很可能改變所有主流NLP任務(wù)的打法和Baseline。
還有一個分支,14年出現(xiàn)Seq2Seq,這個重要性也無需贅述了,NLP領(lǐng)域的都知道。然后15年出現(xiàn)Charater CNN,17年出現(xiàn)self-attention。
1.4 深度強(qiáng)化學(xué)習(xí)
提到強(qiáng)化學(xué)習(xí)就不得不提這Deep Mind、AlphaGo以及其變種、Silver。13年提出Deep Q-learning,15年提出Double DQN,16年提出Dueling Net。 15年的DDPG和16年的A3C都是NN+Policy Gradient,也應(yīng)用在不少領(lǐng)域。16年的AlphaGo(除了AI領(lǐng)域,很多不懂AI的人都知道,甚至可以說是AI爆火的最大助力),17年出現(xiàn)更瘋狂的Alpha Zero。
2.深度學(xué)習(xí)模型
翻譯自neural-network-zoo,原文略煩瑣而不利于入門學(xué)習(xí),我做了簡化,方便大家閱讀。如果有感興趣的,可以通過此鏈接深入學(xué)習(xí)。
2.1 Feed forward neural networks (FF or FFNN) and perceptrons (P)
前饋神經(jīng)網(wǎng)絡(luò)和感知機(jī),信息從前(輸入)往后(輸出)流動,一般用反向傳播(BP)來訓(xùn)練。算是一種監(jiān)督學(xué)習(xí)。對應(yīng)的paper。
2.2 Radial basis function (RBF)
徑向基函數(shù)網(wǎng)絡(luò),是一種徑向基函數(shù)作為激活函數(shù)的FFNNs(前饋神經(jīng)網(wǎng)絡(luò))。對應(yīng)的paper。
2.3 Hopfield network (HN)
Hopfield網(wǎng)絡(luò),是一種每個神經(jīng)元都跟其它神經(jīng)元相連接的神經(jīng)網(wǎng)絡(luò)。對應(yīng)的paper。
2.4 Markov chains (MC or discrete time Markov Chain, DTMC)
馬爾可夫鏈 或離散時間馬爾可夫鏈,算是BMs和HNs的雛形。對應(yīng)的paper。
2.5 Boltzmann machines (BM)
玻爾茲曼機(jī),和Hopfield網(wǎng)絡(luò)很類似,但是:一些神經(jīng)元作為輸入神經(jīng)元,剩余的是隱藏層。對應(yīng)的paper。
2.6 Restricted Boltzmann machines (RBM)
受限玻爾茲曼機(jī),和玻爾茲曼機(jī) 以及 Hopfield網(wǎng)絡(luò) 都比較類似。對應(yīng)的paper。
2.7 Autoencoders (AE)
自動編碼,和FFNN有些類似,它更像是FFNN的另一種用法,而不是本質(zhì)上完全不同的另一種架構(gòu)。對應(yīng)的paper。
2.8 Sparse autoencoders (SAE)
稀疏自動編碼,跟自動編碼在某種程度比較相反。對應(yīng)的paper。
2.9 Variational autoencoders (VAE)
變分自動編碼,和AE架構(gòu)相似,不同的是:輸入樣本的一個近似概率分布。這使得它跟BM、RBM更相近。對應(yīng)的paper。
2.10 Denoising autoencoders (DAE)
去噪自動編碼,也是一種自編碼機(jī),它不僅需要訓(xùn)練數(shù)據(jù),還需要帶噪音的訓(xùn)練數(shù)據(jù)。對應(yīng)的paper。
2.11 Deep belief networks (DBN)
深度信念網(wǎng)絡(luò),由多個受限玻爾茲曼機(jī)或變分自動編碼堆砌而成。對應(yīng)的paper。
2.12 Convolutional neural networks (CNN or deep convolutional neural networks, DCNN)
卷積神經(jīng)網(wǎng)絡(luò),這個不解釋也都知道。對應(yīng)的paper。
2.13 Deconvolutional networks (DN)
去卷積網(wǎng)絡(luò),又叫逆圖形網(wǎng)絡(luò),是一種逆向的卷積神經(jīng)網(wǎng)絡(luò)。對應(yīng)的paper。
2.14 Deep convolutional inverse graphics networks (DCIGN)
深度卷積逆向圖網(wǎng)絡(luò),實際上是VAE,且分別用CNN、DNN來作編碼和解碼。對應(yīng)的paper。
2.15 Generative adversarial networks (GAN)
生成對抗網(wǎng)絡(luò),Goodfellow的封神之作,這個模型不用解釋也都知道。對應(yīng)的paper。
2.16 Recurrent neural networks (RNN)
循環(huán)神經(jīng)網(wǎng)絡(luò),這個更不用解釋,做語音、NLP的沒有人不知道,甚至非AI相關(guān)人員也知道。對應(yīng)的paper。
2.17 Long / short term memory (LSTM)
長短期記憶網(wǎng)絡(luò), RNN的變種,解決梯度消失/爆炸的問題,也不用解釋,這幾年刷爆各大頂會。對應(yīng)的paper。
2.18 Gated recurrent units (GRU)
門循環(huán)單元,類似LSTM的定位,算是LSTM的簡化版。對應(yīng)的paper。
2.19 Neural Turing machines (NTM)
神經(jīng)圖靈機(jī),LSTM的抽象,以窺探LSTM的內(nèi)部細(xì)節(jié)。具有讀取、寫入、修改狀態(tài)的能力。對應(yīng)的paper。
2.20 Bidirectional recurrent neural networks, bidirectional long / short term memory networks and bidirectional gated recurrent units (BiRNN, BiLSTM and BiGRU respectively)
雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、雙向長短期記憶網(wǎng)絡(luò)和雙向門控循環(huán)單元,把RNN、雙向的LSTM、GRU雙向,不再只是從左到右,而是既有從左到右又有從右到左。對應(yīng)的paper。
2.21 Deep residual networks (DRN)
深度殘差網(wǎng)絡(luò),是非常深的FFNN,它可以把信息從某一層傳至后面幾層(通常2-5層)。對應(yīng)的paper。
2.22 Echo state networks (ESN)
回聲狀態(tài)網(wǎng)絡(luò),是另一種不同類型的(循環(huán))網(wǎng)絡(luò)。對應(yīng)的paper。
2.23 Extreme learning machines (ELM)
極限學(xué)習(xí)機(jī),本質(zhì)上是隨機(jī)連接的FFNN。對應(yīng)的paper。
2.24 Liquid state machines (LSM)
液態(tài)機(jī),跟ESN類似,區(qū)別是用閾值激活函數(shù)取代了sigmoid激活函數(shù)。對應(yīng)的paper。
2.25 Support vector machines (SVM)
支持向量機(jī),入門機(jī)器學(xué)習(xí)的人都知道,不解釋。對應(yīng)的paper。
2.26 Kohonen networks (KN, also self organising (feature) map, SOM, SOFM)
Kohonen 網(wǎng)絡(luò),也稱之為自組織(特征)映射。對應(yīng)的paper。
總結(jié)一下吧,深度學(xué)習(xí)發(fā)展很快,新的模型層出不窮,所以要想全部列舉是不可能的。另外,很多模型都是這里提出很長很長時間了,所以也不是說“老”模型就沒用,大家學(xué)習(xí)的話,還是要全面而深入的學(xué)習(xí)。
作者簡介:滄笙踏歌,碩士畢業(yè)于北京大學(xué),目前計算機(jī)科學(xué)與技術(shù)博士在讀,主要研究自然語言處理和對話系統(tǒng),擅長使用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)解決自然語言處理問題。讀博前在公司帶過NLP算法團(tuán)隊。
CDA 課程咨詢丨趙老師
更多精彩文章
· 免費(fèi)!10本必讀的機(jī)器學(xué)習(xí)書籍(附下載)
聯(lián)系客服