來源:leogao
【新智元導(dǎo)讀】從自動駕駛到Deepfake,深度學(xué)習(xí)正在改變世界。過去十年中有哪些有影響力的深度學(xué)習(xí)論文?從“深度學(xué)習(xí)三巨頭”到何愷明,從谷歌到MIT,52篇神級論文帶大家回顧深度學(xué)習(xí)這十年。
隨著2020年的到來,人類進入了一個嶄新的十年?;仡欉^去10年,深度學(xué)習(xí)領(lǐng)域取得的巨大進步。隨著計算能力的不斷提高和大數(shù)據(jù)可用性的不斷提高,深度學(xué)習(xí)已經(jīng)成功地解決了許多以前難以解決的問題,特別是在計算機視覺和自然語言處理領(lǐng)域。深度學(xué)習(xí)也開始在現(xiàn)實世界中應(yīng)用,從自動駕駛汽車和醫(yī)學(xué)成像到虛擬助手和deepfake,或多或少都在影響我們。
今天和大家分享的這篇文章概述了過去十年中一些最有影響力的深度學(xué)習(xí)論文,受到了reddit網(wǎng)友們的高贊。(點擊進入下方小程序一鍵獲取這些論文哦)
2011年:Yoshua Bengio等人提出ReLU激活函數(shù),為更深層次網(wǎng)絡(luò)鋪平了道路
Deep Sparse Rectifier Neural Networks (被引4071次)
ReLU和Softplus
Yoshua Bengio等人的這篇論文提出了ReLU激活函數(shù),ReLU激活函數(shù)的表現(xiàn)能力比tanh激活函數(shù)的更加好,訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)具有一定的稀疏性。本文發(fā)現(xiàn),使用ReLU有助于解決梯度消失的問題,并為更深層次的網(wǎng)絡(luò)鋪平了道路。
2011年其他重要論文:
Rectifier Nonlinearities Improve Neural Network Acoustic Models
Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)
Self-Normalizing Neural Networks
Gaussian Error Linear Units (GELUs)
2012年:Hinton指導(dǎo),AlexNet轟動一時
ImageNet Classification with Deep Convolutional Neural Networks (被引52025次)
AlexNet體系結(jié)構(gòu)
2012 年,在Hinton的指導(dǎo)下,Alex Krizhevsky和Sutskever 合作開發(fā)了轟動一時的AlexNet。這篇題為ImageNet Classification with Deep Convolutional Neural Networks的論文,引用量超50000次。
AlexNet以一種新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu)在NeurIPS亮相,包含五個卷積層和三個全連接層。這篇論文被廣泛認為是一項真正的開創(chuàng)性工作,因為它首次證明了在GPU上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)可以將圖像識別任務(wù)提升到一個新的水平。
AlexNet網(wǎng)絡(luò)對神經(jīng)網(wǎng)絡(luò)的發(fā)展產(chǎn)生了非常重要的影響,之后的ImageNet冠軍全都采用了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得CNN架構(gòu)成為圖像分類的核心模型,并由此開啟了深度學(xué)習(xí)新一波浪潮,其使用的卷積+池化+全連接的架構(gòu)仍然是當前深度學(xué)習(xí)最主要的網(wǎng)絡(luò)結(jié)構(gòu)。
2012年其他重要論文:
ImageNet層次結(jié)構(gòu)中的圖像示例
ImageNet: A Large-Scale Hierarchical Image Database
Flexible, High Performance Convolutional Neural Networks for Image Classification
Gradient-Based Learning Applied to Document Recognition
2013年:DQN打響DRL的第一槍
Distributed Representations of Words and Phrases and their Compositionality (被引16923次)
這篇論文是對《Efficient Estimation of Word Representations in Vector Space》的補充,介紹了使用Skip-gram模型和Hierarchical Softmax訓(xùn)練模式的訓(xùn)練方法,并補充了Negative Sampling的訓(xùn)練模式替代Negative Sampling,獲得更快的訓(xùn)練效果。本文還提出了對高頻詞進行二次抽樣的方法,以及衡量短語的方法,學(xué)習(xí)短語的表示。
Mikolov等人引入了Skip-gram模型,這是一種從大量非結(jié)構(gòu)化文本數(shù)據(jù)中學(xué)習(xí)高質(zhì)量向量表示的有效方法。與過去大部分用于學(xué)習(xí)word vectors的神經(jīng)網(wǎng)絡(luò)架構(gòu)不同,Skip-gram模型的訓(xùn)練不涉及密集矩陣的乘法。這使得訓(xùn)練非常高效:一個優(yōu)化過的單機實現(xiàn)可以在一天內(nèi)訓(xùn)練超過1000億字。
Playing Atari with Deep Reinforcement Learning (被引3251次)
DeepMind Atari DQN
DeepMind的Atari DQN的結(jié)果開啟了深度強化學(xué)習(xí)的領(lǐng)域。強化學(xué)習(xí)以前主要用于網(wǎng)格世界等低維環(huán)境,很難應(yīng)用于更復(fù)雜的環(huán)境。Atari是強化學(xué)習(xí)在高維環(huán)境中的第一個成功應(yīng)用,它將強化學(xué)習(xí)從從默默無聞帶到了AI的重要子領(lǐng)域。
本文提出了一種深度學(xué)習(xí)方法,利用強化學(xué)習(xí)的方法,直接從高維的感知輸入中學(xué)習(xí)控制策略。模型是一個卷積神經(jīng)網(wǎng)絡(luò),利用 Q-learning的一個變種來進行訓(xùn)練,輸入是原始像素,輸出是預(yù)測將來的獎勵的 value function。將此方法應(yīng)用到 Atari 2600 games 上來,進行測試,發(fā)現(xiàn)在所有游戲中都比之前的方法有效,甚至在其中3個游戲中超過了一個人類玩家的水平。
2013年其他重要論文:
GloVe: Global Vectors for Word Representation
Learning from Delayed Rewards
2014年:Bengio同他的博士生Ian Goodfellow合著論文,提出了著名的生成對抗網(wǎng)絡(luò)
Generative Adversarial Networks (被引 13917次)
生成對抗網(wǎng)絡(luò)(GAN)的走紅在很大程度上要歸功于其產(chǎn)生的驚人視覺效果。依靠生成器和判別器之間的博弈,GAN能夠建模復(fù)雜的高維分布。生成器的目的是盡量降低判別器正確判斷出假樣本的概率,而判別器的目標是最大程度地降低圖像分類和判斷假樣本時的錯誤。
在實踐中,通常會訓(xùn)練生成器讓判別器錯誤識別的對數(shù)概率最大化。這可以減小梯度飽和,并提高訓(xùn)練穩(wěn)定性。
Neural Machine Translation by Jointly Learning to Align and Translate (被引 9882 次)
本文介紹了注意力的概念。與其將信息壓縮到RNN的潛在空間中,不如將整個上下文保留在內(nèi)存中,利用o(mn)次操作,讓輸出的每個元素都參與輸入的每個元素。
盡管增加了計算次數(shù),但是注意力極致要比固定狀態(tài)的RNN性能更好,不僅成為翻譯和語言建模等文本類任務(wù)不可或缺的一部分,而且也加入到GAN等非文本模型中。
Adam:A Method for Stochastic Optimization (被引 34082 次)
由于便于調(diào)節(jié),Adam已成為非常流行的自適應(yīng)優(yōu)化器。Adam可以為每個參數(shù)單獨調(diào)節(jié)學(xué)習(xí)率。盡管最近的論文對Adam的性能表示懷疑,但它仍然是目前深度學(xué)習(xí)中最受歡迎的優(yōu)化算法之一。
2014年其他重要論文:
Wasserstein GAN & Improved Training of Wasserstein GANs
A Style-Based Generator Architecture for Generative Adversarial Networks
Decoupled Weight Decay Regularization
2015年:ResNet讓何愷明正式踏上大神之路
Deep Residual Learning forImage Recognition (被引 34635次 )
深度殘差學(xué)習(xí)最初設(shè)計用于解決深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的梯度消失/梯度爆炸問題,現(xiàn)在,殘差塊已成為幾乎所有CNN的基本組成部分。它的思路很簡單:將輸入從卷積層的每個塊之前添加到輸出中。殘差網(wǎng)絡(luò)背后的啟示是,理論上神經(jīng)網(wǎng)絡(luò)絕不應(yīng)該分解為更多的層,因為在最壞的情況下,可以將其他層簡單地設(shè)置為身份映射。
但是在實踐中,更深層的網(wǎng)絡(luò)經(jīng)常會遇到訓(xùn)練困難的問題。殘差網(wǎng)絡(luò)使各層更容易學(xué)習(xí)身份映射,而且緩解了梯度消失的問題。盡管思路簡單,但是殘差網(wǎng)絡(luò)在很大程度上優(yōu)于常規(guī)的CNN,對于較深的網(wǎng)絡(luò)而言優(yōu)勢尤其明顯。
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (被引 14384次)
批歸一化(Batch normalization)是當今幾乎所有神經(jīng)網(wǎng)絡(luò)的另一支柱。它基于另一個簡單而強大的思路:在訓(xùn)練過程中保持均值和方差統(tǒng)計,并使用該統(tǒng)計將激活范圍縮放為零均值和單位方差。批歸一化能夠有效的確切原因尚有爭議,但從過去經(jīng)驗看,其有效性是毫無疑問的。
2015年其他重要論文:
Going Deeper with Convolutions
Very Deep Convolutional Networks for Large-Scale Image Recognition
Neural Ordinary Differential Equations
Layer Normalization
Instance Normalization: The Missing Ingredient for Fast Stylization
Group Normalization
2016年:谷歌DeepMind團隊揭秘AlphaGo
Mastering the game of Go with deep neuralnetworks and tree search (被引 6310 次)
在1997年IBM的計算機“深藍”擊敗國際象棋世界冠軍卡斯帕羅夫之后,圍棋就成為AI社區(qū)的下一個目標,這主要是因為圍棋的特點:圍棋的狀態(tài)空間比國際象棋大得多,對人類棋手直覺的依賴也更強。
在AlphaGo之前,最成功的AI圍棋系統(tǒng)(如Crazy Stone和Zen)都是蒙特卡羅樹搜索與許多手工啟發(fā)式搜索相結(jié)合的樹搜索形式。從這些系統(tǒng)的進展速度來看,過去認為AI在圍棋上擊敗人類頂尖選手還要很多年。盡管確實存在將神經(jīng)網(wǎng)絡(luò)應(yīng)用于圍棋的先前嘗試,但之前確實沒有一次能達到AlphaGo的水平。AlphaGo由策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)組成,這些策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)分別縮小了搜索樹的范圍,并允許截斷搜索樹。這些網(wǎng)絡(luò)首先通過標準的監(jiān)督學(xué)習(xí)進行了訓(xùn)練,然后通過強化學(xué)習(xí)進行了進一步的調(diào)整。
AlphaGo可能對大眾的觀點產(chǎn)生了巨大影響,2016年,全球估計有1億人(尤其是在圍棋十分流行的中、日、韓三國)觀看了AlphaGo和李世石的“人機大戰(zhàn)”。這場比賽以及以后的其他AlphaGo Zero的比賽,已經(jīng)影響了人類棋手的行棋策略。其中本次比賽第二局的第37手是AlphaGo極有影響力的一手。AlphaGo的很多行棋有違人類棋手的常規(guī),讓許多分析師感到困惑。后來證明,這一手對于AlphaGo取得勝利至關(guān)重要。
2016年其他重要論文:
Mastering the Game of Go without Human Knowledge
2017年:谷歌把基于Attention的序列神經(jīng)模型推向高潮
Attention Is All You Need (被引 5059次)
Transformer體系結(jié)構(gòu)大規(guī)模利用了上文提到的注意力機制,現(xiàn)在已成為幾乎所有最新NLP模型的基礎(chǔ)。Transformer模型在很大程度上優(yōu)于RNN,這是因為在超大型網(wǎng)絡(luò)中前者具有計算成本上的優(yōu)勢。
在RNN中,需要在整個“展開”的圖中傳播梯度,這使內(nèi)存訪問成為一個很大的瓶頸,也讓梯度爆炸/梯度消失梯度問題更加嚴重,因此需要更復(fù)雜(且計算量更大)的LSTM和GRU模型。
相比之下,Transformer模型針對高度并行處理進行了優(yōu)化。計算成本最高的部分是注意力層之后的前饋網(wǎng)絡(luò)(可以并行化應(yīng)用)和注意力層本身(大矩陣乘法,很容易優(yōu)化)。
Neural Architecture Search with Reinforcement Learning (被引1186次)
神經(jīng)架構(gòu)搜索(NAS)已成為“榨干”最后一點網(wǎng)絡(luò)性能的普遍方式。NAS無需手動設(shè)計架構(gòu),而是讓這個過程實現(xiàn)自動化。本文使用強化學(xué)習(xí)對控制器網(wǎng)絡(luò)進行了訓(xùn)練,以生成高性能的網(wǎng)絡(luò)架構(gòu),從而創(chuàng)建了許多SOTA網(wǎng)絡(luò)。其他方法,如面向圖像分類器體系結(jié)構(gòu)搜索的AmoebaNet則使用進化算法。
2018年:NLP里程碑,谷歌BERT模型狂破11項紀錄
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (被引3025次)
BERT與GPT和ELMo的比較
谷歌AI團隊2018年發(fā)布的BERT模型,在NLP業(yè)內(nèi)引起巨大反響。BERT在機器閱讀理解測試SQuAD1.1中表現(xiàn)出驚人的成績:全部兩個衡量指標上全面超越人類,并且還在11種不同NLP任務(wù)中創(chuàng)出最佳成績,,包括將GLUE基準推至80.4%(絕對改進7.6%),MultiNLI準確度達到86.7% (絕對改進率5.6%)等。這項工作被認為是NLP領(lǐng)域里程碑式的進步。
2018年其他重要論文:
Deep contextualized word representations
Improving Language Understanding by Generative Pre-Training
Language Models are Unsupervised Multitask Learners
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
2019年:MIT科學(xué)家提出彩票假設(shè),神經(jīng)網(wǎng)路縮小10倍并不影響結(jié)果
在這篇論文中,哈佛大學(xué)聯(lián)合 OpenAI 提出了泛化的雙重下降假設(shè),即當模型和訓(xùn)練過程的有效模型復(fù)雜性與訓(xùn)練樣本數(shù)量相當時,它們會呈現(xiàn)出非典型的行為。
研究者證明,各種現(xiàn)代深度學(xué)習(xí)任務(wù)都表現(xiàn)出「雙重下降」現(xiàn)象,并且隨著模型尺寸的增加,性能首先變差,然后變好。此外,他們表明雙重下降不僅作為模型大小的函數(shù)出現(xiàn),而且還可以作為訓(xùn)練時間點數(shù)量的函數(shù)。研究者通過定義一個新的復(fù)雜性度量(稱為有效模型復(fù)雜性,Effective Model Complexity)來統(tǒng)一上述現(xiàn)象,并針對該度量推測一個廣義的雙重下降。此外,他們對模型復(fù)雜性的概念使其能夠確定某些方案,在這些方案中,增加(甚至四倍)訓(xùn)練樣本的數(shù)量實際上會損害測試性能。
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
這篇來自MIT的論文獲得了ICLR 2019最佳論文。神經(jīng)網(wǎng)絡(luò)剪枝技術(shù)可以在不影響精度的前提下,將訓(xùn)練網(wǎng)絡(luò)的參數(shù)數(shù)量減少 90% 以上,降低存儲需求并提高推理的計算性能。然而,當前的經(jīng)驗是,剪枝產(chǎn)生的稀疏架構(gòu)從一開始就很難訓(xùn)練,這同樣可以提高訓(xùn)練性能。
研究者發(fā)現(xiàn),一種標準的剪枝技術(shù)可以自然地揭示子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)的初始化使它們能夠有效地進行訓(xùn)練?;谶@些結(jié)果,研究者提出了 “彩票假設(shè)”(lottery ticket hypothesis):包含子網(wǎng)絡(luò) (“中獎彩票”,winning tickets) 的密集、隨機初始化的前饋網(wǎng)絡(luò),這些子網(wǎng)絡(luò)在單獨訓(xùn)練時,經(jīng)過類似次數(shù)的迭代達到與原始網(wǎng)絡(luò)相當?shù)臏y試精度。研究者找到的 “中獎彩票” 中了初始化彩票:它們的連接具有初始權(quán)重,這使得訓(xùn)練特別有效。
聯(lián)系客服