本文翻譯自博客:
前言:
我們會(huì)訓(xùn)練一個(gè)過參數(shù)化的模型。這些模型通常具有比訓(xùn)練樣本數(shù)量更多的參數(shù)。
各種正則化技術(shù)(隱式或其他)用于約束優(yōu)化,以偏向于“簡單解決方案”而不是過度擬合。
模型壓縮通過消除冗余來提取嵌入在較大模型中的“簡單”模型,使內(nèi)存和時(shí)間效率更接近理想的適量參數(shù)的模型。
為什么需要過度參數(shù)化? 需要多少過參數(shù)化?
我們可以通過使用更智能的優(yōu)化方法來減少過度參數(shù)化嗎?
許多權(quán)重接近零(修剪)
權(quán)重矩陣低秩(權(quán)重分解)
權(quán)重只用幾位來表示(量化)
層通常會(huì)學(xué)習(xí)類似的功能(權(quán)重共享)
模型壓縮方法揭示了訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中的一些常見冗余。
研究了造成這種冗余的歸納偏差/正則化。
從訓(xùn)練開始,就創(chuàng)建了一種巧妙的優(yōu)化算法來訓(xùn)練沒有這種冗余的網(wǎng)絡(luò)。
超量參數(shù)方面
我們可以通過窺視數(shù)據(jù)質(zhì)量(使用低資源計(jì)算)來獲得更緊密的界限嗎?
如果我們使用巧妙的優(yōu)化技巧(如Rigged Lottery13),超參數(shù)化界限會(huì)如何變化?
我們可以得到強(qiáng)化學(xué)習(xí)環(huán)境的過度參數(shù)化界限嗎?
我們可以將這些范圍擴(kuò)展到其他常用的體系結(jié)構(gòu)(RNN,Transformers)嗎?
優(yōu)化方面
我們沒有利用的經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中還有其他冗余嗎?
使這些變得可行:
從頭開始訓(xùn)練量化的神經(jīng)網(wǎng)絡(luò)。
從頭開始使用低秩矩陣訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
弄清楚為什么知識蒸餾可以改善優(yōu)化。如果可能的話,使用類似的想法進(jìn)行優(yōu)化,同時(shí)使用更少的GPU內(nèi)存。
正則化方面
哪些類型的正則化會(huì)導(dǎo)致哪些類型的模型冗余?
修剪和重新訓(xùn)練與L0正則化有何關(guān)系?哪些隱式正則化導(dǎo)致可修剪性?
哪些類型的正則化可以量化?
原文鏈接:
http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html#fn:lottery-general
聯(lián)系客服