九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
我們真的需要模型壓縮嗎



本文翻譯自博客:

《Do We Really Need Model Compression?》
作者:Mitchell A. Gordon 

前言:

模型壓縮是一種縮小訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的技術(shù)。 壓縮的模型在使用少量計(jì)算資源的情況下,其性能通常與原始模型相似。 但是,在許多應(yīng)用程序中,瓶頸被證明是在壓縮之前訓(xùn)練原始的大型神經(jīng)網(wǎng)絡(luò)。例如,可以在低成本的GPU(12 GB的內(nèi)存)上訓(xùn)練基于BERT的模型,但是BERT-large需要在Google TPU(64 GB的內(nèi)存)上訓(xùn)練,這使許多人無法嘗試使用預(yù)訓(xùn)練的語言模型。
模型壓縮領(lǐng)域的結(jié)果告訴我們,我們收斂的解決方案通常比最初訓(xùn)練的模型具有更少的參數(shù)。那么,是什么阻止我們通過從頭訓(xùn)練小型模型來節(jié)省GPU內(nèi)存呢?
在這篇文章中,我們將探索從頭開始訓(xùn)練小型模型所涉及的困難。我們將討論模型壓縮為何起作用,以及兩種進(jìn)行內(nèi)存有效訓(xùn)練的方法:過量參數(shù)的界限和更好的優(yōu)化方法,這些方法可以減少或消除事后模型壓縮。最后我們將總結(jié)未來的研究方向。

Appropriately-Parameterized Models

適量參數(shù)的模型--既沒有過量參數(shù)也沒有欠參數(shù)的模型,而是具有合適數(shù)量的參數(shù)以表示任務(wù)的理想解決方案的模型。
我們通常不會(huì)在深度學(xué)習(xí)范式中訓(xùn)練適量參數(shù)的模型。這是因?yàn)閷τ诮o定的數(shù)據(jù)集,通常不知道使用多少參數(shù)量合適。即使知道了解決方案,眾所周知,使用梯度下降法訓(xùn)練適量參數(shù)的模型也很困難。
相反,訓(xùn)練程序通??雌饋硐襁@樣:

  1. 我們會(huì)訓(xùn)練一個(gè)過參數(shù)化的模型。這些模型通常具有比訓(xùn)練樣本數(shù)量更多的參數(shù)。

  2. 各種正則化技術(shù)(隱式或其他)用于約束優(yōu)化,以偏向于“簡單解決方案”而不是過度擬合。

  3. 模型壓縮通過消除冗余來提取嵌入在較大模型中的“簡單”模型,使內(nèi)存和時(shí)間效率更接近理想的適量參數(shù)的模型。




極端的過度參數(shù)化使訓(xùn)練變得更加容易。 但是,由于模型被過度參數(shù)化,因此它們可以存儲數(shù)據(jù),而不是學(xué)習(xí)數(shù)據(jù)中的有用模式,因此需要進(jìn)行正則化。 然后,模型壓縮利用這種簡單性僅保留解決方案實(shí)際需要的參數(shù)。
由于我們的目標(biāo)是使用更少的GPU內(nèi)存來訓(xùn)練神經(jīng)網(wǎng)絡(luò),因此我們可以提出一些明顯的問題:
  1. 為什么需要過度參數(shù)化? 需要多少過參數(shù)化?

  2. 我們可以通過使用更智能的優(yōu)化方法來減少過度參數(shù)化嗎?




接下來的兩個(gè)部分將依次解決這些問題。

Over-parameterization Bounds

為什么需要超量參數(shù)?通過充分超量參數(shù)的神經(jīng)網(wǎng)絡(luò),我們可以使優(yōu)化的landscape有效凸出。 杜etc(2019)、Haeffele和Vidal(2017)在一些簡單情況下對此進(jìn)行了數(shù)學(xué)證明,給出了必要的過參數(shù)化量,能在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)0訓(xùn)練損失。有效地,過度參數(shù)化是為了增加內(nèi)存使用量而犧牲了計(jì)算難易度。
這些界限通常被認(rèn)為是寬松的。 這意味著盡管我們可以預(yù)測出足夠數(shù)量的參數(shù)來完美擬合某些數(shù)據(jù),但我們?nèi)匀徊恢酪昝罃M合數(shù)據(jù)所需的最小參數(shù)數(shù)量。 嚴(yán)格的界限可能取決于從優(yōu)化過程(SGD與GD,Adam與其他)到體系結(jié)構(gòu)的所有方面。計(jì)算嚴(yán)格邊界甚至比訓(xùn)練所有可能的候選網(wǎng)絡(luò)在計(jì)算上更加棘手。
但是,在這方面肯定還有改進(jìn)的余地。嚴(yán)格的過度參數(shù)化范圍將使我們可以訓(xùn)練較小的網(wǎng)絡(luò),而無需在架構(gòu)上進(jìn)行網(wǎng)格搜索,也不必?fù)?dān)心更大的網(wǎng)絡(luò)可能為我們帶來更好的性能。 證明是否可以擴(kuò)展到recurrent models, transformers,按batch norm訓(xùn)練的模型等仍然存在問題。
上面忽略了提及不同的體系結(jié)構(gòu)可能具有不同的過參數(shù)化范圍的情況。 那么,一種合理的方法是使用具有較低過參數(shù)化范圍的不同體系結(jié)構(gòu)。 一些有趣的“efficient transformers”包括Reformer,ALBERT,Sparse Transformers和SRU。

Better Optimization Techniques

從經(jīng)驗(yàn)上講,很難對參數(shù)正確的模型進(jìn)行訓(xùn)練。 用梯度下降訓(xùn)練適當(dāng)大小的模型通常會(huì)嚴(yán)重失敗。 該模型將無法收斂以適合訓(xùn)練數(shù)據(jù),更不用說泛化了。這部分由神經(jīng)網(wǎng)絡(luò)的優(yōu)化環(huán)境的非凸性/ non-friendliness來部分解釋,但是訓(xùn)練適量參數(shù)化模型的計(jì)算復(fù)雜度的精確表征仍然不完整。

模型壓縮技術(shù)通過闡明過參數(shù)化模型趨于收斂的解的類型,為我們提供了有關(guān)如何訓(xùn)練適當(dāng)參數(shù)化模型的提示。 模型壓縮的類型很多,每種模型都利用一種不同類型的“簡單性”,這種“簡單性”往往在訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)中發(fā)現(xiàn):

  • 許多權(quán)重接近零(修剪)

  • 權(quán)重矩陣低秩(權(quán)重分解)

  • 權(quán)重只用幾位來表示(量化)

  • 層通常會(huì)學(xué)習(xí)類似的功能(權(quán)重共享)

這些“簡單性”中的每一個(gè)都是由于訓(xùn)練過程中的正則化(隱式或其他)或訓(xùn)練數(shù)據(jù)的質(zhì)量而引起的。當(dāng)我們知道我們正在尋找具有這些特性的解決方案時(shí),它為改進(jìn)我們的優(yōu)化技術(shù)開辟了令人振奮的新方向。

Sparse Networks from Scratch

權(quán)重修剪可能是最成功的壓縮方法示例,可以將壓縮方法轉(zhuǎn)變?yōu)閮?yōu)化方法。 經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通常具有許多權(quán)重(30-95%),它們接近于0??梢詣h除這些權(quán)重而不會(huì)影響神經(jīng)網(wǎng)絡(luò)的輸出。

我們是否可以通過從一開始就訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò)來減少GPU使用,而不是事后修剪呢?有一陣子,我們認(rèn)為答案是否定的。稀疏的網(wǎng)絡(luò)很難訓(xùn)練;優(yōu)化環(huán)境非常不凸且不友好。

然而,F(xiàn)rankel和Carbin(2018)朝著這個(gè)方向邁出了第一步。他們發(fā)現(xiàn)他們可以從頭開始重新訓(xùn)練修剪的網(wǎng)絡(luò),但前提是必須將其重新初始化為在密集訓(xùn)練期間使用的相同初始化。他們對此的解釋是the Lottery Ticket Hypothesis:密集網(wǎng)絡(luò)實(shí)際上是許多適量參數(shù)化的稀疏模型的并行隨機(jī)初始化組合。 碰巧得到了幸運(yùn)的初始化并收斂于解決方案。

最近,Dettmers和Zettlemoyer(2019),Mostafa(2019),和Evci 等人(2019),指明可以從頭開始訓(xùn)練適當(dāng)參數(shù)化的稀疏網(wǎng)絡(luò),從而大大減少了訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的GPU內(nèi)存量。重要的不是初始化,而是探索模型的稀疏子空間的能力。Lee等人的類似工作(2018),嘗試通過對數(shù)據(jù)進(jìn)行一次傳遞來快速找到合適的稀疏架構(gòu)。

我相信,其他類型的模型壓縮可能會(huì)重復(fù)這種模式。 一般而言,模式是:

  1. 模型壓縮方法揭示了訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中的一些常見冗余。

  2. 研究了造成這種冗余的歸納偏差/正則化。

  3. 從訓(xùn)練開始,就創(chuàng)建了一種巧妙的優(yōu)化算法來訓(xùn)練沒有這種冗余的網(wǎng)絡(luò)。




下表列出了其他類型的模型壓縮,以及為使模型更接近訓(xùn)練的開始而付出的努力16(成功水平各不相同)

Future Directions

我們真的需要模型壓縮嗎? 這篇文章的標(biāo)題具有挑釁性,但想法并非如此:通過收緊過度參數(shù)化的界限并改善我們的優(yōu)化方法,我們可以減少或消除對事后模型壓縮的需求。 顯然,在我們有一個(gè)明確的答案之前,仍有許多懸而未決的問題需要回答。 以下是我希望在未來幾年完成的一些工作。

超量參數(shù)方面

  • 我們可以通過窺視數(shù)據(jù)質(zhì)量(使用低資源計(jì)算)來獲得更緊密的界限嗎?

  • 如果我們使用巧妙的優(yōu)化技巧(如Rigged Lottery13),超參數(shù)化界限會(huì)如何變化?

  • 我們可以得到強(qiáng)化學(xué)習(xí)環(huán)境的過度參數(shù)化界限嗎?

  • 我們可以將這些范圍擴(kuò)展到其他常用的體系結(jié)構(gòu)(RNN,Transformers)嗎?

優(yōu)化方面

  • 我們沒有利用的經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中還有其他冗余嗎?

  • 使這些變得可行:

    從頭開始訓(xùn)練量化的神經(jīng)網(wǎng)絡(luò)。

    從頭開始使用低秩矩陣訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

  • 弄清楚為什么知識蒸餾可以改善優(yōu)化。如果可能的話,使用類似的想法進(jìn)行優(yōu)化,同時(shí)使用更少的GPU內(nèi)存。

正則化方面

  • 哪些類型的正則化會(huì)導(dǎo)致哪些類型的模型冗余? 

  • 修剪和重新訓(xùn)練與L0正則化有何關(guān)系?哪些隱式正則化導(dǎo)致可修剪性?

  • 哪些類型的正則化可以量化?

原文鏈接:

http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html#fn:lottery-general

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
CVPR2019 | 專門為卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的訓(xùn)練方法:RePr
你也可以訓(xùn)練超大神經(jīng)網(wǎng)絡(luò)!谷歌開源GPipe庫
元學(xué)習(xí)
有好劇也有好科技,Netflix開源稀疏數(shù)據(jù)專用神經(jīng)網(wǎng)絡(luò)庫
機(jī)器學(xué)習(xí)初學(xué)者入門實(shí)踐:怎樣輕松創(chuàng)造高精度分類網(wǎng)絡(luò)
卷積核是否越大越好,卷積神經(jīng)網(wǎng)絡(luò)中卷積核大小的選擇
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服