1750億參數(shù),史上最大AI模型GPT-3上線:不僅會寫文章、答題,還懂?dāng)?shù)學(xué)
時隔一年,OpenAI 放出的預(yù)訓(xùn)練語言模型 GPT-3 再次讓人刮目相看。
「我們訓(xùn)練了 GPT-3,一種具有 1750 億參數(shù)的自回歸語言模型,這個數(shù)字比以往任何非稀疏語言模型都多 10 倍。我們在 few-shot 情況下測試了它的性能?!?/span> 本周五,OpenAI 提出的 GPT-3 在社交網(wǎng)絡(luò)上掀起了新一陣風(fēng)潮。它的參數(shù)量要比 2 月份剛剛推出的、全球最大深度學(xué)習(xí)模型 Turing NLP 大上十倍,而且不僅可以更好地答題、翻譯、寫文章,還帶有一些數(shù)學(xué)計算的能力。這樣強大的深度學(xué)習(xí),不禁讓人產(chǎn)生一種錯覺:真正的 AI 要來了嗎? 首先,GPT-3 最令人驚訝的還是模型體量, 它使用的最大數(shù)據(jù)集在處理前容量達到了 45TB 。根據(jù) OpenAI 的算力統(tǒng)計單位 petaflops/s-days,訓(xùn)練 AlphaGoZero 需要 1800-2000pfs-day,而 OpenAI 剛剛提出的 GPT-3 用了 3640pfs-day,看來擁有微軟無限算力 的 OpenAI,現(xiàn)在真的是為所欲為了。 研究者們希望 GPT-3 能夠成為更通用化的 NLP 模型,解決當(dāng)前 BERT 等模型的兩個不足之處:對領(lǐng)域內(nèi)有標(biāo)記數(shù)據(jù)的過分依賴,以及對于領(lǐng)域數(shù)據(jù)分布的過擬合。GPT-3 致力于能夠使用更少的特定領(lǐng)域,不做 fine-tuning 解決問題。 和往常一樣,GPT-3 立即放出了 GitHub 項目頁面,不過目前僅是一些生成樣本和數(shù)據(jù)集,還沒有代碼: https://github.com/openai/gpt-3 。 不過上傳的沒有那么快其實情有可原,在 issue 里有人道出了真相:參數(shù)這么多,如果按照 GPT-2 十五億參數(shù)等于 6G 這么算的話,GPT-3 模型可能要 700G,老硬盤還裝不下,不是正常人能玩的轉(zhuǎn)的。
2019 年 3 月機器學(xué)習(xí)先驅(qū),阿爾伯塔大學(xué)教授 Richard S. Sutton 著名的文章《苦澀的教訓(xùn) 》里開篇就曾說道:「70 年的人工智能研究史告訴我們,利用計算能力的一般方法最終是最有效的方法?!?/span> GPT-3 的提出或許會讓開發(fā)者落淚,大學(xué)老師沉默,黃仁勛感到肩上擔(dān)子更重了。還記得幾周前剛剛結(jié)束的 GTC 2020 嗎,英偉達 CEO 的 Keynote 上有一頁講最近幾年來人工智能領(lǐng)域里最大的深度學(xué)習(xí)模型:
英偉達表示,自 2017 年底發(fā)布 Tesla V100 之后,訓(xùn)練最大模型的算力需求增長了 3000 倍。在這里面 GPT-2 也不在最高的位置了,微軟今年 2 月推出的 Turing NLG(170 億參數(shù))、英偉達的 Megatron-BERT(80 億參數(shù))排名前列。GPT-3 要放進這個表里,尺度表還要再向上挪一挪。 另有網(wǎng)友吐槽,GPT-3 共 72 頁的論文長度也令人絕望:
不過巨大的參數(shù)量帶來的文本生成效果也是頗為可觀的,讓我們來看看 GPT-3 究竟能不能實現(xiàn)寫新聞、寫小說,甚至寫論文的能力吧。 2019 年初,OpenAI 發(fā)布了通用語言模型 GPT-2 ,能夠生成連貫的文本段落,在許多語言建?;鶞?zhǔn)上取得了 SOTA 性能。這一基于 Transformer 的大型語言模型共包含 15 億參數(shù)、在一個 800 萬網(wǎng)頁數(shù)據(jù)集上訓(xùn)練而成。GPT-2 是對 GPT 模型的直接擴展,在超出 10 倍的數(shù)據(jù)量上進行訓(xùn)練,參數(shù)量也多出了 10 倍。 然而,長江后浪推前浪。昨日,OpenAI 發(fā)布 GPT-3 模型,1750 億參數(shù)量,足足是 GPT-2 的 116 倍。 GPT-3 的論文作者多達 31 人,來自 OpenAI、約翰霍普金斯大學(xué)的 Dario Amodei 等研究人員證明了在 GPT-3 中,對于所有任務(wù),模型無需進行任何梯度更新或微調(diào),而僅通過與模型的文本交互指定任務(wù)和少量示例即可獲得很好的效果。 GPT-3 在許多 NLP 數(shù)據(jù)集上均具有出色的性能,包括翻譯、問答和文本填空任務(wù),這還包括一些需要即時推理或領(lǐng)域適應(yīng)的任務(wù),例如給一句話中的單詞替換成同義詞,或執(zhí)行 3 位數(shù)的數(shù)學(xué)運算。 當(dāng)然,GPT-3 也可以生成新聞報道的樣本,我們很難將機器寫的文章與人類寫的區(qū)分開來。 據(jù)《華盛頓郵報》報道,經(jīng)過兩天的激烈辯論,聯(lián)合衛(wèi)理公會同意了一次歷史性的分裂:要么創(chuàng)立新教派,要么則在神學(xué)和社會意義上走向保守。大部分參加五月份教會年度會議的代表投票贊成加強任命 LGBTQ 神職人員的禁令,并制定新的規(guī)則「懲戒」主持同性婚禮的神職人員。但是反對這些措施的人有一個新計劃:2020 年他們將形成一個新教派「基督教衛(wèi)理公會」。 《華盛頓郵報》指出,聯(lián)合衛(wèi)理公會是一個自稱擁有 1250 萬會員的組織,在 20 世紀(jì)初期是「美國最大的新教教派」,但是近幾十年來它一直在萎縮。這次新的分裂將是該教會歷史上的第二次分裂。第一次發(fā)生在 1968 年,當(dāng)時大概只剩下 10% 的成員組成了「福音聯(lián)合弟兄會」?!度A盛頓郵報》指出,目前提出的分裂「對于多年來成員不斷流失的聯(lián)合衛(wèi)理公會而言,來得正是時候」,這「在 LGBTQ 角色問題上將該教派推向了分裂邊緣」。同性婚姻并不是分裂該教會的唯一問題。2016 年,該教派因跨性別神職人員的任命而分裂。北太平洋地區(qū)會議投票禁止他們擔(dān)任神職人員,而南太平洋地區(qū)會議投票允許他們擔(dān)任神職人員。
給出標(biāo)題「聯(lián)合衛(wèi)理公會同意這一歷史性分裂」和子標(biāo)題「反對同性戀婚姻的人將創(chuàng)建自己的教派」,GPT-3 生成了上述新聞。
在 OpenAI 的測試中,人類評估人員也很難判斷出這篇新聞的真假,檢測準(zhǔn)確率僅為 12%。 不過,GPT-3 也有失手的時候。比如對于 GPT-3 生成的下列短文,人類判斷真?zhèn)蔚臏?zhǔn)確率達到了 61%!
根據(jù) OpenAI 的統(tǒng)計,人類對 GPT-3 175B 模型生成的約 500 詞文章的判斷準(zhǔn)確率為 52%,不過相比于 GPT-3 control 模型(沒有語境和不斷增加的輸出隨機性且只具備 1.6 億參數(shù)的模型),GPT-3 175B 生成的文本質(zhì)量要高得多。果然很暴力?。?/span>
給出一個新單詞及其定義,造出一個新句子。難嗎?這需要你理解單詞的意義及適用語境。OpenAI 研究者測試了 GPT-3 在這一任務(wù)上的能力:給出一個不存在的單詞(如「Gigamuru」),令 GPT-3 使用它造句。
給出新單詞「Gigamuru」(表示一種日本樂器)。 GPT-3 給出的句子是:叔叔送了我一把 Gigamuru,我喜歡在家彈奏它。
GPT-3 造出的句子是:我們玩了幾分鐘擊劍,然后出門吃冰淇淋。 給出一句帶有語法錯誤的話,讓 GPT-3 進行修改。
第一個例子中,原句里有兩個并列的動詞「was」和「died」,GPT-3 刪除系動詞「was」,將其修改為正確的句子。 第二個例子中,原句里 likes 后的 ourselves 是 we 的反身代詞,而這里 like 這一動作的執(zhí)行者是 Leslie,因此 likes 后即使要用反身代詞,也應(yīng)該是 himself,而另一個改法是將反身代詞改成 we 的賓格 us,即「我們認(rèn)為 Leslie 喜歡我們」。 看完 GPT-3 的糾錯效果,真是英語老師欣慰,學(xué)生慚愧…… 不止英語老師欣慰,數(shù)學(xué)老師也跑不了。 GPT-3 可以執(zhí)行簡單的計算。 OpenAI 研究人員在以下 10 項任務(wù)中測試了 GPT-3 做簡單計算的能力,且無需任何任務(wù)特定的訓(xùn)練。 這十項任務(wù)分別是:兩位數(shù)加減法、三位數(shù)加減法、四位數(shù)加減法、五位數(shù)加減法、兩位數(shù)乘法,以及一位數(shù)混合運算。
用于測試 GPT-3 計算能力的十項任務(wù)。 在這十項任務(wù)中,模型必須生成正確的答案。對于每項任務(wù),該研究生成包含 2000 個隨機實例的數(shù)據(jù)集,并在這些實例上評估所有模型。 下圖展示了 GPT-3(few-shot)在這十項計算任務(wù)上的性能。從圖中可以看到,小模型的性能較差,即使是擁有 130 億參數(shù)的模型(僅次于擁有 1750 億的 GPT-3 完整版模型)處理二位數(shù)加減法的準(zhǔn)確率也只有 50% 左右,處理其他運算的準(zhǔn)確率還不到 10%。
GPT-3 在多個語言建模任務(wù)中的表現(xiàn) GPT-2 發(fā)布時在多個領(lǐng)域特定的語言建模任務(wù)上實現(xiàn)了當(dāng)前最佳性能?,F(xiàn)在,我們來看參數(shù)和成本大量增加后的 GPT-3 效果如何。 OpenAI 在多項任務(wù)中對 GPT-3 的性能進行了測試,包括語言建模、補全、問答、翻譯、常識推理、SuperGLUE 等任務(wù)。具體結(jié)果如下表所示:
不同模型在所有任務(wù)上的性能,以及任務(wù)的 SOTA 性能(包括模型規(guī)模、訓(xùn)練細節(jié)等信息)。 近期大量研究工作表明,通過對大量文本進行預(yù)訓(xùn)練,并且針對特定任務(wù)進行微調(diào),模型的性能可以在許多 NLP 任務(wù)以及基準(zhǔn)測試中獲得顯著提升。 最近,OpenAI 團隊訓(xùn)練了 GPT-3(這是一個具有 1750 億參數(shù)的自回歸語言模型,參數(shù)量是之前任何非稀疏語言模型的 10 倍),并在少樣本(few-shot)環(huán)境下對其性能進行了測試。在所有任務(wù)中,GPT-3 無需進行任何額外的梯度更新或微調(diào),完全只通過模型與文本的交互,即可直接應(yīng)用于特定任務(wù)與少樣本 demo。 GPT-3 在許多 NLP 數(shù)據(jù)集上均有出色的性能,包括翻譯、問答和內(nèi)容填充任務(wù),以及多項需要實時推理或域適應(yīng)的任務(wù),如利用新單詞造句或執(zhí)行三位數(shù)運算等。GPT-3 生成的新聞文章足以以假亂真,令人類評估員難以分辨。 不過,GPT-3 也有缺點。該研究團隊發(fā)現(xiàn) GPT-3 (few-shot) 在文本合成和多個 NLP 數(shù)據(jù)集上的性能不夠好,還存在一些結(jié)構(gòu)和算法上的缺陷。另一個語言模型大多會有的缺陷「預(yù)訓(xùn)練樣本效率較低」的問題它也有,GPT-3 在預(yù)訓(xùn)練期間閱讀的文本比人一生讀的還要多。此外,還有可解釋性問題等。 OpenAI 團隊使用的基礎(chǔ)預(yù)訓(xùn)練方法包括模型、數(shù)據(jù)與訓(xùn)練三部分。GPT-3 的訓(xùn)練過程與 GPT-2 類似,但對模型大小、數(shù)據(jù)集大小與多樣性、訓(xùn)練長度都進行了相對直接的擴充。關(guān)于語境學(xué)習(xí),GPT-3 同樣使用了與 GPT-2 類似的方法,不過 GPT-3 研究團隊系統(tǒng)地探索了不同的語境學(xué)習(xí)設(shè)定。 OpenAI 團隊明確地定義了用于評估 GPT-3 的不同設(shè)定,包括 zero-shot、one-shot 和 few-shot。 Fine-Tuning (FT):微調(diào)是近幾年來最為常用的方法,涉及在期望任務(wù)的特定數(shù)據(jù)集上更新經(jīng)過預(yù)訓(xùn)練模型的權(quán)重;
Few-Shot (FS):在該研究中指與 GPT-2 類似的,在推理階段為模型提供少量任務(wù)演示,但不允許更新網(wǎng)絡(luò)權(quán)重的情形;
One-Shot (1S):單樣本與小樣本類似,不同的是除了對任務(wù)的自然語言描述外,僅允許提供一個任務(wù)演示;
Zero-Shot (0S):零次樣本除了不允許有任何演示外與單樣本類似,僅為模型提供用于描述任務(wù)的自然語言指示。
zero-shot、one-shot、few-shot 設(shè)置與傳統(tǒng)微調(diào)方法的對比。 上圖以英-法翻譯任務(wù)為例,展示了四種方法。該研究將重點放在 zero-shot、one-shot 和 few-shot 上,其目的并非將它們作為競品進行比較,而是作為不同的問題設(shè)置。OpenAI 團隊特別強調(diào)了 few-shot 結(jié)果,因為其中許多結(jié)果僅僅略微遜色于 SOTA 微調(diào)模型。不過,用 one-shot 甚至有時是 zero-shot 與人類水平進行對比似乎最為公平,這也是未來工作的重要目標(biāo)之一。 該研究使用了和 GPT-2 相同的模型和架構(gòu),包括改進的初始設(shè)置、預(yù)歸一化和 reversible tokenization。 區(qū)別在于 GPT-3 在 transformer 的各層上都使用了交替密集和局部帶狀稀疏的注意力模式 ,類似于 Sparse Transformer [CGRS19]。 為了研究性能對模型大小的依賴性,該研究訓(xùn)練了 8 種不同的模型大小 ,涵蓋 3 個數(shù)量級,從 1.25 億參數(shù)到 1750 億個參數(shù)不等,具備 1750 億個參數(shù)的模型即為 GPT-3。 先前的研究 [KMH 20] 表明,在有足夠訓(xùn)練數(shù)據(jù)的情況下,驗證損失的縮放比例應(yīng)該近似為模型大小的光滑冪律函數(shù)。這項研究訓(xùn)練了多個不同大小的模型,這使得研究者可以對驗證損失和下游語言任務(wù)檢驗該假設(shè)。 表 2.1 展示了 8 個模型的大小和架構(gòu)。這里 n_params 表示可訓(xùn)練參數(shù)總量,n_layers 表示層數(shù),d_model 表示每個瓶頸層中的單元數(shù)量(在該研究中前饋層總是瓶頸層大小的 4 倍,即 d_ff = 4 ? d_model),d_head 表示每個注意力頭的維度。所有的模型均使用 n_ctx = 2048 tokens 的語境窗口。
表 2.1:該研究所訓(xùn)練 8 個模型的大小、架構(gòu)和超參數(shù)信息。所有模型一共使用了 3000 億 token。 為了最大程度地減少節(jié)點之間的數(shù)據(jù)傳輸,該研究從深度和寬度兩個方向進行跨 GPU 模型分割。然后基于跨 GPU 模型布局的計算效率和負載平衡選擇每個模型精確的架構(gòu)參數(shù)。先前的研究 [KMH 20] 表明,在合理范圍內(nèi),驗證損失對這些參數(shù)并不是特別敏感。 下表介紹了 GPT-3 訓(xùn)練過程中所用的數(shù)據(jù)集。
表 2.2:用于訓(xùn)練 GPT-3 的數(shù)據(jù)集。 最開始是訓(xùn)練不動,后來 finetune 不起,現(xiàn)在到了 GPT-3 模型的時代,我們連 forward 也要不起了。 你肯定想問這樣一個問題:訓(xùn)練 GPT-3 模型需要花多少錢?我們目前還只能粗略地估計——訓(xùn)練一個 BERT 模型租用云算力要花大概 6912 美元,訓(xùn)練 GPT-2 每小時要花費 256 美元,但 OpenAI 一直沒有透露一共要花多少小時。 相比之下,GPT-3 需要的算力(flops)是 BERT 的 1900 多倍, 所以這個數(shù)字應(yīng)該是千萬美元級別 的,以至于研究者在論文第九頁說:我們發(fā)現(xiàn)了一個 bug,但沒錢再去重新訓(xùn)練模型,所以先就這么算了吧。
GPT-3 的實驗結(jié)果,似乎驗證了 Richard Sutton 去年頗具爭議的論斷,他在《苦澀的教訓(xùn)》的最后寫道:「我們應(yīng)該從苦澀的教訓(xùn)中學(xué)到一點:通用方法非常強大,這類方法會隨著算力的增加而繼續(xù)擴展,搜索和學(xué)習(xí)似乎正是這樣的方法。」 關(guān)于 GPT-3 的更多詳情,參見論文:https://arxiv.org/abs/2005.14165 另外,油管博主 Yannic Kilcher 做了一個 GPT-3 解讀視頻,emmm… 光視頻就有一個小時,感興趣的讀者請戳:
首屆「馬欄山」杯國際音視頻算法大賽正在火熱進行中。大賽聚焦圖像和推薦、畫質(zhì)優(yōu)化三大領(lǐng)域,設(shè)置包括視頻特定點位追蹤、視頻推薦、畫質(zhì)損傷修復(fù)三大賽題。優(yōu)秀參賽者不僅可獲得獎金,獲獎解決方案還有機會被應(yīng)用于芒果 TV 核心領(lǐng)域,在校學(xué)生還將可能加入芒果 TV「青芒計劃」,發(fā)放「special offer」。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報 。