如果自己是一個大模型的小白,第一眼看到 GPT、PaLm、LLaMA 這些單詞的怪異組合會作何感想?假如再往深里入門,又看到 BERT、BART、RoBERTa、ELMo 這些奇奇怪怪的詞一個接一個蹦出來,不知道作為小白的自己心里會不會抓狂?
哪怕是一個久居 NLP 這個小圈子的老鳥,伴隨著大模型這爆炸般的發(fā)展速度,可能恍惚一下也會跟不上這追新打快日新月異的大模型到底是何門何派用的哪套武功。這個時候可能就需要請出一篇大模型綜述來幫忙了!這篇由亞馬遜、得克薩斯農(nóng)工大學(xué)與萊斯大學(xué)的研究者推出的大模型綜述《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,為我們以構(gòu)建一棵“家譜樹”的方式梳理了以 ChatGPT 為代表的大模型的前世今生與未來,并且從任務(wù)出發(fā),為我們搭建了非常全面的大模型實用指南,為我們介紹了大模型在不同任務(wù)中的優(yōu)缺點,最后還指出了大模型目前的風(fēng)險與挑戰(zhàn)。
追尋大模型的“萬惡之源”,大抵應(yīng)該從那篇《Attention is All You Need》開始,基于這篇由谷歌機器翻譯團隊提出的由多組 Encoder、Decoder 構(gòu)成的機器翻譯模型 Transformer 開始,大模型的發(fā)展大致走上了兩條路,一條路是舍棄 Decoder 部分,僅僅使用 Encoder 作為編碼器的預(yù)訓(xùn)練模型,其最出名的代表就是 Bert 家族。這些模型開始嘗試“無監(jiān)督預(yù)訓(xùn)練”的方式來更好的利用相較其他數(shù)據(jù)而言更容易獲得的大規(guī)模的自然語言數(shù)據(jù),而“無監(jiān)督”的方式就是 Masked Language Model(MLM),通過讓 Mask 掉句子中的部分單詞,讓模型去學(xué)習(xí)使用上下文去預(yù)測被 Mask 掉的單詞的能力。在 Bert 問世之處,在 NLP 領(lǐng)域也算是一顆炸彈,同時在許多自然語言處理的常見任務(wù)如情感分析、命名實體識別等中都刷到了 SOTA,Bert 家族的出色代表除了谷歌提出的 Bert 、ALBert之外,還有百度的 ERNIE、Meta 的 RoBERTa、微軟的 DeBERTa等等。
可惜的是,Bert 的進路沒能突破 Scale Law,而這一點則由當下大模型的主力軍,即大模型發(fā)展的另一條路,通過舍棄 Encoder 部分而基于 Decoder 部分的 GPT 家族真正做到了。GPT 家族的成功來源于一個研究人員驚異的發(fā)現(xiàn):“擴大語言模型的規(guī)模可以顯著提高零樣本(zero-shot)與小樣本(few-shot)學(xué)習(xí)的能力”,這一點與基于微調(diào)的 Bert 家族有很大的區(qū)別,也是當下大規(guī)模語言模型神奇能力的來源。GPT 家族基于給定前面單詞序列預(yù)測下一個單詞來進行訓(xùn)練,因此 GPT 最初僅僅是作為一個文本生成模型而出現(xiàn)的,而 GPT-3 的出現(xiàn)則是 GPT 家族命運的轉(zhuǎn)折點,GPT-3 第一次向人們展示了大模型帶來的超越文本生成本身的神奇能力,顯示了這些自回歸語言模型的優(yōu)越性。而從 GPT-3 開始,當下的 ChatGPT、GPT-4、Bard 以及 PaLM、LLaMA 百花齊放百家爭鳴,帶來了當下的大模型盛世。
從合并這家譜樹的兩支,可以看到早期的 Word2Vec、FastText,再到預(yù)訓(xùn)練模型的早期探索 ELMo、ULFMiT ,再到 Bert 橫空出世紅極一時,到 GPT 家族默默耕耘直到 GPT-3 驚艷登場,ChatGPT 一飛沖天,技術(shù)的迭代之外也可以看到 OpenAI 默默堅持自己的技術(shù)路徑最終成為目前 LLMs 無可爭議的領(lǐng)導(dǎo)者,看到 Google 對整個 Encoder-Decoder 模型架構(gòu)做出的重大理論貢獻,看到 Meta 對大模型開源事業(yè)的持續(xù)慷慨的參與,當然也看到從 GPT-3 之后 LLMs 逐漸趨向于“閉”源的趨勢,未來很有可能大部分研究不得不變成 API-Based 的研究。
歸根結(jié)底,大模型的神奇能力是來源于 GPT 么?我覺得答案是否定的,GPT 家族幾乎每一次能力的躍遷,都在預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性等方面做出了重要的提升。大模型的訓(xùn)練數(shù)據(jù)包括書籍、文章、網(wǎng)站信息、代碼信息等等,這些數(shù)據(jù)輸入到大模型中的目的,實質(zhì)在于全面準確的反應(yīng)“人類”這個東西,通過告訴大模型單詞、語法、句法和語義的信息,讓模型獲得識別上下文并生成連貫響應(yīng)的能力,以捕捉人類的知識、語言、文化等等方面。
一般而言,面對許多 NLP 的任務(wù),我們可以從數(shù)據(jù)標注信息的角度將其分類為零樣本、少樣本與多樣本。無疑,零樣本的任務(wù) LLMs 是最合適的方法,幾乎沒有例外,大模型在零樣本任務(wù)上遙遙領(lǐng)先于其他的模型。同時,少樣本任務(wù)也十分適合大模型的應(yīng)用,通過為大模型展示“問題-答案”對,可以增強大模型的表現(xiàn)性能,這種方式我們一般也稱為上下文學(xué)習(xí)(In-Context Learning)。而多樣本任務(wù)盡管大模型也可以去覆蓋,但是微調(diào)可能仍然是最好的方法,當然在一些如隱私、計算等約束條件下,大模型可能仍然有用武之地。
同時,微調(diào)的模型很有可能會面對訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布變化的問題,顯著的,微調(diào)的模型在 OOD 數(shù)據(jù)上一般表現(xiàn)都非常差。而相應(yīng)的,LLMs 由于并沒有一個顯式的擬合過程,因此表現(xiàn)要好許多,典型的 ChatGPT 基于人類反饋的強化學(xué)習(xí)(RLHF)在大部分分布外的分類與翻譯任務(wù)中都表現(xiàn)優(yōu)異,在專為 OOD 評估設(shè)計的醫(yī)學(xué)診斷數(shù)據(jù)集 DDXPlus 上也表現(xiàn)出色。
很多時候,“大模型很好!”這個斷言后緊跟著的問題就是“大模型怎么用,什么時候用?”,面對一個具體任務(wù)時,我們是應(yīng)該選擇微調(diào)、還是不假思索的上手大模型?這篇論文總結(jié)出了一個實用的“決策流”,根據(jù)“是否需要模仿人類”,“是否要求推理能力”,“是否是多任務(wù)”等一系列問題幫我們判斷是否要去使用大模型。
而從 NLP 任務(wù)分類的角度而言:
目前擁有大量豐富的已標注數(shù)據(jù)的很多 NLP 任務(wù),微調(diào)模型可能仍然牢牢把控著優(yōu)勢,在大多數(shù)數(shù)據(jù)集中 LLMs 都遜色于微調(diào)模型,具體而言:
文本分類:在文本分類中,LLMs 普遍遜色于微調(diào)模型;
情感分析:在 IMDB 與 SST 任務(wù)上大模型與微調(diào)模型表現(xiàn)相仿,而在如毒性監(jiān)測任務(wù)中,幾乎所有的大模型都差于微調(diào)模型;
自然語言推理:在 RTE 與 SNLI 上,微調(diào)模型優(yōu)于 LLMs,在 CB 等數(shù)據(jù)中,LLMs與微調(diào)模型相仿;
問答:在 SQuADv2、QuAC 和許多其他數(shù)據(jù)集上,微調(diào)模型具有更好的性能,而在 CoQA 上,LLMs 表現(xiàn)與微調(diào)模型性能相仿;
信息檢索:LLMs 尚未在信息檢索領(lǐng)域廣泛應(yīng)用,信息檢索的任務(wù)特征使得沒有自然的方式為大模型建模信息檢索任務(wù);
命名實體識別:在命名實體識別中,大模型仍然大幅度遜色于微調(diào)模型,在 CoNLL03 上微調(diào)模型的性能幾乎是大模型的兩倍,但是命名實體識別作為一個經(jīng)典的 NLP 中間任務(wù),很有可能會被大模型取代。
總之,對于大多數(shù)傳統(tǒng)自然語言理解的任務(wù),微調(diào)模型的效果更好。當然 LLMs 的潛力受限于 Prompt 工程可能仍未完全釋放(其實微調(diào)模型也并未達到上限),同時,在一些小眾的領(lǐng)域,如 Miscellaneous Text Classification,Adversarial NLI 等任務(wù)中 ,LLMs 由于更強的泛化能力因而具有更好的性能,但是在目前而言,對于有成熟標注的數(shù)據(jù)而言,微調(diào)模型可能仍然是對傳統(tǒng)任務(wù)的最優(yōu)解。
相較于自然語言理解,自然語言生成可能就是大模型的舞臺了。自然語言生成的目標主要是創(chuàng)建連貫、通順、有意義的符合序列,通??梢苑譃閮纱箢?,一類是以機器翻譯、段落信息摘要為代表的任務(wù),一類是更加開放的自然寫作,如撰寫郵件,編寫新聞,創(chuàng)作故事等的任務(wù)。具體而言:
文本摘要:對于文本摘要而言,如果使用傳統(tǒng)的如 ROUGE 等的自動評估指標,LLMs 并沒有表現(xiàn)出明顯的優(yōu)勢,但是如果引入人工評估結(jié)果,LLMs 的表現(xiàn)則會大幅優(yōu)于微調(diào)模型。這其實表明當前這些自動評估指標有時候并不能完整準確的反應(yīng)文本生成的效果;
機器翻譯:對于機器翻譯這樣一個擁有成熟商業(yè)軟件的任務(wù)而言,LLMs 的表現(xiàn)一般略遜于商業(yè)翻譯工具,但在一些冷門語言的翻譯中,LLMs 有時表現(xiàn)出了更好的效果,譬如在羅馬尼亞語翻譯英語的任務(wù)中,LLMs 在零樣本和少樣本的情況下?lián)魯×宋⒄{(diào)模型的 SOTA;
開放式生成:在開放式生成方面,顯示是大模型最擅長的工作,LLMs 生成的新聞文章幾乎與人類編寫的真實新聞無法區(qū)分,在代碼生成、代碼糾錯等領(lǐng)域 LLMs 都表現(xiàn)了令人驚訝的性能。
知識密集型任務(wù)一般指強烈依賴背景知識、領(lǐng)域特定專業(yè)知識或者一般世界知識的任務(wù),知識密集型任務(wù)區(qū)別于簡單的模式識別與句法分析,需要對我們的現(xiàn)實世界擁有“常識”并能正確的使用,具體而言:
閉卷問答:在 Closed-book Question-Answering 任務(wù)中,要求模型在沒有外部信息的情況下回答事實性的問題,在許多數(shù)據(jù)集如 NaturalQuestions、WebQuestions、TriviaQA 上 LLMs 都表現(xiàn)了更好的性能,尤**其在 TriviaQA 中,零樣本的 LLMs 都展現(xiàn)了優(yōu)于微調(diào)模型的性別表現(xiàn);
大規(guī)模多任務(wù)語言理解:大規(guī)模多任務(wù)語言理解(MMLU)包含 57 個不同主題的多項選擇題,也要求模型具備一般性的知識,在這一任務(wù)中最令人印象深刻的當屬 GPT-4,在 MMLU 中獲得了 86.5% 的正確率。
值得注意的是,在知識密集型任務(wù)中,大模型并不是百試百靈,有些時候,大模型對現(xiàn)實世界的知識可能是無用甚至錯誤的,這樣“不一致”的知識有時會使大模型的表現(xiàn)比隨機猜測還差。如重定義數(shù)學(xué)任務(wù)(Redefine Math)中要求模型在原含義和從重新定義的含義中做出選擇,這需要的能力與大規(guī)模語言模型的學(xué)習(xí)到的知識恰恰相反,因此,LLMs 的表現(xiàn)甚至不如隨機猜測。
LLMs 的擴展能力可以極大的增強預(yù)訓(xùn)練語言模型的能力,當模型規(guī)模指數(shù)增加時,一些關(guān)鍵的如推理的能力會逐漸隨參數(shù)的擴展而被激活,LLMs 的算術(shù)推理與常識推理的能力肉眼可見的異常強大,在這類任務(wù)中:
算術(shù)推理:不夸張的說,GPT-4 的算術(shù)與推理判斷的能力超過了以往的任何模型,在 GSM8k、SVAMP 和 AQuA 上大模型都具有突破性的能力,值得指出的是,通過思維鏈(CoT)的提示方式,可以顯著的增強 LLMs 的計算能力;
常識推理:常識推理要求大模型記憶事實信息并進行多步推理,在大多數(shù)數(shù)據(jù)集中,LLMs 都保持了對微調(diào)模型的優(yōu)勢地位,特別在 ARC-C (三-九年級科學(xué)考試困難題)中,GPT-4 的表現(xiàn)接近 100%(96.3%)。
除了推理之外,隨著模型規(guī)模的增長,模型還會浮現(xiàn)一些 Emergent Ability,譬如符合操作、邏輯推導(dǎo)、概念理解等等。但是還有類有趣的現(xiàn)象稱為“U形現(xiàn)象”,指隨著 LLMs 規(guī)模的增加,模型性能出現(xiàn)先增加后又開始下降的現(xiàn)象,典型的代表就是前文提到的重定義數(shù)學(xué)的問題,這類現(xiàn)象呼喚著對大模型原理更加深入與細致的研究。
大模型必然是未來很長一段時間我們工作生活的一部分,而對于這樣一個與我們生活高度同頻互動的“大家伙”,除了性能、效率、成本等問題外,大規(guī)模語言模型的安全問題幾乎是大模型所面對的所有挑戰(zhàn)之中的重中之重,機器幻覺是大模型目前還沒有極佳解決方案的主要問題,大模型輸出的有偏差或有害的幻覺將會對使用者造成嚴重后果。同時,隨著 LLMs 的“公信度”越來越高,用戶可能會過度依賴 LLMs 并相信它們能夠提供準確的信息,這點可以預(yù)見的趨勢增加了大模型的安全風(fēng)險。
除了誤導(dǎo)性信息外,由于 LLMs 生成文本的高質(zhì)量和低成本,LLMs 有可能被利用為進行仇恨、歧視、暴力、造謠等攻擊的工具,LLMs 也有可能被攻擊以未惡意攻擊者提供非法信息或者竊取隱私,據(jù)報道,三星員工使用 ChatGPT 處理工作時意外泄漏了最新程序的源代碼屬性、與硬件有關(guān)的內(nèi)部會議記錄等絕密數(shù)據(jù)。
除此之外,大模型是否能應(yīng)用于敏感領(lǐng)域,如醫(yī)療保健、金融、法律等的關(guān)鍵在于大模型的“可信度”的問題,在當下,零樣本的大模型魯棒性往往會出現(xiàn)降低。同時,LLMs 已經(jīng)被證明具有社會偏見或歧視,許多研究在口音、宗教、性別和種族等人口統(tǒng)計類別之間觀察到了顯著的性能差異。這會導(dǎo)致大模型的“公平”問題。
最后,如果脫開社會問題做個總結(jié),也是展望一下大模型研究的未來,目前大模型主要面臨的挑戰(zhàn)可以被歸類如下:
實踐驗證:當前針對大模型的評估數(shù)據(jù)集往往是更像“玩具”的學(xué)術(shù)數(shù)據(jù)集,但是這些學(xué)術(shù)數(shù)據(jù)集無法完全反應(yīng)現(xiàn)實世界中形形色色的問題與挑戰(zhàn),因此亟需實際的數(shù)據(jù)集在多樣化、復(fù)雜的現(xiàn)實問題上對模型進行評估,確保模型可以應(yīng)對現(xiàn)實世界的挑戰(zhàn);
模型對齊:大模型的強大也引出了另一個問題,模型應(yīng)該與人類的價值觀選擇進行對齊,確保模型行為符合預(yù)期,不會“強化”不良結(jié)果,作為一個高級的復(fù)雜系統(tǒng),如果不認真處理這種道德問題,有可能會為人類醞釀一場災(zāi)難;
安全隱患:大模型的研究要進一步強調(diào)安全問題,消除安全隱患,需要具體的研究確保大模型的安全研發(fā),需要更多的做好模型的可解釋性、監(jiān)督管理工作,安全問題應(yīng)該是模型開發(fā)的重要組成部分,而非錦上添花可有可無的裝飾;
模型未來:模型的性能還會隨著模型規(guī)模的增加而增長了,這個問題估計 OpenAI 也難以回答,我們針對大模型的神奇現(xiàn)象的了解仍然十分有限,針對大模型原理性的見解仍然十分珍貴。
聯(lián)系客服