?隨著時間的發(fā)展,大型語言模型不再停留在演示階段而是逐步面向生產(chǎn)系統(tǒng)的應(yīng)用,隨著人們期望的不斷增加,目標(biāo)也發(fā)生了巨大的變化。在短短的幾個月的時間里,人們對大模型的認(rèn)識已經(jīng)從對其zero-shot能力感到驚訝,轉(zhuǎn)變?yōu)榭紤]改進模型質(zhì)量、提高模型可用性。
?「大語言模型(LLMs)其實就是利用高容量的模型架構(gòu)(例如Transformer)對海量的、多種多樣的數(shù)據(jù)分布進行建模得到,它包含了大量的先驗知識,而模型問答其實就是引導(dǎo)大模型給出相關(guān)先驗知識的過程」。對于提高大模型的性能,一種常見的方法就是不斷的增加模型計算、Token和參數(shù)來提升規(guī)模。雖然這種方法可以讓模型具備更廣泛的知識,但是如何讓這些基礎(chǔ)模型在特定的下游能力上變得有用和高效(本質(zhì)就是讓模型給出符合預(yù)期的先驗知識)。「這是目前大模型研究的一個主要方向:模型數(shù)字馴化研究,也就是我們平時說的模型調(diào)優(yōu)」。本文總結(jié)介紹了目前學(xué)術(shù)界最主要的「5種模型調(diào)優(yōu)方法」,并結(jié)合對5種方法的分析,給出了一個「優(yōu)化算法選擇的思路框架」。
?訓(xùn)練大型語言模型(LLMs)和視覺語言模型(VLMs)的過程關(guān)鍵依賴于大量的互聯(lián)網(wǎng)數(shù)據(jù)。像Transformer這樣的高容量模型架構(gòu)已經(jīng)展示了對極其多樣的數(shù)據(jù)分布進行有效建模的重要能力。這些大型模型在訓(xùn)練過程中接觸各種各樣的數(shù)據(jù),包括優(yōu)雅的小說散文和惡意的帖子、杰出的軟件項目和有缺陷的代碼、精美的專業(yè)攝影和業(yè)余自拍照片。雖然這些模型可以反映數(shù)字人類體驗,但它們無法產(chǎn)生高質(zhì)量、可取且一致的輸出,然而這在大規(guī)模用戶應(yīng)用中是必需的。
?我們應(yīng)該認(rèn)識到這些原始模型并不是糟糕的模型,它們實際上是對訓(xùn)練數(shù)據(jù)的分布進行建模。盡管這些底層數(shù)據(jù)分布可能包含不可取的特性,但也包含了良好特性、多樣性和規(guī)模,這些是實現(xiàn)高性能模型的必要條件。「一個流行的假設(shè)是,模型的知識和能力主要在預(yù)訓(xùn)練階段學(xué)習(xí),而對齊過程則是引導(dǎo)模型在推理過程中使用哪些先驗分布」。因此,如何在數(shù)據(jù)集中放大好的先驗知識并抑制不好的先驗知識,以及如何馴服從互聯(lián)網(wǎng)分布中直接捕獲的原始模型,成為一個重要問題。
?過去一年里,有幾種主要的方法逐漸流行起來。盡管它們的技術(shù)基礎(chǔ)和優(yōu)勢各不相同,但它們都具有一個共同的目標(biāo):如何對一組期望先驗進行放大,將其映射到模型對互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集的理解上。本文主要研究各種先驗放大方法和顯著的用法示例,并提供一個算法選擇的思路框架。
?通過精心設(shè)計的提示(prompt)來引導(dǎo)一個基礎(chǔ)模型朝著期望的先驗方向進行是目前門檻最低的方法,有時候該方法也被成為無梯度調(diào)優(yōu)。prompt利用了訓(xùn)練時看到的關(guān)聯(lián)和先驗信息,例如高ELO分?jǐn)?shù)的國際象棋比賽會有更強的走法,因此在測試時,一個好的prompt應(yīng)該明確告訴模型它處于高水平的國際象棋比賽中,并做出像大師一樣精確的預(yù)測。
?prompt工程存在一些局限性,它是一種機會主義策略,即提示策略高度依賴于原始訓(xùn)練數(shù)據(jù)集中出現(xiàn)的模式、相關(guān)性和先驗信息。成功的prompt工程需要在提示過于通用和過于具體之間取得平衡,因為如果提示過于通用,模型可以成功地跟隨,但可能沒有太大用處;而如果提示過于具體,則雖然有用,但模型無法泛化到其他情況。此外,prompt工程還受到訓(xùn)練數(shù)據(jù)分布中不理想數(shù)據(jù)的相關(guān)性的影響,這被稱為“Waluigi效應(yīng)”,從而導(dǎo)致提示無法有效地放大先驗。
?基于以上分析,為了更有效地放大先驗信息,對原始模型進行微調(diào)是否可以避免零樣本提示的局限性呢?
?監(jiān)督微調(diào)(Supervised Finetuning,SFT)主要思路是:首先使用在多樣化數(shù)據(jù)集上預(yù)訓(xùn)練的原始模型,然后在規(guī)模較小但質(zhì)量更高的數(shù)據(jù)集上進行進一步訓(xùn)練,這些數(shù)據(jù)集可以是原始數(shù)據(jù)集的子集,也可以不是。其中微調(diào)數(shù)據(jù)集充當(dāng)包含所有最終模型所需屬性的黃金標(biāo)準(zhǔn)。這種簡單性提出了一個有說服力的論點:「將目標(biāo)數(shù)據(jù)集提供給原始模型,SFT承諾將原始模型靠近目標(biāo)分布」。由于SFT是監(jiān)督學(xué)習(xí),如果數(shù)據(jù)好且模型龐大,成功是有保證的。
?SFT的范圍對于微調(diào)數(shù)據(jù)集的來源也很靈活。它可以是原始多樣化數(shù)據(jù)集的子集,也可以是全新的自定義數(shù)據(jù)集。它可以通過人工創(chuàng)建和驗證,也可以使用設(shè)計的啟發(fā)式和規(guī)則進行自動獲取,它也可以通過合成生成。
?但是假設(shè)我們選擇了一個特定的微調(diào)數(shù)據(jù)集,代表了我們希望融入模型的所有良好先驗條件:「那么如何對基礎(chǔ)模型進行微調(diào)呢」?在這里,也有幾種選擇:?RL微調(diào)引入了一個獎勵模型,這是一個獨立的組件,旨在在訓(xùn)練過程中直接為模型輸出提供細粒度的反饋信號。其中最流行的RL微調(diào)范式之一是基于人類反饋的RL(RLHF),其中獎勵模型直接根據(jù)人類偏好標(biāo)簽進行訓(xùn)練。與SFT采用的非參數(shù)方法不同,RLHF則相反,即通過參數(shù)化的獎勵模型明確學(xué)習(xí)良好的先驗知識,然后在訓(xùn)練過程中直接“告訴”原始模型這些偏好。將自回歸標(biāo)記預(yù)測視為強化學(xué)習(xí)問題有兩個優(yōu)勢:「直接的在線反饋」和「在次優(yōu)數(shù)據(jù)上進行訓(xùn)練」。
「首先,基于在線策略的學(xué)習(xí)信號非常有用,與標(biāo)準(zhǔn)離線離策略訓(xùn)練期間看到的信號在性質(zhì)上有很大的不同」。在線反饋使模型了解“你的最佳預(yù)測有多好?”而離策略反饋告訴模型“這個其他預(yù)測會有多好?”。然而,除了在線反饋最具信息量之外,有時離策略反饋可能過時且不正確:預(yù)先收集的訓(xùn)練數(shù)據(jù)集包含在真空中存在的目標(biāo)標(biāo)簽,并未考慮模型的當(dāng)前能力。
「其次,RLHF提供了細粒度的獎勵,使得可以在次優(yōu)數(shù)據(jù)上進行訓(xùn)練」。而SFT設(shè)置只允許在包含或排除不同質(zhì)量數(shù)據(jù)之間設(shè)定硬性界限,RLHF則采用更靈活的方法,在獎勵模型訓(xùn)練期間和使用獎勵模型進行微調(diào)期間都能夠利用次優(yōu)數(shù)據(jù)。在獎勵模型訓(xùn)練期間,可以包含各種質(zhì)量的數(shù)據(jù),以使獎勵模型更具魯棒性。在基礎(chǔ)模型微調(diào)期間,獎勵模型能夠輸出多個細粒度的獎勵尺度(例如,“正確+自信”的1.0獎勵,'正確+不自信'的0.5獎勵以及“錯誤+自信”的-2.0獎勵),從而有效利用不同類型的次優(yōu)數(shù)據(jù)。
?除了這兩個技術(shù)優(yōu)勢之外,還有一個系統(tǒng)級的優(yōu)勢,即將獎勵模型視為一個獨立組件,可以進行迭代研究和改進。這提供了非常微妙的獎勵建模的潛力,然后可以將非常細粒度的反饋傳遞給原始基礎(chǔ)模型。這在實證上得到了支持,因為與成功的RLHF微調(diào)相比,SFT似乎會導(dǎo)致基礎(chǔ)模型的指令跟隨行為發(fā)生較大變化。
?RLHF通過將人類知識轉(zhuǎn)移給AI模型提供了強大的機制,但也面臨一些實際限制:人類反饋可能會存在噪音、不一致性,并且收集起來成本高昂。為了應(yīng)對這些挑戰(zhàn),RLAIF旨在將現(xiàn)有的AI模型引入到反饋循環(huán)中,通過利用預(yù)訓(xùn)練模型生成用于訓(xùn)練獎勵模型的偏好數(shù)據(jù)。RLAIF利用提示的基礎(chǔ)模型中包含的良好先驗生成自動化的偏好數(shù)據(jù),無需人類參與,用于下游獎勵模型的訓(xùn)練。
?此外,基礎(chǔ)模型可以充當(dāng)AI評論家,不僅可以生成數(shù)據(jù)用于獎勵模型,還可以直接成為獎勵模型。在推理階段,基礎(chǔ)模型嘗試完成任務(wù)并進行自我反思。在訓(xùn)練階段,基礎(chǔ)模型提供直接的策略反饋,將良好的先驗知識融入到微調(diào)模型中。
?AI 模型是否也可以改進我們獲取和標(biāo)記全新數(shù)據(jù)集的方式?更進一步,人工智能模型能否生成足夠高質(zhì)量的有用數(shù)據(jù)以供后續(xù)訓(xùn)練呢?
「一種可能的方法是不完全取代人類在數(shù)據(jù)引擎環(huán)節(jié)中的作用,而是通過共享自治的范式來增強人類能力」。AI模型的預(yù)測可能不是完美的,但可能是一個足夠好的起點,可以節(jié)省人類標(biāo)注的時間。例如,特斯拉自動駕駛團隊的視覺數(shù)據(jù)引擎使用自動標(biāo)簽來進行諸如3D物體分割和車道檢測等任務(wù),并作為人類標(biāo)注員進行校正的初始起點。最近,Meta發(fā)布了SA-1B分割掩碼數(shù)據(jù)集,通過一種交互式的模型輔助標(biāo)注過程,比完全手動標(biāo)注的方法快6.5倍。
「除了協(xié)助人類標(biāo)注員之外,生成建模的進步是否能夠在完全沒有人類參與的情況下創(chuàng)建有用的合成數(shù)據(jù)」?過去已經(jīng)廣泛研究了這個想法,稱為半監(jiān)督學(xué)習(xí)或偽標(biāo)簽;這篇博文是對2021年之前半監(jiān)督學(xué)習(xí)的一個很好的概述。但是,2021年以后,在語言和視覺領(lǐng)域中性能出色的大規(guī)模模型的普及極大地增加了合成數(shù)據(jù)生成的潛力。過去,合成標(biāo)簽依賴于狹窄的特定領(lǐng)域模型,現(xiàn)在合成標(biāo)簽可以由不特定于當(dāng)前任務(wù)的通用模型產(chǎn)生。這有兩個好處:降低了嘗試合成數(shù)據(jù)生成的成本,并有可能將互聯(lián)網(wǎng)規(guī)模的常識引入到特定的訓(xùn)練領(lǐng)域中。
?使用大規(guī)模通用模型進行狹窄合成生成”的這一概念已經(jīng)在各種領(lǐng)域中得到越來越廣泛的探索。
?那么,對于大模型的最佳微調(diào)策略是什么?
目前,已經(jīng)有一些可行的建議可以得出結(jié)論??偨Y(jié)比較早期的方法,在做出有關(guān)先驗放大的設(shè)計時,需要考慮一些潛在問題:
原始訓(xùn)練語料庫是否包含您想要的所有能力和先驗?如果是,請嘗試提示;如果否,微調(diào)模型。
獲取不同的微調(diào)數(shù)據(jù)集是否容易?如果是,請嘗試 SFT;如果否,請嘗試 RLHF 或 AI 反饋。
您可以訪問大量計算嗎?如果是,微調(diào)整個模型;如果否,請使用 PEFT。
現(xiàn)有的 AI 模型是否足以生成數(shù)據(jù)或驗證數(shù)據(jù)?如果數(shù)據(jù)生成足夠好,請嘗試創(chuàng)建合成數(shù)據(jù)(SDG);如果足以驗證但不能生成,請嘗試使用 AI 反饋 (RLAIF) 或自我反思;如果兩者都不是,請堅持使用 RLHF。
?從更廣泛的角度來看,我們需要認(rèn)識到「AI助力先驗分布放大過程是一把雙刃劍」。隨著AI模型在數(shù)據(jù)整理和訓(xùn)練過程中的越來越廣泛應(yīng)用,這些AI模型中預(yù)設(shè)的先驗知識也會被傳遞下來——包括可取和不可取的先驗知識。討論過的所有微調(diào)方法都可以反復(fù)應(yīng)用多次,每次生成的“學(xué)生”模型都會成為下一代的“老師”。因此,隨著時間的推移,與過去簡單的模型訓(xùn)練血統(tǒng)相比,特定先驗知識的原始來源開始變得模糊不清。這對AI領(lǐng)域的技術(shù)方法論、安全性和控制偏見具有非常現(xiàn)實的影響。本文源自:https://thegradient.pub/ai-is-domestification/
聯(lián)系客服