午夜毛片不卡高清免费,精品一区二区三区自拍图片区,日本福利视频网站

更多干貨，第一時間送達

引言

?隨著時間的發(fā)展，大型語言模型不再停留在演示階段而是逐步面向生產(chǎn)系統(tǒng)的應(yīng)用，隨著人們期望的不斷增加，目標(biāo)也發(fā)生了巨大的變化。在短短的幾個月的時間里，人們對大模型的認(rèn)識已經(jīng)從對其zero-shot能力感到驚訝，轉(zhuǎn)變?yōu)榭紤]改進模型質(zhì)量、提高模型可用性。

?「大語言模型(LLMs)其實就是利用高容量的模型架構(gòu)（例如Transformer）對海量的、多種多樣的數(shù)據(jù)分布進行建模得到，它包含了大量的先驗知識，而模型問答其實就是引導(dǎo)大模型給出相關(guān)先驗知識的過程」。對于提高大模型的性能，一種常見的方法就是不斷的增加模型計算、Token和參數(shù)來提升規(guī)模。雖然這種方法可以讓模型具備更廣泛的知識，但是如何讓這些基礎(chǔ)模型在特定的下游能力上變得有用和高效（本質(zhì)就是讓模型給出符合預(yù)期的先驗知識）。「這是目前大模型研究的一個主要方向：模型數(shù)字馴化研究，也就是我們平時說的模型調(diào)優(yōu)」。本文總結(jié)介紹了目前學(xué)術(shù)界最主要的「5種模型調(diào)優(yōu)方法」，并結(jié)合對5種方法的分析，給出了一個「優(yōu)化算法選擇的思路框架」。

背景介紹

?訓(xùn)練大型語言模型（LLMs）和視覺語言模型（VLMs）的過程關(guān)鍵依賴于大量的互聯(lián)網(wǎng)數(shù)據(jù)。像Transformer這樣的高容量模型架構(gòu)已經(jīng)展示了對極其多樣的數(shù)據(jù)分布進行有效建模的重要能力。這些大型模型在訓(xùn)練過程中接觸各種各樣的數(shù)據(jù)，包括優(yōu)雅的小說散文和惡意的帖子、杰出的軟件項目和有缺陷的代碼、精美的專業(yè)攝影和業(yè)余自拍照片。雖然這些模型可以反映數(shù)字人類體驗，但它們無法產(chǎn)生高質(zhì)量、可取且一致的輸出，然而這在大規(guī)模用戶應(yīng)用中是必需的。

?我們應(yīng)該認(rèn)識到這些原始模型并不是糟糕的模型，它們實際上是對訓(xùn)練數(shù)據(jù)的分布進行建模。盡管這些底層數(shù)據(jù)分布可能包含不可取的特性，但也包含了良好特性、多樣性和規(guī)模，這些是實現(xiàn)高性能模型的必要條件。「一個流行的假設(shè)是，模型的知識和能力主要在預(yù)訓(xùn)練階段學(xué)習(xí)，而對齊過程則是引導(dǎo)模型在推理過程中使用哪些先驗分布」。因此，如何在數(shù)據(jù)集中放大好的先驗知識并抑制不好的先驗知識，以及如何馴服從互聯(lián)網(wǎng)分布中直接捕獲的原始模型，成為一個重要問題。

?過去一年里，有幾種主要的方法逐漸流行起來。盡管它們的技術(shù)基礎(chǔ)和優(yōu)勢各不相同，但它們都具有一個共同的目標(biāo)：如何對一組期望先驗進行放大，將其映射到模型對互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集的理解上。本文主要研究各種先驗放大方法和顯著的用法示例，并提供一個算法選擇的思路框架。

Prompting

?通過精心設(shè)計的提示(prompt)來引導(dǎo)一個基礎(chǔ)模型朝著期望的先驗方向進行是目前門檻最低的方法，有時候該方法也被成為無梯度調(diào)優(yōu)。prompt利用了訓(xùn)練時看到的關(guān)聯(lián)和先驗信息，例如高ELO分?jǐn)?shù)的國際象棋比賽會有更強的走法，因此在測試時，一個好的prompt應(yīng)該明確告訴模型它處于高水平的國際象棋比賽中，并做出像大師一樣精確的預(yù)測。

?prompt工程存在一些局限性，它是一種機會主義策略，即提示策略高度依賴于原始訓(xùn)練數(shù)據(jù)集中出現(xiàn)的模式、相關(guān)性和先驗信息。成功的prompt工程需要在提示過于通用和過于具體之間取得平衡，因為如果提示過于通用，模型可以成功地跟隨，但可能沒有太大用處；而如果提示過于具體，則雖然有用，但模型無法泛化到其他情況。此外，prompt工程還受到訓(xùn)練數(shù)據(jù)分布中不理想數(shù)據(jù)的相關(guān)性的影響，這被稱為“Waluigi效應(yīng)”，從而導(dǎo)致提示無法有效地放大先驗。

?基于以上分析，為了更有效地放大先驗信息，對原始模型進行微調(diào)是否可以避免零樣本提示的局限性呢？

監(jiān)督微調(diào)(SFT)

?監(jiān)督微調(diào)（Supervised Finetuning，SFT）主要思路是：首先使用在多樣化數(shù)據(jù)集上預(yù)訓(xùn)練的原始模型，然后在規(guī)模較小但質(zhì)量更高的數(shù)據(jù)集上進行進一步訓(xùn)練，這些數(shù)據(jù)集可以是原始數(shù)據(jù)集的子集，也可以不是。其中微調(diào)數(shù)據(jù)集充當(dāng)包含所有最終模型所需屬性的黃金標(biāo)準(zhǔn)。這種簡單性提出了一個有說服力的論點：「將目標(biāo)數(shù)據(jù)集提供給原始模型，SFT承諾將原始模型靠近目標(biāo)分布」。由于SFT是監(jiān)督學(xué)習(xí)，如果數(shù)據(jù)好且模型龐大，成功是有保證的。

?SFT的范圍對于微調(diào)數(shù)據(jù)集的來源也很靈活。它可以是原始多樣化數(shù)據(jù)集的子集，也可以是全新的自定義數(shù)據(jù)集。它可以通過人工創(chuàng)建和驗證，也可以使用設(shè)計的啟發(fā)式和規(guī)則進行自動獲取，它也可以通過合成生成。

?但是假設(shè)我們選擇了一個特定的微調(diào)數(shù)據(jù)集，代表了我們希望融入模型的所有良好先驗條件：「那么如何對基礎(chǔ)模型進行微調(diào)呢」？在這里，也有幾種選擇：

標(biāo)準(zhǔn)的SFT對整個基礎(chǔ)模型進行微調(diào)，更新整個網(wǎng)絡(luò)的權(quán)重。這是可能引起底層模型行為顯著變化的最詳盡的更新類型。
輕微的方式進行微調(diào)，只有網(wǎng)絡(luò)的某個子集可以進行微調(diào)；LiT就是一個例子，它在微調(diào)語言編碼器的同時凍結(jié)了CLIP圖像編碼器。
參數(shù)高效微調(diào)（Parameter-Efficient Finetuning，PEFT）是最近剛剛出現(xiàn)的新方法，該方法凍結(jié)了原始模型的大部，僅微調(diào)相對較小的模型參數(shù)集。像LoRA這樣的PEFT方法就是非常大的創(chuàng)新，它使得消費者硬件就能夠?qū)ο喈?dāng)大的基礎(chǔ)模型進行微調(diào)。顯然，「SFT的實現(xiàn)方式正在迅速發(fā)展，并且在可預(yù)見的未來可能仍將是一個令人興奮的領(lǐng)域」。無論具體的SFT方法如何，對底層微調(diào)數(shù)據(jù)集的組成和質(zhì)量都有很大的依賴。在SFT中，擴大哪些先驗條件和如何擴大它們同樣重要。

RLHF

?RL微調(diào)引入了一個獎勵模型，這是一個獨立的組件，旨在在訓(xùn)練過程中直接為模型輸出提供細粒度的反饋信號。其中最流行的RL微調(diào)范式之一是基于人類反饋的RL（RLHF），其中獎勵模型直接根據(jù)人類偏好標(biāo)簽進行訓(xùn)練。與SFT采用的非參數(shù)方法不同，RLHF則相反，即通過參數(shù)化的獎勵模型明確學(xué)習(xí)良好的先驗知識，然后在訓(xùn)練過程中直接“告訴”原始模型這些偏好。將自回歸標(biāo)記預(yù)測視為強化學(xué)習(xí)問題有兩個優(yōu)勢：「直接的在線反饋」和「在次優(yōu)數(shù)據(jù)上進行訓(xùn)練」。

「首先，基于在線策略的學(xué)習(xí)信號非常有用，與標(biāo)準(zhǔn)離線離策略訓(xùn)練期間看到的信號在性質(zhì)上有很大的不同」。在線反饋使模型了解“你的最佳預(yù)測有多好？”而離策略反饋告訴模型“這個其他預(yù)測會有多好？”。然而，除了在線反饋最具信息量之外，有時離策略反饋可能過時且不正確：預(yù)先收集的訓(xùn)練數(shù)據(jù)集包含在真空中存在的目標(biāo)標(biāo)簽，并未考慮模型的當(dāng)前能力。

「其次，RLHF提供了細粒度的獎勵，使得可以在次優(yōu)數(shù)據(jù)上進行訓(xùn)練」。而SFT設(shè)置只允許在包含或排除不同質(zhì)量數(shù)據(jù)之間設(shè)定硬性界限，RLHF則采用更靈活的方法，在獎勵模型訓(xùn)練期間和使用獎勵模型進行微調(diào)期間都能夠利用次優(yōu)數(shù)據(jù)。在獎勵模型訓(xùn)練期間，可以包含各種質(zhì)量的數(shù)據(jù)，以使獎勵模型更具魯棒性。在基礎(chǔ)模型微調(diào)期間，獎勵模型能夠輸出多個細粒度的獎勵尺度（例如，“正確+自信”的1.0獎勵，'正確+不自信'的0.5獎勵以及“錯誤+自信”的-2.0獎勵），從而有效利用不同類型的次優(yōu)數(shù)據(jù)。

?除了這兩個技術(shù)優(yōu)勢之外，還有一個系統(tǒng)級的優(yōu)勢，即將獎勵模型視為一個獨立組件，可以進行迭代研究和改進。這提供了非常微妙的獎勵建模的潛力，然后可以將非常細粒度的反饋傳遞給原始基礎(chǔ)模型。這在實證上得到了支持，因為與成功的RLHF微調(diào)相比，SFT似乎會導(dǎo)致基礎(chǔ)模型的指令跟隨行為發(fā)生較大變化。

RLAIF

?RLHF通過將人類知識轉(zhuǎn)移給AI模型提供了強大的機制，但也面臨一些實際限制：人類反饋可能會存在噪音、不一致性，并且收集起來成本高昂。為了應(yīng)對這些挑戰(zhàn)，RLAIF旨在將現(xiàn)有的AI模型引入到反饋循環(huán)中，通過利用預(yù)訓(xùn)練模型生成用于訓(xùn)練獎勵模型的偏好數(shù)據(jù)。RLAIF利用提示的基礎(chǔ)模型中包含的良好先驗生成自動化的偏好數(shù)據(jù)，無需人類參與，用于下游獎勵模型的訓(xùn)練。

?此外，基礎(chǔ)模型可以充當(dāng)AI評論家，不僅可以生成數(shù)據(jù)用于獎勵模型，還可以直接成為獎勵模型。在推理階段，基礎(chǔ)模型嘗試完成任務(wù)并進行自我反思。在訓(xùn)練階段，基礎(chǔ)模型提供直接的策略反饋，將良好的先驗知識融入到微調(diào)模型中。

合成數(shù)據(jù)生成SDG

?AI 模型是否也可以改進我們獲取和標(biāo)記全新數(shù)據(jù)集的方式？更進一步，人工智能模型能否生成足夠高質(zhì)量的有用數(shù)據(jù)以供后續(xù)訓(xùn)練呢？

「一種可能的方法是不完全取代人類在數(shù)據(jù)引擎環(huán)節(jié)中的作用，而是通過共享自治的范式來增強人類能力」。AI模型的預(yù)測可能不是完美的，但可能是一個足夠好的起點，可以節(jié)省人類標(biāo)注的時間。例如，特斯拉自動駕駛團隊的視覺數(shù)據(jù)引擎使用自動標(biāo)簽來進行諸如3D物體分割和車道檢測等任務(wù)，并作為人類標(biāo)注員進行校正的初始起點。最近，Meta發(fā)布了SA-1B分割掩碼數(shù)據(jù)集，通過一種交互式的模型輔助標(biāo)注過程，比完全手動標(biāo)注的方法快6.5倍。

「除了協(xié)助人類標(biāo)注員之外，生成建模的進步是否能夠在完全沒有人類參與的情況下創(chuàng)建有用的合成數(shù)據(jù)」？過去已經(jīng)廣泛研究了這個想法，稱為半監(jiān)督學(xué)習(xí)或偽標(biāo)簽；這篇博文是對2021年之前半監(jiān)督學(xué)習(xí)的一個很好的概述。但是，2021年以后，在語言和視覺領(lǐng)域中性能出色的大規(guī)模模型的普及極大地增加了合成數(shù)據(jù)生成的潛力。過去，合成標(biāo)簽依賴于狹窄的特定領(lǐng)域模型，現(xiàn)在合成標(biāo)簽可以由不特定于當(dāng)前任務(wù)的通用模型產(chǎn)生。這有兩個好處：降低了嘗試合成數(shù)據(jù)生成的成本，并有可能將互聯(lián)網(wǎng)規(guī)模的常識引入到特定的訓(xùn)練領(lǐng)域中。

?使用大規(guī)模通用模型進行狹窄合成生成”的這一概念已經(jīng)在各種領(lǐng)域中得到越來越廣泛的探索。

最佳策略

?那么，對于大模型的最佳微調(diào)策略是什么？

目前，已經(jīng)有一些可行的建議可以得出結(jié)論?？偨Y(jié)比較早期的方法，在做出有關(guān)先驗放大的設(shè)計時，需要考慮一些潛在問題：

原始訓(xùn)練語料庫是否包含您想要的所有能力和先驗？如果是，請嘗試提示;如果否，微調(diào)模型。
獲取不同的微調(diào)數(shù)據(jù)集是否容易？如果是，請嘗試 SFT;如果否，請嘗試 RLHF 或 AI 反饋。
您可以訪問大量計算嗎？如果是，微調(diào)整個模型;如果否，請使用 PEFT。
現(xiàn)有的 AI 模型是否足以生成數(shù)據(jù)或驗證數(shù)據(jù)？如果數(shù)據(jù)生成足夠好，請嘗試創(chuàng)建合成數(shù)據(jù)（SDG）;如果足以驗證但不能生成，請嘗試使用 AI 反饋 (RLAIF) 或自我反思;如果兩者都不是，請堅持使用 RLHF。

?從更廣泛的角度來看，我們需要認(rèn)識到「AI助力先驗分布放大過程是一把雙刃劍」。隨著AI模型在數(shù)據(jù)整理和訓(xùn)練過程中的越來越廣泛應(yīng)用，這些AI模型中預(yù)設(shè)的先驗知識也會被傳遞下來——包括可取和不可取的先驗知識。討論過的所有微調(diào)方法都可以反復(fù)應(yīng)用多次，每次生成的“學(xué)生”模型都會成為下一代的“老師”。因此，隨著時間的推移，與過去簡單的模型訓(xùn)練血統(tǒng)相比，特定先驗知識的原始來源開始變得模糊不清。這對AI領(lǐng)域的技術(shù)方法論、安全性和控制偏見具有非常現(xiàn)實的影響。本文源自：https://thegradient.pub/ai-is-domestification/

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区