目錄
ChatGPT本質(zhì)是一個(gè)對(duì)話模型,它可以回答日常問(wèn)題、挑戰(zhàn)不正確的前提,甚至?xí)芙^不適當(dāng)?shù)恼?qǐng)求,在去除偏見(jiàn)和安全性上不同于以往的語(yǔ)言模型。ChatGPT從閑聊、回答日常問(wèn)題,到文本改寫、詩(shī)歌小說(shuō)生成、視頻腳本生成,以及編寫和調(diào)試代碼均展示了其令人驚嘆的能力。在OpenAI公布博文和試用接口后,ChatGPT很快以令人驚嘆的對(duì)話能力“引爆”網(wǎng)絡(luò),本文主要從技術(shù)角度,梳理ChatGPT背后涉及的技術(shù)工作LLM,來(lái)闡述其如此強(qiáng)大的原因;同時(shí)思考其對(duì)我們目前的實(shí)際工作和方法論的改變,包括可復(fù)用和可借鑒之處。ChatGPT其關(guān)鍵能力來(lái)自三個(gè)方面:強(qiáng)大的基座大模型能力(InstructGPT),高質(zhì)量的真實(shí)數(shù)據(jù)(干凈且豐富),強(qiáng)化學(xué)習(xí)算法(PPO算法)。
為何三段式的訓(xùn)練方法就可以讓ChatGPT如此強(qiáng)大?其實(shí),以上的訓(xùn)練過(guò)程蘊(yùn)含了上文我們提到的關(guān)鍵點(diǎn),而這些關(guān)鍵點(diǎn)正是ChatGPT成功的原因:
強(qiáng)大的基座模型能力(InstructGPT);大參數(shù)語(yǔ)言模型(GPT3.5);高質(zhì)量的真實(shí)數(shù)據(jù)(精標(biāo)的多輪對(duì)話數(shù)據(jù)和比較排序數(shù)據(jù));性能穩(wěn)定的強(qiáng)化學(xué)習(xí)算法(PPO算法)
我們需要注意的是,ChatGPT的成功,是在前期大量工作基礎(chǔ)上實(shí)現(xiàn)的,非憑空產(chǎn)生的“驚雷”。ChatGPT是InstructGPT的兄弟模型(sibling model),后者經(jīng)過(guò)訓(xùn)練以遵循Prompt中的指令,提供詳細(xì)的響應(yīng)。InstructGPT是OpenAI在2022年3月在Training language models to follow instructions with human feedback文獻(xiàn)中提出的工作,整體流程和以上的ChatGPT流程基本相同,除了在數(shù)據(jù)收集和基座模型(GPT3 vs GPT 3.5),以及第三步初始化PPO模型時(shí)略有不同。此篇可以視為RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí),使用人工結(jié)果打分來(lái)調(diào)整模型) 1.0的收官之作。一方面,從官網(wǎng)來(lái)看,這篇文章之后暫時(shí)沒(méi)有發(fā)布RLHF的新研究,另一方面這篇文章也佐證了Instruction Tuning的有效性。
在InstuctGPT的工作中,與ChatGPT類似,給定Instruction,需要人工寫回答。首先訓(xùn)練一個(gè)InstructGPT的早期版本,使用完全人工標(biāo)注的數(shù)據(jù),數(shù)據(jù)分為3類:Instruction+Answer,Instruction+多個(gè)examples和用戶在使用API過(guò)程中提出的需求。從第二類數(shù)據(jù)的標(biāo)注,推測(cè)ChatGPT可能用檢索來(lái)提供多個(gè)In Context Learning的示例,供人工標(biāo)注。剩余步驟與以上ChatGPT相同。尤其需要重視但往往容易被忽視的,即OpenAI對(duì)于數(shù)據(jù)質(zhì)量和數(shù)據(jù)泛化性的把控,這也是OpenAI的一大優(yōu)勢(shì):
1)尋找高質(zhì)量標(biāo)注者:尋找在識(shí)別和回應(yīng)敏感提示的能力篩選測(cè)試中,表現(xiàn)良好的labeler;
2)使用集外標(biāo)注者保證泛化性:即用未經(jīng)歷以上1)步驟的更廣大群體的標(biāo)注者對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行驗(yàn)證,保證訓(xùn)練數(shù)據(jù)與更廣泛群體的偏好一致。
GPT3只是個(gè)語(yǔ)言模型,它被用來(lái)預(yù)測(cè)下一個(gè)單詞,絲毫沒(méi)有考慮用戶想要的答案;當(dāng)使用代表用戶喜好的三類人工標(biāo)注為微調(diào)數(shù)據(jù)后,1.3B參數(shù)的InstructGPT在多場(chǎng)景下的效果超越175B的GPT3。
InstructGPT當(dāng)中提到很關(guān)鍵的一點(diǎn), 當(dāng)我們要解決的安全和對(duì)齊問(wèn)題是復(fù)雜和主觀,而它的好壞無(wú)法完全被自動(dòng)指標(biāo)衡量的時(shí)候,此時(shí)需要用人類的偏好來(lái)作為獎(jiǎng)勵(lì)信號(hào)來(lái)微調(diào)我們的模型。
再往前回溯,其實(shí)在2019年GPT2出世后,OpenAI就有嘗試結(jié)合GPT-2和強(qiáng)化學(xué)習(xí)。在NeurIPS 2020的Learning to Summarize with Human Feedback工作中,OpenAI在摘要生成中,利用了從人類反饋中的強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練??梢詮倪@篇工作的整體流程圖中,看出三步走的核心思想: 收集反饋數(shù)據(jù) -> 訓(xùn)練獎(jiǎng)勵(lì)模型 -> PPO強(qiáng)化學(xué)習(xí)。
RLHF第一階段,針對(duì)多個(gè)候選摘要,人工排序(這里就體現(xiàn)出OpenAI的鈔能力,按標(biāo)注時(shí)間計(jì)費(fèi),標(biāo)注過(guò)快的會(huì)被開(kāi)除);第二階段,訓(xùn)練排序模型(依舊使用GPT模型);第三階段,利用PPO算法學(xué)習(xí)Policy(在摘要任務(wù)上微調(diào)過(guò)的GPT)。文中模型可以產(chǎn)生比10倍更大模型容量更好的摘要效果。但文中也同樣指出,模型的成功部分歸功于增大了獎(jiǎng)勵(lì)模型的規(guī)模,而這需要很大量級(jí)的計(jì)算資源,訓(xùn)練6.7B的強(qiáng)化學(xué)習(xí)模型需要320 GPU-days的成本。另一篇2020年初的工作,是OpenAI的Fine-Tuning GPT-2 from Human Preferences工作,同樣首先利用預(yù)訓(xùn)練模型,訓(xùn)練reward模型;進(jìn)而使用PPO策略進(jìn)行強(qiáng)化學(xué)習(xí),整體步驟初見(jiàn)ChatGPT的雛形。
而RLHF(reinforcement learning from human feedback )的思想,是在更早的2017年6月的OpenAI Deep Reinforcement Learning from Human Preferences工作提出,核心思想是利用人類的反饋,判斷最接近視頻行為目標(biāo)的片段,通過(guò)訓(xùn)練來(lái)找到最能解釋人類判斷的獎(jiǎng)勵(lì)函數(shù),然后使用RL來(lái)學(xué)習(xí)如何實(shí)現(xiàn)這個(gè)目標(biāo)。
可以說(shuō),ChatGPT是站在InstructGPT以及以上理論的肩膀上完成的一項(xiàng)出色的工作,它們將LLM(large language model)/PTM(pretrain language model)與RL(reinforcement learning)出色結(jié)合,證明這條方向可行,同時(shí)也是未來(lái)還將持續(xù)發(fā)展的NLP甚至通用智能體的方向。
其實(shí)近兩年,利用LLM+RL以及對(duì)強(qiáng)化學(xué)習(xí)和NLP訓(xùn)練的研究,各大巨頭在這個(gè)領(lǐng)域做了非常多扎實(shí)的工作,而這些成果和ChatGPT一樣都有可圈可點(diǎn)之處。這里以O(shè)penAI的WebGPT和Meta的Cicero為例。
WebGPT是2021年底OpenAI的工作,其核心思想是使用GPT3模型強(qiáng)大的生成能力,學(xué)習(xí)人類使用搜索引擎的一系列行為,通過(guò)訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)預(yù)測(cè)人類的偏好,使WebGPT可以自己搜索網(wǎng)頁(yè)來(lái)回答開(kāi)放域的問(wèn)題,而產(chǎn)生的答案盡可能滿足人類的喜好。Cicero是Meta AI 2022年底發(fā)布的可以以人類水平玩文字策略游戲的AI系統(tǒng), 其同樣可以與人類互動(dòng),可以使用戰(zhàn)略推理和自然語(yǔ)言與人類在游戲玩法中進(jìn)行互動(dòng)和競(jìng)爭(zhēng)。Cicero的核心是由一個(gè)對(duì)話引擎和一個(gè)戰(zhàn)略推理引擎共同驅(qū)動(dòng)的,而戰(zhàn)略推理引擎集中使用了RL,對(duì)話引擎與GPT3類似。
關(guān)于ChatGPT(GPT3.5)的發(fā)展summary,附上一個(gè)非常好的資料推薦,并附上其梳理的流程:
能力OpenAI模型訓(xùn)練方法OpenAI APIOpenAI論文近似的開(kāi)源模型語(yǔ)言生成+ 世界知識(shí)+ 上下文學(xué)習(xí)GPT-3初始版本大部分的能力已經(jīng)存在于模型中,盡管表面上看起來(lái)很弱。語(yǔ)言建模DavinciGPT3論文Meta OPT+ 遵循人類的指令+ 泛化到?jīng)]有見(jiàn)過(guò)的任務(wù)Instruct-GPT初始版本指令微調(diào)Davinci-Instruct-BetaInstruct-GPT論文T0論文Google FLAN論文+ 代碼理解+ 代碼生成Codex初始版本在代碼上進(jìn)行訓(xùn)練Code-Cushman-001Codex論文Salesforce CodeGenGPT3.5系列++ 代碼理解++ 代碼生成++ 復(fù)雜推理 / 思維鏈+ 長(zhǎng)距離的依賴 (很可能)現(xiàn)在的CodexGPT3.5系列中最強(qiáng)大的模型在代碼+文本上進(jìn)行訓(xùn)練在指令上進(jìn)行微調(diào)Code-Davinci-002(目前免費(fèi)的版本 = 2022年12月)Codex論文++ 遵循人類指令- 上下文學(xué)習(xí)- 推理能力++ 零樣本生成有監(jiān)督的Instruct-GPT通過(guò)犧牲上下文學(xué)習(xí)換取零樣本生成的能力監(jiān)督學(xué)習(xí)版的指令微調(diào)Text-Davinci-002InsructGPT論文 有監(jiān)督部分T0論文Google FLAN論文+ 遵循人類價(jià)值觀+ 包含更多細(xì)節(jié)的生成+ 上下文學(xué)習(xí)+ 零樣本生成經(jīng)過(guò)RLHF訓(xùn)練的Instruct-GPT和002模型相比,和人類更加對(duì)齊,并且更少的性能損失強(qiáng)化學(xué)習(xí)版的指令微調(diào)Text-Davinci-003InsructGPT論文 從人類反饋中學(xué)習(xí)Deepmind SparrowAI2 RL4LMs++ 遵循人類價(jià)值觀++ 包含更多細(xì)節(jié)的生成++ 拒絕知識(shí)范圍外的問(wèn)題++ 建模對(duì)話歷史的能力-- 上下文學(xué)習(xí)ChatGPT通過(guò)犧牲上下文學(xué)習(xí)的能力換取建模對(duì)話歷史的能力使用對(duì)話數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)指令微調(diào)Deepmind SparrowAI2 RL4LMs
ChatGPT對(duì)于文字模態(tài)的AIGC應(yīng)用具有重要意義,可以依附于對(duì)話形態(tài)的產(chǎn)品和載體大有空間,包括但不限于內(nèi)容創(chuàng)作、客服機(jī)器人、虛擬人、機(jī)器翻譯、游戲、社交、教育、家庭陪護(hù)等領(lǐng)域,或許都將是 ChatGPT 能快速落地的方向。其中有些方向會(huì)涉及到交互的全面改革,比如機(jī)器翻譯不再是傳統(tǒng)的文本輸入->實(shí)時(shí)翻譯,而是隨時(shí)以助手問(wèn)答的形式出現(xiàn),甚至給出一個(gè)大概籠統(tǒng)的中文意思,讓機(jī)器給出對(duì)應(yīng)英文,包括對(duì)于我們目前所做的寫作產(chǎn)品,可能也會(huì)涉及創(chuàng)作模式的改變和革新。 有些方向會(huì)全面提升產(chǎn)品質(zhì)量,比如已存在的客服機(jī)器人、虛擬人等。NLP與CV相結(jié)合:ChatGPT作為文字形態(tài)的基礎(chǔ)模型,自然可以與其他多模態(tài)結(jié)合;比如最近同為火熱的Stable Diffusion模型,利用ChatGPT生成較佳的Prompt,對(duì)于AIGC內(nèi)容和日趨火熱的藝術(shù)創(chuàng)作,提供強(qiáng)大的文字形態(tài)的動(dòng)力。另一個(gè)討論較多的方向,是ChatGPT對(duì)于搜索引擎的代替性;ChatGPT可以作為搜索引擎的有效補(bǔ)充,但至于是否能代替搜索引擎(不少人關(guān)注的地方),拋開(kāi)推理成本不談,目前只從效果上來(lái)說(shuō)為時(shí)尚早。 對(duì)于網(wǎng)絡(luò)有答案的query,抽取就完全能滿足,百度最近就有這樣的功能。網(wǎng)絡(luò)上沒(méi)有明確答案,即使檢索了相關(guān)材料(ChatGPT應(yīng)該還沒(méi)有這樣的功能),也沒(méi)人能保證生成結(jié)果的可信度,目前可能還不太成熟。ChatGPT本身的升級(jí):與WebGPT的結(jié)合,對(duì)信息進(jìn)行實(shí)時(shí)更新,并且對(duì)于事實(shí)真假進(jìn)行判斷;很明顯可以看到,現(xiàn)在的ChatGPT沒(méi)有實(shí)時(shí)更新和事實(shí)判斷能力,而如果結(jié)合WebGPT的自動(dòng)搜索能力,讓ChatGPT學(xué)會(huì)自己去海量知識(shí)庫(kù)中探索和學(xué)習(xí),將會(huì)極大提升使用方向,我們預(yù)測(cè)這可能會(huì)是GPT-4的一項(xiàng)能力。 還有其他更多方向,包括ChatGPT與最近數(shù)理邏輯工作的結(jié)合等。
通過(guò)海量數(shù)據(jù)訓(xùn)練得到的超大參數(shù)模型蘊(yùn)含了海量知識(shí),以GPT3(175B)開(kāi)端,再到LaMDA(137B)、Gopher(280B)、FLAN-T5(540B)等,業(yè)界對(duì)于LLM的探索和應(yīng)用,以及如何挖掘其學(xué)到的知識(shí),引導(dǎo)它們適配不同子任務(wù)達(dá)到最先進(jìn)結(jié)果(state-of-the-art result,sota),一直是近兩年一項(xiàng)極具價(jià)值及熱門的工作。對(duì)于LLM的探索,從起初探索貼近預(yù)訓(xùn)練任務(wù)的方式構(gòu)造下游任務(wù),包括各類Prompt Engineering方式,減少微調(diào)數(shù)據(jù)量;再到用非梯度更新的方式,使大模型無(wú)需微調(diào)情況下,擁有小樣本、零樣本解決問(wèn)題的能力,包括上下文學(xué)習(xí)(In-context learning)、上下文學(xué)習(xí)的矯正(Calibration)等;利用LLM解決更難的數(shù)理推理問(wèn)題,通過(guò)一系列邏輯鏈(CoT,chain of thought ),深入挖掘大模型的知識(shí)和推理能力;進(jìn)一步,更加看重行動(dòng)驅(qū)動(dòng)(Action-driven)、意圖驅(qū)動(dòng)與大模型的結(jié)合,使大模型從意圖出發(fā)對(duì)齊人類需求;以上探索,力求在數(shù)量繁多的自然語(yǔ)言任務(wù)中達(dá)到初步的“質(zhì)變”效果,嘗試通向真正的AGI。
LLM的引入會(huì)使行業(yè)內(nèi)公司劃分出不同層級(jí)(此處很同意謝劍的觀點(diǎn)):
Level1:LLM基礎(chǔ)設(shè)施公司;類比為一個(gè)擁有比較強(qiáng)通用能力的人;Level1的公司會(huì)比較少,可能只有1-2家(比如 OpenAI、Google)
Level2:基于LLM結(jié)合場(chǎng)景進(jìn)行商業(yè)化應(yīng)用的公司(以應(yīng)用為主,沒(méi)有全體微調(diào)) ;類比通用能力的人去一些場(chǎng)景打工掙錢;Level2的公司側(cè)重于基于LLM做出較多應(yīng)用,包括從頭創(chuàng)新做應(yīng)用、已有的業(yè)務(wù)場(chǎng)景中升級(jí)功能。
Level3:基于LLM+領(lǐng)域場(chǎng)景數(shù)據(jù),微調(diào)形成具備更強(qiáng)領(lǐng)域能力和一定門檻的產(chǎn)品,通過(guò)商業(yè)化和數(shù)據(jù)積累,持續(xù)形成業(yè)務(wù)數(shù)據(jù)-模型閉環(huán);類比一個(gè)領(lǐng)域?qū)<?。Level3的公司有很強(qiáng)的專業(yè)性和數(shù)據(jù)積累,比如類似專項(xiàng)面向?qū)懽鞯腏asper.AI等。
LLM的出現(xiàn)使得機(jī)遇與挑戰(zhàn)并存,機(jī)遇在于技術(shù)革新勢(shì)必會(huì)帶來(lái)新賽道的機(jī)遇,挑戰(zhàn)在于革新也會(huì)使越來(lái)越多old school方式被拋棄,跟不上節(jié)奏落伍的風(fēng)險(xiǎn)將會(huì)加大。
1)從技術(shù)演進(jìn)角度來(lái)說(shuō),LLM可能使NLP形成“大一統(tǒng)”之勢(shì)。如果說(shuō)BERT讓大部分中間任務(wù)基本消亡,NLP傳統(tǒng)技藝逐漸被替代,那么LLM則會(huì)讓很多NLP子領(lǐng)域不再具備獨(dú)立研究?jī)r(jià)值,它們均會(huì)被納入LLM技術(shù)體系;這對(duì)于相關(guān)長(zhǎng)期從事某些子領(lǐng)域的研究者和從業(yè)者是一件可怕的事,累積了一定時(shí)間的子領(lǐng)域?qū)<医?jīng)驗(yàn)/技巧trick,一夜即被“暴力”的LLM擊敗,對(duì)相關(guān)業(yè)務(wù)和從業(yè)者挑戰(zhàn)巨大;但另一個(gè)角度來(lái)說(shuō),當(dāng)NLP整體能力到達(dá)一定階段時(shí),“大一統(tǒng)”是必然結(jié)果,之前劃分較多子領(lǐng)域是因?yàn)闆](méi)有強(qiáng)能力模型而需要分而治之,積極利用LLM拓展自身業(yè)務(wù)的可能性是機(jī)遇所在。
2)從LLM應(yīng)用角度來(lái)說(shuō),LLM-as-a-Service 會(huì)越來(lái)越普遍,OpenAI 提供的 LLMaaS 服務(wù)已經(jīng)具備較高的速度,并開(kāi)始逐步探索行之有效的盈利模式,這也是下游產(chǎn)品的機(jī)遇。截止2021年7月,全球有300多個(gè)app在使用GPT3技術(shù),結(jié)合gpt3demo網(wǎng)站的數(shù)據(jù),其收錄了158個(gè)基于GPT-3的應(yīng)用;LLM使得業(yè)界能力下限提升,行業(yè)門檻下降,業(yè)務(wù)優(yōu)勢(shì)會(huì)聚焦在垂直領(lǐng)域的數(shù)據(jù)積累資源。但LLMaaS的盈利模式并不成熟,尚待檢驗(yàn),合理的模式應(yīng)該需要涉及用戶分層,而非全量用戶的鋪展,這些均增添了較多不確定性,此為應(yīng)用層面的挑戰(zhàn)。
3)從推理成本來(lái)說(shuō),配合LLM的模型壓縮、前向加速等手段均可以降低推理成本,雖然下游產(chǎn)品推理的服務(wù)成本尚高,但其實(shí)作為百億模型,完成大量高智能任務(wù)具備初步可行性,此為機(jī)遇;但在降本增效的大環(huán)境下,真正將LLM投入生產(chǎn)的挑戰(zhàn)性極大,對(duì)于LLM短期在生產(chǎn)環(huán)境下最實(shí)際的用途主要聚焦在線下,主要圍繞數(shù)據(jù)擴(kuò)增、減少標(biāo)注成本和數(shù)據(jù)生產(chǎn)。
4) 從訓(xùn)練投入成本來(lái)說(shuō),作為最限制LLM發(fā)展的因素,它也在不斷進(jìn)步,除去本身模硬件升級(jí)、模型蒸餾、加速訓(xùn)練技術(shù)之外,LLM的稀疏化也會(huì)持續(xù)發(fā)展,SparseGPT應(yīng)該是其中有代表性的工作之一,此為機(jī)遇;當(dāng)然這樣的進(jìn)步相比高額的投入并不夠,所以在第三節(jié)中提到的對(duì)于LLM的投入,是和相關(guān)組織的技術(shù)戰(zhàn)略相關(guān)的。在LM基建層面,目標(biāo)成為何Level的公司,會(huì)影響相關(guān)的投入,但LLM絕對(duì)是具備高戰(zhàn)略價(jià)值的投入。
5) 從國(guó)內(nèi)產(chǎn)研角度來(lái)說(shuō),這一點(diǎn)其實(shí)是比較讓人憂慮的;因?yàn)長(zhǎng)LM過(guò)于高昂的成本和苛刻的使用條件,這兩年國(guó)內(nèi)對(duì)于LLM的研究成果較少(累積參數(shù)的大模型有,但實(shí)際有影響的成果不多),與國(guó)外差距在增大。表1可以看到,GPT3后已經(jīng)更新了5~6代,而國(guó)內(nèi)甚至還沒(méi)有真正意義上可以匹敵GPT3的基建模型,甚至60億~130億的 InstructGPT能力已經(jīng)超過(guò)國(guó)內(nèi)大部分的所謂大模型(當(dāng)然OpenAI領(lǐng)先太多,其也超出Google的一般大模型)。
當(dāng)LLM逐漸成為壟斷能力,當(dāng)OpenAI、Google、DeepMind逐漸閉源時(shí),基建模型又會(huì)成為“卡脖子”的能力,ChatGPT只是這一階段的開(kāi)始。 所以筆者認(rèn)為對(duì)于LLM的態(tài)度,僅從個(gè)人來(lái)說(shuō),國(guó)內(nèi)大廠戰(zhàn)略上務(wù)必重視它,積極應(yīng)對(duì)挑戰(zhàn),不用過(guò)分悲觀,尋求并抓住LLM帶來(lái)的機(jī)遇;基于以上方法利用好可用的LLM,可控成本下優(yōu)化自身業(yè)務(wù),同時(shí)緊跟業(yè)界研究方向,“借好”LLM帶來(lái)的新東風(fēng)。
最后附上相關(guān)大語(yǔ)言模型進(jìn)化表:
模型參數(shù)量訓(xùn)練數(shù)據(jù)量方法和結(jié)論文獻(xiàn)GPT30.1B~175B約500B tokensTransformer DecoderLanguage Models are Few-Shot LearnersLaMDA137B1.56T wordsTransformer Decoder三大目標(biāo):質(zhì)量、安全和根基性(事實(shí)正確性)。質(zhì)量分為合理性、特異性和趣味性;主要根據(jù)以上評(píng)測(cè)指標(biāo)來(lái)約束生成,將生成和排序融合到一起,同時(shí)增加了兩個(gè)任務(wù)來(lái)融入知識(shí)(輸入對(duì)話上下文,輸出知識(shí)查詢語(yǔ)句;輸入知識(shí)查詢語(yǔ)句,輸出生成的最終結(jié)果)LaMDA: Language Models for Dialog ApplicationsWebGPT760M、13B、175BDemonstraions: 6209Comprisons:21548其核心思想是使用GPT3模型強(qiáng)大的生成能力,學(xué)習(xí)人類使用搜索引擎的一系列行為,通過(guò)訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)預(yù)測(cè)人類的偏好,使WebGPT可以自己搜索網(wǎng)頁(yè)來(lái)回答開(kāi)放域的問(wèn)題,而產(chǎn)生的答案盡可能滿足人類的喜好。WebGPT: Browser-assisted question-answering with human feedbackFLAN-T5540B1800個(gè)任務(wù)任務(wù)的指令 與數(shù)據(jù)進(jìn)行拼接。統(tǒng)一的輸入輸出格式(4種類型),引入chain-of-thought,大幅提高任務(wù)數(shù)量,大幅提高模型體積;Scaling Instruction-Finetuned Language ModelsSparrow(Chinchilla)70B/核心為從人類反饋中學(xué)習(xí),創(chuàng)造更安全的對(duì)話助手。Improving alignment of dialogue agents via targeted human judgementsGopher44M~ 280B10.5TB堆參數(shù)的大模型Scaling Language Models: Methods, Analysis & Insights from Training GopherRETRO(Retrieval Transformer)172M~7.5B/以 Gopher為基礎(chǔ)改進(jìn)語(yǔ)言模型架構(gòu),降低了訓(xùn)練資源成本,并檢索增強(qiáng)。在只使用4%的參數(shù)量的基礎(chǔ)上,RETRO模型獲得了與Gopher和 Jurassic-1 模型相當(dāng)?shù)男阅?,在大多?shù)測(cè)試集上表現(xiàn)優(yōu)異。Improving language models by retrieving from trillions of tokensPaLM8B、62B、540B780B tokens 包括網(wǎng)頁(yè)、書(shū)籍、維基百科、代碼、社交對(duì)話Transformer DecoderPaLM: Scaling Language Modeling with PathwaysInstructGPT1.3B、6B、175B微調(diào)數(shù)據(jù)1w+,Reward Model 4w+,PPO無(wú)標(biāo)注數(shù)據(jù)4w+GPT3.5 Finetune+RLHF指令微調(diào)Training language models to follow instructions with human feedbackChatGPT/推測(cè)和InstructGPT差不多GPT3.5 (codex基礎(chǔ)上)Finetune+RLHF+解決對(duì)齊問(wèn)題/
申明:本文參考了較多網(wǎng)絡(luò)資料,屬于資料整合類,如有侵權(quán)請(qǐng)聯(lián)系作者添加引用或者刪除。
聯(lián)系客服