日日噜噜噜噜人人爽亚洲精品,亚洲区激情区图片小说区,午夜精品一区二区三区在线视

一、ChatGPT簡(jiǎn)介

ChatGPT本質(zhì)是一個(gè)對(duì)話模型，它可以回答日常問(wèn)題、挑戰(zhàn)不正確的前提，甚至?xí)芙^不適當(dāng)?shù)恼?qǐng)求，在去除偏見(jiàn)和安全性上不同于以往的語(yǔ)言模型。ChatGPT從閑聊、回答日常問(wèn)題，到文本改寫、詩(shī)歌小說(shuō)生成、視頻腳本生成，以及編寫和調(diào)試代碼均展示了其令人驚嘆的能力。在OpenAI公布博文和試用接口后，ChatGPT很快以令人驚嘆的對(duì)話能力“引爆”網(wǎng)絡(luò)，本文主要從技術(shù)角度，梳理ChatGPT背后涉及的技術(shù)工作LLM，來(lái)闡述其如此強(qiáng)大的原因；同時(shí)思考其對(duì)我們目前的實(shí)際工作和方法論的改變，包括可復(fù)用和可借鑒之處。ChatGPT其關(guān)鍵能力來(lái)自三個(gè)方面：強(qiáng)大的基座大模型能力（InstructGPT），高質(zhì)量的真實(shí)數(shù)據(jù)（干凈且豐富），強(qiáng)化學(xué)習(xí)算法（PPO算法）。

為何三段式的訓(xùn)練方法就可以讓ChatGPT如此強(qiáng)大？其實(shí)，以上的訓(xùn)練過(guò)程蘊(yùn)含了上文我們提到的關(guān)鍵點(diǎn)，而這些關(guān)鍵點(diǎn)正是ChatGPT成功的原因：

強(qiáng)大的基座模型能力（InstructGPT）；大參數(shù)語(yǔ)言模型（GPT3.5）；高質(zhì)量的真實(shí)數(shù)據(jù)（精標(biāo)的多輪對(duì)話數(shù)據(jù)和比較排序數(shù)據(jù)）；性能穩(wěn)定的強(qiáng)化學(xué)習(xí)算法（PPO算法）

二、InstructGPT及其相關(guān)工作

我們需要注意的是，ChatGPT的成功，是在前期大量工作基礎(chǔ)上實(shí)現(xiàn)的，非憑空產(chǎn)生的“驚雷”。ChatGPT是InstructGPT的兄弟模型(sibling model)，后者經(jīng)過(guò)訓(xùn)練以遵循Prompt中的指令，提供詳細(xì)的響應(yīng)。InstructGPT是OpenAI在2022年3月在Training language models to follow instructions with human feedback文獻(xiàn)中提出的工作，整體流程和以上的ChatGPT流程基本相同，除了在數(shù)據(jù)收集和基座模型（GPT3 vs GPT 3.5），以及第三步初始化PPO模型時(shí)略有不同。此篇可以視為RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)，使用人工結(jié)果打分來(lái)調(diào)整模型） 1.0的收官之作。一方面，從官網(wǎng)來(lái)看，這篇文章之后暫時(shí)沒(méi)有發(fā)布RLHF的新研究，另一方面這篇文章也佐證了Instruction Tuning的有效性。

在InstuctGPT的工作中，與ChatGPT類似，給定Instruction，需要人工寫回答。首先訓(xùn)練一個(gè)InstructGPT的早期版本，使用完全人工標(biāo)注的數(shù)據(jù)，數(shù)據(jù)分為3類：Instruction+Answer，Instruction+多個(gè)examples和用戶在使用API過(guò)程中提出的需求。從第二類數(shù)據(jù)的標(biāo)注，推測(cè)ChatGPT可能用檢索來(lái)提供多個(gè)In Context Learning的示例，供人工標(biāo)注。剩余步驟與以上ChatGPT相同。尤其需要重視但往往容易被忽視的，即OpenAI對(duì)于數(shù)據(jù)質(zhì)量和數(shù)據(jù)泛化性的把控，這也是OpenAI的一大優(yōu)勢(shì)：

1）尋找高質(zhì)量標(biāo)注者：尋找在識(shí)別和回應(yīng)敏感提示的能力篩選測(cè)試中，表現(xiàn)良好的labeler；

2）使用集外標(biāo)注者保證泛化性：即用未經(jīng)歷以上1）步驟的更廣大群體的標(biāo)注者對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行驗(yàn)證，保證訓(xùn)練數(shù)據(jù)與更廣泛群體的偏好一致。

GPT3只是個(gè)語(yǔ)言模型，它被用來(lái)預(yù)測(cè)下一個(gè)單詞，絲毫沒(méi)有考慮用戶想要的答案；當(dāng)使用代表用戶喜好的三類人工標(biāo)注為微調(diào)數(shù)據(jù)后，1.3B參數(shù)的InstructGPT在多場(chǎng)景下的效果超越175B的GPT3。

InstructGPT當(dāng)中提到很關(guān)鍵的一點(diǎn)，當(dāng)我們要解決的安全和對(duì)齊問(wèn)題是復(fù)雜和主觀，而它的好壞無(wú)法完全被自動(dòng)指標(biāo)衡量的時(shí)候，此時(shí)需要用人類的偏好來(lái)作為獎(jiǎng)勵(lì)信號(hào)來(lái)微調(diào)我們的模型。

三、InstuctGPT的前序工作:GPT與強(qiáng)化學(xué)習(xí)的結(jié)合

再往前回溯，其實(shí)在2019年GPT2出世后，OpenAI就有嘗試結(jié)合GPT-2和強(qiáng)化學(xué)習(xí)。在NeurIPS 2020的Learning to Summarize with Human Feedback工作中，OpenAI在摘要生成中，利用了從人類反饋中的強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練?？梢詮倪@篇工作的整體流程圖中，看出三步走的核心思想：收集反饋數(shù)據(jù) -> 訓(xùn)練獎(jiǎng)勵(lì)模型 -> PPO強(qiáng)化學(xué)習(xí)。

RLHF第一階段，針對(duì)多個(gè)候選摘要，人工排序（這里就體現(xiàn)出OpenAI的鈔能力，按標(biāo)注時(shí)間計(jì)費(fèi)，標(biāo)注過(guò)快的會(huì)被開(kāi)除）；第二階段，訓(xùn)練排序模型（依舊使用GPT模型)；第三階段，利用PPO算法學(xué)習(xí)Policy（在摘要任務(wù)上微調(diào)過(guò)的GPT）。文中模型可以產(chǎn)生比10倍更大模型容量更好的摘要效果。但文中也同樣指出，模型的成功部分歸功于增大了獎(jiǎng)勵(lì)模型的規(guī)模，而這需要很大量級(jí)的計(jì)算資源，訓(xùn)練6.7B的強(qiáng)化學(xué)習(xí)模型需要320 GPU-days的成本。另一篇2020年初的工作，是OpenAI的Fine-Tuning GPT-2 from Human Preferences工作，同樣首先利用預(yù)訓(xùn)練模型，訓(xùn)練reward模型；進(jìn)而使用PPO策略進(jìn)行強(qiáng)化學(xué)習(xí)，整體步驟初見(jiàn)ChatGPT的雛形。

而RLHF（reinforcement learning from human feedback ）的思想，是在更早的2017年6月的OpenAI Deep Reinforcement Learning from Human Preferences工作提出，核心思想是利用人類的反饋，判斷最接近視頻行為目標(biāo)的片段，通過(guò)訓(xùn)練來(lái)找到最能解釋人類判斷的獎(jiǎng)勵(lì)函數(shù)，然后使用RL來(lái)學(xué)習(xí)如何實(shí)現(xiàn)這個(gè)目標(biāo)。

可以說(shuō)，ChatGPT是站在InstructGPT以及以上理論的肩膀上完成的一項(xiàng)出色的工作，它們將LLM（large language model）/PTM(pretrain language model)與RL（reinforcement learning)出色結(jié)合，證明這條方向可行，同時(shí)也是未來(lái)還將持續(xù)發(fā)展的NLP甚至通用智能體的方向。

四、與ChatGPT同類型其他工作

其實(shí)近兩年，利用LLM+RL以及對(duì)強(qiáng)化學(xué)習(xí)和NLP訓(xùn)練的研究，各大巨頭在這個(gè)領(lǐng)域做了非常多扎實(shí)的工作，而這些成果和ChatGPT一樣都有可圈可點(diǎn)之處。這里以O(shè)penAI的WebGPT和Meta的Cicero為例。

WebGPT是2021年底OpenAI的工作，其核心思想是使用GPT3模型強(qiáng)大的生成能力，學(xué)習(xí)人類使用搜索引擎的一系列行為，通過(guò)訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)預(yù)測(cè)人類的偏好，使WebGPT可以自己搜索網(wǎng)頁(yè)來(lái)回答開(kāi)放域的問(wèn)題，而產(chǎn)生的答案盡可能滿足人類的喜好。Cicero是Meta AI 2022年底發(fā)布的可以以人類水平玩文字策略游戲的AI系統(tǒng)，其同樣可以與人類互動(dòng)，可以使用戰(zhàn)略推理和自然語(yǔ)言與人類在游戲玩法中進(jìn)行互動(dòng)和競(jìng)爭(zhēng)。Cicero的核心是由一個(gè)對(duì)話引擎和一個(gè)戰(zhàn)略推理引擎共同驅(qū)動(dòng)的，而戰(zhàn)略推理引擎集中使用了RL，對(duì)話引擎與GPT3類似。

關(guān)于ChatGPT（GPT3.5）的發(fā)展summary，附上一個(gè)非常好的資料推薦，并附上其梳理的流程：

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.?yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1

能力OpenAI模型訓(xùn)練方法OpenAI APIOpenAI論文近似的開(kāi)源模型語(yǔ)言生成+ 世界知識(shí)+ 上下文學(xué)習(xí)GPT-3初始版本大部分的能力已經(jīng)存在于模型中，盡管表面上看起來(lái)很弱。語(yǔ)言建模DavinciGPT3論文Meta OPT+ 遵循人類的指令+ 泛化到?jīng)]有見(jiàn)過(guò)的任務(wù)Instruct-GPT初始版本指令微調(diào)Davinci-Instruct-BetaInstruct-GPT論文T0論文Google FLAN論文+ 代碼理解+ 代碼生成Codex初始版本在代碼上進(jìn)行訓(xùn)練Code-Cushman-001Codex論文Salesforce CodeGenGPT3.5系列++ 代碼理解++ 代碼生成++ 復(fù)雜推理 / 思維鏈+ 長(zhǎng)距離的依賴 (很可能)現(xiàn)在的CodexGPT3.5系列中最強(qiáng)大的模型在代碼+文本上進(jìn)行訓(xùn)練在指令上進(jìn)行微調(diào)Code-Davinci-002(目前免費(fèi)的版本 = 2022年12月)Codex論文++ 遵循人類指令- 上下文學(xué)習(xí)- 推理能力++ 零樣本生成有監(jiān)督的Instruct-GPT通過(guò)犧牲上下文學(xué)習(xí)換取零樣本生成的能力監(jiān)督學(xué)習(xí)版的指令微調(diào)Text-Davinci-002InsructGPT論文有監(jiān)督部分T0論文Google FLAN論文+ 遵循人類價(jià)值觀+ 包含更多細(xì)節(jié)的生成+ 上下文學(xué)習(xí)+ 零樣本生成經(jīng)過(guò)RLHF訓(xùn)練的Instruct-GPT和002模型相比，和人類更加對(duì)齊，并且更少的性能損失強(qiáng)化學(xué)習(xí)版的指令微調(diào)Text-Davinci-003InsructGPT論文從人類反饋中學(xué)習(xí)Deepmind SparrowAI2 RL4LMs++ 遵循人類價(jià)值觀++ 包含更多細(xì)節(jié)的生成++ 拒絕知識(shí)范圍外的問(wèn)題++ 建模對(duì)話歷史的能力-- 上下文學(xué)習(xí)ChatGPT通過(guò)犧牲上下文學(xué)習(xí)的能力換取建模對(duì)話歷史的能力使用對(duì)話數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)指令微調(diào)Deepmind SparrowAI2 RL4LMs

五、ChatGPT落地與思考

ChatGPT對(duì)于文字模態(tài)的AIGC應(yīng)用具有重要意義，可以依附于對(duì)話形態(tài)的產(chǎn)品和載體大有空間，包括但不限于內(nèi)容創(chuàng)作、客服機(jī)器人、虛擬人、機(jī)器翻譯、游戲、社交、教育、家庭陪護(hù)等領(lǐng)域，或許都將是 ChatGPT 能快速落地的方向。其中有些方向會(huì)涉及到交互的全面改革，比如機(jī)器翻譯不再是傳統(tǒng)的文本輸入->實(shí)時(shí)翻譯，而是隨時(shí)以助手問(wèn)答的形式出現(xiàn)，甚至給出一個(gè)大概籠統(tǒng)的中文意思，讓機(jī)器給出對(duì)應(yīng)英文，包括對(duì)于我們目前所做的寫作產(chǎn)品，可能也會(huì)涉及創(chuàng)作模式的改變和革新。有些方向會(huì)全面提升產(chǎn)品質(zhì)量，比如已存在的客服機(jī)器人、虛擬人等。NLP與CV相結(jié)合：ChatGPT作為文字形態(tài)的基礎(chǔ)模型，自然可以與其他多模態(tài)結(jié)合；比如最近同為火熱的Stable Diffusion模型，利用ChatGPT生成較佳的Prompt，對(duì)于AIGC內(nèi)容和日趨火熱的藝術(shù)創(chuàng)作，提供強(qiáng)大的文字形態(tài)的動(dòng)力。另一個(gè)討論較多的方向，是ChatGPT對(duì)于搜索引擎的代替性；ChatGPT可以作為搜索引擎的有效補(bǔ)充，但至于是否能代替搜索引擎（不少人關(guān)注的地方），拋開(kāi)推理成本不談，目前只從效果上來(lái)說(shuō)為時(shí)尚早。對(duì)于網(wǎng)絡(luò)有答案的query，抽取就完全能滿足，百度最近就有這樣的功能。網(wǎng)絡(luò)上沒(méi)有明確答案，即使檢索了相關(guān)材料（ChatGPT應(yīng)該還沒(méi)有這樣的功能），也沒(méi)人能保證生成結(jié)果的可信度，目前可能還不太成熟。ChatGPT本身的升級(jí)：與WebGPT的結(jié)合，對(duì)信息進(jìn)行實(shí)時(shí)更新，并且對(duì)于事實(shí)真假進(jìn)行判斷；很明顯可以看到，現(xiàn)在的ChatGPT沒(méi)有實(shí)時(shí)更新和事實(shí)判斷能力，而如果結(jié)合WebGPT的自動(dòng)搜索能力，讓ChatGPT學(xué)會(huì)自己去海量知識(shí)庫(kù)中探索和學(xué)習(xí)，將會(huì)極大提升使用方向，我們預(yù)測(cè)這可能會(huì)是GPT-4的一項(xiàng)能力。還有其他更多方向，包括ChatGPT與最近數(shù)理邏輯工作的結(jié)合等。

六、LLM（large language model）的發(fā)展與趨勢(shì)

通過(guò)海量數(shù)據(jù)訓(xùn)練得到的超大參數(shù)模型蘊(yùn)含了海量知識(shí)，以GPT3（175B）開(kāi)端，再到LaMDA（137B）、Gopher（280B）、FLAN-T5（540B）等，業(yè)界對(duì)于LLM的探索和應(yīng)用，以及如何挖掘其學(xué)到的知識(shí)，引導(dǎo)它們適配不同子任務(wù)達(dá)到最先進(jìn)結(jié)果（state-of-the-art result，sota），一直是近兩年一項(xiàng)極具價(jià)值及熱門的工作。對(duì)于LLM的探索，從起初探索貼近預(yù)訓(xùn)練任務(wù)的方式構(gòu)造下游任務(wù)，包括各類Prompt Engineering方式，減少微調(diào)數(shù)據(jù)量；再到用非梯度更新的方式，使大模型無(wú)需微調(diào)情況下，擁有小樣本、零樣本解決問(wèn)題的能力，包括上下文學(xué)習(xí)（In-context learning）、上下文學(xué)習(xí)的矯正（Calibration）等；利用LLM解決更難的數(shù)理推理問(wèn)題，通過(guò)一系列邏輯鏈(CoT，chain of thought )，深入挖掘大模型的知識(shí)和推理能力；進(jìn)一步，更加看重行動(dòng)驅(qū)動(dòng)（Action-driven）、意圖驅(qū)動(dòng)與大模型的結(jié)合，使大模型從意圖出發(fā)對(duì)齊人類需求；以上探索，力求在數(shù)量繁多的自然語(yǔ)言任務(wù)中達(dá)到初步的“質(zhì)變”效果，嘗試通向真正的AGI。

LLM的引入會(huì)使行業(yè)內(nèi)公司劃分出不同層級(jí)（此處很同意謝劍的觀點(diǎn))：

ChatGPT 印證了模型大一統(tǒng)的可行性，這在未來(lái)五年會(huì)對(duì) NLP 從業(yè)者帶來(lái)怎樣的沖擊？142 贊同 · 9 評(píng)論回答

Level1：LLM基礎(chǔ)設(shè)施公司；類比為一個(gè)擁有比較強(qiáng)通用能力的人；Level1的公司會(huì)比較少，可能只有1-2家（比如 OpenAI、Google）

Level2：基于LLM結(jié)合場(chǎng)景進(jìn)行商業(yè)化應(yīng)用的公司(以應(yīng)用為主，沒(méi)有全體微調(diào)) ；類比通用能力的人去一些場(chǎng)景打工掙錢；Level2的公司側(cè)重于基于LLM做出較多應(yīng)用，包括從頭創(chuàng)新做應(yīng)用、已有的業(yè)務(wù)場(chǎng)景中升級(jí)功能。

Level3：基于LLM+領(lǐng)域場(chǎng)景數(shù)據(jù)，微調(diào)形成具備更強(qiáng)領(lǐng)域能力和一定門檻的產(chǎn)品，通過(guò)商業(yè)化和數(shù)據(jù)積累，持續(xù)形成業(yè)務(wù)數(shù)據(jù)-模型閉環(huán)；類比一個(gè)領(lǐng)域?qū)＜?。Level3的公司有很強(qiáng)的專業(yè)性和數(shù)據(jù)積累，比如類似專項(xiàng)面向?qū)懽鞯腏asper.AI等。

七、機(jī)遇與調(diào)整并存的LLM

LLM的出現(xiàn)使得機(jī)遇與挑戰(zhàn)并存，機(jī)遇在于技術(shù)革新勢(shì)必會(huì)帶來(lái)新賽道的機(jī)遇，挑戰(zhàn)在于革新也會(huì)使越來(lái)越多old school方式被拋棄，跟不上節(jié)奏落伍的風(fēng)險(xiǎn)將會(huì)加大。

1）從技術(shù)演進(jìn)角度來(lái)說(shuō)，LLM可能使NLP形成“大一統(tǒng)”之勢(shì)。如果說(shuō)BERT讓大部分中間任務(wù)基本消亡，NLP傳統(tǒng)技藝逐漸被替代，那么LLM則會(huì)讓很多NLP子領(lǐng)域不再具備獨(dú)立研究?jī)r(jià)值，它們均會(huì)被納入LLM技術(shù)體系；這對(duì)于相關(guān)長(zhǎng)期從事某些子領(lǐng)域的研究者和從業(yè)者是一件可怕的事，累積了一定時(shí)間的子領(lǐng)域?qū)＜医?jīng)驗(yàn)/技巧trick，一夜即被“暴力”的LLM擊敗，對(duì)相關(guān)業(yè)務(wù)和從業(yè)者挑戰(zhàn)巨大；但另一個(gè)角度來(lái)說(shuō)，當(dāng)NLP整體能力到達(dá)一定階段時(shí)，“大一統(tǒng)”是必然結(jié)果，之前劃分較多子領(lǐng)域是因?yàn)闆](méi)有強(qiáng)能力模型而需要分而治之，積極利用LLM拓展自身業(yè)務(wù)的可能性是機(jī)遇所在。

2）從LLM應(yīng)用角度來(lái)說(shuō)，LLM-as-a-Service 會(huì)越來(lái)越普遍，OpenAI 提供的 LLMaaS 服務(wù)已經(jīng)具備較高的速度，并開(kāi)始逐步探索行之有效的盈利模式，這也是下游產(chǎn)品的機(jī)遇。截止2021年7月，全球有300多個(gè)app在使用GPT3技術(shù)，結(jié)合gpt3demo網(wǎng)站的數(shù)據(jù)，其收錄了158個(gè)基于GPT-3的應(yīng)用；LLM使得業(yè)界能力下限提升，行業(yè)門檻下降，業(yè)務(wù)優(yōu)勢(shì)會(huì)聚焦在垂直領(lǐng)域的數(shù)據(jù)積累資源。但LLMaaS的盈利模式并不成熟，尚待檢驗(yàn)，合理的模式應(yīng)該需要涉及用戶分層，而非全量用戶的鋪展，這些均增添了較多不確定性，此為應(yīng)用層面的挑戰(zhàn)。

3）從推理成本來(lái)說(shuō)，配合LLM的模型壓縮、前向加速等手段均可以降低推理成本，雖然下游產(chǎn)品推理的服務(wù)成本尚高，但其實(shí)作為百億模型，完成大量高智能任務(wù)具備初步可行性，此為機(jī)遇；但在降本增效的大環(huán)境下，真正將LLM投入生產(chǎn)的挑戰(zhàn)性極大，對(duì)于LLM短期在生產(chǎn)環(huán)境下最實(shí)際的用途主要聚焦在線下，主要圍繞數(shù)據(jù)擴(kuò)增、減少標(biāo)注成本和數(shù)據(jù)生產(chǎn)。

4）從訓(xùn)練投入成本來(lái)說(shuō)，作為最限制LLM發(fā)展的因素，它也在不斷進(jìn)步，除去本身模硬件升級(jí)、模型蒸餾、加速訓(xùn)練技術(shù)之外，LLM的稀疏化也會(huì)持續(xù)發(fā)展，SparseGPT應(yīng)該是其中有代表性的工作之一，此為機(jī)遇；當(dāng)然這樣的進(jìn)步相比高額的投入并不夠，所以在第三節(jié)中提到的對(duì)于LLM的投入，是和相關(guān)組織的技術(shù)戰(zhàn)略相關(guān)的。在LM基建層面，目標(biāo)成為何Level的公司，會(huì)影響相關(guān)的投入，但LLM絕對(duì)是具備高戰(zhàn)略價(jià)值的投入。

5）從國(guó)內(nèi)產(chǎn)研角度來(lái)說(shuō)，這一點(diǎn)其實(shí)是比較讓人憂慮的；因?yàn)長(zhǎng)LM過(guò)于高昂的成本和苛刻的使用條件，這兩年國(guó)內(nèi)對(duì)于LLM的研究成果較少（累積參數(shù)的大模型有，但實(shí)際有影響的成果不多），與國(guó)外差距在增大。表1可以看到，GPT3后已經(jīng)更新了5~6代，而國(guó)內(nèi)甚至還沒(méi)有真正意義上可以匹敵GPT3的基建模型，甚至60億~130億的 InstructGPT能力已經(jīng)超過(guò)國(guó)內(nèi)大部分的所謂大模型（當(dāng)然OpenAI領(lǐng)先太多，其也超出Google的一般大模型）。

當(dāng)LLM逐漸成為壟斷能力，當(dāng)OpenAI、Google、DeepMind逐漸閉源時(shí)，基建模型又會(huì)成為“卡脖子”的能力，ChatGPT只是這一階段的開(kāi)始。所以筆者認(rèn)為對(duì)于LLM的態(tài)度，僅從個(gè)人來(lái)說(shuō)，國(guó)內(nèi)大廠戰(zhàn)略上務(wù)必重視它，積極應(yīng)對(duì)挑戰(zhàn)，不用過(guò)分悲觀，尋求并抓住LLM帶來(lái)的機(jī)遇；基于以上方法利用好可用的LLM，可控成本下優(yōu)化自身業(yè)務(wù)，同時(shí)緊跟業(yè)界研究方向，“借好”LLM帶來(lái)的新東風(fēng)。

最后附上相關(guān)大語(yǔ)言模型進(jìn)化表：

模型參數(shù)量訓(xùn)練數(shù)據(jù)量方法和結(jié)論文獻(xiàn)GPT30.1B~175B約500B tokensTransformer DecoderLanguage Models are Few-Shot LearnersLaMDA137B1.56T wordsTransformer Decoder三大目標(biāo)：質(zhì)量、安全和根基性（事實(shí)正確性）。質(zhì)量分為合理性、特異性和趣味性；主要根據(jù)以上評(píng)測(cè)指標(biāo)來(lái)約束生成，將生成和排序融合到一起，同時(shí)增加了兩個(gè)任務(wù)來(lái)融入知識(shí)（輸入對(duì)話上下文，輸出知識(shí)查詢語(yǔ)句；輸入知識(shí)查詢語(yǔ)句，輸出生成的最終結(jié)果）LaMDA: Language Models for Dialog ApplicationsWebGPT760M、13B、175BDemonstraions: 6209Comprisons:21548其核心思想是使用GPT3模型強(qiáng)大的生成能力，學(xué)習(xí)人類使用搜索引擎的一系列行為，通過(guò)訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)預(yù)測(cè)人類的偏好，使WebGPT可以自己搜索網(wǎng)頁(yè)來(lái)回答開(kāi)放域的問(wèn)題，而產(chǎn)生的答案盡可能滿足人類的喜好。WebGPT: Browser-assisted question-answering with human feedbackFLAN-T5540B1800個(gè)任務(wù)任務(wù)的指令與數(shù)據(jù)進(jìn)行拼接。統(tǒng)一的輸入輸出格式（4種類型），引入chain-of-thought，大幅提高任務(wù)數(shù)量，大幅提高模型體積；Scaling Instruction-Finetuned Language ModelsSparrow（Chinchilla）70B/核心為從人類反饋中學(xué)習(xí)，創(chuàng)造更安全的對(duì)話助手。Improving alignment of dialogue agents via targeted human judgementsGopher44M~ 280B10.5TB堆參數(shù)的大模型Scaling Language Models: Methods, Analysis & Insights from Training GopherRETRO(Retrieval Transformer)172M~7.5B/以 Gopher為基礎(chǔ)改進(jìn)語(yǔ)言模型架構(gòu)，降低了訓(xùn)練資源成本，并檢索增強(qiáng)。在只使用4%的參數(shù)量的基礎(chǔ)上，RETRO模型獲得了與Gopher和 Jurassic-1 模型相當(dāng)?shù)男阅?，在大多?shù)測(cè)試集上表現(xiàn)優(yōu)異。Improving language models by retrieving from trillions of tokensPaLM8B、62B、540B780B tokens 包括網(wǎng)頁(yè)、書(shū)籍、維基百科、代碼、社交對(duì)話Transformer DecoderPaLM: Scaling Language Modeling with PathwaysInstructGPT1.3B、6B、175B微調(diào)數(shù)據(jù)1w+，Reward Model 4w+，PPO無(wú)標(biāo)注數(shù)據(jù)4w+GPT3.5 Finetune+RLHF指令微調(diào)Training language models to follow instructions with human feedbackChatGPT/推測(cè)和InstructGPT差不多GPT3.5 （codex基礎(chǔ)上）Finetune+RLHF+解決對(duì)齊問(wèn)題/

申明：本文參考了較多網(wǎng)絡(luò)資料，屬于資料整合類，如有侵權(quán)請(qǐng)聯(lián)系作者添加引用或者刪除。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

一、ChatGPT簡(jiǎn)介

二、InstructGPT及其相關(guān)工作

三、InstuctGPT的前序工作:GPT與強(qiáng)化學(xué)習(xí)的結(jié)合

四、與ChatGPT同類型其他工作

五、ChatGPT落地與思考

六、LLM（large language model）的發(fā)展與趨勢(shì)