九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
獨家 | ChatGPT工作原理:機器人背后的模型
userphoto

2023.04.01 北京

關注

這篇對賦能ChatGPT的機器學習模型的簡要介紹,將從大型語言模型(LLM)開始,進而探討使GPT-3得到訓練的革命性的自注意力機制 (self-attention mechanism),之后研究人類反饋強化學習 (Reinforcement Learning From Human Feedback, RLHF)——使ChatGPT與眾不同的創(chuàng)新技術。

大型語言模型

ChatGPT是一類被稱為大型語言模型 (LLM) 的機器學習自然語言處理模型的外推。LLM消化大量的文本數(shù)據(jù)并據(jù)此推斷出文本中單詞之間的關系。過去幾年,計算能力的進步肉眼可見,這些模型也得到了發(fā)展。隨著輸入數(shù)據(jù)集和參數(shù)空間大小的增加,LLM的性能也在增強。

語言模型最基本的訓練涉及預測單詞序列中的單詞。最常見的方法是下個標記預測 (next-token prediction) 和掩碼語言建模 (masked-language-modeling, MLM)。

圖1:作者對下個標記預測和掩碼語言建模(MLM)的舉例

通常利用長短期記憶 (LSTM) 模型進行序列建模,該模型根據(jù)給定上下文,用統(tǒng)計意義上最可能的詞來填補空白。這種序列模型有兩個主要限制:

1. 該模型無法賦予某些詞更高的權重。在上面的例子中,雖然“閱讀”可能最常與“討厭”聯(lián)系在一起,但在數(shù)據(jù)庫中,“雅各布”可能是一名狂熱的讀者,那么模型就應該給“雅各布”比“閱讀”更多的權重,選擇“喜愛”而不是“討厭”。

2. 輸入的數(shù)據(jù)是一步一步連續(xù)處理的,而不是通過分析整體處理的。這意味著訓練LSTM模型時,上下文窗口是固定不變的,僅涵蓋單個輸入,依次分步處理。這限制了詞語間關系的復雜性和由此可推導出的內涵。

針對這個問題,2017年,谷歌大腦的一個團隊引入了Transformer模型。與LSTM不同,它能同時處理所有輸入數(shù)據(jù)。它采用自注意力機制,還可以在語句的任何位置針對輸入數(shù)據(jù)的不同片段分配不同的注意力分數(shù)。這一特點使它為LLM注入靈魂,使之能捕捉更豐富的內涵,處理更大的數(shù)據(jù)集。

GPT 和自注意力機制

生成式預訓練Transformer (GPT) 模型于2018年首次由OpenAI推出,名為GPT-1。這套模型迭代進化出2019年的GPT-2、2020年的GPT-3、最近2022年的InstructGPT和ChatGPT。在將人類反饋集成到系統(tǒng)的階段之前,GPT模型進化的最大的進步是由計算效率方面的成就推動的。計算效率的提升,使GPT-3能接受比GPT-2多得多的數(shù)據(jù)訓練,使其擁有更多樣化的知識庫,和執(zhí)行更廣泛任務的能力。

圖2: 作者對GPT-2(左)和GPT-3(右)的比較

所有GPT模型都利用了Transformer架構,這意味著它們有一個編碼器來處理輸入序列,一個解碼器來生成輸出序列。編碼器和解碼器都有一個多頭自注意力機制,該機制允許模型對序列的不同部分進行不同的加權,以推斷含義和上下文。此外,編碼器利用掩碼語言建模(MLM) 來理解單詞之間的關系,并產生更易理解的反應。

驅動GPT的自注意力機制通過將標記(可以是單詞、句子或其他文本分組的文本片段)轉換為向量來工作,向量代表標記在輸入序列中的重要性。該模型分四步做到這一點:

1. 為輸入序列中的每個標記創(chuàng)建三個向量:“查詢”、“鍵”和“值”。

2. 通過取兩個向量的點積來計算步驟1中的“查詢”向量與其他每個標記的“鍵”向量之間的相似性。

3. 通過將第2步的輸出傳入softmax函數(shù)來生成歸一化的權重。

4. 通過將步驟3中生成的權重乘以每個標記的“值”向量,生成一個最終向量,代表標記在序列中的重要性。

GPT使用的“多頭”注意力機制,是自注意力機制的進化版。該模型不是一次性執(zhí)行步驟1到4,而是多次迭代此機制:每次 為“查詢”、“鍵”和“值” 生成新的向量投影。通過以這種方式擴展自注意力,該模型能夠掌握輸入詞語數(shù)據(jù)的潛在含義更復雜的關系。

圖3: 作者從ChatGPT生成的截圖。

盡管GPT-3在自然語言處理方面取得顯著進步,但它在符合用戶意圖方面是能力有限的。例如,GPT-3可能會產生有以下性質的輸出:

  • 缺乏幫助,意味著它們不遵循用戶的明確指示。
  • 虛構事實,反映不存在的或不正確的事實。
  • 解釋不通,使人難以理解模型是如何得出特定決策或預測的。
  • 有毒/有偏見,包含有害或冒犯性內容,傳播錯誤信息。

ChatGPT中引入了新穎的訓練方法,以解決標準版LLM的一些固有問題。

ChatGPT

ChatGPT是InstructGPT的衍生版,它引入了一種新的方法,將人類反饋納入訓練過程,以更好地使模型輸出與用戶意圖保持一致。OpenAI 2022年的論文《訓練語言模型以遵循人類反饋的指令》(Training language models to follow instructions with human feedback) 深入描述了人類反饋強化學習 (RLHF) ,下文將簡述。

第一步: 監(jiān)督微調 (SFT) 模型

第一步開發(fā)涉及通過雇用40名合同工創(chuàng)建監(jiān)督訓練數(shù)據(jù)集來微調GPT-3模型,其中輸入具有供模型學習的已知輸出。輸入或提示是從實際用戶輸入到開放API中收集的。然后,標注員根據(jù)提示寫出適當?shù)幕貜?,從而為每個輸入創(chuàng)建已知輸出。然后,GPT-3模型使用這個新監(jiān)督數(shù)據(jù)集進行微調,以創(chuàng)建GPT-3.5,也稱為SFT模型。

為了把提示數(shù)據(jù)集的多樣性最大化,任何給定的用戶ID只能有200條提示入圍,任何共有較長相同前綴的提示也被刪除。最后,所有含有個人身份信息 (PII) 的提示都被刪除。

在匯總OpenAI API的提示信息后,標注員也被要求為那些有極少實際樣本數(shù)據(jù)的幾類提示手動創(chuàng)建樣本提示,使提示數(shù)據(jù)集更豐富。包括:

  • 簡單的提示:任何隨機的提問。
  • 小樣本提示:包含多個“查詢/響應”對的指令。(注:相當于為某個題型寫幾個例題)
  • 基于用戶的提示:指用戶提供示例或指令來引導AI生成特定輸出。

在生成回應時,標注員被要求盡力推斷出用戶的指令是什么。論文描述了提示請求信息的主要三種方式:

1. 直接式:'告訴我關于......'

2. 小樣本式:給出兩個關于某個主題的故事的例子,然后寫一個關于同一主題的故事。

3. 續(xù)寫式:給出一個故事的開頭,然后完成它。

把OpenAI API的提示和標注員手寫的提示匯編在一起,共產生了13,000個輸入/輸出樣本,用于訓練監(jiān)督模型。

圖4: 圖片(左)來自OpenAI發(fā)表于2022年的論文Training language models to follow instructions with human feedback。紅字(右)為作者添加的額外內容。

第二步: 獎勵模型

在第一步中訓練完SFT模型后,該模型會對用戶提示產生更符合要求的響應。下一步的改進是通過訓練獎勵模型來實現(xiàn)的,該模型的輸入是一系列提示和響應,輸出是一個名為“獎勵”的標量。獎勵模型的訓練是為了利用強化學習(Reinforcement Learning),讓模型學習如何產生輸出以最大化其獎勵值(見第三步)。

為了訓練獎勵模型,標注員會看到單個輸入提示的4至9個SFT模型輸出。他們被要求將這些輸出從最佳到最差進行排名,并創(chuàng)建輸出排名組合,如下所示。

圖5: 作者對響應排名組合的舉例。

將每個組合作為一個獨立的數(shù)據(jù)點納入模型會導致過度擬合(無法推廣到未見過的數(shù)據(jù))。為解決這個問題,模型將每組排名作為一個批次數(shù)據(jù)點。

圖6: 圖片(左)來自OpenAI發(fā)表于2022年的論文Training language models to follow instructions with human feedback。紅字(右)為作者添加的額外內容。

第三步: 強化學習模型

在最后階段,給模型提供一個隨機提示并返回一個響應。該響應是使用模型在第二步學到的“策略”所產生的。該策略代表機器學習的目標,即最大化它的獎勵?;诘诙介_發(fā)的獎勵模型會為提示和響應對算出一個獎勵值。獎勵會反饋到模型中,以升級策略。

2017年,Schulman等人介紹了近端策略優(yōu)化(PPO),該方法用于更新模型的策略,每生成一個響應就會進行更新。PPO納入了SFT模型的每個標記的Kullback-Leibler(KL)懲罰。KL散度測量兩個分布函數(shù)之間的相似度,并懲罰極端距離。在這種情況下,使用KL懲罰以限制第二步獎勵模型產生的響應與第一步中訓練的SFT模型輸出之間的距離,以避免過度優(yōu)化獎勵模型以及過度偏離人類意圖數(shù)據(jù)集。

Figure 7: 圖片(左)來自OpenAI發(fā)表于2022年的論文Training language models to follow instructions with human feedback。紅字(右)為作者添加的額外內容。

該過程的第二和第三步可重復迭代,但在實踐中還沒有廣泛地這樣做。

Figure 8: 作者從ChatGPT生成的截圖。

模型評估

對模型的評估是用模型在訓練期間從未見過的測試數(shù)據(jù)集來執(zhí)行的。用該測試集進行一系列評估,以確定該模型是否比其前身GPT-3更能產生符合要求的回復。

幫助性:模型推理和遵循用戶指令的能力。標注員在85±3%的時間里相比GPT-3更喜歡InstructGPT的輸出。

真實性:控制模型出現(xiàn)虛幻內容的傾向。使用TruthfulQA數(shù)據(jù)集進行評估時,PPO模型產生的輸出顯示了真實性和信息量略有增加。

無害性:模型避免不適當?shù)?、貶低的和詆毀的內容的能力。使用RealToxicityPrompts數(shù)據(jù)集測試了無害性。該測試在三種狀態(tài)下進行:

1. 模型被指示提供友好尊重的回復:導致有毒回復顯著減少。

2. 模型被指示提供回復,沒有任何關于尊重的設置:有害性沒有明顯變化。

3. 模型被指示提供有毒回復:回復實際上比GPT-3模型的更加有毒。

關于創(chuàng)建ChatGPT和InstructGPT所用方法的更多信息,請閱讀OpenAI于2022年發(fā)表的原始論文Training language models to follow instructions with human feedback,
https://arxiv.org/pdf/2203.02155.pdf
。

Figure 9: 作者從ChatGPT生成的截圖。

祝學習愉快!

Sources

1. https://openai.com/blog/chatgpt/

2. https://arxiv.org/pdf/2203.02155.pdf

3.https://medium.com/r/?url=https%3A%2F%2Fdeepai.org%2Fmachine-learning-glossary-and-terms%2Fsoftmax-layer

4.https://www.assemblyai.com/blog/how-chatgpt-actually-works/

5.https://medium.com/r/url=https%3A%2F%2Ftowardsdatascience.com%2Fproximal-policy-optimization-ppo-explained-abed1952457b

原文標題:

How ChatGPT Works: The Model Behind The Bot

原文鏈接:

https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

A brief introduction to the intuition and methodology behind the chat bot you can’t stop hearing about.

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
LLM 全景圖 (The Landscape of LLM)
OpenAI聯(lián)合創(chuàng)始人親自上場科普GPT,讓技術小白也能理解最強AI
ChatGTP全景圖 | 背景 技術篇
萬字長文:LLM - 大語言模型發(fā)展簡史
關于ChatGPT的五個最重要問題
ChatGPT以及LLM(大語言模型)的思考 | 一起用AI
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服