九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Transformer速查寶典:模型、架構、訓練方法的論文都在這里了
選自kipply's blog
作者:kipply
機器之心編譯
編輯:梓文、張倩
論文大合集,一篇文章就搞定。

AI 發(fā)展迅速,這對于剛剛入門或是正想跟上「潮流」的新手們來說并不友好。如果有一份詳細全面的知識列表可能會幫助他們更快走上「正途」。

今天給大家?guī)硪黄?Transformer 的綜述文章,供大家了解 Transformer 的來龍去脈及相關技術。



本篇綜述涵蓋了 21 種模型、11 種架構變化、7 種預訓練后處理技術和 3 種訓練技術(還有 5 種不屬于以上技術的東西)。模型包括 GPT-3、GPT-4、Gopher、AlphaCode、RETRO、GPT-3.5、Chinchilla、Flamingo 等。一些重要的架構變化包括多查詢注意力、稀疏注意力、混合專家等。同時還介紹了 RLHF、CAI、Minerva 等預訓練后處理技術以及超參。所有內容均按照重要性和獨特性進行排序,并將鏈接附在下方。

以下為機器之心不改變原義對文章進行編譯的內容。

一、模型

以下模型的屬性若未明確說明,要么未公開,要么大致遵循標準 GPT 配置。

1.GPT-3



  • 屬性:175B 參數,96 層,12288 嵌入維度,96 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2005.14165.pdf
  • 發(fā)布詳情 Open AI 發(fā)布于 2020 年 5 月

本文是繼 GPT-2 論文(2018 及擴展定律論文后,大語言模型的一片開創(chuàng)性論文。以下是論文中指出有關 GPT-3 的特征。

  • 它在一個 300B token 的數據集上進行訓練。該數據集主要由過濾后的 Common Crawl 以及一些書籍、網絡文本和維基百科構成;
  • 使用了 BPE tokenizer(與 GPT-2 相同);
  • 2048 上下文長度;
  • 交替使用密集和稀疏注意力層;
  • 在最初的 375M toks 中,學習率升至 0.6 × 10^-4,260B toks 后余弦衰減至 10%;
  • 在前 12B 個 token 中,批大小從 32k toks 上升到 3.2M toks;
  • 4x MLP 投影率,如 2017 年 Transformer 論文所示;
  • 50k 詞匯表(vocab size)。

以上的許多特征形成了一種標準配置,被后來的模型重復使用。

在論文記錄超參數的表 2.1 中有一個可能的拼寫錯誤,其中 GPT-3 13B 被記作為具有 5140 的嵌入維度,這里應該是 5120。

2.GPT-4


  • 報告地址:https://arxiv.org/pdf/2303.08774.pdf
  • 發(fā)布詳情:Open AI 2022 年 8 月對其完成預訓練,發(fā)布于 2023 年 3 月。

GPT-4 是 OpenAI 提供的一個模型,其架構不明(技術上類似于 Transformer)。技術報告主要包含大部分評估(結果表現(xiàn)良好),以及能夠從較小模型精確推斷出的持續(xù)擴展結果。報告還記錄了提高模型安全性的措施,并演示了 GPT-4 的多模態(tài)能力,這種能力似乎是用類似于 Flamingo 的方式訓練的。

3.Gopher



  • 屬性:280B 參數,260B 非嵌入參數,80 層,16384 嵌入維度,128 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2112.11446.pdf
  • 發(fā)布詳情:DeepMind 在 2020 年底對其進行訓練,發(fā)布于 2021 年 12 月。

Gopher 是 DeepMind 在 2021 年發(fā)布的第一個大型語言模型。它使用 RMSNorm 而不是 LayerNorm,使用 Transformer-XL 的相對位置編碼方案而不是絕對位置編碼,這就是嵌入參數如此之多的原因。

它使用 SentencePiece 進行分詞,詞匯表大小為 32k,并用 300B token 進行訓練,其中一半來自為 Gopher 收集的 MassiveText,以及書籍、Common Crawl、維基百科、新聞和 Github。

4.AlphaCode



  • 屬性:41B 參數,8 個編碼器層,56 個解碼器層,6144 嵌入維度
  • 論文地址:https://arxiv.org/pdf/2203.07814.pdf
  • 發(fā)布詳情:DeepMind 發(fā)布于 2022 年 2 月。

AlphaCode 是在 715GB(967B token)代碼基礎上訓練出來的模型,可以用于解決編程競賽問題。它是本文中唯一采用解碼器 - 編碼器架構的模型。它將編程競賽題視為一項翻譯任務(問題陳述 → 解決方案),以獲得雙向性。它在編碼器中使用 1536 個 token,在解碼器中使用 768 個 token。使用多查詢注意力,并在推理時生成數千個樣本,然后選擇一個解決方案子集進行提交。

5.RETRO



  • 屬性:7B 參數
  • 論文地址:https://arxiv.org/pdf/2112.04426.pdf
  • 發(fā)布詳情:DeepMind 發(fā)布于 2022 年 2 月。

檢索是一種通用的技術,即在進行推理時提供一個數據庫供其查找。RETRO 是第一篇使用 2T token 數據庫的 Transformer 檢索論文。它使用預訓練的 BERT 式模型將 token 數據庫嵌入塊中,然后在訓練和推理期間對數據庫中的最近鄰執(zhí)行分塊交叉注意力。

6.GPT-3.5


  • 屬性:架構未知
  • 文檔地址 https://platform.openai.com/docs/guides/gpt
  • 發(fā)布詳情:OpenAI 發(fā)布于 2022 年 3 月。


OpenAI 將三種模型劃分為 GTP-3.5,具體包括 davinci-002 系列中的兩種和 davinci-003 系列中的一種。其中, code-davinci-002 是基本模型,text-davinci-002 是一個帶有 FeedME 非 RL 指令調整的版本。text-davinci-003 是帶有 RLHF 的 InstructGPT。有一篇 InstructGPT 論文訓練了 RLHF 模型,但沒有提到 FeedME,而 text-davinci-002 雖然是 InstructGPT 模型,但沒有使用 RLHF。OpenAI API 上的 davinci 模型在 2020 年的論文中被指出是 175B 模型,但從未證實 davinci-002 是否具有相同尺寸。

7.Chinchilla



  • 屬性:70B 參數,80 層,8192 嵌入維度,64 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2203.15556.pdf
  • 發(fā)布詳情:DeepMind 發(fā)布于 2022 年 3 月。

Chinchilla 的論文中引入了新的、改進版的 scalling law。它使用 1.5T token(與 Gopher 相似的數據集)和與 Gopher 相同的計算量進行訓練,但性能優(yōu)于 Gopher。在 scalling law 中,模型的參數和 token 數按照 20:1 的比例線性增加。學習率采用余弦調度進行調整。Megatron Turing NLG 和 Jurassic J-1 Jumbo 是另外兩個大型模型,由于它們不是 Chinchilla 最優(yōu)模型,也沒有獨特意義,因此沒有在本文中單獨記錄。

8.Flamingo



  • 屬性:80B 參數
  • 論文地址 https://arxiv.org/pdf/2204.14198.pdf
  • 發(fā)布詳情:DeepMind 發(fā)布于 2022 年 4 月。

Flamingo 是一個多模態(tài)(文本 / 圖像)模型。它只生成文本,而圖像輸入通過視覺編碼器(435M 參數)運行,并使用交叉注意力來關注這些輸出。它還在視覺編碼器之后使用重采樣器(194M 參數),無論輸入特征的數量如何,都能產生固定(少量)的視覺 token。它們建立在凍結的 Chinchilla 模型上,80B 參數來自添加到 70B Chinchilla 模型中的交叉注意力層。PaLI 是谷歌的圖像 / 語言多模態(tài)模型。

9.Gato



  • 屬性:1.18B 參數
  • 論文地址:https://arxiv.org/pdf/2205.06175.pdf
  • 發(fā)布詳情:發(fā)布于 2022 年 5 月。

Gato 是一個通用型智能體,算是 Flamingo 的后續(xù)產品,但擁有更多的模態(tài)。它使用圖像和文本,以及按鈕按壓數據格式化成的 token,還有來自機器人感知的連續(xù)數據編碼,并嘗試使用盡可能少的數據來完成額外的任務。這些任務包括機器人堆疊測試、圖像字幕和 Atari。

10.Anthropic LM



  • 屬性:52B 參數,64 層,8192 嵌入維度
  • 論文地址:https://arxiv.org/pdf/2112.00861.pdf
  • 發(fā)布詳情:Anthropic 發(fā)布于 2021 年 12 月。

在 400Btoken 上進行訓練,但在 Chinchilla 之后的一篇論文(《 Language Models (Mostly) Know What They Know 》)中,Anthropic 使用了為 850B token 訓練的具有相同架構的模型。在后來的另一篇關于道德自我糾正的論文中,使用了一個沒有明確說明的 175B 模型。

11.PaLM


  • 屬性:540B 參數,118 層,18432 嵌入維度,48 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2204.02311.pdf
  • 發(fā)布詳情:Google 發(fā)布于 2022 年 4 月。

截至 2023 年 1 月,這是公開已知的最大密集語言模型。PaLM 使用 SwiGLU 激活,使用并行注意力、多查詢注意力、旋轉嵌入,并對輸入和輸出嵌入使用相同的矩陣。它沒有使用偏置,使用了一個包含 256k 個 token 的 SentencePiece tokenizer。PaLM 是在與 LaMDA 和 GLaM 類似的數據集上,用 780B 個 token 進行訓練的。

12.GPT-NeoX



  • 屬性:20B 參數
  • 論文地址:https://arxiv.org/pdf/2204.06745.pdf
  • 項目地址:https://github.com/EleutherAI/gpt-neox
  • 發(fā)布詳情:Eleuther AI 發(fā)布于 2022 年 2 月。

這是 Eleuther 的一個開源模型。它使用 DeepSpeed (微軟) 和 Nvidia Megatron 在 GPU 上進行訓練,并使用與 GPT-J 相同的架構修改,在整個 Pile (400B token) 上進行訓練。

13.GPT-J


  • 屬性:6.7B 參數
  • 項目地址:https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b
  • 發(fā)布詳情:Eleuther AI 發(fā)布于 2021 年 7 月。


GPT-J 因完全開源而聞名,并且與 GPT-3 論文中 6.7B 版本性能相媲美。它在 TPU 上進行訓練,并使用旋轉嵌入,并行注意力。為降低復雜性,它僅使用了密集注意力層。它是在 Pile 上訓練的,Pile 是一個由 Eleuther AI 創(chuàng)建的開放數據集,包含 22 個較小的數據集,包括 Common Crawl、 OpenWebText、書籍和論文。

14.GLaM



  • 屬性:1.2T 參數
  • 論文地址:https://arxiv.org/pdf/2112.06905.pdf
  • 發(fā)布詳情:Google 發(fā)布于 2021 年 12 月。

GLaM 被稱為「通用語言模型」,是一個混合專家 (MoE) 模型,其中的參數是稀疏激活。它每層有 64 個專家,每個 token 激活 96.6B 參數。每一層都有一個門控單元,它為每個 token 選擇 64 個 MLP 中的一個或兩個。

15.LAMDA



  • 屬性:137B 參數,64 層,8192 嵌入維度,128 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2201.08239.pdf
  • 發(fā)布詳情:Google 在 I/O 上演示于 2021 年 5 月,論文發(fā)布于 2022 年 1 月。

LaMDA 對話模型是根據 Meena 創(chuàng)建的。它明確有一個包含大量對話 / 論壇的 2.81T 數據集 (用 32k 的 SentencePiece tokenizer 進行編碼)?;A模型有時被稱為 LaMDA GLM 或 GLM- 137B;LaMDA 在此基礎上添加了許多對話微調。

模型訓練用了多少個 token 是明確的,它用到了 1024 個 TPUv3,使用率為 56.5%,訓練時間為 57.7 天,batch 大小為 256k,可能是 bf16,計算表明這將是 2.81T token 中的約 900B。

16.Switch



  • 屬性:1T 參數
  • 論文地址:https://arxiv.org/pdf/2101.03961.pdf
  • 發(fā)布詳情:Google 發(fā)布于 2022 年 6 月。

SwitchTransformer 對 GLaM 進行了改進,它只路由到一個專家,從而減少了計算量。它的創(chuàng)新是使用了不同的路由機制,證明了路由到單個專家是有效的。

17.BLOOM



  • 屬性:176B 參數,70 層,14336 嵌入維度,112 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2211.05100.pdf
  • 發(fā)布詳情:HuggingFace 發(fā)布于 2022 年 7 月。

截止于本文梳理的時間,BLOOM 是最大的開源模型。它在 HuggingFace 語料庫 ROOTS 上進行訓練,該語料庫包含 498 個 HuggingFace 數據集。該模型在 366B token 上進行訓練,并且位置編碼是用 ALiBi 完成的。它用到了 250k 詞匯表大小的 BPE tokenizer,幫助它適應多語言數據。

18.Galactica



  • 屬性:120B 參數
  • 論文地址:https://arxiv.org/pdf/2211.09085.pdf
  • 發(fā)布詳情:Meta 發(fā)布于 2022 年 11 月。

Galactica 是一個科學模型,主要以論文、少量代碼、其他基于知識的數據和一些 Common Crawl 數據為基礎進行預訓練。它用 <work> token 對工作記憶進行編碼,并使用特殊 token 對引文進行編碼。

19.LLaMa



  • 屬性:65B 參數
  • 論文地址:https://arxiv.org/pdf/2302.13971.pdf
  • 發(fā)布詳情:Meta 發(fā)布于 2023 年 2 月。

LLaMa 像是 Chinchilla 的復制品,有著相當標準的訓練組合,大部分為 Common Crawl。

20.OPT



  • 屬性:175B 參數,與 GPT-3 相同的架構
  • 論文地址:https://arxiv.org/pdf/2205.01068.pdf
  • 項目地址:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/OPT175B_Logbook.pdf
  • 發(fā)布詳情:Meta 發(fā)布于 2022 年 5 月。

這是 GPT-3 的復刻版,它在 Pile 和 PushShift reddit 上訓練,只有 180B token。

這些 Meta 論文完全不是相互關聯(lián)的項目。LLama、OPT 和 Galactica 共有 41 位作者,只有一位是重合的。

21.GLM-130B



  • 屬性:130B 參數
  • 論文地址:https://arxiv.org/pdf/2210.02414.pdf
  • 發(fā)布詳情:清華大學發(fā)布于 2022 年 10 月。

GLM 是一個開源的雙語(中文 / 英文)模型。它使用旋轉嵌入和 DeepNorm,并通過 GeGLU 激活 MLP。值得關注的是,它主要以 INT4 進行推理(而其他模型,如 BLOOM 和 OPT,則量化為 INT8)。它還在預訓練中加入了 prompt,而不是標準的 GPT 架構,并且使用 GLM 實現(xiàn)了雙向注意力。

架構變化

1. 多查詢注意力(Multi-Query Attention,MQA)



論文地址:https://arxiv.org/pdf/1911.02150.pdf

Noam Shazeer 的這篇論文中,key 和 value 在 head 之間共享,大大減少了推理時所需的內存數量,提高了延遲和吞吐量。這是一篇非常簡潔的論文,并附有代碼和結果。AlphaCode 和 PaLM 都使用 MQA。

2. 稀疏注意力



論文地址:https://arxiv.org/pdf/1904.10509.pdf

在這種機制中,注意力不會應用于所有之前的 token。它描述了稀疏 Transformer 的兩種風格,一種是跨步式,即關注最后 N 個 token;另一種是固定式,即關注序列中的部分 token。在 GPT-3 論文中,該模型被描述為交替密集和「局部帶狀」稀疏層。

3. 混合專家(Mixture-of-Experts,MoE)

關于 MoE 的內容有很多,在介紹 GLaM 和 Switch 時已經提到了一點。因此,此處將羅列一些優(yōu)秀的原始文獻。

  • 2017 年關于 LSTM 的 MoE 論文 https://arxiv.org/abs/1701.06538
  • 面向 MoE 的 Deepmind Scaling Laws 論文 https://arxiv.org/pdf/2202.01169.pdf
  • 訓練 1.1T 參數 MoE 的 Meta 論文 :https://arxiv.org/pdf/2112.10684.pdf

一些谷歌的論文:

  • https://arxiv.org/pdf/2202.08906.pdf 
  • https://arxiv.org/pdf/2202.09368.pdf 
  • https://arxiv.org/pdf/2205.10937.pdf
  • https://arxiv.org/pdf/2202.08906.pdf
  • https://openreview.net/pdf?id=23ZjUGpjcc

4.FlashAttention


論文地址:https://arxiv.org/pdf/2205.14135.pdf

FlashAttention 是一種架構變革,能以更少的內存訪問量完成注意力處理。它對注意力矩陣進行切片和增量化的 softmax 約簡,并避免了在后向傳播過程中存儲整個中間注意力矩陣。論文指出,與 megatron 相比,它訓練速度提高到 1.7 倍,推理速度提高到 4 倍多(上下文長度越長,倍數越大)。在此之前,另一篇文章 (https://arxiv.org/pdf/2112.05682.pdf) 也在 TPU 上采用了同樣的方法,實現(xiàn)了 O (log_n) 內存占用。

5. 編碼器 + 解碼器


論文地址:https://arxiv.org/pdf/1706.03762.pdf

根據 Transformer 的原始論文,編碼器 - 解碼器架構最初是為翻譯任務而設計的。經典的 GPT 架構交替使用注意力和 MLP 模塊。原始的 Transformer 則采用了編碼器塊和解碼器塊。編碼器塊的結構是:注意力機制 → MLP;解碼器塊的結構是:掩蔽注意力→ 編碼器 - 解碼器注意力 → MLP。對于許多序列到序列的任務來說,例如 AlphaCode 或 T5,這也是一個合理的架構。

6. 平行注意力


論文地址:https://arxiv.org/pdf/2204.02311.pdf

PaLM 使用平行注意力。即在訓練模型時,注意力層和 MLP 層并行運行,使用相同的向量。如此一來,就可以將注意力和前饋矩陣乘法合并在一起,從而提升運算強度,獲得更好的性能(PaLM 的訓練速度提升了 15%)。GPT-J 也使用了這種方法。

7. 可供選擇的激活方案:GeGLU,SwiGLU,SoLU


論文地址:https://arxiv.org/pdf/1706.03762.pdf

最初的 Transformer 論文使用 ReLU 來激活 MLP 模塊。它在兩個線性變換(matmuls)之間進行簡單的 x if > x = 0 else 0。從直觀上看,這有點草率。GeLU 與 ReLU 類似,但要平滑一些。


論文地址:https://transformer-circuits.pub/2022/solu/index.html

SoLU(Softmax)簡單地說就是 x*softmax (x),用于提高模型的可解釋性。


論文地址:https://arxiv.org/pdf/2002.05202.pdf

SwiGLU 是所列論文中最復雜的,也是 Noam Shazee 的個人論文。它建立在門控線性單元的基礎上,旨在比 ReLU 更穩(wěn)定,并在 GLU 之前進行 swish 運算。與 GeLU 一樣,它軟化了 ReLU,允許某些值低于零。

8.LayerNorm 的替代方案:DeepNorm,RMSNorm

LLM 每個區(qū)塊有兩次 norm(一次用于注意力,一次用于前饋),它會執(zhí)行一些歸一化功能以改進訓練。


DeepNorm 論文地址:https://arxiv.org/pdf/2203.00555.pdf)


RMSNorm 論文地址:https://arxiv.org/pdf/1910.07467.pdf

DeepNorm 和 RMSNorm 可以成為替代方案。RMSNorm(均方根)簡單來說就是數值均值的平方根。還有一種 batch norm,效率很低,用起來似乎不太聰明。

9.RoPE


  • 論文地址:https://arxiv.org/pdf/2104.09864.pdf
  • 相關 Blog 文章:https://blog.eleuther.ai/rotary-embeddings/

這篇 Blog 文章總結得十分優(yōu)秀,本文不做贅述。

10.BPE vs SentencePiece Tokenizers


  • BPE 項目地址:https://huggingface.co/learn/nlp-course/chapter6/5?fw=pt
  • SentencePiece 編碼器項目地址:https://github.com/google/sentencepiece

字節(jié)對編碼(Byte Pair Encoding,BPE)是大多數語言模型的默認編碼,最初的 GPT 論文、GPT-3 以及 GPT-3.5 都使用了這種編碼。不使用純 BPE,而使用 SentencePiece 情況的一個明顯原因是,分布不包含空格分隔的單詞,就像 AlphaCode、GLM(中文)和 PaLM(明確是因為多語言)那樣。

11.ALiBi


論文地址:https://arxiv.org/pdf/2108.12409.pdf

ALiBi(Attention with Linear Biases)是一種長上下文位置嵌入方案,通過根據距離對 qk 分數進行線性偏置,來支持對更長的長度進行外推。BLOOM 用了 ALiBi,Galactica 也嘗試過,但沒有采用。

預訓練后處理技術

1. 采用 PPO 算法的 RLHF

在 RLHF 中,首先要訓練一個獎勵模型,由標注員評估模型生成的數組。然后在 RL 中使用 PPO(近端策略優(yōu)化),策略生成由獎勵模型評估的輸出,以改進策略。


Christiano 論文:https://proceedings.neurips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html

Deepmind 的 Sparrow 和 Anthropic 的 LM 都是用 RL (AI|H) F 訓練的,它們都有對話界面。WebGPT 和 GopherCite 一樣,也是用 RLHF 訓練的(后者調用了 RLHPreferences)。我認為,這都起源于 2017 年的 Christiano,它先于 LLM 所有內容,之后才是 2020 年根據人類反饋進行的總結以及 PPO 論文。


2020 年根據人類反饋進行的總結 https://proceedings.neurips.cc/paper/2020/file/1f89885d556929e98d3ef9b86448f951-Paper.pdf

2.Constitutional


論文鏈接:https://arxiv.org/pdf/2212.08073.pdf

作為 RLHF 的擴展,Constitutional 基本上是 RLAIF,不過實際上被稱為 CAI。它有一個監(jiān)督學習階段,在這一階段,只提供幫助的 AI 會生成對抗性 prompt。然后,助手會根據所提供的 constitution(以字符串的形式提供給模型的一組短值)迭代出自己的響應。然后對這些響應進行微調。第二階段就像采用 PPO 的 RLHF,只不過將 AI 反饋替換了。

3.Minerva


論文地址:https://arxiv.org/pdf/2206.14858.pdf

Minerva 是 Blueshift 團隊于 2022 年 6 月發(fā)布的一個數學和科學數據微調模型,執(zhí)行效果非常好。它是一個來自 PaLM 的 62/540B 微調模型。它的數據集來自 ArXiV 和一些網站,并經過精心預處理,保留了數學格式。

4.Codex


論文地址:https://arxiv.org/pdf/2107.03374.pdf

Codex 于 2021 年 7 月推出(并支撐了 Github Copilot 的推出),是在 100B token 代碼 (此處為公開的 Github 代碼) 上微調而成的。該論文還首次提出了 HumanEval,即人類編寫的代碼評估。本文最值得注意的是,它證明了代碼數據對代碼性能非常重要,因為 GPT-J 在代碼方面的表現(xiàn)優(yōu)于 GPT-3。他們還為代碼添加了一些 token,這使壓縮率提高了 30%。

5. 只對 CoTed 輸出進行微調

我忘了哪篇論文是這么做的,但依稀記得他們根據模型的思維鏈輸出對模型進行了微調,結果變得更好。雖然這在意料之中,但是也值得關注。

6.FeedME (SFT)


論文地址:https://arxiv.org/pdf/2203.02155.pdf

這種方法在 Instruct GPT 論文中有所描述,但這不一定是該方法起源。該方法的起源更加接近下面這篇論文。


論文地址:https://arxiv.org/pdf/1909.08593.pdf

監(jiān)督微調使用人工生成的內容,然后用于微調預訓練模型。論文發(fā)現(xiàn),SFT 比基礎預訓練模型表現(xiàn)更好,但 RLHF 比 SFT 表現(xiàn)更好。

7.FLAN


論文地址:https://arxiv.org/pdf/2109.01652.pdf

FLAN 是一個經過指令調整的模型(在指令格式的 nlp 任務上進行了微調),可提升零樣本性能。

訓練技術

1. 善于設置超參數

沒有論文是專門討論這個的,但正確設置超參數顯然是非常重要的。

通過閱讀以下文章可以獲得一些基準。

  • Chinchilla 論文:https://arxiv.org/pdf/2203.15556.pdf
  • Scalling Laws 論文 https://arxiv.org/pdf/2001.08361.pdf
  • Jane Street 的有關理解批大小的博客文章:https://blog.janestreet.com/does-batch-size-matter/

2. 基于人類反饋的預訓練


論文地址:https://arxiv.org/pdf/2302.08582.pdf

盡管 PHF(Pretraining with Human Feedback)在預訓練時使用了一種簡單的技術來標記數據,但預訓練往往采用無監(jiān)督的形式。該方法在訓練時使用兩個條件 token(好的和壞的)預置到樣本中,然后在推理時使用它們進行采樣。該研究還嘗試了其他各種目標(尤其是把壞數據過濾掉),但在 python 風格、PII 和毒性上的評估結果都很差。

3.MuP


論文地址:https://arxiv.org/pdf/2203.03466.pdf

MuP(Maximal Update Parameterization )是一種參數化方法,這種方法不僅節(jié)省了參數掃描計算,而且更接近最優(yōu)。這篇論文很好地闡述了這一方法的理論依據。

其他

1. 思維鏈(CoT)


論文地址:https://arxiv.org/pdf/2201.11903.pdf

CoT 是一種讓模型 「step-by-step」思考并產生更好結果的技術,名字起源于上述論文《 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 》。論文描述了發(fā)表于 2021 年 2 月的論文《Prompt Programming for Large Language Models:Beyond the Few-Shot Paradigm》中技術的具體應用。


論文地址:https://arxiv.org/pdf/2102.07350.pdf

2. 工具使用

關于規(guī)范工具使用的論文可以最早追溯到 2021 年 12 月的 WebGPT 論文。文中 GPT-3 可以訪問網絡,從而大大增強了模型能力。


論文地址:https://arxiv.org/pdf/2112.09332.pdf

除此以外,DeepMind 還訓練了可以借助 RL 工具來完成各種任務的智能體 ;Meta 發(fā)布語言模型 Toolformer,可以教會自己使用工具。

  • DeepMind 論文:https://arxiv.org/pdf/2202.08137.pdf
  • Meta 的 Toolformer:https://arxiv.org/pdf/2302.04761.pdf

3.Fill In the Middle


論文地址:https://arxiv.org/pdf/2207.14255.pdf

這篇論文描述了一種簡單的數據轉換,它將子字符串從文本中間移到末尾,并要求模型填充中間部分。這樣,模型就能獲得一種對代碼補全等任務非常有用的能力,而不會影響嚴格意義上從左到右任務的性能。

4. 采樣技術:Top-k,Top-p (核),Beam Search



與 Top -P 有關的論文地址:https://arxiv.org/pdf/1904.09751.pdf

語言模型的輸出基本上是每個可能 token 的 logit,然后將其 softmax 化為概率。將 logits 轉換為 token 的最簡單方法,就是取最有可能的 token。當語言模型有溫度控制時,它將 logits 除以溫度,這使模型對其首選更有信心 / 更沒有信心。Top -K 采樣從該分布中獲取前 K 個 token 和樣本。Top -P 采樣,或稱核采樣,會選擇 tokens 中概率累積排名前 P 個百分比的部分,并從這個選定的部分進行抽樣。

5. 無尾采樣(Tail Free Sampling)



文章地址:https://www.trentonbricken.com/Tail-Free-Sampling/

無尾采樣是 Top-p 采樣的衍生,之所以這樣命名是為了找到 「尾」,因為 Top-p  采樣可能會在許多 token 具有相似概率的點上被切斷而失敗。上面這篇文章像是說明了無尾采樣能夠更好進行采樣工作的原因,但當涉及到提高模型的創(chuàng)造力和范圍時,沒有很好的基準。

補充地址(文章中提到的其他論文的地址)如下:

  • GPT-2 論文(2018):https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
  • 擴展定律論文:https://arxiv.org/pdf/2001.08361.pdf
  • Transformer 論文 2017:https://arxiv.org/pdf/1706.03762.pdf
  • Turing NLG 論文:https://arxiv.org/pdf/2201.11990.pdf
  • Jurassic J-1 Jumbo 論文:https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf
  • PaLI 論文:https://arxiv.org/pdf/2209.06794.pdf
  • post-Chinchilla 論文:https://arxiv.org/pdf/2207.05221.pdf
  • 有關道德自我糾正的論文:https://arxiv.org/pdf/2302.07459.pdf
  • 近端策略優(yōu)化論文:https://arxiv.org/pdf/1707.06347.pdf
  • Deepmind 的 Sparrow 論文:https://arxiv.org/pdf/2209.14375.pdf
  • WebGPT 論文:https://arxiv.org/pdf/2112.09332.pdf
  • GopherCite 論文:https://arxiv.org/pdf/2203.11147.pdf

原文鏈接:https://kipp.ly/transformer-taxonomy/?continueFlag=a897a8d0eb16dcae5398f1b58cc5e06f

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
prompt 綜述
系統(tǒng)學習大模型的20篇論文
各種機器學習任務的頂級結果(論文)匯總
推薦|沒看過這5個模型,不要說你玩過CNN!
谷歌大腦2017總結(Jeff Dean執(zhí)筆,干貨滿滿,值得收藏)
【收藏】CMU、斯坦福等知名AI實驗室、團隊AI成果大盤點
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服