九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
LLM 全景圖 (The Landscape of LLM)


MLNLP社區(qū)是國內(nèi)外知名的機(jī)器學(xué)習(xí)與自然語言處理社區(qū),受眾覆蓋國內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。
社區(qū)的愿景是促進(jìn)國內(nèi)外自然語言處理,機(jī)器學(xué)習(xí)學(xué)術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進(jìn)步,特別是初學(xué)者同學(xué)們的進(jìn)步。
轉(zhuǎn)載自 | 安迪的寫作間

前言:最近 LLM 大火,相關(guān)領(lǐng)域熟人都想往這個(gè)方向靠,好幾個(gè)朋友咨詢了這塊,也有幫做模擬面試。最近有個(gè)哥們讓我推薦對(duì)這個(gè)領(lǐng)域整體快速了解的資料。于是我就花了些時(shí)間整理資料,希望可以俯瞰當(dāng)前 LLM 領(lǐng)域,能夠給個(gè)整體的印象,如若對(duì)某個(gè)細(xì)分板塊感興趣,讀者也可以找更深入的資料。

本文假設(shè)讀者有一定相關(guān)領(lǐng)域的知識(shí),至少是機(jī)器學(xué)習(xí),深度學(xué)習(xí),或者數(shù)據(jù)科學(xué)的經(jīng)驗(yàn)。

Overview 概觀

  • 首先 Andrej 的 State of GPT 是必看的:對(duì)整個(gè) LLM 的全景講的很清晰,不虧是我輩 CS231n 的好老師,高屋建瓴

  • W&B 關(guān)于 LLM 的 Tutorial 干貨不少:Current Best Practices for Training LLMs from Scratch

  • 兩篇比較好的綜述:

    • An Overview on Language Models: Recent Developments and Outlook:偏訓(xùn)練技巧

    • Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond:偏應(yīng)用

前沿模型觀摩

  • GPT4 Technical Report:GPT4技術(shù)報(bào)告

    • Spark of AGI[視頻]:對(duì) GPT4 的詳細(xì)測(cè)評(píng)

  • PALM2 Technical Report:PALM2技術(shù)報(bào)告

大概看看現(xiàn)在最好能做到什么程度,雖然細(xì)節(jié)干貨少。

接著按不同模塊分別推薦些我能想到的比較重要入門論文和資料,精力有限,肯定是掛一漏萬,歡迎指正完善。

預(yù)訓(xùn)練

整體

預(yù)訓(xùn)練可先看一些經(jīng)典基座模型訓(xùn)練流程:

  • GPT3 論文:不用多說

  • LLAMA:經(jīng)歷各種檢驗(yàn)最靠譜英文模型,很多訓(xùn)練細(xì)節(jié)值得參考

  • BloombergGPT:雖是金融領(lǐng)域模型,但各種思想都類似,很踏實(shí),特別給訓(xùn)領(lǐng)域模型借鑒

  • Transformer Math 101:很干的一篇關(guān)于訓(xùn)練中各種計(jì)算的博客,扎實(shí)

  • [可選] 谷歌系的:PaLM,F(xiàn)lan-PaLM:一個(gè)預(yù)訓(xùn)練,一個(gè)指令微調(diào),大公司還是挺多insight可學(xué)習(xí)

  • [可選] BLOOM,BLOOMZ:可以大概看看,比較糙,特別是和大公司幾篇對(duì)比

數(shù)據(jù)相關(guān)

  • W&B 關(guān)于預(yù)訓(xùn)練數(shù)據(jù)處理較全面博客:Processing Data for Large Language Models

  • 實(shí)際數(shù)據(jù)集參考,會(huì)有各種細(xì)節(jié):

    • ROOTS:BigScience 開源數(shù)據(jù)集

    • The RefinedWeb Dataset:最近模型 Falcon 的數(shù)據(jù)集

    • [可選] RedPajama:號(hào)稱復(fù)刻 LLAMA,沒有報(bào)告,更多都在源代碼里面,可以簡單看看有時(shí)間看代碼

    • [可選] The Stack:代碼領(lǐng)域的數(shù)據(jù)集,感興趣也值得一看

  • 近期一些關(guān)于數(shù)據(jù)推薦論文:

    • Scaling Data-Constrained Language Models

    • A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

訓(xùn)練相關(guān)

  • Megatron-DeepSpeed:現(xiàn)在基本都基于這套框架訓(xùn),有必要瀏覽下原論文

  • DeepSpeed 相關(guān):ZeRO優(yōu)化器必看,可能看視頻會(huì)更好理解些

  • 混合精度及其他相關(guān)訓(xùn)練技巧:

    • Performance and Scalability:How To Fit a Bigger Model and Train It Faster Hugging face相關(guān)博客

    • 更多關(guān)于混合精度的討論,Nvidia 相關(guān)文檔,看2和3就行,關(guān)于 BF16 的討論(結(jié)論能上BF16就上)

  • lilian寫的關(guān)于大規(guī)模分布式訓(xùn)練相關(guān)的綜述:How to Train Really Large Models on Many GPUs?

Tokenization

  • Huggingface 的 Tokenizers 的相關(guān) Tutorial:看下面這幾節(jié)就行

    • Normalization and pre-tokenization

    • Byte-Pair Encoding tokenization

    • [感興趣看] WordPiece tokenization

    • [感興趣看] Unigram tokenization

    • Building a tokenizer, block by block

  • [可選]  SentencePiece 的 Readme,就是另一個(gè)訓(xùn)練詞表的庫

SFT(Supervised FineTuning)/Instruction Tuning

就是搜集到指令數(shù)據(jù),然后直接 finetune 訓(xùn)練,難點(diǎn)在于在于怎么收集到較好的SFT數(shù)據(jù)。

主要可分成下面幾種方法:

  • 人工標(biāo)注寫

  • 基于模板

  • 基于開源共享數(shù)據(jù)

  • 網(wǎng)上相似數(shù)據(jù)爬取

  • OpenAI API接口通過 Prompt 工程構(gòu)建

SFT 模型

  • 基于模板:

    • FLAN 模型:前 ChatGPT 時(shí)代,可以看看如何基于模板構(gòu)建一些傳統(tǒng)指令數(shù)據(jù),還出了v2

  • 基于 OpenAI API 和開源共享數(shù)據(jù)(后 ChatGPT 時(shí)代):

    • Exploring the Impact of Instruction Data Scaling on Large Language Models

    • Towards Better Instruction Following Language Models for Chinese

    • 直接從 ChatGPT 和 GPT4 抓數(shù)據(jù)來訓(xùn)SFT:Alpaca,Vicuna,GPT4ALL

    • 中文這塊:Belle 的兩篇論文也可以簡單看看,看怎么構(gòu)建數(shù)據(jù)(比如Self-Instruct)

  • 基于網(wǎng)絡(luò)爬取數(shù)據(jù)及人工標(biāo)注

    • LIMA: Less Is More for Alignment:怎么構(gòu)建一個(gè)多樣化的SFT數(shù)據(jù)集

RLHF 部分

建議給 OpenAI 在這塊的努力都刷一遍,會(huì)有很清晰了解,各種細(xì)節(jié)?,F(xiàn)在大多引 22 年 InstructGPT,但 OpenAI 這整套流程也都是一步步完善出來的。最早期在 GPT2 就探索用 Human Preference,中間如何嘗試、遇到什么問題、以及怎么解決都寫得挺清楚,甚至還專門寫了怎么培訓(xùn)標(biāo)注人員,當(dāng)時(shí) OpenAI 是真的挺 Open:

  • Fine-Tuning GPT-2 from Human Preference(Blog):做 SFT 來獲得人類偏好,但 SFT 數(shù)據(jù)都是模型采樣后人標(biāo)出來的

  • Learning to summarize from human feedback(Blog):基本這套 SFT、Reward Model、RLHF 流程齊全了,用在 Summarization 任務(wù),只標(biāo)了 Pair-wise 的數(shù)據(jù),而不是后面的 Rank

  • Summarizing Books with Human Feedback(Blog):當(dāng)摸清楚這套流程之后,OpenAI 開始對(duì) RLHF 增大規(guī)模,也開始發(fā)現(xiàn)生成這塊的評(píng)估難,引入模型輔助的評(píng)估

  • WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing[Blog]:OpenAI 想用強(qiáng)化來訓(xùn)練模型瀏覽網(wǎng)絡(luò),然后做檢索增強(qiáng)

  • InstructGPT:Training language models to follow instructions with human feedback[Blog]:最后才到 InstructGPT,羅馬不是一天建成,能看到 OpenAI 在 RLHF 上是積累了很長時(shí)間的,到 InstructGPT 可能是 API 用戶反饋有類似需求,當(dāng)時(shí)沒引起太大反響,直到加入了對(duì)話數(shù)據(jù),并且給模型放出來給大家用,也就是 ChatGPT.

推理使用

解碼方法

  • 關(guān)于 Search 和 Sample,還有 Topp Topk 討論:獻(xiàn)丑了

Prompt Engineering

Zero-shot 和 Few-Shot 給 GPT3 那篇看完就差不多懂了,這里列些較經(jīng)典方法

  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models:思維鏈,開山之作,本質(zhì)上給LLM模型更多 token 來用來思考,增加結(jié)果準(zhǔn)確性

  • Self-Consistency Improves Chain of Thought Reasoning in Language Models:思維鏈后續(xù),其實(shí)就是類似search算法給搜索空間擴(kuò)大,比如beam從1改成多個(gè),然后最后結(jié)果 ensemble 一下

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models:給鏈擴(kuò)展成樹,進(jìn)行檢索和集成,上面兩種都變成樹的某個(gè)特例

  • [可選] ChatGPT Prompt Engineering for Developers:吳教授 DeepLearning AI 關(guān)于 ChatGPT prompt 相關(guān)

反思以及其他高階應(yīng)用

  • Reflexion: Language Agents with Verbal Reinforcement Learning:提出反思系統(tǒng),模型能對(duì)自己之前的結(jié)果進(jìn)行反思,之后再做出修改

  • AutoGPT介紹:基于 GPT API 非??岬膽?yīng)用,通過設(shè)計(jì)維護(hù)幾個(gè)GPT角色,還有Memory系統(tǒng),給AutoGPT一個(gè)目標(biāo)和初始任務(wù),就能讓它成為一個(gè)無情的做任務(wù)機(jī)器人,完成任務(wù),創(chuàng)造新任務(wù),排好優(yōu)先級(jí),繼續(xù)做任務(wù)

  • [可選] Generative Agents: Interactive Simulacra of Human Behavior:寫 AutoGPT 的時(shí)候莫名讓我想起這篇,雖然是講用GPT做游戲任務(wù)的思考機(jī)器,但是本身里面就涉及到大量應(yīng)用相關(guān)的設(shè)計(jì)

  • [可選] Large Language Models as Tool Makers:idea 也很酷,維護(hù)幾個(gè)GPT角色,讓一個(gè)做工具,一個(gè)使用工具解決問題,還有個(gè)判斷什么時(shí)候需要做新工具,也是系統(tǒng)的設(shè)計(jì)

其他

Tools (API 調(diào)用)

有些能力調(diào)外部接口會(huì)容易很多,包括最新信息獲取

  • Toolformer: Language Models Can Teach Themselves to Use Tools:占坑之作,方法較 naive

  • TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs:給 Tools 理念推到更大的框架

    • [可選]對(duì)這個(gè)領(lǐng)域興趣,還可以看Gorilla,HuggingGPT

  • 搜索增強(qiáng)LLM(雖然我認(rèn)為檢索也只是一個(gè)工具):REPLUG: Retrieval-Augmented Black-Box Language Models

Code Related

  • CodeX:Evaluating Large Language Models Trained on Code:Code相關(guān)必讀,現(xiàn)在普遍認(rèn)為Code對(duì)推理能力會(huì)有一定提升

Math Related

因?yàn)閿?shù)學(xué)涉及到模型的推理能力,所以一般認(rèn)為較重要

  • Training Verifiers to Solve Math Word Problems:讓模型解數(shù)學(xué)題,提出了 Verifier 的思路,就是對(duì)多條打分選最高。

[可選] GPT API相關(guān)應(yīng)用

  • Building Systems with the ChatGPT API:吳教授關(guān)于 OpenAI API應(yīng)用的課程

  • [可選] OpenAI CookBook:OpenAI 官方的 API 使用說明,里面很多特別實(shí)用的建議

[可選] 損失函數(shù)

  • Efficient Training of Language Models to Fill in the Middle:無損 FIM 損失,增加模型中間填充能力

  • UL2: Unifying Language Learning Paradigms:對(duì)T5的損失進(jìn)行改進(jìn),兼容考慮了GPT單向生成損失,PALM2聲稱用的是它的變種

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
OpenAI聯(lián)合創(chuàng)始人親自上場(chǎng)科普GPT,讓技術(shù)小白也能理解最強(qiáng)AI
獨(dú)家 | ChatGPT工作原理:機(jī)器人背后的模型
OpenAI早就不卷大模型,開始卷AI Agents了?這是一篇來自O(shè)penAI應(yīng)用研究主管關(guān)于Agent的萬字長文
GPT會(huì)是AI算法模型的終極答案嗎?
重磅:盤點(diǎn)7大方向,誰將誕生ChatGPT領(lǐng)域的尤里卡時(shí)刻
ChatGPT4.0 終于來了(附體驗(yàn)方法)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服