日日操夜夜摸,深夜福利亚洲

OpenAI 的聊天機器人ChatGPT最近可謂是火到出圈，這也讓大家對ChatGPT背后的技術(shù)非常好奇。GPT-3是OpenAI 產(chǎn)品歷程中的一個重要里程碑，也是其 Codex (或Github CoPilot) 和ChatGPT等應(yīng)用的基石（ChatGPT 基于GPT-3的加強版GPT-3.5）。近期，機器學(xué)習(xí)平臺Weights & Biases（W&B）發(fā)表了OpenAI的產(chǎn)品與合作伙伴關(guān)系副總裁Peter Welinder接受（W&B）員工Lukas和Boris的采訪：“Fine-tuning OpenAI's GPT-3”。

Peter Welinder 現(xiàn)任 OpenAI 產(chǎn)品與合作伙伴副總裁，負(fù)責(zé)GPT-3的運行和其他業(yè)務(wù)，在此之前，他曾是OpenAI的研發(fā)主管。在采訪中Peter Welinder比較全面地解密了OpenAI 背后的故事，并對GPT-3的研發(fā)和商用情況做了詳細(xì)介紹，特別是OpenAI 怎樣訓(xùn)練 GPT-3 使得它在文章摘要、翻譯以及問題回答等任務(wù)中展現(xiàn)出色的能力；以及用戶應(yīng)該如何利用GPT-3進行微調(diào)來更好地將其應(yīng)用于翻譯、文案寫作和其他商業(yè)任務(wù)中；最后Peter Welinder還介紹了 OpenAI 團隊對于GPT-3 API 產(chǎn)品研發(fā)和工程實施的一些思路。

撰文 | Angelica Pan

來源 | MoPaaS

摘要 (由ChatGPT 產(chǎn)生)：

GPT-3是一種大型語言模型，被訓(xùn)練用來在給定上下文中預(yù)測下一個單詞，使用Transformer架構(gòu)。它很靈活，可以用于翻譯、摘要、分類和問答等任務(wù)。GPT-3的優(yōu)勢在于它的簡單性和不需要專門訓(xùn)練數(shù)據(jù)集就能表現(xiàn)良好的能力。GPT-3可以用于翻譯任務(wù)，方法是提供比如“德語：英語”對的翻譯樣例（如果是德英翻譯），或者像問人一樣要求模型翻譯給定的句子。盡管GPT-3主要是在英語數(shù)據(jù)上訓(xùn)練的，但仍然能夠在翻譯任務(wù)中表現(xiàn)良好，因為它能夠通過提供的樣例中的模式，并利用自己的一般語言能力產(chǎn)生翻譯。GPT-3也可以用于摘要和問答等任務(wù)。GPT-3在商業(yè)應(yīng)用中也取得了成功，如文本生成和問答。它明顯比早期版本的GPT [規(guī)模]更大、[功能]更強大，訓(xùn)練的數(shù)據(jù)也更多。它被用來生成創(chuàng)意寫作任務(wù)的起點或變體，如產(chǎn)品描述，并已與OpenAI API集成，使開發(fā)人員更容易使用。API允許用戶對GPT-3進行特定任務(wù)的微調(diào)，包括設(shè)置學(xué)習(xí)率和數(shù)據(jù)的過渡次數(shù)，以及選擇模型大小。

使用GPT-3解決現(xiàn)實世界的問題

Lukas：Peter (Welinger)，上次我們談話時，我記得你在OpenAI做研究，但現(xiàn)在我們發(fā)現(xiàn)你是OpenAI的產(chǎn)品和合作伙伴關(guān)系副總裁，我很好奇這意味著什么？你每天都在做什么？

Peter：我今天所做的與我做研究時完全不同，對我來說，做研究一直都是為了解決最困難的問題，以便真正對世界產(chǎn)生某種影響。我個人更傾向于研究的最終目標(biāo)，而不是研究本身，做研究真的很有趣，你知道，深入研究，探索事物，最后總是有一個目標(biāo)。

GPT-3發(fā)生了一件令人興奮的事情……當(dāng)我開始在OpenAI工作時，我做的很多事情都是機器人方面的。對于機器人技術(shù)來說，你在實驗室里能做的事情和你在現(xiàn)實世界里能做的事情之間還有一些差距。使用GPT-3，當(dāng)我們在GPT-3中得到第一個結(jié)果時，很明顯我們有一些東西可以開始應(yīng)用于現(xiàn)實世界的問題，而不僅僅是做酷炫的演示。

當(dāng)我從事機器人工作時，我們最后得到的是一個非常酷的機器人手解魔方的演示，但每個人的家里并不具備部署它的條件，即使它足夠強大，我也不知道它對解決魔方有多大用處，這是一種非常昂貴的方法。但是有了GPT-3，我們有了一個語言模型，你現(xiàn)在可以應(yīng)用它來解決各種不同的問題，從翻譯到總結(jié)，再到分類和問答等應(yīng)有盡有，這是一個非常靈活的模式。所以，我們要做的就是看看這個模型來解決現(xiàn)實世界的問題是否足夠好，對我來說，這是一個非常有趣的領(lǐng)域。

當(dāng)你擁有這項非常強大的新技術(shù)，有可能改變很多事物的工作方式時，這一切都是為了找到合適的方法來來解決問題，看看你如何利用你工具箱里的工具來解決這些問題。不同的是，作為一名研究人員，我所做的是提出正確的基礎(chǔ)和正確的方法來衡量進展。當(dāng)目標(biāo)非常遙遠(yuǎn)時，你需要想出這些玩具的方法來評估進展。

現(xiàn)在，就像客戶告訴我們“嘿，我正在嘗試將GPT-3應(yīng)用到這個用例中”，但它不起作用或太慢等諸如此類的事情，這些問題要具體得多。

我的日常，現(xiàn)在更多的是建立一個團隊，用我們在OpenAI開發(fā)的技術(shù)來解決這些現(xiàn)實問題。

Lukas：當(dāng)你將GPT-3與其他用于大型語言模型的方法進行比較時，這似乎是一種趨勢。你是否注意到它在工作方式上有哪些關(guān)鍵差異，采取某種方式是否有所不同？

Peter：這是一個很好問題，我認(rèn)為我真正喜歡GPT-3的地方，以及我認(rèn)為它與眾不同的主要方式是GPT-3所做的一切都非常簡單……

GPT-3是一個大型語言模型，大型神經(jīng)網(wǎng)絡(luò)。它使用的是谷歌幾年前推出的一種非常流行的Transformer架構(gòu)，如今，它基本上為所有不同的語言模型提供了支持，而且它也開始進入其他領(lǐng)域，比如計算機視覺等。

GPT-3的設(shè)置非常簡單，它可以有一些上下文，你可以看看文本的歷史。比如，如果你正在讀一本書，你可以看一頁或一段文字，然后它試著預(yù)測下一個單詞，這就是GPT-3的訓(xùn)練方式。它只是訓(xùn)練了來自不同來源的大量文本，大部分來自互聯(lián)網(wǎng)。它只是一遍又一遍地訓(xùn)練，根據(jù)它看到的一些單詞，預(yù)測下一個單詞。

你可以從幾個單詞開始，但當(dāng)我們今天訓(xùn)練這些模型時，我們訓(xùn)練它們的數(shù)量級是一千或幾千個單詞，你可以回顧這1000個單詞，然后試著預(yù)測下一個單詞。所以設(shè)置非常簡單，你只需要在這些龐大的文本數(shù)據(jù)集上訓(xùn)練它，以便繼續(xù)預(yù)測下一個單詞，并在這方面做得非常好。

我認(rèn)為GPT-3的令人驚訝之處在于，如果你這樣做，然后你把模型變得非常大，這讓它有巨大的學(xué)習(xí)能力，然后它就會非常擅長以前你需要專門模型的一系列任務(wù)。以前如果你想進行翻譯，你就需要一種專門翻譯的神經(jīng)網(wǎng)絡(luò)，或者如果你想做總結(jié)，同樣，你會以特定的方式設(shè)置你的網(wǎng)絡(luò)，然后只訓(xùn)練它完成總結(jié)任務(wù)。

我們在使用GPT-3中發(fā)現(xiàn)，你實際上在一些基準(zhǔn)測試中獲得了非常接近最先進的表現(xiàn)，這些基準(zhǔn)測試包括總結(jié)、翻譯、問題回答等等。該模型使用的是一個剛剛在互聯(lián)網(wǎng)上訓(xùn)練過的模型，它不專門執(zhí)行任何任務(wù)，而是能夠以與閱讀文本相似的方式再現(xiàn)文本。

將GPT-3應(yīng)用于翻譯任務(wù)

Lukas：實際上，如何將其應(yīng)用到翻譯任務(wù)中，你如何把“預(yù)測下一個單詞”變成一個翻譯？

Peter：在很多其他的大型語言模型中，都有一些特定的步驟，你可以對一段文本進行編碼。所以你會在神經(jīng)網(wǎng)絡(luò)中創(chuàng)建一些表示，然后你會有一個解碼器來接受它，然后用它來寫一些句子。例如：如果你做翻譯，你會把它編碼成某種表示，然后你的神經(jīng)網(wǎng)絡(luò)會有一個單獨的部分來接受這種表示，并嘗試輸出你想要的東西，輸入可能是一個德語的句子，輸出的可能是一個英語的句子，而且，你知道它是專門為此訓(xùn)練的。

那么對于你的問題，你如何處理GPT-3呢？最簡單的方法是：你可以提供一些例子，說明翻譯可能的樣子，僅以純文本形式，你會寫“德語：”和一些德語句子，然后是“英語：”和一些英語句子。你可能只提供一個例子，那么這個稱為一下 (one-shot)，你可以提供一些例子，基本上都是“德語或者英語”的一些例子，然后你可以輸入你想翻譯的新句子，這就是所謂的多下 (Few-Shot) 訓(xùn)練。如果你有幾個例子和模型，只要看看它現(xiàn)在在其上下文中看到的模式，它可以產(chǎn)生一個翻譯。

這是一個非常簡單的設(shè)置?；旧?，我認(rèn)為告訴GPT該做什么的方式有點像你告訴人類做同樣的事情。比如，如果我給你寫電子郵件，“嘿，Lukas，我想讓你翻譯一些句子”我會告訴你：“請翻譯這些句子，我可能會提供一些例子來讓你了解一下它的語氣，比如：我想要更正式的翻譯，還是更隨意的翻譯等等，你會發(fā)現(xiàn)其中的規(guī)律，給你一個德語句子（我不知道你懂不懂德語）你就能把它翻譯成英語。

現(xiàn)在有了我們最新的模型，你甚至不需要提供這些例子，你可以像問人一樣問模型，比如，“嘿，把這個句子翻譯給我聽”，或者“總結(jié)一下這篇文章”。

我們剛剛發(fā)現(xiàn)，這就是人們想要使用模型的方式。我們讓他們做了更多這樣的工作，但就是這么簡單，你只要告訴它你想做什么，它就會盡最大努力去做。

Lukas：你是主要致力于訓(xùn)練模型使用多種語言，還是主要是英語？語料庫從何而來？

Peter：實際上我們做的正好相反。最初，當(dāng)我們訓(xùn)練GPT-3時，我們一致努力不用英語以外的其他語言來訓(xùn)練它。事實證明，即使這些模型是巨大的，在你的數(shù)據(jù)集組合中也需要權(quán)衡取舍。如果你先用英語訓(xùn)練它，然后再用其他語言訓(xùn)練它，它在英語任務(wù)中表現(xiàn)就不那么好了，最終當(dāng)我們訓(xùn)練它的時候，我們想看看，它在更通用的能力上能有多好？

我們不太關(guān)心翻譯，因此，每當(dāng)我們輸入額外的語言時，這只會以擅長用英語執(zhí)行其他任務(wù)為代價，比如回答問題、總結(jié)等等。但結(jié)果是，即使明確地試圖過濾掉大多數(shù)其他語言，也可能有一小部分?jǐn)?shù)據(jù)是其他語言的。即便如此，該模型在翻譯方面還是非常出色，在許多翻譯任務(wù)中，它接近于最先進的技術(shù)。

我的母語是瑞典語，但我現(xiàn)在已經(jīng)不會用瑞典語寫作了，因為我從來沒有這樣做過。我現(xiàn)在做的是用英語寫它，然后讓GPT-3來翻譯給我，這只是我的觀點，它不會變得完美，我需要調(diào)試一些東西，但它出奇地好，而且模型中的瑞典訓(xùn)練數(shù)據(jù)量非常非常少。

我們一直在不斷更新我們的模型，讓它們變得越來越好，所以現(xiàn)在我們引入了越來越多的語言數(shù)據(jù)，因為我們已經(jīng)找到了如何以更優(yōu)化的方式進行這些權(quán)衡。但是，一開始我們想要的是相反的，我們只是想把英語學(xué)好。

Lukas：是預(yù)測單詞還是一次預(yù)測一個字符？這是怎么回事？

Peter：都不是，它實際上是在預(yù)測一種叫做符號標(biāo)記 (Token) 的東西，這就像“單詞的一部分”也許可以這么想，最常見的英語單詞，它們由單個符號標(biāo)記。我們有大約50,000個這樣的標(biāo)記，我們將它們映射到字符序列上，結(jié)果就像“hi”或“the”這樣的常見單詞最終會成為一個標(biāo)記。但如果你有一個更不常見的詞，比如“百科全書”之類的，你可能會把它分解成兩三個符號，這就像單詞片段，只是讓這些語言模型更容易、更有效地使用文本。原則上，你也可以在角色層面上這么做，但它會變得非常低效，你知道，這就是這個領(lǐng)域可能正在改變的地方，最終，它將不止在字符層面上做到這一點。

Lukas：但我認(rèn)為這會讓學(xué)習(xí)外語變得非常困難，比如，亞洲語言是不可能的嗎？如果他們有更多的符號，或者我猜你可能會說，他們已經(jīng)為你做了標(biāo)記化，通過使用更多的字符來編碼更大的含義。

Peter：是的，訓(xùn)練標(biāo)記器 (Tokenizer) 的方式肯定會對不同語言的性能產(chǎn)生影響。通常這兩件事分兩個不同的步驟進行訓(xùn)練，你可以在某些數(shù)據(jù)語料庫上訓(xùn)練你的標(biāo)記器，然后在其他一些數(shù)據(jù)集上分別使用該標(biāo)記器訓(xùn)練你的模型，為了讓你的模型真正擅長不同的語言，你還需要在多種語言上訓(xùn)練該標(biāo)記器。

肯定是使用其他語言的成本更高，一個德語單詞最終會變成更多的符號，因為我們訓(xùn)練它的次數(shù)少得多。而英語非常高效，很多單詞都是一個單一的符號，所以這使得它在其他語言上更糟糕，而且更昂貴。

Lukas：我能把一些東西翻譯成日語嗎？GPT-3也能做到嗎？

Peter：是的，我記得我們的一個日本用戶的評論，他們非常喜歡使用GPT-3在英語和日語之間翻譯技術(shù)文檔，因為他們發(fā)現(xiàn)GPT-3在技術(shù)文檔翻譯方面比谷歌翻譯要好得多。這大概是一年前的事了，谷歌翻譯現(xiàn)在可能更好，但根據(jù)我們擁有的數(shù)據(jù)集，這可能只是一個偶然的事情。

實際上，關(guān)于GPT-3的翻譯功能，真正酷的事情是我們并沒有在顯式的輸入和輸出對上訓(xùn)練模型，翻譯的文本片段，就像你通常所說的“對齊的文本片段”一樣。

只是看到了很多日本人，它看過很多日本電影，也看過很多英語電影。不知怎么的，通過學(xué)習(xí)如何預(yù)測下一個單詞，已經(jīng)有足夠多的小文本、博客文章或其他東西——作者在日語和英語之間切換?？赡軙σ恍┚渥舆M行翻譯，在那里它找到了映射，然后以某種方式有一個足夠好的表示，然后推廣到任意的翻譯任務(wù)。對我來說，這太神奇了，它只是通過閱讀大量的英語文本，大量的日語文本，然后可能就像在所有的數(shù)據(jù)中找到一些對齊的對，它就能夠進行翻譯，這對我來說太瘋狂了。

文案及其他GPT-3商業(yè)應(yīng)用

Lukas：真是太神奇了，這種性能與早期版本的GPT有明顯的不同嗎？比如在GPT-3中是否發(fā)生了什么，OpenAI認(rèn)為“好吧，我們可以將其用于現(xiàn)實世界的商業(yè)應(yīng)用”？這是它需要達到的性能水平嗎？

Peter：是的，我認(rèn)為GPT-2和GPT-3之間最大的區(qū)別是：它被訓(xùn)練在更多的數(shù)據(jù)上，它是一個更大的模型，大概差了兩個數(shù)量級。最初的GPT-2大約有15億個參數(shù)，而GPT-3最大的模型有1750億個參數(shù)，它上升了兩個數(shù)量級，而且由于它是一個更大的模型，它也需要更多的數(shù)據(jù)。

令人驚訝的是，這就是從感覺它相當(dāng)愚笨到可以與之互動的原因，像 GPT-2 有點的酷炫，但大多數(shù)時候也感覺它非常愚蠢，我認(rèn)為在GPT-3中，它有時會表現(xiàn)得出乎意料的好。不要誤解我的意思，GPT-3仍然會犯很多愚蠢的錯誤，但在某些任務(wù)上，它可能有30-50%的時間是正確的，有時甚至更好。就好像突然之間在你需要抽樣和嘗試任務(wù)之前，也許每隔20次你就會看到一次，“哦，這個看起來不錯”。有了GPT-3，它開始每三次發(fā)生一次，或每兩次，或每五次發(fā)生一次，你會說，“哦，天哪，這實際上是……”

對于諸如總結(jié)文本之類的事情，我們有一個例子是用二年級學(xué)生的風(fēng)格總結(jié)一段文字，令人難以置信的是，該模型能夠簡化單詞，獲得一段文本的要點等等，再說一次，它不是完美的，但它真的很好。

顯然，我們有很多學(xué)術(shù)基準(zhǔn) (academic benchmarks)，你可以運行這些模型，你可以看到它在學(xué)術(shù)基準(zhǔn)上越來越好。但當(dāng)你想要創(chuàng)建一些東西的原型時，這是一種完全不同的感覺，不同的是，現(xiàn)在很容易得到一些運行良好的東西。這就是為什么我們決定，“嘿，現(xiàn)在它看起來很有用”，GPT-2看起來沒有那么有用，但是GPT-3，對于所有這些任務(wù)，我們覺得“好吧，它已經(jīng)足夠接近最先進的技術(shù)了”，如果你有一個專門的模型或其他什么，一個聰明的程序員應(yīng)該能夠?qū)⑵鋺?yīng)用到他們所擁有的任何任務(wù)中，這就是我們設(shè)置的API驗證的內(nèi)容。

Lukas：你真正引以為豪的用例，它到底在哪里起作用？你能不能給我們指出一些地方，讓我們可以在商業(yè)環(huán)境中與之互動？

Peter：當(dāng)然，我認(rèn)為最讓我們感到驚訝的是文案和問題回答，一般來說是創(chuàng)意寫作。在文案方面，當(dāng)時有很多公司開始在我們的平臺上進行開發(fā)，有些公司像：Copysmith是第一批；CopyAI；還有Jarvis……還有很多這樣的公司。他們的做法非常聰明，因為他們意識到，當(dāng)你使用GPT-3來完成某些任務(wù)時，它并不完美。時不時的，你可能會得到一些沒有意義的東西。

但如果你在做文案工作，比如你想根據(jù)產(chǎn)品的某些屬性寫一些吸引人的產(chǎn)品描述，比如鞋子，可能是鞋底的類型，顏色，鞋子的一些其他屬性，你想寫一些真正吸引人的東西，那么作為一個人，你面臨的問題是你陷入了某種寫作瓶頸，我該從哪里開始呢? 這些公司開始做的是他們采用GPT-3，他們用它來生成一些起點或者一些產(chǎn)品描述的變體。

你會發(fā)現(xiàn)，通常情況下，如果你生成五個這樣的例子，其中一個看起來會很好，你可以把它作為你的起點，你可能只是接受它，或者做一些小的調(diào)整。這幾乎是一種幫助人類創(chuàng)造力的方式，你知道嗎，我覺得這太酷了。

作家們會告訴我們，“嘿，我已經(jīng)試著寫這本書半年了，我總是陷入寫作瓶頸。然后我開始在使用GPT-3，現(xiàn)在我花了兩周時間完成了整本書?！碑?dāng)你陷入困境時，它可以創(chuàng)造一個有趣的故事情節(jié)。作為一個有創(chuàng)意的作家，你開始探索，就像“好吧，我沒有想過這個角色會往這個方向發(fā)展，但讓我們來探索一下吧?！比缓笏妥兂闪艘粋€更有趣、更吸引人的過程。

這幾乎就像一個人，現(xiàn)在我們有一個頭腦風(fēng)暴的合作伙伴，你可以把它應(yīng)用到所有這些不同的任務(wù)上。我覺得非?？岬氖?，我發(fā)現(xiàn)很多公司都在利用這一點，創(chuàng)造你以前做不到的新體驗。我認(rèn)為這是非常令人興奮的。我覺得回答問題也非?？?，但是這個問題出乎我的意料。我認(rèn)為我們不會預(yù)料到這是一個如此大的用例。

使用OpenAI API微調(diào)GPT-3

Lukas：GPT-3的優(yōu)點之一似乎是它可以開箱即用。但我也可以想象，對于一些團隊來說，如果出現(xiàn)問題，他們可能會擔(dān)心該怎么辦。我想我很好奇，你通常與公司內(nèi)部的ML團隊合作，還是更多的工程師認(rèn)為這里的好處是，他們不必弄清楚機器學(xué)習(xí)是如何工作的，以獲得自然語言處理的好處，或者你是否傾向于將其與ML團隊集成到一種更大的ML工作流中？

Peter：我得說，這是一種混合，我們有多個機器學(xué)習(xí)團隊。他們已經(jīng)有了自己的模型，他們會在網(wǎng)上下載模型等等，他們會根據(jù)任務(wù)對模型進行調(diào)整，然后他們找到了我們的API并開始使用我們的API做同樣的事情，結(jié)果證明你可以從我們的模型中獲得更好的性能。就像我們所擁有的最大的模型或最好的模型都沒有開源版本，對于很多任務(wù)來說，這是最有效的方法。

但我認(rèn)為，我們的大多數(shù)客戶可能更傾向于另一個陣營，即“真正聰明的開發(fā)者”。當(dāng)我說“開發(fā)人員”時，這是一個相當(dāng)廣泛的群體，從程序員到工程師，從設(shè)計師到項目經(jīng)理。許多人告訴我們OpenAI API是他們進入編程的原因，因為他們從我們的游樂場得到了非常好的結(jié)果，在那里你可以與我們的模型交互。他們有了想法，就開始學(xué)習(xí)如何編碼，并接觸到像Bubble IO之類的無代碼工具。這真的降低了障礙，你不必成為一名機器學(xué)習(xí)專家，也能從這些模型中得到非常好的結(jié)果。你只需要善于迭代并弄清楚如何向模型編寫指令。

這有點像每個人都能成為管理者，如果你想讓你的員工按照你的想法去完成任務(wù)，你就必須給他們很好的指導(dǎo)，這和這些模型非常相似。比如，如果你不明確你的任務(wù)，你就會在輸出中得到非常高的差異，但是，如果你真的很擅長具體說明，甚至提供幾個例子，那么你就會得到非常好的結(jié)果。這不是一種機器學(xué)習(xí)技能，這幾乎更像是一種任務(wù)規(guī)范，管理技能，我覺得很多人都能很快學(xué)會。

我真的很興奮，看到這么多人都能接觸到這些模型，以前好像只有機器學(xué)習(xí)博士學(xué)位才能使用。

Lukas：我覺得我聽人說過一個叫做“提示工程師 (Prompt Engineer) ”的新角色可能與此有關(guān)，清楚如何提示GPT-3讓它做你想讓它做的事情。

Peter：這個很有趣，因為早期，當(dāng)我們有第一個版本的API時，我們有一個非常聰明的人，他是一位世界知名的作者，也是一個程序員：安德魯·梅恩（Andrew Mayne）。他是該API的早期用戶之一，他的內(nèi)部名稱是“提示耳語者 (Prompt Whisperer) ”，或“GPT-3耳語者”，他真的知道如何精心設(shè)計提示以獲得最好的結(jié)果。

因為它是在互聯(lián)網(wǎng)上訓(xùn)練的，你需要把你的思想放在這樣的想法中，“互聯(lián)網(wǎng)上的文本是如何開始的”，如果你想要一個真正好的食譜，你必須開始用食譜書或美食博客之類的東西來寫作，這并不是說你可以讓模型做你想讓它做的事。我認(rèn)為，這其中有很大一部分開始是這樣的。你真的必須善于理解GPT-3的復(fù)雜性，并設(shè)計出真正好的提示。

在我們推出后的一年半時間里，我們看到人們在這方面有很多困難，所以我們開發(fā)了一套新的模型，我們稱它為InstructGPT。這實際上就像上周一樣，它成為我們API中的默認(rèn)值，我們稱其為InstructGPT的原因，是因為它只提供說明。

所以我想說，提示設(shè)計現(xiàn)在已經(jīng)不那么重要了。你可以告訴模型你想讓它做什么，并提供一些例子，還有一點關(guān)于格式可能會影響你提供示例的方式等等。GPT-3在這方面非常強大，但有時它確實有點問題，一些調(diào)整很重要。但我想說的是，與一年前相比，現(xiàn)在已經(jīng)不那么重要了，我的希望是，它變得越來越不重要，而是變得更有互動性。

Lukas：你對模型還啟動了微調(diào)的功能，這個想法是什么，它在什么地方有用？

Peter：GPT-3令人驚訝的是通過零下 (zero-shot) 就得到了非常好的結(jié)果。你只需要提供一個例子，或沒有例子，只是說，“嘿，把這個句子從德語翻譯成英語”就可以了，或者你提供了幾個 (few-shot) 示例，比如幾對德語和英語實例。只需幾個 (few-shot) 示例，你就可以得到令人驚訝的好結(jié)果。但這實際上意味著準(zhǔn)確性是非常依賴于具體任務(wù)的，對于一些任務(wù)，也許30%的時間你得到的輸出是可以接受的，而對于其他更簡單的任務(wù)，你可能70%的時間都能做到。

當(dāng)它不是每次都很好時，你必須非常聰明地在你的產(chǎn)品中暴露它。這就是為什么，比如它對很多文案公司都很有效，你可以只提供一些例子，你知道其中至少有一個是好的，這就是用戶所需要的。但是通過微調(diào)，你能做的基本上你可以自定義你的模型，你可以為它提供更多你希望它執(zhí)行的輸入和輸出示例。如果你想做翻譯，或者如果你想總結(jié)文章，你可以提供幾百篇已經(jīng)做過人工編寫總結(jié)的文章例子，你可以更新GPT-3來更好地完成這項任務(wù)。

你不能把所有這些例子都放在你的提示中，提示符的空間有限，但是通過微調(diào)，你把這些例子轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的連接，轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的權(quán)重。在某種程度上，你就像有了一個無限的提示，你可以提供盡可能多的例子。顯然，示例越多，微調(diào)所需的時間就越長，成本也就越高。但微調(diào)基本上是一個概念，取一堆輸入和輸出的例子，把它們放入模型中，然后得到一個模型的新版本，該版本非常適合你提供例子的任務(wù)。事實證明，只需幾百個例子，或者大約100個例子你就能顯著提高準(zhǔn)確性。

我們有很多客戶使用過它，就像Keeper Tax一樣，他們正在分析交易以找到這些稅收注銷之類的東西，他們所做的是提取相關(guān)的文本片段，進行分類等等。例如，他們對模型進行微調(diào)，并通過微調(diào)模型得到了更好的結(jié)果。我們在客戶身上一再看到這種情況。他們可以得到非常好的結(jié)果，這些結(jié)果通常對于原型來說已經(jīng)足夠好了，但是為了讓其達到足夠高的精度以將其投入生產(chǎn)——通常超過90%或95%或99%，使用他們擁有的數(shù)據(jù)集對模型進行微調(diào)，這樣一直進行下去。這可以讓他們比以前啟用更多的應(yīng)用程序。我們只是讓這種微調(diào)變得很簡單。

Lukas：我想對你來說，你們可以調(diào)整的參數(shù)是什么，因為你描述的方式，聽起來好像沒有任何參數(shù)，參數(shù)在這里如何參與呢？

Peter：對于你關(guān)于參數(shù)的問題，我們試圖在我們的API中使它變得非常簡單。我們試著讓默認(rèn)值非常非常好。一般來說，你可以通過微調(diào)獲得非常好的結(jié)果，而根本不需要過多地修改參數(shù)，但有些參數(shù)會有所不同。例如，你可以設(shè)置學(xué)習(xí)率，這是你在每個學(xué)習(xí)步驟中更新權(quán)重的程度。

你可以設(shè)置你想要通過多少次數(shù)據(jù)的內(nèi)容，事實證明，如果你把數(shù)據(jù)調(diào)整太多次，你就會對數(shù)據(jù)集進行過度擬合。這些GPT-3模型非常大，通常只需要對數(shù)據(jù)進行2到5次迭代就能得到非常好的結(jié)果，如果你走得更遠(yuǎn)，你有時會過度擬合。還有更高級的參數(shù)，但我有點喜歡玩一點你想訓(xùn)練它的時代數(shù)量和他們的學(xué)習(xí)率，這讓你達到了90%的目的，如果你開始擺弄其他參數(shù)，它不會給你更多。

Lukas：這是考慮將參數(shù)留給其他人的想法嗎，你能從擺弄參數(shù)中得到樂趣嗎？

Peter：說實話，如果這是完全自動的，我會很高興，也就是說，我們確實有一些更注重研究的客戶，他們真的喜歡擺弄，所以我認(rèn)為我們很難刪除它。但是，就像我說的，我們有兩大陣營的用戶：研究人員和開發(fā)者，開發(fā)者總是告訴我們：“嘿，我只想要一個按鈕，我只想要最好的模型出來。”然后很多研究人員想要擺弄更多的參數(shù)，我想我們可以長期滿足雙方的需求。

Lukas：Boris (Boris 是一個 ML 技術(shù)人員)，我不知道你把自己歸哪一類了，你做了一些驚人的，漂亮的演示，你也喜歡調(diào)整參數(shù)，我很好奇你使用GPT-3模型的經(jīng)驗。

Boris：我當(dāng)然喜歡有一個好的默認(rèn)值，因為最初你真的不知道你應(yīng)該在它上面改變什么，假設(shè)你選擇了錯誤的參數(shù)，結(jié)果什么都沒用?？刹皇鞘裁从淇斓慕?jīng)歷。所以我喜歡如果你不選擇任何東西，它就已經(jīng)很好了。然后，我真的很喜歡調(diào)整參數(shù)，看看“好吧，會有什么效果”并試著用直覺來調(diào)。

除了Peter提到的參數(shù)之外，還有兩個參數(shù)也讓我很感興趣，你可以決定微調(diào)哪個模型，有不同尺寸的模型。如果你使用一個更大的模型，也許你的API會慢一點，但是你的效果會更好。也許有時你不需要它，也許有時確實需要，所以我想看看我使用哪種模式的效果。

我還喜歡看到“我可以給出多少個訓(xùn)練樣本”的效果，就像我只給出20個樣本，而不是100或200個，因為這樣你就能知道我的模型在我開發(fā)一個更大的數(shù)據(jù)集時會變得更好。我喜歡擺弄各種各樣的參數(shù)，看看基于這些參數(shù)能做出什么樣的預(yù)測。

Peter：對，最后一條，其實非常重要，我認(rèn)為這是我們一遍又一遍地給人們的最常見的建議之一。

這就像從一小組例子開始，然后把它翻倍，看看你能得到多少改進。如果你將訓(xùn)練數(shù)據(jù)量翻倍，那么你，就會看到錯誤率的線性改善，如果你有10%的錯誤率，你把訓(xùn)練數(shù)據(jù)翻倍，你可能會得到8%的錯誤率。然后再翻倍，錯誤率降至6%等等。如果你能看到這種趨勢，那么你就會突然有一種感覺，“就標(biāo)記更多的數(shù)據(jù)等等而言，我需要花多少錢才能得到我想要的結(jié)果”等等。

這是一件非常強大的事情。

Lukas：訓(xùn)練這些模型的結(jié)果是否可重現(xiàn)？每次對它進行微調(diào)時，有多少可變性？如果你對相同的數(shù)據(jù)進行兩次不同的微調(diào)，你會得到相同的模型嗎？

Peter：原則上，你可以把它設(shè)置成非?？蓮?fù)制的。如果你在同一天訓(xùn)練，基本上你在訓(xùn)練時想要做的是，在每次訓(xùn)練迭代中，你有一批數(shù)據(jù)，比如一些例子，你實際上可以把API設(shè)置批量大小，每次更新需要多少個示例。我認(rèn)為它默認(rèn)是32或類似的東西，當(dāng)你這樣做時，你還希望對數(shù)據(jù)進行隨機排序，你希望對訓(xùn)練數(shù)據(jù)進行隨機抽樣。

只要你在訓(xùn)練中保持這些隨機化一致，你最終會得到相同的模型。這將是相當(dāng)可復(fù)制的。唯一需要注意的是，在實踐中，即使是推論，這也是正確的。我們有一個叫做溫度 (Temperature) 的參數(shù)，你可以設(shè)置輸出的可變性。溫度越高，變異性就越大，即使你把值設(shè)為0也不能保證你會得到完全確定的輸出。

在這些大型模型的GPU中，有足夠多的噪音和一些奇怪的浮點運算等等，都很難保證完全確定性的決定。

很多人問我們這個問題，答案總是這樣，“很不幸，我們不能提供這個，但你可以得到一些公平的東西?！钡悄銘?yīng)該讓你的實驗足夠強大，這樣你就不用太在意決定論了。

OpenAI API背后的工程挑戰(zhàn)

Lukas：我認(rèn)為，從操作上講，讓每個人都有自己的微調(diào)模型比每個人都使用符合相同模型的API在基礎(chǔ)設(shè)施方面面臨的挑戰(zhàn)要大得多。允許這種情況發(fā)生是一項艱巨的任務(wù)嗎？比如，當(dāng)人們開始使用不同的模型時，你需要換入和換出不同的模型嗎？

Peter：剛開始的時候，我們做微調(diào)的方式基本上是在某種程度上。你幾乎租了一組運行模型的GPU，在某種程度上，對于一些最早期的微調(diào)客戶，我們基本上是按GPU小時收費的，比如每小時，他們使用模型的次數(shù)。甚至從一開始，我想在推出API后的六個月內(nèi)，我們就有一些精選的客戶，他們有微調(diào)過的模型和類似的東西，這就是它的工作方式。

問題是，如果你想嘗試一些新的東西，GPU的時間是很昂貴的。你不會真的想要花錢去保留一個GPU，哪怕只有不到一個小時，這一切都累積得非常非常快。我們只是設(shè)定了一個目標(biāo)說“好吧，一旦你微調(diào)了你的模型，你應(yīng)該立即能夠使用那個模型，你只需要為推理時進入它的token付錢”，就像無論你在提示符里輸入什么。

要使這種體驗真正出色，這無疑是一個巨大的工程挑戰(zhàn)。你只需開始微調(diào)，當(dāng)它完成時，得到一個微調(diào)的模型名稱。現(xiàn)在你可以在API中使用那個模型來立即得到一個結(jié)果，而且你不會按小時或其他方式收費，你只會以相同的方式為API收費。這真的很棘手，我們在OpenAI有一個了不起的工程團隊，他們真的想出了很多技巧來平衡這些模型的最終位置，并以正確的方式緩存它們等等，以創(chuàng)造一個很棒的體驗。

Boris：我很好奇你是對整個模型進行微調(diào)，還是只對部分模型進行微調(diào)，讓它更有效率。

Peter：我們用了很多技巧來實現(xiàn)這一點，我們一直在努力尋找新的方法。如果你想對整個750億個參數(shù)模型進行微調(diào)，這是有挑戰(zhàn)的。它可能會變得非常昂貴和困難等等，有一些技巧可以讓它更快。

Lukas：你覺得你和所有使用GPT-3進行自然語言任務(wù)的每個人之間的區(qū)別是模型本身的質(zhì)量和性能嗎？還是其他原因？是關(guān)于集成，還是生產(chǎn)中的監(jiān)控，或者類似的東西？

Peter：當(dāng)然，我們在構(gòu)建API時所關(guān)注的關(guān)鍵事情是最重要的是模型的能力。

其次，你需要有快速的推理能力。在我們創(chuàng)建API之前，對于語言模型，沒有人關(guān)心推理。每個人都關(guān)心你能多快地訓(xùn)練他們，因為這才是最重要的。因此，你可以在一天結(jié)束時解決基準(zhǔn)測試問題。我們做了大量的工程設(shè)計來讓推理超級超級快。我還記得在最初的幾個月里，我們將API的第一個原型交付客戶開始使用，我們將推理速度提高了200倍之類的。我們做了很多努力來讓它超快。

第三件事是圍繞安全的事情。我們投資這些InstructGPT模型的原因之一是，我們看到有時你可以得到出乎意料的模型輸出。例如，你可能寫了一個非常無辜的句子，但由于某些原因，它可能會變得非常黑暗，或者你可能會以不同的方式得到一些有偏見的輸出。使用我們的推薦指令的模型，默認(rèn)情況下，它們的行為更符合預(yù)期，但你也可以以更好的方式指定行為。事實證明，當(dāng)安全和能力齊頭并進時，當(dāng)你能更好地控制它時，它就會變成一個更好的產(chǎn)品。這些肯定是我們一直關(guān)注的事情，我認(rèn)為我們在這方面做得比現(xiàn)有的其它替代方案要好得多。

最后，我們非常關(guān)注的事情是讓它使用起來非常簡單，事實上，你不需要加載模型，你只需要調(diào)用一個微調(diào)模型，只需要一行Python來調(diào)用API，這也是我們的核心，我們希望每個人都能輕松使用它。

Lukas：太棒了。好的，非常感謝，很高興與你交談，祝賀你做出了如此成功的產(chǎn)品。

本文轉(zhuǎn)載自微信公眾號“MoPaaS”。

來源：https://wandb.ai/wandb_fc/gradient-dissent/reports/Peter-Boris-Fine-tuning-GPT-3-with-OpenAI-and-Weights-Biases--VmlldzoxNTMyNDI1?galleryTag=gradient-dissent

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区