人工智能 (AI) 在改變我們生活、工作和與技術(shù)互動(dòng)的方式方面取得了巨大的進(jìn)步。最近,取得重大進(jìn)展的領(lǐng)域是大型語(yǔ)言模型 (LLM) 的開(kāi)發(fā),例如GPT-3、ChatGPT和GPT-4。這些模型能夠準(zhǔn)確的執(zhí)行語(yǔ)言翻譯、文本摘要和問(wèn)答等任務(wù)。
雖然很難忽視 LLM 不斷增加的模型規(guī)模,但同樣重要的是要認(rèn)識(shí)到,他們的成功很大程度上歸功于用于訓(xùn)練他們的大量高質(zhì)量數(shù)據(jù)。
在本文中,我們將從以數(shù)據(jù)為中心的 AI 角度概述 LLM 的最新進(jìn)展。我們將通過(guò)以數(shù)據(jù)為中心的 AI 視角研究 GPT 模型,這是數(shù)據(jù)科學(xué)界中一個(gè)不斷發(fā)展的概念。我們通過(guò)討論三個(gè)以數(shù)據(jù)為中心的 AI 目標(biāo):訓(xùn)練數(shù)據(jù)開(kāi)發(fā)、推理數(shù)據(jù)開(kāi)發(fā)和數(shù)據(jù)維護(hù),來(lái)揭示 GPT 模型背后以數(shù)據(jù)為中心的 AI 概念。
大型語(yǔ)言模型 (LLM) 和 GPT 模型
LLM 是一種自然語(yǔ)言處理模型,經(jīng)過(guò)訓(xùn)練可以在上下文中推斷單詞。例如,LLM 最基本的功能是在給定上下文的情況下預(yù)測(cè)缺失的標(biāo)記。為此,LLM 接受了訓(xùn)練,可以從海量數(shù)據(jù)中預(yù)測(cè)每個(gè)候選單詞的概率。下圖是在上下文中使用 LLM 預(yù)測(cè)丟失標(biāo)記的概率的說(shuō)明性示例。
GPT模型是指OpenAI創(chuàng)建的一系列LLM,如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣,GPT 模型的架構(gòu)主要基于Transformers,它使用文本和位置嵌入作為輸入,并使用注意力層來(lái)模擬令牌的關(guān)系。
后來(lái)的 GPT 模型使用與 GPT-1 類似的架構(gòu),除了使用更多模型參數(shù)和更多層、更大的上下文長(zhǎng)度、隱藏層大小等。
什么是以數(shù)據(jù)為中心的人工智能
以數(shù)據(jù)為中心的 AI是一種新興的思考如何構(gòu)建 AI 系統(tǒng)的新方法。以數(shù)據(jù)為中心的人工智能是系統(tǒng)地設(shè)計(jì)用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的學(xué)科。
過(guò)去,我們主要專注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型(以模型為中心的 AI)。然而,這種方法在現(xiàn)實(shí)世界中可能會(huì)導(dǎo)致問(wèn)題,因?yàn)樗鼪](méi)有考慮數(shù)據(jù)中可能出現(xiàn)的不同問(wèn)題,例如標(biāo)簽不準(zhǔn)確、重復(fù)和偏差。因此,“過(guò)度擬合”數(shù)據(jù)集不一定會(huì)導(dǎo)致更好的模型行為。
相比之下,以數(shù)據(jù)為中心的人工智能專注于提高用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的質(zhì)量和數(shù)量。這意味著注意力在數(shù)據(jù)本身,模型相對(duì)更固定。使用以數(shù)據(jù)為中心的方法開(kāi)發(fā)人工智能系統(tǒng)在現(xiàn)實(shí)場(chǎng)景中具有更大的潛力,因?yàn)橛糜谟?xùn)練的數(shù)據(jù)最終決定了模型的最大能力。
需要注意的是,“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅(qū)動(dòng)”有著根本的區(qū)別,后者只強(qiáng)調(diào)用數(shù)據(jù)來(lái)指導(dǎo)人工智能的發(fā)展,通常仍以開(kāi)發(fā)模型而不是數(shù)據(jù)為中心。
以數(shù)據(jù)為中心的人工智能與以模型為中心的人工智能之間的比較
以數(shù)據(jù)為中心的 AI 框架包含三個(gè)目標(biāo):
訓(xùn)練數(shù)據(jù)開(kāi)發(fā)就是收集和生產(chǎn)豐富、高質(zhì)量的數(shù)據(jù),以支持機(jī)器學(xué)習(xí)模型的訓(xùn)練。
推理數(shù)據(jù)開(kāi)發(fā)是為了創(chuàng)建新的評(píng)估集,這些評(píng)估集可以提供對(duì)模型的更細(xì)粒度的洞察力,或者通過(guò)數(shù)據(jù)輸入觸發(fā)模型的特定功能。
數(shù)據(jù)維護(hù)是為了在動(dòng)態(tài)環(huán)境下保證數(shù)據(jù)的質(zhì)量和可靠性。數(shù)據(jù)維護(hù)至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界中的數(shù)據(jù)不是一次性創(chuàng)建的,而是需要持續(xù)維護(hù)。
以數(shù)據(jù)為中心的 AI 框架
為什么以數(shù)據(jù)為中心的 AI 使 GPT 模型成功
幾個(gè)月前,Yann LeCun 在推特上表示 ChatGPT 并不是什么新鮮事。事實(shí)上,ChatGPT 和 GPT-4 中使用的所有技術(shù)(變壓器、從人類反饋中強(qiáng)化學(xué)習(xí)等)一點(diǎn)都不新鮮。然而,他們確實(shí)取得了以前模型無(wú)法實(shí)現(xiàn)的結(jié)果。那么,他們成功的原因什么?
訓(xùn)練數(shù)據(jù)開(kāi)發(fā)。通過(guò)更好的數(shù)據(jù)收集、數(shù)據(jù)標(biāo)記和數(shù)據(jù)準(zhǔn)備策略,用于訓(xùn)練 GPT 模型的數(shù)據(jù)的數(shù)量和質(zhì)量有了顯著提高。
GPT-1:BooksCorpus 數(shù)據(jù)集用于訓(xùn)練。該數(shù)據(jù)集包含4629.00 MB 的原始文本,涵蓋各種類型的書(shū)籍,例如冒險(xiǎn)、幻想和浪漫。
-以數(shù)據(jù)為中心的 AI 策略:無(wú)。
-結(jié)果:在該數(shù)據(jù)集上使用 GPT-1 可以通過(guò)微調(diào)提高下游任務(wù)的性能。
GPT-2:訓(xùn)練中使用WebText 。這是 OpenAI 中的一個(gè)內(nèi)部數(shù)據(jù)集,通過(guò)從 Reddit 抓取出站鏈接創(chuàng)建。
-以數(shù)據(jù)為中心的 AI 策略:(1) 僅使用來(lái)自 Reddit 的出站鏈接來(lái)整理/過(guò)濾數(shù)據(jù),該鏈接至少獲得 3 個(gè)業(yè)力。(2) 使用工具Dragnet和Newspaper來(lái)提取干凈的內(nèi)容。(3) 采用去重和其他一些基于啟發(fā)式的清洗。
-結(jié)果:過(guò)濾后得到 40 GB 的文本。GPT-2 無(wú)需微調(diào)即可獲得強(qiáng)大的零樣本結(jié)果。
GPT-3:GPT-3的訓(xùn)練主要基于Common Crawl。
-以數(shù)據(jù)為中心的 AI 策略:(1) 訓(xùn)練分類器根據(jù)每個(gè)文檔與WebText(高質(zhì)量文檔)的相似性過(guò)濾掉低質(zhì)量文檔。(2)利用Spark的MinHashLSH對(duì)文檔進(jìn)行模糊去重。(3) 使用WebText、圖書(shū)語(yǔ)料庫(kù)和維基百科擴(kuò)充數(shù)據(jù)。
- 結(jié)果:45TB的明文過(guò)濾后得到570GB的文本(本次質(zhì)量過(guò)濾只選擇了1.27%的數(shù)據(jù))。GPT-3 在零樣本設(shè)置中明顯優(yōu)于 GPT-2。
InstructGPT:讓人類評(píng)估調(diào)整GPT-3 的答案,使其更好地符合人類的期望。他們?yōu)闃?biāo)注者設(shè)計(jì)了測(cè)試,只有通過(guò)測(cè)試的人才有資格標(biāo)注。他們甚至設(shè)計(jì)了一項(xiàng)調(diào)查,以確保注釋者全心投入到注釋過(guò)程中。
-以數(shù)據(jù)為中心的 AI 策略:(1)使用人類提供的提示答案通過(guò)監(jiān)督訓(xùn)練調(diào)整模型。(2)收集比較數(shù)據(jù)以訓(xùn)練獎(jiǎng)勵(lì)模型,然后使用此獎(jiǎng)勵(lì)模型通過(guò)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)調(diào)整GPT-3。
- 結(jié)果:InstructGPT 表現(xiàn)出更好的真實(shí)性和更少的偏差,即更好的對(duì)齊。
ChatGPT/GPT-4:OpenAI 沒(méi)有透露細(xì)節(jié)。但眾所周知,ChatGPT/GPT-4 很大程度上沿用了之前 GPT 模型的設(shè)計(jì),他們?nèi)匀皇褂?RLHF 來(lái)調(diào)整模型(可能有更多和更高質(zhì)量的數(shù)據(jù)/標(biāo)簽)。人們普遍認(rèn)為,隨著模型權(quán)重的增加,GPT-4 使用了更大的數(shù)據(jù)集。
推理數(shù)據(jù)開(kāi)發(fā)。由于最近的 GPT 模型已經(jīng)足夠強(qiáng)大,我們可以通過(guò)在模型固定的情況下調(diào)整提示或調(diào)整推理數(shù)據(jù)來(lái)實(shí)現(xiàn)各種目標(biāo)。例如,我們可以通過(guò)提供要總結(jié)的文本以及諸如“總結(jié)它”或“TL;DR”之類的指令來(lái)引導(dǎo)推理過(guò)程,從而進(jìn)行文本摘要。
及時(shí)調(diào)整
設(shè)計(jì)正確的推理提示是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。它嚴(yán)重依賴啟發(fā)式方法。一個(gè)很好的調(diào)查總結(jié)了不同的促銷方法。有時(shí),即使是語(yǔ)義相似的提示也會(huì)有非常不同的輸出。在這種情況下,可能需要基于軟提示的校準(zhǔn)來(lái)減少方差。
LLM推理數(shù)據(jù)開(kāi)發(fā)的研究仍處于早期階段。在不久的將來(lái),可以在 LLM 中應(yīng)用更多已用于其他任務(wù)的推理數(shù)據(jù)開(kāi)發(fā)技術(shù)。
數(shù)據(jù)維護(hù)。ChatGPT/GPT-4作為商業(yè)產(chǎn)品,不僅訓(xùn)練一次,而且不斷更新和維護(hù)。顯然,我們無(wú)法知道在 OpenAI 之外如何進(jìn)行數(shù)據(jù)維護(hù)。因此,我們討論了一些通用的以數(shù)據(jù)為中心的 AI 策略,這些策略已經(jīng)或?qū)⒑芸赡苡糜?GPT 模型:
- 連續(xù)數(shù)據(jù)收集:當(dāng)我們使用 ChatGPT/GPT-4 時(shí),我們的提示/反饋可能反過(guò)來(lái)被 OpenAI 使用進(jìn)一步推進(jìn)他們的模型??赡芤呀?jīng)設(shè)計(jì)并實(shí)施了質(zhì)量指標(biāo)和保證策略,以在此過(guò)程中收集高質(zhì)量數(shù)據(jù)。
- 數(shù)據(jù)理解工具:可以開(kāi)發(fā)各種工具來(lái)可視化和理解用戶數(shù)據(jù),促進(jìn)更好地了解用戶需求并指導(dǎo)未來(lái)改進(jìn)的方向。
- 高效的數(shù)據(jù)處理:隨著ChatGPT/GPT-4用戶數(shù)量的快速增長(zhǎng),需要一個(gè)高效的數(shù)據(jù)管理系統(tǒng)來(lái)實(shí)現(xiàn)快速的數(shù)據(jù)采集。
上圖是ChatGPT/GPT-4 通過(guò)“贊”和“不贊”收集用戶反饋的示例。
數(shù)據(jù)科學(xué)界可以從這波 LLM 浪潮中學(xué)到什么
LLM的成功徹底改變了人工智能。展望未來(lái),LLM可以進(jìn)一步徹底改變數(shù)據(jù)科學(xué)生命周期。我們做出兩個(gè)預(yù)測(cè):
以數(shù)據(jù)為中心的人工智能變得更加重要。經(jīng)過(guò)多年研究,模型設(shè)計(jì)已經(jīng)非常成熟,尤其是在Transformer之后。數(shù)據(jù)成為未來(lái)改進(jìn) AI 系統(tǒng)的關(guān)鍵方式。另外,當(dāng)模型變得足夠強(qiáng)大時(shí),我們就不需要在日常工作中訓(xùn)練模型了。相反,我們只需要設(shè)計(jì)適當(dāng)?shù)耐评頂?shù)據(jù)來(lái)從模型中探索知識(shí)。因此,以數(shù)據(jù)為中心的人工智能的研發(fā)將推動(dòng)未來(lái)的進(jìn)步。
LLM將實(shí)現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案
許多繁瑣的數(shù)據(jù)科學(xué)工作可以在LLM的幫助下更有效地進(jìn)行。例如,ChaGPT/GPT-4 已經(jīng)可以編寫可工作的代碼來(lái)處理和清洗數(shù)據(jù)。此外,LLM 甚至可以用于創(chuàng)建訓(xùn)練數(shù)據(jù)。例如使用 LLM 生成合成數(shù)據(jù)可以提高文本挖掘中的模型性能。
聯(lián)系客服