視頻介紹:介紹 FLAN:具有指令微調(diào)功能的更通用的語言模型
對于生成有意義的文本的機(jī)器學(xué)習(xí)模型,它必須具有大量關(guān)于世界的知識以及抽象的能力。雖然經(jīng)過訓(xùn)練的語言模型在擴(kuò)展時越來越能夠自動獲取這些知識,但如何最好地解鎖這些知識并將其應(yīng)用于特定的現(xiàn)實世界任務(wù)尚不清楚。
一種行之有效的技術(shù)稱為微調(diào),即在標(biāo)記的數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練模型(如BERT和T5),以使其適應(yīng)下游任務(wù)。但是,微調(diào)需要大量的訓(xùn)練示例,以及為每個下游任務(wù)存儲的模型權(quán)重,這并不總是可行的,特別是對于大型模型。
在”微調(diào)語言模型是零鏡頭學(xué)習(xí)者”中,我們探索了一種稱為指令微調(diào)的簡單技術(shù),或簡稱指令調(diào)優(yōu)。這涉及微調(diào)模型,不是為了解決特定的任務(wù),而是為了使其更適合解決一般的NLP任務(wù)。我們使用指令調(diào)優(yōu)來訓(xùn)練一個模型,我們稱之為微調(diào)LAnguage Net(FLAN)。由于與預(yù)訓(xùn)練模型所涉及的大量計算相比,F(xiàn)LAN的指令調(diào)優(yōu)階段只需要少量的更新,因此它是預(yù)訓(xùn)練主課程的隱喻甜點。這使FLAN能夠執(zhí)行各種看不見的任務(wù)。
最近使用語言模型解決任務(wù)的一種流行技術(shù)稱為零觸發(fā)或少觸發(fā)提示。此技術(shù)基于語言模型在訓(xùn)練期間可能看到的文本制定任務(wù),然后語言模型通過完成文本來生成答案。例如,為了對電影評論的情緒進(jìn)行分類,可以給語言模型一個句子,”電影評論’自漂亮女人以來最好的RomCom’是_“,并要求用”積極”或”消極”一詞完成句子。
盡管此技術(shù)在某些任務(wù)中表現(xiàn)出良好的性能,但它需要仔細(xì)的及時工程設(shè)計,以將任務(wù)設(shè)計成模型在訓(xùn)練期間看到的數(shù)據(jù) - 這種方法在某些但不是所有任務(wù)上表現(xiàn)良好,并且對于從業(yè)者來說也可能是一種不直觀的方式與模型進(jìn)行交互。例如,GPT-3(當(dāng)今使用的最大語言模型之一)的創(chuàng)建者發(fā)現(xiàn),這種提示技術(shù)并不能在自然語言推理(NLI)任務(wù)上產(chǎn)生良好的性能。
FLAN 反而根據(jù)大量不同的指令對模型進(jìn)行微調(diào),這些指令使用簡單直觀的任務(wù)描述,例如”將此電影評論分類為正面或負(fù)面”或”將此句子翻譯成丹麥語”。
從頭開始創(chuàng)建指令數(shù)據(jù)集以微調(diào)模型將花費大量資源。因此,我們改用模板將現(xiàn)有數(shù)據(jù)集轉(zhuǎn)換為教學(xué)格式。
我們表明,通過根據(jù)這些指令訓(xùn)練模型,它不僅擅長解決在訓(xùn)練過程中看到的各種指令,而且總體上善于遵循指令。
為了以有意義的方式將FLAN與其他技術(shù)進(jìn)行比較,我們使用已建立的基準(zhǔn)數(shù)據(jù)集將模型的性能與現(xiàn)有模型進(jìn)行比較。此外,我們評估了FLAN的性能,但在訓(xùn)練期間沒有看到該數(shù)據(jù)集中的任何示例。
但是,如果我們在與評估數(shù)據(jù)集過于相似的數(shù)據(jù)集上進(jìn)行訓(xùn)練,則仍可能影響性能結(jié)果。例如,在一個問答數(shù)據(jù)集上進(jìn)行訓(xùn)練可能有助于模型在另一個問答數(shù)據(jù)集上做得更好。因此,我們按任務(wù)類型將所有數(shù)據(jù)集分組到集群中,不僅保留數(shù)據(jù)集的訓(xùn)練數(shù)據(jù),還保留數(shù)據(jù)集所屬的整個任務(wù)集群。
我們將數(shù)據(jù)集分組到下面的集群中。
我們對FLAN進(jìn)行了25項任務(wù)的評估,發(fā)現(xiàn)除了4項任務(wù)外,F(xiàn)LAN在所有任務(wù)上都比零射擊提示有所改善。我們發(fā)現(xiàn),在 25 個任務(wù)中的 20 個任務(wù)中,我們的結(jié)果比零次 GPT-3 更好,在某些任務(wù)中甚至比少量 GPT-3 更好。
我們還發(fā)現(xiàn),模型規(guī)模對于模型從指令調(diào)優(yōu)中受益的能力非常重要。在較小的尺度上,F(xiàn)LAN技術(shù)實際上會降低性能,只有在較大的尺度上,模型才能夠從訓(xùn)練數(shù)據(jù)中的指令推廣到看不見的任務(wù)。這可能是因為太小的模型沒有足夠的參數(shù)來執(zhí)行大量任務(wù)。
FLAN模型不是第一個在一組指令上進(jìn)行訓(xùn)練的模型,但據(jù)我們所知,我們是第一個大規(guī)模應(yīng)用該技術(shù)并表明它可以提高模型的泛化能力的模型。我們希望我們提出的方法將有助于激發(fā)對模型的更多研究,這些模型可以執(zhí)行看不見的任務(wù),并從很少的數(shù)據(jù)中學(xué)習(xí)。
我們還發(fā)布了執(zhí)行轉(zhuǎn)換的代碼,以便其他研究人員可以重現(xiàn)我們的結(jié)果并在此基礎(chǔ)上進(jìn)行構(gòu)建。
聯(lián)系客服