大規(guī)模語言模型在自然語言處理方面展現(xiàn)出令人驚訝的推理能力,但其內(nèi)在機(jī)理尚不清晰。隨著大規(guī)模語言模型的廣泛應(yīng)用,闡明模型的運行機(jī)制對應(yīng)用安全性、性能局限性和可控的社會影響至關(guān)重要。近期,中美多家研究機(jī)構(gòu)(新澤西理工學(xué)院、約翰斯?霍普金斯大學(xué)、維克森林大學(xué)、佐治亞大學(xué)、上海交大、百度等)聯(lián)合發(fā)布了大模型可解釋性技術(shù)的綜述,分別對傳統(tǒng)的 fine-tuning 模型和基于 prompting 的超大模型的可解釋性技術(shù)進(jìn)行了全面的梳理,并探討了模型解釋的評估標(biāo)準(zhǔn)和未來的研究挑戰(zhàn)。- 論文鏈接:https://arxiv.org/abs/2309.01029
- Github 鏈接:https://github.com/hy-zhao23/Explainability-for-Large-Language-Models
為何解釋大模型有點難?大語言模型在自然語言處理任務(wù)上的驚艷表現(xiàn)引起了社會廣泛的關(guān)注。與此同時,如何解釋大模型在跨任務(wù)中令人驚艷的表現(xiàn)是學(xué)術(shù)界面臨的迫切挑戰(zhàn)之一。不同于傳統(tǒng)的機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)模型,超大的模型架構(gòu)和海量的學(xué)習(xí)資料使得大模型具備了強(qiáng)大的推理泛化能力。大語言模型 (LLMs) 提供可解釋性的幾個主要難點包括:- 模型復(fù)雜性高。區(qū)別于 LLM 時代之前的深度學(xué)習(xí)模型或者傳統(tǒng)的統(tǒng)計機(jī)器學(xué)習(xí)模型,LLMs 模型規(guī)模巨大,包含數(shù)十億個參數(shù),其內(nèi)部表示和推理過程非常復(fù)雜,很難針對其具體的輸出給出解釋。
- 數(shù)據(jù)依賴性強(qiáng)。LLMs 在訓(xùn)練過程中依賴大規(guī)模文本語料,這些訓(xùn)練數(shù)據(jù)中的偏見、錯誤等都可能影響模型,但很難完整判斷訓(xùn)練數(shù)據(jù)的質(zhì)量對模型的影響。
- 黑箱性質(zhì)。我們通常把 LLMs 看做黑箱模型,即使是對于開源的模型來說,比如 Llama-2。我們很難顯式地判斷它的內(nèi)部推理鏈和決策過程,只能根據(jù)輸入輸出進(jìn)行分析,這給可解釋性帶來困難。
- 輸出不確定性。LLMs 的輸出常常存在不確定性,對同一輸入可能產(chǎn)生不同輸出,這也增加了可解釋性的難度。
- 評估指標(biāo)不足。目前對話系統(tǒng)的自動評估指標(biāo)還不足以完整反映模型的可解釋性,需要更多考慮人類理解的評估指標(biāo)。
為了更好的歸納總結(jié)大模型的可解釋性,我們將 BERT 及以上級別的大模型的訓(xùn)練范式分為兩種:1)傳統(tǒng) fine-tuning 范式;2)基于 prompting 的范式。對于傳統(tǒng) fine-tuning 范式,首先在一個較大的未標(biāo)記的文本庫上預(yù)訓(xùn)練一個基礎(chǔ)語言模型,再通過來自特定領(lǐng)域的標(biāo)記數(shù)據(jù)集進(jìn)行 fine-tuning。常見的此類模型有 BERT, RoBERTa, ELECTRA, DeBERTa 等。基于 prompting 的范式通過使用 prompts 實現(xiàn) zero-shot 或者 few-shot learning。與傳統(tǒng) fine-tuning 范式相同,需要預(yù)訓(xùn)練基礎(chǔ)模型。但是,基于 prompting 范式的微調(diào)通常由 instruction tuning 和 reinforcement learning from human feedback (RLHF) 實現(xiàn)。常見的此類模型包括 GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna 等。其訓(xùn)練流程如下圖:基于傳統(tǒng) fine-tuning 范式的模型解釋基于傳統(tǒng) fine-tuning 范式的模型解釋包括對單個預(yù)測的解釋(局部解釋)和對模型結(jié)構(gòu)級別組分如神經(jīng)元,網(wǎng)絡(luò)層等的解釋(全局解釋)。局部解釋對單個樣本預(yù)測進(jìn)行解釋。其解釋方法包括特征歸因(feature attribution)、基于注意力機(jī)制的解釋(attention-based)、基于樣本的解釋(example-based)、基于自然語言的解釋(natural language explanation)。1. 特征歸因旨在衡量每個輸入特征(例如單詞、短語、文本范圍)與模型預(yù)測的相關(guān)性。特征歸因方法可以分類為:
基于擾動的解釋,通過修改其中特定的輸入特征觀察對輸出結(jié)果的影響;
基于梯度的解釋,將輸出對輸入的偏微分作為相應(yīng)輸入的重要性指標(biāo);
替代模型,使用簡單的人類可理解的模型去擬合復(fù)雜模型的單個輸出,從而獲取各輸入的重要性;
基于分解的技術(shù),旨在將特征相關(guān)性得分進(jìn)行線性分解。
2. 基于注意力的解釋:注意力通常被作為一種關(guān)注輸入中最相關(guān)部分的途徑,因此注意力可能學(xué)習(xí)到可以用于解釋預(yù)測的相關(guān)性信息。常見的注意力相關(guān)的解釋方法包括:- 注意力可視化技術(shù),直觀地觀察注意力分?jǐn)?shù)在不同尺度上的變化;
- 基于函數(shù)的解釋,如輸出對注意力的偏微分。然而,學(xué)術(shù)界對于將注意力作為一個研究角度依然充滿爭議。
3. 基于樣本的解釋從個例的角度對模型進(jìn)行探測和解釋,主要分為:對抗樣本和反事實樣本。- 對抗樣本是針對模型對微小變動非常敏感的特性而生成的數(shù)據(jù),自然語言處理中通常通過修改文本得到,人類難以區(qū)別的文本變換通常會導(dǎo)致模型產(chǎn)生不同的預(yù)測。
- 反事實樣本則是通過將文本進(jìn)行如否定的變形,通常也是對模型因果推斷能力的檢測。
4. 自然語言解釋使用原始文本和人工標(biāo)記的解釋進(jìn)行模型訓(xùn)練,使得模型可以生成自然語言解釋模型的決策過程。全局解釋旨在從模型構(gòu)成的層面包括如神經(jīng)元,隱藏層和更大的組塊,為大模型的工作機(jī)制提供更高階的解釋。主要探究在不同網(wǎng)絡(luò)構(gòu)成部分學(xué)習(xí)到的語義知識。- 基于探針的解釋 探針解釋技術(shù)主要基于分類器進(jìn)行探測,通過在預(yù)訓(xùn)練模型或者微調(diào)模型上訓(xùn)練一個淺層分類器,然后在一個 holdout 數(shù)據(jù)集上進(jìn)行評估,使得分類器能夠識別語言特征或推理能力。
- 神經(jīng)元激活 傳統(tǒng)神經(jīng)元激活分析只考慮一部分重要的神經(jīng)元,再學(xué)習(xí)神經(jīng)元與語義特性之間的關(guān)系。近來,GPT-4 也被用于解釋神經(jīng)元,不同于選取部分神經(jīng)元進(jìn)行解釋,GPT-4 可以用于解釋所有的神經(jīng)元。
- 基于概念的解釋 將輸入先映射到一組概念中,再通過測量概念對預(yù)測的重要性來對模型進(jìn)行解釋。
基于 prompting 范式的模型解釋,需要對基礎(chǔ)模型和助手模型分別解釋以區(qū)別兩種模型的能力,并探究模型學(xué)習(xí)的路徑。其探究的問題主要包括:為模型提供解釋對 few-shot learning 的益處;理解 few-shot learning 和思維鏈能力的來源。- 解釋對模型學(xué)習(xí)的好處 探究在 few-shot learning 的情況下解釋是否對模型學(xué)習(xí)有幫助。
- 情境學(xué)習(xí) 探究情境學(xué)習(xí)在大模型中的作用機(jī)制,以及區(qū)分情境學(xué)習(xí)在大模型中和中等模型中的區(qū)別。
- 思維鏈 prompting 探究思維鏈 prompting 提高模型的表現(xiàn)的原因。
- Fine-tuning 的角色 助手模型通常先經(jīng)過預(yù)訓(xùn)練獲得通用語義知識,在通過監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)獲取領(lǐng)域內(nèi)知識。而助手模型的知識主要來源于哪個階段依然有待研究。
- 幻覺與不確定性 大模型預(yù)測的準(zhǔn)確性和可信度依然是目前研究的重要課題。盡管大模型的推理能力強(qiáng)大,但其結(jié)果常常出現(xiàn)錯誤信息和幻覺。這種預(yù)測的不確定性為其廣泛應(yīng)用帶來了巨大的挑戰(zhàn)。
模型解釋的評估指標(biāo)包含合理性 (plausibility),忠實度 (faithfulness),穩(wěn)定性 (stability),魯棒性 (robustness) 等。論文主要講述了兩個被廣泛關(guān)注的圍度:1)對人類的合理性;2)對模型內(nèi)在邏輯的忠實度。對傳統(tǒng) fine-tuning 模型解釋的評估主要集中在局部解釋上。合理性通常需要將模型解釋與人工標(biāo)注的解釋按照設(shè)計的標(biāo)準(zhǔn)進(jìn)行測量評估。而忠實性更注重量化指標(biāo)的表現(xiàn),由于不同的指標(biāo)關(guān)注模型或數(shù)據(jù)的方面不同,對于忠實性的度量依然缺乏統(tǒng)一的標(biāo)準(zhǔn)。基于 prompting 模型解釋的評估則有待進(jìn)一步的研究。1. 缺乏有效的正確解釋。其挑戰(zhàn)來源于兩個方面:1)缺乏設(shè)計有效解釋的標(biāo)準(zhǔn);2)有效解釋的缺乏導(dǎo)致對解釋的評估同樣缺乏支撐。2. 涌現(xiàn)現(xiàn)象的根源未知。對大模型涌現(xiàn)能力的探究可以分別從模型和數(shù)據(jù)的角度進(jìn)行,從模型的角度,1)引起涌現(xiàn)現(xiàn)象的模型結(jié)構(gòu);2)具備跨語言任務(wù)超強(qiáng)表現(xiàn)的最小模型尺度和復(fù)雜度。從數(shù)據(jù)的角度,1)決定特定預(yù)測的數(shù)據(jù)子集;2)涌現(xiàn)能力與模型訓(xùn)練和數(shù)據(jù)污染的關(guān)系;3)訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量對預(yù)訓(xùn)練和微調(diào)各自的影響。3. Fine-tuning 范式與 prompting 范式的區(qū)別。兩者在 in-distribution 和 out-of-distribution 的不同表現(xiàn)意味著不同的推理方式。1)在數(shù)據(jù)同分布(in-distribution)之下,其推理范式的不同之處;2)在數(shù)據(jù)不同分布的情況下,模型魯棒性的差異根源。4. 大模型的捷徑學(xué)習(xí)問題。兩種范式之下,模型的捷徑學(xué)習(xí)問題存在于不同的方面。盡管大模型由于數(shù)據(jù)來源豐富,捷徑學(xué)習(xí)的問題相對緩和。闡明捷徑學(xué)習(xí)形成的機(jī)理并提出解決辦法對模型的泛化依然重要。5. 注意力冗余。注意力模塊的冗余問題在兩種范式之中廣泛存在,對注意力冗余的研究可以為模型壓縮技術(shù)提供一種解決方式。6. 安全性和道德性。大模型的可解釋性對控制模型并限制模型的負(fù)面影響至關(guān)重要。如偏差、不公平、信息污染、社會操控等問題。建立可解釋的 AI 模型可以有效地避免上述問題,并形成符合道德規(guī)范的人工智能系統(tǒng)。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。