Jacob Steinhardt,加州伯克利分校助理教授加州伯克利分校助理教授 Jacob Steinhardt 以“大型語言模型中的真實與解釋”為議題進(jìn)行了演講,共分為兩部分,一個是關(guān)注如何使大模型提供真實的輸出,使自然語言處理模型給出真實而非可能的答案;另一部分是討論模型能夠在多大程度上協(xié)助人類理解模型輸出。1. 使自然語言處理模型真實(Making NLP Models Truthful)語言模型的訓(xùn)練目標(biāo)往往是最大化模型在訓(xùn)練數(shù)據(jù)上的似然概率,因此,模型其本身只是產(chǎn)生可能的輸出,而非真實的輸出。為了彌補這種偏差,我們需要讓語言模型給出真實的而非可能的答案,橫陳在其中的基本問題是,模型會模仿其語境進(jìn)行回答,如果語境內(nèi)容是不真實的,給出的答案同樣會效仿這種虛假的風(fēng)格。定性分析,來看一個非常簡單形象的實例,將下面的每個對象歸入其對應(yīng)的類別。如果你給模型很多不正確的例子作為上下文,例如將熊貓、大象稱之為運動,模型會相應(yīng)誤把獅子歸類為運動。定量分析,GPT-2模型的輸出會隨著上下文樣例的增多而逐漸去模仿其語境內(nèi)容。當(dāng)模型選擇去重復(fù)人類偏見和誤解的時候,語言模型真實性、偏見和毒性等社會風(fēng)險亟待AI社區(qū)著手解決。模型的輸出可能與真相不符,一個有效的解決方案是查看模型的潛在表征,根據(jù)語言模型的隱藏狀態(tài),無需任何人工監(jiān)督就可以將示例分類為真或假。基于闡述AI的潛在知識(Eliciting Latent Knowledge),Jacob Steinhardt教授提出了兩種方法:- 對比一致搜索方法(Contrast-Consistent Search, CCS)
對比一致搜索方法 (Contrast-Consistent Search, CCS),讓模型直接利用未標(biāo)記激活去準(zhǔn)確地將文本分類為真或假,該方案可以抵御誤導(dǎo)性提示,為我們提供了一個可靠的追尋真相的潛在方向[1]。語言模型有一個有趣的現(xiàn)象,對于誤導(dǎo)性提示,如果強制在早期層“停止”,模型會更加真實?!發(fā)ogits lens”方法即讓模型運行前向傳播到第L層,然后將模型的其余部分歸零,讓模型提早退出[2],從而使得語言模型產(chǎn)生真實的而不僅是可能性高的答案。語言模型可以幫助人類完成原本無法處理的任務(wù),這里,Jacob Steinhardt教授聚焦于特定的任務(wù),即分析和解釋自然語言的分布偏移,窺視復(fù)雜的數(shù)據(jù)集中微妙的數(shù)據(jù)變化及其背后的驅(qū)動力。不同于手動操作,通過語言模型讀取這些數(shù)據(jù)集并向我們解釋數(shù)據(jù)集的分布偏移[3]。兩種文本分布??1、??2有何不同?人類回答這個問題的速度很慢,因為發(fā)現(xiàn)模式可能需要乏味地閱讀數(shù)百個樣本,Jacob Steinhardt通過語言模型得到的分布來自動總結(jié)這種差異進(jìn)而,語言模型可以用來描述數(shù)據(jù)分布偏移、檢測虛假線索,協(xié)助我們更深入地理解模型。機械可解釋性:逆向工程神經(jīng)網(wǎng)絡(luò)
Chris Olah, Anthropic 聯(lián)合創(chuàng)始人面對神經(jīng)網(wǎng)絡(luò)的“黑箱”,人類對其內(nèi)部的運作方式難以理解并解釋,Anthropic 聯(lián)合創(chuàng)始人 Chris Olah 將神經(jīng)網(wǎng)絡(luò)和電腦程序進(jìn)行類比,試圖像軟件逆向工程一樣,將神經(jīng)網(wǎng)絡(luò)模型逆向工程為人類可理解的計算機程序。Chris Olah 針對卷積神經(jīng)網(wǎng)絡(luò)和Transformer神經(jīng)網(wǎng)絡(luò)兩個具體案例,對模型架構(gòu)的各組件進(jìn)行拆解,逆向分析并對模型的作用機理進(jìn)行了機械可解釋性(mechanistic interpretability)的解讀和說明。
將神經(jīng)網(wǎng)絡(luò)和電腦程序進(jìn)行類比,我們可以對神經(jīng)網(wǎng)絡(luò)進(jìn)行逆向工程的方法探究其底層邏輯1. 卷積神經(jīng)網(wǎng)絡(luò)機械可解釋性[4]
機械可解釋性基本單位包括三部分:特征、權(quán)重和通路(將由一堆神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò)類比成邏輯門組成的通路,建立并識別特定神經(jīng)元和可理解的特征之間的關(guān)聯(lián))?;谶@三點,Chris Olah 揭示了卷積神經(jīng)網(wǎng)絡(luò)大量有趣的概念。首先,InceptionV1網(wǎng)絡(luò)中大量的神經(jīng)元似乎對人類可理解的概念有反應(yīng),通過不同方式的測試曲線檢測神經(jīng)元,結(jié)果可以如我們猜想的那樣發(fā)揮作用。更進(jìn)一步,如果將權(quán)重置于語境之中,就可以揭示其豐富的結(jié)構(gòu),例如,通過語境,卷積權(quán)重可以顯示頭部檢測器如何連接到身體上。此外,Chris Olah 發(fā)現(xiàn)模型有許多“多義神經(jīng)元”會被多個不相關(guān)的特征激發(fā),并稱之為疊加假設(shè)(The Superposition Hypothesis)。疊加假設(shè)一方面使得神經(jīng)網(wǎng)絡(luò)能夠通過使用神經(jīng)元的線性組合來表示比神經(jīng)元數(shù)量更多的特征,另一方面給機械可解釋性提出了巨大挑戰(zhàn),我們很難直接研究真實模型中的疊加。2. Transformer模型機械可解釋性[5]Transformer模型的明顯特征是殘差流和注意力頭,Chris Olah 簡化了其模型架構(gòu),剝離了所有網(wǎng)絡(luò)層并只剩下一層或兩層注意力頭,通過簡單但數(shù)學(xué)上等效的方式將Transformer操作概念化,得以解構(gòu)并理解復(fù)雜的Transformer模型。Chris Olah 發(fā)現(xiàn)了Transformer模型中有趣的歸納頭(Induction heads)現(xiàn)象,歸納頭會搜索某個標(biāo)記之前出現(xiàn)的地方,并查看緊接著其后的標(biāo)記是什么。歸納頭實際上非常重要,當(dāng)Transformer模型發(fā)現(xiàn)這種現(xiàn)象時,訓(xùn)練損失函數(shù)曲線上有一個明顯的凸起。最后,Chris Olah 對模型安全進(jìn)行了展望,正如在醫(yī)學(xué)領(lǐng)域已經(jīng)開發(fā)出篩查措施來發(fā)現(xiàn)尚未出現(xiàn)嚴(yán)重病癥的疾病、結(jié)構(gòu)工程師需要預(yù)測建筑能否在意外情況下保持穩(wěn)定,機械可解釋性在未來可能幫助我們在安全問題產(chǎn)生后果之前就采取預(yù)警措施。Samuel Bowman 紐約大學(xué)終身副教授紐約大學(xué)終身副教授Samuel Bowman在報告中指出,盡管大模型的最新進(jìn)展鼓舞人心,而面對技術(shù)可能造成的傷害,人們正在試圖采取行動,形成人工智能安全項目。1.1人工智能正在經(jīng)歷快速且混亂的發(fā)展人工智能正在經(jīng)歷快速,混亂、不可預(yù)測的發(fā)展。在語言技術(shù)發(fā)展過程中,多數(shù)在2018、2019年出現(xiàn)的重要基準(zhǔn)和研究目標(biāo),現(xiàn)已在近似于人類水平上得到解決。研究者通過對相關(guān)文獻(xiàn)的回顧,認(rèn)為對于被研究的大多數(shù)神經(jīng)網(wǎng)絡(luò),我們得到的是非??深A(yù)測的規(guī)模回報,如果相關(guān)機構(gòu)進(jìn)行了巨量的,更大的投資,通常模型性能會得到明顯的可衡量的改善。通過對一些大型的生成模型、神經(jīng)網(wǎng)絡(luò)模型、語言模型的考察,就會發(fā)現(xiàn), 隨著計算量,數(shù)據(jù)量的增長,訓(xùn)練后模型的性能也會按比例增長。這種增長跨越了很多數(shù)量級的差異。但這種現(xiàn)象不能適用于所有情況,模型性能的改進(jìn),會隨著模型規(guī)模的擴(kuò)大出現(xiàn)明顯的拐點,即實現(xiàn)涌現(xiàn)能力。研究者認(rèn)為在一些困難問題上取得進(jìn)展變得越來越偶然。這種發(fā)展讓局勢很難預(yù)測。公眾對語言技術(shù)的討論,并不總是能跟上實際的學(xué)術(shù)前沿。造成這種情況的一個重要原因是高校等地方的研究人員越來越難以獲得前沿的模型。那些有能力的研究人員常常被迫去研究那些非常古老或者不那么有效的技術(shù),僅僅因為最好的技術(shù)運行起來非常昂貴,或者無法觸達(dá)。這影響了很多高校也影響了像Meta一樣的公司。1.2 當(dāng)前的范式可以產(chǎn)生強大的人工智能Bowman認(rèn)為以現(xiàn)有的發(fā)展速度再發(fā)展十年或二十年是合理的。再用五年,十年或二十年增加對大型人工智能訓(xùn)練的投資,并繼續(xù)研究使人工智能訓(xùn)練更高效。研究者認(rèn)為,有三個棘手的論點需要澄清。第一,由強大人工智能產(chǎn)生的系統(tǒng)是否會在任何深層意義上類似于人類?第二,我們是否在所有領(lǐng)域(特別是運動/機器人)實現(xiàn)了人類的水平?第三,僅僅在語言使用,推理和計劃等一些關(guān)鍵方面實現(xiàn)類似人類的行為,就足以產(chǎn)生令人驚訝和非常重要的影響。通過Metaculus平臺的預(yù)測,在未來幾十年,人工智能將在多模態(tài)圖靈測試,醫(yī)生和律師的專業(yè)考試,以及機器人技術(shù)方面獲得長足進(jìn)展。1.3 強大的人工智能可能創(chuàng)造新的風(fēng)險當(dāng)人工智能變得強大到擁有類似人類的行為,可以進(jìn)行語言推理,足以影響人們的工作時,新的風(fēng)險也隨之產(chǎn)生。其中一種重要表現(xiàn)是,人工智能的權(quán)力追求,即人工智能系統(tǒng)以意想不到的方式追求目標(biāo),而不是其系統(tǒng)所有者或開發(fā)者的目標(biāo)。一個例子是當(dāng)人們利用人類反饋增強學(xué)習(xí)(RLHF)技術(shù)來對語言模型微調(diào)時,人們期望的結(jié)果是模型“盡量說事實”。但當(dāng)模型比它的監(jiān)督者擁有更淵博的知識時,潛在發(fā)生的風(fēng)險是“盡量說開發(fā)人員認(rèn)為的事實,無論這些話是否真實”。這類風(fēng)險可能在部署后才被注意到。2. 關(guān)于這些擔(dān)心,我們能做什么為了解決上述問題,我們基本有兩種選擇。第一,停止全世界的人工智能研究,令我們遠(yuǎn)離強大的人工智能;第二,確保那些強大的人工智能系統(tǒng)被負(fù)責(zé)任地建構(gòu)和部署。這兩種方法都很困難,但選擇二,看起來更現(xiàn)實,也更可取。一些研究從技術(shù)入手旨在提高強大人工智能系統(tǒng)的安全性,包括如下議程:可解釋性,我們?nèi)绾巫孕诺卮_定神經(jīng)網(wǎng)絡(luò)模型使用的高層次目標(biāo)和策略;基準(zhǔn)測試,這是在尋找衡量這個問題有多嚴(yán)重的方法;可擴(kuò)展監(jiān)督,尋找比我們能力更強,或知識更淵博但未對齊的人工智能系統(tǒng)提供可靠的獎勵或訓(xùn)練信號。讓系統(tǒng)真正按照我們的期望,可靠地被訓(xùn)練;闡釋潛在知識,開發(fā)一個基于激勵系統(tǒng)和大腦目標(biāo)的系統(tǒng),可以告訴我們所有它知道的與某些決策相關(guān)的事實。目前還沒有將這些因素結(jié)合到一起的完整策略以應(yīng)對人工智能安全問題。研究者認(rèn)為,很難證明一個人工智能系統(tǒng)的安全性。系統(tǒng)的安全性很可能需要將多種具有漏洞和缺陷的安全方法結(jié)合使用,最終使它們各自的缺點被抵消。3. 如何參與人工智能系統(tǒng)的安全性工作上述議程,涉及到理論/概念工作,數(shù)學(xué)工作,實驗(包括機器學(xué)習(xí)實驗和人類實驗),以及高級工程化。這些研究中最急需的是工程師的角色,最難以填補。Bowman認(rèn)為,人工智能的進(jìn)步非常不穩(wěn)定,而這項技術(shù)的一些風(fēng)險,最糟情況甚至危及人類文明存續(xù)。非正式估計顯示,這種風(fēng)險的可能性在小于1%或大于95%不等。而現(xiàn)在,AI安全,這一小而飛速發(fā)展的領(lǐng)域正在試圖解決這個問題。[1] Burns, Collin, et al. “Discovering Latent Knowledge in Language Models Without Supervision.” arXiv preprint arXiv:2212.03827 (2022).
[2] https://www.alignmentforum.org/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens
[3] Zhong, Ruiqi, et al. “Describing differences between text distributions with natural language.” International Conference on Machine Learning. PMLR, 2022.
[4] https://distill.pub/2020/circuits/
[5] https://transformer-circuits.pub/2021/framework/index.html#one-layer-attention-only-transformers
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。