近期喬老爺子在紐約時報觀點欄目再次談了自己對ChatGPT的看法,然后就是一石激起千層浪,各方專家都表達了自己的不同意見,這包括普林斯頓大學Goldberg教授,然后UC Berkeley 的Steven T. Piantadosi 博士寫了一篇專門批駁的文章,文章信息量很大,很精彩,甚至可以說有點燒腦,作者的批判主要集中在以下方面:1. 現(xiàn)代語言模型的崛起和成功削弱了生成語法學提出的關于語言天賦性的強烈主張。2. 現(xiàn)代機器學習已經(jīng)顛覆并繞過了喬姆斯基方法的整個理論框架,包括其對特定洞見、原則、結構和過程的核心主張。3. 現(xiàn)代語言模型實現(xiàn)了真正的語言理論,包括句法和語義結構的表征。4. 生成語法方法在任何領域都不具有競爭力,并且可以說已經(jīng)避免了對其核心假設進行實證測試。那么這個文章具體是怎么展開的呢?下面小編分享一下文章中的精彩片段:
Modern language models refute Chomsky’s approach to language
諾姆-喬姆斯基在語言學領域享有幾十年的特權和顯赫地位后,他的語言科學研究路徑或許開始過時了。這個故事在某種程度上是一個關于當一個學術領域將自己與本應是互補的努力隔離開來時會發(fā)生什么的警示故事。喬姆斯基的方法和手段經(jīng)常被認為是有問題的,但人們還沒有廣泛認識到其基本思想是如何被最近的計算科學進展所破壞的。幾乎所有計算語言任務的技術水平都利用了深度神經(jīng)網(wǎng)絡(LeCun etal.,2015),通常是被稱為轉化器的神經(jīng)網(wǎng)絡(Vaswani etal.,2017;Brown etal.,2020;Bommasani etal.,2021)。這些是文本的模型,在基于互聯(lián)網(wǎng)的巨大數(shù)據(jù)集上進行訓練,以預測即將到來的語言材料(通常是在子詞但超字符的編碼)。有幾項進展使這些模型獲得了巨大的成功。首先,我們已經(jīng)能夠在大規(guī)模的數(shù)據(jù)集上訓練它們。這部分是由于計算的進步(例如計算任意模型的導數(shù)),部分是由于從互聯(lián)網(wǎng)上獲得了大量的文本集。一個典型的語言模型可能要在數(shù)千億的標記上進行訓練,估計僅能源就需要花費數(shù)百萬美元。其次,該模型的架構可以靈活地處理非本地的依賴關系,并允許對一個詞的預測有可能依賴于遠處的材料。關鍵的結果是,領先的模型不僅能夠生成語法句子,而且能夠生成整個話語、腳本、解釋、詩歌等。近年來,這一追求被人工智能公司所引領(Ahmed etal.,2023)。這些工具不僅令人印象深刻,而且在哲學上也很重要。它們之所以重要,是因為它們成功地遵循了一種非常特殊的方法:它們只對文本預測進行訓練。這意味著這些模型對文本中的下一個詞形成了概率性的預期,并且它們使用真實的下一個詞作為錯誤信號來更新它們的潛在參數(shù)。這個想法至少可以追溯到1990年的Elman,他展示了在文本預測上訓練一個神經(jīng)網(wǎng)絡如何能夠導致它發(fā)現(xiàn)潛在語言系統(tǒng)的關鍵部分。現(xiàn)代模型是埃爾曼想法的一個顯著的科學勝利。但是,雖然現(xiàn)代模型繼承了他的一般設置,但進步卻增加了一些關鍵的差異。最重要的可能是,現(xiàn)代模型包括一個注意力機制,允許從過去的某個時間段預測下一個詞的順序。例如,在上面的螞蟻故事中,當它說 '其他螞蟻對亞歷克斯的......感到震驚和驚奇 '時,它從之前的幾十個詞中檢索出 '亞歷克斯 '這個名字。這可能是大型語言模型區(qū)別于早期最流行的模型的關鍵屬性。例如,一個n-gram模型會估計并使用一個只取決于前面幾個詞的條件概率(例如??=2、3、4、5);無語境語法做出獨立假設,使詞條不影響那些遠處的詞。大型語言模型不僅允許這種長距離的影響,而且允許它們采取相對不受約束的形式,因此能夠誘導出一些函數(shù),這些函數(shù)顯然在語境中的單詞預測方面做得非常出色。這些模型的第二個關鍵特征是,它們整合了語義和語法。這些模型中的詞的內(nèi)部表示被儲存在一個矢量空間中,這些詞的位置不僅包括意義的某些方面,還包括決定詞如何按順序出現(xiàn)的屬性(如語法)。對于語境和詞義如何預測即將到來的材料,有一個相當統(tǒng)一的界面--語法和語義在模型中沒有被分離成區(qū)分的組成部分,也沒有被分離成獨立的預測機制。正因為如此,這些模型找到的網(wǎng)絡參數(shù)將句法和語義屬性融合在一起,兩者以非微妙的方式相互作用,并與注意力機制相互作用。這并不意味著模型不能區(qū)分句法和語義,或者例如不考慮語義而反映句法結構(見下面的例子),但它確實意味著這兩者可以相互啟發(fā)。模型的一個相關方面是,它們具有數(shù)十億到數(shù)萬億參數(shù)的巨大記憶容量。這使它們能夠記憶語言的特異性,這樣它們就繼承了語言學家強調(diào)結構的重要性的傳統(tǒng)(Goldberg 1995, Jackendoff 2013, Goldberg 2006, 2003, Tomasello 2000, McCauley & Christiansen 2019, Tomasello 2005, Edelman & Waterfall 2007)(關于大型語言模型的結構語法分析,見Weissweiler等人2023)。對于像這樣的大規(guī)模過度參數(shù)化的模型是如何工作的,我們應該有一個很好的心理暗示,即它們有豐富的潛在空間來推斷隱藏的變量和關系。隱性(或潛在)變量一直是計算理論和非正式理論都試圖捕捉的語言的關鍵方面之一(Pereira 2000, Linzen & Baroni 2021)。在一個句子的中間,有一個關于句子的潛在結構的隱性變量;在說一個模棱兩可的詞時,我們心中有一個關于我們打算表達什么意思的隱性變量;在整個話語中,我們心中有一個更大的故事弧線,它只在多個句子中展開。語言學的形式主義也試圖描述這些隱藏的變量。但大型語言模型所做的是推斷可能的隱藏結構,因為這種結構允許他們更好地預測即將到來的材料。這使得它們在概念上類似于數(shù)學中的嵌入定理(Packard etal.,1980;Takens,1981;Ye & Sugihara,2016),這些定理表明,有時一個動態(tài)系統(tǒng)的完整幾何結構可以從其狀態(tài)的低維投影中恢復到時間上的演變。語料庫是句法和思維的低維投影,因此,智能學習系統(tǒng)至少可以從觀看文本中恢復這些認知系統(tǒng)的某些方面,這并不是不可信的(Piantadosi & Hill 2022)。在詳細的分析中可以看到大型語言模型中存在的結構,隨著模型在訓練后生成文本,其內(nèi)部狀態(tài)代表了句法結構和語義的潛在方面(Manning et al. 2020, Futrell et al. 2019, Linzen & Baroni 2021, Pavlick 2022)。訓練后的模型內(nèi)部表征狀態(tài)和注意模式的結構來捕捉樹狀結構,與人類注釋的解析樹有很強的相似性(Manning等人,2020),一個模型的樹狀結構的程度甚至可以預測它的泛化性能(Murty等人,2022)。這些模型似乎在涉及追蹤正確的潛在狀態(tài)的結構上表現(xiàn)良好,比如功能詞(Kim等人,2019年)和填空式依賴(Wilcox等人,2018年)。事實上,一些模型的內(nèi)部處理結構似乎自發(fā)地形成了一個代表語篇的直觀管道,然后是解析、語義分析等(Tenney, Das, et al. 2019, Liu et al. 2019)。所有這些都是可能的,因為大型語言模型發(fā)展了對關鍵結構和依賴關系的表征,只是這些表征是以語言學不熟悉的方式進行參數(shù)化。有趣的一點是,現(xiàn)代語言模型是如何整合不同的語言計算方法的,不是通過直接編碼,而是通過允許它們從內(nèi)置的架構原則中出現(xiàn)(曼寧等人 2020)(埃爾曼等人 1996)。例如,這些模型似乎有層次結構(Manning et al. 2020)和遞歸的表征,在這個意義上,它們知道例如嵌入句子和相對句。它們幾乎肯定也有約束的類似物,在諧音(Smolensky & Legendre 2006, Prince & Smolensky 1997)和模型理論語法(Pullum 2007, 2013)等方法中很流行。這些模型可能包括硬約束(如詞序)和可違反的、概率性的約束(Rumelhart & McClelland 1986)。他們肯定會記住一些結構(Goldberg 1995, Jackendoff 2013, Goldberg 2006, 2003, Tomasello 2000, Edelman & Waterfall 2007)。所有這些都會在參數(shù)中實現(xiàn),以達到很好地預測文本的總體目標。
語言科學領域的許多人認為這種模型至少在某種程度上與未來有關(Bommasan etal.2021,Baroni 2022,Pater 2019)。畢竟,它們是現(xiàn)有的唯一能很好地捕捉人類語言基本動態(tài)的模型。然而,由于是神經(jīng)網(wǎng)絡,它們--至少是初始狀態(tài)--完全不同于主導語言生成方法的規(guī)則和原則。如上所述,它們的參數(shù)來體現(xiàn)語言的理論,包括通過一個句子和一個話語來表示潛在的狀態(tài)。在其他科學中,如颶風或大流行病的建模,也有完全相同的調(diào)整參數(shù)以正式化然后比較理論的邏輯:任何一組假設都會產(chǎn)生預測的分布,而假設的調(diào)整是為了做出可能的最佳預測。通過這種方式,學習機制在理論空間中配置模型本身,以滿足期望的目標函數(shù)。對于颶風或大流行病,這是科學所能達到的嚴格程度;對于單詞序列,每個人似乎都失去了理智。例如,在與Gary Marcus討論GPT-3時, Chomsky最積極的說法是,它有 '模仿數(shù)據(jù)中的一些規(guī)律性的能力',然后很快說:'事實上,它唯一的成就是用掉了加州的大量能源 '。在另一次采訪中,他總結說,在我們對語言的理解方面,這些模型 '取得了零的成就'。喬姆斯基等人2023年將這些模型描述為 '在一些狹窄的領域 '是有用的,但受到 '不可消除的缺陷 '的阻礙,使它們 '與人類推理和使用語言的方式有深刻的區(qū)別'。正如網(wǎng)上迅速指出的那樣,他們提出的幾個例子--如用反事實進行推理或理解 '約翰太固執(zhí)了,不能和他說話 '的句子--目前的模型實際上是正確的。喬姆斯基等人2023年的研究傾向于這些模型的想象版本,而忽略了真正的模型如此恰當?shù)夭蹲搅司浞ㄟ@一事實,喬姆斯基和其他人一直聲稱這一成功是不可能的。這種批評是對他(和其他人)關于語言學習的評論的一種熟悉的重新表述--基本上,我們不應該研究一個不受約束的系統(tǒng),因為它不能解釋為什么語言有它們的特定形式。但是,把現(xiàn)代語言模型否定為 '什么都可以',這種說法太粗糙了。原因是并非所有的 '任意 '模型都是等同的。眾所周知,一個三層的神經(jīng)網(wǎng)絡能夠接近任何可計算的函數(shù)(Siegelmann & Sontag 1995)。這也是一個 '無所不能 '的模型。但是三層網(wǎng)絡在這種文本預測上不會有好的效果。事實上,即使是一些早期的神經(jīng)網(wǎng)絡模型,LSTM也沒有做得那么好(Futrell etal.,2019,Marvin & Linzen 2018,Hu etal,2020);架構一般在捕捉字符串模式的計算類方面有所不同(例如Delétang etal.,2022)。原則上同樣強大的模型表現(xiàn)不同,這就賦予了我們科學的杠桿作用。特別是,我們可以把每個模型或一組建模假設看作是關于心靈如何工作的可能假設。測試一個模型與人類行為的匹配程度,就可以對該模型的假設進行科學測試。例如,該領域就是這樣發(fā)現(xiàn)注意力機制對表現(xiàn)良好很重要。同樣,'消減 '實驗允許研究人員改變網(wǎng)絡的一個部分,并利用不同的性能來確定什么原則支持特定的行為(見Warstadt & Bowman 2022)。即使像所有的科學理論一樣,我們發(fā)現(xiàn)它們在機制或表征方面如何與人不匹配,它們?nèi)匀皇怯行畔⒌?。聽從喬?博克斯的建議,'所有的模型都是錯的,有些是有用的',我們可以思考這些模型的科學優(yōu)勢、貢獻和弱點,而不需要完全接受或否定它們。事實上,這些模型已經(jīng)做出了實質性的科學貢獻,幫助劃定了通過這種假設測試的可能性。是否有可能在沒有內(nèi)置等級制度的情況下發(fā)現(xiàn)它?詞的預測能否提供足夠的學習信號來獲得大部分的語法?一個計算架構能否在沒有運動的情況下實現(xiàn)對WH-問題的能力,或者在沒有先天約束原則的情況下使用代詞?最近的語言模型顯示,所有這些問題的答案都是 '是'。大型語言模型的成功是生成理論的失敗,因為它幾乎違背了這些理論所推崇的所有原則。事實上,喬姆斯基和那些在他的傳統(tǒng)中工作的人長期以來聲稱必要的原則和先天偏見都不需要建立在這些模型中(例如綁定原則、二元分支、島嶼約束、空類別原則等)。此外,這些模型的建立沒有納入喬姆斯基的任何關鍵方法論主張,比如確保模型正確考慮能力與表現(xiàn),尊重 '最小化 '或 '完美',并避免依賴未經(jīng)分析的數(shù)據(jù)的統(tǒng)計模式。喬姆斯基和其他人長期以來一直強調(diào)將句法研究作為一個獨立的實體,不僅與認知的其他部分,而且與語言的其他部分(例如,見喬姆斯基1957年,克羅夫特1995年,紐梅爾1991年,Adger 2018年)。這種方法中的句法不應該被還原為詞與詞之間的一般統(tǒng)計數(shù)字11--恰恰是大型語言模型現(xiàn)在提供的東西。現(xiàn)代大型語言模型在基礎表征中整合了語法和語義:將單詞編碼為高維空間中的向量,而沒有努力將例如語篇類別與語義表征分開,甚至沒有在字面以外的任何分析層面進行預測。使這些模型運行良好的部分原因在于確定如何將語義屬性編碼到向量中,事實上,通過Mikolov等人2013年(Radford等人2019年)的分布語義的編碼來初始化單詞向量。因此,做預測句法材料的模型不需要假設句法的自主性,而且很可能妨礙它。我們可以用colorless green ideas sentence(見Gulordava etal.,2018)來試試,它通常被作為語法功能與語義分開的例子(而且過渡性概率統(tǒng)計是不夠的),但這仍然是一個有趣的例子,部分原因是ChatGPT不僅可以學習相關的統(tǒng)計數(shù)據(jù),而且可以創(chuàng)造--在這種情況下,肯定主要是反芻--對這句話為什么有趣的解釋。這個模型成功地得到了 '這個'(一個句子)的所指。該模型解決了 '像這樣 '中的歧義,指的是句子的結構--這正是統(tǒng)計模型不應該知道的東西!它在句子中產(chǎn)生了一些但不完全是低頻的大詞。它在句子中生成了一些但不完全是低頻的大詞。我們可以注意到一個弱點,即它不太容易產(chǎn)生完全無意義的句子('黑色閃亮的袋鼠 '很罕見,但并非不可能),可能是因為無意義的語言在訓練數(shù)據(jù)中很罕見。這些結果說明,即使是整合了句法和語義的模型也能夠在適當?shù)臅r候進行句法概括。語法在基礎機制或模型的分析中不需要是自主的,以顯示這種行為。第二點是,對于這些模型來說,概率和信息理論是核心。喬姆斯基長期以來一直對概率不屑一顧,他說 '必須認識到,在對這個術語的任何已知解釋下,'一個句子的概率'的概念是一個完全無用的概念'(喬姆斯基1969),他幾十年來一直堅持這一立場(諾維格2012)。12 通常,當那些在喬姆斯基傳統(tǒng)下工作的人談到概率模型時,他們指的是簡單的東西,比如Shannon 1948的??-gram模型,該模型計算了連續(xù)的單詞共現(xiàn),并長期用于自然語言處理任務(Chen & Goodman 1999, Manning & Schutze 1999)。但到現(xiàn)在,這樣的模型已經(jīng)過時了幾十年。較新的模型使用概率來推斷整個生成過程和結構,這是一個常見的認知任務和建模領域概率是模型的核心,因為概率預測本質上提供了一個錯誤信號,可以用來調(diào)整本身編碼結構和生成過程的參數(shù)。一個比喻是,人們可以想象觀察一個司機,并從觀察中推斷出相關的結構和動態(tài)--道路的規(guī)則(你在哪一邊開車)、慣例(多輛車在停車標志前的行為)、軟硬約束(不要轉得太猛),等等。即使像這樣一個簡單的領域也面臨著許多在語言中看到的不確定的問題,但它是一個很容易想象一個熟練的科學家或人類學家通過分析大量的數(shù)據(jù)發(fā)現(xiàn)關鍵因素的領域。在機器學習中也有類似的情況,可能的規(guī)則空間被隱含地編碼為模型的參數(shù)(見上文)。值得注意的是,出于數(shù)字穩(wěn)定性的考慮,大多數(shù)處理概率的模型實際上是用概率的對數(shù)工作的。以對數(shù)概率工作的模型實際上是在描述長度方面工作(Shannon 1948, Cover 1999):尋找使數(shù)據(jù)最可能的參數(shù)(最大化概率)與尋找給數(shù)據(jù)一個簡短描述的參數(shù)(最小化描述長度或復雜性)是一樣的。因此,最佳參數(shù)相當于科學理論,在描述長度的確切意義上,它能很好地壓縮經(jīng)驗數(shù)據(jù)。概率遠非 '完全無用',它是允許人們實際量化諸如復雜性和最小化的措施。預測是概率性的這一事實是有用的,因為它意味著基礎表征是連續(xù)的和梯度的。與生成語言學典型的離散規(guī)則和過程的形式化工作不同(例如Chomsky 1956, 1995, Collins & Stabler 2016, Chomsky 1957, Pinker & Prince 1988),現(xiàn)代語言模型不使用(至少是明確的)規(guī)則和原則--它們基于一個連續(xù)的計算,允許多種影響因素對即將到來的語言項目產(chǎn)生梯度影響。這種方法的基礎是由Rumelhart & McClelland 1986等早期建模者奠定的,他們在幾十年前就論證了今天架構的關鍵特征,包括 '認知過程被看作是分級的、概率的、互動的、對環(huán)境敏感的和領域通用的'。(McClelland & Patterson 2002)。也許最值得注意的是,盡管現(xiàn)代語言模型的學習底層架構相對不受約束,但它們還是成功了。這是語言統(tǒng)計學習理論的一個明顯勝利(見(Contreras Kallens等人,2023))。這些模型能夠擬合大量可能的模式,雖然其架構的原則確實制約了它們,使一些模式比其他模式更容易,但所產(chǎn)生的系統(tǒng)是令人難以置信的靈活。盡管缺乏這種約束,該模型還是能夠弄清語言的大部分運作方式。人們不應忽視 '刺激的貧困 '論點長期以來對生成語言學家所起的作用。接下來,在一個重要的意義上,大型語言模型不是最小的表征,而是最大的。我的意思是,沒有一個核心的表征或結構的小塊(如合并)導致這些模型的成功。任何反對派生復雜性的偏見也不可能發(fā)揮關鍵作用,因為一切都只是一個大的矩陣計算。而且,這種計算在結構上并不是極簡主義語言學所指的最小或 '完美 '的(例如Lasnik 2002)。相反,大型語言模型的注意機制對任意遙遠的材料進行調(diào)節(jié),也許甚至沒有結構上的關聯(lián),因為這就是它們在句子之間建立話語模型的方式。一個依賴于人們記憶無數(shù)語言塊的能力的語法理論,改變了我們應該如何思考推導的格局;如上所述,基于概率的模型為語法中的復雜性概念提供了正式的立足點。深度學習實際上也改變了人們對統(tǒng)計學習中復雜性的看法。長期以來,人們觀察到,在一個模型中擁有太多的參數(shù)會阻止該模型很好地泛化:太多的參數(shù)允許一個模型在噪聲中適應模式,這可能導致它推斷得很差。深度學習顛覆了這一觀點,它表明一些模型會擬合(記憶)隨機數(shù)據(jù)集(Zhang等人,2021年),這意味著它們可以擬合數(shù)據(jù)中的所有模式(包括噪聲),并且泛化效果很好。記憶和泛化之間的關系仍然沒有得到很好的理解,但其中一個核心含義是,統(tǒng)計學習模型有時可以很好地工作,即使是在過度參數(shù)化的情況下。有兩個錯誤的做法很容易被發(fā)現(xiàn)。首先,即使一個模型有十億個參數(shù),它們一般也不會是獨立的。這意味著一個數(shù)據(jù)點可以設置或移動數(shù)千或數(shù)百萬或數(shù)十億的參數(shù)。例如,觀察一個帶有SVO順序的句子可能會增加(可能是數(shù)百萬個)將S放在V之前的參數(shù),并減少(可能是數(shù)百萬個)將S放在V之后的參數(shù)。其次,這些模型或學習者往往不需要精確地確定一個答案。一個叫做彩票假說的猜想認為,深度學習模型的行為往往是由其相對較少的神經(jīng)元決定的(Frankle & Carbin 2018)。因此,大量的參數(shù)并不是因為它們都需要被精確地設置為某個值。相反,擁有許多自由度可能有助于這些模型的良好學習,因為它給了模型可以移動的方向,以避免陷入困境。這可能就像如果你能把棋子拿起來放下去(在第三維度上移動它們),而不是僅僅在桌子上滑動它們,就會更容易解決一個拼圖。更多的自由度可以幫助學習。最后,這些模型從他們的訓練中發(fā)現(xiàn)了結構--包括層次結構。這些模型當然可以學習基于線性結構而不是層次結構的規(guī)則,但數(shù)據(jù)強烈地引導它們走向層次結構的泛化。這種發(fā)現(xiàn)層次結構而不是建立層次結構的能力是認知心理學家長期強調(diào)的,例如通過聚類誘導句法類別的工作,他們表明應用于兒童定向語音的貝葉斯模型比較可以識別出一個無語境(層次)的語法,而不是替代品。最近的模型建立在早期將分層過程編碼到神經(jīng)網(wǎng)絡的努力之上。我們熟悉的aux-inversion的例子是為了說明兒童必須擁有層次化的語法。作為一個簡單的實驗,我們也可以要求這些模型來形成一些問題。例如,我們熟悉的aux-inversion。在喬姆斯基看來,人類的語言與人類的思想有著深刻的內(nèi)在聯(lián)系。喬姆斯基2002年將語言描述為 '一個表達思想的系統(tǒng)',事實上,這個系統(tǒng)主要用于自言自語。有趣的是,他沒有借鑒關于內(nèi)心獨白的文獻,這些文獻顯示了個體之間的巨大差異,有些人幾乎完全沒有描述內(nèi)部語言的使用(例如Reed 1916,Heavey & Hurlburt 2008,Roebuck & Lupyan 2020)。不過,喬姆斯基的觀點也許因以下論點而更加可信:思想本身具有許多語言的屬性,即一種類似于語言的組成結構(Fodor 1975, Fodor & Pylyshyn 1988, Goodman et al. 2014, Piantadosi & Jacobs 2016, Quilty-Dunn et al. 2022)。喬姆斯基經(jīng)常將他的語言內(nèi)在思維觀點與語言主要是為支持交流而結構化的觀點進行對比(如Hockett 1959, Bates & MacWhinney 1982, Gibson et al. 2019),盡管值得注意的是他有時會得出與高效交流實際預測相反的預測(如Piantadosi et al.) Mahowald和Ivanova等人2023年在一篇綜合評論中認為,大型語言模型在語言能力和思維之間表現(xiàn)出引人注目的分離。這些模型知道這么多的語法和語義的各個方面,但是用適當?shù)倪壿嬐评砣蝿諄斫O倒它們并不難。因此,大型語言模型提供了一個原則性的證明,即語法可以存在,并可能與其他更強大的思維和推理形式分開獲得。我們在語言中看到的幾乎所有結構都可以來自于學習一個好的字符串模型,而不是直接對世界進行建模。
喬姆斯基經(jīng)常將自己的方法描述為 '伽利略式',意思是說他在現(xiàn)象中尋找基本原理,而不是分析大量數(shù)據(jù)。這個詞既是一個誤稱(Behme 2014),也是對選擇從不同假設出發(fā)的同事的一種不那么隱晦的侮辱。當然,伽利略關心對世界的定量測量,以制定理論,發(fā)展自己的工具,甚至試圖測量光速。喬姆斯基的觀點在2012年對亞登-卡茨的采訪中得到了清晰的闡述,當時,他專注于解釋貝葉斯模型是無用的。
我試圖傳達我自己對大型語言模型的興奮感,以及我自己對喬姆斯基的語言學方法的幾個方面的悲觀情緒。然而,不難看出,除了上述的批評之外,喬姆斯基的許多強調(diào)的重點將在他的具體理論中得以延續(xù)。例如,喬姆斯基對認知科學的持久貢獻之一將是他對認知結構現(xiàn)實的強調(diào),就像托爾曼、紐維爾和西蒙、米勒以及認知革命中的其他人一樣(Nadel & Piattelli-Palmarini 2003, Boden 2008)。尋找允許成功獲得語言的人類認知屬性,顯然不僅是理解心智運作的核心,也是理解人類的核心。試圖描述語言所需的計算,并將其視為真正的心智計算,這是一個深刻而重要的想法。喬姆斯基對兒童作為語言創(chuàng)造者的關注,以及對他們的偏見如何影響學習的理解,是任何認知的科學理論的基礎。秉承喬姆斯基傳統(tǒng)的語言學工作為記錄和支持不太廣泛使用的語言做了大量的工作,這是目前機器學習的奮斗目標(Blasi等人,2021)。對 '為什么 '問題的整體探索無疑是該領域的核心,即使我們拒絕或完善了扶手椅假說。喬姆斯基方法的一些想法甚至可能在語言模型中找到。例如,許多語言是分層的這一觀點很可能是正確的,它以某種方式體現(xiàn)在在單詞預測方面表現(xiàn)良好的神經(jīng)網(wǎng)絡的連接和鏈接中。可能在某種意義上,語言學所考慮的其他原則也以某種形式存在于此類模型中。如果這些模型在綁定問題上表現(xiàn)正確,它們可能有一些類似于綁定原則的計算。但這些原則都不需要是天生的。而在神經(jīng)網(wǎng)絡中,它們是以迄今為止沒有人寫過的形式實現(xiàn)的--它們是通過連續(xù)的、梯度的連接的大模式分布的。此外,像捆綁這樣的東西的表征極不可能具有生成語法所預測的形式,因為該方法所要求的、基本的表征假設(如二進制分支、特定的派生結構等)沒有得到滿足。喬姆斯基的研究項目的另一個關鍵貢獻是鼓勵發(fā)現(xiàn)有趣的句子類別,通常是通過像Ross 1967這樣的人。例如,不管該領域對WH-運動的真實性有什么不同看法,什么決定了WH-句子的語法性和非語法性,這是一個重要問題。同樣,像 '島嶼 '這樣的現(xiàn)象也不會因為大型語言模型而消失--它們是要被解釋的目標(根據(jù)Wilcox等人2022年的分析,它們做得相當好)。這樣的現(xiàn)象往往很難與理論分開,就像上面關于陳述句和問句在真實語法中是否真的有聯(lián)系的例子。無論理論如何,按照喬姆斯基的傳統(tǒng)工作的研究人員已經(jīng)照亮了許多地方,在這些地方,人類的語言行為比人們預期的更加復雜或錯綜復雜。正如Pater 2019年所闡述的,該領域應尋求將語言學與現(xiàn)代機器學習(包括神經(jīng)網(wǎng)絡)相結合的方法。我已經(jīng)強調(diào)了一些研究人員,他們對語言的研究方法顯然與現(xiàn)代語言模型的見解有共鳴。目前的動蕩表明,我們應該培養(yǎng)一種多元化的語言學,以盡可能少的先入為主來處理語言問題--也許甚至可以從根本上重新認識語言的作用和它的樣子(Edelman 2019)。也許喬姆斯基理論所關注的許多 '句法 '現(xiàn)象實際上是關于其他東西的,比如語用學或記憶結構(Goldberg 2006, Liu et al. 2022)。也許語言的普遍性--如果有的話--來自使用的各個方面,比如交際和認知壓力,或者其他文化因素。也許語言學可以向認知科學的方法學習(Edelman 2007)。也許語法理論應該尊重人類對序列材料無與倫比的記憶能力。也許我們應該讓語言學學生學習信息論、概率論、神經(jīng)網(wǎng)絡、機器學習、人類學、數(shù)字方法、模型比較、科爾莫戈羅夫復雜性、認知心理學、語言處理、多代理系統(tǒng)等等。喬姆斯基的方法的最永久的遺產(chǎn)可以作為對語言研究與科學的其他部分分離時發(fā)生的情況的告誡。我們必須坦誠地對待捕捉句法的模型的技術現(xiàn)狀。這并不是說大型語言模型比語言學中的其他方法性能略高;也不是說它們能更好地覆蓋句法的某些角落。而是在所有的語言學理論中,沒有任何東西能與大型語言模型在句法和語義方面的力量相提并論,更不用說話語連貫性、風格、語用學、翻譯、元語言意識、非語言任務等等。它們在所有方面都是游戲規(guī)則的改變者。那些認為它們至少是一個合理的習得方向的樂觀主義者認為它們是建立和測試架構原則和偏見的一種方式,這些原則和偏見是連接主義模型師(如McClelland etai.1986、Elman etal.1996年、Smolensky & Legendre etal. 2006 )長期強調(diào)的。那些懷疑它們能否作為習得模型發(fā)揮作用的人,還是應該看到梯度表征、架構假設和隱含或涌現(xiàn)原則作為語法理論的成功。這些模型打開了可信的語言學理論的空間,使我們能夠測試傳統(tǒng)上關注語言學家的原則之外的原則。它們使我們最終能夠發(fā)展出令人信服的結構和統(tǒng)計學相互作用的理論。而且,它們似乎解決了生成式句法學家所擔心的許多問題,但沒有使用他們的任何理論工具和構造。大型語言模型改寫了語言研究方法的哲學。本文選節(jié)選譯自Modern language models refute Chomsky’s approach to language,歡迎掃碼獲取原文一起燒腦
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請
點擊舉報。