2017年2月12日下午,“語英坊”(EngLing Workshop)系列學(xué)術(shù)講座的第一講在北京社科書店成功舉行。國際世界語學(xué)院(Akademio de Esperanto)院士、浙江大學(xué)求是特聘教授、廣東外語外貿(mào)大學(xué)云山領(lǐng)軍學(xué)者劉海濤,就“大數(shù)據(jù)時(shí)代的語言研究:距離與方向”這一主題,為約70位與會(huì)專家、學(xué)者、企業(yè)界代表及其他社會(huì)各界聽眾帶來了一場(chǎng)精彩的講座。
中國社會(huì)科學(xué)院語言研究所《當(dāng)代語言學(xué)》期刊責(zé)任編輯王大惟副研究員組織并主持了此次講座。
劉海濤教授在歷時(shí)近三個(gè)小時(shí)的講座中,針對(duì)語言研究在“大數(shù)據(jù)”時(shí)代面臨的挑戰(zhàn)與機(jī)遇,以他及所率團(tuán)隊(duì)在語言學(xué)領(lǐng)域多年來潛心鉆研、享譽(yù)國際的學(xué)術(shù)成果為例,深入淺出地講解了如何以(依存)距離和方向?yàn)榫V,通過文本的計(jì)量來進(jìn)行語言與認(rèn)知及語言類型方面的研究。貫穿講座始終的“中國語言學(xué)國際化與科學(xué)化”這一議題,引起聽眾的極大共鳴。在“大數(shù)據(jù)”時(shí)代,語言學(xué)如何從藝術(shù)與人文學(xué)科向生命與認(rèn)知科學(xué)轉(zhuǎn)向,中國語言學(xué)如何走向國際,乃至語言學(xué)如何實(shí)現(xiàn)科學(xué)化這些問題振聾發(fā)聵,引發(fā)了每位參會(huì)人員的深思?,F(xiàn)場(chǎng)氣氛熱烈,聽眾還就研究方法、數(shù)據(jù)獲取及研究課題等方面跟劉海濤教授展開了廣泛而深入的交流。
講座一開始,劉海濤教授援引了舍恩伯格(Viktor Mayer-Sch?nberger)和庫克耶(Kenneth Cukier)在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中的一段話:
借此,劉海濤教授引出了本次講座的核心:轉(zhuǎn)變。大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。
與傳統(tǒng)的研究方式相比,大數(shù)據(jù)時(shí)代給我們帶來了三大轉(zhuǎn)變:
這種轉(zhuǎn)變將為人類的生活創(chuàng)造前所未有的可量化的維度,之前無法量化的研究對(duì)象可以通過量化展開精確研究。例如,Lieberman等(2007)通過對(duì)跨越200年的文本中英語不規(guī)則動(dòng)詞的規(guī)則化使用的量化研究,發(fā)現(xiàn)經(jīng)常使用的不規(guī)則動(dòng)詞不容易規(guī)則化,而不經(jīng)常使用的不規(guī)則動(dòng)詞反而容易規(guī)則化,這也是 chide 這個(gè)罕用詞被稱為“世界最快動(dòng)詞”的緣由。
英語不規(guī)則動(dòng)詞的規(guī)則變化規(guī)律
以上研究表明,數(shù)據(jù)的量化分析有助于揭示過去不好分析或無法分析的語言事實(shí)與規(guī)律。哈佛大學(xué)政治學(xué)系教授加里·金(Gary King)在最近的一次演講中也提出了類似的觀點(diǎn)(http://news.sjtu.edu.cn/info/1007/1275714.htm)。他指出:
在其他人文學(xué)科中,數(shù)據(jù)與理論之間也有各自的問題。對(duì)此,劉海濤教授提出了自己對(duì)“數(shù)字(數(shù)據(jù))人文”的一些看法。數(shù)字人文的真諦是:把數(shù)字(數(shù)據(jù))與知識(shí)、社會(huì)、文化、行為、人聯(lián)系在一起,而不是簡單地把一本書、一幅畫數(shù)字化后保存在計(jì)算機(jī)里;通過可視化的方法,更直觀地展現(xiàn)這種聯(lián)系;以及通過數(shù)理統(tǒng)計(jì)方法,更科學(xué)地解釋數(shù)據(jù)背后隱藏的有關(guān)人類認(rèn)知、行為的模式以及人與社會(huì)、自然交互的規(guī)律。
在此背景下,語言學(xué)家的任務(wù)是什么呢?我們知道,語言學(xué)是研究語言結(jié)構(gòu)與演化規(guī)律的學(xué)科。語言的輸出端是線性結(jié)構(gòu),而人腦中是網(wǎng)絡(luò)結(jié)構(gòu),二者具有不同的結(jié)構(gòu)。那么線性結(jié)構(gòu)與網(wǎng)絡(luò)結(jié)構(gòu)之間的轉(zhuǎn)換是如何及何時(shí)進(jìn)行的?再者,字同現(xiàn)、詞同現(xiàn)、句法、語義、概念等層面有什么區(qū)別?這其中又有什么規(guī)律?對(duì)于這些問題,劉海濤教授指出,我們都可以通過對(duì)真實(shí)語料(大數(shù)據(jù))的研究來探求。正如伯納德·科姆里(Bernard Comrie)在《語言共性和語言類型》這本書的前言中指出的,“語言學(xué)研究語言,而語言是民眾實(shí)際所講語言?!?/span>
這樣,才能反映出語言使用的真實(shí)面貌,而不是存在于人腦中的假設(shè)。Rickheit和Sichelschmidt(2007)也曾明確指出:
可見,語言學(xué)家需要為語言學(xué)的轉(zhuǎn)向做好準(zhǔn)備,迎接大數(shù)據(jù)時(shí)代帶來的研究方法與理念上的轉(zhuǎn)變。這將有助于中國語言學(xué)的國際化與語言研究的科學(xué)化進(jìn)程,進(jìn)而真正實(shí)現(xiàn)作為一門(領(lǐng)先)科學(xué)的語言學(xué)。
接下來,劉海濤教授結(jié)合他和團(tuán)隊(duì)成員多年來的研究經(jīng)歷與學(xué)術(shù)成果,介紹了在大數(shù)據(jù)時(shí)代探索中國語言學(xué)國際化與語言研究科學(xué)化的成功經(jīng)驗(yàn)。
這些顯赫的成果背后是劉海濤教授及其團(tuán)隊(duì)多年來在基于依存語法的計(jì)量研究方面所做的大量工作與不懈的努力。他們主要從依存距離與認(rèn)知規(guī)律、依存方向與語言類型學(xué)、復(fù)雜網(wǎng)絡(luò)與形態(tài)學(xué)這三個(gè)方面展開研究,探索人類語言的普遍特征以及語言類型研究的新范式,在計(jì)量語言學(xué)、心理語言學(xué)、認(rèn)知科學(xué)及語言類型學(xué)方面,都具有開創(chuàng)性的重大意義。
劉海濤教授在依存語法的基礎(chǔ)上研究依存距離與依存方向。依存語法是法國語言學(xué)家泰尼埃(Tesnière)在對(duì)古希臘語、古羅馬語、羅曼語族、斯拉夫語族、匈牙利語、土耳其語和巴斯克語等數(shù)十種語言對(duì)比研究的基礎(chǔ)上提出的一種普適的語法理論。劉海濤(2009)總結(jié)道,泰尼埃對(duì)句子的分析重在尋求句中各詞之間的關(guān)系。依存關(guān)系是一種詞間句法關(guān)系。依存句法是一種以依存關(guān)系為基礎(chǔ)的句法理論。
與之相關(guān)的另一個(gè)重要的學(xué)術(shù)思想是,語言是人驅(qū)動(dòng)的符號(hào)系統(tǒng)(Liu 2014)?,F(xiàn)代語言學(xué)之父索緒爾提出,語言是一個(gè)符號(hào)系統(tǒng)。劉海濤教授在此基礎(chǔ)上,強(qiáng)調(diào)人的重要作用。因?yàn)槿思婢咝睦?、生理與社會(huì)、自然的屬性,所以語言呈現(xiàn)出一定的普遍性與多樣性。前者對(duì)應(yīng)于一般的認(rèn)知規(guī)律,后者對(duì)應(yīng)于生態(tài)的多樣性。
接著,劉海濤教授分別從(依存)距離、(依存)方向,以及距離和方向這三個(gè)方面介紹了他們的研究工作與成果。
依存距離指的是構(gòu)成依存關(guān)系的支配詞和從屬詞之間的線性距離。對(duì)于依存距離的計(jì)算與分析可以反映出句子分析的難易程度。因?yàn)榉治鼍渥泳褪菍⒁粋€(gè)線性字符串轉(zhuǎn)換為一個(gè)依存結(jié)構(gòu)樹的過程,也就是說:
進(jìn)而,真實(shí)文本的依存距離具有某種分布規(guī)律嗎?這些規(guī)律是人類語言特有的嗎?這些規(guī)律的認(rèn)知基礎(chǔ)是什么?
他在Hawkins(1994)和Gibson(1998)的理論成果的基礎(chǔ)上進(jìn)一步提出依存距離的三個(gè)假設(shè):(1)人類語言處理機(jī)制偏愛的句子,其依存距離要盡可能地小;(2)這個(gè)小的要求是在一個(gè)范圍內(nèi),與人的工作記憶容量差不多;(3)認(rèn)知和語法共同起作用。不過,以上研究只采用了一種自然語言的樣本,還無法說明人類語言的共性。
自然語言與隨機(jī)語言的依存距離均值
如上圖所示,漢語的依存距離均值最高,為3.66。以上這些語言的依存距離均值,都在現(xiàn)代心理學(xué)普遍認(rèn)定的工作記憶容量為4的閾值內(nèi)。劉海濤教授的這一發(fā)現(xiàn),是首次使用大規(guī)模真實(shí)語料的文本而得出的語言普遍性的規(guī)律,具有重要的創(chuàng)新意義,并對(duì)該領(lǐng)域的研究產(chǎn)生了深遠(yuǎn)影響。2015年,麻省理工學(xué)院弗特勒爾等人(Futrell, et al. 2015)對(duì)37種自然語言進(jìn)行了基于語料庫的大數(shù)據(jù)分析,再次驗(yàn)證了語言中的依存距離具有最小化的傾向。
掃描右上角二維碼即可下載全文,浙大學(xué)報(bào)棒棒的!
除了依存距離的最小化,劉海濤教授還對(duì)依存距離的分布展開了研究。他提出了如下的問題:依存距離分布有沒有規(guī)律?依存距離分布的規(guī)律是否符合一定的分布模型?依存距離分布模型是否會(huì)隨不同語言而異,導(dǎo)致分歧的主要原因是什么?
為什么長句是冪律呢?因?yàn)閮缏墒窍到y(tǒng)自適應(yīng)調(diào)節(jié)的結(jié)果;兩種分布模型分歧的主要原因可能受擬合方法、不同語言、句長和文本大小等因素的影響。
他們提出了一種枚舉依存樹的方法,進(jìn)行依存句法結(jié)構(gòu)計(jì)量研究,結(jié)果顯示:語言中的依存交叉并非偶然現(xiàn)象,根據(jù)計(jì)數(shù)公式推導(dǎo)出的交叉依存比例,遠(yuǎn)高于真實(shí)語言樹庫的統(tǒng)計(jì)數(shù)據(jù);平均依存距離難以區(qū)分交叉與不交叉依存;依存距離最小化能約束交叉依存比例降至真實(shí)語言情況,但此時(shí)平均依存距離與真實(shí)語言不同。這些說明除受人類認(rèn)知機(jī)制約束外,可能還存在其他因素促使人類語言傾向于不交叉。
劉海濤教授進(jìn)一步指出,對(duì)于語言共性的發(fā)現(xiàn)是具有應(yīng)用價(jià)值的。最近,谷歌的人工智能團(tuán)隊(duì)在機(jī)器翻譯上取得了突破性的進(jìn)展,其核心理念是找到了具有相同含義的句子的共同基礎(chǔ),而不用考慮他們屬于哪種語言。
(https://www.newscientist.com/article/2114748-google-translate-ai-invents-its-own-language-to-translate-with/)也就是說,不同語言表示語義和認(rèn)知的概念結(jié)構(gòu)基本相同,而線性序列則是不同的。
劉海濤團(tuán)隊(duì)的另一個(gè)重要發(fā)現(xiàn)是關(guān)于依存方向與語序類型之間的關(guān)系。在語序的類型學(xué)研究中,句中語法單位的線性順序通常被看作是區(qū)分不同的語言的首要條件。Greenberg (1963)在該領(lǐng)域做出了開拓性的成果。在他提出的45種語言的共性中,大多會(huì)描述該條共性的使用情況,如:
可見,這些共性的前提條件也是統(tǒng)計(jì)的結(jié)果,只不過限于當(dāng)時(shí)的研究條件,無法在基于真實(shí)語料的大數(shù)據(jù)上來統(tǒng)計(jì)?,F(xiàn)在,我們不僅有基于真實(shí)文本的語料庫,還有經(jīng)過句法標(biāo)注的語料庫。其中,依存樹庫就是一個(gè)很好的資源。這是因?yàn)?,在?duì)語言類型的研究中,泰尼埃早就發(fā)現(xiàn)了不同語言在中心語置前還是居后上有不同的傾向性(Tesnière 1959)。而中心語置前還是居后在依存語法就可以表現(xiàn)為支配詞前置或后置,這種信息在依存樹庫中都是有明確的標(biāo)注的。
維基百科上有人這樣評(píng)價(jià)這項(xiàng)發(fā)現(xiàn):“該研究為現(xiàn)代的語言類型學(xué)提供了一種全新的先進(jìn)方法?!?/span>
二十種語言的依存方向分布
如圖所示,任何一種語言都可以在上述這個(gè)連續(xù)統(tǒng)中找到自己的位置。這意味著,語言可以在這個(gè)連續(xù)統(tǒng)中根據(jù)距離的遠(yuǎn)近來進(jìn)行聚類分析,而傳統(tǒng)的類型學(xué)研究是按照分類標(biāo)準(zhǔn)來劃分出幾個(gè)具體的類型。
此外,我們也可以利用依存方向來考察優(yōu)勢(shì)語序(dominant order)。
這就說明了,我們可以利用樹庫作為語言類型學(xué)研究的數(shù)據(jù)基礎(chǔ)。
跟傳統(tǒng)的類型學(xué)的研究相比,劉海濤(Liu 2010)這篇文章所使用的方法具有如下的優(yōu)點(diǎn)與創(chuàng)新性:
它是基于統(tǒng)計(jì)和語料庫的;
它具有魯棒性(robust)和非離散性;
它是細(xì)粒度的;
它是對(duì)語言更為整體性的類型學(xué)方法;
它可以跟計(jì)算語言學(xué)共享語言資源。
英國著名語言學(xué)家Hudson教授對(duì)這篇論文贊賞有加,說它充滿了原創(chuàng)性的思想和重要的數(shù)據(jù)。
敬請(qǐng)期待下篇。精彩內(nèi)容,豈能錯(cuò)過?看大家笑的,那是被精彩到了呀。
語英坊,語言奧秘探索者的家園
【logo虛位以待,征集中……】
聯(lián)系客服