九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【干貨版】劉海濤縱議大數(shù)據(jù)時(shí)代的語言研究(上)

2017年2月12日下午,“語英坊”(EngLing Workshop)系列學(xué)術(shù)講座的第一講在北京社科書店成功舉行。國際世界語學(xué)院(Akademio de Esperanto院士、浙江大學(xué)求是特聘教授、廣東外語外貿(mào)大學(xué)云山領(lǐng)軍學(xué)者劉海濤,就“大數(shù)據(jù)時(shí)代的語言研究:距離與方向”這一主題,為約70位與會(huì)專家、學(xué)者、企業(yè)界代表及其他社會(huì)各界聽眾帶來了一場(chǎng)精彩的講座。



中國社會(huì)科學(xué)院語言研究所《當(dāng)代語言學(xué)》期刊責(zé)任編輯王大惟副研究員組織并主持了此次講座。




劉海濤教授在歷時(shí)近三個(gè)小時(shí)的講座中,針對(duì)語言研究在“大數(shù)據(jù)”時(shí)代面臨的挑戰(zhàn)與機(jī)遇,以他及所率團(tuán)隊(duì)在語言學(xué)領(lǐng)域多年來潛心鉆研、享譽(yù)國際的學(xué)術(shù)成果為例,深入淺出地講解了如何以(依存)距離和方向?yàn)榫V,通過文本的計(jì)量來進(jìn)行語言與認(rèn)知及語言類型方面的研究。貫穿講座始終的“中國語言學(xué)國際化與科學(xué)化”這一議題,引起聽眾的極大共鳴。在“大數(shù)據(jù)”時(shí)代,語言學(xué)如何從藝術(shù)與人文學(xué)科向生命與認(rèn)知科學(xué)轉(zhuǎn)向,中國語言學(xué)如何走向國際,乃至語言學(xué)如何實(shí)現(xiàn)科學(xué)化這些問題振聾發(fā)聵,引發(fā)了每位參會(huì)人員的深思?,F(xiàn)場(chǎng)氣氛熱烈,聽眾還就研究方法、數(shù)據(jù)獲取及研究課題等方面跟劉海濤教授展開了廣泛而深入的交流。


1.  大數(shù)據(jù)時(shí)代的轉(zhuǎn)變


講座一開始,劉海濤教授援引了舍恩伯格(Viktor Mayer-Sch?nberger)和庫克耶(Kenneth Cukier)在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中的一段話:


“大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。就像望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測(cè)微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢(shì)待發(fā)……”。


借此,劉海濤教授引出了本次講座的核心:轉(zhuǎn)變。大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。



與傳統(tǒng)的研究方式相比,大數(shù)據(jù)時(shí)代給我們帶來了三大轉(zhuǎn)變:


要全體,不要抽樣;要效率,不要絕對(duì)精確;要相關(guān),不要因果。

這種轉(zhuǎn)變將為人類的生活創(chuàng)造前所未有的可量化的維度,之前無法量化的研究對(duì)象可以通過量化展開精確研究。例如,Lieberman等(2007)通過對(duì)跨越200年的文本中英語不規(guī)則動(dòng)詞的規(guī)則化使用的量化研究,發(fā)現(xiàn)經(jīng)常使用的不規(guī)則動(dòng)詞不容易規(guī)則化,而不經(jīng)常使用的不規(guī)則動(dòng)詞反而容易規(guī)則化,這也是 chide 這個(gè)罕用詞被稱為“世界最快動(dòng)詞”的緣由。


英語不規(guī)則動(dòng)詞的規(guī)則變化規(guī)律


以上研究表明,數(shù)據(jù)的量化分析有助于揭示過去不好分析或無法分析的語言事實(shí)與規(guī)律。哈佛大學(xué)政治學(xué)系教授加里·金(Gary King)在最近的一次演講中也提出了類似的觀點(diǎn)(http://news.sjtu.edu.cn/info/1007/1275714.htm)。他指出:


在大數(shù)據(jù)時(shí)代,我們可以通過量化過去不能量化的信息、使用精妙的統(tǒng)計(jì)學(xué)方法,使得分析這些信息成為可能

在其他人文學(xué)科中,數(shù)據(jù)與理論之間也有各自的問題。對(duì)此,劉海濤教授提出了自己對(duì)“數(shù)字(數(shù)據(jù))人文”的一些看法。數(shù)字人文的真諦是:把數(shù)字(數(shù)據(jù))與知識(shí)、社會(huì)、文化、行為、人聯(lián)系在一起,而不是簡單地把一本書、一幅畫數(shù)字化后保存在計(jì)算機(jī)里;通過可視化的方法,更直觀地展現(xiàn)這種聯(lián)系;以及通過數(shù)理統(tǒng)計(jì)方法,更科學(xué)地解釋數(shù)據(jù)背后隱藏的有關(guān)人類認(rèn)知、行為的模式以及人與社會(huì)、自然交互的規(guī)律。


在此背景下,語言學(xué)家的任務(wù)是什么呢?我們知道,語言學(xué)是研究語言結(jié)構(gòu)與演化規(guī)律的學(xué)科。語言的輸出端是線性結(jié)構(gòu),而人腦中是網(wǎng)絡(luò)結(jié)構(gòu),二者具有不同的結(jié)構(gòu)。那么線性結(jié)構(gòu)與網(wǎng)絡(luò)結(jié)構(gòu)之間的轉(zhuǎn)換是如何及何時(shí)進(jìn)行的?再者,字同現(xiàn)、詞同現(xiàn)、句法、語義、概念等層面有什么區(qū)別?這其中又有什么規(guī)律?對(duì)于這些問題,劉海濤教授指出,我們都可以通過對(duì)真實(shí)語料(大數(shù)據(jù))的研究來探求。正如伯納德·科姆里(Bernard Comrie)在《語言共性和語言類型》這本書的前言中指出的,“語言學(xué)研究語言,而語言是民眾實(shí)際所講語言?!?/span>


劉海濤教授強(qiáng)調(diào),語言數(shù)據(jù)來自語言實(shí)踐,因此,我們要用真實(shí)語料來進(jìn)行語言研究。

這樣,才能反映出語言使用的真實(shí)面貌,而不是存在于人腦中的假設(shè)。Rickheit和Sichelschmidt(2007)也曾明確指出:


“語言學(xué)已經(jīng)從藝術(shù)與人文學(xué)科轉(zhuǎn)向認(rèn)知與生命科學(xué)。語言學(xué)的研究方法也從內(nèi)省式的方法變?yōu)槭褂脧?fù)雜技術(shù)與最新設(shè)備的實(shí)驗(yàn)方法?!?/section>

可見,語言學(xué)家需要為語言學(xué)的轉(zhuǎn)向做好準(zhǔn)備,迎接大數(shù)據(jù)時(shí)代帶來的研究方法與理念上的轉(zhuǎn)變。這將有助于中國語言學(xué)的國際化與語言研究的科學(xué)化進(jìn)程,進(jìn)而真正實(shí)現(xiàn)作為一門(領(lǐng)先)科學(xué)的語言學(xué)。


2.基于依存語法的計(jì)量研究


接下來,劉海濤教授結(jié)合他和團(tuán)隊(duì)成員多年來的研究經(jīng)歷與學(xué)術(shù)成果,介紹了在大數(shù)據(jù)時(shí)代探索中國語言學(xué)國際化與語言研究科學(xué)化的成功經(jīng)驗(yàn)。


2008年至今,劉海濤教授作為第一(通訊)作者的語言學(xué)相關(guān)文章,已有17篇收錄于SCI(科學(xué)引文索引)、43篇收錄于SSCI(社會(huì)科學(xué)引文索引)、41篇收錄于A&HCI(人文藝術(shù)引文索引)。他也是近十年來被WOS(Web of Science)核心庫(SSCI、A&HCI、SCI)收錄語言學(xué)論文最多的大中華區(qū)學(xué)者,名列愛思唯爾2014、2015“中國高被引學(xué)者”。


這些顯赫的成果背后是劉海濤教授及其團(tuán)隊(duì)多年來在基于依存語法的計(jì)量研究方面所做的大量工作與不懈的努力。他們主要從依存距離與認(rèn)知規(guī)律、依存方向與語言類型學(xué)、復(fù)雜網(wǎng)絡(luò)與形態(tài)學(xué)這三個(gè)方面展開研究,探索人類語言的普遍特征以及語言類型研究的新范式,在計(jì)量語言學(xué)、心理語言學(xué)、認(rèn)知科學(xué)及語言類型學(xué)方面,都具有開創(chuàng)性的重大意義。


劉海濤教授在依存語法的基礎(chǔ)上研究依存距離與依存方向。依存語法是法國語言學(xué)家泰尼埃(Tesnière)在對(duì)古希臘語、古羅馬語、羅曼語族、斯拉夫語族、匈牙利語、土耳其語和巴斯克語等數(shù)十種語言對(duì)比研究的基礎(chǔ)上提出的一種普適的語法理論。劉海濤(2009)總結(jié)道,泰尼埃對(duì)句子的分析重在尋求句中各詞之間的關(guān)系。依存關(guān)系是一種詞間句法關(guān)系。依存句法是一種以依存關(guān)系為基礎(chǔ)的句法理論。


劉海濤教授及其團(tuán)隊(duì)用了十余年時(shí)間不斷完善漢語句法標(biāo)注體系并標(biāo)注了各種語體的漢語依存樹庫,這些資源為研究漢語句中各詞間的句法關(guān)系奠定了重要的基礎(chǔ)。


與之相關(guān)的另一個(gè)重要的學(xué)術(shù)思想是,語言是人驅(qū)動(dòng)的符號(hào)系統(tǒng)(Liu 2014)?,F(xiàn)代語言學(xué)之父索緒爾提出,語言是一個(gè)符號(hào)系統(tǒng)。劉海濤教授在此基礎(chǔ)上,強(qiáng)調(diào)人的重要作用。因?yàn)槿思婢咝睦?、生理與社會(huì)、自然的屬性,所以語言呈現(xiàn)出一定的普遍性與多樣性。前者對(duì)應(yīng)于一般的認(rèn)知規(guī)律,后者對(duì)應(yīng)于生態(tài)的多樣性。


這從另一個(gè)角度再次說明,語言研究要注重對(duì)語言普遍規(guī)律的探尋與語言多樣性的考察。而基于真實(shí)語料的數(shù)據(jù)驅(qū)動(dòng)的研究方法是達(dá)到這一目的的一種重要手段。

接著,劉海濤教授分別從(依存)距離、(依存)方向,以及距離和方向這三個(gè)方面介紹了他們的研究工作與成果。


2.1 依存距離與認(rèn)知規(guī)律


依存距離指的是構(gòu)成依存關(guān)系的支配詞和從屬詞之間的線性距離。對(duì)于依存距離的計(jì)算與分析可以反映出句子分析的難易程度。因?yàn)榉治鼍渥泳褪菍⒁粋€(gè)線性字符串轉(zhuǎn)換為一個(gè)依存結(jié)構(gòu)樹的過程,也就是說:


一個(gè)詞只能在與他的詞連接,形成依存關(guān)系之后,才能從短時(shí)記憶中移去。

進(jìn)而,真實(shí)文本的依存距離具有某種分布規(guī)律嗎?這些規(guī)律是人類語言特有的嗎?這些規(guī)律的認(rèn)知基礎(chǔ)是什么?


劉海濤(Liu 2007)分別考察了隨機(jī)語言和自然語言的依存距離的時(shí)序分布,得到了他們的依存距離均值(MDD),發(fā)現(xiàn)依存距離分布是有規(guī)律的,而且跟其他隨機(jī)語言相比,人類語言的依存距離是最小的

他在Hawkins(1994)和Gibson(1998)的理論成果的基礎(chǔ)上進(jìn)一步提出依存距離的三個(gè)假設(shè):(1)人類語言處理機(jī)制偏愛的句子,其依存距離要盡可能地小;(2)這個(gè)小的要求是在一個(gè)范圍內(nèi),與人的工作記憶容量差不多;(3)認(rèn)知和語法共同起作用。不過,以上研究只采用了一種自然語言的樣本,還無法說明人類語言的共性。


于是,劉海濤(Liu 2008)在二十種語言的真實(shí)語料的基礎(chǔ)上展開進(jìn)一步的研究,并首次發(fā)現(xiàn),依存距離最小化可能是人類語言的一個(gè)普遍規(guī)律。



自然語言與隨機(jī)語言的依存距離均值


如上圖所示,漢語的依存距離均值最高,為3.66。以上這些語言的依存距離均值,都在現(xiàn)代心理學(xué)普遍認(rèn)定的工作記憶容量為4的閾值內(nèi)。劉海濤教授的這一發(fā)現(xiàn),是首次使用大規(guī)模真實(shí)語料的文本而得出的語言普遍性的規(guī)律,具有重要的創(chuàng)新意義,并對(duì)該領(lǐng)域的研究產(chǎn)生了深遠(yuǎn)影響。2015年,麻省理工學(xué)院弗特勒爾等人(Futrell, et al. 2015)對(duì)37種自然語言進(jìn)行了基于語料庫的大數(shù)據(jù)分析,再次驗(yàn)證了語言中的依存距離具有最小化的傾向。


掃描右上角二維碼即可下載全文,浙大學(xué)報(bào)棒棒的!


除了依存距離的最小化,劉海濤教授還對(duì)依存距離的分布展開了研究。他提出了如下的問題:依存距離分布有沒有規(guī)律?依存距離分布的規(guī)律是否符合一定的分布模型?依存距離分布模型是否會(huì)隨不同語言而異,導(dǎo)致分歧的主要原因是什么?


陸前、劉海濤(2016a)對(duì)30種語言的真實(shí)語料進(jìn)行了依存距離分布的分析,研究發(fā)現(xiàn),人類語言依存距離分布具有規(guī)律性;本質(zhì)上,其分布都是一種指數(shù)和冪律混合的分布模型;多數(shù)語言符合一定的分布模型,指數(shù)和冪律分別較適合擬合“短句”與“長句”的依存距離分布;



為什么長句是冪律呢?因?yàn)閮缏墒窍到y(tǒng)自適應(yīng)調(diào)節(jié)的結(jié)果;兩種分布模型分歧的主要原因可能受擬合方法、不同語言、句長和文本大小等因素的影響。


再者,陸前、劉海濤(2016b)還探討了為什么人類語言不喜歡交叉。


他們提出了一種枚舉依存樹的方法,進(jìn)行依存句法結(jié)構(gòu)計(jì)量研究,結(jié)果顯示:語言中的依存交叉并非偶然現(xiàn)象,根據(jù)計(jì)數(shù)公式推導(dǎo)出的交叉依存比例,遠(yuǎn)高于真實(shí)語言樹庫的統(tǒng)計(jì)數(shù)據(jù);平均依存距離難以區(qū)分交叉與不交叉依存;依存距離最小化能約束交叉依存比例降至真實(shí)語言情況,但此時(shí)平均依存距離與真實(shí)語言不同。這些說明除受人類認(rèn)知機(jī)制約束外,可能還存在其他因素促使人類語言傾向于不交叉。



劉海濤教授進(jìn)一步指出,對(duì)于語言共性的發(fā)現(xiàn)是具有應(yīng)用價(jià)值的。最近,谷歌的人工智能團(tuán)隊(duì)在機(jī)器翻譯上取得了突破性的進(jìn)展,其核心理念是找到了具有相同含義的句子的共同基礎(chǔ),而不用考慮他們屬于哪種語言。

(https://www.newscientist.com/article/2114748-google-translate-ai-invents-its-own-language-to-translate-with/)也就是說,不同語言表示語義和認(rèn)知的概念結(jié)構(gòu)基本相同,而線性序列則是不同的。



那么,從大腦中表義相同的網(wǎng)狀結(jié)構(gòu)轉(zhuǎn)變?yōu)榫€性結(jié)構(gòu)時(shí),就需要符合認(rèn)知的普遍規(guī)律,而這個(gè)受認(rèn)知機(jī)制約束的線性化原則可能就是依存距離最小化


2.2 依存方向與語言類型學(xué)


劉海濤團(tuán)隊(duì)的另一個(gè)重要發(fā)現(xiàn)是關(guān)于依存方向與語序類型之間的關(guān)系。在語序的類型學(xué)研究中,句中語法單位的線性順序通常被看作是區(qū)分不同的語言的首要條件。Greenberg (1963)在該領(lǐng)域做出了開拓性的成果。在他提出的45種語言的共性中,大多會(huì)描述該條共性的使用情況,如:


“9:在遠(yuǎn)遠(yuǎn)超過隨機(jī)頻率的多數(shù)情況下,涉及全句的疑問小詞或詞綴,在前置詞語言中居于句首,在后置詞語言中居于句末?!?/section>
“17:除了偶然出現(xiàn)的情況外,優(yōu)勢(shì)語序?yàn)閂SO的語言絕大多數(shù)是形容詞居于名詞之后?!?/section>
“18:當(dāng)描寫性形容詞前置于名詞時(shí),除了偶然出現(xiàn)的情況外,絕大多數(shù)情況是指別詞和數(shù)詞也處于名詞之前。”


可見,這些共性的前提條件也是統(tǒng)計(jì)的結(jié)果,只不過限于當(dāng)時(shí)的研究條件,無法在基于真實(shí)語料的大數(shù)據(jù)上來統(tǒng)計(jì)?,F(xiàn)在,我們不僅有基于真實(shí)文本的語料庫,還有經(jīng)過句法標(biāo)注的語料庫。其中,依存樹庫就是一個(gè)很好的資源。這是因?yàn)?,在?duì)語言類型的研究中,泰尼埃早就發(fā)現(xiàn)了不同語言在中心語置前還是居后上有不同的傾向性(Tesnière 1959)。而中心語置前還是居后在依存語法就可以表現(xiàn)為支配詞前置或后置,這種信息在依存樹庫中都是有明確的標(biāo)注的。



據(jù)此,劉海濤(Liu 2010)采用二十種語言的大規(guī)模真實(shí)語料,考察了這些語言的依存方向分布,發(fā)現(xiàn)語序類型是一個(gè)連續(xù)統(tǒng)(如下圖所示)。這是在世界上的首次發(fā)現(xiàn),該項(xiàng)研究開辟了用大數(shù)據(jù)進(jìn)行語言類型研究的新路子。



維基百科上有人這樣評(píng)價(jià)這項(xiàng)發(fā)現(xiàn):“該研究為現(xiàn)代的語言類型學(xué)提供了一種全新的先進(jìn)方法?!?/span>

二十種語言的依存方向分布


如圖所示,任何一種語言都可以在上述這個(gè)連續(xù)統(tǒng)中找到自己的位置。這意味著,語言可以在這個(gè)連續(xù)統(tǒng)中根據(jù)距離的遠(yuǎn)近來進(jìn)行聚類分析,而傳統(tǒng)的類型學(xué)研究是按照分類標(biāo)準(zhǔn)來劃分出幾個(gè)具體的類型。


此外,我們也可以利用依存方向來考察優(yōu)勢(shì)語序(dominant order)。


劉海濤(Liu 2010)從這二十種語言的依存樹庫中提取出主語-動(dòng)詞、賓語-動(dòng)詞和形容詞-名詞這三對(duì)依存關(guān)系,發(fā)現(xiàn)所得到的優(yōu)勢(shì)語序的結(jié)果跟Haspelmath等(2005)的結(jié)論極為類似。


這就說明了,我們可以利用樹庫作為語言類型學(xué)研究的數(shù)據(jù)基礎(chǔ)。


跟傳統(tǒng)的類型學(xué)的研究相比,劉海濤(Liu 2010)這篇文章所使用的方法具有如下的優(yōu)點(diǎn)與創(chuàng)新性


它是基于統(tǒng)計(jì)和語料庫的;

它具有魯棒性(robust)和非離散性;

它是細(xì)粒度的;

它是對(duì)語言更為整體性的類型學(xué)方法;

它可以跟計(jì)算語言學(xué)共享語言資源。


英國著名語言學(xué)家Hudson教授對(duì)這篇論文贊賞有加,說它充滿了原創(chuàng)性的思想和重要的數(shù)據(jù)。


敬請(qǐng)期待下篇。精彩內(nèi)容,豈能錯(cuò)過?看大家笑的,那是被精彩到了呀。




語英坊,語言奧秘探索者的家園


【logo虛位以待,征集中……】

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大數(shù)據(jù)時(shí)代的語言研究:距離與方向
民族語言學(xué)論壇系列講座第三十八講會(huì)議報(bào)道
談?wù)劰δ苷Z言學(xué)各流派的融合
胡乘玲 孔國興 | 中國語言文字研究七十年之際國內(nèi)漢語語法研究管窺
淺談?wù)Z言類型學(xué)視角下滿語研究的發(fā)展空間
35年的圓夢(mèng)之旅:中國牛教授劉海濤當(dāng)選世界語學(xué)院院士
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服