計(jì)算語言學(xué)(computational linguistics)是用計(jì)算機(jī)研究和處理自然語言的一門新興的交叉學(xué)科。在其發(fā)展過程中,這門學(xué)科的研究就分別在語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、電子工程、認(rèn)知科學(xué)等不同領(lǐng)域中進(jìn)行過,具有明顯的跨學(xué)科特色。
計(jì)算語言學(xué)對人工智能意義重大
計(jì)算語言學(xué)是研制智能化電子計(jì)算機(jī)的一項(xiàng)基礎(chǔ)性工作,而人工智能的研究又離不開對自然語言的處理,因此計(jì)算語言學(xué)的研究在人工智能的研究中起著舉足輕重的作用。
人們早已為計(jì)算機(jī)軟件設(shè)計(jì)了許多人工語言。這些人工語言與自然語言一樣,都遵循著形式語言的規(guī)律和法則。美國語言學(xué)家喬姆斯基(N. Chomsky)提出的形式語言理論,既適用于人工語言,也適用于自然語言。這有力地說明,二者在形式描述方面,確實(shí)存在著某些共性。
但是,自然語言至少在四個(gè)方面與人工語言大相徑庭:自然語言中充滿著歧義,而人工語言中的歧義是可以控制的;自然語言的結(jié)構(gòu)復(fù)雜多樣,而人工語言的結(jié)構(gòu)相對簡單;自然語言的語義表達(dá)千變?nèi)f化,尚無一種簡單而通用的描述途徑,而人工語言的語義可以由人來直接定義;自然語言的結(jié)構(gòu)和語義聯(lián)系錯(cuò)綜復(fù)雜,一般不存在一一對應(yīng)的同構(gòu)關(guān)系,而人工語言則常??梢园呀Y(jié)構(gòu)和語義分別進(jìn)行處理,結(jié)構(gòu)和語義之間有著整齊的一一對應(yīng)的同構(gòu)關(guān)系。由于自然語言具有的這些獨(dú)特性質(zhì),使得自然語言的計(jì)算機(jī)處理成為人工智能的一大難題。
發(fā)展趨勢對研究者提出更高要求
20世紀(jì)50年代以來,國內(nèi)外學(xué)者在這個(gè)新的學(xué)科領(lǐng)域進(jìn)行了不懈探索,現(xiàn)已取得可喜的成績。當(dāng)今互聯(lián)網(wǎng)的普及又對自然語言的計(jì)算機(jī)處理水平提出了更高的要求,世界各國也因此更加重視計(jì)算語言學(xué)的研究。當(dāng)前計(jì)算語言學(xué)發(fā)展的特點(diǎn)主要表現(xiàn)在以下五個(gè)方面。
第一,基于句法—語義規(guī)則的理性主義方法受到質(zhì)疑。隨著語料庫建設(shè)和語料庫語言學(xué)的崛起,大規(guī)模真實(shí)文本的處理成為計(jì)算語言學(xué)研究的主要戰(zhàn)略目標(biāo),基于語言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法在計(jì)算語言學(xué)中獨(dú)占鰲頭。
理性主義方法的一個(gè)重要弱點(diǎn)表現(xiàn)在實(shí)踐方面。從事計(jì)算語言學(xué)研究的理性主義者采用主流技術(shù),基于規(guī)則的句法—語義分析,盡管這些應(yīng)用系統(tǒng)在某些受限的“子語言”(sub-language)中也曾經(jīng)獲得一定程度的成功,但要想進(jìn)一步擴(kuò)大這些系統(tǒng)的覆蓋面,用它們來處理大規(guī)模的真實(shí)文本,仍然困難重重。因?yàn)?,從自然語言處理系統(tǒng)所需要裝備的語言知識(shí)來看,其數(shù)量之浩大和顆粒度之精細(xì),都是以往的任何系統(tǒng)所遠(yuǎn)遠(yuǎn)不及的。而且,隨著系統(tǒng)擁有的知識(shí)在數(shù)量上和程度上發(fā)生巨大變化,系統(tǒng)在如何獲取、表示和管理知識(shí)等基本問題上,必須另辟蹊徑。這樣,在計(jì)算語言學(xué)研究中就出現(xiàn)了應(yīng)對大規(guī)模真實(shí)文本的問題。當(dāng)前語料庫的建設(shè)和語料庫語言學(xué)的崛起,正是計(jì)算語言學(xué)戰(zhàn)略目標(biāo)轉(zhuǎn)移的一個(gè)重要標(biāo)志。隨著人們對大規(guī)模真實(shí)文本處理的日益關(guān)注,越來越多的學(xué)者認(rèn)識(shí)到,基于語料庫的分析方法(即經(jīng)驗(yàn)主義的方法)至少是對基于規(guī)則的分析方法(即理性主義的方法)的一個(gè)重要補(bǔ)充。只有具備“大規(guī)?!保╨arge-scale)和“真實(shí)”(authentic)這兩個(gè)因素,語料庫才是最理想的語言知識(shí)資源。
這種基于大數(shù)據(jù)的經(jīng)驗(yàn)主義方法也影響到了語言材料的搜集、整理和加工,促進(jìn)了語言學(xué)研究方法的變革。理論語言學(xué)的研究必須以語言事實(shí)作為根據(jù),詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結(jié)論。而計(jì)算機(jī)的運(yùn)用,大大減輕了人們搜集、整理和加工語料的勞動(dòng)。
第二,自然語言處理中越來越多地使用機(jī)器學(xué)習(xí)(machine learning)的方法來獲取語言知識(shí),基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(deep learning)方法成為計(jì)算語言學(xué)的主流方法。
進(jìn)入21世紀(jì)后,計(jì)算語言學(xué)中經(jīng)驗(yàn)主義傾向進(jìn)一步以驚人的步伐加速發(fā)展。這樣的加速發(fā)展在很大的程度上由三種彼此協(xié)同的趨勢所推動(dòng)。首先是建立帶標(biāo)記語料庫的趨勢。這些語言資源的存在,大大地推動(dòng)了人們使用有監(jiān)督的機(jī)器學(xué)習(xí)方法來處理那些傳統(tǒng)上非常復(fù)雜的問題,例如自動(dòng)剖析和自動(dòng)語義分析等。這些語言資源也推動(dòng)了有競爭性的評測機(jī)制的建立。其次是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的趨勢。對于機(jī)器學(xué)習(xí)的日益增長的重視,導(dǎo)致了計(jì)算語言學(xué)研究者們與統(tǒng)計(jì)機(jī)器學(xué)習(xí)的研究者更加頻繁地交流互動(dòng)。對于支持向量機(jī)技術(shù)、最大熵技術(shù)以及與它們在形式上等價(jià)的多項(xiàng)邏輯回歸、圖式貝葉斯模型等技術(shù)的研究,都成為計(jì)算語言學(xué)的標(biāo)準(zhǔn)研究實(shí)踐活動(dòng)。再次是高性能計(jì)算機(jī)系統(tǒng)發(fā)展的趨勢。高性能計(jì)算機(jī)系統(tǒng)的廣泛應(yīng)用,為機(jī)器學(xué)習(xí)系統(tǒng)的大規(guī)模訓(xùn)練和效能發(fā)揮提供了有利的條件。
由于建設(shè)可靠的標(biāo)注語料庫花費(fèi)高且難度大,這促使我們更多地使用無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),讓計(jì)算機(jī)自動(dòng)地從浩如煙海的語料庫中獲取準(zhǔn)確的語言知識(shí)。因此,機(jī)器詞典和大規(guī)模語料庫的建設(shè)成為當(dāng)前計(jì)算語言學(xué)的熱點(diǎn)。進(jìn)入21世紀(jì)后,傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)一步發(fā)展成為基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。這種深度學(xué)習(xí)方法獨(dú)立于具體語言,只要語言數(shù)據(jù)足夠多,就可以讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)到該語言的各種特征,而且在分析精度上還大大地超過了傳統(tǒng)方法。這是在計(jì)算語言學(xué)歷史上獲取語言學(xué)知識(shí)方法的具有革命性意義的變革。
第三, 數(shù)學(xué)方法越來越受到重視。
使用人工觀察和內(nèi)省的方法,顯然不可能從浩如煙海的語料庫中獲取精確可靠的語言知識(shí),因此必須依靠統(tǒng)計(jì)數(shù)學(xué)的方法。
語言模型是描述自然語言內(nèi)在規(guī)律的數(shù)學(xué)模型,構(gòu)造語言模型則是計(jì)算語言學(xué)研究的核心。語言模型可以分為傳統(tǒng)的規(guī)則型語言模型、基于統(tǒng)計(jì)的語言模型和基于深度學(xué)習(xí)的語言模型。規(guī)則型語言模型是人工編制的語言規(guī)則,這些語言規(guī)則主要來自語言學(xué)家掌握的語言學(xué)知識(shí),具有一定的主觀性和片面性,難以處理大規(guī)模的真實(shí)文本?;诮y(tǒng)計(jì)的語言模型通常是概率模型,計(jì)算機(jī)借助語言統(tǒng)計(jì)模型的概率參數(shù),可以估計(jì)出自然語言中語言成分出現(xiàn)的可能性,而不是單純地通過語言學(xué)規(guī)則判斷,因此更加客觀和全面?;谏疃葘W(xué)習(xí)的語言模型完全不需要人工設(shè)計(jì)語言特征,計(jì)算機(jī)從大數(shù)據(jù)中自動(dòng)地獲取語言特征。這樣的基于深度學(xué)習(xí)的語言模型比概率性的語言統(tǒng)計(jì)模型更勝一籌,機(jī)器學(xué)習(xí)的效果大大提高了。
目前,計(jì)算語言學(xué)中的深度學(xué)習(xí)語言模型已經(jīng)相當(dāng)成熟,對研究者數(shù)學(xué)水平的要求也就更高了。
第四,自然語言處理中越來越重視詞匯的作用,出現(xiàn)了強(qiáng)烈的“詞匯主義”傾向。
詞匯是話語實(shí)現(xiàn)的主要載體,語法的作用僅僅是管理意義、組合成分和構(gòu)筑詞項(xiàng)。這種強(qiáng)調(diào)詞匯作用的傾向,稱為“詞匯主義”(lexicalism),已經(jīng)對計(jì)算語言學(xué)產(chǎn)生較大影響。
自然語言中充滿歧義,而這個(gè)問題的解決不僅與概率和結(jié)構(gòu)有關(guān),還往往與詞匯的特性有關(guān),必須依靠詞匯知識(shí)解決。事實(shí)證明,盡管在計(jì)算語言學(xué)中使用了概率的方法,但在遇到詞匯依存問題時(shí)往往顯得捉襟見肘,因此還需要探索其他的改進(jìn)途徑,特別是在概率語法中引入詞匯信息。
當(dāng)前,詞匯知識(shí)庫的建設(shè)獲得了廣泛的關(guān)注。各種語法知識(shí)庫和語義知識(shí)庫的建設(shè),都反映了這種強(qiáng)烈的“詞匯主義”傾向。
第五,多語言在線自然語言處理技術(shù)迅猛發(fā)展。隨著網(wǎng)絡(luò)技術(shù)的進(jìn)步,互聯(lián)網(wǎng)逐漸變成一個(gè)多語言的網(wǎng)絡(luò)世界,互聯(lián)網(wǎng)上的機(jī)器翻譯、信息檢索和信息抽取等計(jì)算語言學(xué)研究的需要變得更加緊迫。
在這個(gè)“信息爆炸”的時(shí)代,科學(xué)技術(shù)的發(fā)展日新月異,新的信息和知識(shí)噴涌而現(xiàn)。同時(shí),由于互聯(lián)網(wǎng)上非英語使用者的人數(shù)飛速增長,英語在互聯(lián)網(wǎng)上獨(dú)霸天下的局面已被徹底打破,互聯(lián)網(wǎng)確實(shí)已經(jīng)變成了“多語言的網(wǎng)絡(luò)世界”?!岸嗾Z言”這個(gè)特性使得互聯(lián)網(wǎng)變得豐富多彩,同時(shí)也造成了不同語言之間交流和溝通的困難。因此,互聯(lián)網(wǎng)上不同語言之間的翻譯當(dāng)然也就越來越迫切了。除了進(jìn)行單語言的計(jì)算語言學(xué)研究之外,大力開展多語言的計(jì)算語言學(xué)研究也愈發(fā)必要,如何溝通網(wǎng)絡(luò)上不同的自然語言也就成為計(jì)算語言學(xué)研究的重要課題。
在這樣的新形勢下,計(jì)算語言學(xué)這個(gè)學(xué)科的交叉性和邊緣性顯得更加突出,計(jì)算語言學(xué)研究者更不可能將自己只局限于某一個(gè)專業(yè)的狹窄領(lǐng)域。如果不從其他相關(guān)的學(xué)科吸收研究成果和研究方法,計(jì)算語言學(xué)研究必將裹足不前。計(jì)算語言學(xué)發(fā)展的現(xiàn)實(shí)需要,已經(jīng)給相關(guān)學(xué)者提出了更高更廣的要求。
?。ㄗ髡邌挝唬汉邶埥髮W(xué))
聯(lián)系客服