九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
機(jī)器學(xué)習(xí)與自然語言處理

一、 引言<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

隨著大規(guī)模語料庫的建設(shè)和各種語言知識庫的出現(xiàn),基于語料庫的統(tǒng)計機(jī)器學(xué)習(xí)方法進(jìn)入自然語言處理的視野。多種機(jī)器學(xué)習(xí)方法應(yīng)用到自然語言處理中來并取得了良好的效果,促進(jìn)了自然語言處理技術(shù)的發(fā)展。然而,自然語言處理領(lǐng)域仍然有許多課題尚待探索,為機(jī)器學(xué)習(xí)的研究與應(yīng)用提供了廣闊的舞臺。
本文較系統(tǒng)地介紹了自然語言處理中廣泛存在的歧義現(xiàn)象的類型、實例和問題,并提供了我們利用機(jī)器學(xué)習(xí)方法解決其中一些問題的實例。本文還引出文學(xué)語言對機(jī)器學(xué)習(xí)的挑戰(zhàn)性課題,其目的是期望更多的機(jī)器學(xué)習(xí)專家關(guān)注自然語言處理領(lǐng)域中的問題,共同努力,使自然語言處理技術(shù)朝自然語言理解的方向不斷前進(jìn)。

 

二、自然語言處理的主攻方向

自然語言處理的流程可以劃分為分析和生成兩大部分。自然語言生成固然也有很多難題,但幾十年來,自然語言處理研究的重點是分析。自然語言分析的關(guān)鍵就是識別與消解自然語言的歧義。人與人的交流由于有共同的知識背景,并且能領(lǐng)會交流的環(huán)境和過程,通常不會產(chǎn)生誤解。但是,作為語言學(xué)研究對象的任何一個語言單位,如詞、短語和句子等,如果脫離語境而孤立存在,通常都是有歧義的。當(dāng)交流在人和機(jī)器之間進(jìn)行時,由于機(jī)器尚不具備“背景知識”和“世界知識”,歧義現(xiàn)象就表現(xiàn)得尤為突出。
漢語信息處理很難回避的一個步驟就是把用漢字序列書寫的句子切分為詞的序列或者說從句子中辨識出詞。在這個最基本的步驟中,就存在大量的歧義。例如,僅“白天鵝”這3個漢字組成的序列就存在歧義:是“白/天鵝/”還是“白天//”?如果這3個字的序列落在更長的漢字序列中,歧義就可能得以消解。
白天鵝飛過來了——/天鵝//過來//  (因為鵝不會飛)
白天鵝可以看家——白天//可以//(家里通常不會養(yǎng)天鵝)
人如何消解歧義呢?當(dāng)然是根據(jù)業(yè)已掌握的知識。也可以把這些知識教授給計算機(jī),存儲在知識庫中,計算機(jī)據(jù)此也可以消解這樣的歧義。但如果“白天鵝”落在“白天鵝在湖里游泳”中,僅依靠存儲在人腦或電腦中的靜態(tài)知識,是不能判定句中的“白天鵝”這3個字應(yīng)該如何切分的,必須依賴更大的上下文語境。

 

* 本文相關(guān)研究得到國家 973 課題“文本內(nèi)容理解的數(shù)據(jù)基礎(chǔ)( 2004CB318102 )”、國家自然科學(xué)基金( 60773173 , 60603093 , 60503071 )、國家博士后基金( 20060400027 )和江蘇省社會科學(xué)基金( 06JSBYY001 )的支持。

 

動物園里,白天鵝在湖里游泳?!獎游飯@//,//天鵝////游泳/。/
白天鵝在湖里游泳,夜晚青蛙在池邊鳴唱。
——白天/////游泳/,/夜晚/青蛙////鳴唱/。/
詞語切分確定下來之后,還有歧義。見下例: 
老子不在家——老子//// 
這里的“老子”如果讀“lao3zi<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" />3,是指古代的人物;如果讀lao3zi”,則可能指“父親”,或者指“自己”。以上句子中“子”的讀音不同可以造成意義的不同,而同音詞也會形成另外的歧義。下面幾個例子中“連”的讀音是一樣的,但詞性不同(當(dāng)然,詞義也不同):
    一個連有三個排——“連”是名詞,指軍隊的建制;
我們兄弟心連心——“連”是動詞,“連接”的意思;
蘋果可以連皮吃——“連”是介詞,“帶”的意思。 
當(dāng)詞語切分和詞性標(biāo)注正確解決之后,還會面臨語句結(jié)構(gòu)的歧義。
兩個孩子的母親——/m  /q  孩子/n  /u  母親/n
              ——[ [  /m  /q  孩子/n ]  /u  母親/n ]
              ——/m  /q  [孩子/n  /u  母親/n ] ]
(m,q,n,u 分別是數(shù)詞、量詞、名詞、助詞的代碼)
短語中各個詞的結(jié)合順序不同,就構(gòu)成結(jié)構(gòu)不同的短語,意義也就不一樣。
再考察下面一組句子及其切分和詞性標(biāo)注的結(jié)果,其切分、標(biāo)注、語句結(jié)構(gòu)都無歧義:   
狗熊/n  /v  玉米/n                    
學(xué)生/n  /v  食堂/n                                     
民工/n  /v  大碗/n
顯然,動詞“吃”與其后面同是賓語的“玉米”、“食堂”、“大碗”的語義關(guān)系是不一樣的:“玉米”是“吃”的受事(動作所及的對象),“食堂”是“吃”的處所,“大碗”則是工具。又如,同是述補(bǔ)結(jié)構(gòu)的“寫完了”、“寫累了”、“寫滿了”、“寫全了”中的補(bǔ)語“完、累、滿、全”的語義指向也是不一樣的:“書稿寫完了”、“老師寫累了”、“紙寫滿了”、“要點寫全了”。這樣的語義指向問題對于計算機(jī)理解來說已經(jīng)非常困難了,但畢竟還可以根據(jù)上下文進(jìn)行分析。而像對
天快要下雨了吧?
這句話的意義的理解,則完全依賴說這句話的人身份和當(dāng)時的心境:主人希望留客還是在下逐客令。只有對說話者的態(tài)度進(jìn)行揣度分析,才能消解這種語境歧義。
除上述句子內(nèi)的切詞、多音詞、詞性、詞義、句法結(jié)構(gòu)、語義角色等都有歧義現(xiàn)象外,其它語言求解問題,諸如斷句(現(xiàn)代漢語盡管有標(biāo)點符號,確定句法和語義相對完整、又不過長的句子仍是難題)、指代、省略也可歸結(jié)為歧義問題。
自然語言處理技術(shù)的進(jìn)步總是伴隨著計算機(jī)系統(tǒng)內(nèi)的知識庫的豐富和發(fā)展。然而,人對知識的運(yùn)用并不局限于已經(jīng)知道的知識以及單純的機(jī)械計算或邏輯推理,人還會靈活運(yùn)用舊知識,從而創(chuàng)造出新知識。以下是筆者之一的親身經(jīng)歷。
曾在飛機(jī)上閱讀《今日民航》(20019月號)上一篇關(guān)于“沙漠化”的文章:“幾年前由于種植籽瓜有利可圖,使大批的種植者就到過渡帶來開墾,……在這樣的綠洲和沙漠過渡帶開墾,極易造成風(fēng)蝕。
刪節(jié)號代表略去的很長的篇幅。開始讀刪節(jié)號之前的第2句話,就是讀不懂,朦朧地做了這樣的切分:“就”、“就到”、“到”、“到過”、“過渡”、“帶”、“帶來”、“來”、“開墾”,總是感覺不連貫。無奈,也就放過去了。當(dāng)讀到刪節(jié)號后的那句話時,“過渡帶”這個新詞突然被發(fā)現(xiàn),而且很自然地聯(lián)想到前面那句未能理解的話,現(xiàn)在也豁然理解了。那時筆者第一次接觸“綠洲和沙漠過渡帶”這樣一個新概念,從前筆者的腦海中并沒有這樣的知識,卻突然獲取了這個知識,這種情況可不可以說是“頓悟”?這種“頓悟”的機(jī)理,計算機(jī)可以模擬嗎?這一段由不懂到懂的文字顯然超出了“未定義詞”的范疇,因為“籽瓜”對很多人和機(jī)器詞典來說或許也是未定義詞,但似乎并不像“過渡帶”這個新概念那樣妨礙對文章的理解。
讓計算機(jī)理解符合規(guī)則(詞法、句法、語義)的自然語言的語句和文本已經(jīng)是十分困難的任務(wù),不同語言單位的各種形態(tài)的歧義已經(jīng)讓研究者左支右絀,力不從心。然而,當(dāng)自然語言處理面對語言中的各種修辭手法時,又會遭遇什么樣的困難呢?

三、文學(xué)語言對機(jī)器學(xué)習(xí)提出的挑戰(zhàn)

    記得一位語言學(xué)家W. Taubert 曾說過,“自然語言是一套規(guī)則加噪聲”。這個命題如果不算是一條定律,至少是一種看法。
    哪些現(xiàn)象可以看作是噪聲?規(guī)則能反映形象思維的規(guī)律嗎?這些問題同樣難以界定。
并非所有不合規(guī)則和常識的語句都是噪聲。在常識范圍內(nèi),動詞“吃”的客體或?qū)ο笸ǔJ鞘澄?。土塊不是食物。有報紙曾載,“中國河北省有個老太太吃土塊”。顯然不能認(rèn)為這句違背常識的話是混在正常自然語言中的噪聲。
文學(xué)作品常常采用的一些表現(xiàn)手法更增加了自然語言理解的難度,甚至超越了目前機(jī)器理解可能達(dá)到的界限。而這些文學(xué)表現(xiàn)手法也不能簡單地看作是自然語言的噪聲。

1 隱喻和影射

隱喻是修辭學(xué)的傳統(tǒng)研究內(nèi)容,運(yùn)用隱喻是為了提高語言表達(dá)效果。作為一種修辭手段,隱喻可以歸于文學(xué)語言的范疇,但從認(rèn)知語言學(xué)角度觀察,隱喻無處不在,因此它又不限于文學(xué)語言的范疇。認(rèn)知語言學(xué)甚至認(rèn)為“隱喻不僅僅是語言修辭手段,而且是一種思維方式——隱喻概念體系。作為人們認(rèn)知、思維、經(jīng)歷、語言甚至行為的基礎(chǔ),隱喻是人類生存主要的和基本的方式[1]?!痹谟嬎阏Z言學(xué)領(lǐng)域,特別是在漢語信息處理領(lǐng)域,中國內(nèi)陸學(xué)者只是近年來才開始關(guān)注“隱喻”的識別和求解[2,3]。不過,語言信息處理要走上自然語言理解的坦途,隱喻是必須逾越的路障。
首先探討隱喻和歧義的關(guān)系。歧義是指對同一個語言形式進(jìn)行分析或理解時,至少存在兩種不同的結(jié)果。歧義消解就是對兩種以上的可能結(jié)果,在特定的語境中選擇其中的一種作為答案。歧義的最終消解取決于語境,需要語境分析。機(jī)器理解的困難是“由同辨異”。
“這男人是狼”和“那女人是狐貍”這樣的話就是隱喻。“男人是狼”本是違反生物分類學(xué)常識的,而在自然語言中這種表現(xiàn)形式又是常見的。隱喻符合人的認(rèn)知機(jī)制,說話人利用了“男人”和“狼”的某種共同屬性構(gòu)成含有隱喻的句子,比直接說“男人如何如何”的表現(xiàn)力要豐富得多,聽話人“異中求同”,也能夠理解說話人想講什么。對于機(jī)器來說,“異中求同”和“由同辨異”一樣困難。隱喻也包含有歧義問題,“男人是狼”在不同的語境中也可能表達(dá)不同的意思。又如,“男人都是動物”表面上是符合常識的,這句話在不同語境中有歧義,在某個語境中,也可以作為隱喻。隱喻和歧義的復(fù)雜關(guān)系及其界定還需要進(jìn)行深入的討論。 
可以根據(jù)包含隱喻的語言單位的大小將隱喻劃分為詞匯級、語句級和篇章級。
從詞匯級隱喻開始(以下涉及詞義,均參照《現(xiàn)代漢語詞典》[4],但也有一些修改)。像“山頭”、“墻腳”、“心田”、“吹?!薄ⅰ奥恶R腳”、“吹毛求疵”、“雞蛋里挑骨頭”這樣一些些詞語,都是借助隱喻形成的。例如,“山頭”有兩個義項:山的最高處;②比喻獨霸一方的宗派。②顯然是隱喻。關(guān)于,這個“山頭”也是由隱喻形成的,本體是“山(的最高處)”,喻體是“(人)頭”。只是人們已經(jīng)習(xí)慣叫“山頭”,詞典就不特別指明它是隱喻?!吧筋^”在組成短語時又可以有進(jìn)一步的隱喻用法,如“他這個人慣于壘山頭,作風(fēng)不正派”。
只要詞典(或機(jī)器中的詞匯知識庫)登錄了這些詞語的各種義項(包括本義或引申的隱喻義),識別和理解這些詞語沒有特別的困難,其求解技術(shù)同歧義消解沒有本質(zhì)的區(qū)別。詞匯級隱喻也在發(fā)展。像“病毒”、“窗口”、“垃圾”這些詞,1996年版的《現(xiàn)代漢語詞典》的釋義都與計算機(jī)技術(shù)沒有關(guān)系。由于計算機(jī)技術(shù)的普及,這些詞的新義在社會上的使用日益廣泛。2005年版的《現(xiàn)代漢語詞典》增加了這些詞作為計算機(jī)詞匯的新義項。這些詞都是由隱喻形成的,但把這些詞匯加入詞典后,對這些詞匯隱喻意義的識別就如同詞義消歧一樣,沒有特別之處了。
語句級的隱喻如:“金融風(fēng)暴”、“知識的海洋”、“郎平是中國女排的鐵榔頭”、“鐵榔頭(指郎平)的去向尚未敲定”、“幻想是詩人的翅膀”,等等。“詩人的翅膀”和“幻想是翅膀”已經(jīng)是隱喻的表現(xiàn)形式,“幻想是詩人的翅膀”則是雙重隱喻。
“風(fēng)暴”、“海洋”、“鐵榔頭”、“翅膀”都是普通的名詞,用在這里使整個語句有了隱喻的意義。普通動詞和形容詞也可以用于隱喻。像“鐵榔頭(指郎平)的去向尚未敲定”中的“敲”在這里也是隱喻用法。其它的例子還有“用知識照亮希望”,“熱血沸騰,激情燃燒”、“這樣處理可以得到漂亮的結(jié)果”,等等。
書要擺在書架上,或者拋幾本在地板上,酒杯要擺在桌子上,但算盤卻要收在抽屜里,或者最好是收在肚子里。”(魯迅《病后雜談》)
這是一個句群。第二個“或者”之前的幾句都符合常識?!八惚P”作為計算工具自然可以“收在抽屜里”,前面用“但”,會使人感到奇怪。讀到“或者最好是收在肚子里”,才會理解“收在肚子里”的“算盤”是個人的想法和打算,當(dāng)然不便擺在“桌面”上。這樣,整個句群的隱喻意義才會顯現(xiàn)出來。
打起黃鶯兒,莫叫枝上啼。啼時驚妾夢,不得到遼西。”這首短詩可以作為篇章級隱喻的例子。其中“遼西”喻指古戰(zhàn)場,整首詩則反映妻子對在遠(yuǎn)方征戰(zhàn)的親人的魂牽夢繞。篇章級的隱喻自然更難求解。像魯迅的《狂人日記》顯然不能按字面意義去理解,一定要理解它隱喻什么,影射什么。在這里,影射是要達(dá)到的目的,而隱喻只是表現(xiàn)手段。
語言或文章常有弦外之音(這里的“弦外之音”又隱喻“言外之意”),這是最難理解和表達(dá)的。弦外之音是否也可看作篇章級隱喻的效果?或許也可看作是語用問題,也就是必須基于語境(狹義的上下文和廣義的社會、文化、歷史環(huán)境)才能消解的歧義。
再看朱慶余的宮中詞“寂寂花開閉院門,美人相并立瓊軒。含情欲說宮中事,鸚鵡前頭不敢言。”詩人想象兩個宮女想講講貼己話,又恐鸚鵡學(xué)舌,泄露機(jī)密。計算機(jī)即使裝備了“鸚鵡會學(xué)人說話”的知識,它能理解詩中所反映的宮女的孤寂和膽怯嗎?這首詩或許還有更深一層的含義,表現(xiàn)皇宮內(nèi)院的壓抑、沉悶、恐怖、人人自危的生存環(huán)境,這樣的一層含義,計算機(jī)能夠通過學(xué)習(xí)進(jìn)而理解嗎?
文學(xué)作品常常表現(xiàn)人物觸景生情,如王昌齡的《閨怨》:“閨中×××不知愁,春日凝妝上翠樓。忽見陌頭楊柳色,悔教夫婿覓封侯。”為什么×××見了楊柳,就對讓丈夫外出競逐功名起了后悔之心?只在這一首詩中是難以找到答案的,必須了解當(dāng)時人們的文化背景。以“楊柳”為關(guān)鍵詞檢索唐詩,找到如下一些詩篇:張九齡的《折楊柳》:“纖纖折楊柳,持此寄情人,一枝何足貴,憐是故園春。”李瑞的《橫吹曲辭——折楊柳》:“贈君折楊柳,顏色豈能久,上客莫沾巾,佳人正回首。”令狐楚的《遠(yuǎn)離別》:“昨日盧梅渡口,整見諸人鎮(zhèn)守,都護(hù)三年不歸,折盡江邊楊柳。”還有《送別》:“楊柳東門樹,青青夾御河。近來攀折苦,應(yīng)為別離多。”從這些詩,讀者可以了解,唐代人經(jīng)常把“楊柳”和“離別”、“思念”聯(lián)系在一起。計算機(jī)能不能學(xué)到這樣的知識?對包含“楊柳”的詩篇進(jìn)行比較、計算、判別,探求詩篇所表達(dá)的情感,進(jìn)而達(dá)到對不同語境中的“楊柳”詞義的理解。這是計算語言學(xué)正在努力研究的問題[5]。
除了隱喻之外,還有很多的文學(xué)表現(xiàn)手法也突破了常規(guī)的語法。文學(xué)作品是形象思維的結(jié)晶,其表現(xiàn)形式自然也需要形象生動,需要標(biāo)新立異,常常采用夸張、擬人、典故、雙關(guān)等表現(xiàn)手法,還要照顧韻律、節(jié)奏、效果等美學(xué)因素,由此造成的真實文本往往有不合語法、違反常識的現(xiàn)象,這些算不算噪聲,計算機(jī)如何識別、應(yīng)對和理解?

2 引用典故

韋莊的《章臺夜思》:“清瑟怨遙夜,繞弦風(fēng)雨哀。孤燈聞楚角,殘月下章臺。芳草已云暮,故人殊未來。鄉(xiāng)書不可寄,秋雁又南回。”鄉(xiāng)書和秋雁有何關(guān)聯(lián)?這里引用了古人(《漢書:蘇武傳》)的雁足傳書的故事。
     杜牧的《赤壁》:“折戟沉沙鐵未銷,自將磨洗認(rèn)前朝。東風(fēng)不與周郎便,銅雀春深鎖二喬。”這里引用了火燒赤壁的大故事,里面又包含了借東風(fēng)、孫策娶大喬、周瑜娶小喬、曹操建銅雀臺等小情節(jié)。如果不了解這些歷史事件,如何能知道這首詩在說些什么呢?
    當(dāng)代人講話、寫文章也常常引用典故或古詩詞。

3 遣詞造句的形象化

3-1 使用形象化的量詞
通常名詞與量詞的搭配有一定的規(guī)則和約定俗成的習(xí)慣。為了生動形象,使人印象深刻,
可能故意標(biāo)新立異,選用其它的詞作量詞。例如:“燈”是可計數(shù)名詞,與它搭配的典型量詞是“盞”??墒?,在下面的報道中:
雪一程,風(fēng)一程,災(zāi)區(qū)雪夜千帳燈。張北縣臺路溝鄉(xiāng)二百來戶人家的大圪村,人口近六百人。走進(jìn)村民趙榮福家的帳篷,幾戶人正圍坐在一臺電視機(jī)前,收看電視新聞節(jié)目。
千帳燈”雖然符合“數(shù)詞+量詞+名詞”的結(jié)構(gòu),可是量詞用了“帳”,顯然不合常規(guī),但又比“盞”要生動,更切合情境。又如,“一鉤新月”、“一葉小舟”、“一寸光陰一寸金”中的量詞“鉤、葉、寸”是很形象的,但都不是通常使用的。
3-2  詞性的變通使用
古漢語中不乏詞性變通使用的實例:
曉鏡但愁云鬢改
在此,名詞“鏡”作動詞用:“照鏡子”。
春風(fēng)又綠江南岸
在此,形容詞“綠”作動詞用:“使…變綠”。
當(dāng)局能肩天下事
讀書深得古人心
在此,名詞“肩”作動詞用:“肩負(fù)”。
這里的名詞“鏡”、“肩”和形容詞“綠”都作了動詞,固然是受制于古詩、楹聯(lián)的字?jǐn)?shù)和格律,卻也顯得緊湊、生動。由此可以看出,詞性變通使用的現(xiàn)象在古漢語中已經(jīng)存在。變通使用得多了、久了,就成了兼類。
3-3)韻律影響語序,造成不合語法、語義的詞序
    ×××的詩句“春風(fēng)楊柳萬千條,六億神州盡舜堯。”中的“神州”指中國,何來“六億中國”?應(yīng)是“中國的六億人”。受律詩平仄分布規(guī)律的制約,詩人改變了正常語序。
李清照的詞:“簾卷西風(fēng),人比黃花瘦?!?/span>查《現(xiàn)代漢語詞典》中動詞“卷”,有例句:“風(fēng)卷著雨點劈面打來”。據(jù)此,正常語序“西風(fēng)卷簾”才好理解。
3-4)擬聲、擬態(tài)詞
離離原上草,一歲一枯榮。野火燒不盡,春風(fēng)吹又生。遠(yuǎn)芳侵古道,晴翠接荒城。又送王孫去,萋萋滿別情。”這里的“離離”指草長垂貌;“萋萋”指草盛貌。
風(fēng)蕭蕭兮易水寒,壯士一去兮不復(fù)還。”中的“蕭蕭”可能是擬聲詞?!?/span>無邊落木蕭蕭下,不盡長江滾滾來”中的“蕭蕭”、“滾滾”可能是擬態(tài)詞,也可能是擬聲詞。 這些擬聲詞、擬態(tài)詞是很難根據(jù)所用的漢字猜想其真正意義的。
3-5褒貶色彩轉(zhuǎn)換
他出國留學(xué)不過3年,便‘拐’了一個洋妞回來。”“拐騙”意義的“拐”是貶義詞,用在這里只有夸耀、羨慕的意義,完全沒有貶義。
正意反說與褒貶色彩轉(zhuǎn)換有點相似?!?/span>嶺外音書絕,經(jīng)冬復(fù)立春。近鄉(xiāng)情更怯,不敢問來人。(李頻:渡漢江)長年流浪在外,好不容易快回到故里了,照常理,本該急切了解家鄉(xiāng)近況,此刻卻反而不敢打聽了,這種心態(tài)把太過牽掛的心境,表現(xiàn)得淋漓盡致。

4 夸張

    李白的樂府詩《將進(jìn)酒》:“君不見黃河之水天上來,奔流到海不復(fù)回。君不見高堂明鏡悲白發(fā),朝如青絲暮成雪。”講黃河水的磅礴氣勢,用頭發(fā)喻人生,都極其夸張,超出了常識。

5)雙關(guān)

5-1)語義雙關(guān)
由于語言符號的有限性與自然語言所表現(xiàn)的內(nèi)容的無限性,自然語言的歧義是固有的,但人們有時還要故意采用歧義表現(xiàn)手段,凸現(xiàn)出待人接物的技巧和語言運(yùn)用的藝術(shù)。一語雙關(guān)是典型的例證。
可是匪徒們走上幾十里的大山背,他們沒想到包馬腳的麻袋片全爛掉在馬路上,露出了他們的馬腳。”(曲波《林海雪原》)
通常,“露馬腳”只用其引申義(隱喻):露出破綻。這里的“露馬腳”一語雙關(guān):表面上敘述事實,實際上用了隱喻。
往后的日子,兒子開始在下課后被留下來,開始了他自己說的‘留學(xué)’生涯。理由是字寫得太丑了,留下來繼續(xù)學(xué)寫字?!?/span>
通常,“留學(xué)”是“留在國外學(xué)習(xí)”的縮寫,約定俗成,中國人“留學(xué)”還常讓人羨慕。這里將“留下來繼續(xù)學(xué)寫字”也緊縮成“留學(xué)”,也符合詞語縮略的規(guī)則,卻又明顯帶有調(diào)侃的口氣,顯得幽默風(fēng)趣。
以下的例子是歧義的活用 —— 一語雙關(guān)的例子:
某下崗工人開的理發(fā)店的招牌:“從頭開始”。其意思一:我的新生活從(剃)頭(理發(fā))開始;意思二:下崗不可怕,一切可以從頭(重新)做起。表現(xiàn)了理發(fā)店主人詼諧的性格,樂觀的生活態(tài)度。
另一理發(fā)店的招牌:“頂上功夫”。其意思一:頭(頂)上的手藝——理發(fā);意思二:最棒的手藝。一語雙關(guān),用得實在妙!
5-2)諧音雙關(guān)
利用音同或音近的條件使詞語或句子語義雙關(guān),也是一種藝術(shù)。古詩如:
東邊日出西邊雨
道是無晴(情)卻有晴(情)
這樣的諧音雙關(guān)是耐人尋味的。  
此外,漢語中的許多歇后語就是利用諧音雙關(guān)構(gòu)成的。例如
老虎拉車——誰趕(敢)?
也有兼顧諧音和意義的。某車主在他的后車窗寫道:“別吻我,我怕羞(修)!
意思一:別撞上我,修車挺麻煩的。意思二:別太親近我,我害羞。語言形象生動,利用諧音雙關(guān),風(fēng)趣幽默。

6 擬人化

童話故事中的“狼和小羊”的對話惟妙惟肖地刻畫了一個霸道者的蠻不講理和弱小者的聰明善辨。在常識中,無論是狼還是小羊可都不會說人話呀。有的童話故事還濃縮成了一句習(xí)慣用語:“狐貍吃不到葡萄說葡萄酸”。
目前不僅自然語言處理的實用技術(shù)同識別、理解文學(xué)語言的要求尚有很大的距離,而且計算語言學(xué)在理論上也沒有找到合適的模型。可否借鑒機(jī)器學(xué)習(xí)的理論和方法以及如何借鑒?是否可以圍繞文學(xué)語言的理解建立一套機(jī)器學(xué)習(xí)的理論和方法?這些問題都值得我們探討、思考和實踐。

 

四、服務(wù)于機(jī)器學(xué)習(xí)的語言資源建設(shè)

       北京大學(xué)計算語言學(xué)研究所(ICL/PKU, Institute of Computational Linguistics, Peking University)1986年成立,至今已有二十多個年頭。在這二十余年自然語言處理的實踐中,我們深切體會到語言資源和語言知識庫在自然語言處理中的重要性。面向自然語言的機(jī)器學(xué)習(xí),就是要在大規(guī)模語料庫的基礎(chǔ)上訓(xùn)練各種模型的參數(shù);要在各類語言知識庫的強(qiáng)力支撐下,完成自然語言各層級的處理任務(wù)。而語言知識庫建設(shè)本身,也就是語言文本中的知識發(fā)現(xiàn),同樣可以利用機(jī)器學(xué)習(xí)的各種方法。
二十年來,我們建立起比較齊全的各類語言資源,其中一些已經(jīng)在國內(nèi)外機(jī)器學(xué)習(xí)和相關(guān)研究中得到廣泛的應(yīng)用。在此基礎(chǔ)上,我們先后開展了詞法分析、句法分析、語義分析、語用分析、機(jī)器翻譯、領(lǐng)域知識工程、信息檢索、信息抽取、自動問答系統(tǒng)等一系列的研究,積累了一定的經(jīng)驗。到目前為止,已經(jīng)成形的語言知識庫主要有
1)現(xiàn)代漢語語法信息詞典[6]
2)大規(guī)模現(xiàn)代漢語基本標(biāo)注語料庫[7,8]
3)大規(guī)?,F(xiàn)代漢語詞義標(biāo)注語料庫[9]
4)面向漢英機(jī)器翻譯的現(xiàn)代漢語語義詞典[10]
5)面向跨語言文本內(nèi)容處理的中文概念詞典[11]
6)英漢、日漢對照雙語語料庫[12]
7)多個專業(yè)領(lǐng)域的術(shù)語庫(信息科學(xué)技術(shù)、體育、商務(wù)、旅游、餐飲)[13]
8)現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則庫[14]
9)中國古代詩詞語料庫[15]
10)服務(wù)于語言知識庫建設(shè)的各種工具軟件
成果(1)是北大語言知識庫的第一塊基石。它收詞8萬,依據(jù)語法功能優(yōu)勢分布建立了一個面向信息處理的詞類體系,完成了8萬詞語的歸類,在此基礎(chǔ)上,進(jìn)而又采用關(guān)系數(shù)據(jù)庫文件格式按類描述每個詞語的詳細(xì)的語法屬性。成果(2)就是在此基礎(chǔ)上開發(fā)的,現(xiàn)在已經(jīng)積累到約6000萬漢字的規(guī)模。
成果(4)的結(jié)構(gòu)設(shè)計參照成果(1),采用同樣的知識描述形式,詞語條目也是《現(xiàn)代漢語語法信息詞典》的子集,記錄數(shù)約有6萬。成果(3)是以成果(4)為基礎(chǔ)建立起來的,同時,大規(guī)模詞義語料庫的標(biāo)注過程,也對《現(xiàn)代漢語語義詞典》的完善發(fā)揮了巨大的作用。成果(5)參照WordNet, 用同義詞詞集synset表示概念,目前收入的概念已達(dá)到10萬。這兩部詞典從不同側(cè)面描述了漢語詞匯的語義知識。由于它們是面向機(jī)器翻譯以及信息檢索、信息提取等跨語言文本處理的,都涉及兩種以上的語言,所以它們的每一個詞條都有對譯的英語詞。成果(6)以更大的對譯單位(文章、段落、句子、短語)覆蓋兩種語言。目前對齊了的英漢對照的句子在80萬對以上,日漢對照的句子也有2.5萬對。
從成果(1)到成果(6)匯集的都是日常生活語言的知識。成果(7)則提供專業(yè)知識,這些術(shù)語庫中的術(shù)語都是英漢對照的。另有一部計算語言學(xué)的術(shù)語庫,英、日、德、漢4種語言對照,收入5000多條計算語言學(xué)和自然語言處理領(lǐng)域的術(shù)語[16]。
從成果(1)到成果(7)聚焦于詞匯知識。成果(8)描述的則是句法結(jié)構(gòu)知識,含600多條擴(kuò)充的上下文無關(guān)句法規(guī)則。
從成果(1)到成果(8)都是關(guān)于現(xiàn)代漢語的。建設(shè)“中國古代詩詞語料庫”的目的是利用在現(xiàn)代漢語信息處理研究中積累的技術(shù)和方法開展古代詩詞計算機(jī)輔助深層研究,同時進(jìn)行古代漢語和現(xiàn)代漢語的縱向?qū)Ρ妊芯俊?span lang="en-us">
建造語言知識庫需要專家知識的投入,也需要工具軟件的輔助。ICL/PKU開發(fā)的一系列工具軟件也是知識庫的有機(jī)組成部分。成果(10)中包含的“現(xiàn)代漢語詞語切分與詞性標(biāo)注軟件”、“現(xiàn)代漢語文本注音軟件”、“雙語語料庫構(gòu)建工具集”具有通用性。為中文概念詞典CCD研制的可視化詞典輔助構(gòu)造軟件VACOL,對加快CCD的研制進(jìn)程起了關(guān)鍵作用。 以前提供《現(xiàn)代漢語語法信息詞典》給用戶使用時,只提供數(shù)據(jù)庫本身,現(xiàn)在也開發(fā)了功能完善的管理軟件,不但操作快速安全,而且為詞典的擴(kuò)充提供了方便。
這些語言數(shù)據(jù)資源匯集的語言知識及其表述形式獨立于特定的語言信息處理系統(tǒng)和實現(xiàn)算法。這種設(shè)計理念使得這些知識庫得以廣泛傳播。
從方法論角度考察,這些語言數(shù)據(jù)資源的建設(shè)既采用基于規(guī)則的方法,也采用基于統(tǒng)計的方法。“大規(guī)?;緲?biāo)注語料庫”及其開發(fā)工具“詞語切分與詞性標(biāo)注軟件”是最典型的例證。而這些語言數(shù)據(jù)資源的存在又促進(jìn)了這兩種方法的發(fā)展和融合。
ICL/PKU 為這些資源的傳播提供了便利,所有資源的規(guī)格說明書都已經(jīng)公開發(fā)表?!艾F(xiàn)代漢語詞語切分、詞性標(biāo)注、注音軟件”的功能可以在網(wǎng)上測試?,F(xiàn)在可以從網(wǎng)上[1]下載的資源包括:《現(xiàn)代漢語語法信息詞典》的1萬個詞語的樣例數(shù)據(jù)庫;一個月的《人民日報》標(biāo)注語料庫,200多萬字;機(jī)器翻譯評測大綱與例句集;大規(guī)模詞義標(biāo)注語料庫的部分語料,等等。 2001510《人民日報》語料庫下載次數(shù)開始進(jìn)行統(tǒng)計,截至2007228日,已記錄了11578下載人次。并且,這個數(shù)字仍在不斷更新。1996年以來,以《現(xiàn)代漢語語法信息詞典》為龍頭的北大語言數(shù)據(jù)資源通過簽訂許可使用權(quán)協(xié)議的方式轉(zhuǎn)讓給了國內(nèi)外的諸多大學(xué)、研究院所和公司,遍及美國、法國、德國、英國、瑞典、日本、韓國、新加坡、中國香港、中國臺灣以及境內(nèi)各地。2007年初,ICL/PKU申報的“綜合型語言知識庫”研究成果通過了教育部組織的技術(shù)鑒定。以張鈸院士為主任、懷進(jìn)鵬教授為副主任的鑒定委員會認(rèn)為:“《綜合型語言知識庫》開創(chuàng)性地實現(xiàn)了漢語詞語的大規(guī)模歸類與屬性描述,很好地處理了基礎(chǔ)研究與應(yīng)用研究的關(guān)系,形成了基礎(chǔ)資源建設(shè)與應(yīng)用系統(tǒng)開發(fā)相互支撐、相互促進(jìn)的良性模式,其規(guī)模、深度、質(zhì)量和應(yīng)用效果在我國語言工程實踐中是前所未有的。該成果是以漢語為核心的多語言知識庫建設(shè)中最全面、最重要的研究成果,總體上達(dá)到了國際領(lǐng)先水平?!?/span>
機(jī)器學(xué)習(xí)的本質(zhì)是基于數(shù)據(jù)的學(xué)習(xí)(Learning from Data)。在自然語言處理中,機(jī)器要學(xué)習(xí)的語言知識的源頭是人們使用的話語和創(chuàng)作的文本,現(xiàn)在通常以語料庫的形式存放在機(jī)器中。從沒有經(jīng)過任何加工的原始語料中,機(jī)器就可以學(xué)到很多書面語言的知識,例如漢字頻度、常用的漢字串(組塊)及其頻度、漢字串與漢字串的搭配以及搭配強(qiáng)度等,甚至通過聚類方法也可以區(qū)分(或者說“辨析”,也是某種意義上的“學(xué)習(xí)”)詞語的義項乃至文本的內(nèi)容,這類學(xué)習(xí)可以歸于無指導(dǎo)的學(xué)習(xí)。無指導(dǎo)的學(xué)習(xí)很重要,人可能主要是通過無指導(dǎo)的學(xué)習(xí)方式培養(yǎng)自己的學(xué)習(xí)和處事能力的。但人類社會又強(qiáng)調(diào)教育的重要性,教育是有指導(dǎo)的學(xué)習(xí)。人類借助老師、教材等有指導(dǎo)的方式學(xué)到的可能主要是知識。知識不能等同于能力,但是能力的強(qiáng)弱在某種程度上或在某些方面又要依賴于是否具備足夠的知識。顯然,對于人來說,有指導(dǎo)的學(xué)習(xí)和無指導(dǎo)的學(xué)習(xí)缺一不可。我們以為,機(jī)器也是一樣。原始語料固然包含大量的語言知識,在確定的上下文環(huán)境中,其含義和用法也是確定的,機(jī)器是可以學(xué)到的。但原始語料中語言知識的表現(xiàn)方式卻是隱性的,限于當(dāng)前人工智能的水平(學(xué)習(xí)能力)或者數(shù)據(jù)的規(guī)模,機(jī)器還不容易學(xué)到這些知識。需要有人加以指導(dǎo)、點撥。以不同的形式和深度對語料進(jìn)行加工,就是使隱含的信息顯性化。例如,進(jìn)行了切分的語料,使詞的知識顯性化了;完成了詞性標(biāo)注的語料,不僅使詞的知識顯性化,而且使其詞性的知識顯性化。加工越深,顯性化的信息就越多。
語言學(xué)家的論著和語文詞典是人類語言知識的集大成者。人通過閱讀語言學(xué)論著和查閱詞典學(xué)習(xí)語言知識,可以收到事半功倍的效果。機(jī)器也應(yīng)該是這樣的。不過,面向人的論著和詞典,也是當(dāng)代的計算機(jī)理解不了或不便應(yīng)用的。《現(xiàn)代漢語語法信息詞典》,《現(xiàn)代漢語語義詞典》和《中文概念詞典》這類相當(dāng)于語文詞典的語言知識庫都是結(jié)構(gòu)化的,機(jī)器就便于利用了。結(jié)構(gòu)化的語言知識庫與非結(jié)構(gòu)化的文本中的語言知識構(gòu)成互補(bǔ)的關(guān)系:詞匯知識庫中關(guān)于語言知識的表達(dá)都是顯性的,但也是靜態(tài)的,存在“不確定性”(例如:一詞多類或一詞多義);在真實的文本語料中,詞的每次出現(xiàn)都有一定的語境,其詞義、句法功能、語義角色雖然都是確定的,但卻是隱性的。要使文本中的語言知識顯性化,結(jié)構(gòu)化的語言知識庫可以提供必要的支持。
對結(jié)構(gòu)化的語言知識庫也可以進(jìn)行知識挖掘,即結(jié)構(gòu)化的語言知識庫也是機(jī)器學(xué)習(xí)可以利用的數(shù)據(jù)。特別是當(dāng)把結(jié)構(gòu)化的語言知識庫以及基于這些知識庫加工的語料庫集成到一起,機(jī)器可以學(xué)到更豐富、更深入的語言知識。
正是基于上述認(rèn)識,ICL/PKU不僅研制了多種類型的語言知識庫,而且力求各類知識庫相互補(bǔ)足,形成綜合型語言知識庫。ICL/PKU利用綜合型語言知識庫,嘗試進(jìn)行深層次的知識挖掘,已經(jīng)取得一些成果,例如,詞頻、帶詞性的詞頻、詞的(粗/細(xì)粒度)義項頻度、詞的分布均勻度、動詞向名詞漂移現(xiàn)象以及詞與詞組合規(guī)律的定量描述,等等。這些知識無論對于信息處理,還是對于語言本體研究乃至語言教學(xué)都是十分有價值的。
為了讓已有的各類語言知識庫發(fā)揮更大的效益,ICL/PKU正在努力把它們集成到綜合型語言知識庫系統(tǒng)中[17]。也期望這樣的綜合型語言知識庫系統(tǒng)為機(jī)器學(xué)習(xí)提供一個廣闊的舞臺。

五、機(jī)器學(xué)習(xí)方法的實踐

ICL/PKU現(xiàn)有的語言資源的支撐下,我們近期開展了許多研究,這里介紹3個例子:詞義消歧研究、文本的情感傾向分析研究和隱喻識別研究。這些研究都使用了機(jī)器學(xué)習(xí)的方法,涉及自然語言處理的各個層面。如果說詞義消歧還可以歸于語言本體研究的話,那么文本的情感傾向分析則深入到文本所反映的主觀褒貶態(tài)度,而隱喻的識別則把研究的觸角伸向修辭學(xué)以及人類語言認(rèn)知的層面上。

1)詞義消歧研究

一詞多義在自然語言中是一個非常普遍的現(xiàn)象。以動詞“講”為例,可以出現(xiàn)在“講/故事/”和“講/衛(wèi)生/”等上下文中。前者的意思是“說”,而后者表示“注意”。
詞義消歧(Word Sense Disambiguation, WSD)就是從給定上下文中確定一個多義詞的具體意思(sense)。這項研究最早源起于20世紀(jì)50年代的機(jī)器翻譯,目前已涉及自然語言處理的諸多領(lǐng)域,如機(jī)器翻譯、信息檢索、問答系統(tǒng)等。數(shù)十年來,針對詞義消歧已經(jīng)提出許多方法,大致可以分為基于規(guī)則的方法、基于詞典的方法和基于語料庫的方法。
目前基于統(tǒng)計學(xué)習(xí)的主流研究方法是把詞義消歧看作典型的分類問題,通過建立詞義標(biāo)注語料庫作為訓(xùn)練數(shù)據(jù)去訓(xùn)練各種分類器,實現(xiàn)對新的上下文中多義詞的消歧。WSD可以描述如下:
對具有N個義項的多義詞W,記為 S = {s1, s2, … , sn}。W出現(xiàn)在某個確定的上下文C(可以是小句、句子、段落甚至篇章)中,詞義消歧的任務(wù)就是根據(jù)給定的上下文C,在這N個義項中選擇一個最合適的義項,記為<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />
其中,R用來計算每個義項和上下文匹配的程度。
需要指出的是,詞義消歧也可以采用自動聚類的方法實現(xiàn),稱為詞義區(qū)分(Word Sense Discrimination)。雖然也可以縮寫為WSD,但這不屬于本文討論的范圍(有興趣的讀者可參閱[18])。以下行文中,若無特別說明,WSD即為詞義消歧。
詞義消歧不是自然語言處理的一項獨立的任務(wù),而且消歧系統(tǒng)性能的評測會因為詞義區(qū)分的顆粒度、所用語料等的不同而有很大的差異。為了更好地開展研究,國際上于1998年成立了SENSEVAL[url]http://www.senseval.org[/url])組織,提供benchmark 數(shù)據(jù),開展國際評測。迄今為止已經(jīng)進(jìn)行了3屆。2007年將進(jìn)行第4屆評測,名稱改為SemEval-2007。從名字的改變可以看出,該測評從以往的單純詞義消歧,發(fā)展到包括詞義消歧和語義角色標(biāo)注等多個方面的測評。ICL/PKU也提供了一個任務(wù),為評測提供標(biāo)準(zhǔn)語料[19]。從以往的評測結(jié)果看,所用分類器包括支持向量機(jī)、決策表、決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)、最大熵等分類模型和算法。性能比較好的系統(tǒng),幾乎都采用了集成(Ensemble)學(xué)習(xí)的策略[20]
下面將按照數(shù)據(jù)采集、特征提取和選擇、模型選擇、訓(xùn)練和性能評估這一機(jī)器學(xué)習(xí)的經(jīng)典流程來介紹ICL/PKU所做的工作。
(1) 數(shù)據(jù)采集
對詞義消歧而言,數(shù)據(jù)采集WSTWord Sense Tagging就是建立大規(guī)模、高質(zhì)量的詞義標(biāo)注語料庫,稱為詞義標(biāo)注(Word Sense Tagging, WST)。其本身可獨立成為一個研究課題,涉及詞典選擇(詞義區(qū)分的顆粒度)、語料選擇(語料的平衡性和規(guī)模)、標(biāo)注方法(正確性和一致性如何保證)等方面。我們設(shè)計了人機(jī)互助的高效詞義標(biāo)注語料庫建設(shè)模式,并積累了一套完整的軟件工具。文獻(xiàn)[9]詳細(xì)介紹了詞義標(biāo)注語料庫的建設(shè)工作。
詞典選用ICL/PKU的《現(xiàn)代漢語語義詞典》,語料庫選擇人民日報(詞義標(biāo)注前已經(jīng)完成詞語切分和詞性標(biāo)注),采用機(jī)器輔助的人工標(biāo)注方法。目前已經(jīng)完成170個動詞和796個名詞的義項區(qū)分和描寫,在《人民日報》642萬字的語料上標(biāo)注了76,519個詞語的義項編碼。這應(yīng)該是當(dāng)今規(guī)模最大的現(xiàn)代漢語詞義標(biāo)注語料庫。
必須指出的是,盡管目前語料庫規(guī)模比較大,但是對于機(jī)器學(xué)習(xí)來講仍然是稀疏的,主要表現(xiàn)為多義詞的各個義項出現(xiàn)的不平衡。出現(xiàn)在20001-3月這三個月人民日報語料中的多義名詞有485個,其中只以一個義項出現(xiàn)在語料中的有237個。僅有51% 表現(xiàn)為真正的多義詞。義項分布的不平衡,給機(jī)器學(xué)習(xí)帶來巨大困難。已經(jīng)有許多研究人員致力于解決這個問題[21]。
2 特征提取和選擇
英國語言學(xué)家J. R. Firth有句名言“觀其伴、知其義”。就是說,人通過一個詞周圍的那些詞(也就是這個詞的上下文語境)來辨別它的意義。目前的機(jī)器學(xué)習(xí)中,特征選擇也主要來自多義詞出現(xiàn)的上下文。上下文是一個廣義的概念,多義詞所在的句子、段落、甚至整個篇章都可以稱為上下文。我們的研究僅以多義詞所在的句子作為上下文,從中提取和選擇特征。以現(xiàn)有的語言資源和處理工具為基礎(chǔ),目前用到的特征主要是詞法特征和淺層的語義特征。下面舉一個例子來說明,其中多義詞為“分子”:
此外/c  /w  他們/r  /d  監(jiān)視/v  恐怖/a  分子/n  可能/v  /p  /m  /n  電腦/n  系統(tǒng)/n  /u  襲擊/v  。/w 
詞法層特征:包括局部詞、局部詞性、局部詞及詞性、局部共現(xiàn)、詞袋和搭配。除搭配外,這些特征的獲取相對容易,也比較準(zhǔn)確。針對上面的例子作如下簡單說明:
局部詞特征是指把多義詞周圍窗口大小為n范圍內(nèi)的詞作為特征。若設(shè)定窗口大小為3,則特征向量表示為<W-3=, W-2=監(jiān)視, W-1=恐怖, W+1=可能, W+2=, W+3=>。局部詞性是指把多義詞周圍窗口大小為n的范圍內(nèi)詞的詞性作為特征。仍以窗口大小為3為例,特征向量表示為<P-3=d, P-2=v, P-1=a, P+1=v, P+2=p, P+3=m>。局部詞及詞性是指把多義詞周圍窗口大小為n的范圍內(nèi)的“詞+詞性”作為特征。上句中詞和詞性特征向量為</ d, 監(jiān)視/v, 恐怖/a, 可能/v, /p, /m>。局部共現(xiàn)是指兩個(或多個)詞同時出現(xiàn)在多義詞的窗口。設(shè)Ci,j表示一個共現(xiàn),并且這兩個詞的位置分別位于距多義詞第i個位置和第j個位置。比如:C-1,1表示多義詞的左右緊鄰的兩個詞。共現(xiàn)限于多義詞所在的句子范圍內(nèi)。我們?nèi)?/span>C-2,-1, C-1,1, C1,2, C-2,1, C-2,2作為局部共現(xiàn)特征。例句中的共現(xiàn)特征為<監(jiān)視_恐怖, 恐怖_可能, 可能_, 監(jiān)視_可能, 監(jiān)視_>。局部共現(xiàn)考察了多義詞周圍的詞的搭配對消歧的影響,是對多義詞搭配信息很好的補(bǔ)充。詞袋中的詞(Bag-of-Word, BOW 是指多義詞上下文中所有出現(xiàn)的詞,沒有位置信息,不包括標(biāo)點。搭配信息對詞義消歧有著重要的作用,許多情況下,僅僅通過搭配就可以直接消解歧義。遺憾的是,在有限的上下文中很難準(zhǔn)確地找到搭配詞對。
句法層:在我們的特征選擇中,尚未加入句法特征。文獻(xiàn)[22]的研究表明,和英文相比,加入句法特征后,中文詞義消歧的性能提高并不明顯。
語義層:這里主要進(jìn)行了機(jī)構(gòu)名稱識別。在現(xiàn)代漢語基本標(biāo)注語料庫中,已經(jīng)對機(jī)構(gòu)名作了捆綁。比如“阿拉伯國家聯(lián)盟”,在語料中標(biāo)記為“[阿拉伯/n  國家/n  聯(lián)盟/n]nt”。其中nt表明,方括號中的是一個機(jī)構(gòu)名稱。
許多研究者認(rèn)為,特征提取和選擇是目前WSD的研究重點[2324]。我們針對SENSEVAL-3的中文語料,對上下文所開窗口大小對系統(tǒng)性能的影響進(jìn)行了研究。實驗中采用的分類器是SVM-MultiClass工具包(線性核,一次優(yōu)化)。實驗結(jié)果如圖1所示。從結(jié)果中不難看出,當(dāng)窗口為9時,消歧性能達(dá)到最好。

 

 

 

 

 

 

 

 

 

 


1:消歧性能隨上下文窗口變化的曲線
3 模型選擇和訓(xùn)練
選擇支持向量機(jī)(Support Vector Machines, SVM)開展研究。支持向量機(jī)是近年來機(jī)器學(xué)習(xí)領(lǐng)域非常流行的方法,該方法因其有限樣本下良好的推廣能力而備受重視。SVM已經(jīng)在手寫體數(shù)字識別、人臉識別、文本分類等領(lǐng)域得到了廣泛的應(yīng)用。文獻(xiàn)[25]利用支持向量機(jī)對英文詞義消歧進(jìn)行實驗,結(jié)果要優(yōu)于樸素貝葉斯、決策樹、最大熵等方法。
我們在核函數(shù)的選擇和采用何種多分策略兩個方面進(jìn)行了實驗研究[26]
核函數(shù)的選擇。考察了SVM各種核函數(shù)對詞義消歧的影響,選擇二十個多義詞(每個多義詞均為兩個義項),選用上面介紹的所有特征,用SVM-light進(jìn)行實驗。通過設(shè)置不同的核函數(shù),并且對每種核函數(shù)試驗各種參數(shù)設(shè)置,達(dá)到最優(yōu)時各種核函數(shù)的實驗結(jié)果見表1

 

1  利用各種核函數(shù)的消歧結(jié)果
核函數(shù)
參數(shù)設(shè)置
正確率
訓(xùn)練時間
線性核
90.03
96s
多項式核
a=1, b=1, d=7
90.05
356s
RBF
86.50
467s
Sigmoid
v=2, c=1
81.12
264s

 

從結(jié)果看,如果對核函數(shù)參數(shù)進(jìn)行合理的調(diào)整,多項式核的效果比其它核的效果要好。但是,多項式核的參數(shù)太多,在參數(shù)空間中尋找最優(yōu)的參數(shù)設(shè)置比較困難。綜合各種核函數(shù)的參數(shù)設(shè)置的復(fù)雜性、正確率以及時間效率等因素,線性核還是比較理想的選擇。
二分到多分的轉(zhuǎn)換。WSD顯然是一個多分類問題,因為多義詞常常多于兩個義項。如何用SVM解決多類別的分類問題,是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點之一。目前主要有兩類方法:用多個二類SVM構(gòu)造多類別SVM的方法和一次優(yōu)化決策的方法。前者又可以分為1對多(1-v-r)、111-v-1)和有向圖三種方法。
針對多義詞“想”(共4個義項)分別對上述四個方法進(jìn)行實驗(語料使用20001-3月人民日報),結(jié)果如表2

 

2 利用各種多類別SVM方法的消歧結(jié)果
多類別 SVM 方法
正確率
訓(xùn)練時間
測試時間
1-v-1
88.06%
36s
3s
1-v-r
87.12%
70s
9s
有向圖 SVM
87.67%
39s
4s
一次優(yōu)化決策
87.94%
43s
4s

 

從結(jié)果來看1-v-1的方法正確率最高,運(yùn)行時間也較短。一次優(yōu)化決策的方法效果也不錯,且構(gòu)造起來比較簡單、訓(xùn)練時間也較短。
4)實驗及分析
我們在兩組訓(xùn)練數(shù)據(jù)上進(jìn)行實驗。第一組數(shù)據(jù)使用SENSEVAL-3中文評測數(shù)據(jù)(由哈爾濱工業(yè)大學(xué)提供)。語料共有20個多義詞,793個訓(xùn)練實例,379個測試實例。第二組數(shù)據(jù)是ICL/PKU 的人工標(biāo)注語料。
SENSEVAL-3數(shù)據(jù)集上的實驗。實驗結(jié)果顯示最大熵的準(zhǔn)確率為62.53%,支持向量機(jī)

[1] http //icl.pku.edu.cn
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
詞義消歧
古漢語詞義標(biāo)注語料庫:助力詞義教學(xué)與研究
2019 首屆計算詞典學(xué)研討會綜述
語言學(xué)概論復(fù)習(xí)資料(二
趙彥春論語:對傳統(tǒng)隱喻實質(zhì)觀的質(zhì)疑(一)
中國語文辭書的分期問題
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服