九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
清華大學(xué)劉知遠:知識指導(dǎo)的自然語言處理

來源:AI TIME 論道


本文約4000字,建議閱讀10分鐘

“語言是一塊琥珀,許多珍貴和絕妙的思想一直安全地保存在里面?!?/span>


作者:劉知遠
編輯:鴿鴿
“語言是一塊琥珀,許多珍貴和絕妙的思想一直安全地保存在里面。”從人類誕生伊始,自然語言就承載著世世代代的智慧,積聚了無窮無盡的知識。這片深蘊寶藏的沃土吸引了眾多滿懷好奇的AI研究者,投入其中耕耘、開墾、發(fā)掘和重構(gòu)。

近期由中國科協(xié)主辦,清華大學(xué)計算機科學(xué)與技術(shù)系、AI TIME 論道承辦的《2020 中國科技峰會系列活動青年科學(xué)家沙龍——人工智能學(xué)術(shù)生態(tài)與產(chǎn)業(yè)創(chuàng)新》上,清華大學(xué)副教授劉知遠所作的學(xué)術(shù)報告《知識指導(dǎo)的自然語言處理》,于深度學(xué)習(xí)時代另辟蹊徑,闡釋了語言知識和世界知識對于自然語言處理的重要價值。

一、NLP研究需從語言自身特點出發(fā)

自然語言處理(Natural Language Processing, NLP),旨在讓計算機掌握和運用人類語言。從詞性標注、命名實體識別、指代消解、到語義和句法的依存分析,NLP工作者們致力于從無結(jié)構(gòu)的語音或文字序列中挖掘出結(jié)構(gòu)化信息?;腥鐝囊黄煦缰袑ふ抑刃?,無論是語義還是句法結(jié)構(gòu)的,都不簡單。

語言作為一個符號系統(tǒng),包含多種不同粒度的語言單元。譬如中文的漢字、詞、短語、句子、文檔、直到文檔互聯(lián)構(gòu)成的萬維網(wǎng),由下而上,粒度不斷加粗。

而自然語言處理的很多任務(wù),都涉及對不同層級的語言單元的語義相關(guān)度計算。例如信息檢索就是給定一個query或者短語,找出哪些文檔和該短語的語義最相關(guān)。由于語言的粒度大小不一,這就給計算增加了復(fù)雜度。


幸運的是,我們可以通過深度學(xué)習(xí)分布式表示,建立多粒度的語言關(guān)聯(lián)。

深度學(xué)習(xí)是近十年內(nèi)一場席卷AI界的技術(shù)革命,而深度學(xué)習(xí)在自然語言處理領(lǐng)域獲得巨大成功的一個重要原因就是分布式表示。從詞匯、詞義、短語、實體到文檔,深度學(xué)習(xí)把不同粒度的語言單元映射到統(tǒng)一的低維向量分布式表示空間,實現(xiàn)統(tǒng)一的隱式表示,有助于不同語言單位語義信息的融合與計算。這給NLP任務(wù)提供統(tǒng)一的表示基礎(chǔ),避免對不同任務(wù)設(shè)計不同的相似度計算方法,也能更好地解決大規(guī)模長尾分布數(shù)據(jù)稀疏的問題。


針對深度學(xué)習(xí)的分布式表示,2015年到2017年劉知遠的實驗室開展了不少相關(guān)工作。具體包括:把漢字和詞結(jié)合進行統(tǒng)一表示、英文詞義和中文詞義的表示、短語的表示、實體和文檔的表示等等。


二、融入語言知識庫HowNet

盡管如今深度學(xué)習(xí)卓有成效,但自然語言處理尚未得到徹底解決。2015年Science刊登的一篇NLP綜述中提到,盡管機器學(xué)習(xí)和深度學(xué)習(xí)已經(jīng)成果豐碩,但要攻克真正的難題,包括語義、上下文、知識的建模,仍需更多研究和發(fā)現(xiàn)。


這就涉及語言的另一個特點:一詞多義現(xiàn)象。日常交流中,我們把詞或漢字視為最小的使用單位。然而,這些并非最小的語義單元,詞的背后還會有更細粒度的詞義層次,比如“蘋果”這個詞至少有水果、公司產(chǎn)品這兩種解釋。那么詞義(sense)是最小單元么?可能也不是。

語義最小單元:義原
語言學(xué)家指出可以對詞義進行無限細分,找到一套語義“原子”來描述語言中的所有概念。這套原子稱為義原(sememes),即語義的最小單元。例如,“頂點”這個詞可能有兩個詞義,每個詞義用細粒度更小的義原來表示。如圖,左邊的詞義是指某物的最高點,由四個義原的組合進行表示。


在人工標注義原方面,語言學(xué)家董振東先生辛勞數(shù)十年,手工標注了一個知識庫HowNet,發(fā)布于1999年。經(jīng)過幾輪迭代,現(xiàn)囊括約2000個不同的義原,并利用這些義原標注了中英文各十幾萬個單詞的詞義。


然而深度學(xué)習(xí)時代,以word2vec為代表的大規(guī)模數(shù)據(jù)驅(qū)動的方法成為主流,傳統(tǒng)語言學(xué)家標注的大規(guī)模知識庫逐漸被推向歷史的墻角,HowNet、WordNet等知識庫的引用明顯下跌。

那么,數(shù)據(jù)驅(qū)動是最終的AI解決方案么?

直覺上并非如此。數(shù)據(jù)只是外在信息、是人類智慧的產(chǎn)物,卻無法反映人類智能的深層結(jié)構(gòu),尤其是高層認知。我們能否教會計算機語言知識呢?

  • HowNet與Word2Vec的融合


2017年,劉知遠等人嘗試將HowNet融入當時深度學(xué)習(xí)自然語言處理中一個里程碑式的工作Word2Vec,取得了振奮人心的實驗效果。

下圖展示了義原指導(dǎo)的word embedding,該模型根據(jù)上下文來計算同一詞語不同義原的注意力、得到不同詞義的權(quán)重,從而進行消歧,進一步利用上下文學(xué)習(xí)該詞義的表示。盡管利用了傳統(tǒng)Word2Vec中skip-gram的方法,即由中心詞Wt預(yù)測滑動窗口里上下文的詞,然而中心詞的embedding由標注好的義原的embedding組合而成。因此,這項研究將HowNet中word、sense和sememe三層結(jié)構(gòu)融入word embedding中,綜合利用了知識庫和數(shù)據(jù)兩方面的信息。


實驗結(jié)果證明,融入HowNet的知識可以顯著提升模型效果,尤其是涉及認知推理、類比推理等成分的任務(wù)。并且,我們能自動發(fā)現(xiàn)文本中帶有歧義的詞在具體語境下隸屬于哪一個詞義。不同于過去有監(jiān)督或半監(jiān)督的方法,該模型并未直接標注這些詞所對應(yīng)的詞義,而是利用HowNet知識庫來完成。由此可見,知識庫對于文本理解能夠提供一些有意義的信息。


受到這項工作的鼓舞,劉知遠的團隊將知識的運用從詞語層面擴展到句子級別。過去深度學(xué)習(xí)是直接利用上文的語義預(yù)測下一個詞,現(xiàn)在把word、sense和sememe的三層結(jié)構(gòu)嵌入預(yù)測過程中。首先由上文預(yù)測下一個詞對應(yīng)的義原,然后由這些義原激活對應(yīng)的sense,進而由sense激活對應(yīng)的詞。一方面,該方法引入知識,利用更少的數(shù)據(jù)訓(xùn)練相對更好的語言模型;另一方面,形成的語言模型具有更高的可解釋性,能夠清楚地表明哪些義原導(dǎo)致了最終的預(yù)測結(jié)果。


HowNet作為董振東先生一生非常重要的心血,已經(jīng)開源出來供大家免費下載和使用,希望更多老師和同學(xué)認識到知識庫的獨特價值,并開展相關(guān)的工作。下面是義原知識相關(guān)的閱讀列表。


三、世界知識:聽懂弦外之音
除了語言上的知識,世界知識也是語言所承載的重要信息。


現(xiàn)實世界中有多種多樣的實體以及它們之間各種不同的關(guān)系,比如莎士比亞創(chuàng)作了《羅密歐與朱麗葉》,這些世界知識可以構(gòu)成知識圖譜(knowledge graph)。在知識圖譜中,每個節(jié)點可以看成一個實體,連接它們的邊反映了這些實體之間的關(guān)系。圖譜由若干三元組構(gòu)成,每個三元組包括頭實體、尾實體以及它們之間的關(guān)系。


由于知識圖譜中的實體隸屬不同的類別,而且具有不同的連接信息,因此我們可以基于knowledge attention這種機制,把低維向量的知識表示與文本的上下文表示結(jié)合起來,進行細粒度實體分類的工作。


另一個方向是兩個不同知識圖譜的融合問題,實為一個典型的entity alignment的問題,過去一般要設(shè)計一些特別復(fù)雜的算法,發(fā)現(xiàn)兩個圖譜之間各種各樣蛛絲馬跡的聯(lián)系。現(xiàn)在實驗室提出了一個簡單的方法,把這兩個異質(zhì)圖譜分別進行knowledge embedding,得到兩個不同的空間,再利用這兩個圖譜里面具有一定連接的實體對、也就是構(gòu)成的種子,把這兩個圖譜的空間結(jié)合在一起。工作發(fā)現(xiàn),該方法能夠更好地進行實體的對齊。


同時,知識也能指導(dǎo)我們進行信息檢索,計算query和文檔之間的相似度。除了考慮query和document中詞的信息,我們可以把實體的信息、以及實體跟詞之間的關(guān)聯(lián)形成不同的矩陣,從而支持排序模型的訓(xùn)練。


最后,預(yù)訓(xùn)練語言模型的誕生,把深度學(xué)習(xí)從原來有監(jiān)督的數(shù)據(jù)擴展到了大規(guī)模無監(jiān)督數(shù)據(jù)。事實上,這些大規(guī)模文本中的每句話,都包含大量實體以及它們之間的關(guān)系。我們理解一句話,往往需要外部的世界知識的支持。

能否把外部知識庫加入預(yù)訓(xùn)練語言模型呢?2019年,劉知遠所在的團隊提出ERNIE模型,使用知識表示算法(transE)將知識圖譜中的實體表示為低維的向量,并利用一個全新的收集器(aggregator)結(jié)構(gòu),通過前饋網(wǎng)絡(luò)將詞相關(guān)的信息與實體相關(guān)的信息雙向整合到一起,完成將結(jié)構(gòu)化知識加入到語言表示模型的目的。


四、總結(jié)

本次報告主要從義原知識和世界知識兩個方面,闡述了知識指導(dǎo)的自然語言處理相關(guān)的工作。未來自然語言處理的一個重要方向,就是融入人類各種各樣的知識,從而深入地理解語言,讀懂言外之意、聽出弦外之音。針對面向自然語言處理的表示學(xué)習(xí),劉知遠等人也發(fā)表了一本專著,供大家免費下載研讀。


劉知遠,清華大學(xué)計算機系副教授、博士生導(dǎo)師。主要研究方向為表示學(xué)習(xí)、知識圖譜和社會計算。2011年獲得清華大學(xué)博士學(xué)位,已在ACL、IJCAI、AAAI等人工智能領(lǐng)域的著名國際期刊和會議發(fā)表相關(guān)論文60余篇,Google Scholar統(tǒng)計引用超過6000次。曾獲清華大學(xué)優(yōu)秀博士學(xué)位論文、中國人工智能學(xué)會優(yōu)秀博士學(xué)位論文、清華大學(xué)優(yōu)秀博士后、中文信息學(xué)會青年創(chuàng)新獎,入選中國科學(xué)青年人才托舉工程、中國計算機學(xué)會青年學(xué)者提升計劃。擔(dān)任中文信息學(xué)會青年工作委員會執(zhí)委、副主任,中文信息學(xué)會社會媒體處理專委會秘書長,ACL、EMNLP、COLING、IJCNLP領(lǐng)域主席。


相關(guān)鏈接及參考文獻:


編輯:黃繼彥

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
下一代AI系統(tǒng)基石:知識圖譜將何去何從?
清華大學(xué)劉知遠:在深度學(xué)習(xí)時代用HowNet搞事情
Wordnet 與 Hownet 比較
清華與中國工程院知識智能聯(lián)合實驗室「自然語言處理研究報告」
機器學(xué)習(xí)與自然語言處理
值得收藏!清華劉知遠55頁自然語言處理PPT(附下載)
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服