From: http://blog.sina.com.cn/s/blog_4caedc7a0102ewpj.html
編者按:在過(guò)去幾十年,人們?cè)鴩L試采用直接編輯知識(shí)、利用大眾智慧、自動(dòng)或半自動(dòng)知識(shí)抽取三類方法來(lái)構(gòu)建知識(shí)庫(kù)。隨著時(shí)代發(fā)展,直接編輯知識(shí)由于受時(shí)間和經(jīng)濟(jì)成本的約束,這種方式很難實(shí)現(xiàn)大規(guī)模知識(shí)庫(kù)的構(gòu)建。而利用大眾智慧是指利用互聯(lián)網(wǎng)眾包機(jī)制,過(guò)于依賴激勵(lì)機(jī)制將降低知識(shí)庫(kù)運(yùn)行穩(wěn)定性。微軟亞洲研究院主管研究員史樹(shù)明在本文中重點(diǎn)討論第三類方法——自動(dòng)或半自動(dòng)知識(shí)抽取,其基本思想是設(shè)計(jì)自動(dòng)或半自動(dòng)的算法,從現(xiàn)有的(自然語(yǔ)言)文檔中提取知識(shí)。這個(gè)過(guò)程又被稱為信息提取,定義為從非結(jié)構(gòu)化和半結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息。
微軟亞洲研究院主管研究員 史樹(shù)明
正如動(dòng)物依靠對(duì)環(huán)境和食物的認(rèn)知來(lái)維持生存、人類依靠知識(shí)和技能來(lái)扮演社會(huì)角色一樣,計(jì)算機(jī)應(yīng)用程序和系統(tǒng)也依賴特定的“知識(shí)”來(lái)完成特定的功能。近些年,包括互聯(lián)網(wǎng)搜索系統(tǒng)、自動(dòng)導(dǎo)航系統(tǒng)、自動(dòng)問(wèn)答系統(tǒng)、機(jī)器翻譯系統(tǒng)、語(yǔ)音識(shí)別系統(tǒng)等在內(nèi)的智能系統(tǒng)取得了巨大進(jìn)展,其背后是更深、更廣、更新和更加準(zhǔn)確的知識(shí)庫(kù)的構(gòu)建和使用。
人類通過(guò)五官來(lái)獲取知識(shí),并通過(guò)語(yǔ)言和文字來(lái)實(shí)現(xiàn)知識(shí)的交流、共享和傳承,由此建立起人類龐大的知識(shí)體系。然而,這些豐富的知識(shí)并不能夠被計(jì)算機(jī)系統(tǒng)自然而直接地使用,原因在于當(dāng)前的計(jì)算機(jī)程序遠(yuǎn)未達(dá)到理解自然語(yǔ)言和洞悉人類智慧的程度和水平(甚至不少人懷疑這一天能否到來(lái))。而我們又確實(shí)需要計(jì)算機(jī)系統(tǒng)能夠具備一些知識(shí),以便在不威脅到人類生存的前提下幫助人類完成一些“高級(jí)”任務(wù)。因此,我們的目標(biāo)便自然地設(shè)定為以合理的代價(jià)構(gòu)建一個(gè)盡可能豐富、準(zhǔn)確和與時(shí)俱進(jìn)的知識(shí)庫(kù)。
在過(guò)去幾十年,人們?cè)鴩L試采用直接編輯知識(shí)、利用大眾智慧、自動(dòng)或半自動(dòng)知識(shí)抽取三類方法來(lái)構(gòu)建知識(shí)庫(kù)。
直接編輯知識(shí)是指知識(shí)編輯人員把自己頭腦中的知識(shí)寫成計(jì)算機(jī)能夠處理的格式,例如把“狗是一種動(dòng)物”寫成“IsA(狗,動(dòng)物)”。在這種情況下,知識(shí)的編輯工作通常由從事知識(shí)庫(kù)構(gòu)建的研發(fā)人員或者數(shù)據(jù)標(biāo)定人員來(lái)完成。受時(shí)間和經(jīng)濟(jì)成本的約束,這種方式很難實(shí)現(xiàn)大規(guī)模知識(shí)庫(kù)的構(gòu)建。利用大眾智慧是指利用互聯(lián)網(wǎng)眾包機(jī)制,把知識(shí)編輯工作交給成千上萬(wàn)的互聯(lián)網(wǎng)志愿者大軍,知識(shí)庫(kù)Freebase的維護(hù)就依賴于這種機(jī)制。眾包的核心是設(shè)計(jì)合理的激勵(lì)機(jī)制,使互聯(lián)網(wǎng)用戶利用業(yè)余時(shí)間向知識(shí)庫(kù)貢獻(xiàn)一些信息。本文重點(diǎn)討論第三類方法——自動(dòng)或半自動(dòng)知識(shí)抽取,其基本思想是設(shè)計(jì)自動(dòng)或半自動(dòng)的算法,從現(xiàn)有的(自然語(yǔ)言)文檔中提取知識(shí)。這個(gè)過(guò)程又被稱為信息提取,定義為從非結(jié)構(gòu)化和半結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息。由于抽取算法的選擇往往依賴于所要進(jìn)行的知識(shí)提取任務(wù),因此我們首先介紹知識(shí)類型和提取任務(wù)。
知識(shí)類型和知識(shí)提取任務(wù)
當(dāng)前多數(shù)智能系統(tǒng)所涉及到的主要知識(shí)基本上可以表示為一個(gè)包含多種不同類型的結(jié)點(diǎn)和邊的知識(shí)圖以及圖結(jié)點(diǎn)之間的關(guān)系集合。圖1 展示了一個(gè)簡(jiǎn)單的知識(shí)子圖,而表1 則列舉了此子圖上一些結(jié)點(diǎn)之間的關(guān)系。
知識(shí)類型
知識(shí)圖中可能包含三類結(jié)點(diǎn):
實(shí)體 如某一個(gè)人物、某一個(gè)國(guó)家、某一個(gè)機(jī)構(gòu)、某一條狗、某一種編程語(yǔ)言、某一個(gè)學(xué)科等。圖1 中的實(shí)體包括E1、E2 和E3。
語(yǔ)義類 一種類型的實(shí)體或一些實(shí)體的集合,如國(guó)家、亞洲國(guó)家、動(dòng)物、山脈等。圖1 中C1、C2、C3 為語(yǔ)義類。
文本 通常作為實(shí)體和語(yǔ)義類的名字、描述等,如圖1 中的T1~T4。
知識(shí)圖中結(jié)點(diǎn)之間的邊的類型包括:
實(shí)體—語(yǔ)義類 從一個(gè)實(shí)體指向它所屬的語(yǔ)義類。此類型的邊在圖1 中標(biāo)記為“類”。
子類—父類 從一個(gè)語(yǔ)義類指向其父類,在圖1 中用“超類”來(lái)標(biāo)識(shí)。
屬性 從一個(gè)實(shí)體指向它的屬性值。不同的屬性類型對(duì)應(yīng)于不同類型的邊,如圖1 中“出生地”和“妻子”是兩種不同的屬性。所有實(shí)體和語(yǔ)義類都擁有一個(gè)特殊的屬性“名字”,它指向文本類型的結(jié)點(diǎn),表示此實(shí)體或語(yǔ)義類的名字或自然語(yǔ)言表達(dá)(如中文名、英文名等)。
對(duì)于“關(guān)系”,維基百科給出了很好的定義和描述,即關(guān)系是一個(gè)函數(shù),它把k 個(gè)點(diǎn)映射到一個(gè)布爾值。例如,假設(shè)關(guān)系R(X, Y, Z) 表示“X 認(rèn)為Y 喜歡Z”,則當(dāng)且僅當(dāng)“張三認(rèn)為李四喜歡王五”時(shí),R( 張三, 李四, 王五)=TRUE。
如果把上述定義直接運(yùn)用到知識(shí)庫(kù)上,關(guān)系則是一個(gè)把k 個(gè)圖結(jié)點(diǎn)(實(shí)體、語(yǔ)義類或文本結(jié)點(diǎn))
映射到布爾值的函數(shù)。值得注意的是,有一類特殊的關(guān)系叫做事件,其特點(diǎn)是函數(shù)參數(shù)中包含時(shí)間,并且對(duì)應(yīng)于一個(gè)或多個(gè)動(dòng)作1。屬性也可以看作是一種特殊的(二元)關(guān)系,即從實(shí)體和屬性值到布爾值的映射。
權(quán)重的重要性
在知識(shí)圖的結(jié)點(diǎn)和邊上附加合適的權(quán)重對(duì)于上層應(yīng)用至關(guān)重要。結(jié)點(diǎn)權(quán)重的重要性類似于互聯(lián)網(wǎng)搜索中的網(wǎng)頁(yè)等級(jí),它通常標(biāo)識(shí)著結(jié)點(diǎn)出現(xiàn)的頻度或結(jié)點(diǎn)的先驗(yàn)概率。而將邊的權(quán)重和結(jié)點(diǎn)的權(quán)重結(jié)合起來(lái)可以用來(lái)計(jì)算在給定一個(gè)結(jié)點(diǎn)的情況下其它結(jié)點(diǎn)出現(xiàn)的后驗(yàn)概率。例如在圖2中,如果邊和結(jié)點(diǎn)的權(quán)重都是合理的,上層應(yīng)用就可以知道,對(duì)于實(shí)體E1 來(lái)說(shuō),“蘋果”比“明目果”更常見(jiàn),在文章中提到“蘋果”時(shí),在更多的情況下是指E1 或E2 而不是E3 或E4。權(quán)重信息通常需要通過(guò)自動(dòng)或者半自動(dòng)統(tǒng)計(jì)的方法而不是通過(guò)人的編輯而得到。
知識(shí)提取任務(wù)
知識(shí)提取的主要任務(wù)就是構(gòu)建知識(shí)圖以及生成圖結(jié)點(diǎn)間的關(guān)系,具體子任務(wù)包括:
實(shí)體名提取 提取實(shí)體名并構(gòu)造實(shí)體名列表。
語(yǔ)義類提取 構(gòu)造語(yǔ)義類并建立實(shí)體(或?qū)嶓w名)和語(yǔ)義類的關(guān)聯(lián)。
屬性和屬性值提取 為語(yǔ)義類構(gòu)造屬性列表,并提取類中所包含實(shí)體(或?qū)嶓w名)的屬性值。
關(guān)系提取 構(gòu)造結(jié)點(diǎn)間的關(guān)系函數(shù),并提取滿足關(guān)系的結(jié)點(diǎn)元組。
知識(shí)提取方法
知識(shí)提取方法的典型輸入是自然語(yǔ)言文本(如句子)或帶標(biāo)記的自然語(yǔ)言文檔(如網(wǎng)頁(yè)、搜索引擎查詢?nèi)罩镜龋?,輸出是知識(shí)圖的子圖或者關(guān)系集合的子集。針對(duì)每一種知識(shí)提取任務(wù),都有大量的方法被提出來(lái)。本文重點(diǎn)選取了簡(jiǎn)單、有效、擴(kuò)展性良好的方法,而避開(kāi)那些看上去似乎很有技術(shù)含量實(shí)則堪稱“雞肋”的方法。
實(shí)體名提取
實(shí)體名提取的任務(wù)是構(gòu)建一個(gè)詞表,詞表中主要包含實(shí)體名(如“中國(guó)”),同時(shí)也包括語(yǔ)義類的名稱(或稱類型名,如“國(guó)家”)。常見(jiàn)的詞表構(gòu)建方法有:從百科類站點(diǎn)中提取,從垂直站點(diǎn)中提取,利用模式從網(wǎng)頁(yè)和句子中提取,以及利用命名實(shí)體識(shí)別(named entity recognition, NER)技術(shù)從自然語(yǔ)言句子中提取。
最簡(jiǎn)單的方法是從百科類站點(diǎn)(如維基百科、百度百科、互動(dòng)百科等)的標(biāo)題和鏈接中提取實(shí)體名。這種方法的優(yōu)點(diǎn)是能夠得到開(kāi)放域上幾乎所有類型的最常見(jiàn)的實(shí)體名,其缺點(diǎn)是對(duì)于中低頻實(shí)體的覆蓋率較低。相比而言,針對(duì)某些垂直網(wǎng)站而特別設(shè)計(jì)的抽取算法則可以在特定類型和領(lǐng)域上實(shí)現(xiàn)很高的覆蓋率。例如,從亞馬遜網(wǎng)站上可以抽取到幾千萬(wàn)本書的信息,這個(gè)數(shù)量超過(guò)英文維基百科的詞條數(shù)目。這種方法的缺點(diǎn)是在試圖擴(kuò)展到所有領(lǐng)域和實(shí)體類型時(shí),會(huì)有比較大的開(kāi)銷(需要針對(duì)每個(gè)網(wǎng)站設(shè)計(jì)抽取算法)或犧牲精度(設(shè)計(jì)通用抽取算法),同時(shí)很難保證所有類型的實(shí)體都有對(duì)應(yīng)的垂直站點(diǎn)。基于模式的方法從網(wǎng)頁(yè)和句子中抽取詞的并列相似度和上下位關(guān)系信息,其副產(chǎn)品是一個(gè)詞表。這種方法能夠覆蓋比較廣的領(lǐng)域和實(shí)體類型,與從百科類站點(diǎn)提取實(shí)體名的方法相比,對(duì)中低頻詞具有更高的覆蓋率,但所得到的詞表精度要低。
命名實(shí)體識(shí)別技術(shù)主要用來(lái)從句子中提取命名實(shí)體并標(biāo)記它們的類型(研究比較多的類型包括人名、地名和機(jī)構(gòu)名)。其輸入是一個(gè)無(wú)結(jié)構(gòu)的句子,輸出是標(biāo)記了命名實(shí)體類型的句子。只要將此技術(shù)作用于大量的句子并把所標(biāo)記的命名實(shí)體聚集起來(lái),便可以得到一個(gè)詞表,因此該技術(shù)的一個(gè)直接應(yīng)用就是構(gòu)建詞表(盡管其更為重要的應(yīng)用是提取句子的特征和理解句子)。最早的命名實(shí)體識(shí)別主要采用手工定義的規(guī)則,后來(lái)出現(xiàn)了基于少量種子實(shí)體(對(duì)每種實(shí)體類型而言)的半監(jiān)督方法,如自助法或者自舉法。研究人員進(jìn)一步提出了各種各樣的基于監(jiān)督的方法來(lái)提高性能?;诿麑?shí)體識(shí)別的詞表構(gòu)建方法能夠得到不錯(cuò)的精度,并且能夠在有訓(xùn)練數(shù)據(jù)的實(shí)體類型上達(dá)到較高的覆蓋率。它的主要缺點(diǎn)是需要針對(duì)每種實(shí)體類型來(lái)提供種子實(shí)體或者其它訓(xùn)練數(shù)據(jù),因此難以擴(kuò)展到開(kāi)放域和所有類型的對(duì)象。
各種詞表構(gòu)建方法的對(duì)比參見(jiàn)表2。多種方法的結(jié)合有望達(dá)到更好的綜合效果。
語(yǔ)義類抽取
語(yǔ)義類抽取是指從文本中自動(dòng)抽取信息來(lái)構(gòu)造語(yǔ)義類并建立實(shí)體和語(yǔ)義類的關(guān)聯(lián)。圖3 列出了一個(gè)行之有效的語(yǔ)義類抽取流程,它包含三個(gè)模塊:并列相似度計(jì)算、上下位關(guān)系提取以及語(yǔ)義類生成。
并列相似度計(jì)算 其結(jié)果是詞和詞之間的相似性信息,例如圖3 中的三元組(蘋果,梨,s1)表示蘋果和梨的相似度是s1。兩個(gè)詞有較高的并列相似度的條件是它們具有并列關(guān)系(即同屬于一個(gè)語(yǔ)義類),并且有較大的關(guān)聯(lián)度。按照這樣的標(biāo)準(zhǔn),北京和上海具有較高的并列相似度,而北京和汽車的并列相似度很低(因?yàn)樗鼈儾粚儆谕粋€(gè)語(yǔ)義類)。對(duì)于海淀、朝陽(yáng)、閔行三個(gè)市轄區(qū)來(lái)說(shuō),海淀和朝陽(yáng)的并列相似度大于海淀和閔行的并列相似度(因?yàn)榍皟烧叩年P(guān)聯(lián)度更高)。
當(dāng)前主流的并列相似度計(jì)算方法有分布相似度法(distributional similarity) 和模式匹配法(pattern Matching)。分布相似度方法基于哈里斯(Harris)的分布假設(shè)(distributional hypothesis),即經(jīng)常出現(xiàn)在類似的上下文環(huán)境中的兩個(gè)詞具有語(yǔ)義上的相似性。分布相似度方法的實(shí)現(xiàn)分三個(gè)步驟:第一步,定義上下文;第二步,把每個(gè)詞表示成一個(gè)特征向量,向量每一維代表一個(gè)不同的上下文,向量的值表示本詞相對(duì)于上下文的權(quán)重;第三步,計(jì)算兩個(gè)特征向量之間的相似度,將其作為它們所代表的詞之間的相似度。
模式匹配法的基本思路是把一些模式作用于源數(shù)據(jù),得到一些詞和詞之間共同出現(xiàn)的信息,然后把這些信息聚集起來(lái)生成單詞之間的相似度。模式可以是手工定義的,也可以是根據(jù)一些種子數(shù)據(jù)而自動(dòng)生成的。
分布相似度法和模式匹配法都可以用來(lái)在數(shù)以百億計(jì)的句子中或者數(shù)以十億計(jì)的網(wǎng)頁(yè)中抽取詞的相似性信息。有關(guān)分布相似度法和模式匹配法所生成的相似度信息的質(zhì)量比較參見(jiàn)文獻(xiàn)。
上下位關(guān)系提取 該模塊從文檔中抽取詞的上下位關(guān)系信息,生成(下義詞,上義詞)數(shù)據(jù)對(duì),例如(狗,動(dòng)物)、(悉尼,城市)。提取上下位關(guān)系最簡(jiǎn)單的方法是解析百科類站點(diǎn)的分類信息(如維基百科的“分類”和百度百科的“開(kāi)放分類”)。這種方法的主要缺點(diǎn)包括:并不是所有的分類詞條都代表上位詞,例如百度百科中“狗”的開(kāi)放分類“養(yǎng)殖”就不是其上位詞;生成的關(guān)系圖中沒(méi)有權(quán)重信息,因此不能區(qū)分同一個(gè)實(shí)體所對(duì)應(yīng)的不同上位詞的重要性;覆蓋率偏低,即很多上下位關(guān)系并沒(méi)有包含在百科站點(diǎn)的分類信息中。
在英文數(shù)據(jù)上用Hearst 模式和IsA 模式進(jìn)行模式匹配被認(rèn)為是比較有效的上下位關(guān)系抽取方法。下面是這些模式的中文版本(其中NPC 表示上位詞,NP 表示下位詞):
NPC { 包括| 包含| 有} {NP、}* [ 等| 等等]
NPC { 如| 比如| 像| 象} {NP、}*
{NP、}* [{ 以及| 和| 與} NP] 等 NPC
{NP、}* { 以及| 和| 與} { 其它| 其他} NPC
NP 是 { 一個(gè)| 一種| 一類} NPC
此外,一些網(wǎng)頁(yè)表格中包含有上下位關(guān)系信息,例如在帶有表頭的表格中,表頭行的文本是其它行的上位詞。
語(yǔ)義類生成 該模塊包括聚類和語(yǔ)義類標(biāo)定兩個(gè)子模塊。聚類的結(jié)果決定了要生成哪些語(yǔ)義類以及每個(gè)語(yǔ)義類包含哪些實(shí)體,而語(yǔ)義類標(biāo)定的任務(wù)是給一個(gè)語(yǔ)義類附加一個(gè)或者多個(gè)上位詞作為其成員的公共上位詞。此模塊依賴于并列相似性和上下位關(guān)系信息來(lái)進(jìn)行聚類和標(biāo)定。有些研究工作只根據(jù)上下位關(guān)系圖來(lái)生成語(yǔ)義類,但經(jīng)驗(yàn)表明并列相似性信息對(duì)于提高最終生成的語(yǔ)義類的精度和覆蓋率都至關(guān)重要。
屬性和屬性值提取
屬性提取的任務(wù)是為每個(gè)語(yǔ)義類構(gòu)造屬性列表(如城市的屬性包括面積、人口、所在國(guó)家等),而屬性值提取則為一個(gè)語(yǔ)義類中所包含的實(shí)體(如北京)附加屬性值(如其面積、人口、所在國(guó)家等)。常見(jiàn)的屬性和屬性值抽取方法包括從百科類站點(diǎn)中提取,從垂直網(wǎng)站中進(jìn)行包裝器歸納,從網(wǎng)頁(yè)表格中提取,以及利用手工定義或自動(dòng)生成的模式從句子和查詢?nèi)罩局刑崛 ?/p>
常見(jiàn)的語(yǔ)義類/ 實(shí)體的常見(jiàn)屬性/ 屬性值可以通過(guò)解析百科類站點(diǎn)中的半結(jié)構(gòu)化信息(如維基百科的信息盒和百度百科的屬性表格)而獲得。盡管通過(guò)這種簡(jiǎn)單手段能夠得到高質(zhì)量的屬性,但同時(shí)需要采用其它方法來(lái)增加覆蓋率(即為語(yǔ)義類增加更多屬性以及為更多的實(shí)體添加屬性值)。
由于垂直網(wǎng)站(如電子產(chǎn)品網(wǎng)站、圖書網(wǎng)站、電影網(wǎng)站、音樂(lè)網(wǎng)站)包含有大量實(shí)體的屬性信息,這類站點(diǎn)往往被看作知識(shí)抽取的“金礦”。例如圖4的網(wǎng)頁(yè)中包含了電影的導(dǎo)演、編劇、類型、片長(zhǎng)等信息。在過(guò)去的十幾年中,許多研究人員提出了各種各樣的方法,以便從垂直站點(diǎn)中生成包裝器(或稱為模版),并根據(jù)包裝器來(lái)提取屬性信息。從包裝器生成的自動(dòng)化程度來(lái)看,這些方法可以分為手工法(即手工編寫包裝器)、監(jiān)督方法、半監(jiān)督法以及無(wú)監(jiān)督法??紤]到需要從大量不同的網(wǎng)站中提取信息,并且網(wǎng)站模版可能會(huì)更新等因素,無(wú)監(jiān)督包裝器歸納方法顯得更加重要和現(xiàn)實(shí)。無(wú)監(jiān)督包裝器歸納的基本思路是利用對(duì)同一個(gè)網(wǎng)站下面多個(gè)網(wǎng)頁(yè)的超文本標(biāo)簽樹(shù)的對(duì)比來(lái)生成模版。簡(jiǎn)單來(lái)看,不同網(wǎng)頁(yè)的公共部分往往對(duì)應(yīng)于模版或者屬性名,不同的部分則可能是屬性值,而同一個(gè)網(wǎng)頁(yè)中重復(fù)的標(biāo)簽塊則預(yù)示著重復(fù)的記錄。
屬性抽取的另一個(gè)信息源是網(wǎng)頁(yè)表格,例如圖5的表格中包含了中國(guó)主要河流的長(zhǎng)度、流域面積、流量等屬性信息。表格的內(nèi)容對(duì)于人來(lái)說(shuō)一目了然,而對(duì)于機(jī)器而言,情況則要復(fù)雜得多。由于表格類型千差萬(wàn)別,很多表格制作得不規(guī)則,加上機(jī)器缺乏人所具有的背景知識(shí)等原因,從網(wǎng)頁(yè)表格中提取高質(zhì)量的屬性信息成為挑戰(zhàn)。
上述三種方法的共同點(diǎn)是通過(guò)挖掘原始數(shù)據(jù)中的半結(jié)構(gòu)化信息來(lái)獲取屬性和屬性值。與通過(guò)“閱讀”句子來(lái)進(jìn)行信息抽取的方法相比,這些方法繞開(kāi)了自然語(yǔ)言理解這樣一個(gè)“硬骨頭”而試圖達(dá)到以柔克剛的效果。在現(xiàn)階段,計(jì)算機(jī)知識(shí)庫(kù)中的大多數(shù)屬性值確實(shí)是通過(guò)上述方法獲得的。但現(xiàn)實(shí)情況是只有一部分的人類知識(shí)是以半結(jié)構(gòu)化形式體現(xiàn)的,而更多的知識(shí)則隱藏在自然語(yǔ)言句子中,因此直接從句子中抽取信息成為進(jìn)一步提高知識(shí)庫(kù)覆蓋率的關(guān)鍵。當(dāng)前從句子和查詢?nèi)罩局刑崛傩院蛯傩灾档幕臼侄问悄J狡ヅ浜蛯?duì)自然語(yǔ)言的淺層處理。圖6 描繪了為語(yǔ)義類抽取屬性名的主框架(同樣的過(guò)程也適用于為實(shí)體抽取屬性值)。圖中虛線左邊的部分是輸入,它包括一些手工定義的模式和一個(gè)作為種子的(詞,屬性)列表。模式的例子參見(jiàn)表3,(詞,屬性)的例子如(北京,面積)。在只有語(yǔ)義類無(wú)關(guān)的模式作為輸入的情況下,整個(gè)方法是一個(gè)在句子中進(jìn)行模式匹配而生成(語(yǔ)義類,屬性)關(guān)系圖的無(wú)監(jiān)督的知識(shí)提取過(guò)程。此過(guò)程分兩個(gè)步驟,第一個(gè)步驟通過(guò)將輸入的模式作用到句子上而生成一些(詞,屬性)元組,這些數(shù)據(jù)元組在第二個(gè)步驟中根據(jù)語(yǔ)義類進(jìn)行合并而生成(語(yǔ)義類,屬性)關(guān)系圖。在輸入中包含種子列表或者語(yǔ)義類相關(guān)模式的情況下,整個(gè)方法是一個(gè)半監(jiān)督的自舉過(guò)程,分三個(gè)步驟:
1 模式生成:在句子中匹配種子列表中的詞和屬性從而生成模式。模式通常由詞和屬性的環(huán)境信息而生成。
2 模式匹配。
3 模式評(píng)價(jià)與選擇:通過(guò)生成的(語(yǔ)義類,屬性)關(guān)系圖對(duì)自動(dòng)生成的模式的質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)并選擇高分值的模式作為下一輪匹配的輸入。
關(guān)系提取
關(guān)系的基本信息包括參數(shù)類型、滿足此關(guān)系的元組、自然語(yǔ)言表達(dá)方式(稱為模式)等。例如關(guān)系BeCurrencyOf(表示一種貨幣是一個(gè)國(guó)家的貨幣)的基本信息如下:
參數(shù)類型:(Business.Currency, Loc.Country)
元組:(人民幣,中國(guó));(歐元,德國(guó));(第納爾,伊拉克)
Business.Currency 和Loc.Country 分別表示貨幣和國(guó)家兩個(gè)語(yǔ)義類。
關(guān)系抽取算法可以分為有監(jiān)督方法、半監(jiān)督法(或稱弱監(jiān)督法)和無(wú)監(jiān)督法。有監(jiān)督的關(guān)系抽取方法(supervised relation extraction)把關(guān)系抽取看作一個(gè)分類問(wèn)題,并根據(jù)關(guān)系實(shí)體在句子中的出現(xiàn)情況提取特征來(lái)訓(xùn)練分類器。有監(jiān)督方法的主要問(wèn)題是需要大量的訓(xùn)練數(shù)據(jù),這使得其很難有效地?cái)U(kuò)展到支持很多種類型的關(guān)系。半監(jiān)督關(guān)系抽取的主要思路是自舉法,即對(duì)每類關(guān)系提供少量模式或?qū)嶓w元組作為種子,然后利用類似圖6 的過(guò)程得到更多的模式和元組。不同的半監(jiān)督關(guān)系抽取方法遵循類似的流程,但采用不同的模式生成、模式匹配以及模式評(píng)價(jià)和選擇策略,因此會(huì)得到不同的抽取效果。在有監(jiān)督和半監(jiān)督方法中,一般假定關(guān)系的參數(shù)類型和一部分元組是已知的。這些方法的輸入還可能包含一些模式(作為種子)或者標(biāo)定好的句子(作為訓(xùn)練數(shù)據(jù))。
有監(jiān)督和半監(jiān)督的方法只能為已知的手工定義的關(guān)系提供新的信息(如新的元組和新的表達(dá)方式),而無(wú)監(jiān)督方法則有能力自動(dòng)發(fā)現(xiàn)新的關(guān)系。無(wú)監(jiān)督方法的輸入是句子或從句子中抽取出來(lái)的三元組(對(duì)于k 元關(guān)系則是k+1 元組),如:
(“{0} 是{1} 的流通貨幣”,人民幣,中國(guó))
(“{0} be legal tender in {1}”, Dinar, Iraq)
(“{0} be the currency of {1}”, Euro, Germany)
(“{0} be the currency of {1}”, Authorship, Science)
同樣的模式有可能對(duì)應(yīng)于不同的關(guān)系,例如“{0} be the currency of {1}”在最后一個(gè)三元組中并不表示{0} 是{1}的貨幣。無(wú)監(jiān)督方法一般依賴于某種聚類機(jī)制把這些三元組聚集成不同的簇,每一個(gè)簇對(duì)應(yīng)一種關(guān)系。簇中所包含的每個(gè)三元組的第一個(gè)元素所構(gòu)成的集合便是此關(guān)系的模式集合,而第二個(gè)和第三個(gè)元素便構(gòu)成了此關(guān)系的一個(gè)元組。
當(dāng)前在建知識(shí)庫(kù)
部分學(xué)術(shù)界和工業(yè)界的在建知識(shí)庫(kù)見(jiàn)表4。
結(jié)語(yǔ)
為滿足人類信息消費(fèi)和信息交流的需要而產(chǎn)生的海量互聯(lián)網(wǎng)電子文檔已成為自動(dòng)知識(shí)抽取的重要信息源。與手工編輯和互聯(lián)網(wǎng)眾包這兩種機(jī)制相比,自動(dòng)知識(shí)抽取的最大優(yōu)勢(shì)是良好的可擴(kuò)展性,即快速構(gòu)建大規(guī)模知識(shí)庫(kù)的能力,但這種可擴(kuò)展性常常以犧牲精度和某些知識(shí)類型上的覆蓋率為代價(jià)。所以需要很多研究工作來(lái)提升抽取的精度和覆蓋率(尤其是屬性和關(guān)系提取的精度和覆蓋率),同時(shí)需要研究如何將自動(dòng)抽取、手工編輯與互聯(lián)網(wǎng)眾包相結(jié)合而得到高性價(jià)比的知識(shí)庫(kù)構(gòu)建方案。此外,從抽取的知識(shí)類型來(lái)看,目前的知識(shí)類型和知識(shí)結(jié)構(gòu)可能尚不足以有效支持自然語(yǔ)言理解等應(yīng)用。相比于人類的知識(shí)結(jié)構(gòu),計(jì)算機(jī)知識(shí)庫(kù)中所包含的常識(shí)和與動(dòng)作相關(guān)的知識(shí)還不足。而且對(duì)這兩類知識(shí)的研究還遠(yuǎn)未達(dá)到令人滿意的程度。在將來(lái)的研究工作中需要回答的開(kāi)放性問(wèn)題包括:
● 需要為現(xiàn)有的知識(shí)庫(kù)增加哪些知識(shí)類型?
● 如何存儲(chǔ)和表示這些知識(shí)類型?
● 如何設(shè)計(jì)高精度、高覆蓋率的算法來(lái)提取這些類
型的知識(shí)?
● 如何表示常識(shí)
聯(lián)系客服