本文通過一些具體的例子解釋說明構(gòu)建知識(shí)圖譜涉及到的概念和技術(shù)。
互聯(lián)網(wǎng)的出現(xiàn)為大量內(nèi)容創(chuàng)建者打開了創(chuàng)造內(nèi)容產(chǎn)出信息的大門。因此,現(xiàn)在網(wǎng)絡(luò)上存在大量高質(zhì)量的用戶生成內(nèi)容。為了幫助計(jì)算機(jī)對這些文檔內(nèi)容有更好的理解,我們需要一種有效的方式來組織和表示這些數(shù)據(jù)。針對這個(gè)問題,人們認(rèn)為可以把數(shù)據(jù)中隱藏的知識(shí)用圖結(jié)構(gòu)的形式進(jìn)行表示,于是基于語義網(wǎng)概念提出了知識(shí)圖譜來解決這個(gè)問題。
簡而言之,知識(shí)圖譜以圖結(jié)構(gòu)的組織形式,通過語義關(guān)聯(lián)描述客觀世界中概念、實(shí)體及其關(guān)系。
如何構(gòu)建一個(gè)用知識(shí)圖譜表示的知識(shí)庫呢?下面通過一些簡單的例子,描述從網(wǎng)頁中的非結(jié)構(gòu)化純文本中收集信息進(jìn)而構(gòu)建知識(shí)圖譜的基本流程。
知識(shí)圖構(gòu)建管道
在構(gòu)建的第一階段,我們從海量純文本中識(shí)別文本中的實(shí)體以及實(shí)體間的關(guān)系,過濾出對我們有用的事實(shí)知識(shí)。識(shí)別過程涉及到很多自然語言處理技術(shù)的應(yīng)用,例如分詞、命名實(shí)體識(shí)別、詞形還原等等。在這一步中,例如對于句子
通過信息提取就被簡化為類似以下的簡單陳述句的形式:
“盧浮宮 位于 巴黎”
三元組
在構(gòu)建的第二階段,大多數(shù)知識(shí)圖譜將這些簡單陳述句以三元組的形式保存到知識(shí)庫中。三元組這個(gè)術(shù)語來自于語義網(wǎng)的知識(shí)表示框架中的RDF概念(資源描述框架),是知識(shí)圖譜中知識(shí)表示的基本單位,簡稱SPO <Subject-主語,Predicate-謂語,Object-賓語>,用來表示實(shí)體與實(shí)體之間的關(guān)系,或者實(shí)體的某個(gè)屬性的屬性值是什么。
上面那個(gè)陳述句會(huì)被轉(zhuǎn)化拆解成下面三元組的形式,
本體
這里我們再簡單說一下知識(shí)圖譜中本體的概念。本體有點(diǎn)類似于我們學(xué)生物時(shí)的界門綱目科屬種的分類概念,是知識(shí)圖譜中的概念層,或者說模式層。
本體可以用來規(guī)定我們的知識(shí)圖譜中包含哪些領(lǐng)域的知識(shí),知識(shí)的類別體系:一共有哪些類別,每種類別下面可以有哪些屬性。另外,還能規(guī)定例如類別的上下位關(guān)系(父類和子類),屬性的約束(例如一個(gè)人的出生日期的屬性只能有1個(gè))等等。本體是關(guān)于數(shù)據(jù)的描述和定義(元數(shù)據(jù))。 在語義網(wǎng)知識(shí)體系中,使用了RDFs和OWL語言來描述本體知識(shí)。
數(shù)據(jù)集DBpedia中的部分本體知識(shí)
本體知識(shí)界定了每個(gè)實(shí)體應(yīng)該存在于哪種類別,我們獲取到的三元組會(huì)被本體匹配算法分類在不同的本體類型下。例如,如果本體是“機(jī)場”,那么,一些屬于這一類的實(shí)體像“大連周子水機(jī)場 ”,“ 戴高樂機(jī)場 ”,“廣州白云機(jī)場 ”就會(huì)被包括進(jìn)來。該過程也會(huì)涉及到自然語言處理技術(shù)的應(yīng)用。
回到剛才那個(gè)例子,在知識(shí)庫中,我們將以‘盧浮宮——位于——巴黎’的形式保存上述關(guān)系。這是知識(shí)庫中的單個(gè)三元組。在實(shí)踐中,知識(shí)庫包括數(shù)百萬這樣的三元組,我們也稱之為事實(shí)。這些事實(shí)都會(huì)被歸入知識(shí)庫中對應(yīng)的本體。
這個(gè)過程我們還需要解決一些實(shí)體消歧以及共指消解問題。
實(shí)體消歧
給定一段文本
“在舊金山的2019春季發(fā)布會(huì)上,蘋果推出新耳機(jī)產(chǎn)品Airpods2”
文本中的提及“蘋果”可能指向的目標(biāo)實(shí)體包括 {蘋果(水果),蘋果公司,蘋果(電影),蘋果(銀行), …},系統(tǒng)需要根據(jù)“蘋果”的上下文詞語識(shí)別出該段文本中“蘋果”指的是蘋果公司,而不是蘋果(水果)或者蘋果(電影)。
共指消解
例如,在一遍文章的開頭可能提及到“哈爾濱工業(yè)大學(xué)”,后面則稱為“哈工大”、“工大”等,可能還會(huì)提到“這所大學(xué)”、“她”這些指代詞等,這里所有的詞語指向的都是哈工大這同一個(gè)實(shí)體,我們在提取知識(shí)時(shí)必須可以辨別出來。
現(xiàn)在,讓我們看看在構(gòu)建的最后階段,知識(shí)庫中的三元組如何轉(zhuǎn)換為知識(shí)圖譜。知識(shí)圖譜是一個(gè)實(shí)體互聯(lián)的大型網(wǎng)絡(luò)。實(shí)體間的連接正是基于知識(shí)庫中的三元組創(chuàng)建的。
知識(shí)圖譜的一個(gè)主要功能就是識(shí)別實(shí)體之間缺失的鏈接,它屬于推理任務(wù)里知識(shí)補(bǔ)全或事實(shí)補(bǔ)全的一部分。為了進(jìn)一步闡明這一點(diǎn),讓我們考慮下邊我們從知識(shí)庫中收集的這些樣本關(guān)系。
上面是關(guān)于Anne、Jane、Jim幾個(gè)人的朋友關(guān)系,居住地和出生地信息,如果我們嘗試僅基于上述關(guān)系構(gòu)建一個(gè)基本的知識(shí)圖譜,可以圖結(jié)構(gòu)可視化為下圖:
僅使用觀察到的事實(shí)構(gòu)建的知識(shí)圖譜
然而,有一些未知的關(guān)系沒有從知識(shí)庫中明確檢索出來,例如, Anne和Jim是朋友嗎? Jane的出生地是什么? 這意味著這種關(guān)系可以被視為缺失的鏈接。
知識(shí)圖譜中缺少的鏈接
人們一般使用統(tǒng)計(jì)關(guān)系學(xué)習(xí)(SRL)框架來推斷這些缺失的鏈接。有很多這方面的工作用不同的方式嘗試發(fā)現(xiàn)新的或缺失的信息,并計(jì)算出推斷這些信息的置信度。
Cohen, Jiang等人使用馬爾可夫邏輯網(wǎng)來發(fā)現(xiàn)提取的事實(shí)之間的關(guān)系[1]。它維護(hù)了一個(gè)基于一階邏輯的規(guī)則庫來指定本體約束。這些約束將用于管理可以被推斷出的可能關(guān)系。然而,對于馬爾可夫邏輯網(wǎng)絡(luò)中,我們稱之為“謂詞”的這種邏輯關(guān)系卻只能為其變量取一個(gè)二值邏輯變量(布爾值)。這導(dǎo)致在推斷事實(shí)的置信度方面會(huì)比較差。
于是這個(gè)問題也引發(fā)了概率軟邏輯(PSL)的定義,它使用了Jiang等人和馬爾可夫邏輯網(wǎng)的概念,定義了一個(gè)復(fù)雜的統(tǒng)計(jì)關(guān)系框架,它基于以前的事實(shí)對所有事實(shí)一起進(jìn)行推導(dǎo),發(fā)現(xiàn)新的/缺失的信息[2]。除此之外,PSL從概率的角度計(jì)算置信度,置信度值是[0,1]范圍內(nèi)的軟數(shù)值,從而基于所提供的內(nèi)容來表示PSL程序認(rèn)為改事實(shí)為真實(shí)的程度。
一旦發(fā)現(xiàn)了新的/缺失的信息,并計(jì)算了他們的置信度,我們就可以建立一個(gè)具有高可信度事實(shí)的知識(shí)圖譜。從這個(gè)圖譜我們可以獲取,除了提取的原始事實(shí)之外的那些無法顯示獲取的新信息。這就是我們?nèi)绾卫弥R(shí)庫中的既有事實(shí)和基于可用觀察結(jié)果得到的新事實(shí)知識(shí)來構(gòu)建知識(shí)圖譜的過程。
不過呢,如何根據(jù)人類認(rèn)知來識(shí)別出錯(cuò)誤的事實(shí)或三元組,在知識(shí)圖譜社區(qū)中仍然是一個(gè)未知的開放問題。
最后,讓我們再總結(jié)一下構(gòu)建知識(shí)圖譜時(shí)發(fā)生的過程:
最終,知識(shí)圖譜可以用在信息檢索,聊天機(jī)器人,推薦系統(tǒng),知識(shí)管理系統(tǒng)等應(yīng)用中,以有效地提供對用戶查詢的響應(yīng)。
[1] Jiang, S., Lowd, D., & Dou, D. (2012, December). Learning to refine an automatically extracted knowledge base using markov logic. In Data Mining (ICDM), 2012 IEEE 12th International Conference on (pp. 912–917). IEEE.
[2] Brocheler, M., Mihalkova, L., & Getoor, L. (2012). Probabilistic similarity logic. arXiv preprint arXiv:1203.3469.
[3] 劉嶠, 李楊, 段宏, 劉瑤, & 秦志光. (2016). 知識(shí)圖譜構(gòu)建技術(shù)綜述. 計(jì)算機(jī)研究與發(fā)展, 53(3), 582–600.
[4]CCKS2018知識(shí)圖譜發(fā)展報(bào)告
聯(lián)系客服