九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
知識(shí)圖譜概論(二):概念具象化描述

本文通過一些具體的例子解釋說明構(gòu)建知識(shí)圖譜涉及到的概念和技術(shù)。


互聯(lián)網(wǎng)的出現(xiàn)為大量內(nèi)容創(chuàng)建者打開了創(chuàng)造內(nèi)容產(chǎn)出信息的大門。因此,現(xiàn)在網(wǎng)絡(luò)上存在大量高質(zhì)量的用戶生成內(nèi)容。為了幫助計(jì)算機(jī)對這些文檔內(nèi)容有更好的理解,我們需要一種有效的方式來組織和表示這些數(shù)據(jù)。針對這個(gè)問題,人們認(rèn)為可以把數(shù)據(jù)中隱藏的知識(shí)用圖結(jié)構(gòu)的形式進(jìn)行表示,于是基于語義網(wǎng)概念提出了知識(shí)圖譜來解決這個(gè)問題。

簡而言之,知識(shí)圖譜以圖結(jié)構(gòu)的組織形式,通過語義關(guān)聯(lián)描述客觀世界中概念、實(shí)體及其關(guān)系。

如何構(gòu)建一個(gè)用知識(shí)圖譜表示的知識(shí)庫呢?下面通過一些簡單的例子,描述從網(wǎng)頁中的非結(jié)構(gòu)化純文本中收集信息進(jìn)而構(gòu)建知識(shí)圖譜的基本流程。

知識(shí)圖構(gòu)建管道

1. 知識(shí)抽取

在構(gòu)建的第一階段,我們從海量純文本中識(shí)別文本中的實(shí)體以及實(shí)體間的關(guān)系,過濾出對我們有用的事實(shí)知識(shí)。識(shí)別過程涉及到很多自然語言處理技術(shù)的應(yīng)用,例如分詞、命名實(shí)體識(shí)別、詞形還原等等。在這一步中,例如對于句子

世界四大博物館之一盧浮宮原是法國的王宮,位于巴黎市中心

通過信息提取就被簡化為類似以下的簡單陳述句的形式:

“盧浮宮 位于 巴黎”

2. 知識(shí)融合

三元組

在構(gòu)建的第二階段,大多數(shù)知識(shí)圖譜將這些簡單陳述句以三元組的形式保存到知識(shí)庫中。三元組這個(gè)術(shù)語來自于語義網(wǎng)的知識(shí)表示框架中的RDF概念(資源描述框架),是知識(shí)圖譜中知識(shí)表示的基本單位,簡稱SPO <Subject-主語,Predicate-謂語,Object-賓語>,用來表示實(shí)體與實(shí)體之間的關(guān)系,或者實(shí)體的某個(gè)屬性的屬性值是什么。

上面那個(gè)陳述句會(huì)被轉(zhuǎn)化拆解成下面三元組的形式,

主題:盧浮宮謂詞:位于對象:巴黎

本體

這里我們再簡單說一下知識(shí)圖譜中本體的概念。本體有點(diǎn)類似于我們學(xué)生物時(shí)的界門綱目科屬種的分類概念,是知識(shí)圖譜中的概念層,或者說模式層。

本體可以用來規(guī)定我們的知識(shí)圖譜中包含哪些領(lǐng)域的知識(shí),知識(shí)的類別體系:一共有哪些類別,每種類別下面可以有哪些屬性。另外,還能規(guī)定例如類別的上下位關(guān)系(父類和子類),屬性的約束(例如一個(gè)人的出生日期的屬性只能有1個(gè))等等。本體是關(guān)于數(shù)據(jù)的描述和定義(元數(shù)據(jù))。 在語義網(wǎng)知識(shí)體系中,使用了RDFs和OWL語言來描述本體知識(shí)。

數(shù)據(jù)集DBpedia中的部分本體知識(shí)

本體知識(shí)界定了每個(gè)實(shí)體應(yīng)該存在于哪種類別,我們獲取到的三元組會(huì)被本體匹配算法分類在不同的本體類型下。例如,如果本體是“機(jī)場”,那么,一些屬于這一類的實(shí)體像“大連周子水機(jī)場 ”,“ 戴高樂機(jī)場 ”,“廣州白云機(jī)場 ”就會(huì)被包括進(jìn)來。該過程也會(huì)涉及到自然語言處理技術(shù)的應(yīng)用。

回到剛才那個(gè)例子,在知識(shí)庫中,我們將以‘盧浮宮——位于——巴黎’的形式保存上述關(guān)系。這是知識(shí)庫中的單個(gè)三元組。在實(shí)踐中,知識(shí)庫包括數(shù)百萬這樣的三元組,我們也稱之為事實(shí)。這些事實(shí)都會(huì)被歸入知識(shí)庫中對應(yīng)的本體。

這個(gè)過程我們還需要解決一些實(shí)體消歧以及共指消解問題。

實(shí)體消歧

給定一段文本

“在舊金山的2019春季發(fā)布會(huì)上,蘋果推出新耳機(jī)產(chǎn)品Airpods2”

文本中的提及“蘋果”可能指向的目標(biāo)實(shí)體包括 {蘋果(水果),蘋果公司,蘋果(電影),蘋果(銀行), …},系統(tǒng)需要根據(jù)“蘋果”的上下文詞語識(shí)別出該段文本中“蘋果”指的是蘋果公司,而不是蘋果(水果)或者蘋果(電影)。

共指消解

例如,在一遍文章的開頭可能提及到“哈爾濱工業(yè)大學(xué)”,后面則稱為“哈工大”、“工大”等,可能還會(huì)提到“這所大學(xué)”、“”這些指代詞等,這里所有的詞語指向的都是哈工大這同一個(gè)實(shí)體,我們在提取知識(shí)時(shí)必須可以辨別出來。

3. 三元組轉(zhuǎn)換為知識(shí)圖譜

現(xiàn)在,讓我們看看在構(gòu)建的最后階段,知識(shí)庫中的三元組如何轉(zhuǎn)換為知識(shí)圖譜。知識(shí)圖譜是一個(gè)實(shí)體互聯(lián)的大型網(wǎng)絡(luò)。實(shí)體間的連接正是基于知識(shí)庫中的三元組創(chuàng)建的。

知識(shí)圖譜的一個(gè)主要功能就是識(shí)別實(shí)體之間缺失的鏈接,它屬于推理任務(wù)里知識(shí)補(bǔ)全或事實(shí)補(bǔ)全的一部分。為了進(jìn)一步闡明這一點(diǎn),讓我們考慮下邊我們從知識(shí)庫中收集的這些樣本關(guān)系。

Friends (Anne, Jane)Friends (Jane, Jim)LivesIn (Anne, Paris)LivesIn (Jim, Brazil)LivesIn (Jane, Brazil)BornIn (Anne, Paris)BornIn (Jim, Paris)

上面是關(guān)于Anne、Jane、Jim幾個(gè)人的朋友關(guān)系,居住地和出生地信息,如果我們嘗試僅基于上述關(guān)系構(gòu)建一個(gè)基本的知識(shí)圖譜,可以圖結(jié)構(gòu)可視化為下圖:

僅使用觀察到的事實(shí)構(gòu)建的知識(shí)圖譜

然而,有一些未知的關(guān)系沒有從知識(shí)庫中明確檢索出來,例如, Anne和Jim是朋友嗎? Jane的出生地是什么? 這意味著這種關(guān)系可以被視為缺失的鏈接。

知識(shí)圖譜中缺少的鏈接

人們一般使用統(tǒng)計(jì)關(guān)系學(xué)習(xí)(SRL)框架來推斷這些缺失的鏈接。有很多這方面的工作用不同的方式嘗試發(fā)現(xiàn)新的或缺失的信息,并計(jì)算出推斷這些信息的置信度。

Cohen, Jiang等人使用馬爾可夫邏輯網(wǎng)來發(fā)現(xiàn)提取的事實(shí)之間的關(guān)系[1]。它維護(hù)了一個(gè)基于一階邏輯的規(guī)則庫來指定本體約束。這些約束將用于管理可以被推斷出的可能關(guān)系。然而,對于馬爾可夫邏輯網(wǎng)絡(luò)中,我們稱之為“謂詞”的這種邏輯關(guān)系卻只能為其變量取一個(gè)二值邏輯變量(布爾值)。這導(dǎo)致在推斷事實(shí)的置信度方面會(huì)比較差。

于是這個(gè)問題也引發(fā)了概率軟邏輯(PSL)的定義,它使用了Jiang等人和馬爾可夫邏輯網(wǎng)的概念,定義了一個(gè)復(fù)雜的統(tǒng)計(jì)關(guān)系框架,它基于以前的事實(shí)對所有事實(shí)一起進(jìn)行推導(dǎo),發(fā)現(xiàn)新的/缺失的信息[2]。除此之外,PSL從概率的角度計(jì)算置信度,置信度值是[0,1]范圍內(nèi)的軟數(shù)值,從而基于所提供的內(nèi)容來表示PSL程序認(rèn)為改事實(shí)為真實(shí)的程度。

一旦發(fā)現(xiàn)了新的/缺失的信息,并計(jì)算了他們的置信度,我們就可以建立一個(gè)具有高可信度事實(shí)的知識(shí)圖譜。從這個(gè)圖譜我們可以獲取,除了提取的原始事實(shí)之外的那些無法顯示獲取的新信息。這就是我們?nèi)绾卫弥R(shí)庫中的既有事實(shí)和基于可用觀察結(jié)果得到的新事實(shí)知識(shí)來構(gòu)建知識(shí)圖譜的過程。

不過呢,如何根據(jù)人類認(rèn)知來識(shí)別出錯(cuò)誤的事實(shí)或三元組,在知識(shí)圖譜社區(qū)中仍然是一個(gè)未知的開放問題。

4. 總結(jié)

最后,讓我們再總結(jié)一下構(gòu)建知識(shí)圖譜時(shí)發(fā)生的過程:

  • 階段1:從純文本中提取事實(shí)
  • 從非結(jié)構(gòu)化數(shù)據(jù)源和半結(jié)構(gòu)化數(shù)據(jù)源中獲取數(shù)據(jù)。
  • 處理原始數(shù)據(jù)以便提取信息,這涉及實(shí)體,關(guān)系和屬性的提取。
  • 如果數(shù)據(jù)已經(jīng)結(jié)構(gòu)化好,可直接用于與知識(shí)庫進(jìn)行知識(shí)融合。
  • 階段2:將提取的事實(shí)轉(zhuǎn)化為三元組
  • 執(zhí)行本體匹配,將提取的實(shí)體和關(guān)系歸類到對應(yīng)的本體類型下。
  • 存儲(chǔ)為知識(shí)庫中的三元組。
  • 階段3:構(gòu)建知識(shí)圖譜,補(bǔ)全缺失鏈接
  • 應(yīng)用統(tǒng)計(jì)關(guān)系學(xué)習(xí)方法從知識(shí)庫構(gòu)建知識(shí)圖譜。
  • 使用統(tǒng)計(jì)關(guān)系學(xué)習(xí)方法計(jì)算每個(gè)事實(shí)的置信度,以便確定這些事實(shí)的真實(shí)程度。
  • 使用置信度識(shí)別缺失的鏈接,形成推斷出新的關(guān)系鏈接。

最終,知識(shí)圖譜可以用在信息檢索,聊天機(jī)器人,推薦系統(tǒng),知識(shí)管理系統(tǒng)等應(yīng)用中,以有效地提供對用戶查詢的響應(yīng)。

References

[1] Jiang, S., Lowd, D., & Dou, D. (2012, December). Learning to refine an automatically extracted knowledge base using markov logic. In Data Mining (ICDM), 2012 IEEE 12th International Conference on (pp. 912–917). IEEE.

[2] Brocheler, M., Mihalkova, L., & Getoor, L. (2012). Probabilistic similarity logic. arXiv preprint arXiv:1203.3469.

[3] 劉嶠, 李楊, 段宏, 劉瑤, & 秦志光. (2016). 知識(shí)圖譜構(gòu)建技術(shù)綜述. 計(jì)算機(jī)研究與發(fā)展, 53(3), 582–600.

[4]CCKS2018知識(shí)圖譜發(fā)展報(bào)告

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
知識(shí)圖譜主要有自頂向下(top
最全知識(shí)圖譜介紹:關(guān)鍵技術(shù)、開放數(shù)據(jù)集、應(yīng)用案例匯總
通俗易懂解釋知識(shí)圖譜(Knowledge Graph)
醫(yī)學(xué)知識(shí)圖譜構(gòu)建技術(shù)與研究進(jìn)展
終于有人把知識(shí)圖譜講明白了
知識(shí)圖譜的構(gòu)建方法
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服