知識(shí)圖譜(Knowledge graph)首先是由Google提出來(lái)的,大家知道Google是做搜索引擎的,知識(shí)圖譜出現(xiàn)之前,我們使用google、百度進(jìn)行搜索的時(shí)候,搜索的結(jié)果是一堆網(wǎng)頁(yè),我們會(huì)根據(jù)搜索結(jié)果的網(wǎng)頁(yè)題目再點(diǎn)擊鏈接,才能看到具體內(nèi)容,2012年google提出Google Knowldge Graph之后,利用知識(shí)圖譜技術(shù)改善了搜索引擎核心,表現(xiàn)出來(lái)的效果就是我們現(xiàn)在使用搜索引擎進(jìn)行搜索的時(shí)候,搜索結(jié)果會(huì)以一定的組織結(jié)構(gòu)呈現(xiàn)。
辛格爾博士對(duì)知識(shí)圖譜的介紹很簡(jiǎn)短:things,not string。這抓住了知識(shí)圖譜的核心,也點(diǎn)出了知識(shí)圖譜加入之后搜索發(fā)生的變化,以前的搜索,都是將要搜索的內(nèi)容看作字符串,結(jié)果是和字符串進(jìn)行匹配,將匹配程度高的排在前面,后面按照匹配度依次顯示。利用知識(shí)圖譜之后,將搜索的內(nèi)容不再看作字符串,而是看作客觀世界的事物,也就是一個(gè)個(gè)的個(gè)體。搜索比爾蓋茨的時(shí)候,搜索引擎不是搜索“比爾蓋茨”這個(gè)字符串,而是搜索比爾蓋茨這個(gè)人,圍繞比爾蓋茨這個(gè)人,展示與他相關(guān)的人和事,左側(cè)百科會(huì)把比爾蓋茨的主要情況列舉出來(lái),右側(cè)顯示比爾蓋茨的微軟產(chǎn)品和與他類似的人,主要是一些IT行業(yè)的創(chuàng)始人。一個(gè)搜索結(jié)果頁(yè)面就把和比爾蓋茨的基本情況和他的主要關(guān)系都列出來(lái)了,搜索的人很容易找到自己感興趣的結(jié)果。
查找關(guān)于知識(shí)圖譜的資料,可以找到不少的相關(guān)定義:
引用維基百科的定義:
The Knowledge Graph is a knowledge base used by Google and its services to enhance its search engine’s results with information gathered from a variety of sources.
譯:知識(shí)圖譜是谷歌及其提供的服務(wù)所使用的知識(shí)庫(kù),目的是通過(guò)從各種來(lái)源收集信息來(lái)增強(qiáng)其搜索結(jié)果的展示。
引用百度百科的定義:
知識(shí)圖譜(Knowledge Graph),在圖書情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。
知識(shí)圖譜是通過(guò)將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。它能為學(xué)科研究提供切實(shí)的、有價(jià)值的參考。
引用學(xué)術(shù)/學(xué)位論文的定義:
知識(shí)圖譜,是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是“實(shí)體—關(guān)系—實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性—值對(duì),實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。(劉嶠, 李楊, 段宏, 等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.)
知識(shí)圖譜就是展示知識(shí)發(fā)展過(guò)程與屬性聯(lián)系的一系列不同圖形,再加以相應(yīng)的可視化手段把這一系列圖形表示的這些知識(shí)實(shí)體與知識(shí)實(shí)體或者知識(shí)實(shí)體與知識(shí)屬性之間的聯(lián)系展示出來(lái)。知識(shí)圖譜的本質(zhì)就是一種網(wǎng)狀知識(shí)庫(kù),它是由一個(gè)個(gè)知識(shí)三元組組成。目前知識(shí)三元組的形式有兩種,分別是<實(shí)體1,關(guān)系,實(shí)體2>和<實(shí)體1,屬性1,屬性值>。例如在本文所選的鐵路領(lǐng)域內(nèi),這兩種知識(shí)三元組分別可以是<中國(guó)鐵路呼和浩特局集團(tuán)公司,管轄,集寧機(jī)務(wù)段>,<東風(fēng) 4B 型內(nèi)燃機(jī)車,設(shè)計(jì)時(shí)速,120km/h>(客運(yùn)型)和<東風(fēng) 4B 型內(nèi)燃機(jī)車,設(shè)計(jì)時(shí)速,100km/h>(貨運(yùn)型)。(學(xué)位論文:基于鐵路領(lǐng)域的知識(shí)圖譜研究與實(shí)現(xiàn))
引用著作的定義:
知識(shí)圖譜是一種用圖模型來(lái)描述知識(shí)和建模世界萬(wàn)物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法。知識(shí)圖譜由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)可以是實(shí)體,如一個(gè)人、一本書等,或是抽象的概念,如人工智能、知識(shí)圖譜等。邊可以是實(shí)體的屬性,如姓名、書名或是實(shí)體之間的關(guān)系,如朋友、配偶。知識(shí)圖譜的早期理念來(lái)自Semantic Web(語(yǔ)義網(wǎng)絡(luò)),其最初理想是把基于文本鏈接的萬(wàn)維網(wǎng)落轉(zhuǎn)化為基于實(shí)體鏈接的語(yǔ)義網(wǎng)絡(luò)。(王昊奮,知識(shí)圖譜 方法、實(shí)踐與應(yīng)用)
引用互聯(lián)網(wǎng)博客的解釋:
知識(shí)圖譜:是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于迅速描述物理世界中的概念及其相互關(guān)系。(鏈接:通俗易懂解釋知識(shí)圖譜)
知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò)(Semantic Network)的知識(shí)庫(kù).。(鏈接:這是一份通俗易懂的知識(shí)圖譜技術(shù)與應(yīng)用指南)
總的來(lái)說(shuō),知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),用圖的形式描述客觀事物,這里的圖指的是數(shù)據(jù)結(jié)構(gòu)中的圖,也就是由節(jié)點(diǎn)和邊組成的,這也是知識(shí)圖譜(Knowledge Graph)的真實(shí)含義。知識(shí)圖譜中的節(jié)點(diǎn)表示概念和實(shí)體,概念是抽象出來(lái)的事物,實(shí)體是具體的事物;邊表示事物的關(guān)系和屬性,事物的內(nèi)部特征用屬性來(lái)表示,外部聯(lián)系用關(guān)系來(lái)表示。很多時(shí)候,人們簡(jiǎn)化了對(duì)知識(shí)圖譜的描述,將實(shí)體和概念統(tǒng)稱為實(shí)體,將關(guān)系和屬性統(tǒng)稱為關(guān)系,這樣就可以說(shuō)知識(shí)圖譜就是描述實(shí)體以及實(shí)體之間的關(guān)系。實(shí)體可以是人,地方,組織機(jī)構(gòu),概念等等,關(guān)系的種類更多,可以是人與人之間的關(guān)系,人與組織之間的關(guān)系,概念與某個(gè)物體之間的關(guān)系等等。
知識(shí)圖譜是由實(shí)體和實(shí)體的關(guān)系組成,通過(guò)圖的形式表現(xiàn)出來(lái),那么實(shí)體和實(shí)體關(guān)系的這些數(shù)據(jù)在知識(shí)圖譜中怎么組織呢,這就涉及到三元組的概念,在知識(shí)圖譜中,節(jié)點(diǎn)-邊-節(jié)點(diǎn)可以看作一條記錄,第一個(gè)節(jié)點(diǎn)看作主語(yǔ),邊看作謂語(yǔ),第二個(gè)節(jié)點(diǎn)看作賓語(yǔ),主謂賓構(gòu)成一條記錄。比如曹操的兒子是曹丕,曹操是主語(yǔ),兒子是謂語(yǔ),曹丕是賓語(yǔ)。再比如,曹操的小名是阿瞞,主語(yǔ)是曹操,謂語(yǔ)是小名,賓語(yǔ)是阿瞞。知識(shí)圖譜就是由這樣的一條條三元組構(gòu)成,圍繞著一個(gè)主語(yǔ),可以有很多的關(guān)系呈現(xiàn),隨著知識(shí)的不斷積累,最終會(huì)形成一個(gè)龐大的知識(shí)圖譜,知識(shí)圖譜建設(shè)完成后,會(huì)包含海量的數(shù)據(jù),內(nèi)涵豐富的知識(shí)。
知識(shí)圖譜構(gòu)建完成之后,主要用在哪些地方,比較典型應(yīng)用是語(yǔ)義搜索、智能問答、推薦系統(tǒng)等方面。知識(shí)圖譜是一個(gè)具有本體特征的語(yǔ)義網(wǎng)絡(luò),可以看成是按照本體模式組織數(shù)據(jù)的知識(shí)庫(kù),以知識(shí)圖譜為基礎(chǔ)進(jìn)行搜索,可以根據(jù)查詢的內(nèi)容進(jìn)行語(yǔ)義搜索,查找需要找的本體或者本體的信息,這種語(yǔ)義搜索功能在google、百度、阿里巴巴等數(shù)據(jù)量大的公司里得到應(yīng)用。智能問答,和語(yǔ)義搜索類似,對(duì)于提問內(nèi)容,計(jì)算機(jī)首先要分析提問問題的語(yǔ)義,然后再將語(yǔ)義轉(zhuǎn)換為查詢語(yǔ)句,到知識(shí)圖譜中查找,將最貼近的答案提供給提問者。推薦系統(tǒng)首先要采集用戶的需求,分析用戶的以往數(shù)據(jù),提取共同特征,然后根據(jù)一定的規(guī)則,對(duì)用戶提供推薦的產(chǎn)品。比如淘寶中記錄用戶經(jīng)常購(gòu)買的商品,經(jīng)常瀏覽的商品,提取這些商品的共同特征,然后給這個(gè)用戶打上標(biāo)簽,然后就給用戶推薦具有類似特征的商品。
知識(shí)圖譜主要反映的事物之間的關(guān)系,對(duì)于和關(guān)系鏈條有關(guān)的場(chǎng)景,也可以用知識(shí)圖譜解決,一些應(yīng)用場(chǎng)景包括反欺詐、不一致性驗(yàn)證、異常分析、客戶管理等
知識(shí)圖譜由數(shù)據(jù)層(data layer)和模式層(schema layer)構(gòu)成。
模式層是知識(shí)圖譜的概念模型和邏輯基礎(chǔ),對(duì)數(shù)據(jù)層進(jìn)行規(guī)范約束. 多采用本體作為知識(shí)圖譜的模式層,借助本體定義的規(guī)則和公理約束知識(shí)圖譜的數(shù)據(jù)層。也可將知識(shí)圖譜視為實(shí)例化了的本體,知識(shí)圖譜的數(shù)據(jù)層是本體的實(shí)例。如果不需支持推理, 則知識(shí)圖譜(大多是自底向上構(gòu)建的) 可以只有數(shù)據(jù)層而沒有模式層。在知識(shí)圖譜的模式層,節(jié)點(diǎn)表示本體概念,邊表示概念間的關(guān)系。
在數(shù)據(jù)層, 事實(shí)以“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”的三元組存儲(chǔ),形成一個(gè)圖狀知識(shí)庫(kù). 其中,實(shí)體是知識(shí)圖譜的基本元素,指具體的人名、組織機(jī)構(gòu)名、地名、日期、時(shí)間等。關(guān)系是兩個(gè)實(shí)體之間的語(yǔ)義關(guān)系,是模式層所定義關(guān)系的實(shí)例。屬性是對(duì)實(shí)體的說(shuō)明,是實(shí)體與屬性值之間的映射關(guān)系。屬性可視為實(shí)體與屬性值之間的 hasValue 關(guān)系,從而也轉(zhuǎn)化為以“實(shí)體-關(guān)系-實(shí)體”的三元組存儲(chǔ)。在知識(shí)圖譜的數(shù)據(jù)層,節(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體間關(guān)系或?qū)嶓w的屬性。
根據(jù)上述的知識(shí)圖譜分層結(jié)構(gòu),知識(shí)圖譜的構(gòu)建方法主要有兩種:一種是自底而上的構(gòu)建方法(如下圖所示);一種是自定而下的構(gòu)建方法。
自底向上的構(gòu)建方法流程如下圖所示,從開放鏈接的數(shù)據(jù)源中提取實(shí)體、屬性和關(guān)系,加入到知識(shí)圖譜的數(shù)據(jù)層;然后將這些知識(shí)要素進(jìn)行歸納組織,逐步往上抽象為概念,最后形成模式層。自頂而下的方法正好相反。
數(shù)據(jù)獲取是建立知識(shí)圖譜的第一步。目前,知識(shí)圖譜數(shù)據(jù)源按來(lái)源渠道的不同可分為兩種:一種是業(yè)務(wù)本身的數(shù)據(jù),這部分?jǐn)?shù)據(jù)通常包含在行業(yè)內(nèi)部數(shù)據(jù)庫(kù)表并以結(jié)構(gòu)化的方式存儲(chǔ),是一種非公開或半公開的數(shù)據(jù);另一種是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁(yè)的形式存在,是非結(jié)構(gòu)化的數(shù)據(jù)。
按數(shù)據(jù)結(jié)構(gòu)的不同,可分為三種:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),根據(jù)不同的數(shù)據(jù)類型,我們采用不同的方法進(jìn)行處理。
信息抽取的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取信息得到候選知識(shí)單元。如前文所說(shuō),知識(shí)獲取有兩種渠道,前者只需要簡(jiǎn)單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語(yǔ)言處理等技術(shù)來(lái)提取出結(jié)構(gòu)化信息,這正是信息抽取的難點(diǎn)問題,涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取和屬性抽取。
實(shí)體抽取又稱為命名實(shí)體識(shí)別(NER),是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體,其目的就是建立知識(shí)圖譜中的“節(jié)點(diǎn)”。實(shí)體抽取的質(zhì)量(準(zhǔn)確率和召回率)對(duì)后續(xù)的知識(shí)獲取效率和質(zhì)量影響極大,因此是信息抽取中最為基礎(chǔ)和關(guān)鍵的部分。
實(shí)體的類型主要包括三大類七小類:
最初,實(shí)體識(shí)別通常采用人工預(yù)定義實(shí)體分類體系的方式,但是隨著技術(shù)的日新月異,這種老舊的方式已經(jīng)很難適應(yīng)時(shí)代的需求,因此面向開放領(lǐng)域的實(shí)體識(shí)別和分類極具研究?jī)r(jià)值。
在面向開放域的實(shí)體識(shí)別和分類研究中,不需要也不可能為每個(gè)領(lǐng)域或者每個(gè)實(shí)體類別建立單獨(dú)的語(yǔ)料庫(kù)作為訓(xùn)練集。因此,研究人員主要面臨的挑戰(zhàn)是如何從給定的少量實(shí)體實(shí)例中自動(dòng)發(fā)現(xiàn)具有區(qū)分力的模型。
一種思路是根據(jù)已知的實(shí)體實(shí)例進(jìn)行特征建模,利用該模型處理海量數(shù)據(jù)集得到新的命名實(shí)體列表,然后針對(duì)新實(shí)體建模,迭代地生成實(shí)體標(biāo)注語(yǔ)料庫(kù)。
另一種思路是利用搜索引擎的服務(wù)器日志,事先并不給出實(shí)體分類等信息,而是基于實(shí)體的語(yǔ)義特征從搜索日志中識(shí)別出命名實(shí)體,然后采用聚類算法對(duì)識(shí)別出的實(shí)體對(duì)象進(jìn)行聚類。
文本語(yǔ)料經(jīng)過(guò)實(shí)體抽取之后得到的是一系列離散的命名實(shí)體(節(jié)點(diǎn)),為了得到語(yǔ)義信息,還需要從相關(guān)的語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系(邊),才能將多個(gè)實(shí)體或概念聯(lián)系起來(lái),形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。研究關(guān)系抽取技術(shù),就是研究如何解決從文本語(yǔ)料中抽取實(shí)體間的關(guān)系。
屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,從而完成對(duì)實(shí)體屬性的完整勾畫,如針對(duì)某款手機(jī),可以從互聯(lián)網(wǎng)中獲取多源(異構(gòu))的數(shù)據(jù),從中得到其品牌、配置等信息。
如果把實(shí)體的屬性值看作是一種特殊的實(shí)體,那么屬性抽取實(shí)際上也是一種關(guān)系抽取。 百科類網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是通用領(lǐng)域?qū)傩猿槿⊙芯康闹饕獢?shù)據(jù)來(lái)源,但具體到特定的應(yīng)用領(lǐng)域,涉及大量的非結(jié)構(gòu)化數(shù)據(jù),屬性抽取仍然是一個(gè)巨大的挑戰(zhàn)。
經(jīng)由信息抽取之后的信息單元間的關(guān)系是扁平化的,缺乏層次性和邏輯性,同時(shí)存在大量冗余甚至錯(cuò)誤的信息碎片。知識(shí)融合,簡(jiǎn)單理解,就是將多個(gè)知識(shí)庫(kù)中的知識(shí)進(jìn)行整合,形成一個(gè)知識(shí)庫(kù)的過(guò)程,在這個(gè)過(guò)程中,主要關(guān)鍵技術(shù)包含指代消解、實(shí)體消歧、實(shí)體鏈接。不同的知識(shí)庫(kù),收集知識(shí)的側(cè)重點(diǎn)不同,對(duì)于同一個(gè)實(shí)體,有知識(shí)庫(kù)的可能側(cè)重于其本身某個(gè)方面的描述,有的知識(shí)庫(kù)可能側(cè)重于描述實(shí)體與其它實(shí)體的關(guān)系,知識(shí)融合的目的就是將不同知識(shí)庫(kù)對(duì)實(shí)體的描述進(jìn)行整合,從而獲得實(shí)體的完整描述。
知識(shí)融合旨在解決如何將關(guān)于同一個(gè)實(shí)體或概念的多源描述信息融合起來(lái)。
Coreference Resolution,字面上翻譯應(yīng)該是“共指消解”,但在大部分博客或者論壇中通常被稱呼為“指代消解”。一般情況下,指代分為三種(NLP領(lǐng)域一般只關(guān)注前兩種指代類型):
所以,根據(jù)上面描述,個(gè)人認(rèn)為將“Coreference Resolution”翻譯為“指代消解”更為恰當(dāng)。
有些實(shí)體寫法不一樣,但指向同一個(gè)實(shí)體,比如“New York”表示紐約,而“NYC”同樣也可以表示紐約。這種情況下,實(shí)體消歧可以減少實(shí)體的種類,降低圖譜的稀疏性。
實(shí)體消歧是專門用于解決同名實(shí)體產(chǎn)生歧義問題的技術(shù),通過(guò)實(shí)體消歧,就可以根據(jù)當(dāng)前的語(yǔ)境,準(zhǔn)確建立實(shí)體鏈接,實(shí)體消歧主要采用聚類法。其實(shí)也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。
實(shí)體鏈接(entity linking)是指對(duì)于從非結(jié)構(gòu)化數(shù)據(jù)(如文本)或半結(jié)構(gòu)化數(shù)據(jù)(如表格)中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過(guò)相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象。
實(shí)體鏈接鏈接的是從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)那里通過(guò)信息抽取提取出來(lái)的數(shù)據(jù)。那么除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)以外,還有個(gè)更方便的數(shù)據(jù)來(lái)源——結(jié)構(gòu)化數(shù)據(jù),如外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)。對(duì)于這部分結(jié)構(gòu)化數(shù)據(jù)的處理,就是知識(shí)合并的內(nèi)容啦。一般來(lái)說(shuō)知識(shí)合并主要分為兩種:
海量數(shù)據(jù)在經(jīng)信息抽取、知識(shí)融合之后得到一系列基本的事實(shí)表達(dá),但這并不等同于知識(shí),要想獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識(shí)體系,還需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分納入知識(shí)體系中以確保知識(shí)庫(kù)的質(zhì)量,這就是知識(shí)加工的過(guò)程。知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。
來(lái)自維基百科的本體的定義:
In computer science and information science, an ontology is a formal naming and definition of the types, properties, and interrelationships of the entities that really or fundamentally exist for a particular domain of discourse.
譯:在計(jì)算機(jī)科學(xué)和信息科學(xué)中,一個(gè)本體就是特定領(lǐng)域或根本存在的實(shí)體的類型、屬性、相互關(guān)系的一個(gè)正式的命名和定義
本體這個(gè)概念,對(duì)于初學(xué)者來(lái)說(shuō)的確有些抽象,不易理解。它可以用多種方式來(lái)描述:
總的概括:本體定義了組成領(lǐng)域的詞匯表的基本術(shù)語(yǔ)及其關(guān)系,以及結(jié)合這些術(shù)語(yǔ)和關(guān)系來(lái)定義詞匯表外延的規(guī)則。
引用:
本體和知識(shí)圖譜都通過(guò)定義元數(shù)據(jù)以支持語(yǔ)義服務(wù)。不同之處在于:知識(shí)圖譜更靈活, 支持通過(guò)添加自定義的標(biāo)簽劃分事物的類別。本體側(cè)重概念模型的說(shuō)明,能對(duì)知識(shí)表示進(jìn)行概括性、抽象性的描述,強(qiáng)調(diào)的是概念以及概念之間的關(guān)系。大部分本體不包含過(guò)多的實(shí)例,本體實(shí)例的填充通常是在本體構(gòu)建完成以后進(jìn)行的。知識(shí)圖譜更側(cè)重描述實(shí)體關(guān)系,在實(shí)體層面對(duì)本體進(jìn)行大量的豐富與擴(kuò)充。可以認(rèn)為,本體是知識(shí)圖譜的抽象表達(dá),描述知識(shí)圖譜的上層模式;知識(shí)圖譜是本體的實(shí)例化, 是基于本體的知識(shí)庫(kù)。( 黃恒琪,于娟,廖曉,席運(yùn)江.知識(shí)圖譜研究綜述.計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(6):1–12.)
知識(shí)地圖 (knowledge map) 將特定組織內(nèi)的知識(shí)索引通過(guò)“地圖”的形式串聯(lián)在一起,揭示相關(guān)知識(shí)資源的類型、特征以及相互關(guān)系。 知識(shí)地圖的主要功能在于實(shí)現(xiàn)知識(shí)的快速檢索、共享和再重用,充分有效地利用知識(shí)資源。知識(shí)地圖是關(guān)于知識(shí)的來(lái)源的知識(shí)。知識(shí)并非存儲(chǔ)在知識(shí)地圖中,而是存儲(chǔ)在知識(shí)地圖所指向的知識(shí)源中。知識(shí)地圖指向的知識(shí)源包含數(shù)據(jù)庫(kù)、文件以及擁有豐富隱性知識(shí)的專家或員工。有的企業(yè)應(yīng)用知識(shí)地圖來(lái)揭示知識(shí)的結(jié)構(gòu),實(shí)現(xiàn)對(duì)知識(shí)及其相關(guān)知識(shí)的檢索。( 黃恒琪,于娟,廖曉,席運(yùn)江.知識(shí)圖譜研究綜述.計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(6):1–12.)
本體構(gòu)建過(guò)程包含三個(gè)階段:
比如對(duì)下面這個(gè)例子,當(dāng)知識(shí)圖譜剛得到“阿里巴巴”、“騰訊”、“手機(jī)”這三個(gè)實(shí)體的時(shí)候,可能會(huì)認(rèn)為它們?nèi)齻€(gè)之間并沒有什么差別,但當(dāng)它去計(jì)算三個(gè)實(shí)體之間的相似度后,就會(huì)發(fā)現(xiàn),阿里巴巴和騰訊之間可能更相似,和手機(jī)差別更大一些。
這就是第一步的作用,但這樣下來(lái),知識(shí)圖譜實(shí)際上還是沒有一個(gè)上下層的概念,它還是不知道,阿里巴巴和手機(jī),根本就不隸屬于一個(gè)類型,無(wú)法比較。因此我們?cè)趯?shí)體上下位關(guān)系抽取這一步,就需要去完成這樣的工作,從而生成第三步的本體。
當(dāng)三步結(jié)束后,這個(gè)知識(shí)圖譜可能就會(huì)明白,“阿里巴巴和騰訊,其實(shí)都是公司這樣一個(gè)實(shí)體下的細(xì)分實(shí)體。它們和手機(jī)并不是一類。”
完成了本體構(gòu)建這一步之后,一個(gè)知識(shí)圖譜的雛形便已經(jīng)搭建好了。但可能在這個(gè)時(shí)候,知識(shí)圖譜之間大多數(shù)關(guān)系都是殘缺的,缺失值非常嚴(yán)重,那么這個(gè)時(shí)候,我們就可以使用知識(shí)推理技術(shù),去完成進(jìn)一步的知識(shí)發(fā)現(xiàn)。
知識(shí)推理就是指從知識(shí)庫(kù)中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過(guò)計(jì)算機(jī)推理,建立實(shí)體間的新關(guān)聯(lián),從而擴(kuò)展和豐富知識(shí)網(wǎng)絡(luò)。
例如康熙是雍正的父親,雍正是乾隆的父親,那么盡管康熙和乾隆這兩個(gè)實(shí)體之間通過(guò)知識(shí)推理,就可以獲得他們之間是祖孫關(guān)系。
知識(shí)推理的對(duì)象也并不局限于實(shí)體間的關(guān)系,也可以是實(shí)體的屬性值,本體的概念層次關(guān)系等。比如:
知識(shí)的推理方法可以分為2大類:基于邏輯的推理和基于圖的推理。
質(zhì)量評(píng)估也是知識(shí)庫(kù)構(gòu)建技術(shù)的重要組成部分,這一部分存在的意義在于:可以對(duì)知識(shí)的可信度進(jìn)行量化,通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)庫(kù)的質(zhì)量。
1、通俗易懂解釋知識(shí)圖譜 或 一文揭秘!自底向上構(gòu)建知識(shí)圖譜全過(guò)程
2、斯坦福CS224n(15)指代消解
3、知識(shí)圖譜學(xué)習(xí)系列之一:知識(shí)圖譜綜述
4、知識(shí)圖譜的總體構(gòu)建思路
5、知識(shí)圖譜—初識(shí)本體
6、本體概述
聯(lián)系客服