知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于迅速描述物理世界中的概念及其相互關(guān)系,通過(guò)將數(shù)據(jù)粒度從document級(jí)別降到data級(jí)別,聚合大量知識(shí),從而實(shí)現(xiàn)知識(shí)的快速響應(yīng)和推理。
當(dāng)下知識(shí)圖譜的應(yīng)用主要分為用于構(gòu)建結(jié)構(gòu)化的百科知識(shí)的“通用知識(shí)圖譜”和基于行業(yè)數(shù)據(jù)構(gòu)建和應(yīng)用的“領(lǐng)域知識(shí)圖譜”。
在AI與行業(yè)結(jié)合應(yīng)用中,因行業(yè)領(lǐng)域的差異,存在大量數(shù)據(jù)模式不同,應(yīng)用需求不同等現(xiàn)實(shí),“領(lǐng)域知識(shí)圖譜”以其更加符合實(shí)際應(yīng)用需求的特性在工業(yè)領(lǐng)域得到了廣泛應(yīng)用。其中最為熟知的有Google搜索、百度搜索、天眼查企業(yè)圖譜等。
據(jù)此【華來(lái)知識(shí)】將在本篇針對(duì)“領(lǐng)域知識(shí)圖譜”所采用的自底向上知識(shí)圖譜的構(gòu)建技術(shù)進(jìn)行全面的介紹。
自底向上(Bottom-UP)的方法,即首先對(duì)實(shí)體進(jìn)行歸納組織,形成底層概念,再逐步向上抽象,形成上層概念。該方法可基于行業(yè)現(xiàn)有標(biāo)準(zhǔn)轉(zhuǎn)換成數(shù)據(jù)可模式,也可基于高質(zhì)量行業(yè)數(shù)據(jù)源映射生成。
領(lǐng)域知識(shí)圖譜的構(gòu)建流程主要包括6個(gè)環(huán)節(jié):知識(shí)建模、知識(shí)存儲(chǔ)、知識(shí)抽取、知識(shí)融合、知識(shí)計(jì)算以及知識(shí)應(yīng)用。
知識(shí)圖譜的基本單位,是“實(shí)體(Entity)-關(guān)系(Relationship)-實(shí)體(Entity)”構(gòu)成的三元組,這也是知識(shí)圖譜的核心。
如圖所示,若兩個(gè)節(jié)點(diǎn)之間存在關(guān)系,他們就會(huì)被一條無(wú)向邊連接在一起,那么這個(gè)節(jié)點(diǎn),我們就稱(chēng)為實(shí)體(Entity),它們之間的這條邊,我們就稱(chēng)為關(guān)系(Relationship)。
在邏輯上,我們通常將知識(shí)圖譜劃分為兩個(gè)層次:數(shù)據(jù)層和模式層。
· 數(shù)據(jù)層:存儲(chǔ)真實(shí)的數(shù)據(jù)。如 C羅-足球運(yùn)動(dòng)員-皇家馬德里;C羅-金靴獎(jiǎng)-世界杯。
· 模式層:在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,存儲(chǔ)經(jīng)過(guò)提煉的知識(shí),通常通過(guò)本體庫(kù)來(lái)管理。即實(shí)體-關(guān)系-實(shí)體,實(shí)體-屬性-性值。
在了解了知識(shí)圖譜的基本概念后,知識(shí)圖譜的整體架構(gòu)就不難理解了。如下圖所示,其中虛線框內(nèi)的部分為知識(shí)圖譜的構(gòu)建過(guò)程,同時(shí)也是知識(shí)建立和更新的主要流程。
首先是原始數(shù)據(jù)處理,數(shù)據(jù)源可能是結(jié)構(gòu)化的、非結(jié)構(gòu)化的以及半結(jié)構(gòu)化的,然后通過(guò)一系列自動(dòng)化或半自動(dòng)化的技術(shù)手段,來(lái)從原始數(shù)據(jù)中提取出知識(shí)要素,即一堆實(shí)體關(guān)系,并將其存入我們的知識(shí)庫(kù)的模式層和數(shù)據(jù)層。
構(gòu)建知識(shí)圖譜是一個(gè)迭代更新的過(guò)程,根據(jù)知識(shí)獲取的邏輯,每一輪迭代包含:知識(shí)儲(chǔ)存、信息抽取、知識(shí)融合、知識(shí)計(jì)算,四個(gè)階段。
1、知識(shí)存儲(chǔ):針對(duì)構(gòu)建知識(shí)圖譜設(shè)計(jì)底層的存儲(chǔ)方式,完成各類(lèi)知識(shí)的存儲(chǔ),包括基本屬性知識(shí)、關(guān)聯(lián)知識(shí)、事件知識(shí)、時(shí)序知識(shí)、資源類(lèi)知識(shí)等。存儲(chǔ)方式的憂(yōu)慮將直接導(dǎo)致查詢(xún)效率和應(yīng)用效果。
2、 信息抽取:從各種類(lèi)型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá)。
3、知識(shí)融合:在獲得新知識(shí)之后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱(chēng)謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等;
4、知識(shí)計(jì)算:對(duì)于經(jīng)過(guò)融合的新知識(shí),需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫(kù)中,以確保知識(shí)庫(kù)的質(zhì)量。
知識(shí)建模就是基于行業(yè)的應(yīng)用屬性、知識(shí)特點(diǎn)、實(shí)際需求,依據(jù)知識(shí)圖譜的模式進(jìn)行業(yè)務(wù)抽象和業(yè)務(wù)建模,主要是實(shí)體定義、關(guān)系定義、屬性定義。
為保證知識(shí)圖譜質(zhì)量,通常在建模時(shí)需考慮如下幾個(gè)關(guān)鍵問(wèn)題:
1、概念劃分的合理性,如何描述知識(shí)體系和知識(shí)點(diǎn)之間的關(guān)聯(lián)關(guān)系;
2、屬性定義方式,如何在冗余度最低的條件下滿(mǎn)足應(yīng)用和可視化展示;
3、時(shí)間、時(shí)序等復(fù)雜知識(shí)標(biāo)示,通過(guò)匿名節(jié)點(diǎn)的方式還是邊屬性的方式進(jìn)行描述,有何優(yōu)缺點(diǎn)?
4、后續(xù)的知識(shí)擴(kuò)展難度,是否支持概念體系的變更和屬性調(diào)整?
知識(shí)圖譜的原始數(shù)據(jù)類(lèi)型一般來(lái)說(shuō)有三類(lèi):
· 結(jié)構(gòu)化數(shù)據(jù)(Structed Data),如關(guān)系數(shù)據(jù)庫(kù)
· 非結(jié)構(gòu)化數(shù)據(jù),如圖片、音頻、視頻
· 半結(jié)構(gòu)化數(shù)據(jù),如XML、JSON、百科
目前,主流的的知識(shí)存儲(chǔ)解決方案包含單一式和混合式存儲(chǔ)兩種。其存儲(chǔ)方式一般有兩種選擇,一個(gè)是通過(guò)RDF(資源描述框架)這樣的規(guī)范存儲(chǔ)格式來(lái)進(jìn)行存儲(chǔ),比較常用的有Jena等。
還有一種方法,就是使用圖數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ),常用的如Neo4j等。
相較而言圖數(shù)據(jù)庫(kù)在關(guān)聯(lián)查詢(xún)的效率上會(huì)比傳統(tǒng)的關(guān)系數(shù)據(jù)存儲(chǔ)方式有顯著的提高。當(dāng)我們涉及到2,3度的關(guān)聯(lián)查詢(xún),基于知識(shí)圖譜的查詢(xún)效率會(huì)高出幾千倍甚至幾百萬(wàn)倍。
除此之外,基于圖的存儲(chǔ)在設(shè)計(jì)上會(huì)非常靈活,一般只需要局部的改動(dòng)即可。因此對(duì)大數(shù)據(jù)量的情況,更應(yīng)用圖數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)的。
信息抽?。╥nfromation extraction)信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)。關(guān)鍵技術(shù)包括:實(shí)體抽取、關(guān)系抽取和屬性抽取。
1、實(shí)體抽取,也稱(chēng)為命名實(shí)體識(shí)別(named entity recognition,NER),是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體。
當(dāng)前主流技術(shù)為面向開(kāi)放域(open domain)的實(shí)體抽取。
2、關(guān)系抽取,為了得到語(yǔ)義信息,從相關(guān)語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過(guò)關(guān)系將實(shí)體聯(lián)系起來(lái),才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。其技術(shù)研究已經(jīng)從早期的“人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則”(模式匹配),“統(tǒng)計(jì)機(jī)器學(xué)習(xí)”發(fā)展到“面向開(kāi)放域的信息抽取方法”與“面向封閉領(lǐng)域的方法”相結(jié)合。
3、屬性抽取,目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,如針對(duì)某個(gè)公眾人物,可以從網(wǎng)絡(luò)公開(kāi)信息中得到其昵稱(chēng)、生日、國(guó)籍、教育背景等信息。采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性和屬性值之間的關(guān)系模式,據(jù)此實(shí)現(xiàn)對(duì)屬性名和屬性值在文本中的定位。
通過(guò)信息抽取,實(shí)現(xiàn)從原始數(shù)據(jù)中獲取到了實(shí)體、關(guān)系以及實(shí)體的屬性信息后,就需要通過(guò)知識(shí)融合對(duì)數(shù)據(jù)進(jìn)行邏輯歸屬和冗雜/錯(cuò)誤過(guò)濾。即需要實(shí)體鏈接和知識(shí)合并兩個(gè)流程實(shí)現(xiàn)。
1、對(duì)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)處理:實(shí)體鏈接(entity linking)的流程是通過(guò)給定的實(shí)體指稱(chēng)項(xiàng),通過(guò)相似度計(jì)算進(jìn)行實(shí)體消歧和共指消解,確認(rèn)正確實(shí)體對(duì)象后,再將該實(shí)體指稱(chēng)項(xiàng)鏈接到知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體。其中實(shí)體消歧解決同名實(shí)體產(chǎn)生歧義問(wèn)題,共指消解解決多個(gè)指稱(chēng)對(duì)應(yīng)同一實(shí)體對(duì)象的問(wèn)題。
2、對(duì)結(jié)構(gòu)化數(shù)據(jù)處理:知識(shí)合并主要涉及“合并外部知識(shí)庫(kù)”,處理數(shù)據(jù)層和模式層的沖突;以及用RDB2RDF等方法“合并關(guān)系數(shù)據(jù)庫(kù)”
在通過(guò)信息抽取,和知識(shí)融合后已經(jīng)實(shí)現(xiàn)從原始雜亂數(shù)據(jù)中獲得到一系列基本的事實(shí)表達(dá)。之后一步就是通過(guò)知識(shí)計(jì)算獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識(shí)體系以及更新機(jī)制。其主要包括4方面內(nèi)容:本體構(gòu)建、知識(shí)推理、質(zhì)量評(píng)估和知識(shí)更新。
1、本體構(gòu)建:即通過(guò)實(shí)體并列關(guān)系相似度計(jì)算、實(shí)體上下位關(guān)系抽取、本體的生成,完成自動(dòng)化的本體構(gòu)建,實(shí)現(xiàn)將數(shù)據(jù)歸類(lèi)成人工的概念集合/概念框架,如“人”、“事”、“物”等。
2、知識(shí)推理:通過(guò)基于邏輯的推理、基于圖的推理和基于深度學(xué)習(xí)的推理,處理知識(shí)圖譜之間關(guān)系值缺失,完成進(jìn)一步的知識(shí)發(fā)現(xiàn)。
3、質(zhì)量評(píng)估:可以對(duì)知識(shí)的可信度進(jìn)行量化,通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)庫(kù)的質(zhì)量。
4、 知識(shí)更新:在知識(shí)圖譜實(shí)際應(yīng)用后,將有大量數(shù)據(jù)涌入和更新,因此知識(shí)的更新流程是必須搭建的。更新包括概念層的更新和數(shù)據(jù)層的更新。
概念層的更新是指新增數(shù)據(jù)后獲得了新的概念,需要自動(dòng)將新的概念添加到知識(shí)庫(kù)的概念層中。數(shù)據(jù)層的更新主要是新增或更新實(shí)體、關(guān)系、屬性值,對(duì)數(shù)據(jù)層進(jìn)行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性(是否存在矛盾或冗雜等問(wèn)題)等可靠數(shù)據(jù)源,并選擇在各數(shù)據(jù)源中高頻出現(xiàn)的事實(shí)和屬性加入知識(shí)庫(kù)。
至此經(jīng)過(guò)上述流程的處理,知識(shí)圖譜的初始化已經(jīng)構(gòu)建成功了。
經(jīng)過(guò)上述5個(gè)環(huán)節(jié),專(zhuān)項(xiàng)領(lǐng)域的知識(shí)圖譜已經(jīng)構(gòu)建完成,在其具備的特有應(yīng)用形態(tài),與領(lǐng)域數(shù)據(jù)和業(yè)務(wù)場(chǎng)景相結(jié)合后,將實(shí)際助力企業(yè)在該領(lǐng)域取得實(shí)際的商業(yè)價(jià)值。現(xiàn)今知識(shí)圖譜在很多行業(yè)中都有了成功的應(yīng)用。例如:
- 信息檢索:搜索引擎中對(duì)實(shí)體信息的精準(zhǔn)聚合和匹配、對(duì)關(guān)鍵詞的理解以及對(duì)搜索意圖的語(yǔ)義分析等;
- 自然語(yǔ)言理解:知識(shí)圖譜中的知識(shí)作為理解自然語(yǔ)言中實(shí)體和關(guān)系的背景信息;
- 問(wèn)答系統(tǒng):匹配問(wèn)答模式和知識(shí)圖譜中知識(shí)子圖之間的映射;
- 推薦系統(tǒng):將知識(shí)圖譜作為一種輔助信息集成到推薦系統(tǒng)中以提供更加精準(zhǔn)的推薦選項(xiàng);
- 電子商務(wù):構(gòu)建商品知識(shí)圖譜來(lái)精準(zhǔn)地匹配用戶(hù)的購(gòu)買(mǎi)意愿和商品候選集合;
- 金融風(fēng)控:利用實(shí)體之間的關(guān)系來(lái)分析金融活動(dòng)的風(fēng)險(xiǎn)以提供在風(fēng)險(xiǎn)觸發(fā)后的補(bǔ)救措施(如聯(lián)系人等);
- 公安刑偵:分析實(shí)體和實(shí)體之間的關(guān)系以獲得線索等;
- 司法輔助:法律條文的結(jié)構(gòu)化表示和查詢(xún)來(lái)輔助案件的判決等;
- 教育醫(yī)療:提供可視化的知識(shí)表示,用于藥物分析、疾病診斷等;
... ...
事實(shí)上,知識(shí)圖譜的應(yīng)用遠(yuǎn)不止于此。這個(gè)世界就是一張巨大的知識(shí)圖譜,是無(wú)數(shù)個(gè)實(shí)體關(guān)系對(duì),在未來(lái)工業(yè)界對(duì)圖數(shù)據(jù)庫(kù)、知識(shí)圖譜將展現(xiàn)出巨大需求和應(yīng)用契機(jī)!
聯(lián)系客服