引言

知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù)，用于迅速描述物理世界中的概念及其相互關(guān)系，通過(guò)將數(shù)據(jù)粒度從document級(jí)別降到data級(jí)別，聚合大量知識(shí)，從而實(shí)現(xiàn)知識(shí)的快速響應(yīng)和推理。

當(dāng)下知識(shí)圖譜的應(yīng)用主要分為用于構(gòu)建結(jié)構(gòu)化的百科知識(shí)的“通用知識(shí)圖譜”和基于行業(yè)數(shù)據(jù)構(gòu)建和應(yīng)用的“領(lǐng)域知識(shí)圖譜”。

在AI與行業(yè)結(jié)合應(yīng)用中，因行業(yè)領(lǐng)域的差異，存在大量數(shù)據(jù)模式不同，應(yīng)用需求不同等現(xiàn)實(shí)，“領(lǐng)域知識(shí)圖譜”以其更加符合實(shí)際應(yīng)用需求的特性在工業(yè)領(lǐng)域得到了廣泛應(yīng)用。其中最為熟知的有Google搜索、百度搜索、天眼查企業(yè)圖譜等。

據(jù)此【華來(lái)知識(shí)】將在本篇針對(duì)“領(lǐng)域知識(shí)圖譜”所采用的自底向上知識(shí)圖譜的構(gòu)建技術(shù)進(jìn)行全面的介紹。

自底向上（Bottom-UP）的方法，即首先對(duì)實(shí)體進(jìn)行歸納組織，形成底層概念，再逐步向上抽象，形成上層概念。該方法可基于行業(yè)現(xiàn)有標(biāo)準(zhǔn)轉(zhuǎn)換成數(shù)據(jù)可模式，也可基于高質(zhì)量行業(yè)數(shù)據(jù)源映射生成。

領(lǐng)域知識(shí)圖譜的構(gòu)建流程主要包括6個(gè)環(huán)節(jié)：知識(shí)建模、知識(shí)存儲(chǔ)、知識(shí)抽取、知識(shí)融合、知識(shí)計(jì)算以及知識(shí)應(yīng)用。

知識(shí)圖譜的基本定義

知識(shí)圖譜的基本單位，是“實(shí)體（Entity）-關(guān)系（Relationship）-實(shí)體（Entity）”構(gòu)成的三元組，這也是知識(shí)圖譜的核心。

如圖所示，若兩個(gè)節(jié)點(diǎn)之間存在關(guān)系，他們就會(huì)被一條無(wú)向邊連接在一起，那么這個(gè)節(jié)點(diǎn)，我們就稱(chēng)為實(shí)體（Entity），它們之間的這條邊，我們就稱(chēng)為關(guān)系（Relationship）。

在邏輯上，我們通常將知識(shí)圖譜劃分為兩個(gè)層次：數(shù)據(jù)層和模式層。

· 數(shù)據(jù)層：存儲(chǔ)真實(shí)的數(shù)據(jù)。如 C羅-足球運(yùn)動(dòng)員-皇家馬德里；C羅-金靴獎(jiǎng)-世界杯。

· 模式層：在數(shù)據(jù)層之上，是知識(shí)圖譜的核心，存儲(chǔ)經(jīng)過(guò)提煉的知識(shí)，通常通過(guò)本體庫(kù)來(lái)管理。即實(shí)體-關(guān)系-實(shí)體，實(shí)體-屬性-性值。

在了解了知識(shí)圖譜的基本概念后，知識(shí)圖譜的整體架構(gòu)就不難理解了。如下圖所示，其中虛線框內(nèi)的部分為知識(shí)圖譜的構(gòu)建過(guò)程，同時(shí)也是知識(shí)建立和更新的主要流程。

首先是原始數(shù)據(jù)處理，數(shù)據(jù)源可能是結(jié)構(gòu)化的、非結(jié)構(gòu)化的以及半結(jié)構(gòu)化的，然后通過(guò)一系列自動(dòng)化或半自動(dòng)化的技術(shù)手段，來(lái)從原始數(shù)據(jù)中提取出知識(shí)要素，即一堆實(shí)體關(guān)系，并將其存入我們的知識(shí)庫(kù)的模式層和數(shù)據(jù)層。

構(gòu)建知識(shí)圖譜是一個(gè)迭代更新的過(guò)程，根據(jù)知識(shí)獲取的邏輯，每一輪迭代包含：知識(shí)儲(chǔ)存、信息抽取、知識(shí)融合、知識(shí)計(jì)算，四個(gè)階段。

1、知識(shí)存儲(chǔ)：針對(duì)構(gòu)建知識(shí)圖譜設(shè)計(jì)底層的存儲(chǔ)方式，完成各類(lèi)知識(shí)的存儲(chǔ)，包括基本屬性知識(shí)、關(guān)聯(lián)知識(shí)、事件知識(shí)、時(shí)序知識(shí)、資源類(lèi)知識(shí)等。存儲(chǔ)方式的憂(yōu)慮將直接導(dǎo)致查詢(xún)效率和應(yīng)用效果。

2、信息抽取：從各種類(lèi)型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系，在此基礎(chǔ)上形成本體化的知識(shí)表達(dá)。

3、知識(shí)融合：在獲得新知識(shí)之后，需要對(duì)其進(jìn)行整合，以消除矛盾和歧義，比如某些實(shí)體可能有多種表達(dá)，某個(gè)特定稱(chēng)謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等；

4、知識(shí)計(jì)算：對(duì)于經(jīng)過(guò)融合的新知識(shí)，需要經(jīng)過(guò)質(zhì)量評(píng)估之后（部分需要人工參與甄別），才能將合格的部分加入到知識(shí)庫(kù)中，以確保知識(shí)庫(kù)的質(zhì)量。

一、知識(shí)建模

知識(shí)建模就是基于行業(yè)的應(yīng)用屬性、知識(shí)特點(diǎn)、實(shí)際需求，依據(jù)知識(shí)圖譜的模式進(jìn)行業(yè)務(wù)抽象和業(yè)務(wù)建模，主要是實(shí)體定義、關(guān)系定義、屬性定義。

為保證知識(shí)圖譜質(zhì)量，通常在建模時(shí)需考慮如下幾個(gè)關(guān)鍵問(wèn)題：

1、概念劃分的合理性，如何描述知識(shí)體系和知識(shí)點(diǎn)之間的關(guān)聯(lián)關(guān)系；

2、屬性定義方式，如何在冗余度最低的條件下滿(mǎn)足應(yīng)用和可視化展示；

3、時(shí)間、時(shí)序等復(fù)雜知識(shí)標(biāo)示，通過(guò)匿名節(jié)點(diǎn)的方式還是邊屬性的方式進(jìn)行描述，有何優(yōu)缺點(diǎn)？

4、后續(xù)的知識(shí)擴(kuò)展難度，是否支持概念體系的變更和屬性調(diào)整？

二、知識(shí)存儲(chǔ)

知識(shí)圖譜的原始數(shù)據(jù)類(lèi)型一般來(lái)說(shuō)有三類(lèi)：

· 結(jié)構(gòu)化數(shù)據(jù)（Structed Data），如關(guān)系數(shù)據(jù)庫(kù)

· 非結(jié)構(gòu)化數(shù)據(jù)，如圖片、音頻、視頻

· 半結(jié)構(gòu)化數(shù)據(jù)，如XML、JSON、百科

目前，主流的的知識(shí)存儲(chǔ)解決方案包含單一式和混合式存儲(chǔ)兩種。其存儲(chǔ)方式一般有兩種選擇，一個(gè)是通過(guò)RDF（資源描述框架）這樣的規(guī)范存儲(chǔ)格式來(lái)進(jìn)行存儲(chǔ)，比較常用的有Jena等。

還有一種方法，就是使用圖數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)，常用的如Neo4j等。

相較而言圖數(shù)據(jù)庫(kù)在關(guān)聯(lián)查詢(xún)的效率上會(huì)比傳統(tǒng)的關(guān)系數(shù)據(jù)存儲(chǔ)方式有顯著的提高。當(dāng)我們涉及到2,3度的關(guān)聯(lián)查詢(xún)，基于知識(shí)圖譜的查詢(xún)效率會(huì)高出幾千倍甚至幾百萬(wàn)倍。

除此之外，基于圖的存儲(chǔ)在設(shè)計(jì)上會(huì)非常靈活，一般只需要局部的改動(dòng)即可。因此對(duì)大數(shù)據(jù)量的情況，更應(yīng)用圖數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)的。

三、信息抽取

信息抽?。╥nfromation extraction）信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)。關(guān)鍵技術(shù)包括：實(shí)體抽取、關(guān)系抽取和屬性抽取。

1、實(shí)體抽取，也稱(chēng)為命名實(shí)體識(shí)別（named entity recognition，NER），是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體。

當(dāng)前主流技術(shù)為面向開(kāi)放域（open domain）的實(shí)體抽取。

2、關(guān)系抽取，為了得到語(yǔ)義信息，從相關(guān)語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系，通過(guò)關(guān)系將實(shí)體聯(lián)系起來(lái)，才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。其技術(shù)研究已經(jīng)從早期的“人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則”（模式匹配），“統(tǒng)計(jì)機(jī)器學(xué)習(xí)”發(fā)展到“面向開(kāi)放域的信息抽取方法”與“面向封閉領(lǐng)域的方法”相結(jié)合。

3、屬性抽取，目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息，如針對(duì)某個(gè)公眾人物，可以從網(wǎng)絡(luò)公開(kāi)信息中得到其昵稱(chēng)、生日、國(guó)籍、教育背景等信息。采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性和屬性值之間的關(guān)系模式，據(jù)此實(shí)現(xiàn)對(duì)屬性名和屬性值在文本中的定位。

四、知識(shí)融合

通過(guò)信息抽取，實(shí)現(xiàn)從原始數(shù)據(jù)中獲取到了實(shí)體、關(guān)系以及實(shí)體的屬性信息后，就需要通過(guò)知識(shí)融合對(duì)數(shù)據(jù)進(jìn)行邏輯歸屬和冗雜/錯(cuò)誤過(guò)濾。即需要實(shí)體鏈接和知識(shí)合并兩個(gè)流程實(shí)現(xiàn)。

1、對(duì)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)處理：實(shí)體鏈接（entity linking）的流程是通過(guò)給定的實(shí)體指稱(chēng)項(xiàng)，通過(guò)相似度計(jì)算進(jìn)行實(shí)體消歧和共指消解，確認(rèn)正確實(shí)體對(duì)象后，再將該實(shí)體指稱(chēng)項(xiàng)鏈接到知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體。其中實(shí)體消歧解決同名實(shí)體產(chǎn)生歧義問(wèn)題，共指消解解決多個(gè)指稱(chēng)對(duì)應(yīng)同一實(shí)體對(duì)象的問(wèn)題。

2、對(duì)結(jié)構(gòu)化數(shù)據(jù)處理：知識(shí)合并主要涉及“合并外部知識(shí)庫(kù)”，處理數(shù)據(jù)層和模式層的沖突；以及用RDB2RDF等方法“合并關(guān)系數(shù)據(jù)庫(kù)”

五、知識(shí)計(jì)算

在通過(guò)信息抽取，和知識(shí)融合后已經(jīng)實(shí)現(xiàn)從原始雜亂數(shù)據(jù)中獲得到一系列基本的事實(shí)表達(dá)。之后一步就是通過(guò)知識(shí)計(jì)算獲得結(jié)構(gòu)化，網(wǎng)絡(luò)化的知識(shí)體系以及更新機(jī)制。其主要包括4方面內(nèi)容：本體構(gòu)建、知識(shí)推理、質(zhì)量評(píng)估和知識(shí)更新。

1、本體構(gòu)建：即通過(guò)實(shí)體并列關(guān)系相似度計(jì)算、實(shí)體上下位關(guān)系抽取、本體的生成，完成自動(dòng)化的本體構(gòu)建，實(shí)現(xiàn)將數(shù)據(jù)歸類(lèi)成人工的概念集合/概念框架，如“人”、“事”、“物”等。

2、知識(shí)推理：通過(guò)基于邏輯的推理、基于圖的推理和基于深度學(xué)習(xí)的推理，處理知識(shí)圖譜之間關(guān)系值缺失，完成進(jìn)一步的知識(shí)發(fā)現(xiàn)。

3、質(zhì)量評(píng)估：可以對(duì)知識(shí)的可信度進(jìn)行量化，通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)庫(kù)的質(zhì)量。

4、知識(shí)更新：在知識(shí)圖譜實(shí)際應(yīng)用后，將有大量數(shù)據(jù)涌入和更新，因此知識(shí)的更新流程是必須搭建的。更新包括概念層的更新和數(shù)據(jù)層的更新。

概念層的更新是指新增數(shù)據(jù)后獲得了新的概念，需要自動(dòng)將新的概念添加到知識(shí)庫(kù)的概念層中。數(shù)據(jù)層的更新主要是新增或更新實(shí)體、關(guān)系、屬性值，對(duì)數(shù)據(jù)層進(jìn)行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性（是否存在矛盾或冗雜等問(wèn)題）等可靠數(shù)據(jù)源，并選擇在各數(shù)據(jù)源中高頻出現(xiàn)的事實(shí)和屬性加入知識(shí)庫(kù)。

至此經(jīng)過(guò)上述流程的處理，知識(shí)圖譜的初始化已經(jīng)構(gòu)建成功了。

六、知識(shí)圖譜的應(yīng)用

經(jīng)過(guò)上述5個(gè)環(huán)節(jié)，專(zhuān)項(xiàng)領(lǐng)域的知識(shí)圖譜已經(jīng)構(gòu)建完成，在其具備的特有應(yīng)用形態(tài)，與領(lǐng)域數(shù)據(jù)和業(yè)務(wù)場(chǎng)景相結(jié)合后，將實(shí)際助力企業(yè)在該領(lǐng)域取得實(shí)際的商業(yè)價(jià)值。現(xiàn)今知識(shí)圖譜在很多行業(yè)中都有了成功的應(yīng)用。例如：

- 信息檢索：搜索引擎中對(duì)實(shí)體信息的精準(zhǔn)聚合和匹配、對(duì)關(guān)鍵詞的理解以及對(duì)搜索意圖的語(yǔ)義分析等；

- 自然語(yǔ)言理解：知識(shí)圖譜中的知識(shí)作為理解自然語(yǔ)言中實(shí)體和關(guān)系的背景信息；

- 問(wèn)答系統(tǒng)：匹配問(wèn)答模式和知識(shí)圖譜中知識(shí)子圖之間的映射；

- 推薦系統(tǒng)：將知識(shí)圖譜作為一種輔助信息集成到推薦系統(tǒng)中以提供更加精準(zhǔn)的推薦選項(xiàng)；

- 電子商務(wù)：構(gòu)建商品知識(shí)圖譜來(lái)精準(zhǔn)地匹配用戶(hù)的購(gòu)買(mǎi)意愿和商品候選集合；

- 金融風(fēng)控：利用實(shí)體之間的關(guān)系來(lái)分析金融活動(dòng)的風(fēng)險(xiǎn)以提供在風(fēng)險(xiǎn)觸發(fā)后的補(bǔ)救措施（如聯(lián)系人等）；

- 公安刑偵：分析實(shí)體和實(shí)體之間的關(guān)系以獲得線索等；

- 司法輔助：法律條文的結(jié)構(gòu)化表示和查詢(xún)來(lái)輔助案件的判決等；

- 教育醫(yī)療：提供可視化的知識(shí)表示，用于藥物分析、疾病診斷等；

... ...

事實(shí)上，知識(shí)圖譜的應(yīng)用遠(yuǎn)不止于此。這個(gè)世界就是一張巨大的知識(shí)圖譜，是無(wú)數(shù)個(gè)實(shí)體關(guān)系對(duì)，在未來(lái)工業(yè)界對(duì)圖數(shù)據(jù)庫(kù)、知識(shí)圖譜將展現(xiàn)出巨大需求和應(yīng)用契機(jī)！

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

引言

知識(shí)圖譜的基本定義

一、知識(shí)建模

二、知識(shí)存儲(chǔ)

三、 信息抽取

四、 知識(shí)融合

五、知識(shí)計(jì)算

六、知識(shí)圖譜的應(yīng)用

二、知識(shí)存儲(chǔ)

三、信息抽取

四、知識(shí)融合

五、知識(shí)計(jì)算