九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
[干貨]知識圖譜構(gòu)建的關(guān)鍵技術(shù)
 2018-02-19

大規(guī)模知識庫的構(gòu)建與應(yīng)用需要多種技術(shù)的支持。通過知識提取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化和第三方結(jié)構(gòu)化數(shù)據(jù)庫的數(shù)據(jù)中提取出實體、關(guān)系、屬性等知識要素。

知識表示則通過一定有效手段對知識要素表示,便于進(jìn)一步處理使用。然后通過知識融合,可消除實體、關(guān)系、屬性等指稱項與事實對象之間的歧義,形成高質(zhì)量的知識庫。知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。

接下來,本文將以知識抽取、知識表示、知識融合及知識推理技術(shù)為重點,選取代表性的方法,說明其中的相關(guān)研究進(jìn)展和實用技術(shù)手段 。

知識抽取主要是面向開放的鏈接數(shù)據(jù),通常典型的輸入是自然語言文本或者多媒體內(nèi)容文檔等。然后通過自動化或者半自動化的技術(shù)抽取出可用的知識單元,知識單元主要包括實體、關(guān)系以及屬性3個知識要素,并以此為基礎(chǔ),形成一系列高質(zhì)量的事實表達(dá),為上層模式層的構(gòu)建奠定基礎(chǔ)。

1.1實體抽取

實體抽取也稱為命名實體學(xué)習(xí)或命名實體識別,指的是從原始數(shù)據(jù)語料中自動識別出命名實體。由于實體是知識圖譜中的最基本元素,其抽取的完整性、準(zhǔn)確率、召回率等將直接影響到知識圖譜構(gòu)建的質(zhì)量。

我們將實體抽取的方法分為4種:基于百科站點或垂直站點提取、基于規(guī)則與詞典的方法、基于統(tǒng)計機(jī)器學(xué)習(xí)的方法以及面向開放域的抽取方法。

1.2語義類抽取

語義類抽取是指從文本中自動抽取信息來構(gòu)造語義類并建立實體和語義類的關(guān)聯(lián), 作為實體層面上的規(guī)整和抽象。有一種行之有效的語義類抽取方法,包含三個模塊:并列度相似計算、上下位關(guān)系提取以及語義類生成。

1.3屬性和屬性值抽取

屬性提取的任務(wù)是為每個本體語義類構(gòu)造屬性列表,而屬性值提取則為一個語義類的實體附加屬性值。屬性和屬性值的抽取能夠形成完整的實體概念的知識圖譜維度。

1.4關(guān)系抽取

關(guān)系抽取的目標(biāo)是解決實體語義鏈接的問題。關(guān)系的基本信息包括參數(shù)類型、滿足此關(guān)系的元組模式等。


傳統(tǒng)的知識表示方法主要是以RDF(Resource Description Framework資源描述框架)的三元組SPO(subject, predicate,object)來符號性描述實體之間的關(guān)系。但是其在計算效率、數(shù)據(jù)稀疏性等方面面臨諸多問題。

近年來,以深度學(xué)習(xí)為代表的學(xué)習(xí)技術(shù)取得了重要的進(jìn)展,可以將實體的語義信息表示為稠密低維實值向量,進(jìn)而在低維空間中高效計算實體、關(guān)系及其之間的復(fù)雜語義關(guān)聯(lián),對知識庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。

2.1代表模型

知識表示學(xué)習(xí)的代表模型有距離模型、單層神經(jīng)網(wǎng)絡(luò)模型、雙線性模型、神經(jīng)張量模型、矩陣分解模型、翻譯模型等。

2.2 復(fù)雜關(guān)系模型

知識庫中的實體關(guān)系類型也可分為1-to-1、1-to-N、N-to-1、N-to-N4種類型,而復(fù)雜關(guān)系主要指的是1-to-N、N-to-1、N-to-N的3種關(guān)系類型。

現(xiàn)在已經(jīng)從最開始的TransH模型發(fā)展到了用高斯分布來刻畫實體與關(guān)系的KG2E模型,模型使用高斯分布的均值表示實體或關(guān)系在語義空間中的中心位置,協(xié)方差則表示實體或關(guān)系的不確定度

通過知識提取,實現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實體、關(guān)系以及實體屬性信息的目標(biāo)。但是由于知識來源廣泛,存在知識質(zhì)量良莠不齊、來自不同數(shù)據(jù)源的知識重復(fù)、層次結(jié)構(gòu)缺失等問題,所以必須要進(jìn)行知識的融合。

3.1 實體對齊

實體對齊也稱為實體匹配或?qū)嶓w解析或者實體鏈接,主要是用于消除異構(gòu)數(shù)據(jù)中實體沖突、指向不明等不一致性問題,可以從頂層創(chuàng)建一個大規(guī)模的統(tǒng)一知識庫,從而幫助機(jī)器理解多源異質(zhì)的數(shù)據(jù),形成高質(zhì)量的知識。

1)成對實體對齊方法

① 基于傳統(tǒng)概率模型的實體對齊方法主要就是考慮兩個實體各自屬性的相似性,而并不考慮實體間的關(guān)系。

② 基于機(jī)器學(xué)習(xí)的實體對齊方法主要是將實體對齊問題轉(zhuǎn)化為二分類問題。根據(jù)是否使用標(biāo)注數(shù)據(jù)可分為有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)兩類,基于監(jiān)督學(xué)習(xí)的實體對齊方法主要可分為成對實體對齊、基于聚類的對齊、主動學(xué)習(xí)。

2)局部集體實體對齊方法

局部集體實體對齊方法為實體本身的屬性以及與它有關(guān)聯(lián)的實體的屬性分別設(shè)置不同的權(quán)重,并通過加權(quán)求和計算總體的相似度,還可使用向量空間模型以及余弦相似性來判別大規(guī)模知識庫中的實體的相似程度。

3)全局集體實體對齊方法

① 基于相似性傳播的集體實體對齊方法是一種典型的集體實體對齊方法,匹配的兩個實體與它們產(chǎn)生直接關(guān)聯(lián)的其他實體也會具有較高的相似性。
② 基于概率模型的集體實體對齊方法基于概率模型的集體實體對齊方法主要采用統(tǒng)計關(guān)系學(xué)習(xí)進(jìn)行計算與推理,常用的方法有LDA模型、CRF模型、Markov邏輯網(wǎng)等。

3.2知識加工

通過實體對齊,可以得到一系列的基本事實表達(dá)或初步的本體雛形,然而事實并不等于知識,它只是知識的基本單位。要形成高質(zhì)量的知識,還需要經(jīng)過知識加工的過程,從層次上形成一個大規(guī)模的知識體系,統(tǒng)一對知識進(jìn)行管理。

1)本體構(gòu)建

本體是同一領(lǐng)域內(nèi)不同主體之間進(jìn)行交流、連通的語義基礎(chǔ), 其在知識圖譜中的地位相當(dāng)于知識庫的模具,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較小。


本體可通過人工編輯的方式手動構(gòu)建,也可通過數(shù)據(jù)驅(qū)動自動構(gòu)建,然后再經(jīng)質(zhì)量評估方法與人工審核相結(jié)合的方式加以修正與確認(rèn)。

2)質(zhì)量評估

對知識庫的質(zhì)量評估任務(wù)通常是與實體對齊任務(wù)一起進(jìn)行的,其意義在于,可以對知識的可信度進(jìn)行量化,保留置信度較高的,舍棄置信度較低的,有效確保知識的質(zhì)量。

3.3 知識更新

人類的認(rèn)知能力、知識儲備以及業(yè)務(wù)需求都會隨時間而不斷遞增。因此,知識圖譜的內(nèi)容也需要與時俱進(jìn),不論是通用知識圖譜,還是行業(yè)知識圖譜,它們都需要不斷地迭代更新,擴(kuò)展現(xiàn)有的知識,增加新的知識。

知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。在推理的過程中,往往需要關(guān)聯(lián)規(guī)則的支持。由于實體、實體屬性以及關(guān)系的多樣性,人們很難窮舉所有的推理規(guī)則,一些較為復(fù)雜的推理規(guī)則往往是手動總結(jié)的。

對于推理規(guī)則的挖掘,主要還是依賴于實體以及關(guān)系間的豐富同現(xiàn)情況。知識推理的對象可以是實體、實體的屬性、實體間的關(guān)系、本體庫中概念的層次結(jié)構(gòu)等。知識推理方法主要可分為基于邏輯的推理與基于圖的推理兩種類別。

1) 基于邏輯的推理

基于邏輯的推理基于邏輯的推理方式主要包括一階謂詞邏輯、描述邏輯以及規(guī)則等。一階謂詞邏輯推理是以命題為基本進(jìn)行推理,而命題又包含個體和謂詞。邏輯中的個體對應(yīng)知識庫中的實體對象,具有客觀獨立性,可以是具體一個或泛指一類;謂詞則描述了個體的性質(zhì)或個體間的關(guān)系。

2) 基于圖的推理

在基于圖的推理方法中,主要是利用了關(guān)系路徑中的蘊(yùn)涵信息,通過圖中兩個實體間的多步路徑來預(yù)測它們之間的語義關(guān)系。即從源節(jié)點開始,在圖上根據(jù)路徑建模算法進(jìn)行游走,如果能夠到達(dá)目標(biāo)節(jié)點,則推測源節(jié)點和目標(biāo)節(jié)點間存在聯(lián)系。關(guān)系路徑的建模方法研究工作尚處于初期,其中在關(guān)系路徑的可靠性計算、關(guān)系路徑的語義組合操作等方面,仍有很多工作需進(jìn)一步探索并完成。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)與研究進(jìn)展
以知識為中心的情報智能
論文推薦 | 蔣秉川:多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識圖譜構(gòu)建
AI技術(shù)發(fā)展為什么需要知識圖譜的參與
通俗易懂解釋知識圖譜(Knowledge Graph)
最全知識圖譜介紹:關(guān)鍵技術(shù)、開放數(shù)據(jù)集、應(yīng)用案例匯總
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服