九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
鄒磊|知識圖譜的數(shù)據(jù)應(yīng)用和研究動(dòng)態(tài)

來源:來源:《中國計(jì)算機(jī)學(xué)會(huì)通訊》2017年第8期《專欄》

   近年來,隨著“人工智能”概念再度活躍,除了“深度學(xué)習(xí)”這個(gè)炙手可熱的名詞以外,“知識圖譜”也是研究者、工業(yè)界和投資人心目中的又一顆“銀彈”。簡單地說,“知識圖譜”是一種數(shù)據(jù)模型,是以圖形(Graph)的方式來展現(xiàn)“實(shí)體”、實(shí)體“屬性”,以及實(shí)體之間的“關(guān)系”。圖1所示的例子中有4個(gè)實(shí)體,分別是“達(dá)·芬奇”“意大利”“蒙拉麗莎”和“米開朗基羅”。這個(gè)圖明確地展示了“達(dá)·芬奇”的各個(gè)屬性和屬性值(例如名字、生日和逝世時(shí)間等),以及這4個(gè)實(shí)體之間的關(guān)系(例如蒙拉麗莎是達(dá)·芬奇的畫作,達(dá)·芬奇出生在意大利等)。說到這里,很多讀者會(huì)不經(jīng)意地聯(lián)想到數(shù)據(jù)庫課程中“實(shí)體-聯(lián)系圖”(ER圖,ER Diagram)的概念。從某種角度來說,兩者確實(shí)有異曲同工之處。根據(jù)傳統(tǒng)數(shù)據(jù)庫理論,當(dāng)我們將現(xiàn)實(shí)世界的事物映射到信息世界時(shí),最需要關(guān)注的是兩個(gè)方面的信息:實(shí)體(包括實(shí)體屬性)和實(shí)體關(guān)系;而ER圖是反映實(shí)體和實(shí)體關(guān)系的最為經(jīng)典的概念模型。我們之所以稱ER圖是概念模型,是因?yàn)樗脑O(shè)計(jì)是幫助人理解客觀世界的事物的,不是計(jì)算機(jī)實(shí)現(xiàn)的模型。在數(shù)據(jù)庫管理系統(tǒng)(DBMS)歷史上,出現(xiàn)過層次模型、網(wǎng)狀模型和關(guān)系模型,這些是數(shù)據(jù)庫管理系統(tǒng)所實(shí)現(xiàn)的計(jì)算機(jī)模型。因此實(shí)際的數(shù)據(jù)庫應(yīng)用項(xiàng)目中就存在一個(gè)從概念模型到實(shí)現(xiàn)模型的轉(zhuǎn)換問題,例如如何根據(jù)ER圖來構(gòu)建關(guān)系表。從這個(gè)角度來看,知識圖譜又不同于ER圖,因?yàn)橹R圖譜不僅顯式地刻畫了實(shí)體和實(shí)體關(guān)系,而且其本身也定義了一種計(jì)算機(jī)所實(shí)現(xiàn)的數(shù)據(jù)模型。

圖1 谷歌的知識圖譜示例

   “知識圖譜”這個(gè)名詞是由于2012年5月16日谷歌啟動(dòng)的知識圖譜(Knowledge Graph)項(xiàng)目而活躍起來的。目前知識圖譜普遍采用了語義網(wǎng)框架中的資源描述框架(Resource Description Framework, RDF)模型來表示數(shù)據(jù)。語義網(wǎng)是萬維網(wǎng)之父蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出的概念,其核心是構(gòu)建以數(shù)據(jù)為中心的網(wǎng)絡(luò),即Web of Data。其中RDF是萬維網(wǎng)聯(lián)盟(W3C)的語義網(wǎng)框架中的數(shù)據(jù)描述的標(biāo)準(zhǔn),通常稱之為RDF三元組<主語(subject),謂詞(predicate),賓語(object)>。其中主語是一個(gè)被描述的資源,由統(tǒng)一資源標(biāo)識符(URI)來表示。謂詞可以表示主語的屬性,或者表示主語和賓語之間的某種關(guān)系;當(dāng)表示屬性時(shí),賓語就是屬性值,通常是一個(gè)字面值(literal);否則賓語是另外一個(gè)由URI表示的資源。

   圖2展示了一個(gè)人物類百科的RDF三元組的知識圖譜數(shù)據(jù)集。例如y:Abraham_Lincoln表示一個(gè)實(shí)體URI(其中y表示前綴http://en.wikipedia.org/wiki/),它有3個(gè)屬性(hasName, BornOndate, DiedOnDate)和1個(gè)關(guān)系(DiedIn)。

圖2 RDF數(shù)據(jù)的例子

圖3 SPARQL查詢的例子

   面向RDF數(shù)據(jù)集,W3C提出了一種結(jié)構(gòu)化查詢語言SPARQL,它類似于面向關(guān)系數(shù)據(jù)庫的查詢語言SQL。和SQL一樣,SPARQL也是一種描述性的結(jié)構(gòu)化查詢語言,即用戶只需要按照SPARQL定義的語法規(guī)則去描述其想查詢的信息即可。假設(shè)我們需要在上面的RDF數(shù)據(jù)中查詢“在1809年2月12日出生,并且在1865年4月15日逝世的人的姓名”,這個(gè)查詢可以表示成如圖3所示的SPARQL語句。

   我們也可以將RDF和SPARQL分別表示成圖的形式。在RDF中,主語和賓語可以分別表示成RDF圖中的節(jié)點(diǎn),一條稱述(即RDF三元組)可以表示成一條邊,其中謂詞是邊的標(biāo)簽。SPARQL語句同樣可以表示成一個(gè)查詢圖。 圖4顯示了上例所對應(yīng)的RDF圖和SPARQL查詢圖結(jié)構(gòu)?;卮餝PARQL查詢,本質(zhì)上就是在RDF圖中找到SPARQL查詢圖的子圖匹配的位置,這就是基于圖數(shù)據(jù)庫回答SPARQL查詢的理論基礎(chǔ)。在圖4所示的例子中,由節(jié)點(diǎn)005、009、010和011所推導(dǎo)的子圖就是查詢圖的一個(gè)匹配,根據(jù)此匹配很容易知道SPARQL的查詢結(jié)果是“Abraham Lincoln”。

圖4 RDF圖和SPARQL查詢圖

知識圖譜目前的應(yīng)用

   目前,知識圖譜在工業(yè)界,尤其是在互聯(lián)網(wǎng)領(lǐng)域中已有相關(guān)應(yīng)用;在工業(yè)設(shè)計(jì)和產(chǎn)品管理、知識出版、健康醫(yī)療和情報(bào)分析等其他領(lǐng)域也有不少的應(yīng)用。本文主要介紹互聯(lián)網(wǎng)領(lǐng)域相關(guān)公司的產(chǎn)品。

   谷歌的知識圖譜

   如前所述,知識圖譜的活躍得益于谷歌的知識圖譜項(xiàng)目。谷歌通過構(gòu)建知識圖譜,將內(nèi)部信息資源都唯一地關(guān)聯(lián)起來。例如“姚明”是知識圖譜中的一個(gè)實(shí)體,包含相關(guān)的一些屬性,例如出生時(shí)間、地點(diǎn)、身高等。同時(shí),可以將搜索引擎中所爬取的和“姚明”相關(guān)的文檔和圖片都與這個(gè)實(shí)體關(guān)聯(lián)起來。在谷歌的知識圖譜項(xiàng)目中,最早的應(yīng)用方式就是在搜索引擎返回結(jié)果里面提供“知識卡片”。傳統(tǒng)的搜索引擎返回界面中,通常是查詢詞所匹配的文檔列表。然而,在2012年5月16日以后的谷歌搜索引擎返回結(jié)果中,如果查詢詞匹配了谷歌知識圖譜中的某個(gè)實(shí)體,谷歌還會(huì)以知識卡片的形式返回這個(gè)實(shí)體的一些屬性和與其他實(shí)體的關(guān)系。例如,當(dāng)我們搜索“姚明”時(shí),谷歌返回的知識卡片會(huì)包括姚明的出生時(shí)間、地點(diǎn)、身高,以及他的妻子葉莉,甚至包括相關(guān)聯(lián)的姚明的圖片。

   谷歌的富摘要

   一般來說,搜索引擎會(huì)為每一篇搜索結(jié)果提供一個(gè)目標(biāo)網(wǎng)頁的摘要,以便用戶判斷是否為自己想搜索的頁面。通常網(wǎng)頁的摘要是采用“抽取式”方式生成的,即從網(wǎng)頁的頁面文本中找到和搜索關(guān)鍵詞相關(guān)的并且比較重要的句子來構(gòu)成頁面的摘要返回給用戶。但是谷歌的富摘要(Google Rich Snippets)產(chǎn)品中,會(huì)抽取在用戶超文本標(biāo)記語言(HTML)頁面中以結(jié)構(gòu)化形式存在的知識圖譜數(shù)據(jù),例如描述實(shí)體屬性的數(shù)據(jù)。目前這方面的標(biāo)準(zhǔn)包括RDFa、Microdata和Schema.org等結(jié)構(gòu)化數(shù)據(jù)標(biāo)簽。假設(shè)用戶搜索“Thinkpad T450”產(chǎn)品,在谷歌返回的沃爾瑪線上商店的頁面摘要中(見圖5)包含了這個(gè)產(chǎn)品的打分(Rating,3星)、評論數(shù)目(Vote,1份評論)和價(jià)格(616.67美元)。實(shí)際上,用戶已經(jīng)通過Schema.org等結(jié)構(gòu)化的語義標(biāo)簽在HTML中標(biāo)示出了這些重要的數(shù)據(jù),搜索引擎可以通過解析器(Parser)解析出這些結(jié)構(gòu)化數(shù)據(jù),利用這些結(jié)構(gòu)化知識圖譜數(shù)據(jù)來產(chǎn)生摘要。圖6展示了利用谷歌的結(jié)構(gòu)化測試工具,可以從上述沃爾瑪產(chǎn)品頁面的HTML中抽取上面提到的商品的價(jià)格和商標(biāo)等屬性信息。

圖5 根據(jù)抽取的結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生的“沃爾瑪產(chǎn)品頁面”搜索結(jié)果摘要

圖6 谷歌結(jié)構(gòu)化抽取工具所抽取出來的“沃爾瑪產(chǎn)品頁面”上的結(jié)構(gòu)化數(shù)據(jù)

臉書的開放內(nèi)容協(xié)議

   臉書(Facebook)也定義了一種類似的標(biāo)簽語言——開放內(nèi)容協(xié)議(Open Graph Protocol, OGP)。臉書利用OGP協(xié)議定義了社交網(wǎng)絡(luò)上的知識圖譜(Facebook Social Graph,社交圖),用于連接社交網(wǎng)絡(luò)的用戶、用戶分享的照片、電影、評論,甚至包括通過臉書定義的應(yīng)用程序編程接口(Graph API)所鏈接的第三方的關(guān)于社交用戶的知識圖譜數(shù)據(jù)。在所構(gòu)建的社交圖基礎(chǔ)上,臉書推出了圖搜索(Graph Search)功能,將用戶的自然語言問題轉(zhuǎn)化為面向社交圖的圖搜索問題,從而回答用戶的問題。假設(shè)以我的臉書賬號登錄,輸入自然語言“My friends who live in Canada”,將顯示我在加拿大的朋友的賬號;同樣地,再輸入“Photos of my friends who live in Canada”,將顯示這些朋友在臉書上分享的照片。這個(gè)例子說明,臉書所構(gòu)建的社交圖將用戶、地點(diǎn)以及照片都關(guān)聯(lián)起來了,否則無法回答上述兩個(gè)自然語言問題。

   臉書將用戶輸入的自然語言轉(zhuǎn)化為面向社交圖的結(jié)構(gòu)化查詢操作。從圖7中可以看出,原始查詢語句在經(jīng)過自然語言接口模塊處理后,對應(yīng)的規(guī)范化自然語言查詢語句和結(jié)構(gòu)化查詢語句分別為:“my friends who live in [id: 12345]”和“intersect(friends(me), residents(12345))”。其中,“12345”代表“Canada”在社交圖譜上對應(yīng)的ID。對應(yīng)的結(jié)構(gòu)化查詢語句會(huì)交給臉書內(nèi)部設(shè)計(jì)的面向社交圖譜的索引和搜索系統(tǒng)Unicorn,最后查詢得到答案。

圖7 臉書中將自然語言轉(zhuǎn)換為結(jié)構(gòu)化查詢的一個(gè)示例

面向知識圖譜的問答系統(tǒng)

   面向知識圖譜的問答系統(tǒng)還包括亞馬遜收購的EVI產(chǎn)品。EVI的原名叫True Knowledge,是一家創(chuàng)業(yè)公司的產(chǎn)品。本質(zhì)上就是用三元組的形式來組織數(shù)據(jù),根據(jù)模板技術(shù)將用戶的自然語言問題轉(zhuǎn)化為結(jié)構(gòu)化的查詢語句找到結(jié)果返回給用戶。IBM的沃森(Watson)系統(tǒng)中也同樣采用DBpedia和Yago知識圖譜數(shù)據(jù)來回答某些自然語言問題。相比于傳統(tǒng)基于文檔的問答方法,基于知識圖譜的問答準(zhǔn)確度更高,但能回答的問題相對較少(見圖8)。

圖8 IBM沃森系統(tǒng)參加《危險(xiǎn)邊緣》(Jeopardy)挑戰(zhàn)的實(shí)驗(yàn)數(shù)據(jù)

知識圖譜的管理方法

   知識圖譜數(shù)據(jù)管理的一個(gè)核心問題是如何有效地存儲(chǔ)和查詢RDF數(shù)據(jù)集??偟膩碚f,有兩套完全不同的思路。其一是我們可以利用已有的成熟的數(shù)據(jù)庫管理系統(tǒng)(例如關(guān)系數(shù)據(jù)庫系統(tǒng))來存儲(chǔ)知識圖譜數(shù)據(jù),將面向RDF知識圖譜的SPARQL查詢轉(zhuǎn)換為面向此類成熟數(shù)據(jù)庫管理系統(tǒng)的查詢,例如面向關(guān)系數(shù)據(jù)庫的SQL查詢,利用已有的關(guān)系數(shù)據(jù)庫產(chǎn)品或者相關(guān)技術(shù)來回答查詢,其中最核心的研究問題是如何構(gòu)建關(guān)系表來存儲(chǔ)RDF知識圖譜數(shù)據(jù),并且使得轉(zhuǎn)換的SQL查詢語句查詢性能更高;其二是直接開發(fā)面向RDF知識圖譜數(shù)據(jù)的原生(Native)知識圖譜數(shù)據(jù)存儲(chǔ)和查詢系統(tǒng)(Native RDF圖數(shù)據(jù)庫系統(tǒng)),考慮到RDF知識圖譜管理的特性,從數(shù)據(jù)庫系統(tǒng)的底層進(jìn)行優(yōu)化。

   由于關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)在數(shù)據(jù)管理方面的巨大成功以及成熟的商業(yè)軟件產(chǎn)品,同時(shí)RDF數(shù)據(jù)的三元組模型可以很容易映射成關(guān)系模型,因此大量研究者嘗試了使用關(guān)系數(shù)據(jù)模型來設(shè)計(jì)RDF存儲(chǔ)和檢索的方案。根據(jù)所設(shè)計(jì)的表結(jié)構(gòu)的不同,相應(yīng)的存儲(chǔ)和查詢方法也各異。

   另外一種是采用圖的方式來管理知識圖譜數(shù)據(jù)。通過將RDF三元組看作帶標(biāo)簽的邊,RDF知識圖譜數(shù)據(jù)很自然地符合圖模型結(jié)構(gòu)。因此,有的研究者從RDF圖模型結(jié)構(gòu)的角度來看待RDF數(shù)據(jù),他們將RDF數(shù)據(jù)視為一張圖,并通過對RDF圖結(jié)構(gòu)的存儲(chǔ)來解決RDF數(shù)據(jù)存儲(chǔ)問題。圖模型符合RDF模型的語義層次,可以最大限度地保持RDF數(shù)據(jù)的語義信息,也有利于對語義信息的查詢。此外,以圖的方式來存儲(chǔ)RDF數(shù)據(jù),可以借鑒成熟的圖算法、圖數(shù)據(jù)庫來設(shè)計(jì)RDF數(shù)據(jù)的存儲(chǔ)方案與查詢算法。然而,利用圖模型來設(shè)計(jì)RDF存儲(chǔ)與查詢也存在著難以解決的問題。第一,相對于普通的圖模型,RDF圖上的邊具有標(biāo)簽,并可能成為查詢目標(biāo);第二,典型的圖算法往往時(shí)間復(fù)雜度較高,需要精心的設(shè)計(jì)以降低實(shí)時(shí)查詢的時(shí)間復(fù)雜度。

   我們在文獻(xiàn)[9]中提出一種利用子圖匹配方法回答SPARQL的方法,并構(gòu)建了相關(guān)開源系統(tǒng)gStore。由于基于圖結(jié)構(gòu)方法的索引可以考慮到查詢圖整體信息,因此,總的來說,查詢圖越復(fù)雜(例如查詢圖的邊越多),gStore相對于對比系統(tǒng)的性能越好,有些復(fù)雜的SPARQL查詢可以達(dá)到一個(gè)數(shù)量級以上的性能優(yōu)勢。gStore的分布式版本在10臺機(jī)器組成的集群上可以進(jìn)行50億~100億規(guī)模的RDF知識圖譜管理的任務(wù)。

   計(jì)算機(jī)不同領(lǐng)域?qū)χR圖譜研究的側(cè)重

圖9 不同領(lǐng)域?qū)Α爸R圖譜”研究的側(cè)重

   知識圖譜屬于交叉研究領(lǐng)域,不同計(jì)算機(jī)研究領(lǐng)域從不同的角度對知識圖譜進(jìn)行研究(見圖9)。

   在自然語言處理領(lǐng)域,針對知識圖譜的研究主要在兩個(gè)方面。一是“信息抽取”。目前互聯(lián)網(wǎng)上大部分?jǐn)?shù)據(jù)仍然是“非結(jié)構(gòu)化”的文本數(shù)據(jù),如何從非結(jié)構(gòu)的文本數(shù)據(jù)中抽取出知識圖譜所需要的三元組數(shù)據(jù)是一項(xiàng)具有挑戰(zhàn)性的工作;二是“語義解析(Semantic Parsing)”,即將用戶輸入的自然語言問題轉(zhuǎn)化成面向知識圖譜的結(jié)構(gòu)化查詢。我們在文獻(xiàn)[17]中提出利用子圖匹配的方法回答面對知識圖譜的自然語言問題,并構(gòu)建系統(tǒng)gAnswer。

   在知識工程領(lǐng)域主要也有兩個(gè)方面的熱點(diǎn)研究問題。其一是大規(guī)模本體和知識庫的構(gòu)建。例如,DBpedia和Yago都是通過從維基百科上獲取知識從而構(gòu)建大規(guī)模的知識圖譜數(shù)據(jù)集;另外,面向特定封閉領(lǐng)域(closed domain)的知識圖譜構(gòu)建在工業(yè)界應(yīng)用比較廣泛。另外一項(xiàng)研究課題是知識圖譜上的推理問題研究。不同于傳統(tǒng)數(shù)據(jù)庫的閉世界假設(shè)(Closed-world assumption),知識圖譜采用的是開放世界假設(shè)(Open-world assumption)。在開放世界假設(shè)情況下,系統(tǒng)并不假設(shè)所存儲(chǔ)的數(shù)據(jù)是完備的,系統(tǒng)中沒有被顯示存儲(chǔ)但是可以通過推理得到的“陳述(Statement)”,仍然被認(rèn)為是正確的數(shù)據(jù)。

圖10 TransE模型示例

   在機(jī)器學(xué)習(xí)領(lǐng)域,熱門的課題包括面向知識圖譜的“表示學(xué)習(xí)”,其中最具代表性的研究工作是TransE模型。給定一個(gè)知識圖譜,我們將知識圖譜三元組中的每個(gè)主語、謂詞和賓語都映射成一個(gè)高維向量,其優(yōu)化目標(biāo)可以表示為將圖10中的公式最小化。這個(gè)公式的基本含義是,對于存在于知識圖譜G里面的任何一條三元組,其中主語、謂詞和賓語的向量分別表示為s、p 和o, 我們要求主語和謂詞的向量和(s+p)離賓語的向量表示(o)盡量近;對于不存在于知識圖譜G中的三元組,則相互距離盡量遠(yuǎn)。TransE模型的基本含義是,謂詞相同的兩個(gè)三元組,它們分別的主語與賓語的向量差是近似的。在TransE模型的基礎(chǔ)上,學(xué)術(shù)界提出了很多改進(jìn)的知識圖譜嵌入(Embedding)的方案。這些模型在很多任務(wù)上,例如知識圖譜的謂詞預(yù)測、知識補(bǔ)全等,比以前的方法在準(zhǔn)確度上都有不小的提升。

   知識圖譜從某種角度來說,是一個(gè)商業(yè)包裝的詞匯;但是其本身來源于語義網(wǎng)、圖數(shù)據(jù)庫、自然語言處理等相關(guān)的學(xué)術(shù)研究領(lǐng)域。由于篇幅和筆者學(xué)術(shù)研究水平的局限,對于更大范圍的知識圖譜研究和應(yīng)用的介紹難免掛一漏萬,敬請讀者批評指正。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
知識圖譜基礎(chǔ)知識之三——知識圖譜的構(gòu)建過程
從語義網(wǎng)到知識圖譜
圖數(shù)據(jù)庫能做些什么?查詢語言說了算
最全知識圖譜介紹:關(guān)鍵技術(shù)、開放數(shù)據(jù)集、應(yīng)用案例匯總
用 SPARQL 搜索 RDF 數(shù)據(jù)2
數(shù)據(jù)庫語言
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服