天天操天天摸天天射,久久天天躁狠狠躁夜夜躁综合,国产成人午夜精品一区二区三区

來源：來源：《中國計(jì)算機(jī)學(xué)會(huì)通訊》2017年第8期《專欄》

近年來，隨著“人工智能”概念再度活躍，除了“深度學(xué)習(xí)”這個(gè)炙手可熱的名詞以外，“知識圖譜”也是研究者、工業(yè)界和投資人心目中的又一顆“銀彈”。簡單地說，“知識圖譜”是一種數(shù)據(jù)模型，是以圖形(Graph)的方式來展現(xiàn)“實(shí)體”、實(shí)體“屬性”，以及實(shí)體之間的“關(guān)系”。圖1所示的例子中有4個(gè)實(shí)體，分別是“達(dá)·芬奇”“意大利”“蒙拉麗莎”和“米開朗基羅”。這個(gè)圖明確地展示了“達(dá)·芬奇”的各個(gè)屬性和屬性值（例如名字、生日和逝世時(shí)間等），以及這4個(gè)實(shí)體之間的關(guān)系（例如蒙拉麗莎是達(dá)·芬奇的畫作，達(dá)·芬奇出生在意大利等）。說到這里，很多讀者會(huì)不經(jīng)意地聯(lián)想到數(shù)據(jù)庫課程中“實(shí)體-聯(lián)系圖”（ER圖，ER Diagram）的概念。從某種角度來說，兩者確實(shí)有異曲同工之處。根據(jù)傳統(tǒng)數(shù)據(jù)庫理論，當(dāng)我們將現(xiàn)實(shí)世界的事物映射到信息世界時(shí)，最需要關(guān)注的是兩個(gè)方面的信息：實(shí)體（包括實(shí)體屬性）和實(shí)體關(guān)系；而ER圖是反映實(shí)體和實(shí)體關(guān)系的最為經(jīng)典的概念模型。我們之所以稱ER圖是概念模型，是因?yàn)樗脑O(shè)計(jì)是幫助人理解客觀世界的事物的，不是計(jì)算機(jī)實(shí)現(xiàn)的模型。在數(shù)據(jù)庫管理系統(tǒng)(DBMS)歷史上，出現(xiàn)過層次模型、網(wǎng)狀模型和關(guān)系模型，這些是數(shù)據(jù)庫管理系統(tǒng)所實(shí)現(xiàn)的計(jì)算機(jī)模型。因此實(shí)際的數(shù)據(jù)庫應(yīng)用項(xiàng)目中就存在一個(gè)從概念模型到實(shí)現(xiàn)模型的轉(zhuǎn)換問題，例如如何根據(jù)ER圖來構(gòu)建關(guān)系表。從這個(gè)角度來看，知識圖譜又不同于ER圖，因?yàn)橹R圖譜不僅顯式地刻畫了實(shí)體和實(shí)體關(guān)系，而且其本身也定義了一種計(jì)算機(jī)所實(shí)現(xiàn)的數(shù)據(jù)模型。

圖1 谷歌的知識圖譜示例

“知識圖譜”這個(gè)名詞是由于2012年5月16日谷歌啟動(dòng)的知識圖譜(Knowledge Graph)項(xiàng)目而活躍起來的。目前知識圖譜普遍采用了語義網(wǎng)框架中的資源描述框架(Resource Description Framework, RDF)模型來表示數(shù)據(jù)。語義網(wǎng)是萬維網(wǎng)之父蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出的概念，其核心是構(gòu)建以數(shù)據(jù)為中心的網(wǎng)絡(luò)，即Web of Data。其中RDF是萬維網(wǎng)聯(lián)盟(W3C)的語義網(wǎng)框架中的數(shù)據(jù)描述的標(biāo)準(zhǔn)，通常稱之為RDF三元組<主語(subject)，謂詞(predicate)，賓語(object)>。其中主語是一個(gè)被描述的資源，由統(tǒng)一資源標(biāo)識符(URI)來表示。謂詞可以表示主語的屬性，或者表示主語和賓語之間的某種關(guān)系；當(dāng)表示屬性時(shí)，賓語就是屬性值，通常是一個(gè)字面值(literal)；否則賓語是另外一個(gè)由URI表示的資源。

圖2展示了一個(gè)人物類百科的RDF三元組的知識圖譜數(shù)據(jù)集。例如y:Abraham_Lincoln表示一個(gè)實(shí)體URI（其中y表示前綴http://en.wikipedia.org/wiki/），它有3個(gè)屬性(hasName, BornOndate, DiedOnDate)和1個(gè)關(guān)系(DiedIn)。

圖2 RDF數(shù)據(jù)的例子

圖3 SPARQL查詢的例子

面向RDF數(shù)據(jù)集，W3C提出了一種結(jié)構(gòu)化查詢語言SPARQL，它類似于面向關(guān)系數(shù)據(jù)庫的查詢語言SQL。和SQL一樣，SPARQL也是一種描述性的結(jié)構(gòu)化查詢語言，即用戶只需要按照SPARQL定義的語法規(guī)則去描述其想查詢的信息即可。假設(shè)我們需要在上面的RDF數(shù)據(jù)中查詢“在1809年2月12日出生，并且在1865年4月15日逝世的人的姓名”，這個(gè)查詢可以表示成如圖3所示的SPARQL語句。

我們也可以將RDF和SPARQL分別表示成圖的形式。在RDF中，主語和賓語可以分別表示成RDF圖中的節(jié)點(diǎn)，一條稱述（即RDF三元組）可以表示成一條邊，其中謂詞是邊的標(biāo)簽。SPARQL語句同樣可以表示成一個(gè)查詢圖。圖4顯示了上例所對應(yīng)的RDF圖和SPARQL查詢圖結(jié)構(gòu)?；卮餝PARQL查詢，本質(zhì)上就是在RDF圖中找到SPARQL查詢圖的子圖匹配的位置，這就是基于圖數(shù)據(jù)庫回答SPARQL查詢的理論基礎(chǔ)。在圖4所示的例子中，由節(jié)點(diǎn)005、009、010和011所推導(dǎo)的子圖就是查詢圖的一個(gè)匹配，根據(jù)此匹配很容易知道SPARQL的查詢結(jié)果是“Abraham Lincoln”。

圖4 RDF圖和SPARQL查詢圖

知識圖譜目前的應(yīng)用

目前，知識圖譜在工業(yè)界，尤其是在互聯(lián)網(wǎng)領(lǐng)域中已有相關(guān)應(yīng)用；在工業(yè)設(shè)計(jì)和產(chǎn)品管理、知識出版、健康醫(yī)療和情報(bào)分析等其他領(lǐng)域也有不少的應(yīng)用。本文主要介紹互聯(lián)網(wǎng)領(lǐng)域相關(guān)公司的產(chǎn)品。

谷歌的知識圖譜

如前所述，知識圖譜的活躍得益于谷歌的知識圖譜項(xiàng)目。谷歌通過構(gòu)建知識圖譜，將內(nèi)部信息資源都唯一地關(guān)聯(lián)起來。例如“姚明”是知識圖譜中的一個(gè)實(shí)體，包含相關(guān)的一些屬性，例如出生時(shí)間、地點(diǎn)、身高等。同時(shí)，可以將搜索引擎中所爬取的和“姚明”相關(guān)的文檔和圖片都與這個(gè)實(shí)體關(guān)聯(lián)起來。在谷歌的知識圖譜項(xiàng)目中，最早的應(yīng)用方式就是在搜索引擎返回結(jié)果里面提供“知識卡片”。傳統(tǒng)的搜索引擎返回界面中，通常是查詢詞所匹配的文檔列表。然而，在2012年5月16日以后的谷歌搜索引擎返回結(jié)果中，如果查詢詞匹配了谷歌知識圖譜中的某個(gè)實(shí)體，谷歌還會(huì)以知識卡片的形式返回這個(gè)實(shí)體的一些屬性和與其他實(shí)體的關(guān)系。例如，當(dāng)我們搜索“姚明”時(shí)，谷歌返回的知識卡片會(huì)包括姚明的出生時(shí)間、地點(diǎn)、身高，以及他的妻子葉莉，甚至包括相關(guān)聯(lián)的姚明的圖片。

谷歌的富摘要

一般來說，搜索引擎會(huì)為每一篇搜索結(jié)果提供一個(gè)目標(biāo)網(wǎng)頁的摘要，以便用戶判斷是否為自己想搜索的頁面。通常網(wǎng)頁的摘要是采用“抽取式”方式生成的，即從網(wǎng)頁的頁面文本中找到和搜索關(guān)鍵詞相關(guān)的并且比較重要的句子來構(gòu)成頁面的摘要返回給用戶。但是谷歌的富摘要(Google Rich Snippets)產(chǎn)品中，會(huì)抽取在用戶超文本標(biāo)記語言(HTML)頁面中以結(jié)構(gòu)化形式存在的知識圖譜數(shù)據(jù)，例如描述實(shí)體屬性的數(shù)據(jù)。目前這方面的標(biāo)準(zhǔn)包括RDFa、Microdata和Schema.org等結(jié)構(gòu)化數(shù)據(jù)標(biāo)簽。假設(shè)用戶搜索“Thinkpad T450”產(chǎn)品，在谷歌返回的沃爾瑪線上商店的頁面摘要中（見圖5）包含了這個(gè)產(chǎn)品的打分（Rating，3星）、評論數(shù)目（Vote，1份評論）和價(jià)格（616.67美元）。實(shí)際上，用戶已經(jīng)通過Schema.org等結(jié)構(gòu)化的語義標(biāo)簽在HTML中標(biāo)示出了這些重要的數(shù)據(jù)，搜索引擎可以通過解析器(Parser)解析出這些結(jié)構(gòu)化數(shù)據(jù)，利用這些結(jié)構(gòu)化知識圖譜數(shù)據(jù)來產(chǎn)生摘要。圖6展示了利用谷歌的結(jié)構(gòu)化測試工具，可以從上述沃爾瑪產(chǎn)品頁面的HTML中抽取上面提到的商品的價(jià)格和商標(biāo)等屬性信息。

圖5 根據(jù)抽取的結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生的“沃爾瑪產(chǎn)品頁面”搜索結(jié)果摘要

圖6 谷歌結(jié)構(gòu)化抽取工具所抽取出來的“沃爾瑪產(chǎn)品頁面”上的結(jié)構(gòu)化數(shù)據(jù)

臉書的開放內(nèi)容協(xié)議

臉書(Facebook)也定義了一種類似的標(biāo)簽語言——開放內(nèi)容協(xié)議(Open Graph Protocol, OGP)。臉書利用OGP協(xié)議定義了社交網(wǎng)絡(luò)上的知識圖譜（Facebook Social Graph，社交圖），用于連接社交網(wǎng)絡(luò)的用戶、用戶分享的照片、電影、評論，甚至包括通過臉書定義的應(yīng)用程序編程接口(Graph API)所鏈接的第三方的關(guān)于社交用戶的知識圖譜數(shù)據(jù)。在所構(gòu)建的社交圖基礎(chǔ)上，臉書推出了圖搜索(Graph Search)功能，將用戶的自然語言問題轉(zhuǎn)化為面向社交圖的圖搜索問題，從而回答用戶的問題。假設(shè)以我的臉書賬號登錄，輸入自然語言“My friends who live in Canada”，將顯示我在加拿大的朋友的賬號；同樣地，再輸入“Photos of my friends who live in Canada”，將顯示這些朋友在臉書上分享的照片。這個(gè)例子說明，臉書所構(gòu)建的社交圖將用戶、地點(diǎn)以及照片都關(guān)聯(lián)起來了，否則無法回答上述兩個(gè)自然語言問題。

臉書將用戶輸入的自然語言轉(zhuǎn)化為面向社交圖的結(jié)構(gòu)化查詢操作。從圖7中可以看出，原始查詢語句在經(jīng)過自然語言接口模塊處理后，對應(yīng)的規(guī)范化自然語言查詢語句和結(jié)構(gòu)化查詢語句分別為：“my friends who live in [id: 12345]”和“intersect(friends(me), residents(12345))”。其中，“12345”代表“Canada”在社交圖譜上對應(yīng)的ID。對應(yīng)的結(jié)構(gòu)化查詢語句會(huì)交給臉書內(nèi)部設(shè)計(jì)的面向社交圖譜的索引和搜索系統(tǒng)Unicorn，最后查詢得到答案。

圖7 臉書中將自然語言轉(zhuǎn)換為結(jié)構(gòu)化查詢的一個(gè)示例

面向知識圖譜的問答系統(tǒng)

面向知識圖譜的問答系統(tǒng)還包括亞馬遜收購的EVI產(chǎn)品。EVI的原名叫True Knowledge，是一家創(chuàng)業(yè)公司的產(chǎn)品。本質(zhì)上就是用三元組的形式來組織數(shù)據(jù)，根據(jù)模板技術(shù)將用戶的自然語言問題轉(zhuǎn)化為結(jié)構(gòu)化的查詢語句找到結(jié)果返回給用戶。IBM的沃森(Watson)系統(tǒng)中也同樣采用DBpedia和Yago知識圖譜數(shù)據(jù)來回答某些自然語言問題。相比于傳統(tǒng)基于文檔的問答方法，基于知識圖譜的問答準(zhǔn)確度更高，但能回答的問題相對較少（見圖8）。

圖8 IBM沃森系統(tǒng)參加《危險(xiǎn)邊緣》(Jeopardy)挑戰(zhàn)的實(shí)驗(yàn)數(shù)據(jù)

知識圖譜的管理方法

知識圖譜數(shù)據(jù)管理的一個(gè)核心問題是如何有效地存儲(chǔ)和查詢RDF數(shù)據(jù)集?？偟膩碚f，有兩套完全不同的思路。其一是我們可以利用已有的成熟的數(shù)據(jù)庫管理系統(tǒng)（例如關(guān)系數(shù)據(jù)庫系統(tǒng)）來存儲(chǔ)知識圖譜數(shù)據(jù)，將面向RDF知識圖譜的SPARQL查詢轉(zhuǎn)換為面向此類成熟數(shù)據(jù)庫管理系統(tǒng)的查詢，例如面向關(guān)系數(shù)據(jù)庫的SQL查詢，利用已有的關(guān)系數(shù)據(jù)庫產(chǎn)品或者相關(guān)技術(shù)來回答查詢，其中最核心的研究問題是如何構(gòu)建關(guān)系表來存儲(chǔ)RDF知識圖譜數(shù)據(jù)，并且使得轉(zhuǎn)換的SQL查詢語句查詢性能更高；其二是直接開發(fā)面向RDF知識圖譜數(shù)據(jù)的原生(Native)知識圖譜數(shù)據(jù)存儲(chǔ)和查詢系統(tǒng)（Native RDF圖數(shù)據(jù)庫系統(tǒng)），考慮到RDF知識圖譜管理的特性，從數(shù)據(jù)庫系統(tǒng)的底層進(jìn)行優(yōu)化。

由于關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)在數(shù)據(jù)管理方面的巨大成功以及成熟的商業(yè)軟件產(chǎn)品，同時(shí)RDF數(shù)據(jù)的三元組模型可以很容易映射成關(guān)系模型，因此大量研究者嘗試了使用關(guān)系數(shù)據(jù)模型來設(shè)計(jì)RDF存儲(chǔ)和檢索的方案。根據(jù)所設(shè)計(jì)的表結(jié)構(gòu)的不同，相應(yīng)的存儲(chǔ)和查詢方法也各異。

另外一種是采用圖的方式來管理知識圖譜數(shù)據(jù)。通過將RDF三元組看作帶標(biāo)簽的邊，RDF知識圖譜數(shù)據(jù)很自然地符合圖模型結(jié)構(gòu)。因此，有的研究者從RDF圖模型結(jié)構(gòu)的角度來看待RDF數(shù)據(jù)，他們將RDF數(shù)據(jù)視為一張圖，并通過對RDF圖結(jié)構(gòu)的存儲(chǔ)來解決RDF數(shù)據(jù)存儲(chǔ)問題。圖模型符合RDF模型的語義層次，可以最大限度地保持RDF數(shù)據(jù)的語義信息，也有利于對語義信息的查詢。此外，以圖的方式來存儲(chǔ)RDF數(shù)據(jù)，可以借鑒成熟的圖算法、圖數(shù)據(jù)庫來設(shè)計(jì)RDF數(shù)據(jù)的存儲(chǔ)方案與查詢算法。然而，利用圖模型來設(shè)計(jì)RDF存儲(chǔ)與查詢也存在著難以解決的問題。第一，相對于普通的圖模型，RDF圖上的邊具有標(biāo)簽，并可能成為查詢目標(biāo)；第二，典型的圖算法往往時(shí)間復(fù)雜度較高，需要精心的設(shè)計(jì)以降低實(shí)時(shí)查詢的時(shí)間復(fù)雜度。

我們在文獻(xiàn)[9]中提出一種利用子圖匹配方法回答SPARQL的方法，并構(gòu)建了相關(guān)開源系統(tǒng)gStore。由于基于圖結(jié)構(gòu)方法的索引可以考慮到查詢圖整體信息，因此，總的來說，查詢圖越復(fù)雜（例如查詢圖的邊越多），gStore相對于對比系統(tǒng)的性能越好，有些復(fù)雜的SPARQL查詢可以達(dá)到一個(gè)數(shù)量級以上的性能優(yōu)勢。gStore的分布式版本在10臺機(jī)器組成的集群上可以進(jìn)行50億~100億規(guī)模的RDF知識圖譜管理的任務(wù)。

計(jì)算機(jī)不同領(lǐng)域?qū)χR圖譜研究的側(cè)重

圖9 不同領(lǐng)域?qū)Α爸R圖譜”研究的側(cè)重

知識圖譜屬于交叉研究領(lǐng)域，不同計(jì)算機(jī)研究領(lǐng)域從不同的角度對知識圖譜進(jìn)行研究（見圖9）。

在自然語言處理領(lǐng)域，針對知識圖譜的研究主要在兩個(gè)方面。一是“信息抽取”。目前互聯(lián)網(wǎng)上大部分?jǐn)?shù)據(jù)仍然是“非結(jié)構(gòu)化”的文本數(shù)據(jù)，如何從非結(jié)構(gòu)的文本數(shù)據(jù)中抽取出知識圖譜所需要的三元組數(shù)據(jù)是一項(xiàng)具有挑戰(zhàn)性的工作；二是“語義解析(Semantic Parsing)”，即將用戶輸入的自然語言問題轉(zhuǎn)化成面向知識圖譜的結(jié)構(gòu)化查詢。我們在文獻(xiàn)[17]中提出利用子圖匹配的方法回答面對知識圖譜的自然語言問題，并構(gòu)建系統(tǒng)gAnswer。

在知識工程領(lǐng)域主要也有兩個(gè)方面的熱點(diǎn)研究問題。其一是大規(guī)模本體和知識庫的構(gòu)建。例如，DBpedia和Yago都是通過從維基百科上獲取知識從而構(gòu)建大規(guī)模的知識圖譜數(shù)據(jù)集；另外，面向特定封閉領(lǐng)域(closed domain)的知識圖譜構(gòu)建在工業(yè)界應(yīng)用比較廣泛。另外一項(xiàng)研究課題是知識圖譜上的推理問題研究。不同于傳統(tǒng)數(shù)據(jù)庫的閉世界假設(shè)(Closed-world assumption)，知識圖譜采用的是開放世界假設(shè)(Open-world assumption)。在開放世界假設(shè)情況下，系統(tǒng)并不假設(shè)所存儲(chǔ)的數(shù)據(jù)是完備的，系統(tǒng)中沒有被顯示存儲(chǔ)但是可以通過推理得到的“陳述(Statement)”，仍然被認(rèn)為是正確的數(shù)據(jù)。

圖10 TransE模型示例

在機(jī)器學(xué)習(xí)領(lǐng)域，熱門的課題包括面向知識圖譜的“表示學(xué)習(xí)”，其中最具代表性的研究工作是TransE模型。給定一個(gè)知識圖譜，我們將知識圖譜三元組中的每個(gè)主語、謂詞和賓語都映射成一個(gè)高維向量，其優(yōu)化目標(biāo)可以表示為將圖10中的公式最小化。這個(gè)公式的基本含義是，對于存在于知識圖譜G里面的任何一條三元組，其中主語、謂詞和賓語的向量分別表示為s、p 和o, 我們要求主語和謂詞的向量和(s+p)離賓語的向量表示(o)盡量近；對于不存在于知識圖譜G中的三元組，則相互距離盡量遠(yuǎn)。TransE模型的基本含義是，謂詞相同的兩個(gè)三元組，它們分別的主語與賓語的向量差是近似的。在TransE模型的基礎(chǔ)上，學(xué)術(shù)界提出了很多改進(jìn)的知識圖譜嵌入(Embedding)的方案。這些模型在很多任務(wù)上，例如知識圖譜的謂詞預(yù)測、知識補(bǔ)全等，比以前的方法在準(zhǔn)確度上都有不小的提升。

知識圖譜從某種角度來說，是一個(gè)商業(yè)包裝的詞匯；但是其本身來源于語義網(wǎng)、圖數(shù)據(jù)庫、自然語言處理等相關(guān)的學(xué)術(shù)研究領(lǐng)域。由于篇幅和筆者學(xué)術(shù)研究水平的局限，對于更大范圍的知識圖譜研究和應(yīng)用的介紹難免掛一漏萬，敬請讀者批評指正。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

知識圖譜目前的應(yīng)用

面向知識圖譜的問答系統(tǒng)

計(jì)算機(jī)不同領(lǐng)域?qū)χR圖譜研究的側(cè)重