作者丨姜天文
學(xué)校丨哈工大SCIR博士生
本文經(jīng)授權(quán)轉(zhuǎn)載自公眾號(hào)「哈工大SCIR」。
“知識(shí)圖譜(Knowledge Graph)”的概念由 Google 公司在 2012 年提出[1],是指其用于提升搜索引擎性能的知識(shí)庫(kù)。與近年來(lái)其他學(xué)者相同,本文中的“知識(shí)圖譜”泛指知識(shí)庫(kù)項(xiàng)目,而非特指 Google 的知識(shí)圖譜項(xiàng)目。
知識(shí)圖譜的出現(xiàn)是人工智能對(duì)知識(shí)需求所導(dǎo)致的必然結(jié)果,但其發(fā)展又得益于很多其他的研究領(lǐng)域,涉及專家系統(tǒng)、語(yǔ)言學(xué)、語(yǔ)義網(wǎng)、數(shù)據(jù)庫(kù),以及信息抽取等眾多領(lǐng)域,是交叉融合的產(chǎn)物而非一脈相承。
△ 圖1: 多領(lǐng)域共同促進(jìn)知識(shí)圖譜發(fā)展
知識(shí)圖譜的早期發(fā)展
早在上個(gè)世紀(jì) 70 年代,專家系統(tǒng)(Expert Systems)作為人工智能的重要分支,是指利用知識(shí)和推理過(guò)程來(lái)解決那些借助人類專家知識(shí)才能得已解決的問(wèn)題的計(jì)算機(jī)程序[2]。八十年代,專家系統(tǒng)的發(fā)展激增,日本的五代機(jī)項(xiàng)目就是在這期間開(kāi)始的,專家系統(tǒng)是其核心部分。專家系統(tǒng)一般由兩部分組成:知識(shí)庫(kù)與推理引擎。人類專家提供知識(shí),再將這種顯式的知識(shí)映射并存儲(chǔ)到知識(shí)庫(kù)中用來(lái)推理。
Cyc 是這一期間較為出色的項(xiàng)目[3],由 Douglas Lenat 在 1984 年設(shè)立,旨在收集生活中常識(shí)知識(shí)并將其編碼集成到一個(gè)全面的本體知識(shí)庫(kù)。Cyc 知識(shí)庫(kù)中的知識(shí)使用專門設(shè)計(jì)的 CycL 進(jìn)行表示。同其他專家系統(tǒng)一樣,Cyc 不僅包括知識(shí),而且提供了非常多的推理引擎,支持演繹推理和歸納推理。目前 Cyc 知識(shí)庫(kù)涉及 50 萬(wàn)條概念的 500 萬(wàn)條常識(shí)知識(shí)。OpenCyc 是其開(kāi)放出來(lái)免費(fèi)供大眾使用的部分知識(shí),包括 24 萬(wàn)條概念的約 240 萬(wàn)條常識(shí)知識(shí)。
對(duì)詞匯的理解是解讀自然語(yǔ)言的關(guān)鍵,語(yǔ)言學(xué)家所創(chuàng)造的詞典為人類而非機(jī)器的閱讀提供了便利,雖然有電子詞典的存在,但機(jī)器仍無(wú)法很好的從中獲取詞匯含義。
1985 年,普林斯頓大學(xué)認(rèn)識(shí)科學(xué)實(shí)驗(yàn)室在心理學(xué)教授喬治·A·米勒的指導(dǎo)下開(kāi)始建立和維護(hù)名為 WordNet 的英語(yǔ)字典[4],旨在為詞典信息和現(xiàn)代計(jì)算提供更加有效的結(jié)合,為計(jì)算機(jī)程序提供可讀性較強(qiáng)的在線詞匯數(shù)據(jù)庫(kù)。
在 WordNet 中,名詞、動(dòng)詞、形容詞以及副詞被按照認(rèn)知上的同義詞分組,稱為 synsets,每一個(gè) synset 表征一個(gè)確定的概念。synset 之間通過(guò)概念語(yǔ)義以及詞匯關(guān)系鏈接。在漢語(yǔ)中,類似的典型代表有《同義詞詞林》[15]及其擴(kuò)展版[16]、知網(wǎng)(HowNet)[17]等,都是從語(yǔ)言學(xué)的角度,以概念為最基本的語(yǔ)義單元構(gòu)建起來(lái)的可以被計(jì)算機(jī)處理的漢語(yǔ)詞典。
這些早期的知識(shí)圖譜都是利用相關(guān)領(lǐng)域?qū)<疫M(jìn)行人工構(gòu)建,具有很高的準(zhǔn)確率和利用價(jià)值,但是其構(gòu)建過(guò)程耗時(shí)耗力而且存在覆蓋性較低的問(wèn)題。
鏈接數(shù)據(jù)與基于百科知識(shí)的知識(shí)圖譜構(gòu)建
1989 年萬(wàn)維網(wǎng)的出現(xiàn),為知識(shí)的獲取提供了極大的方便,1998 年,萬(wàn)維網(wǎng)之父蒂姆·伯納斯·李再次提出語(yǔ)義網(wǎng)(Semantic Web),其初衷是讓機(jī)器也同人類一樣可以很好地獲取并使用知識(shí)[5,6,7]。
不同于人工智能中訓(xùn)練機(jī)器使之擁有和人類一樣的認(rèn)知能力,語(yǔ)義網(wǎng)直接向機(jī)器提供可直接用于程序處理的知識(shí)表示[5]。但語(yǔ)義網(wǎng)是一個(gè)較為宏觀的設(shè)想并且其設(shè)計(jì)模型是“自頂向下”的,導(dǎo)致其很難落地,學(xué)者們逐漸將焦點(diǎn)轉(zhuǎn)向數(shù)據(jù)本身。
2006 年,伯納斯·李提出鏈接數(shù)據(jù)(Linked Data)的概念,鼓勵(lì)大家將數(shù)據(jù)公開(kāi)并遵循一定的原則(2006 年提出 4 條原則,2009 年精簡(jiǎn)為 3 條原則)將其發(fā)布在互聯(lián)網(wǎng)中[8,9],鏈接數(shù)據(jù)的宗旨是希望數(shù)據(jù)不僅僅發(fā)布于語(yǔ)義網(wǎng)中,而需要建立起數(shù)據(jù)之間的鏈接從而形成一張巨大的鏈接數(shù)據(jù)網(wǎng)。其中,最具代表性的當(dāng)屬 2007 年開(kāi)始運(yùn)行的 DBpedia 項(xiàng)目[10],是目前已知的第一個(gè)大規(guī)模開(kāi)放域鏈接數(shù)據(jù)。
DBpdia 項(xiàng)目最初是由柏林自由大學(xué)和萊比錫大學(xué)的學(xué)者發(fā)起的,其初衷是緩解語(yǔ)義網(wǎng)當(dāng)時(shí)面臨的窘境,第一份公開(kāi)數(shù)據(jù)集在 2007 年時(shí)發(fā)布,通過(guò)自由授權(quán)的方式允許他人使用。Leipzig 等學(xué)者[10]認(rèn)為在大規(guī)模網(wǎng)絡(luò)信息的環(huán)境下傳統(tǒng)“自上而下”地在數(shù)據(jù)之前設(shè)計(jì)本體是不切實(shí)際的,數(shù)據(jù)及其元數(shù)據(jù)應(yīng)當(dāng)隨著信息的增加而不斷完善。
數(shù)據(jù)的增加和完善可以通過(guò)社區(qū)成員合作的方式進(jìn)行,但這種方式涉及數(shù)據(jù)的一致性、不確定性,以及隱式知識(shí)的統(tǒng)一表示等諸多問(wèn)題。Leipzig 等人[10]認(rèn)為探尋這些問(wèn)題最首要并高效的方式就是提供一個(gè)內(nèi)容豐富的多元數(shù)據(jù)語(yǔ)料,有了這樣的語(yǔ)料便可以極大推動(dòng)諸如知識(shí)推理、數(shù)據(jù)的不確定管理技術(shù),以及開(kāi)發(fā)面向語(yǔ)義網(wǎng)的運(yùn)營(yíng)系統(tǒng)。
朝著鏈接數(shù)據(jù)的構(gòu)想,DBpedia 知識(shí)庫(kù)利用語(yǔ)義網(wǎng)技術(shù),如資源描述框架(RDF)[18],與眾多知識(shí)庫(kù)(如 WordNet、Cyc 等)建立鏈接關(guān)系,構(gòu)建了一個(gè)規(guī)模巨大的鏈接數(shù)據(jù)網(wǎng)絡(luò)。
△ 圖2:以DBpedia為核心的鏈接數(shù)據(jù)網(wǎng)絡(luò)
2001 年,一個(gè)名為維基百科(Wikipedia)的全球性多語(yǔ)言百科全書(shū)協(xié)作計(jì)劃開(kāi)啟[11],其宗旨是為全人類提供自由的百科全書(shū),在短短幾年的時(shí)間里利用全球用戶的協(xié)作完成數(shù)十萬(wàn)詞條(至今擁有上百萬(wàn)詞條)知識(shí)。維基百科的出現(xiàn)推動(dòng)了很多基于維基百科的結(jié)構(gòu)化知識(shí)的知識(shí)庫(kù)的構(gòu)建,DBpedia[10]、Yago[12]等都屬于這一類知識(shí)庫(kù)。
Yago 是由德國(guó)馬普研究所于 2007 年開(kāi)始的項(xiàng)目,針對(duì)當(dāng)時(shí)的應(yīng)用僅使用單一源背景知識(shí)的情況,建立了一個(gè)高質(zhì)量、高覆蓋的多源背景知識(shí)的知識(shí)庫(kù)。前面介紹的專家構(gòu)建的 WordNet 擁有極高的準(zhǔn)確率的本體知識(shí),但知識(shí)覆蓋度僅限于一些常見(jiàn)的概念或?qū)嶓w;相比之下,維基百科蘊(yùn)含豐富的實(shí)體知識(shí),但維基百科多提供的概念的層次結(jié)構(gòu)類似標(biāo)簽結(jié)構(gòu)并不精確,直接用于本體構(gòu)建并不適合。
Yago 的主要思路是將 WordNet 與維基百科二者的知識(shí)結(jié)合,即利用 WordNet 的本體知識(shí)補(bǔ)充維基百科中實(shí)體的上位詞知識(shí),從而獲取大規(guī)模高質(zhì)量、高覆蓋的知識(shí)庫(kù)。截至目前,Yago 擁有超過(guò) 1 千萬(wàn)實(shí)體的 1.2 億條事實(shí)知識(shí),同時(shí)近些年也構(gòu)建起了與其他知識(shí)庫(kù)的鏈接關(guān)系。
DBpedia 主要通過(guò)社區(qū)成員來(lái)定義和撰寫(xiě)準(zhǔn)確的抽取模版,從維基百科中抽取結(jié)構(gòu)化信息(如 infobox)構(gòu)建大規(guī)模知識(shí)庫(kù),另外本體(即知識(shí)庫(kù)的元數(shù)據(jù)、schema)的構(gòu)建也是通過(guò)社區(qū)成員合作完成的。
由于維基百科是社區(qū)撰寫(xiě),其知識(shí)表達(dá)難免有不一致的情況,DBpedia 利用 mapping 技術(shù)與抽取模版來(lái)實(shí)現(xiàn)知識(shí)描述的統(tǒng)一與一致性。另外,為了實(shí)現(xiàn)知識(shí)的更新與擴(kuò)增,DBpedia 開(kāi)發(fā) DBpediaLive 來(lái)保持與維基百科的同步。在 2016 年發(fā)行的版本中,DBpedia 擁有超過(guò) 6 百萬(wàn)實(shí)體及其數(shù)十億事實(shí)知識(shí),其中人工構(gòu)建的本體庫(kù)包含 760 種類別信息。同時(shí),DBpedia 擁有大量的跨語(yǔ)言知識(shí),共擁有除英語(yǔ)外的 66 億其他語(yǔ)言事實(shí)知識(shí)。
2007 年,Freebase[13]開(kāi)始構(gòu)建,類似維基百科,其內(nèi)容主要來(lái)自其社區(qū)成員的貢獻(xiàn),但與維基百科最大的不同之處在于 Freebase 中都是結(jié)構(gòu)化的知識(shí),在維基百科中人們編輯的是文章,而在 Freebase 中編輯的是知識(shí)。
在 Freebase 中,用戶是其主要核心,除了對(duì)實(shí)體的編輯,用戶也參與本體庫(kù)的構(gòu)建、知識(shí)的校對(duì),以及與其他知識(shí)庫(kù)的鏈接工作。除人工輸入知識(shí),Freebase 也主動(dòng)導(dǎo)入知識(shí),如維基百科的結(jié)構(gòu)化知識(shí)。Freebase 擁有大約 2 千萬(wàn)實(shí)體,目前被 Google 公司收購(gòu),Freebase 的 API 服務(wù)已經(jīng)關(guān)閉但仍提供數(shù)據(jù)的下載。
2012 年,考慮到維基百科中大部分的知識(shí)都是非結(jié)構(gòu)組織起來(lái)的,帶來(lái)諸多問(wèn)題(如:無(wú)法對(duì)知識(shí)進(jìn)行有效的搜索與分析,進(jìn)而知識(shí)無(wú)法得到很好的重用,甚至存在知識(shí)的不一致性的現(xiàn)象),維基媒體基金會(huì)推出 Wikidata 項(xiàng)目[14],一個(gè)類似于 Freebase 的大規(guī)模社區(qū)成員合作知識(shí)哭,旨在用一種全新的方式管理知識(shí)以克服以上的存在于維基百科中的問(wèn)題。
以上所介紹的知識(shí)圖譜都是基于英文語(yǔ)言的,即使是多語(yǔ)言知識(shí)圖譜也是以英文為主語(yǔ)言,其他語(yǔ)言知識(shí)是用過(guò)跨語(yǔ)言知識(shí)(如:語(yǔ)言間鏈接(ILLs)、三元組對(duì)齊(TWA))鏈接得到。
近些年,國(guó)內(nèi)推出了大量以中文為主語(yǔ)言的知識(shí)圖譜,它們主要都是基于百度百科和維基百科的結(jié)構(gòu)化信息構(gòu)建起來(lái)的。如上海交通大學(xué)的zhishi.me[19]、清華大學(xué)的XLore[20]、復(fù)旦大學(xué)的CN-pedia[21]。2017 年,由國(guó)內(nèi)多所高校發(fā)起 cnSchema.org 項(xiàng)目[23],旨在利用社區(qū)力量維護(hù)開(kāi)放域知識(shí)圖譜的 Schema 標(biāo)準(zhǔn)。
基于自由文本的開(kāi)放域知識(shí)圖譜構(gòu)建
上述介紹的知識(shí)圖譜的構(gòu)建方式包括人工編輯和自動(dòng)抽取,但自動(dòng)抽取方法主要是基于在線百科中結(jié)構(gòu)化信息而忽略了非結(jié)構(gòu)化文本,而互聯(lián)網(wǎng)中大部分的信息恰恰是以非結(jié)構(gòu)化的自由文本形式呈現(xiàn)。與鏈接數(shù)據(jù)發(fā)展的同期,很多基于信息抽取技術(shù)的知識(shí)獲取方法被提出,用以構(gòu)建基于自由文本的開(kāi)放域知識(shí)圖譜。
2007 年,華盛頓大學(xué) Banko 等人[24]率先提出開(kāi)放域信息抽?。?/strong>OIE),直接從大規(guī)模自由文本中直接抽取實(shí)體關(guān)系三元組,即頭實(shí)體、關(guān)系指示詞,以及尾實(shí)體三部分,類似于語(yǔ)義網(wǎng)中 RDF 規(guī)范的 SPO 結(jié)構(gòu)。
在 OIE 提出之前,也有很多面向自由文本的信息抽取被提出,但這些方法主要的思路都是為每個(gè)目標(biāo)關(guān)系訓(xùn)練相應(yīng)的抽取器。這類傳統(tǒng)的信息抽取方法在面對(duì)互聯(lián)網(wǎng)文本中海量的關(guān)系類別時(shí)無(wú)法高效工作,即為每個(gè)目標(biāo)關(guān)系訓(xùn)練抽取器時(shí)不現(xiàn)實(shí)的,更為嚴(yán)重的是很多情況下面對(duì)海量的網(wǎng)絡(luò)文本我們無(wú)法事先明確關(guān)系的類型。
OIE 通過(guò)直接識(shí)別關(guān)系詞組(relation phrases)也稱關(guān)系指示詞,即顯式表證實(shí)體關(guān)系的詞組,來(lái)抽取實(shí)體關(guān)系。基于 OIE 的指導(dǎo)思想,華盛頓大學(xué)陸續(xù)推出TextRunner[24]、Reverb[25]、OLLIE[26]等基于自由文本的開(kāi)放域三元組抽取系統(tǒng);以及卡耐基梅隆大學(xué)的 NELL 系統(tǒng)[27,29]、德國(guó)馬普研究中心的 PATTY 等[28]。
這些系統(tǒng)有的需要自動(dòng)構(gòu)造標(biāo)注的訓(xùn)練語(yǔ)料,進(jìn)而從中提取關(guān)系模版或訓(xùn)練分類器;有的則依據(jù)語(yǔ)法或句法特征直接從分析結(jié)果中抽取關(guān)系三元組。接下來(lái),本文將簡(jiǎn)要介紹下具有代表性的 Reverb 和 NELL 系統(tǒng)的實(shí)現(xiàn)思想。
Reverb 針對(duì)之前的 OIE 系統(tǒng)中存在的兩個(gè)問(wèn)題:不連貫抽取與信息缺失抽取,提出句法約束:對(duì)于多詞語(yǔ)關(guān)系詞組,必須以動(dòng)詞開(kāi)頭、以介詞結(jié)束,并且是由句子中毗鄰的單詞組成。該約束可以有效緩解以上兩個(gè)問(wèn)題造成的抽取失敗。進(jìn)一步,為了避免由句法約束帶來(lái)的冗長(zhǎng)的并且過(guò)于明確的關(guān)系指示詞,Reverb 引入了啟發(fā)式的詞法約束。
總的來(lái)說(shuō),Reverb 提出了兩個(gè)簡(jiǎn)單卻高效的約束,在面向英文自由文本的開(kāi)放域知識(shí)抽取中取得了不錯(cuò)的效果,很具啟發(fā)意義。
never-ending learning 被定義為是一種不同于傳統(tǒng)的機(jī)器學(xué)習(xí)方式[29],通過(guò)不斷地閱讀獲取知識(shí),并不斷提升學(xué)習(xí)知識(shí)的能力以及利用所學(xué)知識(shí)進(jìn)行推理等邏輯思維。NELL 就是一種這樣的智能體,其任務(wù)是學(xué)習(xí)如何閱讀網(wǎng)頁(yè)以獲取知識(shí)。
NELL 的輸入有:
· 定義了類別和二元關(guān)系的初始本體庫(kù);
· 對(duì)于每個(gè)類別和關(guān)系的訓(xùn)練種子數(shù)據(jù);
· 網(wǎng)頁(yè)數(shù)據(jù)(從預(yù)先準(zhǔn)備好的網(wǎng)頁(yè)集合中獲取、每天從 Google 搜索 API 獲?。?;
· 偶爾的人工干預(yù)。
NELL 每天 24 小時(shí)不停歇的進(jìn)行如下操作:
· 從網(wǎng)頁(yè)中閱讀(抽?。┲R(shí)事實(shí)用以填充知識(shí)庫(kù),并移除之前存在于知識(shí)庫(kù)中不正確知識(shí)事實(shí),每個(gè)知識(shí)具有一定的置信度以及參考來(lái)源;
· 學(xué)習(xí)如何比前一天更好地閱讀(抽?。┲R(shí)事實(shí)。
NELL 從 2010 年 1 月開(kāi)始進(jìn)行上述閱讀過(guò)程,目前所產(chǎn)生的知識(shí)庫(kù)已經(jīng)擁有超過(guò) 8 千萬(wàn)的相互鏈接的事實(shí),以及上百萬(wàn)學(xué)習(xí)到的短語(yǔ)。
△ 圖3:NELL knowledge fragment
自動(dòng)構(gòu)建的開(kāi)放域中文實(shí)體知識(shí)圖譜——《大詞林》
上述所介紹的 OIE 系統(tǒng)大多專注于對(duì)開(kāi)放域?qū)嶓w關(guān)系三元組的抽取,但忽略了對(duì)于知識(shí)圖譜不可或缺的同時(shí)也是至關(guān)重要的本體庫(kù)的構(gòu)建,即知識(shí)圖譜元數(shù)據(jù)或稱為 Schema 的構(gòu)建,是為三元組賦以語(yǔ)義的關(guān)鍵。
2014 年,由哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心發(fā)起的《大詞林》項(xiàng)目,面向包括自由文本的多信息源對(duì)實(shí)體的類別信息進(jìn)行自動(dòng)抽取并層次化,進(jìn)而實(shí)現(xiàn)對(duì)實(shí)體上下位關(guān)系體系的自動(dòng)構(gòu)建,而上下位關(guān)系體系正是本體庫(kù)的核心組成之一。
《大詞林》的構(gòu)建不需要領(lǐng)域?qū)<业膮⑴c,而是基于多信息源自動(dòng)獲取實(shí)體類別并對(duì)可能的多個(gè)類別進(jìn)行層次化,從而達(dá)到知識(shí)庫(kù)自動(dòng)構(gòu)建的效果。同時(shí)也正是由于《大詞林》具有自動(dòng)構(gòu)建能力,其數(shù)據(jù)規(guī)??梢噪S著互聯(lián)網(wǎng)中實(shí)體詞的更新而擴(kuò)大,很好地解決了以往的人工構(gòu)建知識(shí)庫(kù)對(duì)開(kāi)放域?qū)嶓w的覆蓋程度極為有限的問(wèn)題。
另外,相比以往的類別體系知識(shí)庫(kù),《大詞林》中類別體系的結(jié)構(gòu)也更加靈活。如《同義詞詞林(擴(kuò)展版)》中每個(gè)實(shí)體具有具備五層結(jié)構(gòu),其中第四層僅有代碼表示,其余四層由代碼和詞語(yǔ)表示,而《大詞林》中類別體系結(jié)構(gòu)的層數(shù)不固定,依據(jù)實(shí)體詞的不同而動(dòng)態(tài)變化,如“哈工大”一詞有 7 層之多,而“中國(guó)”一詞有 4 層;另外,《大詞林》中的每一層都是用類別詞或?qū)嶓w詞表示。
△ 圖4:《大詞林》中“哈工大”的類別體系圖(左)和“中國(guó)”的類別體系圖(右)
自 2014 年 11 月 27 日上線,《大詞林》不斷添加中文實(shí)體及其層次化類別信息,自動(dòng)構(gòu)建開(kāi)放域?qū)嶓w知識(shí)庫(kù)。目前,《大詞林》中包括約 900 萬(wàn)實(shí)體、約 17 萬(wàn)類別;平均每個(gè)命名實(shí)體有 1.77 個(gè)不同粒度的優(yōu)質(zhì)類別;上下位關(guān)系超過(guò) 1 千萬(wàn)對(duì),其中實(shí)體與上位詞之間的上下位關(guān)系與上位詞之間的上下位關(guān)系準(zhǔn)確率均達(dá)到 90% 以上。
《大詞林》(http://www.bigcilin.com/)系統(tǒng)網(wǎng)站支持用戶查詢?nèi)我鈱?shí)體,并以有向圖的形式展現(xiàn)實(shí)體的層次化類別,同時(shí)支持以目錄方式供用戶瀏覽部分公開(kāi)的知識(shí)庫(kù)。
人工智能中關(guān)鍵的一步是知識(shí)的獲取與構(gòu)建,《大詞林》作為基于上下位關(guān)系的中文知識(shí)庫(kù),隨著互聯(lián)網(wǎng)中實(shí)體詞的增加不斷擴(kuò)充其數(shù)據(jù)規(guī)模,并即將加入實(shí)體間關(guān)系、實(shí)體屬性等網(wǎng)狀關(guān)系結(jié)構(gòu),這對(duì)于基于知識(shí)庫(kù)的智能系統(tǒng)無(wú)疑是一筆巨大的寶藏。
參考文獻(xiàn)
[1] Singhal A. Introducing the knowledgegraph: things, not strings[J]. Official google blog, 2012.
[2] Feigenbaum E A. Expert systems in the1980s[J]. State of the art report on machine intelligence.Maidenhead:Pergamon-Infotech,1981.
[3] Lenat D B, Prakash M, Shepherd M. CYC:Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks[J]. AI magazine, 1985, 6(4): 65.
[4] Miller G A. WordNet: a dictionary browser[J]. Information in Data, 1985: 25-28.
[5] Berners-Lee T. Semantic web roadmap[J]. 1998.
[6] Berners-Lee T, Hendler J, Lassila O.The semantic web[J]. Scientific american, 2001, 284(5): 28-37.
[7] Shadbolt N, Berners-Lee T, Hall W. Thesemantic web revisited[J]. IEEE intelligent systems, 2006, 21(3): 96-101.
[8]Berners-Lee T.Linked data-designissues[J]. http://www.w3.org/DesignIssues/LinkedData.html, 2006.
[9] Berners-Lee T. The next web[J]. TED.com, 2009.
[10] Auer S, Bizer C, Kobilarov G, et al.Dbpedia: A nucleus for a web of open data[J]. The semantic web, 2007: 722-735.
[11] Wales J, Sanger L. Wikipedia: The free encyclopedia[J]. Accessed via
http://en.wikipedia.org/wiki/Main_Page (27 November 2011), 2001.
[12] Suchanek F M, Kasneci G, Weikum G.Yago: a core of semantic knowledge[C] //Proceedings of the 16th international conference on World Wide Web. ACM, 2007: 697-706.
[13] Bollacker K, Cook R, Tufts P.Freebase: A shared database of structured general human knowledge[C]//AAAI.2007, 7: 1962-1963.
[14] Vrande?i? D. Wikidata: a new platformfor collaborative data collection[C] //Proceedings of the 21st International Conference on World Wide Web. ACM, 2012: 1063-1064.
[15] 梅家駒. 同義詞詞林[M]. 上海辭書(shū)出版社,1983.
[16] 《同義詞詞林(擴(kuò)展版)》:https://www.ltp-cloud.com/download/
[17] 董振東, 董強(qiáng). 知網(wǎng)簡(jiǎn)介[J].1999-09-23.[2004-03-06]. http://www.keenage.com, 1999.
[18] Swick R R. Resource Description Framework (RDF) Model and Syntax Specification W3C Recommendation[J]. W3c Recommendation World Wide Web Consortium, 1999.
[19] Niu, X.; Sun, X.; Wang, H.; Rong, S.;Qi, G.; and Yu, Y. 2011. Zhishi. me-weaving chinese linking open data. TheSemantic Web–ISWC 2011 205–220.
[20] Wang, Z.; Li, J.; Wang, Z.; Li, S.;Li, M.; Zhang, D.; Shi, Y.; Liu, Y.; Zhang, P.; and Tang, J. 2013. Xlore: Alarge- scale english-chinese bilingual knowledge graph. In Pro- ceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume1035, 121–124. CEUR- WS. org.
[21] Xu, B.; Xu, Y.; Liang, J.; Xie, C.;Liang, B.; Cui, W.; and Xiao, Y. 2017. Cn-dbpedia: A never-ending chinese knowledge extraction system. In International Conference on In- dustrial,Engineering and Other Applications of Applied In- telligent Systems, 428–438.Springer.
[22] 《大詞林》項(xiàng)目官網(wǎng):http://www.bigcilin.com
[23] cnSchema官網(wǎng):http://cnschema.org
[24] Michele Banko, Michael J Cafarella,Stephen Soderland, Matthew Broadhead, and Oren Etzioni. Open information extraction from the web. In IJCAI, volume 7, pages 2670– 2676, 2007.
[25] Anthony Fader, Stephen Soderland, andOren Etzioni. Identifying relations for open information extraction. InProceedings of the Conference on Empirical Methods in Natural Language Processing, pages 1535–1545. Association for Computational Linguistics, 2011.
[26] Michael Schmitz, Robert Bart, Stephen Soderland, Oren Etzioni, et al. Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages523–534. Association for Computational Linguistics, 2012.
[27] Andrew Carlson, Justin Betteridge,Bryan Kisiel, Burr Settles, Estevam R Hruschka Jr, and Tom M Mitchell. Towardan architecture for never-ending language learning. In AAAI, volume 5, page 3,2010.
[28] Ndapandula Nakashole, Gerhard Weikum,and Fabian Suchanek. Patty: a taxonomy of relational patterns with semantictypes. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages1135–1145. Association for Computational Linguistics, 2012.
[29] T. Mitchell, W. Cohen, E. Hruschka, P.Talukdar, J. Betteridge, A. Carlson, B. Dalvi, M. Gardner, B. Kisiel, J.Krishnamurthy, N. Lao, K. Mazaitis, T. Mohamed, N. Nakashole, E. Platanios, A.Ritter, M. Samadi, B. Settles, R. Wang, D. Wijaya, A. Gupta, X. Chen, A.Saparov, M. Greaves, J. Welling. In Proceedings of the Conference on Artificial Intelligence (AAAI), 2015.
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
聯(lián)系客服