文章導(dǎo)讀
大數(shù)據(jù)技術(shù)發(fā)展非常快速,2012年在中國(guó)開始提出大數(shù)據(jù),短短幾年時(shí)間已經(jīng)從一種高大上的技術(shù)變成了基礎(chǔ)性的技術(shù),各行各業(yè)都在使用大數(shù)據(jù)。但如何讓大數(shù)據(jù)發(fā)揮更大價(jià)值,大家都把目光轉(zhuǎn)向人工智能的時(shí)候,發(fā)現(xiàn)人工智能離自己實(shí)際使用有相當(dāng)?shù)木嚯x,甚至無(wú)從下手。其實(shí),先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜,形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源,正是通往人工智能的階梯。
CCF大數(shù)據(jù)專家委員會(huì)委員,博士,拓爾思知識(shí)圖譜研究院院長(zhǎng)。
由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領(lǐng)銜的團(tuán)隊(duì)開發(fā)的阿爾法圍棋(AlphaGo)人工智能機(jī)器人在2016年3月與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝,引爆了新一輪人工智能熱潮。人工智能研究從1956年開始,經(jīng)過(guò)三起三落,至今已經(jīng)60多年了,但始終發(fā)展沒有達(dá)到我們的期望,現(xiàn)在有了大數(shù)據(jù)技術(shù),在機(jī)器學(xué)習(xí)模型訓(xùn)練方面有了重大提升,在語(yǔ)義理解、圖像識(shí)別等方面都有了不少突破,也出現(xiàn)了AI播音員等,但我們發(fā)現(xiàn)要實(shí)際運(yùn)用的時(shí)候,人工智能離我們還有相當(dāng)遠(yuǎn)的距離。比如無(wú)人駕駛汽車,試驗(yàn)階段是沒有問題的,真正上路為我們服務(wù),能在復(fù)雜路況下像老司機(jī)一樣安全駕駛,誰(shuí)也說(shuō)不清還需要等多少年。
怎么樣才能讓人工智能為人類服務(wù)?我認(rèn)為這個(gè)問題非常像把一條狗訓(xùn)練成警犬的過(guò)程。狗的智商不如人類,但在“硬件”方面有優(yōu)勢(shì),比如奔跑速度、嗅覺等等,我們要訓(xùn)練一條狗成為警犬,就必須讓它學(xué)習(xí),能理解人類的意圖,知道要它做什么。訓(xùn)練狗的過(guò)程實(shí)際上知識(shí)降維的過(guò)程,我們?nèi)祟惸X子里的知識(shí)結(jié)構(gòu)非常復(fù)雜,其存儲(chǔ)結(jié)構(gòu)、關(guān)聯(lián)思維、決策判斷過(guò)程至今也無(wú)法完全研究明白。要把這么復(fù)雜的知識(shí)結(jié)構(gòu)讓狗能理解,只能把維度降下來(lái),比如找出一包毒品可以得到一份食物的獎(jiǎng)勵(lì),也就是將毒品這個(gè)實(shí)體和它喜歡的食品這個(gè)實(shí)體建立了關(guān)系。訓(xùn)練人工智能其實(shí)也就是這樣,計(jì)算機(jī)的計(jì)算、存儲(chǔ)能力可擴(kuò)展,超級(jí)計(jì)算機(jī)可以實(shí)現(xiàn)我們?nèi)祟悷o(wú)法達(dá)到的高性能計(jì)算,但無(wú)法完全模擬我們?nèi)祟惖乃季S,只有我們把知識(shí)結(jié)構(gòu)降維,形成一個(gè)計(jì)算機(jī)能看懂的結(jié)構(gòu),它的優(yōu)勢(shì)才能發(fā)揮。這樣降維后形成的知識(shí),基本上圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)要素展開,這種知識(shí)架構(gòu)就是知識(shí)圖譜。特別是現(xiàn)實(shí)世界中的大量知識(shí)是非結(jié)構(gòu)化的,如聲音、圖像等,當(dāng)計(jì)算機(jī)擅長(zhǎng)處理的是結(jié)構(gòu)化數(shù)據(jù)。知識(shí)圖譜可以把實(shí)體的結(jié)構(gòu)化信息和非結(jié)構(gòu)信息關(guān)聯(lián)起來(lái)。所以有一種說(shuō)法,叫知識(shí)圖譜是大數(shù)據(jù)走向人工智能的階梯。
知識(shí)圖譜本質(zhì)上就是一個(gè)用圖數(shù)據(jù)結(jié)構(gòu)等技術(shù)作載體,描述客觀事物及其關(guān)系的大型知識(shí)庫(kù)。在具體實(shí)現(xiàn)上,知識(shí)圖譜用語(yǔ)義網(wǎng)(Semantic Web)中的資源描述框架(ResourceDescription Framework,RDF)對(duì)知識(shí)體系和實(shí)例數(shù)據(jù)二個(gè)層面的內(nèi)容進(jìn)行統(tǒng)一表示,共同構(gòu)成一個(gè)完整的知識(shí)系統(tǒng)。
世界本身不存在結(jié)構(gòu)化或非結(jié)構(gòu)化問題,在信息化時(shí)代之前也沒有人去區(qū)分結(jié)構(gòu)化或非結(jié)構(gòu)化,但人類進(jìn)入信息化時(shí)代,什么都想通過(guò)計(jì)算來(lái)得到結(jié)果,就產(chǎn)生了信息是否結(jié)構(gòu)化問題。所以這個(gè)問題是人類為了將就計(jì)算機(jī)而產(chǎn)生的問題。知識(shí)圖譜把這個(gè)問題進(jìn)一步加深了,因?yàn)槲覀儾粌H僅想讓計(jì)算機(jī)幫我們計(jì)算信息,還想讓計(jì)算機(jī)學(xué)會(huì)跟我們?nèi)祟愐粯尤ニ伎既ヅ袛?,也就是現(xiàn)在很熱門的人工智能。為了教育計(jì)算機(jī)看懂人類的知識(shí),我們類似給幼兒設(shè)計(jì)看圖識(shí)字本一樣,將知識(shí)整理成知識(shí)圖譜。
知識(shí)圖譜的本質(zhì)是具有有向圖結(jié)構(gòu)的知識(shí)庫(kù),知識(shí)圖譜是人工智能應(yīng)用不可或缺的基礎(chǔ)資源。知識(shí)圖譜分為兩類:通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。通用的知識(shí)圖譜可以認(rèn)為是百科全書,比如Google 知識(shí)圖譜、DBpedia、YAGO和Freebase等;領(lǐng)域知識(shí)圖譜是基于領(lǐng)域數(shù)據(jù)構(gòu)建的知識(shí)圖譜,用于領(lǐng)域分析研究工作。通用知識(shí)圖譜的本體根類型,基本上就是實(shí)體(entity),然后再分類。通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,從基礎(chǔ)架構(gòu)上基本相同,但由于領(lǐng)域知識(shí)圖譜面向更為復(fù)雜的領(lǐng)域數(shù)據(jù)和場(chǎng)景,從構(gòu)建和應(yīng)用上來(lái)講更加復(fù)雜。
雖然知識(shí)圖譜概念由美國(guó)谷歌公司在2012年5月首次提出,但知識(shí)圖譜這樣的理念和表達(dá)思路在中國(guó)已經(jīng)存在超過(guò)二千年,五行理論和相生相克圖就是一個(gè)典型的知識(shí)圖譜結(jié)構(gòu)。知識(shí)圖譜描述的關(guān)鍵三要素是實(shí)體、屬性和實(shí)體之間的關(guān)系,五行相生相克圖(圖1)正是完整表達(dá)了這樣的三個(gè)要素,金、木、水、火、土每個(gè)字不但表達(dá)一種類型實(shí)體,而且字面本身已經(jīng)蘊(yùn)含了屬性解釋,如“水”字自然就是指世界上一切液體性質(zhì)的實(shí)體,每個(gè)實(shí)體都和另外四個(gè)發(fā)生聯(lián)系,四條連線代表了實(shí)體之間相生或相克的關(guān)系。
圖1 五行相生相克圖
圖2 公共安全領(lǐng)域五要素圖
在很多領(lǐng)域的知識(shí)圖譜,其實(shí)和五行相生相克圖都有相似之處,圖2就是是公安部門數(shù)據(jù)存儲(chǔ)的常用分類,將數(shù)據(jù)分為人(人口信息)、地址(門牌樓等)、案件、物品(刀、槍、毒品等)及組織(某黑社會(huì)、邪教組織等)。
知識(shí)圖譜可以用于各個(gè)行業(yè)領(lǐng)域,用于領(lǐng)域的數(shù)據(jù)整合和業(yè)務(wù)分析,比如政府分析、媒體分析、電商分析、金融分析、公安情報(bào)分析、學(xué)術(shù)領(lǐng)域、學(xué)科分析、軍事信息搜索等。面向不同領(lǐng)域有不同的領(lǐng)域本體(Domain Ontoloty),領(lǐng)域本體是領(lǐng)域知識(shí)圖譜的基礎(chǔ)概念。在領(lǐng)域知識(shí)圖譜工程中,最先需要確定的是本體中的對(duì)象類型。各個(gè)領(lǐng)域都有自己關(guān)注的主要對(duì)象,領(lǐng)域的信息化是圍繞這些對(duì)象而產(chǎn)生和收集數(shù)據(jù),所以在構(gòu)建領(lǐng)域知識(shí)圖譜中,這些主要對(duì)象就是知識(shí)圖譜中主要的對(duì)象類型。
圖3 領(lǐng)域知識(shí)圖譜構(gòu)建和知識(shí)加工原理圖
領(lǐng)域知識(shí)圖譜構(gòu)建的過(guò)程,就是分別將領(lǐng)域中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化加工成知識(shí)對(duì)象和關(guān)系的過(guò)程,針對(duì)三種類型的數(shù)據(jù)分別構(gòu)建,構(gòu)建后的文本類型和多媒體類型的對(duì)象,又可以通過(guò)人工或機(jī)器的方式進(jìn)行知識(shí)加工,從中提取有價(jià)值的實(shí)體、事件和關(guān)系。圖3顯示的就是領(lǐng)域知識(shí)圖譜構(gòu)建和知識(shí)加工原理。
大數(shù)據(jù)技術(shù)發(fā)展非??焖伲?012年在中國(guó)開始提出大數(shù)據(jù),短短幾年時(shí)間已經(jīng)從一種高大上的技術(shù)變成了基礎(chǔ)性的技術(shù),各行各業(yè)都在使用大數(shù)據(jù)。但如何讓大數(shù)據(jù)發(fā)揮更大價(jià)值,大家都把目光轉(zhuǎn)向人工智能的時(shí)候,發(fā)現(xiàn)人工智能離自己實(shí)際使用有相當(dāng)?shù)木嚯x,甚至無(wú)從下手。其實(shí),先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜,形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源,正是通往人工智能的階梯。
本文的題目叫《知識(shí)降維作圖譜 人工智能有階梯》,初見這個(gè)題目,就感覺非常恰當(dāng),非常準(zhǔn)確、非常得體。人工智能無(wú)疑是當(dāng)前最熱門的概念之一,如何實(shí)現(xiàn)人工智能,是我們?nèi)祟愐恢钡馁碓浮?/span>但是,幾十年來(lái),人工智能學(xué)科的發(fā)展經(jīng)歷了數(shù)次起起伏伏,即使今天這個(gè)概念又一次火爆起來(lái),我們也不敢盲目追捧,需要冷靜對(duì)待,要真正的理解人工智能的難點(diǎn),找到突破的方向,我想,本文從一個(gè)側(cè)面給出了較好的解釋和答案。我很欣賞作者在文中的如下闡述:“我們?nèi)祟惸X子里的知識(shí)結(jié)構(gòu)非常復(fù)雜,其存儲(chǔ)結(jié)構(gòu)、關(guān)聯(lián)思維、決策判斷過(guò)程至今也無(wú)法完全研究明白”,所以,“只有我們把知識(shí)結(jié)構(gòu)降維,形成一個(gè)計(jì)算機(jī)能看懂的結(jié)構(gòu),它的優(yōu)勢(shì)才能發(fā)揮。這樣降維后形成的知識(shí),基本上圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)要素展開,這種知識(shí)架構(gòu)就是知識(shí)圖譜”,由于知識(shí)圖譜有效的關(guān)聯(lián)了實(shí)體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),因此,我們把知識(shí)圖譜看作大數(shù)據(jù)走向人工智能的階梯。這個(gè)論斷至少現(xiàn)在看上去是合理的。
知識(shí)圖譜的產(chǎn)生和發(fā)展經(jīng)歷了多個(gè)階段,從計(jì)算機(jī)領(lǐng)域引入本體論思想,到語(yǔ)義Web的提出,再到關(guān)聯(lián)數(shù)據(jù)(Linked Data)的誕生,直到谷歌公司推出知識(shí)圖譜,一路走來(lái),理論基礎(chǔ)逐漸扎實(shí),領(lǐng)域工具逐漸豐富,應(yīng)用前景逐漸明朗。
在知識(shí)圖譜獲得蓬勃發(fā)展的今天,我們經(jīng)常把知識(shí)圖譜分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,在通用知識(shí)圖譜的研究中,我們發(fā)現(xiàn)當(dāng)前主流的通用知識(shí)圖譜如DBpedia、YAGO和Freebase等都是國(guó)外的成果,因此迫切的需要國(guó)內(nèi)的相關(guān)機(jī)構(gòu)組織開發(fā)有代表性的中文通用知識(shí)圖譜,這應(yīng)該是一個(gè)艱巨的任務(wù),但是我們必須要做,這可能會(huì)關(guān)系到將來(lái)中文人工智能的基礎(chǔ)問題。在領(lǐng)域知識(shí)圖譜的研究中,如何針對(duì)不同領(lǐng)域知識(shí)的特點(diǎn),研究不同領(lǐng)域的知識(shí)抽取策略,提高知識(shí)抽取的自動(dòng)化程度和準(zhǔn)確率是我們關(guān)注的重點(diǎn)。隨著知識(shí)圖譜研究的深入,又演化出了事理圖譜等新的概念,這些都值得我們關(guān)注。
我相信,知識(shí)圖譜肯定不是終點(diǎn),它會(huì)進(jìn)一步演化、發(fā)展,既然我們找到了一條讓機(jī)器理解、利用知識(shí)的有效途徑,我們就應(yīng)該在這條路上越走越遠(yuǎn),去發(fā)現(xiàn)更加美好的風(fēng)景。正如文章結(jié)尾所說(shuō),既然今天我們?nèi)匀弧鞍l(fā)現(xiàn)人工智能離實(shí)際使用有相當(dāng)?shù)木嚯x,甚至無(wú)從下手”。那么就“先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜,形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源,正是通往人工智能的階梯。
| 馮建周《聯(lián)數(shù)》責(zé)任編委
CCF大數(shù)據(jù)專家委員會(huì)通訊委員
燕山大學(xué)副教授
感謝馮建周教授的點(diǎn)評(píng),點(diǎn)評(píng)很到位。谷歌、百度等企業(yè)研究的知識(shí)圖譜屬于通用知識(shí)圖譜,主要用于智能檢索、智能問答等,學(xué)術(shù)界研究的知識(shí)圖譜也偏重于通用知識(shí)圖譜,正是由于通用性,導(dǎo)致知識(shí)屬性廣泛,很難進(jìn)行屬性統(tǒng)計(jì)、智能計(jì)算等,而大量行業(yè)性應(yīng)用需要的是領(lǐng)域知識(shí)圖譜,不但知識(shí)可檢索,還希望屬性可統(tǒng)計(jì)、關(guān)系可計(jì)算。領(lǐng)域知識(shí)圖譜需要很強(qiáng)的領(lǐng)域行業(yè)知識(shí),不在該領(lǐng)域里面的人很難深入研究,我們希望學(xué)術(shù)界更多的研究領(lǐng)域知識(shí)圖譜,這樣更接地氣。拓爾思長(zhǎng)期專注于大數(shù)據(jù)和人工智能核心尖端技術(shù)的研發(fā)和創(chuàng)新應(yīng)用,在人工智能、大數(shù)據(jù)、知識(shí)圖譜、自然語(yǔ)言理解等領(lǐng)域始終處于先進(jìn)水平,曾獲得國(guó)家級(jí)科技獎(jiǎng)。我們的研究提出了知識(shí)圖譜負(fù)關(guān)系、時(shí)態(tài)關(guān)系等概念,都是和領(lǐng)域知識(shí)圖譜特點(diǎn)緊密相關(guān)的。結(jié)合拓爾思的優(yōu)勢(shì),在我們深耕應(yīng)用超過(guò)20年的某些領(lǐng)域,構(gòu)建成有特色的知識(shí)圖譜,我們相信這可以成為提升行業(yè)人工智能應(yīng)用的階梯。
| 潘柱廷
在大數(shù)據(jù)興起的早期,有一個(gè)流行說(shuō)法是“非結(jié)構(gòu)化”數(shù)據(jù)。其實(shí)所謂非結(jié)構(gòu)化數(shù)據(jù)即不是二維表結(jié)構(gòu)數(shù)據(jù),也不是常規(guī)數(shù)據(jù)庫(kù)管理系統(tǒng)擅于處理的數(shù)據(jù)結(jié)構(gòu)。
其實(shí)所有的數(shù)據(jù)都是有結(jié)構(gòu)的:非結(jié)構(gòu)化的視頻音頻是完美的適合按照時(shí)間播放的結(jié)構(gòu);非結(jié)構(gòu)化的社會(huì)關(guān)系是典型的圖結(jié)構(gòu)。
也許面對(duì)所謂“非結(jié)構(gòu)化”數(shù)據(jù),應(yīng)當(dāng)改用一個(gè)新詞匯——“適算結(jié)構(gòu)”——適合計(jì)算的數(shù)據(jù)結(jié)構(gòu)。所謂“非適算結(jié)構(gòu)”就指最適合表達(dá)客觀事物對(duì)象的那個(gè)結(jié)構(gòu),卻不太適合在計(jì)算機(jī)進(jìn)行采集、存儲(chǔ)、處理、傳輸、展現(xiàn)。
而知識(shí)圖譜,作為原本一個(gè)典型的“非適算結(jié)構(gòu)”,已經(jīng)在技術(shù)和應(yīng)用的共同努力下,逐步演化成了一個(gè)應(yīng)用非常廣泛的的“適算結(jié)構(gòu)”。
文章來(lái)源:本文刊載于《中國(guó)信息化》雜志2019年第4期(2019年4月20日)
聯(lián)系客服