本文從基礎理論與關鍵技術等方面介紹了國內外大數(shù)據(jù)知識工程領域近些年的發(fā)展狀況,從知識類型、知識范圍、處理技術與應用范圍等方面總結了大數(shù)據(jù)知識工程的總體發(fā)展趨勢。
引言
知識工程(Knowledge Engineering)這一概念是由美國斯坦福大學教授、專家系統(tǒng)之父愛德華·費根鮑姆(Edward A. Feigenbaum)于上世紀70年代在第五屆人工智能國際會議上提出的。當時的背景是,人工智能經(jīng)歷了60年代以數(shù)理邏輯為代表的符號主義學派的輝煌成就,第一次陷入了低谷。費根鮑姆認為,人工智能陷入低谷的原因在于忽略了的知識重要性,“要增強人工智能程序/系統(tǒng)的性能,知識就是力量。這種力量不在于推理過程,而在于問題領域的專門知識。未來最強大的系統(tǒng)一定是那些包含大量知識的系統(tǒng)”[1]。因此,人工智能必須引進知識?;谶@一認識,他提出了知識工程的概念。他認為,從工程角度來說,知識工程主要包括三個方面,即知識獲取(如何自動或半自動地獲取用于問題求解的重要知識)、知識表示(如何將領域知識表示為計算機內存中便于應用的數(shù)據(jù)結構)與知識利用(知識如何用于問題求解,其本質在于對推理引擎的設計)。在當時的背景下,知識工程理念很快被人工智能界廣泛接受,但其后被賦予大同小異的內涵。比如,維基百科將知識工程定義為“構建、維護和使用基于知識的系統(tǒng)中所涉及的技術、科學和社會的各個方面”[2]。在國內,吳信東和鄒燕在1988年出版的《專家系統(tǒng)技術》[3]中指出,知識工程結合了科學、技術和方法論三個方面的因素,研究知識的獲取、形式化和計算機實現(xiàn),用于設計和制造專家系統(tǒng)和其他知識庫系統(tǒng)??傮w上,知識工程涵蓋了知識處理與應用的全生命周期,包括知識的獲取、處理、管理、存儲、共享、應用和創(chuàng)新。其中,知識獲取被廣泛認為是知識工程的瓶頸,限制了專家系統(tǒng)和其他人工智能系統(tǒng)的發(fā)展。
知識工程的發(fā)展大致經(jīng)歷了三個主要階段。第一階段(1960s~1970s)是小規(guī)模知識工程階段,也是知識工程研究方向的誕生階段。這一階段以費根鮑姆團隊于1968年研發(fā)出全球第一個專家系統(tǒng)DENDRAL(用于判斷物質的分子結構)為標志。知識工程的第二階段(1980s~2000s)是大規(guī)模知識工程。該階段以1984年道格·萊納特(Doug Lenat)開發(fā)的CYC大型知識庫為代表。同一時期,國內的知識工程與專家系統(tǒng)研究得到快速發(fā)展。中國科學院院士陸汝鈐于20世紀80年代設計并主持開發(fā)了知識工程語言TUILI[4],繼而主持完成了知識工程平臺“'天馬’專家系統(tǒng)開發(fā)環(huán)境”,兩項成果在當時得到較大范圍的推廣應用。
第三階段(2010s至今),即當前的基于大數(shù)據(jù)的超大規(guī)模知識工程時代。隨著大數(shù)據(jù)時代的到來,知識工程在這一階段迎來了新的發(fā)展機遇。這一階段,以IBM沃森(Watson)、谷歌知識圖譜(Knowledge Graph)、微軟Probase、百度知心、搜狗汪仔等為代表的基于公開可訪問資源的超大規(guī)模知識工程產(chǎn)品,在產(chǎn)業(yè)界開始大規(guī)模部署和應用。特別是谷歌2012年發(fā)布了知識圖譜這一項目并將基于大數(shù)據(jù)的知識圖譜用于增強搜索引擎的性能之后,大數(shù)據(jù)知識工程迅速得到了學術界、工業(yè)界甚至是政府部門的高度關注。總體來說,知識工程之所以在大數(shù)據(jù)時代迎來新的春天,其根本原因在于:一方面,大數(shù)據(jù)為知識工程積累了海量“原料”,而對大數(shù)據(jù)進行結構化、知識化是大數(shù)據(jù)價值落地的重要抓手;另一方面,硬件存儲成本的大幅下降與算力的飛速提升,以及機器學習特別是深度學習技術的高速發(fā)展,為基于大數(shù)據(jù)的超大規(guī)模知識工程提供了新的機遇。
本文闡述國內外大數(shù)據(jù)知識工程領域近些年的發(fā)展現(xiàn)狀,同時展望未來的總體發(fā)展趨勢。
國內外研究現(xiàn)狀
基礎理論
關于大數(shù)據(jù)知識工程的基礎理論,以HACE原理、開放知識網(wǎng)絡與大知識模型等為代表。
HACE原理由吳信東等人于2014年提出[5],用以建模大數(shù)據(jù)與大知識的特征。它指出大數(shù)據(jù)源于海量、異構(Heterogeneous)、自治的(Autonomous)來源,使用分布式、去中心化的控制,尋求探索數(shù)據(jù)之間復雜的(Complex)、演化的(Evolving)關聯(lián)關系。這些特征使得從大數(shù)據(jù)中發(fā)現(xiàn)有用知識變得極具挑戰(zhàn)。2020年第11屆IEEE國際知識圖譜大會上,美國德克薩斯大學達拉斯分校教授、ACM會士、IEEE會士巴瓦尼·杜萊辛甘(Bhavani Thuraisingham)在其主題演講中將HACE 原理評價為大數(shù)據(jù)特征描述的牛頓定律[6],對其奠基性貢獻做了定位。
同樣在2014年,王元卓與程學旗等人提出了開放知識網(wǎng)絡(OpenKN)[7]的概念。OpenKN是一個基于網(wǎng)絡大數(shù)據(jù)的開放式、可演化、可計算的知識網(wǎng)絡。這里,開放是指知識的來源是多元化的,包括來自互聯(lián)網(wǎng)的非結構化多語言文本數(shù)據(jù)(如時事新聞等)、半結構化的在線百科知識和數(shù)據(jù)、機器可讀的結構化數(shù)據(jù);可演化是指網(wǎng)絡可以不斷獲取最新的知識,進行自我更新,同時可將其他知識網(wǎng)絡中的知識轉化為標準形式吸納到自身的知識網(wǎng)絡中;可計算是指知識網(wǎng)絡本身具有一個可對知識進行推理計算的算子體系,該體系還能對推理計算的復雜度等進行評價。
2018年,陸汝鈐與靳小龍等人提出了基于10個MC(Massiveness Characteristics)的大知識模型[8]。這里的“C”同時也代表了大知識10種性質的英文首字母,具體包括概念(Concepts)、連通性(Connectedness)、干凈數(shù)據(jù)資源(Clean data resources)、案例(Cases)、可信(Confidence)、能力(Capabilities)、積累(Cumulativeness)、關注(Concerns),以及一致性(Consistency)和完備性(Completeness)。這10種性質中,前5個MC從一般意義上刻畫了大知識,表明大知識是一個大規(guī)模的結構化知識元素的集合,其中每個知識元素可以是一個概念、一個實體、一條數(shù)據(jù)、一個規(guī)則或者是其他計算機可操作的信息元素。前5個MC并不同等重要。MC1、MC2和MC5是大知識的必要性質,而MC1~5一起構成了大知識的充分性質。第6項是大知識系統(tǒng)(Big Knowledge-System,BK-S)應具備的性質。一個大知識系統(tǒng)是由知識組件和功能組件組成的系統(tǒng),其中知識組件滿足MC1~5,功能組件實現(xiàn)大規(guī)模能力(Massive Capabilities,MC6)。第7、8兩個性質反映了高級大知識系統(tǒng)(Advanced BK-S)的特性:MC7表示一個大知識系統(tǒng)應當持續(xù)不斷地增加和更新其知識元素和服務能力,而MC8意味著高級大知識系統(tǒng)不受限于任何特定的知識領域,它們收集任意類型的知識。因此,這類大知識系統(tǒng)特別適用于搜索引擎以及公共知識的普及。最后兩項(一致性和完備性)則提出了對未來大知識系統(tǒng)強大功能的需求。盡管現(xiàn)有的大知識系統(tǒng)不滿足這兩項屬性,但未來的大知識系統(tǒng)都應具備。圖1描述了上述10個MC性質與大知識、大知識系統(tǒng)、大知識工程等概念之間的邏輯關系[9]。
關鍵技術
大數(shù)據(jù)知識工程通過從大數(shù)據(jù)中挖掘提煉知識,實現(xiàn)對大數(shù)據(jù)的深度理解,其中的關鍵技術包括知識獲取、知識融合、知識表示與推理以及知識存儲等。
知識獲取是大數(shù)據(jù)知識工程中至關重要的一步,旨在從非結構化的文本語料中獲取知識。知識獲取按抽取內容的不同可分為實體抽取、關系抽取和事件抽取等。實體抽取旨在從原始語料中自動識別出指定類型的命名實體,具體可以看成待抽取字/詞序列上的序列標注任務。近年來,BERT等[10]預訓練模型在實體抽取任務上取得了非常好的效果并得到了廣泛的關注。關系抽取旨在發(fā)現(xiàn)實體之間的語義關聯(lián),從方法上來說,關系分類可以分為詞典驅動、基于模式匹配、基于機器學習、基于本體方法或多種方法的混合。相對于實體表示的靜態(tài)知識,事件表示的是涉及多個要素多個關系的動態(tài)知識,因此近幾年關于事件抽取、事件圖譜構建的研究引起了學術界的研究興趣。事件抽取的目的是抽取文本中指定類型事件的實例,具體可以細分為兩個子任務,即事件觸發(fā)詞抽取和事件論元抽取。按照抽取事件是否跨多個句子可以分成句子級事件抽取和篇章級事件抽取。當前主流研究工作集中于句子級別的事件抽取,比如PLMEE[11]將BERT模型運行在事件抽取中,并使用BERT自動生成訓練數(shù)據(jù);DYGIE++[12]基于BERT預訓練模型和圖卷積神經(jīng)網(wǎng)絡模型,設計了一種多任務的事件抽取模型。
知識融合的目的是將不同來源的知識進行對齊、合并,從而形成全局統(tǒng)一的知識標識和關聯(lián)。知識融合包括不同知識圖譜的融合,以及知識圖譜與從語料中獲取的新知識的融合。前者主要涉及實體對齊技術,后者主要涉及實體鏈接技術。實體對齊的目的是將從不同數(shù)據(jù)源中抽取到的,指向真實世界中同一個對象的實體指稱詞或概念進行合并。實體鏈接指的是利用知識庫中的實體對新抽取的實體指稱詞進行消歧的過程,使實體指稱詞在已有知識圖譜或知識庫中找到對應的映射。如果實體指稱在知識庫中找不到對應的實體,則稱其為“NIL實體”。近年來,基于表示學習的實體對齊與鏈接方法已成為主流。比如,Bayu等人[13]針對跨知識圖譜的實體對齊任務,提出并改進了多種基于表示學習的對齊模型。官賽萍等人[14]提出了一種基于自學習和表示學習的無監(jiān)督實體對齊方法,更好地利用實體的屬性信息進行對齊。Creswell等人[15]提出了一種無監(jiān)督的實體對齊框架。Feng等人[16]則提出了一個簡單有效的融合多種語義信息的實體表示方法促進語境共性的學習,從而提升鏈接的準確性。
知識圖譜表示與推理嘗試將高維異構的知識圖譜數(shù)據(jù)表示成實體和關系的低維向量嵌入,從而用于下游任務。知識推理是指根據(jù)知識圖譜中已有知識,推理出新知識或識別知識圖譜中的噪音,即知識圖譜補全和知識圖譜去噪。近年來,使用知識圖譜表示學習的方法解決知識推理任務成為了國內外研究的熱點。Trouillon等人[17]將知識圖譜中的實體和關系投影到復數(shù)空間中,將知識表示從實數(shù)空間擴展到復數(shù)空間,進而通過復數(shù)向量計算實現(xiàn)知識推理。官賽萍等人[18]提出了一種共享嵌入的神經(jīng)網(wǎng)絡模型用于知識圖譜表示學習,同時考慮知識推理任務中實體預測和關系預測在難度上的差異性對損失函數(shù)進行加權。Tay等人[19]提出了自適應的魯棒轉移模型puTransE進行知識圖譜實體和關系的表示學習。puTransE模型生成多個表示空間,每個表示空間對應一個采樣的關系和先后通過語義感知與結構感知選擇機制得到的三元組集合。Dettmers等人[20]將卷積神經(jīng)網(wǎng)絡引入到知識圖譜表示學習中,設計了一個參數(shù)高效、計算快速的二維卷積神經(jīng)網(wǎng)絡用于圖譜的表示學習。Kifv等人[21]在圖卷積神經(jīng)網(wǎng)絡的基礎上,針對知識圖譜設計了一種多關系圖消息傳播機制進行知識圖譜表示學習。Nathani等人[22]用圖注意力神經(jīng)網(wǎng)絡對每個實體學習不同關系空間中的向量表達。
發(fā)展趨勢與挑戰(zhàn)
發(fā)展趨勢
總的來說,大數(shù)據(jù)知識工程的發(fā)展趨勢可以概括為以下幾個方面:
1.知識類型從靜態(tài)事實類知識向動態(tài)過程類知識延伸
大數(shù)據(jù)知識工程關注的知識類型從相對靜態(tài)的事實類知識(知識圖譜)向動態(tài)的過程類知識(事件圖譜、事理圖譜)延伸。現(xiàn)有的知識圖譜通常以名詞性實體為核心,聚焦于實體與實體之間關系的挖掘。而大數(shù)據(jù)中存在大量事件,事件與事件之間存在多種多樣的關聯(lián)關系,這在當前的知識圖譜中較少涉及。常規(guī)知識圖譜的靜態(tài)特性滿足不了事件數(shù)據(jù)實時動態(tài)更新的需求。這就需要進一步以事件為中心,建立事件之間的相互關聯(lián)關系,挖掘事件之間的演化規(guī)律與模式。這對常識推理和行為模式挖掘等任務都具有重要意義。因此從知識圖譜拓展到事件圖譜、事理圖譜成為未來發(fā)展的一大趨勢。Glava?和?najder[23]于2015年提出事件圖譜——節(jié)點代表事件,有向邊代表事件之間的關系的有向圖。2018年,李忠陽等人提出了事理圖譜[24]的概念,用于挖掘和刻畫事件之間的演化規(guī)律和模式。根據(jù)事件圖譜與事理圖譜的內涵,事理圖譜可以看作事件圖譜的“本體”,而事件圖譜可以看作事理圖譜的實例化。對事件實例的抽取和預測是構建事件圖譜的基本任務,而事件圖譜經(jīng)過表示、演化和推理可以歸結出事理圖譜。當前,無論是事件抽取、事件關系抽取,還是事件預測與事件推理,其性能都還難以達到實際應用的標準。因此,對事件/事理圖譜的深入研究與探索是未來幾年的重點發(fā)展趨勢。
2.知識范疇從單一的領域或通用知識向領域+通用知識轉變
領域知識覆蓋面窄、體量小,往往以人工構建方式為主,精度高;而通用知識覆蓋面寬、體量大,往往通過自動化抽取的方式構建,精度低。在實際應用中,單一的領域知識無法滿足對知識量的需求,而單一通用知識無法滿足精度標準。為此,領域知識和通用知識的結合是重要的發(fā)展趨勢。一方面,領域知識可以輔助發(fā)現(xiàn)和修正通用知識中的錯誤;另一方面,通用知識為領域知識提供補充。在具體應用中二者相結合,互為補充。
3.數(shù)據(jù)類型從文本數(shù)據(jù)向多模態(tài)數(shù)據(jù)擴展
在海量大數(shù)據(jù)中,文本數(shù)據(jù)只占了一部分,還有大量的圖片、視頻、音頻等非文本數(shù)據(jù)。這些數(shù)據(jù)包含了大量信息,是文本數(shù)據(jù)的重要補充。利用這些多模態(tài)數(shù)據(jù),將構建更為豐富的知識圖譜,為上層應用提供有利的基礎支撐。近年來,有少量引入圖片數(shù)據(jù)的工作。未來,數(shù)據(jù)多模態(tài)知識圖譜的構建工作,即除了文本數(shù)據(jù)、圖片數(shù)據(jù),將視頻和音頻等數(shù)據(jù)也引入知識圖譜構建,將是重要的發(fā)展趨勢。
4.知識處理方法從機器學習向機器學習與邏輯規(guī)則相結合演進
純粹基于機器學習的方法通常在向量空間中對知識建模,學習知識的低維向量表示,知識工程特別是知識推理、知識計算任務被轉化為簡單向量操作,可計算性強。因此,基于機器學習的方法便于批量計算。然而,機器學習模型通常是個難以解釋的“黑盒子”。邏輯規(guī)則方法的每一步都有據(jù)可循,可解釋性強。當邏輯規(guī)則正確時,準確率高,但需要逐個處理數(shù)據(jù),難以批量化,可計算性比較差。機器學習與邏輯規(guī)則的結合,優(yōu)勢互補,使得知識工程更加實用,同時也提高了計算的可解釋性。目前,這方面已經(jīng)有了一些研究工作。比如,神經(jīng)定理證明器(NTPs)[25]以及由其擴展而來的條件定理證明器(CTPs)[26]與貪心神經(jīng)定理證明器(GNTPs)[27]在融合連續(xù)向量空間中的機器學習模型與離散空間的邏輯規(guī)則方面進行了嘗試。然而,針對機器學習與邏輯規(guī)則相結合的探索還有很大的空間,未來將其應用到大數(shù)據(jù)知識工程的各項關鍵技術中將是很有前景的研究。
5.知識工程應用從典型場景向廣泛領域拓寬
2012年谷歌最早提出知識圖譜的概念,從大數(shù)據(jù)中提取有用的知識,這是大數(shù)據(jù)知識工程的重要一步。隨后,少數(shù)幾個行業(yè)(例如垂直搜索與智能問答)對大數(shù)據(jù)知識工程關注較多。當前,越來越多的行業(yè)試圖用好大數(shù)據(jù)帶來的紅利,幾乎每個行業(yè)甚至每個企業(yè)都在構建自己的知識圖譜??傮w上,大數(shù)據(jù)知識工程在醫(yī)療診斷、電商推薦、金融決策、異常檢測、機器翻譯等行業(yè)已經(jīng)展示出很好的應用前景。
挑戰(zhàn)問題
大數(shù)據(jù)知識工程在不斷發(fā)展的過程中也帶來了很多的技術挑戰(zhàn)和問題,未來大數(shù)據(jù)知識工程需要關注以下主要問題:
1.知識獲取的小樣本學習問題
現(xiàn)有知識工程涉及的模型往往需要大量高質量的樣本進行訓練,需要耗費很大的代價去獲取訓練樣本。在實際應用中,難以獲得大量訓練樣本,極大限制了現(xiàn)有知識處理模型的應用范圍。與這些模型不同,人類往往憑借少量樣本再加上相關經(jīng)驗知識就能快速進行學習推理。在此過程中,大腦感知外部環(huán)境,對感興趣或待學習的信息保持關注,并通過與已有先驗知識的結合快速建立起新的知識,而后,經(jīng)過神經(jīng)元的加工整理形成難以被遺忘的長時記憶。由此,每個人不斷地從生活經(jīng)驗中建立并整合知識,從而學會處理日益復雜的任務。在持續(xù)不斷的學習過程中,對以往的知識進行檢索利用,使得人們只需要少量的訓練就能快速地學會新的任務。為此,基于小樣本學習的大數(shù)據(jù)知識工程將成為未來的重要研究方向,即如何模擬人腦,以已建立的公開高質量知識圖譜(如YAGO、Freebase和NELL)等為先驗,通過少量樣本進行學習,快速高效地獲取新的知識。
2.常識的自動獲取與推理問題
目前,各界已經(jīng)積累了不少通用的知識圖譜,但通用知識不同于最基本的常識,而且自動獲取的這些知識的準確率往往無法滿足實際深度應用的需求。實際上,常識是對事物普遍存在的普遍共識。常識能使模型更加智能,能夠輔助錯誤知識的快速修正。從大數(shù)據(jù)中總結歸納并自動學習海量、高精度的常識,進一步實現(xiàn)智能推理,是大數(shù)據(jù)知識工程能夠深度應用的關鍵前提。
3.知識工程的可解釋性問題
現(xiàn)有大數(shù)據(jù)知識工程往往關注模型性能的提升,較少關注可解釋性問題。大數(shù)據(jù)知識工程需要借助表示學習等方法,將機器學習與邏輯規(guī)則相融合,實現(xiàn)從計算智能和感知智能到認知智能的提升。關于認知智能的研究目前還處于初級階段[28,29],未來需要進一步實現(xiàn)認知智能的落地應用,實現(xiàn)基于知識圖譜的可解釋人工智能。
(參考文獻略)
吳信東
明略科技集團首席科學家,明略科學院院長。“大數(shù)據(jù)知識工程”教育部重點實驗室(合肥工業(yè)大學)主任。IEEE/AAAS Fellow。主要研究方向為數(shù)據(jù)挖掘、知識工程和大數(shù)據(jù)分析。xwu@hfut.edu.cn
靳小龍
CCF高級會員、大數(shù)據(jù)專家委員會副秘書長。中國科學院計算技術研究所研究員。中國科學院大學崗位教授。主要研究方向為知識工程、知識圖譜、大數(shù)據(jù)分析。jinxiaolong@ict.ac.cn
陳歡歡
CCF專業(yè)會員、計算機視覺專委會委員。中國科學技術大學計算機學院教授。主要研究方向為大知識工程、機器學習、數(shù)據(jù)挖掘、演化計算等。hchen@ustc.edu.cn
聯(lián)系客服