相關(guān)鏈接:
5G 2B專網(wǎng)解決方案和關(guān)鍵技術(shù)
B5G毫米波通信無線接入網(wǎng)絡(luò)的架構(gòu)設(shè)計
5G非授權(quán)頻譜技術(shù)與應(yīng)用建議
微波戰(zhàn)術(shù)通信系統(tǒng)空域抗干擾方法綜述
引導數(shù)據(jù)對機載衛(wèi)通天線捕星的影響分析
基于知識圖譜構(gòu)建5G協(xié)議知識庫
徐健
(中國移動通信集團福建有限公司網(wǎng)絡(luò)部無線優(yōu)化中心,福建 福州 350001)
【摘 要】隨著5G技術(shù)的日趨成熟,運營商相關(guān)研究人員面臨著快速掌握5G相關(guān)知識的壓力,然而5G知識內(nèi)容種類繁多,知識面廣,如何高效地從5G協(xié)議中查詢到亟需學習的知識點是當前亟待解決的問題,為了解決這一問題,本文基于知識圖譜及信息搜索方法構(gòu)建5G協(xié)議知識庫。由于網(wǎng)優(yōu)人員搜索相關(guān)知識一般只需得到與關(guān)鍵字相關(guān)的知識信息,而不必通曉全文,本文采用專業(yè)領(lǐng)域知識庫結(jié)合多種方法對信息進行抽取,建立術(shù)語的屬性、基本關(guān)系以及文本結(jié)構(gòu)的關(guān)系,同時采用Neo4j圖數(shù)據(jù)庫對構(gòu)建成的三元組進行存儲,極大地提高了搜索性能,本文將該知識圖譜運用到5G協(xié)議知識智能檢索中,并取得了很好的效果。
【關(guān)鍵詞】知識圖譜;Neo4j;搜索引擎;深度學習;知識抽取
doi:10.3969/j.issn.1006-1010.2020.08.013
中圖分類號:TN929.5 文獻標志碼:A
文章編號:1006-1010(2020)08-0073-07
引用格式:徐健. 基于知識圖譜構(gòu)建5G協(xié)議知識庫[J]. 移動通信, 2020,44(8): 73-79.
0 引言
隨著網(wǎng)絡(luò)領(lǐng)域人工智能技術(shù)的發(fā)展,自然語言處理技術(shù)得到了進一步的發(fā)展,由于網(wǎng)優(yōu)領(lǐng)域知識的大規(guī)模、非結(jié)構(gòu)化等特點,這使網(wǎng)優(yōu)人員獲取信息的難度加大,同時,知識圖譜的快速發(fā)展,又給網(wǎng)優(yōu)知識整理提供了可能性,知識圖譜以其強大的語義處理能力和開放性組織能力,為網(wǎng)絡(luò)領(lǐng)域的知識整理和自動化應(yīng)用打下了根基,許多領(lǐng)域面臨數(shù)據(jù)的不斷增長所帶來的許多挑戰(zhàn),因此可以利用知識圖譜技術(shù),針對不同的業(yè)務(wù)需求,實現(xiàn)通用領(lǐng)域和專用領(lǐng)域應(yīng)用“遍地開花”的景象。
DBpedia是知識圖譜中很典型的例子,是從維基百科的結(jié)構(gòu)化數(shù)據(jù)中提取出來的知識圖,這種提取的數(shù)據(jù)主要來源是維基百科信息框中的鍵值對,在一個眾包過程中,提取信息框中的內(nèi)容作為實體,而相應(yīng)的鍵值作為屬性,基于這些映射,可以提取知識圖[1]。和DBpedia一樣,YAGO也是從DBpedia中提取的,YAGO從維基百科的范疇系統(tǒng)和詞匯資源WordNet[2]中隱式構(gòu)建分類,將信息框?qū)傩允謩佑成涞焦潭ǖ膶傩约?,DBpedia為每個語言版本的Wikipedia創(chuàng)建不同的相互關(guān)聯(lián)的知識圖[3],YAGO的目標是利用不同的啟發(fā)式方法,將從不同語言版本中提取的知識自動融合起來[4]。無論用何種方法來構(gòu)造知識圖譜,其結(jié)果都不會是完美的[5],作為現(xiàn)實世界的一個模型或它的一部分,形式化的知識不能合理地達到完全覆蓋,即不可能包含關(guān)于宇宙中每一個實體的信息,此外,特別是在應(yīng)用啟發(fā)式方法時,知識圖不太可能是完全正確的,通常在覆蓋率和正確性之間存在權(quán)衡,這在每個知識圖中都有不同的解決方案。已有很多學者對知識圖譜相關(guān)技術(shù)進行了研究,Dong C, Zhang J等[6]通過使用神經(jīng)網(wǎng)絡(luò)的變種形式雙向的LSTM-CRF進行命名實體識別,利用字符級等方法進行表示,并在沒有精心設(shè)計的特性的情況下獲得更好的性能。M Ganzha, L Maciaszek等[7]利用原始的PDF文件提取出句子和單詞,所提取的句子之間的關(guān)系以網(wǎng)絡(luò)圖的形式構(gòu)建出來。Rajman等[8]提出了一種采用文本數(shù)據(jù)挖掘技術(shù)進行知識抽取的對策,他們提供了兩個可以從文本集合中提取信息的示例——關(guān)鍵字和原型文檔實例的概率關(guān)聯(lián),同時,該文章表明了自然語言處理技術(shù)在知識抽取應(yīng)用中至關(guān)重要。Alani等[9]按文檔檢索、實體識別和提取過程等步驟,利用預定義的本體從文檔中自動提取知識,在知識抽取過程中,采用了多種自然語言處理技術(shù),句法分析、語義分析和關(guān)系抽取,而且已經(jīng)得到了很好的結(jié)果。翟社平、段宏宇等人[10]通過采用一種基于RNN網(wǎng)絡(luò)的變種BiLSTM_CRF網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)了實體提取技術(shù),在使用雙向短時記憶網(wǎng)絡(luò)BiLSTM提取文本信息時,又利用CRF技術(shù)對序列標注之間的關(guān)系進行表示,實驗表明該方法可以獲得很好的結(jié)果。Peter Clark和Phil Harrison等[11]通過創(chuàng)建“元組”數(shù)據(jù)庫來研究知識提取,從而捕獲簡單的單詞知識,然后用它來改進文本潛在的語義規(guī)則的語法分析和可信性評估。
Parikh[12]提出了一種學習語義解析的方法,用于提取帶或不帶注釋文本的嵌套事件結(jié)構(gòu),此方法背后的思想是將注釋構(gòu)建為潛在變量,并合并與事件語義解析匹配的先驗知識。
伴隨著“互聯(lián)網(wǎng)+5G”的蓬勃發(fā)展,人們的思想和生活理念會發(fā)生天翻地覆的變化,5G所影響的將是全產(chǎn)業(yè)、全鏈條的技術(shù)創(chuàng)新,不僅是日常生活到工業(yè)生產(chǎn)的變化,文化娛樂、智能駕駛、教育醫(yī)療都會發(fā)生深刻的變化,5G的影響將隨處可見。構(gòu)建網(wǎng)優(yōu)知識的知識圖譜對5G的發(fā)展起到極大的推動作用,對網(wǎng)優(yōu)專家以及工程人員及時獲取5G相關(guān)的知識起到至關(guān)重要的作用。根據(jù)我們的設(shè)想,網(wǎng)優(yōu)專業(yè)以及工程人員無需去閱讀所有的協(xié)議,只需要懂得查找并及時獲取相關(guān)的知識即可,所以要求知識圖譜抽取的知識是在有限的時間里提供給用戶簡潔且容易獲得的信息。
本文通過自然語言處理技術(shù),對5G協(xié)議進行數(shù)據(jù)處理,通過自然語言處理相關(guān)技術(shù)構(gòu)建網(wǎng)優(yōu)領(lǐng)域的知識圖譜,通過智能搜索技術(shù)實現(xiàn)搜索引擎,查找相關(guān)的協(xié)議內(nèi)容和知識,并且對比了深度學習實體提取算法的優(yōu)劣,最后選擇了BiLSTM-CRF進行知識提取。此外,知識圖譜的構(gòu)建方便了網(wǎng)優(yōu)人員進行參數(shù)查詢和自主學習,并取得了令人滿意的結(jié)果。
1 基于知識圖譜的5G協(xié)議檢索
目前,知識圖譜的構(gòu)建形式,一般有兩種形式,其中,自頂向下方式需要通過構(gòu)建好的知識庫進行提取出實體和關(guān)系的基本模式,然后再從新的數(shù)據(jù)源中抽取出正確的實體和屬性,合并到已定義好的概念體系當中[13-15],但這種構(gòu)建知識圖譜的方式相對簡單。例如,Google在初期為了保證知識的準確性和高效性,很多數(shù)據(jù)都是從Freebase數(shù)據(jù)庫中獲取的;DBpedia則是基于維基百科大規(guī)模數(shù)據(jù)的基礎(chǔ)上構(gòu)建完成的。然而,隨著深度學習等知識提取技術(shù)的快速發(fā)展,逐漸形成了以自底向上為主的構(gòu)建形式,這種構(gòu)建知識圖譜的方式,實體和關(guān)系抽取更高效,其構(gòu)建的圖譜葉更加完善且豐富,Knowledge Vault[16]就是采用該深度學習的方式進行構(gòu)建知識圖譜的典型例子,對現(xiàn)存的圖譜進行了填補和完善。
1.1 5G協(xié)議檢索架構(gòu)設(shè)計
網(wǎng)優(yōu)領(lǐng)域的知識圖譜是為了讓網(wǎng)優(yōu)人員都能獲取專業(yè)領(lǐng)域的知識,因此,網(wǎng)優(yōu)知識圖譜應(yīng)針對網(wǎng)優(yōu)領(lǐng)域的知識進行構(gòu)建,而且領(lǐng)域中有組織有結(jié)構(gòu)的數(shù)據(jù)更容易獲取準確的三元組。在研究分析網(wǎng)優(yōu)領(lǐng)域的數(shù)據(jù)時可以發(fā)現(xiàn),網(wǎng)優(yōu)領(lǐng)域知識難度大,即使是工作多年的工程師也會存在技術(shù)短板,因此現(xiàn)有結(jié)構(gòu)化數(shù)據(jù)十分缺失,收集較為困難,所以,可信度較高的5G協(xié)議知識作為基礎(chǔ)數(shù)據(jù)源,本文將采用多種方式來構(gòu)建網(wǎng)優(yōu)知識圖譜,本文的構(gòu)建流程圖如圖1所示:
本節(jié)介紹系統(tǒng)的總體思路及架構(gòu),該架構(gòu)主要由如下幾個部分組成:數(shù)據(jù)格式轉(zhuǎn)化、數(shù)據(jù)處理、知識整理模塊、數(shù)據(jù)庫存儲的轉(zhuǎn)化模塊、知識融合模塊、知識庫引擎模塊、前端用戶交互模塊等。
該流程首先通過文檔數(shù)據(jù)進行預處理,再進行知識圖譜的知識整理,包括實體提取,關(guān)系提取和屬性提取,然后再針對定義好的專業(yè)領(lǐng)域數(shù)據(jù)中的相關(guān)知識,經(jīng)過知識融合的本體對齊和實體匹配等操作進行網(wǎng)優(yōu)知識圖譜的構(gòu)建,并用圖數(shù)據(jù)庫進行儲存。由于網(wǎng)優(yōu)知識圖譜主要為網(wǎng)優(yōu)工程人員提供服務(wù),對圖譜中的實體和關(guān)系的準確性提了很高的要求,因此本文在分析5G協(xié)議數(shù)據(jù)源之后,考慮到網(wǎng)優(yōu)領(lǐng)域知識的難度大等特點,通過對文本結(jié)構(gòu)以及網(wǎng)優(yōu)術(shù)語及其之間關(guān)系進行三元組構(gòu)建,確定網(wǎng)優(yōu)核心概念,構(gòu)建網(wǎng)優(yōu)領(lǐng)域的知識圖譜。
1.2 圖數(shù)據(jù)庫Neo4j實現(xiàn)知識搜索
表1為幾種不同的數(shù)據(jù)庫對比,經(jīng)過對比,Neo4j圖數(shù)據(jù)庫有如下優(yōu)點:高可用性,實時數(shù)據(jù)分析,輕松檢索,Neo4j不僅可以可視化顯示,而且還可以比較容易地實現(xiàn)檢索(遍歷/導航)其他數(shù)據(jù)庫中的連接數(shù)據(jù),具有查詢速度快,代碼量少等優(yōu)點,因此,該系統(tǒng)采用通用的圖數(shù)據(jù)庫Neo4j作為存儲數(shù)據(jù)庫,在數(shù)據(jù)經(jīng)過處理后以三元組的形式表達的元素作為基本輸入構(gòu)建知識圖譜。搜索引擎是知識圖譜最典型的應(yīng)用之一,其目的是協(xié)助工程人員通過所輸入的關(guān)鍵字獲取所需要的信息,本文以Neo4j為知識搜索引擎,該系統(tǒng)主要實現(xiàn)以下查詢功能:實體查詢,顯示關(guān)系以及對應(yīng)的實體;查篇名,顯示文檔的內(nèi)容以及關(guān)系;查術(shù)語,顯示相關(guān)的關(guān)系以及對應(yīng)的實體。
2 構(gòu)建5G協(xié)議檢索知識圖譜
2.1 基于知識圖譜的數(shù)據(jù)處理流程
該系統(tǒng)結(jié)合了自然語言數(shù)據(jù)處理技術(shù)和圖數(shù)據(jù)庫,也提供了結(jié)果的可視化功能,從數(shù)據(jù)上說,本文的方法是與數(shù)據(jù)處理和領(lǐng)域?qū)<抑R相結(jié)合的(如圖2),顯示了數(shù)據(jù)處理流程。
該模型包含了如下步驟:
(1)從數(shù)據(jù)文檔轉(zhuǎn)化為HTML格式文件;
(2)對HTML格式文件進行分析,分析HTML中需要提取出的內(nèi)容;
(3)對數(shù)據(jù)進行前處理;
(4)抽取出標題,相關(guān)的內(nèi)容以及術(shù)語的實體等;
(5)本體構(gòu)建,建立三元組關(guān)系;
(6)對數(shù)據(jù)進行融合;
(7)存儲數(shù)據(jù),并可視化數(shù)據(jù)。
本文所采取的數(shù)據(jù)來源于5G協(xié)議,針對5G現(xiàn)有的規(guī)范化協(xié)議,采用了1 500多份協(xié)議進行研究,這些協(xié)議是word.doc格式,所以不得不從doc文件格式中抽取信息,為了提取文本的結(jié)構(gòu),因此先將word.doc格式轉(zhuǎn)化為HTML格式進行處理,利用win32com庫實現(xiàn)文檔的自動轉(zhuǎn)化。
對數(shù)據(jù)進行前處理的過程中,先要對數(shù)據(jù)進行分析,并分析數(shù)據(jù)結(jié)構(gòu),觀察提取的內(nèi)容所在位置以及標簽,本文采用BeautifulSoup進行HTML解析,預處理時需要對標簽等噪聲進行移除,因為部分標簽都是不需要的信息,并且還會引起干擾,容易形成噪聲,所以忽視相關(guān)的噪聲。
2.2 基于知識圖譜的實體提取
本文的實體抽取部分采用了兩種方式:一種是基于文本結(jié)構(gòu)的實體提取方法,提取文章中的結(jié)構(gòu),以便更好的查詢文章以及內(nèi)容,該方法相對較簡單,主要通過word轉(zhuǎn)化為HTML后的結(jié)構(gòu)進行提取,HTML的結(jié)構(gòu)都是帶有標簽,可以通過python提取標簽及內(nèi)容進行提取。
第二種方式是基于深度學習的BILSTM+CRF方法進行實體提取,長短時記憶模型網(wǎng)絡(luò)被稱為LSTM,是一種變種的RNN,理論上,RNN可以利用任意長序列中的信息,但在實踐中,它們只能往回看幾個步驟。長短期記憶(LSTM)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的改進版本,它使記憶中更容易記住過去的數(shù)據(jù),它不僅解決了RNN的消失梯度問題,而且非常適合于對未知時間滯后的時間序列進行分類、處理和預測。此外,LSTM的核心是使用隱藏狀態(tài)來保留通過的輸入信息,但一個LSTM只能從左到右獲取信息,而語義關(guān)系到上下文的信息,因此,雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)應(yīng)運而生。在向后運行的LSTM中,保留了將來的信息,并且兩個隱藏狀態(tài)相結(jié)合能夠在任何時間點上保存過去和未來的信息,它們都適合非常復雜的問題,但是Bi-LSTM表現(xiàn)出了很好的結(jié)果是因為它可以更好地理解上下文,能夠通過同時考慮到上下文的語義信息。雙向LSTM正是基于這樣一種思想,即t時刻的輸出可能不僅取決于序列中先前的元素,還取決于未來的元素,例如,要預測一個序列中缺失的單詞,需要同時查看左右上下文,雙向網(wǎng)絡(luò)非常簡單,它們只是兩個重疊在一起的神經(jīng)網(wǎng)絡(luò),因此本文采用BiLSTM+CRF進行命名實體識別,并且采用了預先訓練好的詞向量模型,將文本映射到300維空間中,并且采用BIO進行數(shù)據(jù)標注。此外,本文也采用了BERT-BiLSTM-CRF進行了命名實體識別計算,但經(jīng)過對比發(fā)現(xiàn),BERT-BiLSTM-CRF與BiLSTM-CRF相差無幾,但是需要使用GPU進行訓練,消耗了大量的資源,而BiLSTM-CRF在CPU上即可訓練,所以BERT-BiLSTM-CRF并無太大的優(yōu)勢,因此本文選擇使用BiLSTM-CRF進行訓練,采用準確率P(Precision)和召回率R(Recall)作為評價標準,計算公式分別為:
實驗結(jié)果如表2所示:
2.3 基于知識圖譜的關(guān)系提取
本體原來是指一個哲學概念,指的是對客觀機制的解釋和描述:一個決定名詞概念和物質(zhì)關(guān)系的模型,本體的實體是一個類別,其所代表的節(jié)點就是類的一個例子,本體的關(guān)系是表現(xiàn)類型的關(guān)系,類型的關(guān)系類型遠比不上本體的關(guān)系類型,本體代表了許多具體的概念,如:實體、關(guān)系、對象節(jié)點、數(shù)據(jù)節(jié)點等。本體設(shè)計包含概念、關(guān)系以及實體的設(shè)計,概念是包含全部實體的統(tǒng)稱。該系統(tǒng)有標題概念,關(guān)鍵術(shù)語概念等,關(guān)系主要包括主次關(guān)系以及從屬關(guān)系,從屬關(guān)系包含父與子概念之間的關(guān)系和概念與實體之間的關(guān)系,實體是概念中的一個個體。例如,術(shù)語中的每個術(shù)語都是該概念的實體;本文主要構(gòu)建兩種格式的三元組,一種是文章的結(jié)構(gòu),即標題和內(nèi)容,每級標題之間的關(guān)系等,第二種是術(shù)語的屬性以及關(guān)系。表3列出了一部分知識圖譜三元組以及屬性和關(guān)系:
2.4 基于知識圖譜的數(shù)據(jù)融合
在數(shù)據(jù)預處理階段,初始數(shù)據(jù)的質(zhì)量會直接影響到最終鏈接的結(jié)果,不同的協(xié)議數(shù)據(jù)集對同一實體的描述方式往往是不相同的,一個實體可能有多種不同的表示方式,他們只是對知識進行了不同的表述,基于實體屬性的實體對齊方法通過計算實體的名字屬性中字符串的相似度來判斷實體是否相同以及在相關(guān)的內(nèi)容中進行判斷實體之間的相似性,相似度主要通過Cosine距離、Jaccard相關(guān)系數(shù)等方式進行計算:
其中,e1和e2同為實體,A(e)表示實體e的屬性字符串。本文采用Cosine距離進行計算。
3 結(jié)果可視化
構(gòu)建的網(wǎng)優(yōu)知識圖譜是以5G協(xié)議作為基礎(chǔ)知識大綱,主要涉及一些網(wǎng)優(yōu)術(shù)語以及相關(guān)的協(xié)議要求,知識圖譜就是將網(wǎng)優(yōu)知識進行組織整理,整合的目的是使工程人員更容易理解,能更好地挖掘和呈現(xiàn)知識。本文基于圖數(shù)據(jù)庫Neo4j實現(xiàn)了搜索引擎功能,方便了工程人員進行知識搜索。本文采用Neo4j圖形數(shù)據(jù)庫對知識圖譜進行存儲,并對其可視化,圖3顯示了網(wǎng)優(yōu)知識圖譜構(gòu)建的部分示例。
此外,5G協(xié)議數(shù)據(jù)也是隨時更新版本,因此,知識圖譜也需要隨時更新,但5G協(xié)議通常會更新一部分協(xié)議,而另一部分未更新,所以,對更新版本的5G協(xié)議數(shù)據(jù),對數(shù)據(jù)進行預處理并以三元組的JSON文件形式進行儲存,經(jīng)過質(zhì)量評估之后將三元組作為新增知識,并替換掉舊版本的5G協(xié)議數(shù)據(jù),再依據(jù)Cypher語言進行實體和關(guān)系的建立,對已構(gòu)建的網(wǎng)優(yōu)知識圖譜進行更新或修正。
4 結(jié)束語
本文利用數(shù)據(jù)進行轉(zhuǎn)化、預處理、信息抽取和實體融合、知識圖譜的更新迭代等方法,構(gòu)建了網(wǎng)優(yōu)領(lǐng)域知識庫,實現(xiàn)了5G協(xié)議的知識引擎搜索功能,構(gòu)建了各種術(shù)語的概念、屬性以及相互之間的關(guān)系和協(xié)議文本結(jié)構(gòu)間的關(guān)系,并實現(xiàn)了5G協(xié)議的知識引擎搜索功能,便于網(wǎng)優(yōu)工作人員的查找和理解。本文所提出的模型適用于特殊領(lǐng)域因標注數(shù)據(jù)較少,文檔數(shù)據(jù)較難提取而導致無法構(gòu)建知識圖譜的場景。此外,本文也可以推廣到網(wǎng)優(yōu)其他領(lǐng)域進行知識圖譜構(gòu)建,比如網(wǎng)優(yōu)根因定位等問題,在下一步的研究計劃中,可以從兩方面對該系統(tǒng)進行改進,第一:建立5G協(xié)議術(shù)語之間更多的關(guān)系,補充知識圖譜,使知識圖譜更加準確和完整;第二:增加知識推理規(guī)則,能提高知識的精準度,而且利用規(guī)則建立更多的關(guān)系。
★原文發(fā)表于《移動通信》2020年第8期★
doi:10.3969/j.issn.1006-1010.2020.08.013
中圖分類號:TN929.5 文獻標志碼:A
文章編號:1006-1010(2020)08-0073-07
引用格式:徐健. 基于知識圖譜構(gòu)建5G協(xié)議知識庫[J]. 移動通信, 2020,44(8): 73-79.
徐健(orcid.org/0000-0002-8022-0382):碩士畢業(yè)于北京郵電大學,現(xiàn)任職于中國移動通信集團福建有限公司網(wǎng)絡(luò)部無線優(yōu)化中心,主要研究方向為新技術(shù)在無線網(wǎng)絡(luò)優(yōu)化領(lǐng)域的應(yīng)用。
《移動通信》投稿方式為在線投稿
請您登錄網(wǎng)頁投稿系統(tǒng)
鏈接地址:http://ydtx.cbpt.cnki.net
聯(lián)系客服