三、 安全知識圖譜技術(shù)框架
基于安全知識圖譜,構(gòu)建具有感知、認(rèn)知、決策智能的安全應(yīng)用,需要解決數(shù)據(jù)的統(tǒng)一建模、實(shí)體抽取與關(guān)系構(gòu)建、復(fù)雜語義的推理分析和場景化的應(yīng)用適配等不同層次關(guān)鍵問題。對應(yīng)這些主要問題,本文將網(wǎng)絡(luò)安全知識圖譜自底向上的劃分為三個(gè)核心層次,分別為:圖譜構(gòu)建層、推理分析層、應(yīng)用能力層,一個(gè)安全可信層,整體框架如圖7所示,概括了每個(gè)技術(shù)層次的主要技術(shù)能力。以下分別對各個(gè)層次做簡要介紹。
圖7 安全知識圖譜技術(shù)框架
圖譜構(gòu)建層
圖譜構(gòu)建層主要實(shí)現(xiàn)安全知識圖譜的數(shù)據(jù)基礎(chǔ)設(shè)施的構(gòu)建。主要需實(shí)現(xiàn)包括本體設(shè)計(jì)、實(shí)體識別、關(guān)系識別、知識消歧、圖譜構(gòu)建、圖譜存儲、圖譜計(jì)算等基礎(chǔ)能力。
知識圖譜的核心在于對數(shù)據(jù)的語義化組織模式的設(shè)計(jì)。通常來講,知識圖譜將各類格式的原始數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),抽取為形如(Subject, Relation, Object)的三元組形式。在該形式下,實(shí)體Subject與實(shí)體Object之間,自然形成具有關(guān)系Relation的語義子結(jié)構(gòu)。通過大規(guī)模語義子結(jié)構(gòu)的串聯(lián)組織,即構(gòu)成完整的知識圖譜結(jié)構(gòu),其中,Subject與Object實(shí)體的類型、兩者之間Relation的類型,以及兩者的屬性類型的規(guī)范等,構(gòu)成的完整模式,即構(gòu)成了知識圖譜的模式層本體范式。
圖8 安全知識圖譜本體模式設(shè)計(jì)樣例
安全知識圖譜的數(shù)據(jù)模式層,即針對網(wǎng)絡(luò)空間安全領(lǐng)域的知識庫、情報(bào)庫、數(shù)據(jù)日志等領(lǐng)域知識進(jìn)行本體建模,以給出歸一化、抽象、可推理的安全本體范式。本體建模的過程,是整個(gè)安全知識圖譜的構(gòu)建與應(yīng)用的基石——本體范式?jīng)Q定了知識圖譜覆蓋的知識/情報(bào)/數(shù)據(jù)范疇、數(shù)據(jù)抽象的粒度以及語義關(guān)聯(lián)模板,進(jìn)而決定了圍繞知識圖譜開展的相關(guān)推理應(yīng)用的可用性、覆蓋度以及使用價(jià)值。因此,構(gòu)建知識完備、粒度適中、語義豐富的數(shù)據(jù)模式層本體庫,是安全知識圖譜技術(shù)中最關(guān)鍵的設(shè)計(jì)工作之一。
知識圖譜的構(gòu)建工作,即基于知識/情報(bào)/數(shù)據(jù)資料庫,在數(shù)據(jù)模式層本體模式的規(guī)范下,抽取實(shí)例實(shí)體、關(guān)系及屬性信息形成知識圖譜數(shù)據(jù)層語義網(wǎng)絡(luò)的過程。通常來講,知識圖譜的構(gòu)建過程主要包括知識抽取、知識融合、知識存儲、知識更新等主要步驟。在知識抽取環(huán)節(jié),實(shí)體、關(guān)系、屬性等要素按需從各類結(jié)構(gòu)化、本結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中提取出來。在知識融合階段,需完成各類實(shí)體的對齊,關(guān)系語義的消歧,知識的映射等工作,以將提供滿足知識圖譜質(zhì)量要求、設(shè)計(jì)規(guī)范的數(shù)據(jù)資料。知識存儲階段,主要是將結(jié)構(gòu)化語義網(wǎng)絡(luò)數(shù)據(jù)存儲到數(shù)據(jù)庫中,一般的存儲介質(zhì)是各種類型的圖數(shù)據(jù)庫。在知識更新階段,將根據(jù)數(shù)據(jù)層信息的實(shí)時(shí)性、置信度、語義明確性等維度和更新策略,剔除失效數(shù)據(jù),更新最新狀態(tài),保證知識圖譜信息的高價(jià)值屬性。
構(gòu)建安全知識圖譜需要特別注意的是:一方面,需構(gòu)建更細(xì)粒度的數(shù)據(jù)質(zhì)量評估方法,以保證安全圖數(shù)據(jù)的高置信度與高安全性,否則將可能影響基于知識圖譜的安全應(yīng)用的魯棒性;另一方面,在知識/情報(bào)/數(shù)據(jù)的時(shí)效性管理方面,需要更靈活地更新機(jī)制,以保證圖譜數(shù)據(jù)的時(shí)效性。
推理分析層
知識圖譜的推理分析,主要面向高層次應(yīng)用提供關(guān)聯(lián)查詢、知識壓縮表示、知識歸因預(yù)測等自動(dòng)化、智能化推理能力支撐。主要的推理分析方法,包括圖關(guān)聯(lián)檢索、基本的圖數(shù)據(jù)挖掘算法、圖的表示學(xué)習(xí)、圖的推理學(xué)習(xí)等。圖關(guān)聯(lián)檢索即通過最短路徑、相似性分析等方法,提供指定實(shí)體、關(guān)系、屬性特征查詢的響應(yīng)?;镜膱D數(shù)據(jù)挖掘算法,包括圖上的節(jié)點(diǎn)聚類、社團(tuán)行為發(fā)現(xiàn)、重要節(jié)點(diǎn)發(fā)現(xiàn)、路徑挖掘等等,為知識圖譜提供深入的數(shù)據(jù)洞見。圖的表示學(xué)習(xí),通過結(jié)構(gòu)、屬性等維度的學(xué)習(xí)方法,如Trans模型(TransE、TransH等),習(xí)得知識圖譜關(guān)鍵要素的向量化壓縮表示,可用于支持知識檢索、知識推理等類型的技術(shù)實(shí)現(xiàn)。圖的推理學(xué)習(xí),則基于表示學(xué)習(xí)結(jié)果或通過端到端的圖神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì),如圖神經(jīng)網(wǎng)絡(luò),提供知識語義推導(dǎo)、關(guān)系鏈路預(yù)測等核心推理結(jié)果。
圖9 典型的行為知識圖譜推理分析
安全知識圖譜的推理環(huán)節(jié),需要重點(diǎn)解決多層次數(shù)據(jù)、情報(bào)、知識之間的語義鴻溝問題、大規(guī)模網(wǎng)絡(luò)實(shí)體信息關(guān)聯(lián)的依賴爆炸問題等多種基礎(chǔ)性難題。語義鴻溝問題,主要是由不同來源、不同采集尺度的數(shù)據(jù)融合導(dǎo)致的高層語義難以對齊的問題。知識圖譜構(gòu)建的語義消歧技術(shù),只能在特定的標(biāo)尺下完成粗略的數(shù)據(jù)融合,但要實(shí)現(xiàn)跨源、跨維度的知識推理,仍需要有效的語義學(xué)習(xí)機(jī)制。依賴爆炸問題則是由于現(xiàn)有的數(shù)據(jù)采集技術(shù)、跟蹤技術(shù)、知識建模技術(shù)的限制,安全知識圖譜實(shí)體之間的信息流無法精確的刻畫,上下游實(shí)體之間的信息依賴隨著圖上跳數(shù)的增加呈現(xiàn)指數(shù)級爆炸的現(xiàn)象,將導(dǎo)致知識圖譜信息傳播的消散。
應(yīng)用能力層
本層次主要基于圖譜的數(shù)據(jù)和分析基礎(chǔ)設(shè)施,提供面向特定場景需求的安全知識圖譜服務(wù)能力,抽象的可概括為建模、識別、富化、畫像、測繪、溯源、歸因、決策及預(yù)警等能力單元。場景需求 數(shù)據(jù)基礎(chǔ) 分析能力的組合,可以形成基于安全知識圖譜的技術(shù)棧。包括在安全運(yùn)營中的XDR技術(shù)、威脅情報(bào)中的組織團(tuán)伙分析技術(shù)、網(wǎng)絡(luò)空間測繪中的攻擊面觀測技術(shù)、攻擊模擬中的智能決策技術(shù)等等,都可以通過一種或多種圖譜推理分析能力的組合,實(shí)現(xiàn)面向場景化需求的知識抽取與知識演繹推理以達(dá)成目標(biāo)。具體技術(shù)應(yīng)用場景,將在第四節(jié)介紹。
圖10 安全知識圖譜服務(wù)能力
安全可信層
除了安全知識圖譜的核心技術(shù)能力基礎(chǔ)外,還需在多個(gè)方面提供安全知識圖譜的自身安全可信機(jī)制,主要包括數(shù)據(jù)質(zhì)量評估、敏感數(shù)據(jù)防護(hù)、分析效果監(jiān)測等。在數(shù)據(jù)質(zhì)量評估方面,需通過量化的圖譜質(zhì)量評估指標(biāo),實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)異常、缺失、錯(cuò)誤等問題的識別,以保證安全知識圖譜數(shù)據(jù)流程轉(zhuǎn)換過程中的多階段數(shù)據(jù)輸入可信。在敏感數(shù)據(jù)防護(hù)方面,通過對企業(yè)、個(gè)人、組織等多級別敏感數(shù)據(jù)的自動(dòng)識別與脫敏,支持知識圖譜在不暴露敏感信息的情況下,完成從圖譜構(gòu)建到推理分析再到應(yīng)用服務(wù)的整個(gè)知識建模過程。在分析效果監(jiān)測方面,需提供可供反饋的人機(jī)接口,收集用戶在不同場景知識服務(wù)中的細(xì)粒度反饋,并通過自動(dòng)化的閉環(huán)機(jī)制,跟蹤和持續(xù)優(yōu)化相關(guān)參數(shù)、流程,向圖譜管理組件提供關(guān)鍵指標(biāo)的監(jiān)測接口。
四、 安全知識圖譜技術(shù)應(yīng)用
安全知識圖譜可以作為網(wǎng)絡(luò)安全大數(shù)據(jù)分析的關(guān)鍵基礎(chǔ)設(shè)施,以獨(dú)立部署的模式或者融合服務(wù)的方式,提供數(shù)據(jù)、分析等多個(gè)層面的支撐。本節(jié),將介紹四個(gè)典型安全知識圖譜的應(yīng)用場景,分別是利用知識圖譜支持攻擊研判信息富化、運(yùn)營事件知識抽取、終端攻擊檢測調(diào)查以及威脅情報(bào)模式識別。
攻擊研判信息富化
攻擊事件研判依賴準(zhǔn)確、豐富的事件上下文信息。上下文可涉及前述環(huán)境知識、行為知識、情報(bào)知識和知識庫等多維度信息源。通過自動(dòng)化的采集與構(gòu)建方法,可構(gòu)建類似圖11所示可支撐研判的知識圖譜數(shù)據(jù)庫。該圖譜數(shù)據(jù)庫,基于威脅情報(bào)STIX2.0架構(gòu),融合了經(jīng)典事件研判過程中,所依賴的脆弱性、緩解措施、應(yīng)用案例等基礎(chǔ)信息。通過基于指定類型線索的檢索,能夠高效的召回關(guān)聯(lián)知識庫信息,形成對待研判事件的增強(qiáng),可提升事件的整體信息量,并提升大規(guī)模事件的歸類、歸并分析的效率。
圖11 支持事件富化的安全知識圖譜[6]
運(yùn)營事件知識抽取
安全運(yùn)營中心的集中式分析平臺,匯聚了大規(guī)模的動(dòng)態(tài)事件數(shù)據(jù)。這些事件數(shù)據(jù),可通過IP、域名、郵箱等實(shí)體實(shí)現(xiàn)直接關(guān)聯(lián),也可通過事件的屬性特征相似性實(shí)現(xiàn)潛在關(guān)聯(lián)。通過這些關(guān)系的識別和提取,能夠?qū)r(shí)序事件數(shù)據(jù),轉(zhuǎn)化為動(dòng)態(tài)事件關(guān)聯(lián)的知識圖譜結(jié)構(gòu),并可通過該結(jié)構(gòu)觀測和自動(dòng)化抽取其中的子圖模式與規(guī)律。例如,可以抽取指定類型實(shí)體的行為規(guī)律信息,形成包括行為基線、交互基線等;可以抽取事件之間的轉(zhuǎn)移規(guī)律信息,形成包括事件交互基線等。相對于自頂向下的、基于靜態(tài)知識庫的知識富化,自底向上的、高度動(dòng)態(tài)的事件知識抽取,能夠?qū)崿F(xiàn)事件知識的生產(chǎn)與事件行為的自驗(yàn)證,為攻擊的研判、事件的分析提供具有環(huán)境自適應(yīng)的動(dòng)態(tài)知識結(jié)構(gòu)。
圖12 動(dòng)態(tài)事件關(guān)聯(lián)知識圖譜
終端攻擊檢測調(diào)查
終端側(cè)的數(shù)據(jù)采集與分析,能夠提供細(xì)粒度的行為上下文,一直以來都是網(wǎng)絡(luò)安全數(shù)據(jù)的重要組成部分。其中,溯源數(shù)據(jù)(Provenance)是終端側(cè)數(shù)據(jù)的關(guān)鍵組成,當(dāng)前操作系統(tǒng)(如Linux、Windows等)已具備高線溯源數(shù)采集的能力。有效的溯源數(shù)據(jù)挖掘方法,能夠支撐威脅狩獵的多種任務(wù)場景。Provenance能夠忠實(shí)記錄終端上實(shí)體的行為邏輯依賴關(guān)系,自然形成溯源數(shù)據(jù)圖(Provenance Graph,簡稱溯源圖)。所記錄的實(shí)體,包括文件(菱形)、網(wǎng)絡(luò)(橢圓)、進(jìn)程(矩形)等維度;根據(jù)實(shí)體對的類型,實(shí)體間關(guān)系又包括文件讀寫、進(jìn)程創(chuàng)建、網(wǎng)絡(luò)連接等等。在溯源數(shù)據(jù)完整有效采集的情況下,通過溯源圖的后向追溯(backward-trace)和前向追溯(forward-trace),能夠有效彌補(bǔ)網(wǎng)絡(luò)側(cè)的數(shù)據(jù)盲點(diǎn),實(shí)現(xiàn)攻擊事件的溯源與取證。在已知威脅分析方面,主要涵蓋威脅模式匹配和事件重構(gòu)溯源兩方面主要工作。威脅模式匹配一般建模為圖上的子圖模式,需要解決圖數(shù)據(jù)建模、查詢子圖的生成及查詢優(yōu)化等多個(gè)子問題。在未知威脅分析方面,目前主要有策略啟發(fā)、頻率建模、機(jī)器學(xué)習(xí)等幾類方法。
圖13 基于溯源數(shù)據(jù)的行為知識圖譜[7-9]
威脅情報(bào)模式識別
通過知識圖譜技術(shù),能夠從多個(gè)方面全面實(shí)現(xiàn)分析能力增強(qiáng):針對突發(fā)性事件與常態(tài)化事件,情報(bào)關(guān)聯(lián)圖譜能夠洞察攻擊發(fā)展態(tài)勢,通過跨域攻擊行為識別,實(shí)現(xiàn)攻擊團(tuán)伙的快速定位,能夠提供明確的攻擊行為數(shù)據(jù)支持,可用于增強(qiáng)情報(bào)證據(jù)鏈,以及生產(chǎn)高質(zhì)量、高可信的團(tuán)伙威脅情報(bào)。能夠通過全局視角,觀測攻擊者、攻擊團(tuán)伙的跨域攻擊行為,觀測整體的行為模式演化。圖12給出了云端情報(bào)采樣數(shù)據(jù)中,部署在不同位置的監(jiān)測設(shè)備(紫色節(jié)點(diǎn))監(jiān)控下的攻擊者(源IP)的關(guān)聯(lián)圖譜??梢钥闯?,攻擊事件出現(xiàn)了較為明顯的團(tuán)簇現(xiàn)象。一方面,少量受害者站點(diǎn)受到大規(guī)模攻擊源的集中攻擊;另一方面,攻擊團(tuán)伙利用大規(guī)模攻擊基礎(chǔ)設(shè)施,對指定的受害者群體發(fā)起了大規(guī)模的掃描與攻擊行為。
圖14 Log4j2攻擊事件圖譜跨域行為觀測
五、 安全知識圖譜技術(shù)趨勢
可以預(yù)見,安全知識圖譜技術(shù)的發(fā)展,將全面提升網(wǎng)絡(luò)安全關(guān)鍵應(yīng)用場景下的知識推理技術(shù)水平,推動(dòng)安全智能從感知智能,向認(rèn)知智能和決策智能驅(qū)動(dòng)安全自動(dòng)化的演進(jìn)。當(dāng)然,當(dāng)前安全知識圖譜仍處于蓬勃發(fā)展階段,技術(shù)演進(jìn)仍需要諸多問題需要解決。在此,我們從關(guān)鍵問題著手,展望安全知識圖譜技術(shù)發(fā)展的關(guān)鍵趨勢。
圖15 安全知識圖譜技術(shù)發(fā)展趨勢
1) 知識獲取層面:大規(guī)模多源信息自動(dòng)化抽取與信息融合。網(wǎng)絡(luò)安全知識圖譜涵蓋了網(wǎng)絡(luò)與安全領(lǐng)域的核心概念原型與關(guān)聯(lián)結(jié)構(gòu),涉及跨數(shù)據(jù)、情報(bào)、知識多層次的信息資料。一方面,需要基于自然語言處理技術(shù)、知識工程技術(shù),實(shí)現(xiàn)更自動(dòng)化的實(shí)體、關(guān)系、屬性抽取方法,滿足信息抽取的高實(shí)時(shí)性、高覆蓋率、高容錯(cuò)性。另一方面,需要在質(zhì)量評估、語義對齊、信息壓縮等方面,提升數(shù)據(jù)信息的融合質(zhì)量,提出信息冗余、信息失效、信息歧義等問題給后續(xù)建模推理帶來的錯(cuò)誤引導(dǎo)。
2) 知識表示層面:異構(gòu)完備的知識統(tǒng)一表示。安全“大數(shù)據(jù)”不僅僅指數(shù)據(jù)規(guī)模龐大,還體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。包括文本類數(shù)據(jù)、時(shí)序數(shù)據(jù)、序列數(shù)據(jù)、圖數(shù)據(jù)、時(shí)序圖數(shù)據(jù)等等異構(gòu)信息,需要在安全知識圖譜中以統(tǒng)一、規(guī)范的表示形式進(jìn)行組織,并提供一致的表示形式。探索基于神經(jīng)網(wǎng)絡(luò)的圖表示學(xué)習(xí)方法,將時(shí)序維度與圖關(guān)聯(lián)維度進(jìn)行完整的建模,是實(shí)現(xiàn)異構(gòu)知識統(tǒng)一表示的關(guān)鍵方法之一。
3) 知識推理層面:魯棒、準(zhǔn)實(shí)時(shí)的因果推理。無論是攻擊與威脅的關(guān)聯(lián),還是資產(chǎn)數(shù)據(jù)風(fēng)險(xiǎn)的識別,網(wǎng)絡(luò)安全領(lǐng)域?qū)π袨?、事件、意圖的歸因與溯源技術(shù)效果有較高的質(zhì)量追求。因此,亟需探索具有精確信息流依賴能力的因果推理方法,以保證基于安全知識圖譜的推理結(jié)果過程的魯棒性,提升推理結(jié)果的準(zhǔn)確性與置信度水平。此外,在大規(guī)模知識圖譜上進(jìn)行知識推理,仍需通過圖分割技術(shù)、分布式學(xué)習(xí)技術(shù)等方式提升推理流程的并行度,以滿足安全領(lǐng)域諸多應(yīng)用場景的準(zhǔn)實(shí)時(shí)需求。
4) 知識遷移層面:跨場景知識遷移與人機(jī)智能融合?;诎踩R圖譜的應(yīng)用,具有多個(gè)細(xì)分領(lǐng)域,如威脅情報(bào)計(jì)算、安全運(yùn)營輔助、威脅動(dòng)態(tài)建模等等。在多個(gè)細(xì)分領(lǐng)域應(yīng)用中,將涉及不同范疇的知識本體與實(shí)例。可通過探索跨場景的知識遷移方法,將不同場景下的推理模式進(jìn)行推廣,實(shí)現(xiàn)推理分析能力的延展。此外,通過人機(jī)工程、推薦搜索等不同機(jī)制的人機(jī)協(xié)同方法,提供持續(xù)的人類知識經(jīng)驗(yàn)與機(jī)器知識數(shù)據(jù)的信息融合接口,能夠進(jìn)一步加速安全知識圖譜的的知識固化與知識拓展,提升相關(guān)應(yīng)用的動(dòng)態(tài)環(huán)境適應(yīng)性。
參考文獻(xiàn)
[1] Jajodia S, Noel S, Kalapa P, et al. Cauldron mission-centric cyber situational awareness with defense in depth[C]. MILCOM 2011 Military Communications Conference, 2011.
[2] Xu Z, Fang P, Liu C, et al. DEPCOMM: Graph Summarization on System Audit Logs for Attack Investigation[C]. IEEE Symposium on Security and Privacy (SP), San Francisco, CA, 2021: 22-26.
[3] The MITRE Corporation. MITRE ATT&CK Matrix for Enterprise[EB/OL]. https://attack.mitre.org/, 2020-10-27/2022-07-07.
[4] The MITRE Corporation. Common Attack Pattern Enumeration and Classification (CAPEC)[EB/OL]. https://capec.mitre.org/, 2021-02-25/2022-07-07.
[5] The MITRE Corporation.Common Weakness Enumeration (CWE)[EB/OL]. https://cwe.mitre.org/,
[6] 肖巖軍,王津,賴智全. 基于知識圖譜的APT組織追蹤治理. 綠盟科技研究通訊
[7] Milajerdi S, Gjomemo R, Eshete B, et al. HOLMES: Real-Time APT Detection through Correlation of Suspicious Information Flows[M]. 2019: 1137-1152.
[8] Hossain M N, Sheikhi S, Sekar R. Combating Dependence Explosion in Forensic Analysis Using Alternative Tag Propagation Semantics[C]. 2020 IEEE Symposium on Security and Privacy (SP), 2020: 1139-1155.[17] Pei K, Gu Z, Saltaformaggio B, et al.
[9] HERCULE: attack story reconstruction via community discovery on correlated log graph[C]. Proceedings of the 32nd Annual Conference on Computer Security Applications, 2016: 583–595.
聯(lián)系客服