一、前言
網(wǎng)絡(luò)空間是構(gòu)建在信息通信技術(shù)基礎(chǔ)設(shè)施之上的人造空間,用以支撐人們在該空間開展各類與信息通信技術(shù)相關(guān)的活動。網(wǎng)絡(luò)空間已經(jīng)成為繼陸、海、空、天之后的第五大活動空間,網(wǎng)絡(luò)空間安全是國家安全的重要組成部分,網(wǎng)絡(luò)空間頻頻發(fā)生的安全事件,已經(jīng)嚴重影響了社會穩(wěn)定和人民生命財產(chǎn)的安全,維護網(wǎng)絡(luò)空間安全已成為事關(guān)國家安全、國家主權(quán)和人民群眾合法權(quán)益的重大問題。
近年來,隨著大數(shù)據(jù)、云計算、人工智能等新型信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)空間安全領(lǐng)域的一些難題得到解決,但是新技術(shù)也逐步被不法分子利用,造成了網(wǎng)絡(luò)空間中新的安全問題與挑戰(zhàn)。以人工智能技術(shù)為例,人工智能技術(shù)既能用于提升網(wǎng)絡(luò)空間安全能力,也能引發(fā)新的安全問題,即人工智能的“賦能效應(yīng)”和“伴生效應(yīng)”[1]。
傳統(tǒng)網(wǎng)絡(luò)安全領(lǐng)域檢測網(wǎng)絡(luò)攻擊主要依靠規(guī)則、模式匹配等方式,從流量數(shù)據(jù)、日志數(shù)據(jù)中檢測符合一定規(guī)則和模式的數(shù)據(jù)。然而,隨著網(wǎng)絡(luò)安全數(shù)據(jù)量的飛速增長,基于規(guī)則、模式匹配的檢測方式效果差,很難發(fā)現(xiàn)復(fù)雜的攻擊事件 [2]。人工智能技術(shù)可以從大量的數(shù)據(jù)中自動學(xué)習(xí),挖掘數(shù)據(jù)中蘊含的規(guī)律,近年來已被用來解決網(wǎng)絡(luò)安全問題,例如,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室和創(chuàng)業(yè)公司 PatternEx 共同開發(fā)的 AI2 網(wǎng)絡(luò)安全入侵檢測平臺,可以準確預(yù)測 85% 以上的網(wǎng)絡(luò)攻擊 [3];為了有效檢測惡意 Powershell,通過將 Powershell 轉(zhuǎn)換為文本數(shù)據(jù),構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)大大提升了檢測率 [4]。
人工智能技術(shù)同樣可能被惡意利用,引發(fā)網(wǎng)絡(luò)空間中新的安全問題,即人工智能技術(shù)的伴生效應(yīng)。人工智能技術(shù)應(yīng)用于漏洞挖掘時,能發(fā)現(xiàn)系統(tǒng)中存在的多個漏洞,從而導(dǎo)致系統(tǒng)更容易被攻擊;人工智能應(yīng)用于大規(guī)模網(wǎng)絡(luò)攻擊時,攻擊者可以自適應(yīng)生成攻擊程序,通過大量的客戶端實現(xiàn)智能化、自動化的網(wǎng)絡(luò)攻擊;人工智能應(yīng)用于復(fù)雜的網(wǎng)絡(luò)攻擊時,攻擊者可以隱藏攻擊行為、攻擊路徑等,從而使得防御者更難發(fā)現(xiàn)和檢測此類攻擊;人工智能技術(shù)也可應(yīng)用于對網(wǎng)絡(luò)攻防的博弈,人工智能技術(shù)自身存在脆弱性,攻擊者可以攻擊部署在系統(tǒng)中的智能模型,造成防御模型失效;人工智能技術(shù)還可能被用來竊取用戶的重要數(shù)據(jù),通過對系統(tǒng)中各類數(shù)據(jù)的深度挖掘,關(guān)聯(lián)分析、還原出用戶的重要數(shù)據(jù),從而引發(fā)更為嚴重的安全問題。
網(wǎng)絡(luò)空間安全是一個攻防博弈的過程。當(dāng)新的安全問題出現(xiàn)時,防御者需要針對性地予以解決。人工智能時代,由于智能化的提升,網(wǎng)絡(luò)空間安全面臨著更加嚴峻的風(fēng)險與挑戰(zhàn),而人工智能技術(shù)也正是防御者維護網(wǎng)絡(luò)空間安全的武器。如何基于人工智能技術(shù)提升網(wǎng)絡(luò)空間安全的主動防御能力、應(yīng)對人工智能時代網(wǎng)絡(luò)空間安全的新風(fēng)險與新挑戰(zhàn)已成為一個十分迫切的問題。
本文在中國工程院“新一代人工智能安全與自主可控發(fā)展戰(zhàn)略研究”重大咨詢項目的支持下,分析了人工智能時代網(wǎng)絡(luò)空間安全面臨的風(fēng)險與挑戰(zhàn);介紹了人工智能技術(shù)的優(yōu)勢與特點,以及其如何應(yīng)用于網(wǎng)絡(luò)空間安全;同時介紹了基于人工智能的網(wǎng)絡(luò)空間安全防御關(guān)鍵問題及技術(shù);最后針對網(wǎng)絡(luò)空間防御提出了發(fā)展對策與建議。
二、人工智能時代網(wǎng)絡(luò)空間安全面臨的風(fēng)險與挑戰(zhàn)
(一)網(wǎng)絡(luò)攻擊越來越智能化
人工智能技術(shù)使得網(wǎng)絡(luò)漏洞更容易被挖掘,各種惡意軟件可以更便捷地生成和應(yīng)用,從而造成網(wǎng)絡(luò)空間面臨更嚴峻的安全威脅。
美國國家漏洞數(shù)據(jù)庫(NVD)、國家信息安全漏洞庫(CNNVD)等歷年來披露的漏洞越來越多,涵蓋的設(shè)備、軟件系統(tǒng)等也越來越多。人工智能技術(shù)的發(fā)展為漏洞的挖掘和利用提供了便利。模糊測試是一種自動化或半自動化的軟件測試技術(shù),構(gòu)造隨機、非預(yù)期的畸形數(shù)據(jù),測試并監(jiān)控程序執(zhí)行過程中可能產(chǎn)生的異常及漏洞的可利用性。此類模糊測試技術(shù)又可以分為白盒、黑盒、灰盒模糊測試等,能高效地挖掘和利用程序漏洞 [5]。漏洞自動利用一般而言包括信息提取、漏洞識別、路徑發(fā)現(xiàn)、狀態(tài)求解及代碼生成 [6],通過從可執(zhí)行文件、源碼等輸入數(shù)據(jù)中提取有用的信息,利用路徑發(fā)現(xiàn)與狀態(tài)求解獲取利用案例,并生成漏洞利用的程序或數(shù)據(jù),實現(xiàn)漏洞的自動化利用。
美國國防部高級研究計劃局(DARPA)于 2013 年發(fā)起全球性網(wǎng)絡(luò)安全挑戰(zhàn)賽,旨在推進自動化網(wǎng)絡(luò)防御技術(shù)的發(fā)展,即實時識別系統(tǒng)缺陷和漏洞,并能自動完成補丁和系統(tǒng)防御等。2016 年,美國在拉斯維加斯舉辦了信息安全界的頂級賽事 Defcon CTF [7],1 支名為 Mayhem 的機器奪旗賽(CTF)戰(zhàn)隊與另外 14 支人類頂尖的 CTF 戰(zhàn)隊進行角逐,機器戰(zhàn)隊一度超過兩支人類戰(zhàn)隊,開創(chuàng)了自動化攻防的新局面。自動化攻防是網(wǎng)絡(luò)空間安全面臨的新挑戰(zhàn),自動化的網(wǎng)絡(luò)攻擊手段將加劇網(wǎng)絡(luò)空間的安全威脅與挑戰(zhàn)。
(二)大規(guī)模網(wǎng)絡(luò)攻擊越來越頻繁
在人工智能時代,大規(guī)模的網(wǎng)絡(luò)攻擊越來越頻繁。大規(guī)模網(wǎng)絡(luò)攻擊的形式主要包括拒絕服務(wù)攻擊(DDoS)、域名解析服務(wù)器(DNS)劫持等。大規(guī)模網(wǎng)絡(luò)攻擊的目標也從傳統(tǒng)的網(wǎng)絡(luò)系統(tǒng),延伸到物聯(lián)網(wǎng)、工業(yè)設(shè)備、智能家居、無人駕駛系統(tǒng)等。
2016 年 10 月,美國多個公司的服務(wù)器遭到大規(guī)模分布式拒絕服務(wù)攻擊,據(jù)報道,此次攻擊涉及數(shù)百萬互聯(lián)網(wǎng)地址和惡意軟件的大規(guī)模攻擊,而這些攻擊的來源主要是被 Mirai 僵尸網(wǎng)絡(luò)感染的連網(wǎng)設(shè)備。近年來,此類大規(guī)模僵尸網(wǎng)絡(luò)驅(qū)動的分布式 DDoS 可以利用數(shù)以萬計的被感染的物聯(lián)網(wǎng)設(shè)備,通過這些設(shè)備向受害網(wǎng)站發(fā)送大量流量,實現(xiàn)攻擊。 2018 年,美國曾組織專家討論了針對無人駕駛汽車的攻擊,其中包括大規(guī)模網(wǎng)絡(luò)攻擊可能造成的危害,并建議提前進行規(guī)劃演練。人工智能技術(shù)還可生成可擴展攻擊的智能僵尸網(wǎng)絡(luò)。美國飛塔(Fortinet)公司在其發(fā)布的 2018 年全球威脅態(tài)勢預(yù)測 [8] 中表示,人工智能技術(shù)未來將被大量應(yīng)用在蜂群巢網(wǎng)絡(luò)(Hivenet)和機器人集群(Swarmbots)中,能夠利用大規(guī)?;ミB的設(shè)備或機器人集群同時識別和應(yīng)對不同的攻擊媒介,并利用自我學(xué)習(xí)能力實現(xiàn)前所未有的大規(guī)模自主攻擊。
人工智能技術(shù)使得網(wǎng)絡(luò)攻擊的成本越來越低,可利用的攻擊武器和資源越來越多,從而導(dǎo)致大規(guī)模的網(wǎng)絡(luò)攻擊越發(fā)頻繁。
(三)網(wǎng)絡(luò)攻擊的隱蔽性越來越高
傳統(tǒng)的網(wǎng)絡(luò)攻擊行為一般會在系統(tǒng)中留下痕跡,容易被追溯;攻擊行為的目標和意圖比較明確,容易被發(fā)現(xiàn)。人工智能時代,利用智能化技術(shù)可以對復(fù)雜的攻擊行為進行隱藏,如通過不同的終端設(shè)備實施攻擊,在不同的時間發(fā)動攻擊等。
傳統(tǒng)的惡意代碼、惡意程序在發(fā)布以后,這些代碼和程序的攻擊目標、攻擊意圖往往是確定的,作為網(wǎng)絡(luò)空間中的防御者,可以通過逆向工程、網(wǎng)絡(luò)監(jiān)聽等方式分析得知攻擊的目標和意圖。然而,在人工智能技術(shù)的助力下,惡意代碼、惡意程序可以通過內(nèi)嵌深度神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)在代碼開源的前提下,依然確保攻擊目標、攻擊意圖、高價值載荷三者的高度機密性,從而大幅度地提升了攻擊行為的隱蔽性。2018 年 8 月,國際商業(yè)機器公司(IBM)研究院在 Black Hat USA 2018 大會上展示了 AI-Powered Malware—DeepLocker [9],借助人工智能技術(shù)實現(xiàn)了目標識別精準性和攻擊載荷機密性,能有效對抗人工逆向分析。
高級持續(xù)性威脅(APT)攻擊是一種集合了多種攻擊方式的復(fù)雜攻擊。攻擊者往往會花很長時間對目標網(wǎng)絡(luò)進行觀察,針對性地搜集信息,并有針對性地發(fā)動攻擊。這些攻擊行為可以分布在很多設(shè)備上,不同攻擊行為之間也可能存在很大的時間間隔,結(jié)合人工智能技術(shù)可以對攻擊行為進行更好的設(shè)計和組合,從而躲避防御者的檢測,保持攻擊行為的高隱蔽性。
(四)網(wǎng)絡(luò)攻擊的對抗博弈越來越強
網(wǎng)絡(luò)空間安全是一個攻防博弈的過程。人工智能技術(shù)在處理海量、多源異構(gòu)數(shù)據(jù)方面具有巨大的優(yōu)勢,攻擊者會使用人工智能技術(shù)構(gòu)造規(guī)模更大、隱蔽性更強、后果更嚴重的攻擊,而防御者則會利用人工智能技術(shù)去提升網(wǎng)絡(luò)攻擊檢測的準確率,提高網(wǎng)絡(luò)攻擊檢測效率,降低網(wǎng)絡(luò)攻擊誤報率等。在這個過程中,人工智能技術(shù)促使網(wǎng)絡(luò)空間的攻防博弈程度愈演愈烈。
在惡意軟件識別方面,基于生成對抗網(wǎng)絡(luò)(GAN)的 MalGAN 算法可以使用一個替身檢測器來適配黑盒惡意軟件檢測系統(tǒng),該算法生成的惡意代碼能夠繞過基于機器學(xué)習(xí)的檢測系統(tǒng) [9]。類似的,為了躲避 PDF 惡意軟件檢測器,基于遺傳算法的對抗機器學(xué)習(xí)方法可以在保留自身惡意行為的前提下,繞過機器學(xué)習(xí)分類器的識別,讓惡意檢測器將其識別為良性樣本 [10]。
此外,由于人工智能技術(shù)自身存在脆弱性,例如,圖像識別神經(jīng)網(wǎng)絡(luò)容易被生成的和原樣本高度相似的對抗樣本迷惑,造成錯誤識別 [11];推薦系統(tǒng)容易被個別關(guān)鍵詞影響,造成推薦結(jié)果被人為干預(yù) [12]。當(dāng)缺乏解釋性的人工智能技術(shù)用于網(wǎng)絡(luò)攻擊或防御時,另一方則可利用模型自身的脆弱性發(fā)動防御或攻擊,引發(fā)新一輪的網(wǎng)絡(luò)攻防博弈。
(五)重要數(shù)據(jù)越來越容易被竊取或破壞
數(shù)據(jù)是一項重要的資源和資產(chǎn),大型企業(yè)特別是互聯(lián)網(wǎng)企業(yè)擁有著大量的用戶數(shù)據(jù),這些企業(yè)的系統(tǒng)一旦被攻擊,很容易造成大規(guī)模的數(shù)據(jù)被竊取或破壞。除了互聯(lián)網(wǎng)企業(yè),很多傳統(tǒng)企業(yè)也擁有重要的數(shù)據(jù),而傳統(tǒng)企業(yè)的安全意識不足,攻擊者更容易通過技術(shù)手段從中竊取用戶和企業(yè)的重要數(shù)據(jù)。人工智能技術(shù)則加劇了該情況的出現(xiàn),攻擊者利用人工智能技術(shù)能更加容易地竊取重要數(shù)據(jù),或者破壞企業(yè)的核心數(shù)據(jù)。
在數(shù)據(jù)發(fā)布過程中,用戶的數(shù)據(jù)很有可能由于匿名保護等程度不夠,攻擊者通過多種攻擊方式可以獲取到用戶的數(shù)據(jù),如偏斜攻擊等。成員推斷攻擊可以用于獲取訓(xùn)練數(shù)據(jù)集的關(guān)鍵信息,攻擊者可以判斷某條信息是否存在于目標模型的訓(xùn)練數(shù)據(jù)集中,從而實現(xiàn)針對重要數(shù)據(jù)的竊取。攻擊者通過訓(xùn)練出多個模仿目標模型的影子模型,利用影子模型的識別結(jié)果去判斷目標模型的訓(xùn)練集中是否包含某敏感數(shù)據(jù) [13]。類似的,模型倒推攻擊可以通過模型的輸出反推訓(xùn)練集中某條目標數(shù)據(jù)的部分或全部屬性值,攻擊者在僅獲得模型參數(shù)的情況下,就能夠使用基于生成對抗網(wǎng)絡(luò)的方式實現(xiàn)模型反演,重建出訓(xùn)練數(shù)據(jù),造成數(shù)據(jù)被竊取 [14]。
三、人工智能在網(wǎng)絡(luò)空間安全中應(yīng)用的優(yōu)勢與特點
人工智能發(fā)展迅速,隨著海量數(shù)據(jù)的積累、算法算力的大幅度提升,人工智能已成為目前最為熱門的研究方向之一。
人工智能主要包括三大學(xué)術(shù)流派:符號主義、連接主義、行為主義。其中符號主義是一種基于問題、邏輯和搜索的高級符號處理體系,通過將信息和行為抽象到基于符號規(guī)則的系統(tǒng)中,并利用計算機邏輯推理模擬人類的抽象思維,代表性的成果包括專家系統(tǒng)、知識圖譜 [15]、多維數(shù)據(jù)關(guān)聯(lián)與智能分析(MDATA)模型 [16] 等。連接主義采用基于網(wǎng)絡(luò)連接機制和學(xué)習(xí)算法進行建模,典型的成果包括感知機、深度神經(jīng)網(wǎng)絡(luò) [17] 等。行為主義則認為智能是通過對環(huán)境反饋的自主感知做出相應(yīng)的行為。
網(wǎng)絡(luò)空間安全相關(guān)的數(shù)據(jù)體量大、數(shù)據(jù)種類多、數(shù)據(jù)增長快,傳統(tǒng)的分析技術(shù)在處理此類數(shù)據(jù)時效率低、準確率低。人工智能在處理海量數(shù)據(jù)、多源數(shù)據(jù)、動態(tài)數(shù)據(jù)等方面具有顯著的優(yōu)勢,能助力于網(wǎng)絡(luò)空間安全,提升網(wǎng)絡(luò)防御能力。
(一)海量數(shù)據(jù)的快速處理能力
網(wǎng)絡(luò)空間安全相關(guān)的數(shù)據(jù)體量大,例如系統(tǒng)中保存的日志數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)等,處理如此海量的數(shù)據(jù)既需要龐大的算力支撐,也需要能處理如此海量數(shù)據(jù)的智能算法。由于人工智能技術(shù)能從海量數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的特征,根據(jù)特征再對數(shù)據(jù)進行分類、聚類等處理,能大幅度提升效率和準確度。
以惡意代碼檢測為例,可以通過提取惡意代碼的靜態(tài)特征和動態(tài)特征進行智能化檢測,其中靜態(tài)特征包括文件散列(Hash)、簽名特征、應(yīng)用程序編程接口(API)函數(shù)調(diào)用序列、字符串特征等,動態(tài)特征則包括中央處理器(CPU)利用率、內(nèi)存消耗、網(wǎng)絡(luò)行為特征、主機駐留行為等,通過自動化提取或者經(jīng)過特征工程提取的各類特征,可利用深度學(xué)習(xí)或機器學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)等,自動對可疑的惡意代碼進行判定?;谌斯ぶ悄芗夹g(shù)的惡意代碼檢測,相比靜態(tài)檢測、動態(tài)檢測、啟發(fā)式檢測和虛擬機檢測等技術(shù),能大幅度提升檢測效率,并提高檢測的準確率。
(二)多源異構(gòu)數(shù)據(jù)的高效關(guān)聯(lián)能力
網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù)種類繁多、來源廣泛,如通過傳感器、網(wǎng)絡(luò)爬蟲、日志收集系統(tǒng)等能采集到不同類型的數(shù)據(jù),從來源上數(shù)據(jù)類型可以分為環(huán)境業(yè)務(wù)數(shù)據(jù)、網(wǎng)絡(luò)層數(shù)據(jù)、日志層數(shù)據(jù)、告警數(shù)據(jù)等類別,綜合不同來源的異構(gòu)數(shù)據(jù)進行綜合分析能提升網(wǎng)絡(luò)空間主動防御能力。
以網(wǎng)絡(luò)安全態(tài)勢感知為例,防御者需要對網(wǎng)絡(luò)系統(tǒng)的資產(chǎn)狀態(tài)進行全方位的掌握,因此需要獲取各種來源的信息,包括資產(chǎn)信息、漏洞信息、攻擊行為信息等,而這些信息往往又是通過流量數(shù)據(jù)、日志數(shù)據(jù)等不同數(shù)據(jù)進行綜合分析得到的結(jié)果。 MDATA 模型有助于實現(xiàn)全方位的網(wǎng)絡(luò)安全態(tài)勢感知 [16]。該模型構(gòu)建了不同類型的網(wǎng)絡(luò)安全知識庫,包括資產(chǎn)知識庫、漏洞知識庫、威脅知識庫,其中資產(chǎn)知識庫主要包括系統(tǒng)中的各類軟硬件資產(chǎn)及運行狀態(tài)信息等,漏洞知識庫包括各種類型的漏洞,威脅知識庫包括針對系統(tǒng)的各類攻擊行為,資產(chǎn)知識庫和漏洞知識庫進行關(guān)聯(lián),可及時發(fā)現(xiàn)系統(tǒng)中的漏洞;漏洞知識庫和威脅知識庫關(guān)聯(lián),可發(fā)現(xiàn)攻擊路徑、攻擊方法等,及時制定相應(yīng)的防御策略;資產(chǎn)知識庫和威脅知識庫關(guān)聯(lián),可發(fā)現(xiàn)攻擊者的攻擊目標等,增加資產(chǎn)的保護力度等。基于人工智能技術(shù)的網(wǎng)絡(luò)安全態(tài)勢感知有助于實現(xiàn)網(wǎng)絡(luò)空間主動防御,大幅度提升網(wǎng)絡(luò)系統(tǒng)防御能力。
(三)動態(tài)數(shù)據(jù)的實時在線處理能力
網(wǎng)絡(luò)空間安全相關(guān)的數(shù)據(jù)增長速度快,時效性要求高。從數(shù)據(jù)增長速度上來看,每天都會產(chǎn)生很多新的流量數(shù)據(jù)、日志數(shù)據(jù)、告警數(shù)據(jù)等,如何對這些新產(chǎn)生的動態(tài)數(shù)據(jù)進行分析是一個十分迫切的需求;此外,網(wǎng)絡(luò)攻擊事件的時效性要求很高,實時根據(jù)動態(tài)數(shù)據(jù)檢測出潛在的網(wǎng)絡(luò)安全事件,也是網(wǎng)絡(luò)空間主動防御的難題。
專家系統(tǒng)可以用于提供專業(yè)的網(wǎng)絡(luò)安全知識,并且可以根據(jù)歷史網(wǎng)絡(luò)安全事件總結(jié)出網(wǎng)絡(luò)攻擊規(guī)律,從而能有效地檢測出正在發(fā)生的某些網(wǎng)絡(luò)攻擊。然而,專家系統(tǒng)的缺陷在于專家知識更新慢,利用專家系統(tǒng)能快速檢測已知的網(wǎng)絡(luò)攻擊,但是對于未知的網(wǎng)絡(luò)攻擊事件,專家系統(tǒng)的知識往往由于更新不及時,導(dǎo)致系統(tǒng)無法正確檢測。
此時,需要結(jié)合人工智能技術(shù)賦予的預(yù)測能力,對動態(tài)的數(shù)據(jù)設(shè)計在線算法,能夠結(jié)合已有的網(wǎng)絡(luò)安全知識和實時的數(shù)據(jù)判斷當(dāng)前的潛在網(wǎng)絡(luò)攻擊;根據(jù)已經(jīng)發(fā)生的攻擊事件和歷史數(shù)據(jù),建立攻擊預(yù)測模型,預(yù)測未來可能發(fā)生的攻擊行為,通過人工智能技術(shù)增強系統(tǒng)的預(yù)測能力,提供動態(tài)防御能力,提升網(wǎng)絡(luò)安全事件的快速響應(yīng)能力。
四、基于人工智能的網(wǎng)絡(luò)空間安全防御關(guān)鍵技術(shù)
基于人工智能技術(shù)提升網(wǎng)絡(luò)空間安全防御能力,需要解決從原始海量數(shù)據(jù)到有效知識的整合,人工智能技術(shù)可以通過高效的知識表示,構(gòu)建網(wǎng)絡(luò)安全知識大腦,助力實現(xiàn)網(wǎng)絡(luò)安全知識綜合利用和主動防御。
在已有的研究工作中,知識圖譜 [15] 是一種高效的知識表示模型,雖然其在一定程度上解決了數(shù)據(jù)到知識的表示難題,但是知識圖譜表示方法面臨著時空特性無法有效表示、多領(lǐng)域知識統(tǒng)一表示困難等難題。MDATA 模型 [16] 通過對知識引入時間特性和空間特性,能有效解決時空特性的表示,以及支持不同領(lǐng)域、不同維度的安全知識的關(guān)聯(lián)和融合,可用于構(gòu)建大規(guī)模動態(tài)網(wǎng)絡(luò)安全知識大腦。
基于人工智能技術(shù)構(gòu)建大規(guī)模動態(tài)網(wǎng)絡(luò)安全知識大腦,實現(xiàn)網(wǎng)絡(luò)空間安全防御的關(guān)鍵技術(shù)主要包括網(wǎng)絡(luò)安全知識的抽取和融合、網(wǎng)絡(luò)安全知識表示、網(wǎng)絡(luò)安全知識大腦構(gòu)建、基于網(wǎng)絡(luò)安全知識大腦的攻擊事件研判等。
(一)網(wǎng)絡(luò)安全知識的抽取和融合
網(wǎng)絡(luò)安全知識的來源廣泛,包括漏洞庫、病毒庫、告警數(shù)據(jù)、安全廠商的檢測結(jié)果、安全論壇、網(wǎng)絡(luò)安全事件報告資產(chǎn)描述等,為構(gòu)建大規(guī)模的網(wǎng)絡(luò)安全知識大腦,需要首先從不同來源的網(wǎng)絡(luò)安全數(shù)據(jù)中抽取知識,并對不同領(lǐng)域的網(wǎng)絡(luò)安全知識進行有效融合。
網(wǎng)絡(luò)安全數(shù)據(jù)主要以文本數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等類型為主,可以采用人工智能技術(shù)對數(shù)據(jù)進行抽取。例如,可以使用 word2vec 技術(shù)將文本中的單詞轉(zhuǎn)換為向量,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN),BiLSTM,條件隨機場算法(CRF)等技術(shù)進行實體和關(guān)系識別,同時按照網(wǎng)絡(luò)安全知識的類型進行分類,并將分類以后的實體和關(guān)系添加到對應(yīng)網(wǎng)絡(luò)安全知識的實例中進行保存。
由于網(wǎng)絡(luò)安全中用于訓(xùn)練的預(yù)料數(shù)據(jù)有限,可能無法覆蓋所有的網(wǎng)絡(luò)安全知識,因此需要根據(jù)已有的網(wǎng)絡(luò)安全知識進行推理,生成新的知識。例如,已有的網(wǎng)絡(luò)安全知識中包括某漏洞 A 的基本信息,包括受影響設(shè)備、軟件、漏洞危險程度等,同時已知某資產(chǎn) B 包含了對應(yīng)的軟件,并且未安裝對應(yīng)補丁,便可推理出資產(chǎn) B 存在漏洞 A 的新知識。此類知識推理的方法主要包括兩種,一種是自定義推理規(guī)則,根據(jù)預(yù)先制定的規(guī)則進行知識推理和演繹;第二種是采用智能化技術(shù),根據(jù)已有的知識進行概率推理,計算新知識存在的概率。第一種方法需要人為地定義推理規(guī)則,可擴展性較差;第二種方法使用深度神經(jīng)網(wǎng)絡(luò)進行計算新知識存在的概率,可擴展性強,但是可解釋性較第一種方法差一些。
不同數(shù)據(jù)源抽取得到的網(wǎng)絡(luò)安全知識可能會有不同的描述方式,例如很多廠商都研發(fā)了入侵檢測系統(tǒng)(IDS),不同 IDS 系統(tǒng)返回的告警數(shù)據(jù)格式并不完全一致,抽取得到的入侵檢測知識的描述也不一致,因此需要對網(wǎng)絡(luò)安全知識進行有效融合。常用的融合方法包括實體對齊、基于知識表示的消歧等,基本思想是將不同的網(wǎng)絡(luò)安全知識庫按照實體和關(guān)系的統(tǒng)一描述進行融合。
(二)網(wǎng)絡(luò)安全知識表示
常用的知識表示模型包括符號邏輯、語義網(wǎng)、專家系統(tǒng)、知識圖譜、MDATA 模型等,通過知識表示可以將網(wǎng)絡(luò)安全中不同類型的知識描述為統(tǒng)一的形式,并可通過知識的向量化進行高效計算。
知識圖譜主要采用“< 實體,關(guān)系,實體 >”這種三元組形式對具體的知識進行表示,例如“”表示 Linux kernel 漏洞會導(dǎo)致 DDoS 攻擊;“< Linux kernel 5.1.13,存在,Linux kernel 漏洞 >”表示 Linux kernel 5.1.13 的版本存在該漏洞。知識圖譜能有效描述網(wǎng)絡(luò)安全知識,但是當(dāng)知識動態(tài)變化時,對應(yīng)的三元組及相關(guān)聯(lián)的知識很難及時更新。
MDATA 模型對實體之間的關(guān)系、屬性的時空特性進行表達,從而有效表示網(wǎng)絡(luò)安全知識的動態(tài)變化情況。具體而言,在關(guān)系和實體屬性上增加了時間和空間特性,如某系統(tǒng)存在漏洞的知識,添加存在漏洞的時間區(qū)間,從而能更詳細地表示系統(tǒng)的實際安全情況。網(wǎng)絡(luò)攻擊可能通過不同的 IP(網(wǎng)絡(luò)之間互連的協(xié)議)地址等,攻擊事件中的 IP 地址等特性則作為網(wǎng)絡(luò)安全知識中的空間特性。MDATA 模型通過對時間、空間特性的描述,可以表示出網(wǎng)絡(luò)安全知識的動態(tài)變化過程。
(三)網(wǎng)絡(luò)安全知識大腦構(gòu)建
網(wǎng)絡(luò)安全知識大腦的構(gòu)建包括兩部分:網(wǎng)絡(luò)安全知識庫(SeKG)和場景知識庫(ScKG)。其中,網(wǎng)絡(luò)安全知識庫是通用的網(wǎng)絡(luò)安全知識的集合,并且可以隨時或定期更新補充;而場景知識庫是特定知識的集合,可以依據(jù)仿真攻擊的設(shè)定而定,也是描述具體攻擊行為的知識庫。
網(wǎng)絡(luò)安全知識庫和場景知識庫可以根據(jù)概念、實例、關(guān)系、屬性、規(guī)則的五元組模型進行構(gòu)建 [18]。其中,概念是抽象本體的集合,如操作系統(tǒng)、軟件、攻擊等;實例是具體例子的集合,如 Windows 7,Adobe Reader,DDoS 等;關(guān)系表示實例之間存在的關(guān)系,如 subClassOf,instanceOf,is a (ISA) 等;屬性包括實例屬性值的集合;規(guī)則用來推演新的屬性值和新的關(guān)系。
構(gòu)建網(wǎng)絡(luò)安全知識大腦用到的概念主要有漏洞、資產(chǎn)、軟件、操作系統(tǒng)和攻擊等。其中,漏洞信息來源于漏洞庫,每一個漏洞都有唯一的身份標識號(ID)和類別標識。資產(chǎn)則包括軟件和操作系統(tǒng)等,軟件和操作系統(tǒng)主要涵蓋當(dāng)前市面上使用的所有版本。攻擊主要是針對利用漏洞的攻擊,攻擊的信息也主要是來源于漏洞庫,因為漏洞庫里對漏洞的描述會包含很多詳細的信息,包括漏洞會導(dǎo)致哪些攻擊發(fā)生等。
(四)基于網(wǎng)絡(luò)安全知識大腦的攻擊事件研判
網(wǎng)絡(luò)空間防御面臨的主要威脅是網(wǎng)絡(luò)攻擊,一般而言網(wǎng)絡(luò)攻擊可以分為單步攻擊和復(fù)合攻擊。單步攻擊可以理解為針對某資產(chǎn)發(fā)動的離散的攻擊,而復(fù)合攻擊可以理解為是有多個單步攻擊排列組合而成的,也就是說復(fù)合攻擊有多個攻擊步驟,而這些攻擊步驟之間是有關(guān)系的,不是離散的、無關(guān)聯(lián)的,攻擊步驟之間有因果關(guān)系、順承關(guān)系、選擇關(guān)系等。
單步攻擊的研判相對而言簡單,已有的基于規(guī)則、特征的檢測方法能取得很高的成功率。而復(fù)合攻擊的檢測難度大,典型的復(fù)合攻擊包括 APT 攻擊等。復(fù)合攻擊通常是以攻擊鏈的形式發(fā)生的,可以看作是多個單步攻擊的排列組合。不同的操作系統(tǒng)上會安裝不同的應(yīng)用軟件,不同的應(yīng)用軟件會有不同的漏洞,也會感染不同的木馬,而這些木馬和漏洞會導(dǎo)致相同或不同的單步攻擊,此外,一些操作行為(網(wǎng)絡(luò)、注冊表、進程和文件)也會導(dǎo)致相同或不同的單步攻擊,入侵檢測系統(tǒng)會產(chǎn)生安全事件,這些安全事件就是一個單步攻擊,而每一個單步攻擊都屬于攻擊鏈中的某一類,所有的單步攻擊根據(jù)產(chǎn)生的效果進行排列組合就形成了不同的復(fù)合攻擊,而排列組合的和攻擊鏈中的時序、依賴關(guān)系等高度相關(guān)。
使用網(wǎng)絡(luò)安全知識大腦研判網(wǎng)絡(luò)攻擊時,可利用有限狀態(tài)機 [19],設(shè)置初始狀態(tài)、中間狀態(tài)、終止?fàn)顟B(tài)和觸發(fā)條件,并添加容錯機制,可以在缺失數(shù)據(jù)的時候仍然生成復(fù)合攻擊的攻擊鏈,在網(wǎng)絡(luò)安全知識庫和場景知識庫的基礎(chǔ)上,描述復(fù)合攻擊的各個步驟之間的關(guān)系,然后根據(jù)攻擊步驟的關(guān)系、時間先后關(guān)系、IP 的傳播關(guān)系等來判斷是否可以生成攻擊鏈。如果滿足,則輸出復(fù)合攻擊的攻擊鏈,如果不滿足,就去知識庫中查找等價的步驟,或補充生成攻擊鏈并輸出。當(dāng)輸入的數(shù)據(jù)中存在誤報和漏報的情況時,基于網(wǎng)絡(luò)安全知識大腦的研判可以自動補全缺失的信息,生成一條完整的攻擊鏈,從而提高攻擊研判的準確率,為網(wǎng)絡(luò)安全主動防御提供支撐。
五、發(fā)展對策與建議
隨著人工智能時代的到來,網(wǎng)絡(luò)空間安全面臨著很多新風(fēng)險和新挑戰(zhàn)。將人工智能技術(shù)應(yīng)用在網(wǎng)絡(luò)安全防御中,可以大幅度提升網(wǎng)絡(luò)空間防御能力。具體發(fā)展對策與建議如下。
(一)構(gòu)建動態(tài)可擴展的網(wǎng)絡(luò)安全知識大腦
充分利用人工智能技術(shù)在處理海量數(shù)據(jù)、多源異構(gòu)數(shù)據(jù)、實時動態(tài)數(shù)據(jù)等方面的顯著優(yōu)勢,構(gòu)建動態(tài)可擴展的網(wǎng)絡(luò)安全知識大腦,提升網(wǎng)絡(luò)空間防御能力。具體而言,針對網(wǎng)絡(luò)安全知識描述中多實體、弱關(guān)系、時空復(fù)雜性和多來源等特點,對于結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),基于 MDATA 知識表示模型、網(wǎng)絡(luò)安全知識語料庫中的特定表達和網(wǎng)絡(luò)安全知識之間特有的邏輯關(guān)系和對應(yīng)關(guān)系,構(gòu)建相應(yīng)的網(wǎng)絡(luò)安全本體模型,實現(xiàn)多領(lǐng)域知識的統(tǒng)一表示,相較于傳統(tǒng)的知識圖譜等知識表示模型,可提升融合效率和多領(lǐng)域動態(tài)知識統(tǒng)一表示的準確率。
在此基礎(chǔ)上,針對半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)知識抽取難的問題,基于構(gòu)建的本體模型,結(jié)合雙向循環(huán)神經(jīng)網(wǎng)絡(luò)和條件隨機場等深度學(xué)習(xí)方法,進行特征抽取、聯(lián)合標記、類別標記等。對于未被識別出的本體進行人工抽取,從而確保基于本體模型生成的三元組知識在邏輯上是正確的,實現(xiàn)動態(tài)可擴展的網(wǎng)絡(luò)安全知識大腦,為網(wǎng)絡(luò)安全防御提供強大的具有自學(xué)習(xí)能力的知識庫支撐。
(二)推動有效網(wǎng)絡(luò)攻擊的智能化檢測
針對網(wǎng)絡(luò)攻擊越來越智能化,大規(guī)模網(wǎng)絡(luò)攻擊越來越頻繁,網(wǎng)絡(luò)攻擊的隱蔽性越來越高的特點,遵循網(wǎng)絡(luò)攻擊的基本規(guī)律,基于構(gòu)建的網(wǎng)絡(luò)安全知識庫,實現(xiàn)復(fù)雜網(wǎng)絡(luò)攻擊的智能化檢測算法??蓪⒕W(wǎng)絡(luò)安全事件和攻擊的基本信息存儲于安全知識圖譜中,通過采集數(shù)據(jù)與安全知識圖譜進行匹配,根據(jù)狀態(tài)的觸發(fā)約束,可分析得到網(wǎng)絡(luò)系統(tǒng)中的單步攻擊和復(fù)合攻擊。
一般而言,檢測復(fù)合攻擊時可以分析出攻擊的當(dāng)前階段,無法確保輸出完整攻擊鏈,因此可進一步基于攻擊規(guī)則庫的復(fù)合攻擊研判技術(shù),將先驗知識存入網(wǎng)絡(luò)安全知識圖譜和復(fù)合攻擊規(guī)則庫,基于大數(shù)據(jù)分析平臺,通過采集數(shù)據(jù)與安全知識圖譜進行匹配,再經(jīng)過時空屬性和復(fù)合攻擊規(guī)則庫的共同約束,從海量的數(shù)據(jù)中挖掘出有效的攻擊鏈,并完善復(fù)合攻擊的攻擊鏈,實現(xiàn)自動化分析攻擊目的和意圖等。針對傳統(tǒng)方法無法應(yīng)對輸入的數(shù)據(jù)中誤報和漏報的情況,可以基于多模態(tài)數(shù)據(jù)的復(fù)合攻擊研判,當(dāng)輸入的數(shù)據(jù)中存在誤報和漏報的情況時,可以自動補全缺失的信息,并計算生成不同攻擊鏈的概率,消除誤報和漏報的影響。進一步,可通過網(wǎng)絡(luò)仿真平臺對攻擊事件進行仿真,將分析結(jié)果與仿真攻擊的信息進行對比,實現(xiàn)對有效網(wǎng)絡(luò)攻擊的智能研判。
(三)評估人工智能技術(shù)的安全性,推動人工智能技術(shù)的良性應(yīng)用
目前人工智能技術(shù)還不能完全脫離人而存在,人的引導(dǎo)至關(guān)重要。在制定人工智能的發(fā)展路線的同時應(yīng)該要緊盯風(fēng)險防御,加強對潛在風(fēng)險的預(yù)判和研究,注重系統(tǒng)安全防御技術(shù)的發(fā)展,明確防御發(fā)展策略。不能盲目地將人工智能作為一項“百利而無一害”的技術(shù)進行使用,在進行頂層設(shè)計的同時考慮風(fēng)險管理,對人工智能技術(shù)的安全性進行有效評估,為人工智能乃至系統(tǒng)防御技術(shù)提供有效規(guī)范的引領(lǐng)作用。
同時,應(yīng)加強人工智能風(fēng)險管理。人工智能自身存在的漏洞和人工智能技術(shù)的濫用是系統(tǒng)安全防御中很難避免的環(huán)節(jié)。自身存在的安全風(fēng)險屬于最致命的問題,應(yīng)用越廣泛,其帶來的危害性也越大。系統(tǒng)安全防御技術(shù)要從人工智能技術(shù)自身入手,構(gòu)建主動免疫的計算構(gòu)架,盡可能地降低技術(shù)自身的漏洞危害,不斷創(chuàng)新保持技術(shù)優(yōu)勢。
六、結(jié)語
人工智能既能用來提升網(wǎng)絡(luò)空間安全,又會帶來新的風(fēng)險與挑戰(zhàn)?;谌斯ぶ悄芗夹g(shù)提升網(wǎng)絡(luò)空間主動防御能力,是保障網(wǎng)絡(luò)空間安全的重要途徑。為此,需加強人工智能用于網(wǎng)絡(luò)空間安全防御關(guān)鍵技術(shù)的研究,構(gòu)建大規(guī)模動態(tài)網(wǎng)絡(luò)安全知識大腦,推動有效網(wǎng)絡(luò)攻擊的智能化檢測,加快評估人工智能技術(shù)的安全性,推動人工智能技術(shù)在網(wǎng)絡(luò)空間領(lǐng)域的良性發(fā)展與應(yīng)用,全面提升我國網(wǎng)絡(luò)空間安全保障能力。
聯(lián)系客服