亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于攻擊上下文分析的多階段攻擊趨勢預(yù)測

2023-07-21 07:50:18朱光明盧梓杰馮家偉張向東張鋒軍牛作元

計算機技術(shù)與發(fā)展 2023年7期

關(guān)鍵詞：檢測模型

朱光明,盧梓杰,馮家偉,張向東,張鋒軍,牛作元,張亮

(1.西安電子科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,陜西西安 710071;2.西安電子科技大學(xué) 通信工程學(xué)院,陜西西安 710071;3.中國電子科技集團公司第三十研究所,四川成都 610041)

0 引言

與以影響或癱瘓目標(biāo)系統(tǒng)為目標(biāo)的網(wǎng)絡(luò)攻擊不同,高級可持續(xù)威脅(Advanced Persistent Threat,APT)攻擊具有非常強的隱蔽性和持續(xù)性[1],一般是由專業(yè)組織發(fā)起,長期綜合運用多種攻擊手段對特定目標(biāo)進行滲透,主要目的是獲取目標(biāo)的關(guān)鍵信息[2]。根據(jù)網(wǎng)絡(luò)殺傷鏈模型(Cyber Kill Chain,CKC),APT多階段網(wǎng)絡(luò)攻擊可分為7個步驟:偵察、武器化、投遞、漏洞利用、安裝、指揮和控制、目標(biāo)行動[3]。對標(biāo)CKC模型,MITRE ATT&CK[4]模型根據(jù)真實的觀察數(shù)據(jù)來描述和分類對抗行為,總結(jié)出了常用的14種戰(zhàn)術(shù)和200多種技術(shù)。傳統(tǒng)的攻擊防御系統(tǒng),如入侵檢測系統(tǒng)(Intrusion Detection System,IDS)、入侵防御系統(tǒng)(Intrusion Prevention System,IPS)、高級安全設(shè)備(Advanced Security Appliances,ASA)等[5-6],無法有效發(fā)現(xiàn)隱蔽的APT攻擊,難以對后續(xù)的攻擊做出預(yù)測及防御。網(wǎng)絡(luò)流和系統(tǒng)日志雖然可以記錄APT攻擊過程,但是APT攻擊的隱蔽性和持續(xù)性決定了無法依靠單步攻擊檢測來發(fā)現(xiàn)整個攻擊過程。隨著網(wǎng)絡(luò)規(guī)模的日益增長,網(wǎng)絡(luò)流和系統(tǒng)日志數(shù)量也與日俱增,迫切需要把機器學(xué)習(xí)方法運用到網(wǎng)絡(luò)安全領(lǐng)域,實現(xiàn)對網(wǎng)絡(luò)攻擊過程的自動檢測。

基于機器學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測算法研究需要相應(yīng)的數(shù)據(jù)集來支撐。在網(wǎng)絡(luò)流數(shù)據(jù)集方面,相繼有UNSW-NB15[7]、NSL-KDD[8]、CICIDS2017[9]、CICIDS2018[10]、DAPT2020[11]等數(shù)據(jù)集被提出并開源。目前基于網(wǎng)絡(luò)流量的異常檢測主要聚焦于單步攻擊檢測,無法捕獲多階段攻擊的長期行為。劉景美等人[12]提出了基于自適應(yīng)分箱特征選擇的快速網(wǎng)絡(luò)入侵檢測算法,主要解決傳統(tǒng)入侵檢測系統(tǒng)查全率較低以及基于深度學(xué)習(xí)的入侵檢測的訓(xùn)練用時過長的問題,在NSL-KDD數(shù)據(jù)集上進行了驗證。Myneni等人[11]在DAPT2020數(shù)據(jù)集上使用編碼-解碼模型訓(xùn)練重建良性網(wǎng)絡(luò)流數(shù)據(jù),重建誤差過大的數(shù)據(jù)被判定為異常數(shù)據(jù)。這種方法單獨對每個網(wǎng)絡(luò)流包進行檢測,忽略了多階段攻擊的上下文關(guān)系,導(dǎo)致異常的準(zhǔn)確率和查全率低。Allard[13]在DAPT2020論文模型方法的基礎(chǔ)上引入了有效載荷,但還是無法有效解決這個弊端,在橫向移動階段檢測性能依舊較差。針對當(dāng)前研究對APT攻擊多階段流量特征的多樣性感知不足的問題,謝麗霞等人[14]提出一種基于樣本特征強化的APT攻擊多階段檢測方法,引入多階段感知注意力機制,提高了APT攻擊多階段檢測的精度。

與網(wǎng)絡(luò)流相比,系統(tǒng)日志可以更加詳盡地記錄APT攻擊在主機上的執(zhí)行過程。在基于系統(tǒng)日志分析的攻擊檢測方面,通過系統(tǒng)日志數(shù)據(jù)構(gòu)建抽象表達(dá)能力強的溯源圖并分析因果關(guān)系,可以有效表達(dá)威脅事件的起因、攻擊路徑和攻擊影響,為威脅發(fā)現(xiàn)和取證分析提供更高的檢測效率和性能[15]。自然語言處理技術(shù)在系統(tǒng)日志文本分析方面也發(fā)揮重要作用[16-17]。ATLAS[18]是一種用于重建攻擊故事的框架,利用自然語言處理技術(shù)和基于序列的模型學(xué)習(xí)技術(shù)從審計日志中恢復(fù)攻擊步驟。LogAnomaly[19]是一個數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)框架,用于非結(jié)構(gòu)化日志流的異常檢測,日志解析中用到了Word2Vec[20]方法來構(gòu)成日志序列,利用LSTM(Long Short-Term Memory)模型來預(yù)測日志是否異常。LogBERT[21]是一種基于BERT(Bidirectional Encoder Representation from Transformers)[22]的日志異常檢測方法,通過兩個自監(jiān)督訓(xùn)練任務(wù)學(xué)習(xí)正常日志序列的模式,能夠檢測出底層模式偏離正常日志序列的異常。DeepLog[23]是一種基于LSTM的深度神經(jīng)網(wǎng)絡(luò)模型,把日志信息建模成自然語言序列來處理,自動提煉正常的日志序列進行訓(xùn)練;當(dāng)日志序列偏離訓(xùn)練的模型時,可以檢測出異常。Li 等人[24]提出了DeepAG,能夠同時檢測APT序列和利用日志語義向量和索引來定位序列中的攻擊階段,并根據(jù)上述日志索引構(gòu)建攻擊圖。

上述方法都利用了日志的語義向量序列,并基于深度學(xué)習(xí)框架進行攻擊檢測;可以定位日志序列中的異常點,但并沒有提出如何預(yù)測攻擊者下一步的攻擊行為。盡管這些方法能做到實時監(jiān)測日志,但是它們不能從現(xiàn)有攻擊序列對后續(xù)一步或多步的可能的攻擊進行預(yù)測。APT攻擊的檢測與預(yù)測不是獨立的兩個方向,它們是高度聯(lián)系、相輔相成的。該文結(jié)合上述日志分析中因果溯源圖和自然語言處理的方法,在ATLAS日志數(shù)據(jù)集上構(gòu)建因果圖,根據(jù)惡意標(biāo)簽的節(jié)點提取完整的攻擊序列,提出基于攻擊上下文分析的多階段攻擊預(yù)測算法。該文的貢獻(xiàn)可以概括為以下幾點:

(1)提出了對攻擊者行為進行多階段預(yù)測的概念,挖掘攻擊序列之間的非線性依賴關(guān)系;

(2)通過構(gòu)建因果圖來提取具有上下文關(guān)系的異常日志序列,避免了正常日志對預(yù)測結(jié)果的影響;

(3)利用Transformer模型,將日志分析并進行攻擊預(yù)測的任務(wù)轉(zhuǎn)化成文本分類的處理方式,并在開源數(shù)據(jù)集上進行了驗證。

1 算法流程

1.1 算法基本框架

基于攻擊上下文分析的多階段攻擊預(yù)測算法的基本框架如圖1所示,包含五個主要階段:

圖1 多階段攻擊預(yù)測算法流程框架

階段1:利用日志數(shù)據(jù)構(gòu)建因果圖;

階段2:以已知惡意節(jié)點為線索,提取異常日志序列;

階段3:將提取的異常日志序列進行抽象化文本表示,進一步解析成日志索引;

階段4:用Transformer模型訓(xùn)練日志向量數(shù)據(jù);

階段5:用訓(xùn)練好的模型進行多階段攻擊預(yù)測。

1.2 因果圖構(gòu)建

因果圖[25-26](Causal Graph)常用于溯源追蹤,表征數(shù)據(jù)之間的因果關(guān)系或者依賴關(guān)系。該文從系統(tǒng)日志中提取數(shù)據(jù)來構(gòu)建因果圖,表征了主體(例如進程)和對象(例如文件或連接)之間的因果關(guān)系。在因果圖中,以主體和對象作為圖中的節(jié)點,以主體對對象的動作(例如讀、寫)來生成有向邊。

因果圖中的節(jié)點代表從系統(tǒng)日志中提取的具有唯一ID的系統(tǒng)主體或?qū)ο?比如進程名、文件名、IP地址、域名和會話等。邊從主體指向?qū)ο?連接兩個節(jié)點,表示主體對對象執(zhí)行的動作。因果中每兩個節(jié)點和邊的組合對應(yīng)了一個日志項。將日志中的數(shù)據(jù)按照上述原則生成節(jié)點和邊,可以構(gòu)建一個復(fù)雜的因果圖。圖2展示了一個因果圖示例,其中灰色節(jié)點表示一個已知的攻擊節(jié)點。

圖2 因果圖示例

1.3 異常日志序列提取

在ATLAS數(shù)據(jù)集中,異常的節(jié)點都被打上了惡意標(biāo)簽。該文圍繞這些惡意節(jié)點提取出異常日志序列,具體分為三個步驟:

第一步:提取鄰域圖。在因果圖中,通過邊相連的兩個節(jié)點稱為鄰居。提取一個或多個節(jié)點的鄰域圖,只需把它們所有的鄰居和相連的邊提取出來。

第二步:從鄰域圖中分離出事件。一個事件被組織成一個四元組<源節(jié)點,目的節(jié)點,動作,時間戳>。比如cmd.exe在時間t打開了文件flag.txt,事件表示為四元組。把鄰域圖中的每一個四元組分離出來,每個事件實際上對應(yīng)了一條日志項。

第三步,按時間戳對事件進行排序。以已知的單個或多個惡意節(jié)點的組合作為中心,提取鄰域圖,再從鄰域圖中提取出事件,最后把事件按照時間戳進行排序,得到的序列稱之為異常日志序列。如圖3所示,已知節(jié)點C為惡意節(jié)點,那么所有與它有關(guān)的日志項都被判定為異常,并且按照時間排序后,形成的日志序列也是異常的日志序列。通過這種方式,可以把所有與惡意節(jié)點有關(guān)的日志項提取出來,形成按時間排序的、具有明確上下文關(guān)系的異常序列,排除了在預(yù)測任務(wù)中正常行為日志項對預(yù)測的影響。文中的實驗數(shù)據(jù)就是在這些異常日志序列的基礎(chǔ)上構(gòu)建的。

圖3 提取異常日志序列流程

1.4 抽象文本表示

為了能將提取出來的異常日志序列用于模型訓(xùn)練,需要將詞匯抽象化,把日志序列轉(zhuǎn)化成能用于語義解釋的通用模板。在ATLAS詞匯抽象的基礎(chǔ)上做了進一步的詞匯組合抽象,構(gòu)成句子抽象。下面將詳細(xì)介紹具體流程。

如表1所示,在ATLAS中根據(jù)日志中詞的細(xì)粒度語義將詞分為四種不同的類型:進程、文件、網(wǎng)絡(luò)連接和動作。四種類型中總共包含30個抽象詞匯,將原本日志項中帶有具體ID的實體映射到對應(yīng)類型的相關(guān)抽象詞匯,就可以將日志項抽象成統(tǒng)一的三元組模板。例如,“c:/windows/system32/taskhost.exe_1416 read c:/windows/inf/tapisrv/0409”轉(zhuǎn)化為,抽象之后的句子仍然保留完整的關(guān)鍵語義。這樣,日志序列就可以被抽象成多個三元組構(gòu)成的句子。將具體的日志項抽象成三元組句子,可以在不犧牲攻擊調(diào)查的關(guān)鍵語義的情況下降低日志復(fù)雜性,使得日志種類大大減少。這個過程保留了完整序列的原始語義,有利于基于序列的模型學(xué)習(xí),保證模型的有效性和精度。

表1 抽象詞匯集合

對于基于異常日志的APT攻擊預(yù)測任務(wù)來說,一個三元組代表一條日志項的抽象程度還不夠,需要將日志項抽象到日志類型。經(jīng)過分析抽象為三元組的異常日志后,三元組的組合方式的數(shù)量是有限且理想的,一般有< user_process,process,programs_process >read 這樣相對固定的組合。該文整理了所有出現(xiàn)的三元組的組合方式,并賦予它們類型索引。

表2展示了部分三元組日志和它們對應(yīng)的日志類型索引,完整三元組數(shù)據(jù)一共有54種組合方式,于是設(shè)置了對應(yīng)數(shù)目的日志類型索引?？梢詫惓Ｈ罩拘蛄杏成錇槿罩绢愋退饕男蛄?經(jīng)過詞嵌入Embedding[22]后,每個日志索引都轉(zhuǎn)化成詞向量,按照索引構(gòu)成序列的順序,詞向量構(gòu)成了傳入Transformer模型的詞向量矩陣,如圖4所示。

表2 三元組日志對應(yīng)的日志類型索引

圖4 日志序列處理流程

1.5 模型訓(xùn)練

該文提出基于Transformer模型[4]的多階段攻擊預(yù)測算法LogTransformer。為了訓(xùn)練用于預(yù)測多階段攻擊的Transformer模型,以日志索引序列對應(yīng)的詞向量序列作為輸入,以該索引序列的下一個或者多個索引作為輸出。即由若干長度的異常日志序列,推測出下一步或多步可能產(chǎn)生的異常日志,以此來預(yù)測攻擊者接下來的攻擊意圖。這種做法比較類似于文本分類等多分類模型的算法,接下來將詳細(xì)介紹LogTransformer模型如何進行預(yù)測工作。

Transformer模型是自然語言處理方面極為先進的模型,它放棄了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由注意力(Attention)機制組成,主要包括編碼器和解碼器兩個部件。不同于循環(huán)神經(jīng)網(wǎng)絡(luò)只能從左向右或者從右向左依次計算,Transformer可以并行處理向量,從而充分利用GPU資源,減少了處理語義向量等高維數(shù)據(jù)的運行時間。考慮到模型最終的輸出只需要概率的向量表示,LogTransformer模型只采用了Transformer的編碼器(Encoder)對日志序列進行編碼,然后預(yù)測。

如圖5所示,LogTransformer主體部分由4個Transformer編碼器組成,每個編碼器包含一個5頭注意力層和一個前饋全連接層。在日志向量輸入到注意力層之前,需要與位置編碼(Position Encoding)做相加,這是因為Transformer沒有循環(huán)神經(jīng)網(wǎng)絡(luò)中的順序結(jié)構(gòu),因此需要加入詞的位置信息來顯式地表明詞的上下文關(guān)系。該文利用公式(1)和公式(2)來進行位置嵌入:

圖5 LogTransformer模型框架

PE(pos,2i)=sin(pos/10 0002i/dmodel)

(1)

PE(pos,2i+1)=cos(pos/10 0002i/dmodel)

(2)

其中,PE是一個“序列長度×詞向量維度”形狀的二維矩陣,pos是詞在序列中的位置,dmodel表示詞嵌入的維度,i表示詞向量的位置。

1.6 攻擊預(yù)測

經(jīng)過多個LogTransformer的多個編碼塊的數(shù)據(jù)處理后,再連接一個分類層將高維數(shù)據(jù)映射為低維數(shù)據(jù),最后將將二維張量變形成三維,輸出的數(shù)據(jù)是(B,S,C)格式的矩陣。B為每次批處理的序列數(shù)量;S表示最終預(yù)測的步長,即如輸入異常序列之后,預(yù)測接下來的S動作;C的大小是54,對應(yīng)54個日志類型索引。圖6說明了數(shù)據(jù)變換的過程。

圖6 輸出數(shù)據(jù)到標(biāo)簽預(yù)測的轉(zhuǎn)換

2 實驗設(shè)計

2.1 數(shù)據(jù)集構(gòu)建

2.1.1 ATLAS數(shù)據(jù)集

ATLAS數(shù)據(jù)集包含三種日志,分別是DNS日志、瀏覽器日志、審計日志。DNS日志記錄了域名解析活動,瀏覽器日志記錄了Web請求,審計日志記錄了進程、IP及文件等系統(tǒng)活動。ATLAS日志數(shù)據(jù)集分為兩個部分,一個是記錄單主機受APT攻擊的日志,表示為ATLAS-s;另一個是記錄多主機環(huán)境下受APT攻擊的日志,表示為ATLAS-m。由于多主機情況下會出現(xiàn)橫向移動,為了避免這種情況給實驗帶來的影響,該文將實驗數(shù)據(jù)分為單主機和多主機兩個部分。同時,還設(shè)置了另一個公開數(shù)據(jù)集HDFS[27-28]作為對比。與ATLAS數(shù)據(jù)集不同的是,HDFS日志序列中既包含了異常日志也包含了正常日志,而且沒有明確的上下文關(guān)系。設(shè)置這個實驗的目的是體現(xiàn)通過構(gòu)建因果圖提取異常日志序列的優(yōu)勢。

2.1.2 實驗數(shù)據(jù)集構(gòu)建

經(jīng)過1.4節(jié)對異常日志序列進行文本表示以及索引化之后,得到了許多序列。在這些長序列上,設(shè)置長度為10的滑動窗口,移動步長為1。依次在所有原始不定長序列的基礎(chǔ)上,構(gòu)建出等長度方便用于模型訓(xùn)練的序列數(shù)據(jù)。例如,假設(shè)長序列數(shù)據(jù)集中有一段數(shù)據(jù)為:{39, 37, 1, 11, 10, 6, 4, 34, 34, 29, 35, 34, 28, 28, 34}?；瑒哟翱诖笮?0,輸出標(biāo)簽長度為1,則提取出來的訓(xùn)練數(shù)據(jù)為:{39, 37, 1, 11, 10, 6, 4, 34, 34, 29 → 35},{37, 1, 11, 10, 6, 4, 34, 34, 29, 35 → 34}。同樣,如果設(shè)置輸出預(yù)測步長為2,則訓(xùn)練數(shù)據(jù)為:{39, 37, 1, 11, 10, 6, 4, 34, 34, 29 → 35, 34},{37, 1, 11, 10, 6, 4, 34, 34, 29, 35 → 34, 28}。

表3是ATLAS和HDFS數(shù)據(jù)集統(tǒng)計數(shù)據(jù)對比。ATLAS-s graph和ATLAS-m graph是經(jīng)過因果圖提取攻擊上下文后的ATLAS數(shù)據(jù)集。ATLAS-s seq和ATLAS-m seq是僅對日志進行時間排序處理的ATLAS數(shù)據(jù)集,其中有大量的正常數(shù)據(jù),也有更多的日志類型。為了排除日志種類過多對預(yù)測結(jié)果產(chǎn)生影響,把異常日志序列中沒有的日志類型都?xì)w于一種正常日志類型。HDFS seq是按時間排序的日志HDFS數(shù)據(jù)集。

表3 ATLAS和HDFS數(shù)據(jù)集對比

2.2 實驗設(shè)置

2.2.1 實驗參數(shù)

在實驗中,輸入序列的長度設(shè)置為10,Embedding詞向量和Transformer編碼器輸入的維度dmodel=200,Transformer前饋網(wǎng)絡(luò)層中神經(jīng)元個數(shù)是1 024。

2.2.2 對比算法

為了體現(xiàn)算法LogTransformer的有效性,引入了另外兩個算法DeepLog[23]和DeepAG[24]進行對比。DeepLog算法模型的主體部分采用傳統(tǒng)的單向LSTM模型;DeepAG算法模型的主體部分采用了雙向LSTM模型。三種算法都基于章節(jié)1.2、1.3、1.4所描述流程處理后的數(shù)據(jù),只是在預(yù)測模型上有差異。另外,也設(shè)置使用和不使用章節(jié)1.2、1.3、1.4所描述流程情況下的對比實驗,以此驗證通過因果圖構(gòu)建攻擊序列進行多階段攻擊預(yù)測的有效性。

2.2.3 評估指標(biāo)

在單步預(yù)測中,計算了每個數(shù)據(jù)集以及不同算法的預(yù)測結(jié)果的精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)。在多步長的預(yù)測中,精確率、召回率和F1分?jǐn)?shù)等評價指標(biāo)變得難以計算。因為多步預(yù)測中,模型輸出的預(yù)測值序列需要與實際的標(biāo)簽序列完全一致,才會判定它預(yù)測正確。比如設(shè)置預(yù)測標(biāo)簽長度為5,那么預(yù)測值的5個索引值要與實際標(biāo)簽的5個索引值都分別對應(yīng)相等。在這種情況下,上述三個評估指標(biāo)極難計算,而且不再適用。因此,在多步預(yù)測中,只采用準(zhǔn)確率(Accuracy)作為唯一的評估指標(biāo)。

2.3 實驗結(jié)果

把實驗結(jié)果分為單步預(yù)測和多步預(yù)測兩種情況,記錄了不同算法在ATLAS數(shù)據(jù)集中的表現(xiàn),并對實驗結(jié)果進行了分析。

2.3.1 單步預(yù)測算法性能對比

表4分別顯示了基于不同數(shù)據(jù)集的不同算法的精確率、召回率和F1分?jǐn)?shù)。分析其中的數(shù)據(jù),可以發(fā)現(xiàn)無論是在ATLAS的單主機日志數(shù)據(jù)集(ATLAS-s graph)上,還是在多主機日志數(shù)據(jù)集(ATLAS-m graph)上,三個算法模型中,LogTransformer的性能最高,其中在ATLAS的單主機數(shù)據(jù)集和多主機數(shù)據(jù)集上的精確率分別為92.42%和90.92%,召回率分別為93.67%和90.43%,F1分?jǐn)?shù)分別為93.04%和90.67%,都是三個算法模型中最高的性能表現(xiàn)。

表4 單步預(yù)測性能對比 %

2.3.2 多步預(yù)測算法性能對比

分析表5和表6可以發(fā)現(xiàn),在多步預(yù)測的情況下,DeepAG和LogTransformer在ATLAS單主機數(shù)據(jù)集上的準(zhǔn)確率對比互有勝負(fù);而在多主機數(shù)據(jù)集上,LogTransformer則具有優(yōu)勢,在準(zhǔn)確率上比DeepAG 平均領(lǐng)先0.7%。DeepLog在ATLAS的兩個數(shù)據(jù)集上的表現(xiàn)都是最差的,步長從2到5都是準(zhǔn)確率最低的,說明傳統(tǒng)單向LSTM模型優(yōu)勢不足。

表5 在ATLAS-s graph數(shù)據(jù)集上多步預(yù)測準(zhǔn)確率對比 %

表6 在ATLAS-m graph數(shù)據(jù)集上多步預(yù)測準(zhǔn)確率對比 %

2.3.3 LogTransformer多步預(yù)測分析

為了比較LogTransformer在經(jīng)過因果圖提取算法的日志數(shù)據(jù)和未經(jīng)過處理的日志數(shù)據(jù)上性能的差別,設(shè)置了因果圖提取后的ATLAS數(shù)據(jù)集(ATLAS-s graph和ATLAS-m graph)、原始ATLAS數(shù)據(jù)集(ATLAS-s seq和ATLAS-m seq)和HDFS數(shù)據(jù)集(HDFS seq)的對照實驗。圖7統(tǒng)計了LogTransformer在五種數(shù)據(jù)集上預(yù)測步長從1到5的準(zhǔn)確率的變化趨勢。

圖7 LogTransformer在五種數(shù)據(jù)集上的性能對比

從整體上看,隨著預(yù)測步長的增加,LogTransformer算法的準(zhǔn)確率也在下降。在因果圖提取后的ATLAS數(shù)據(jù)集(ATLAS-s graph和ATLAS-m graph)上,即使預(yù)測步長達(dá)到了5,LogTransformer的準(zhǔn)確率依然能保持在74%左右。在原始ATLAS單主機數(shù)據(jù)集(ATLAS-s seq)上,不同預(yù)測步長的準(zhǔn)確率整體上都比因果圖提取后的ATLAS-s graph數(shù)據(jù)集低20%左右。在原始ATLAS多主機數(shù)據(jù)集(ATLAS-m seq)上,不同的預(yù)測步長的準(zhǔn)確率平均比因果圖提取后的ATLAS-m graph數(shù)據(jù)集低12%。在HDFS seq數(shù)據(jù)集上,下降幅度比較大,到三步預(yù)測準(zhǔn)確率已經(jīng)下降到53%了,五步預(yù)測的準(zhǔn)確率已經(jīng)下降到了35%。這說明未經(jīng)提取上下文關(guān)系的日志數(shù)據(jù)在用于預(yù)測的時候穩(wěn)定性較差。

這是因為原始ATLAS數(shù)據(jù)集和HDFS數(shù)據(jù)集提取的日志序列并不是按照因果圖來提取的,異常的日志中夾雜了很多正常操作的日志數(shù)據(jù),所以序列里的日志項之間并沒有明確的攻擊上下文關(guān)系。對比分析HDFS數(shù)據(jù)集和ATLAS數(shù)據(jù)集的規(guī)模,ATLAS數(shù)據(jù)集的數(shù)據(jù)量比HDFS少很多,而ATLAS的日志類型數(shù)目是HDFS的將近2倍。LogTransformer在經(jīng)因果圖處理后的ATLAS數(shù)據(jù)集上獲得了更佳的性能,這也證明了通過構(gòu)建因果圖來提取異常日志序列進行多階段攻擊趨勢預(yù)測的有效性和先進性。

3 結(jié)束語

通過構(gòu)建因果圖來提取具有攻擊上下文關(guān)系的異常日志序列,提出了一個基于攻擊上下文分析的多階段攻擊預(yù)測算法。先通過因果圖構(gòu)建、異常日志序列提取、抽象文本表示等步驟實現(xiàn)對已有攻擊上下文的分析;然后基于已經(jīng)檢測到的攻擊序列,利用Transformer模型對后續(xù)攻擊趨勢進行預(yù)測。經(jīng)過實驗驗證,所提算法在多階段攻擊預(yù)測上取得了良好的性能。但該算法依然存在一個缺陷,就是攻擊趨勢預(yù)測只能預(yù)測已經(jīng)存在的54種日志類型,如果出現(xiàn)未知的攻擊日志類型,算法并不能做出預(yù)測的更新。所以,接下來,會在這方面做出努力,完善未知攻擊的實時更新處理,提高算法的拓展能力。