馬俊宏
(晉中學(xué)院,山西 晉中 030600)
基于數(shù)據(jù)挖掘的異常檢測模型研究初探
馬俊宏
(晉中學(xué)院,山西 晉中 030600)
研究了一種基于數(shù)據(jù)挖掘技術(shù)的異常檢測模型,根據(jù)這種模型所建構(gòu)的系統(tǒng)具有一定的準(zhǔn)確性、可擴(kuò)展性與自適應(yīng)性.此外對該模型中的一些關(guān)鍵技術(shù)進(jìn)行了研究.
數(shù)據(jù)挖掘;異常檢測;模型;網(wǎng)絡(luò)安全
隨著網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)環(huán)境也逐漸變得更加復(fù)雜,在網(wǎng)絡(luò)中存在海量的不安全因素,同時(shí)隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,傳統(tǒng)的數(shù)字證書、防火墻等都已經(jīng)逐漸不能起到較好的防御效果,例如,在安全后門問題方面,傳統(tǒng)的網(wǎng)絡(luò)安全技術(shù)呈現(xiàn)出較為明顯的不足,同時(shí)傳統(tǒng)的網(wǎng)絡(luò)安全技術(shù)在防止網(wǎng)絡(luò)的內(nèi)部攻擊方面也存在著較大的問題,無法為用戶提供實(shí)時(shí)的網(wǎng)絡(luò)監(jiān)測.為了提高網(wǎng)絡(luò)的安全性,許多學(xué)者都進(jìn)行了大量的研究,希望能找到更加安全的策略與方案,而入侵檢測技術(shù)可以有效的提高網(wǎng)絡(luò)的安全性.入侵檢測技術(shù)可以有效的檢測到系統(tǒng)中的各種異常信息,并將這些信息及時(shí)的向用戶進(jìn)行傳遞,這種技術(shù)主要被用來檢測計(jì)算機(jī)系統(tǒng)中的違反了網(wǎng)絡(luò)安全策略的行為.其主要原理是在計(jì)算機(jī)系統(tǒng)中的關(guān)鍵節(jié)點(diǎn)設(shè)置信息搜集程序,對計(jì)算機(jī)是否受到攻擊進(jìn)行及時(shí)的監(jiān)測,這種技術(shù)可以識別出計(jì)算機(jī)系統(tǒng)中任何不被希望的行為,并及時(shí)的檢測到各種攻擊行為[1].在檢測出系統(tǒng)所存在入侵行為之后,計(jì)算機(jī)系統(tǒng)中的報(bào)警與防護(hù)系統(tǒng)會立即對攻擊行為進(jìn)行驅(qū)逐,同時(shí)在攻擊行為發(fā)生的過程中可以在最大程度上降低損失的發(fā)生.另一方面,在攻擊行為發(fā)生之后,系統(tǒng)會將相關(guān)的攻擊行為及時(shí)的存儲到數(shù)據(jù)庫中去作為系統(tǒng)知識,從而使得系統(tǒng)的防范能力可以得到明顯的增強(qiáng).此外,這種技術(shù)與防火墻結(jié)合在一起,還可以為計(jì)算機(jī)提供更強(qiáng)的防護(hù)能力[2].
當(dāng)前針對系統(tǒng)入侵的異常檢測技術(shù)主要分為兩種,一種是針對知識的異常入侵檢測,一種是基于行為的異常入侵檢測.
基于行為的異常檢測技術(shù)簡稱為異常檢測,其檢測的具體原理是來自于這樣的思想:人類的行為具有較強(qiáng)的規(guī)律性,對這些日常行為進(jìn)行分析之后必然會得到對應(yīng)的規(guī)律,同時(shí)一般情況下正常的用戶行為與入侵行為之間存在著較大的差異,基于此種情況,計(jì)算機(jī)系統(tǒng)如果可以有效的檢測到這些差異行為就可以區(qū)分出究竟何種行為才是入侵行為.例如,某一計(jì)算機(jī)用戶往往是在上班時(shí)間使用該計(jì)算機(jī),如果在非工作時(shí)間該計(jì)算機(jī)還是處于工作狀態(tài),則就是明顯的異常行為,這就表明該計(jì)算機(jī)有可能受到了入侵[3].同樣的道理,濫用行為也可以被檢測出來,異常檢測的關(guān)鍵在于如何判定用戶正常使用計(jì)算機(jī)的模式以及確定對應(yīng)的判定算法,從而確定哪些行為屬于入侵行為.
基于知識的入侵也被稱為違規(guī)檢測,在這種檢測技術(shù)中,往往假設(shè)可以用一種模式來表示入侵者的活動,系統(tǒng)會及時(shí)的將相關(guān)活動與這一模式進(jìn)行對比,從而判定是否存在入侵行為,此外,系統(tǒng)還可以將現(xiàn)階段已經(jīng)存在的入侵行為都檢測出來,但是對于數(shù)據(jù)庫當(dāng)中沒有的入侵方法,系統(tǒng)依然無法有效地辨別出來,這種技術(shù)的難點(diǎn)在于如何將入侵的模式設(shè)計(jì)出來,同時(shí)將不正常的活動排除在外.
在上述的兩種模型中,異常檢測是使用較為廣泛的一種檢測方法,主要是由于這種檢測方法具有較強(qiáng)的通用性,相對來說與系統(tǒng)不存在多大的關(guān)聯(lián),同時(shí)還可以檢測出數(shù)據(jù)庫中并不存在的攻擊行為.目前在異常檢測中較為常見的技術(shù)包括:統(tǒng)計(jì)方法、閾值檢測以及基于規(guī)則的方法,同時(shí)現(xiàn)階段的研究人員也在大力研究其他方法如神經(jīng)網(wǎng)絡(luò)與遺傳算法[4].
現(xiàn)階段在入侵檢測方面的研究中最主流的研究方向就是異常檢測技術(shù),該技術(shù)可以通過對行為的分析從而實(shí)現(xiàn)對系統(tǒng)行為的檢測,并發(fā)現(xiàn)一些數(shù)據(jù)庫當(dāng)中并不存在的攻擊行為.從根本上來說所謂的異常檢測就是對各種用戶行為進(jìn)行審計(jì)與對比的技術(shù),一般情況下數(shù)據(jù)檢測技術(shù)不僅僅使用在計(jì)算機(jī)主機(jī)等硬件上,同時(shí)還針對各種網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行檢測,其最根本的目的是為了建立用戶的正常使用模式,同時(shí)將已經(jīng)建立起來的用戶模式與各種用戶之間的行為進(jìn)行比對,如果用戶的行為與之正常的使用模式之間存在著一定的差異,則該行為為入侵行為,但是現(xiàn)階段的計(jì)算機(jī)系統(tǒng)發(fā)展較為迅速,同時(shí)網(wǎng)絡(luò)數(shù)量的不斷增加從而導(dǎo)致了安全審計(jì)的速度也不斷增加,在這海量的數(shù)據(jù)之中也包含著許多重要的信息,研究人員希望可以對這些數(shù)據(jù)進(jìn)行分析,從而可以充分的利用這些數(shù)據(jù)有效的解決某些問題[5].另一方面,當(dāng)前的數(shù)據(jù)審計(jì)系統(tǒng)雖然在進(jìn)行數(shù)據(jù)審計(jì)的過程中具有較高的效率,但是對不同數(shù)據(jù)之間的關(guān)聯(lián)卻并不能進(jìn)行有效地判定,因此也就無法預(yù)測出數(shù)據(jù)在未來的發(fā)展.由于數(shù)據(jù)挖掘技術(shù)的缺乏從而最終導(dǎo)致了雖然數(shù)據(jù)較多,但是往往并沒有什么實(shí)際性的作用.因此,如何從海量般數(shù)據(jù)當(dāng)中將用戶的行為有效的提取出來,并進(jìn)行分析,同時(shí)將這些信息有效的運(yùn)用在數(shù)據(jù)的用戶判斷當(dāng)中是設(shè)計(jì)系統(tǒng)的核心問題.為了提高數(shù)據(jù)審計(jì)的準(zhǔn)確性與效率,可以考慮采用數(shù)據(jù)挖掘技術(shù)對其進(jìn)行處理.所謂的數(shù)據(jù)挖掘是一種數(shù)據(jù)的數(shù)據(jù)分析技術(shù),通過數(shù)據(jù)挖掘技術(shù)的運(yùn)用可以從大量的信息當(dāng)中提取出許多具有一定價(jià)值的安全信息,同時(shí)還可以從數(shù)據(jù)中抽象出一些特征模型,從而用于異常檢測中的行為描述,并建立相關(guān)行為模型,通過計(jì)算機(jī)算法可以判定這些模型的性質(zhì)[6].
基于數(shù)據(jù)挖掘的異常檢測模型需要由多個模塊共同構(gòu)成,即有數(shù)據(jù)采集預(yù)處理模塊、數(shù)據(jù)挖掘模塊、模式更新模塊以及決策模塊等.在該系統(tǒng)中數(shù)據(jù)也具有多個來源,如計(jì)算機(jī)主機(jī)、網(wǎng)絡(luò)以及計(jì)算機(jī)應(yīng)用程序.在進(jìn)行本文的研究中,由于網(wǎng)絡(luò)數(shù)據(jù)是數(shù)據(jù)的主要來源,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)在傳播時(shí),采用特定的技術(shù)對數(shù)據(jù)進(jìn)行提取與處理,并存儲到數(shù)據(jù)庫當(dāng)中作為異常檢測分析過程當(dāng)中的數(shù)據(jù)源.其模型結(jié)構(gòu)如圖1所示:
圖1 基于數(shù)據(jù)挖掘的異常檢測模型圖
在該系統(tǒng)中,各模塊的功能如下:
1)數(shù)據(jù)采集及預(yù)處理模塊:該模塊需要完成一個非常重要的任務(wù),即數(shù)據(jù)源的處理,在對數(shù)據(jù)源進(jìn)行有效的處理之后,程序就會自動生成關(guān)聯(lián)規(guī)則,同時(shí)根據(jù)其契合度對事件進(jìn)行排序處理,在基于數(shù)據(jù)挖掘的異常檢測模型中該事件序列是最為重要的組成部分.在數(shù)據(jù)采集與預(yù)處理模塊中網(wǎng)絡(luò)數(shù)據(jù)集的重組以及過濾是采用Bro進(jìn)行的,Bro同時(shí)還可以實(shí)現(xiàn)數(shù)據(jù)流的過濾,還會產(chǎn)生特定的事件系列,Bro系統(tǒng)的結(jié)構(gòu)組成如圖2中所示:[7]
圖2 Bro的結(jié)構(gòu)組成
2)數(shù)據(jù)挖掘模塊:該模塊可以通過程序中所存儲的算法對事件庫進(jìn)行全面的挖掘與搜索.由于在事件庫當(dāng)中存在著大量的事件,同時(shí)事件之間的屬性也存在著較大的差異,如果利用一般的頻繁模式進(jìn)行數(shù)據(jù)挖掘必然會導(dǎo)致許多沒有實(shí)際價(jià)值的規(guī)則產(chǎn)生.因此,為了獲得更加有效地規(guī)則,必須改變算法,本文的研究中采用的是一種基于軸屬性的頻繁模式挖掘算法,即IREP算法,該算法可以對挖掘出來的不同模式進(jìn)行分類處理,從而總結(jié)出究竟何種行為模式為正常,何種行為模式為異常,具體的算法如下所示:
Procedure IREP(Pos.Neg)
Begin
Ruleset:={ }
While Pos={ } do
/*split (Pos.Neg) into (Growpos, GrowNeg) And (PrunePos,PruneNeg)*/
Rule:=Grow Rule(Growpos,GrowNeg)
Rule:=Prune Rule(Growpos,GrowNeg)
if the error rate of Rule on
(PrunePos,PruneNeg) exceeds 50% then
Retrun Releset
else
add Rule to Releset
remove examples covered by Rule
from (Pos.Neg)
endif
endwhile
Retrun Releset
End
在進(jìn)行分類算法的選擇過程當(dāng)中最重要的一個問題就是特征屬性的選擇,在選擇特征屬性時(shí)可以根據(jù)已經(jīng)挖掘出來的規(guī)則與序列對數(shù)據(jù)當(dāng)中的屬性進(jìn)行選擇與分析.例如在本文的模型當(dāng)中可以采用以下幾種算法:①關(guān)聯(lián)分析.決定數(shù)據(jù)庫記錄中屬性間的關(guān)系.利用審計(jì)數(shù)據(jù)中系統(tǒng)屬性間的相關(guān)性作為構(gòu)建正常使用模式的基礎(chǔ).②分類.即可以將同一個數(shù)據(jù)集向不同的分類映射,最終會以分類器的結(jié)果進(jìn)行輸出,其最終的輸出形式為分類樹或者規(guī)則集.這種算法在異常檢測當(dāng)中最重要的應(yīng)用就是對搜集的數(shù)據(jù)進(jìn)行分類.③序列分析.通過這類算法可以將審計(jì)事件當(dāng)中頻繁發(fā)生的時(shí)間序列統(tǒng)計(jì)出來,這些頻繁事件模式為構(gòu)建入侵檢測模型時(shí)選擇統(tǒng)計(jì)特征提供了指導(dǎo)準(zhǔn)則[8].
3)模式更新模塊:該模塊的主要功能是用來對計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)以及用戶的正常模式或者規(guī)則進(jìn)行更新與修正.網(wǎng)絡(luò)中安全數(shù)據(jù)是處于一種動態(tài)變化中的,用戶的行為在不同的時(shí)間段內(nèi)也具有不同的規(guī)律,因此當(dāng)前已經(jīng)發(fā)現(xiàn)的用戶規(guī)律也并不是完全適用的,必須要不斷的發(fā)現(xiàn)新的用戶行為模式.由此可見不僅需要采用數(shù)據(jù)挖掘的方法對用戶的行為數(shù)據(jù)進(jìn)行挖掘,同時(shí)還需要算法來更新用戶的行為.
4)決策模塊:該模塊的功能主要是將當(dāng)前存在的用戶行為與數(shù)據(jù)庫中所存儲的用戶行為進(jìn)行對比與分析,從而對用戶行為的異常性進(jìn)行判斷,根據(jù)數(shù)據(jù)挖掘模塊中的分類結(jié)果用相似度檢測匹配程度,相似度的范圍為0~1之間,相似度值越高則說明二者之間的吻合度越高,若對比的結(jié)果為0,則說明二者之間是完全不同的.
隨著網(wǎng)絡(luò)環(huán)境的不斷惡化,網(wǎng)絡(luò)安全問題逐漸引起了許多專家與學(xué)者的關(guān)注,人們紛紛對網(wǎng)絡(luò)安全的異常檢測技術(shù)進(jìn)行了研究.本文研究了一種基于數(shù)據(jù)挖掘技術(shù)的異常檢測模型,主要介紹了其主要的結(jié)構(gòu)構(gòu)成以及不同模塊的構(gòu)成與功能,希望能對現(xiàn)階段的異常檢測技術(shù)有所幫助.
[1]Li H. Research and Implementation of an Anomaly Detection Model Based on Clustering Analysis[C]// International Symposium on Intelligence Information Processing and Trusted Computing. IEEE Computer Society, 2010:1838-1842.
[2]Wang G H, Kuang Y L, Wang Z G. The Coal Production Anomaly Detection Based on Data Mining[J]. Applied Mechanics & Materials, 2012, 239-240:744-748.
[3]Wu C, Xia W, Liu F. The Research of Network Anomaly Detection Technology Based on Data Mining[C]// International Conference on Electrical, Computer Engineering and Electronics. 2015.
[4]曲萍. 一種新的基于數(shù)據(jù)挖掘技術(shù)的異常入侵檢測系統(tǒng)研究[J]. 電子技術(shù)應(yīng)用,2010,08:145-149.
[5]呂志軍,袁衛(wèi)忠,仲海駿,黃皓,曾慶凱,謝立. 基于數(shù)據(jù)挖掘的異常入侵檢測系統(tǒng)研究[J]. 計(jì)算機(jī)科學(xué),2004,10:61-65.
[6]凌昊,謝冬青. 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測系統(tǒng)模型的研究[J]. 科學(xué)技術(shù)與工程,2007,19:5170-5172+5176.
[7]劉棣華,王小芬,余斌. 基于數(shù)據(jù)挖掘和模糊理論的入侵檢測模型研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2008,12:8-10.
[8]燕振剛. 一種基于數(shù)據(jù)挖掘技術(shù)的入侵檢測模型[J]. 工業(yè)控制計(jì)算機(jī),2012,06:91-96.
On Anomaly Detection Model Based on Data Mining
MA Jun-hong
(Jinzhong University, Jinzhong Shanxi 030600, China)
This paper studies an anomaly detection model based on data mining technology, based on which the system has certain accuracy, scalability and adaptability. In addition, some key technologies of this model are studied in this paper.
data mining; anomaly detection; model; network security
1673-2103(2017)02-0044-04
2017-03-16
馬俊宏(1979-),男,山西運(yùn)城人,講師,研究方向:人工智能和數(shù)據(jù)挖掘.
TP393.08
A