陳麗珊
(福建廣播電視大學(xué) 莆田分校,福建 莆田 351100)
基于數(shù)據(jù)挖掘的入侵檢測(cè)框架
陳麗珊
(福建廣播電視大學(xué) 莆田分校,福建 莆田 351100)
近些年來(lái)計(jì)算機(jī)網(wǎng)絡(luò)得到高速發(fā)展,成為信息傳遞的重要途徑,也成為信息技術(shù)領(lǐng)域的熱門課題.其中一個(gè)研究重點(diǎn)就是因網(wǎng)絡(luò)入侵引發(fā)的安全風(fēng)險(xiǎn)問(wèn)題,如何有效地檢測(cè)和防范入侵行為是信息監(jiān)管過(guò)程中的重要內(nèi)容.混合框架采用數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)了入侵檢測(cè)模型的構(gòu)建.隨著數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)領(lǐng)域的廣泛應(yīng)用,方法繁多且系統(tǒng)不成體系一度成為研究過(guò)程中的重要問(wèn)題.顯然采用直接系統(tǒng)的框架模型,可以成為提高效率的一種方式.基于數(shù)據(jù)挖掘的入侵檢測(cè)框架,可以有效地解決以上問(wèn)題并提高系統(tǒng)化程度,改善入侵檢測(cè)的準(zhǔn)備效率與自適應(yīng)能力.
數(shù)據(jù)挖掘;入侵檢測(cè);模型框架;日志安全
入侵檢測(cè)系統(tǒng)(Intrusion Detection System,IDS)是能夠通過(guò)相關(guān)識(shí)別技術(shù)完成對(duì)計(jì)算機(jī)受到的攻擊以及惡意行為檢測(cè)的系統(tǒng)[1].基于主機(jī)的檢測(cè)系統(tǒng)的數(shù)據(jù)來(lái)源一般是系統(tǒng)日志,而網(wǎng)絡(luò)上則是來(lái)自數(shù)據(jù)流和網(wǎng)絡(luò)中的數(shù)據(jù)包.本文框架所包含檢測(cè)模式有誤用檢測(cè)和異常檢測(cè)兩種,構(gòu)成一種高效的混合框架模型.兩種模型對(duì)于入侵檢測(cè)方面各有優(yōu)劣,誤用檢測(cè)雖然有著高檢測(cè)率、低誤報(bào)率,但遇到未知行為難以處理.兩種檢測(cè)模式的混合型入侵檢測(cè)系統(tǒng),能夠發(fā)揮不同檢測(cè)方法的優(yōu)點(diǎn),成為提高整體性能的重要突破[2].
圖1 基于數(shù)據(jù)挖掘的入侵檢測(cè)框架示意圖
模型的組成結(jié)構(gòu)包括一個(gè)異常檢測(cè)模塊和兩個(gè)誤用檢測(cè)模塊,在此基礎(chǔ)上設(shè)計(jì)而成并分別對(duì)不同模塊采用各自的算法,混合模型下不同階段的檢測(cè)模塊完成互相配合[3].通過(guò)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果顯示,混合模型所構(gòu)架的框架具備檢測(cè)已知入侵同時(shí)預(yù)防未知攻擊的能力,保證較高檢測(cè)率的同時(shí)有較低的誤報(bào)率,示意圖如圖1所示.
1.1 數(shù)據(jù)采集預(yù)處理
數(shù)據(jù)采集預(yù)處理模塊的功能是完成對(duì)網(wǎng)絡(luò)連接記錄進(jìn)行采集、預(yù)處理最終形成可靠的數(shù)據(jù)集.為滿足數(shù)據(jù)挖掘的基本要求,提高效率的前提下得到清晰的數(shù)據(jù)集,必先完成數(shù)據(jù)的預(yù)處理[4].處理過(guò)程中原始數(shù)據(jù)難免存在問(wèn)題,主要有以下方面.
(1)不統(tǒng)一.數(shù)據(jù)的來(lái)源不同,缺少標(biāo)準(zhǔn)衡量方法,較難實(shí)現(xiàn)共享統(tǒng)一.
(2)重復(fù)冗余.同一條數(shù)據(jù)存在多次重復(fù),或是不同數(shù)據(jù)庫(kù)中數(shù)據(jù)冗余,實(shí)驗(yàn)數(shù)據(jù)中也難以避免這樣的問(wèn)題.
(3)缺失殘損.數(shù)據(jù)在整體系統(tǒng)中由于種種原因造成不完整的存在,部分信息缺失而使得信息的價(jià)值沒(méi)有確定的意義.
1.2 關(guān)聯(lián)規(guī)則序列規(guī)則
關(guān)聯(lián)規(guī)則挖掘問(wèn)題1993年被Agrawal等人[5]提了出來(lái).關(guān)聯(lián)規(guī)則模塊的作用是對(duì)已知數(shù)據(jù)集之間進(jìn)行關(guān)聯(lián)分析,此處數(shù)據(jù)集D中有S的概率使得集合T包含A∪B,而且同時(shí)由C的概率可以滿足集合T中“若包含A就包含B條件”.即稱之為最小支持度閾值和最小信任度閾值:
Support(A≥B)=P(A∪B)
Confidence(A≥B)=P(B|A)
而符合以上規(guī)則的則屬于強(qiáng)規(guī)則.兩個(gè)閾值的數(shù)值大小保持在0%至100%之間,而非0到1之間.對(duì)于關(guān)聯(lián)規(guī)則序列規(guī)則的基本步驟:
步驟一:分析出現(xiàn)的頻繁集合并對(duì)其進(jìn)行定義,完成對(duì)這些集合的最小頻度的支持;
步驟二:通過(guò)所獲取的頻繁集合完成之間的強(qiáng)關(guān)聯(lián)規(guī)則,并且是在滿足最小信任度閾值的前提下完成.對(duì)于兩種規(guī)則的分別使用和混合使用效果有著明顯不同,效率比較如圖2所示.
圖2 不同規(guī)則下數(shù)據(jù)處理效率比較
序列規(guī)則的應(yīng)用目的是找出數(shù)據(jù)集中最大支持度與最小支持度相同的頻繁序列,對(duì)于這樣的大序列有以下要求:
(1)遍歷所有K-sequence中大序列,確保1≤K≤N的同時(shí)從這些大序列中提取出具有強(qiáng)關(guān)聯(lián)的序列組合[5].
(2)所有結(jié)果為最大序列,即不包含彼此重疊的關(guān)系.舉例說(shuō)明:5-sequence時(shí)求出的大序列為<1-2-3-4-5>,4-sequence時(shí)求出的大序列為<1-2-3-5>、<2-3-4-5>、<1-2-3-5>、<1-3-4-5>、<1-2-3-4>.在1中,獲取到5-sequence的大序列,將全部的4-sequence大序列要保留,然而在2中4-sequence的所有大序列都包含在5-sequence中,那么4-sequence所求出的大序列將全部剔除.
1.3 異常檢測(cè)模型
本文所提出的框架是采用基于簇中心位置變化的異常檢測(cè)方法來(lái)構(gòu)建異常檢測(cè)模塊.異常檢測(cè)的基本過(guò)程如下:
ⅰ.已知行為輪廓構(gòu)建
(1)使用k-means算法將含有N個(gè)正常樣本集合X進(jìn)行聚類分析,所提取的簇中心為C1,C2,…,Ck,根據(jù)樣本數(shù)量選取多個(gè)簇中心作為參考;(2)結(jié)合樣本采集策略,完成對(duì)每個(gè)樣本與實(shí)際的簇中心進(jìn)行離群程度的計(jì)算與分析,再進(jìn)行排序;(3)結(jié)果不同的離群分析,得到偏離中心的異常數(shù)據(jù),確立相應(yīng)的異常閾值.同時(shí)建立好已知行為輪廓.
ⅱ.未知攻擊檢測(cè)
(1)尋找待檢測(cè)樣本后對(duì)照實(shí)際參考樣本;(2)結(jié)合采樣策略,計(jì)算待檢測(cè)樣本進(jìn)行實(shí)際參考的離群程度分析;(3)通過(guò)異常閾值判定為正常還是異常.
1.4 誤用檢測(cè)模型
誤用檢測(cè)模塊能夠通過(guò)挖掘算法對(duì)相關(guān)數(shù)據(jù)進(jìn)行學(xué)習(xí),并且通過(guò)規(guī)則將數(shù)據(jù)的特征進(jìn)行提取.誤用檢測(cè)處理數(shù)據(jù)后確認(rèn)正常,但其中會(huì)存在一些攻擊樣本而不能保證較低的誤報(bào)率和較高的準(zhǔn)確率[6].這些樣本如果沒(méi)有進(jìn)行二次檢測(cè),可能會(huì)給網(wǎng)絡(luò)安全帶來(lái)極大的威脅.
圖3 入侵檢測(cè)系統(tǒng)的數(shù)據(jù)挖掘過(guò)程
基于IDS框架的數(shù)據(jù)挖掘過(guò)程如圖3所示.
該過(guò)程受到兩個(gè)關(guān)鍵因素的影響是:(1)數(shù)據(jù)源的質(zhì)量與規(guī)模;(2)數(shù)據(jù)挖掘算法的效率[7].預(yù)測(cè)數(shù)據(jù)可以根據(jù)不同的屬性進(jìn)行分析,如分類、聚類、離群點(diǎn)分析、關(guān)聯(lián)分析.
3.1 數(shù)據(jù)準(zhǔn)備
本文所采用的實(shí)驗(yàn)數(shù)據(jù)中某些類別的樣本用在異常檢測(cè)模塊,而通過(guò)測(cè)試的Corrected文件(數(shù)據(jù)集)用于誤用檢測(cè)模塊.其中除去Normal外,實(shí)驗(yàn)會(huì)包含20種不同的攻擊類型,但整體可以將它們分為4個(gè)不同的攻擊種類[8]:
(1)DOS:拒絕服務(wù)攻擊,如泛洪攻擊;
(2)R2L:來(lái)自遠(yuǎn)程機(jī)器的非法訪問(wèn),如密碼試探;
(3)U2R:未經(jīng)授權(quán)在本地以超級(jí)用戶權(quán)限登錄,如緩存溢出攻擊;
(4)Probing:監(jiān)視及其他探測(cè),如端口掃描.
3.2 數(shù)據(jù)處理
實(shí)驗(yàn)過(guò)程中對(duì)通過(guò)數(shù)據(jù)預(yù)處理模塊的數(shù)據(jù)進(jìn)行下一步處理,通過(guò)異常模塊入侵檢測(cè).實(shí)驗(yàn)通過(guò)對(duì)普通模型IDS框架與本文提出的混合IDS框架進(jìn)行性能對(duì)比,具體數(shù)據(jù)見表1.
表1 混合模型和常規(guī)模型的檢測(cè)性能對(duì)比
表1分別顯示對(duì)于4中不同攻擊類型的分析結(jié)果,所占比例對(duì)比之下混合框架均低于普通框架,而正常數(shù)據(jù)所占比例則相反.進(jìn)一步對(duì)Normal數(shù)據(jù)集進(jìn)行誤用檢測(cè),驗(yàn)證IDS框架在數(shù)據(jù)挖掘過(guò)程中,相比普通框架能保證較高的準(zhǔn)確率和較低的誤報(bào)率.
3.3 測(cè)試結(jié)果
完成實(shí)驗(yàn)過(guò)程綜合整體數(shù)據(jù),可得到表2,基于數(shù)據(jù)挖掘的IDS框架將兩種不同的入侵檢測(cè)模塊進(jìn)行有效結(jié)合.
表2 混合入侵檢測(cè)模型和常規(guī)檢測(cè)模型對(duì)數(shù)據(jù)集的性能檢測(cè)
本文提出一種基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)系統(tǒng)的框架模型,該模型擁有很好的適應(yīng)性能夠較大程度地完成相關(guān)機(jī)制的擴(kuò)展.混合框架側(cè)重于對(duì)性能的優(yōu)化,實(shí)現(xiàn)兩種傳統(tǒng)方法的優(yōu)劣互補(bǔ).從目前的研究狀況來(lái)說(shuō),能夠滿足時(shí)間和空間上的最佳平衡,也將直接影響安全防御的穩(wěn)固性.
[1] 楊義先,鈕心析.入侵檢測(cè)理論與技術(shù)[M].北京:高等教育出版社,2006:29-41.
[2] 魏宇欣.網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2008.
[3] FIORE U,PALMIERI F,CASTIGLIONE A,et al.Network anomaly detection with therestricted boltzmann machine[J].Neurocomputing,2013,8(6):13-23.
[4] AGRAWAL R,MIELINSKI T,SWAMI A.Mining association rules between sets of items in large databases[J].Acm Sigmod Record.1993,22(2):207-216.
[5] 蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實(shí)踐[M].北京:電子工業(yè)出版社,2011:75-96.
[6] DUDA R O,HART P E,STORK D G.Pattern classification(2nd edition)[M].New Jersey:Wiley-Interscience,2000:341-355.
[7] 陳偉,彭文靈,楊敏.基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)中挖掘效率的研究[J].贛南師范學(xué)院學(xué)報(bào),2003(6):52-55.
[8] ERBACHER R F,WALKER K L,FRINCKE D A.Intrusion and misuse detection in-scale systems[J].IEEE Computer Graphics and Applications,2002,22(1):38-47.
[責(zé)任編輯 馬云彤]
The Framework of Intrusion Detection Based on Data Mining
CHEN Li-shan
(Putian Branch, The Open University of Fujian, Putian 351100, China)
In recent years, with the rapid development of computer network, it is one of the important ways of information transmission, and it has become an important research part in the field of information technology. One of the research focuses on the network intrusion due to the risk of security problems, how to detect and prevent intrusion behavior effectively and efficiently is an important content in the process of information monitoring. The hybrid framework adopts data mining technology to realize the construction of intrusion detection model. With the extensive application of data mining technology in the field of intrusion detection, a wide range of methods and the system is not a system has become an important issue in the process of research. Obviously, using the direct system framework model, it can be a way to improve the efficiency. Data mining based intrusion detection framework can effectively solve the above problems, improve the degree of system, and improve the efficiency of intrusion detection and adaptive capacity.
data mining; intrusion detection; the model framework; log security
1008-5564(2016)06-0035-04
2016-08-21
陳麗珊(1983—),女,福建莆田人,福建廣播電視大學(xué)莆田分校講師,主要從事數(shù)據(jù)挖掘與信息安全研究.
TP391
A