潘大勝
摘 要: 為了有效解決當(dāng)前網(wǎng)絡(luò)入侵檢測(cè)算法存在的缺陷,提高網(wǎng)絡(luò)的安全性,提出基于模糊關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)入侵檢測(cè)算法。首先收集網(wǎng)絡(luò)數(shù)據(jù),提取網(wǎng)絡(luò)入侵行為的特征;然后采用模糊關(guān)聯(lián)規(guī)則算法對(duì)入侵行為特征進(jìn)行挖掘,選擇入侵行為最有效的特征,減少特征之間的關(guān)聯(lián)度;最后支持向量機(jī)根據(jù)“一對(duì)多”的思想建立網(wǎng)絡(luò)入侵檢測(cè)的分類器,以KDD CUP數(shù)據(jù)為例對(duì)網(wǎng)絡(luò)入侵檢測(cè)性能進(jìn)行分析。結(jié)果表明,該算法的網(wǎng)絡(luò)入侵檢測(cè)正確率超過了95%,檢測(cè)結(jié)果要明顯好于其他檢測(cè)算法,易實(shí)現(xiàn),可以用于大規(guī)模網(wǎng)絡(luò)的在線入侵檢測(cè)分析。
關(guān)鍵詞: 網(wǎng)絡(luò)安全; 入侵檢測(cè); 關(guān)聯(lián)規(guī)則; 數(shù)據(jù)挖掘
中圖分類號(hào): TN915.08?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)09?0086?03
Abstract: In order to solve the shortcomings existing in the current network intrusion detection algorithm effectively, and improve the network security, a network intrusion detection algorithm based on fuzzy association rules mining is proposed. The network data is collected to extract the features of the network intrusion behavior. The fuzzy association rules algorithm is used to mine the intrusion behavior features, select the most effective feature of intrusion behavior, and reduce the correlation among the features. The support vector machine is used to establish the classifier of the network intrusion detection according to the thought of "one?to?many". The KDD CUP data is taken as an instance to analyze the performance of network intrusion detection. The results show that the network intrusion detection accuracy of this algorithm is higher than 95%, its detection result is obviously better than that of other detection algorithms, the algorithm is simple to implement, and can be used to the online intrusion detection analysis of the large?scale network.
Keywords: network security; intrusion detection; association rule; data mining
0 引 言
隨著網(wǎng)絡(luò)技術(shù)的不斷普及以及應(yīng)用的不斷深入,網(wǎng)絡(luò)安全事件發(fā)生的概率日益增加,網(wǎng)絡(luò)安全問題成為困擾人們生活和工作的一個(gè)難題[1?2]。為了解決網(wǎng)絡(luò)入侵帶來的安全問題,最初有學(xué)者采用網(wǎng)絡(luò)加密、水印技術(shù)、殺毒軟件等措施保證網(wǎng)絡(luò)的正常工作,但它們只能對(duì)非法網(wǎng)絡(luò)行為進(jìn)行主動(dòng)防范,當(dāng)入侵行為發(fā)生變化時(shí),它們就無能為力,缺陷十分明顯,實(shí)際應(yīng)用價(jià)值低[3?5]。在該背景下,入侵檢測(cè)應(yīng)運(yùn)而生,其可以對(duì)網(wǎng)絡(luò)的歷史數(shù)據(jù)以及當(dāng)前數(shù)據(jù)進(jìn)行對(duì)比和分析,發(fā)現(xiàn)其中的非法行為,并進(jìn)行實(shí)時(shí)攔截,成為當(dāng)前一個(gè)重要研究課題[6]。
為了防止非法用戶進(jìn)入網(wǎng)絡(luò)系統(tǒng),研究人員設(shè)計(jì)了許多種類型的網(wǎng)絡(luò)入侵檢測(cè)算法,在一定程度上保護(hù)了網(wǎng)絡(luò)的安全,使人們能夠正常、放心的工作和學(xué)習(xí)[7]。在網(wǎng)絡(luò)入侵檢測(cè)過程中,要收集數(shù)據(jù)和提取特征,由于網(wǎng)絡(luò)數(shù)據(jù)增長(zhǎng)的速度非???,使得特征之間的重復(fù)十分嚴(yán)重,影響入侵的檢測(cè)效果,網(wǎng)絡(luò)入侵的實(shí)時(shí)性也相當(dāng)差,因此需要對(duì)特征之間的關(guān)聯(lián)進(jìn)行有效挖掘,分析特征之間的關(guān)系,但傳統(tǒng)挖掘算法很難準(zhǔn)確找到特征之間的聯(lián)系,不適合于網(wǎng)絡(luò)入侵檢測(cè)的研究[8]。模糊關(guān)聯(lián)規(guī)則算法通過引入模糊理論建立入侵檢測(cè)行為規(guī)則,有效提高了特征之間的關(guān)聯(lián),具有較強(qiáng)的適應(yīng)性,為網(wǎng)絡(luò)入侵檢測(cè)特征分析提供了一種新的研究工具[9]。在網(wǎng)絡(luò)入侵過程中,還需要設(shè)計(jì)入侵行為的分類器,當(dāng)前主要基于支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等[10?11]進(jìn)行設(shè)計(jì),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)十分復(fù)雜,尤其當(dāng)特征的數(shù)量大時(shí),易出現(xiàn)“維數(shù)災(zāi)”等難題,入侵檢測(cè)結(jié)果變得很差,而且檢索結(jié)果不可靠;支持向量機(jī)可以較好地克服神經(jīng)網(wǎng)絡(luò)的不足,入侵行為檢測(cè)效果明顯增強(qiáng),但檢測(cè)效率低,這是因?yàn)樘卣魈啵肭中袨榉诸愡^程太復(fù)雜[12]。
為了提高網(wǎng)絡(luò)的安全性,提出基于模糊關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)入侵檢測(cè)算法。首先提取網(wǎng)絡(luò)入侵行為的特征,并采用模糊關(guān)聯(lián)規(guī)則算法對(duì)特征進(jìn)行挖掘,減少特征之間的關(guān)聯(lián)度,然后用支持向量機(jī)建立網(wǎng)絡(luò)入侵檢測(cè)的分類器,KDD CUP數(shù)據(jù)的測(cè)試結(jié)果表明,本文算法的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果要明顯好于其他檢測(cè)算法,能夠滿足大規(guī)模網(wǎng)絡(luò)的在線入侵檢測(cè)分析。
1 網(wǎng)絡(luò)入侵檢測(cè)的基本原理
在網(wǎng)絡(luò)入檢測(cè)系統(tǒng)中,包括硬件系統(tǒng)和軟件系統(tǒng)兩部分。其中軟件系統(tǒng)是網(wǎng)絡(luò)入侵檢測(cè)的重點(diǎn),直接決定了網(wǎng)絡(luò)系統(tǒng)的工作性,而軟件系統(tǒng)中網(wǎng)絡(luò)入侵檢測(cè)算法最為關(guān)鍵,網(wǎng)絡(luò)入侵檢測(cè)算法包括數(shù)據(jù)采集、特征提取、入侵分類、輸出入侵檢測(cè)結(jié)果,并根據(jù)入侵檢測(cè)采取相應(yīng)的措施,其工作原理如圖1所示。
2 模糊關(guān)聯(lián)規(guī)則和支持向量機(jī)
2.1 模糊關(guān)聯(lián)規(guī)則
由于傳統(tǒng)挖掘算法很難對(duì)數(shù)據(jù)進(jìn)行有效分析,無法有效找出數(shù)據(jù)之間的關(guān)聯(lián),因此普遍存在檢測(cè)正確率低等不足。模糊關(guān)聯(lián)規(guī)則挖掘技術(shù)能夠從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,找出一些對(duì)問題求解結(jié)果有重要貢獻(xiàn)的數(shù)據(jù),為此,本文將其引入到網(wǎng)絡(luò)入侵檢測(cè)的特征分析中,提取重要的入侵行為特征,以獲得更好的入侵檢測(cè)結(jié)果。模糊關(guān)聯(lián)規(guī)則挖掘首先引入模糊理論對(duì)入侵檢測(cè)數(shù)據(jù)的特征進(jìn)行處理,然后給每個(gè)特征賦一個(gè)模糊值,并根據(jù)模糊隸屬度函數(shù)得到每一個(gè)特征的模糊隸屬值,工作流程如圖2所示。
模糊關(guān)聯(lián)規(guī)則算法的網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)挖掘過程如下:
Step1:根據(jù)相應(yīng)研究以及有關(guān)專家設(shè)置最小置信度和最小支持度
Step2:計(jì)算網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)集特征的模糊隸屬度參數(shù)值。
Step3:構(gòu)建模糊隸屬度函數(shù),并根據(jù)模糊隸屬度函數(shù)得到相應(yīng)的隸屬度。
Step4:估計(jì)各模糊屬性的支持度,得到頻繁1?項(xiàng)目集
Step5:根據(jù)生成項(xiàng)目集從而得到候選項(xiàng)目集根據(jù)得到頻繁集
Step6:若為空,增加否則進(jìn)入下一步。
Step7:根據(jù)最大的得到置信度值,得到網(wǎng)絡(luò)入侵檢測(cè)特征之間的關(guān)聯(lián)規(guī)則。
2.2 支持向量機(jī)
對(duì)于一個(gè)兩分類問題,設(shè)滿足條件那么正類和負(fù)類分別定義為:
(1) 正類,個(gè)正類樣本的集合為對(duì)于全部均有
(2) 負(fù)類,個(gè)負(fù)類樣本的集合為,對(duì)于全部均有。
3 模糊關(guān)聯(lián)規(guī)則挖掘的入侵檢測(cè)步驟
Step1:收集網(wǎng)絡(luò)狀態(tài)信息,提取網(wǎng)絡(luò)的狀態(tài)特征。
Step2:采用模糊關(guān)聯(lián)規(guī)則挖掘算法對(duì)原始特征進(jìn)行處理,得到每一種特征的模糊隸屬度函數(shù)值。
Step3:根據(jù)隸屬度函數(shù)值對(duì)網(wǎng)絡(luò)入侵的特征進(jìn)行處理,減少學(xué)習(xí)樣本的規(guī)模。
Step4:支持向量機(jī)對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),建立最優(yōu)網(wǎng)絡(luò)入侵檢測(cè)的分類器。
Step5:采用測(cè)試樣本對(duì)網(wǎng)絡(luò)入侵檢測(cè)分類器的性能進(jìn)行分析。
4 實(shí)驗(yàn)結(jié)果與分析
采用當(dāng)前通用的網(wǎng)絡(luò)安全分析數(shù)據(jù)集——KDD CUP 99作為實(shí)驗(yàn)對(duì)象,該數(shù)據(jù)集中包括四種網(wǎng)絡(luò)入侵行為,分別為:Probe,DOS,U2R,R2L,它們包含了大量的數(shù)據(jù)記錄,每一條記錄均含有41個(gè)特征屬性,其中有離散的,也有連續(xù)特征,因此對(duì)它們要進(jìn)行預(yù)處理,使支持向量機(jī)可以直接識(shí)別和學(xué)習(xí)數(shù)據(jù)。選擇傳統(tǒng)數(shù)據(jù)挖掘算法的入侵檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)平均檢測(cè)正確率、誤報(bào)率和平均執(zhí)行時(shí)間進(jìn)行測(cè)試與分析。
網(wǎng)絡(luò)入侵檢測(cè)的正確率和誤報(bào)率如圖4,圖5所示。從圖4和圖5可知,與傳統(tǒng)數(shù)據(jù)挖掘算法的入侵檢測(cè)算法相比,模糊關(guān)聯(lián)規(guī)則挖掘算法的網(wǎng)絡(luò)入侵檢測(cè)正確率得到了顯著改善,平均檢測(cè)正確率超過95%,而且網(wǎng)絡(luò)入侵檢測(cè)的誤報(bào)率也得到了降低,這是因?yàn)橥ㄟ^引入模糊理論對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)之間的關(guān)系進(jìn)行分析,找出它們之間存在的一些關(guān)聯(lián)規(guī)則,獲得了更加理想的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果。
從表1可以看出,模糊關(guān)聯(lián)規(guī)則挖掘算法的執(zhí)行時(shí)間更短,加快了網(wǎng)絡(luò)入侵的檢測(cè)速度,這主要是因?yàn)橥ㄟ^模糊關(guān)聯(lián)規(guī)則挖掘,減少數(shù)據(jù)量,支持向量機(jī)的分類器結(jié)構(gòu)更加簡(jiǎn)單,網(wǎng)絡(luò)入侵的應(yīng)用范圍更廣。
5 結(jié) 語(yǔ)
為了解決網(wǎng)絡(luò)入侵檢測(cè)中的數(shù)據(jù)量大,執(zhí)行效率低的難題,本文提出了基于模糊關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)入侵檢測(cè)算法,通過引入模糊關(guān)聯(lián)規(guī)則挖掘算法對(duì)網(wǎng)絡(luò)入侵檢測(cè)樣本數(shù)據(jù)進(jìn)行分析,提取最有效的特征,去除大量無用的特征,通過具體實(shí)驗(yàn)可知,相對(duì)于其他網(wǎng)絡(luò)入侵檢測(cè)算法,本文算法的網(wǎng)絡(luò)入侵檢測(cè)正確率提高了3%左右,遠(yuǎn)遠(yuǎn)超過實(shí)際應(yīng)用的85%,同時(shí)網(wǎng)絡(luò)入侵的平均漏檢率也有了大幅下降,加快了網(wǎng)絡(luò)入侵的檢測(cè)速度,能迅速對(duì)網(wǎng)絡(luò)入侵做出響應(yīng),有效保證了網(wǎng)絡(luò)的正常工作,具有良好的實(shí)用價(jià)值。
參考文獻(xiàn)
[1] 唐正軍,李建華.入侵檢測(cè)技術(shù)[M].北京:清華大學(xué)出版社,2004.
[2] 井小沛,汪厚祥,聶凱,等.面向入侵檢測(cè)的基于IMGA和MKSVM的特征選擇算法[J].計(jì)算機(jī)科學(xué),2012,39(7):96?99.
[3] DENNING D E. An intrusion detection model [J]. IEEE transactions on software engineering, 2010, 13(2): 222?232.
[4] HANG C L, WANG C J. A GA?based feature selection and parameters optimization for support vector machines [J]. Expert systems with applications, 2009, 36(2): 231?240.
[5] 何紹榮,梁金明,何志勇.基于互信息和關(guān)系積理論的特征選擇方法[J].計(jì)算機(jī)工程,2010,36(13):257?259.
[6] 陳友,程學(xué)旗,李洋,等.基于特征選擇的輕量級(jí)入侵檢測(cè)系統(tǒng)[J].軟件學(xué)報(bào),2007(7):1639?1651.
[7] 郭文忠,陳國(guó)龍,陳慶良,等.基于粒子群優(yōu)化算法和相關(guān)性分析的特征子集選擇[J].計(jì)算機(jī)科學(xué),2008,35(2):144?146.
[8] 高海華,楊輝華,王行愚.基于BPSO?SVM的網(wǎng)絡(luò)入侵特征選擇和檢測(cè)[J].計(jì)算機(jī)工程,2006,32(8):37?39.
[9] 陳仕濤,陳國(guó)龍,郭文忠,等.基于粒子群優(yōu)化和鄰域約簡(jiǎn)的入侵檢測(cè)日志數(shù)據(jù)特征選擇[J].計(jì)算機(jī)研究與發(fā)展,2010,47(7):1261?1267.
[10] HONG J, SU M Y, CHEN Y H, et a1. A novel intrusion detection system based on hierarchical clustering and support vector machines [J]. Expert systems with applications, 2011, 38(1): 306?313.
[11] 陳友,沈華偉,李洋,等.一種高效的面向輕量級(jí)入侵檢測(cè)系統(tǒng)的特征選擇算法[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1398?1408.
[12] 魏德志,吳旭,林麗娜,等.基于云計(jì)算的模糊規(guī)則挖掘算法在入侵檢測(cè)中的應(yīng)用[J].吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(1):115?118.