盧權(quán)
摘 要: 針對模糊C均值聚類算法受初始聚類中心影響過大以及易于陷入局部極值的問題,采用具有Levy flight模式且具有很強(qiáng)全局搜索能力的布谷鳥搜索算法,對模糊C均值聚類算法初始聚類中心進(jìn)行優(yōu)化,并把優(yōu)化后的模糊C均值聚類算法應(yīng)用于網(wǎng)絡(luò)入侵檢測。實(shí)驗(yàn)結(jié)果顯示,經(jīng)過優(yōu)化后的模糊C均值聚類算法具有較好的運(yùn)行速度和聚類效果,對入侵行為的檢測效果良好。
關(guān)鍵詞: 布谷鳥算法; 模糊C均值聚類; 全局尋優(yōu); 入侵檢測
中圖分類號:TP309.5 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2015)03-07-02
Abstract: The Fuzzy C-means clustering algorithm is influenced by the initial cluster center and is easy to fall into local extremum. The cuckoo search algorithm (CS), which has a levy flight mode and a strong global search capability, can optimize the initial cluster centers of the fuzzy C-means clustering algorithm. And then the optimized algorithm is applied to network intrusion detection. Experimental results show that the optimized algorithm has better operating speeds and clustering effect and has good effect to intrusion detection.
Key words: cuckoo search algorithm; fuzzy C-means algorithm; global optimization; intrusion detection
0 引言
隨著計算機(jī)網(wǎng)絡(luò)的進(jìn)一步普及,網(wǎng)絡(luò)安全成為人們越來越關(guān)注問題之一。入侵檢測是保證網(wǎng)絡(luò)安全的一個重要舉措,很多學(xué)者把數(shù)據(jù)挖掘中的相關(guān)技術(shù)用于網(wǎng)絡(luò)的入侵檢測中。聚類分析是數(shù)據(jù)挖掘技術(shù)中的一種,它是一種無監(jiān)督的挖掘方法,具有良好的泛化能力,因而得到了廣泛的應(yīng)用[1]。在眾多的聚類分析方法中,模糊C均值聚類[2](fuzzy C-means,F(xiàn)CM)方法應(yīng)用最為廣泛。但采用梯度下降作為解決問題指導(dǎo)思想的FCM算法還存在著對聚類中心初始值敏感、受樣本噪聲影響大且易于陷入局部極值的問題[3],因而,總體上來說對網(wǎng)絡(luò)入侵的檢測準(zhǔn)確率偏低,檢測效果不理想。
布谷鳥(cuckoo search,CS)算法[4]是一種仿生類算法,它通過模仿布谷鳥的繁殖策略來實(shí)現(xiàn)尋找問題解的過程。CS算法采用隨機(jī)性很強(qiáng)的Levy flight模式,因而該算法具有很強(qiáng)的全局搜索能力。CS算法還具有結(jié)構(gòu)簡單,輸入的參數(shù)少,易于實(shí)現(xiàn)等特點(diǎn)。本文把CS算法引入到FCM算法的優(yōu)化中,提出了一種基于CS算法優(yōu)化的FCM混合算法(CS-FCM),并把該算法用于網(wǎng)絡(luò)的入侵行為檢測中,以期獲得更好的效果。
2.1 實(shí)驗(yàn)數(shù)據(jù)的選取
我們采用KDD CUP1999數(shù)據(jù)集對算法進(jìn)行驗(yàn)證。KDD CUP1999數(shù)據(jù)集包含了大量不同網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù),大約有500萬個不同的數(shù)據(jù)記錄,這些記錄囊括了22種不同的攻擊類型。按不同的攻擊手段對這些入侵?jǐn)?shù)據(jù)進(jìn)行劃分,可以簡單分為:DoS、R2L、U2R以及Probing等四種不同類型[5]。
為了能反映真實(shí)的網(wǎng)絡(luò)環(huán)境,我們從KDD CUP1999數(shù)據(jù)集中,根據(jù)4種不同的攻擊類型,分別隨機(jī)抽取5000條共2萬筆記錄用于實(shí)驗(yàn)。在抽取的2萬條記錄中,包含了1.6萬條正常連接的記錄,4000條異常連接的記錄。每一筆記錄都包含有41個屬性,這些屬性的數(shù)據(jù)類型主要有兩類:文本型和數(shù)值型。在所有數(shù)值型屬性中,它們之間的值差異過大,為了能在同一單位下進(jìn)行衡量,必須對它們進(jìn)行歸一化處理。
這兩種算法所耗費(fèi)的時間都差不多。當(dāng)記錄數(shù)達(dá)到一定數(shù)量的時候,CS優(yōu)化的效果就顯現(xiàn)出來了,大概在2000筆數(shù)據(jù)附近,CS-FCM算法所耗費(fèi)的時間就開始明顯比沒有經(jīng)過優(yōu)化的FCM算法要少,檢測的記錄數(shù)越多,CS-FCM算法的效率就越好。
3 總結(jié)
本文將布谷鳥算法和FCM算法相結(jié)合,通過布谷鳥算法對FCM的聚類中心進(jìn)行優(yōu)化,提高了FCM算法的運(yùn)算速度和收斂速度。仿真實(shí)驗(yàn)表明,經(jīng)過布谷鳥算法優(yōu)化的FCM算法應(yīng)用于入侵檢測中,能有效解決聚類中心的初始值對FCM算法影響過大的問題,聚類效果良好。
參考文獻(xiàn):
[1] 賈志偉,關(guān)忠仁,趙建芳.一種基于半監(jiān)督學(xué)習(xí)的入侵檢測算法[J].成
都信息工程學(xué)院學(xué)報,2012.27(6):560-563
[2] 羅軍生,李永忠,杜曉.基于模糊C-均值聚類算法的入侵檢測[J].計算
機(jī)技術(shù)與發(fā)展,2008.18(1):178-180
[3] 姚明海,金喜子,趙連朋等.基于模糊聚類的偵察數(shù)據(jù)分析方法[J].計
算機(jī)工程與設(shè)計,2009.30(2):404-407
[4] 鄭巧燕,莫愿斌,劉付永等.一種小規(guī)模多種群布谷鳥算法[J].計算機(jī)
應(yīng)用與軟件,2014.31(10):278-280
[5] 李麗娟,唐文紀(jì).基于人工免疫網(wǎng)絡(luò)和模糊C-均值聚類的入侵檢測
方法[J].計算機(jī)應(yīng)用與軟件,2011.28(3):282-284
[6] 楊德剛.基于模糊C均值聚類的網(wǎng)絡(luò)入侵檢測算法[J].計算機(jī)科學(xué),
2005.32(1):86-87