王彬彬
基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類研究
王彬彬
(阜陽(yáng)幼兒師范高等專科學(xué)校,安徽 阜陽(yáng) 236015)
考慮到軟件定義網(wǎng)絡(luò)異常流量分類受到網(wǎng)絡(luò)復(fù)雜特性的影響,導(dǎo)致分類效果變差,提出了基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類研究。利用權(quán)重屬性,劃分了軟件定義網(wǎng)絡(luò)異常流量的頻度,在網(wǎng)絡(luò)異常流量的分布形式轉(zhuǎn)化過(guò)程基礎(chǔ)上,根據(jù)軟件定義網(wǎng)絡(luò)異常節(jié)點(diǎn)出現(xiàn)的概率,計(jì)算了異常流量的特征值,提取出軟件定義網(wǎng)絡(luò)異常流量特征,根據(jù)軟件定義網(wǎng)絡(luò)異構(gòu)值差的度量,初始化軟件定義網(wǎng)絡(luò)的參考向量值,通過(guò)更新分類屬性的鄰域半徑,計(jì)算網(wǎng)絡(luò)異常流量的參考向量,選擇出軟件定義網(wǎng)絡(luò)異常流量分類屬性,利用K-means聚類算法過(guò)濾軟件定義網(wǎng)絡(luò)異常流量,對(duì)軟件定義網(wǎng)絡(luò)異常流量進(jìn)行檢索,通過(guò)定義網(wǎng)絡(luò)異常流量分類的目標(biāo)函數(shù),利用K-means聚類算法理論,構(gòu)建軟件定義網(wǎng)絡(luò)異常流量的加權(quán)臨界函數(shù),結(jié)合對(duì)角矩陣的求解,設(shè)計(jì)了軟件定義網(wǎng)絡(luò)異常流量分類原理,實(shí)現(xiàn)了軟件定義網(wǎng)絡(luò)異常流量的分類。實(shí)驗(yàn)結(jié)果表明,文中分類方法的查全率、差準(zhǔn)率較高,適應(yīng)度以及收斂性能較好。
K-means聚類;軟件定義網(wǎng)絡(luò);異常流量;分類方法;特征提?。粚傩赃x擇
在信息化的發(fā)展背景下,軟件定義網(wǎng)絡(luò)的應(yīng)用越來(lái)越廣泛,網(wǎng)絡(luò)流量的異常變化嚴(yán)重影響著用戶的體驗(yàn),軟件定義網(wǎng)絡(luò)在互聯(lián)網(wǎng)中的應(yīng)用十分重要,在保障網(wǎng)絡(luò)安全性的同時(shí),還具有一定的可用性,合理分類軟件定義網(wǎng)絡(luò)中的異常流量至關(guān)重要[1]。在軟件定義網(wǎng)絡(luò)中,流量數(shù)據(jù)的形式并不是靜態(tài)的,一直都是在不斷變化著,同時(shí)也引起了不同領(lǐng)域?qū)<覍W(xué)者的高度重視。軟件定義網(wǎng)絡(luò)都是在高速運(yùn)轉(zhuǎn)下傳輸流量數(shù)據(jù)的,其速度和傳輸量都是無(wú)法預(yù)估的,因此,軟件定義網(wǎng)絡(luò)異常流量的分類在網(wǎng)絡(luò)安全性保障中具有重要作用[2]。在科技的迅猛發(fā)展下,產(chǎn)生的網(wǎng)絡(luò)流量信息逐漸增加,根據(jù)網(wǎng)絡(luò)異常流量類別,對(duì)其進(jìn)行防護(hù),可以為軟件定義網(wǎng)絡(luò)提供一個(gè)安全的運(yùn)行環(huán)境,保證軟件定義網(wǎng)絡(luò)的安全性[3]。
針對(duì)軟件定義網(wǎng)絡(luò)異常流量分類的研究,國(guó)內(nèi)外學(xué)者展開(kāi)了大量研究,其中董書(shū)琴等[4]根據(jù)深度特征學(xué)習(xí)網(wǎng)絡(luò)理論,設(shè)計(jì)一種異常流量分類方法,通過(guò)優(yōu)化粒子群算法計(jì)算了網(wǎng)絡(luò)流量的檢測(cè)準(zhǔn)確率,尋找網(wǎng)絡(luò)層數(shù)和節(jié)點(diǎn)數(shù)的最優(yōu)值,確定最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),提高特征提取的準(zhǔn)確性,將梯度下降法應(yīng)用到網(wǎng)絡(luò)訓(xùn)練中,通過(guò)對(duì)含噪數(shù)據(jù)的最小化處理,提取出異常流量特征,引入異常流量檢測(cè)分類器,對(duì)異常流量進(jìn)行分類,最后通過(guò)實(shí)驗(yàn)分析,驗(yàn)證了所提方法的性能;杜臻等[5]利用小波分析原理,研究并設(shè)計(jì)了網(wǎng)絡(luò)異常流量分類方法,先在Windows系統(tǒng)上采用Python語(yǔ)言編寫(xiě)了流量的功能代碼,將異常流量從數(shù)據(jù)中提取出來(lái),利用小波分析理論提取出異常流量特征,利用支持向量機(jī)算法訓(xùn)練了分類器,識(shí)別出網(wǎng)絡(luò)異常流量,采用定性與定量結(jié)合的實(shí)驗(yàn)方式,驗(yàn)證了該分類方法的分類精度。
基于以上研究,本文將K-means聚類應(yīng)用到了軟件定義網(wǎng)絡(luò)異常流量分類方法設(shè)計(jì)中,從而提高軟件定義網(wǎng)絡(luò)異常流量的分類精度。
根據(jù)K-means聚類的原理,將軟件定義網(wǎng)絡(luò)異常流量作為特征項(xiàng),由于軟件定義網(wǎng)絡(luò)中存在很多種網(wǎng)絡(luò)流量[6],本文利用權(quán)重屬性,劃分軟件定義網(wǎng)絡(luò)異常流量的頻度,如式(1):
式中,異常流量的頻度等級(jí)為;第個(gè)軟件定義網(wǎng)絡(luò)節(jié)點(diǎn)的頻度劃分時(shí)間為;異常流量的特征集合為;網(wǎng)絡(luò)異常流量的特征量為;第層網(wǎng)絡(luò)中異常流量特征項(xiàng)為0的可能性為。
要想保證網(wǎng)絡(luò)異常流量特征提取的準(zhǔn)確性,需要提前了解軟件定義網(wǎng)絡(luò)節(jié)點(diǎn)的分布形式,借助K-means聚類原理[7],量化處理軟件定義網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)據(jù),對(duì)網(wǎng)絡(luò)異常流量的分布形式進(jìn)行轉(zhuǎn)化,具體過(guò)程如圖1所示。
根據(jù)軟件定義網(wǎng)絡(luò)異常節(jié)點(diǎn)出現(xiàn)的概率,計(jì)算了異常流量的特征值,公式為
利用權(quán)重屬性,劃分了軟件定義網(wǎng)絡(luò)異常流量的頻度,根據(jù)軟件定義網(wǎng)絡(luò)異常節(jié)點(diǎn)出現(xiàn)的概率,計(jì)算了異常流量的特征值,提取出軟件定義網(wǎng)絡(luò)異常流量特征。
通過(guò)度量軟件定義網(wǎng)絡(luò)的異構(gòu)值差,選擇軟件定義網(wǎng)絡(luò)異常流量分類屬性,具體步驟如下:
Step2:準(zhǔn)備好初始化之后的網(wǎng)絡(luò)異常流量,便于分類屬性的選擇[9];
根據(jù)以上計(jì)算步驟,利用式(5)可以實(shí)現(xiàn)異常流量參考向量的動(dòng)態(tài)更新,式(6)可以實(shí)現(xiàn)異常流量分類屬性參考向量的更新,即:
根據(jù)式(5)的計(jì)算,可以得到:
通過(guò)更新分類屬性的鄰域半徑,計(jì)算網(wǎng)絡(luò)異常流量的參考向量,選擇出軟件定義網(wǎng)絡(luò)異常流量分類屬性。
利用K-means聚類算法過(guò)濾軟件定義網(wǎng)絡(luò)異常流量,實(shí)現(xiàn)軟件定義網(wǎng)絡(luò)異常流量的檢索,具體過(guò)程如下:
利用網(wǎng)絡(luò)異常流量模型庫(kù)過(guò)濾軟件定義網(wǎng)絡(luò)異常流量的分類結(jié)果[11],經(jīng)過(guò)過(guò)濾之后,得到網(wǎng)絡(luò)異常流量檢索的候選模型集,即:
在上述計(jì)算過(guò)程的基礎(chǔ)上,引入并行計(jì)算的模式,檢索軟件定義網(wǎng)絡(luò)異常流量,即:
根據(jù)以上計(jì)算過(guò)程,實(shí)現(xiàn)了軟件預(yù)定義網(wǎng)絡(luò)異常流量的檢索。
在K-means聚類算法中,主要目的就是尋找軟件定義網(wǎng)絡(luò)中異常流量的局部特征映射[14],從而實(shí)現(xiàn)網(wǎng)絡(luò)異常流量的分類。將網(wǎng)絡(luò)異常流量分類的目標(biāo)函數(shù)定義為
根據(jù)K-means聚類算法理論,結(jié)合式(12)的計(jì)算,假設(shè)軟件定義網(wǎng)絡(luò)中異常流量是均勻分布的,那么K-means聚類算子可以根據(jù)異常流量分布情況逐漸逼近。
由于軟件定義網(wǎng)絡(luò)中異常流量的結(jié)構(gòu)為圖結(jié)構(gòu),完全不需要構(gòu)造鄰接圖[15],那么軟件定義網(wǎng)絡(luò)異常流量的分類過(guò)程可以描述為
構(gòu)建軟件定義網(wǎng)絡(luò)異常流量的加權(quán)臨界函數(shù),即:
利用K-means聚類算法,將軟件定義網(wǎng)絡(luò)異常流量的分類結(jié)果表示為
通過(guò)定義網(wǎng)絡(luò)異常流量分類的目標(biāo)函數(shù),利用K-means聚類算法理論,設(shè)計(jì)了軟件定義網(wǎng)絡(luò)異常流量分類原理,實(shí)現(xiàn)了軟件定義網(wǎng)絡(luò)異常流量的分類。
為了驗(yàn)證本文所設(shè)計(jì)的基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類方法的實(shí)際應(yīng)用效果,進(jìn)行了實(shí)驗(yàn)測(cè)試。測(cè)試過(guò)程中,將軟件定義網(wǎng)絡(luò)后臺(tái)運(yùn)行數(shù)據(jù)作為實(shí)驗(yàn)樣本數(shù)據(jù),采用兩臺(tái)計(jì)算機(jī)分別通過(guò)攻擊方式以及正常方式訪問(wèn)軟件定義網(wǎng)絡(luò),以此生成軟件定義網(wǎng)絡(luò)異常以及正常流量數(shù)據(jù),利用這些數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試,以驗(yàn)證不同方法的應(yīng)用效果。
2.1 設(shè)置評(píng)價(jià)指標(biāo)
表1 評(píng)價(jià)指標(biāo)參數(shù)解釋
結(jié)合上述指標(biāo),為了進(jìn)一步驗(yàn)證不同算法的收斂性,進(jìn)行了收斂性比較測(cè)試,以驗(yàn)證本文方法的有效性。
引入基于深度特征學(xué)習(xí)的分類方法和基于小波分析的分類方法作對(duì)比,選擇軟件定義網(wǎng)絡(luò)中的網(wǎng)絡(luò)流量數(shù)據(jù)庫(kù)作為實(shí)驗(yàn)樣本,對(duì)3種分類方法的查全率、差準(zhǔn)率和適應(yīng)度進(jìn)行測(cè)試,結(jié)果如下。
3種分類方法的查全率測(cè)試結(jié)果如圖2所示。
圖2 查全率測(cè)試結(jié)果
從圖2的結(jié)果可以看出,隨著實(shí)驗(yàn)的進(jìn)行,3種分類方法的查全率在整體上都呈現(xiàn)出上升的趨勢(shì),但是基于深度特征學(xué)習(xí)的分類方法得到的查全率始終都是緩慢上升的趨勢(shì),最大查全率為29.5%,基于小波分析的分類方法得到的查全率呈現(xiàn)出上升下降交替的趨勢(shì),最大查全率為70%,而基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類方法得到的查全率在實(shí)驗(yàn)開(kāi)始階段就達(dá)到了70%,到實(shí)驗(yàn)中期下降到40%,但是在實(shí)驗(yàn)結(jié)束時(shí),最大查全率達(dá)到了96%,說(shuō)明本文分類方法的分類效果更好。
3種分類方法的查準(zhǔn)率測(cè)試結(jié)果如圖3所示。
圖3 查準(zhǔn)率測(cè)試結(jié)果
從圖3的結(jié)果可以看出,在查準(zhǔn)率方面,基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類方法基本都在95%以上,基于深度特征學(xué)習(xí)的分類方法得到的查準(zhǔn)率是最低的,最大查準(zhǔn)率也只有80%,而基于小波分析的分類方法得到的查準(zhǔn)率在80%~90%之間,綜合分析,可以得到本文分類方法具有更好的查準(zhǔn)率,分類效果也比較好。
3種分類方法的適應(yīng)度測(cè)試結(jié)果如圖4所示。適應(yīng)度是評(píng)價(jià)異常流量分類效果的指標(biāo),適應(yīng)度值與最優(yōu)值越接近,說(shuō)明分類效果越好。
從圖4的結(jié)果可以看出,采用基于深度特征學(xué)習(xí)的分類方法和基于小波分析的分類方法時(shí),隨著實(shí)驗(yàn)的進(jìn)行,軟件定義網(wǎng)絡(luò)異常流量分類的適應(yīng)度與最優(yōu)值之間的誤差比較大,且當(dāng)實(shí)驗(yàn)超過(guò)20min以后,兩種分類方法的適應(yīng)度都低于最優(yōu)值,采用基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類方法時(shí),測(cè)試得到的適應(yīng)度與最優(yōu)值之間非常接近,說(shuō)明本文分類方法對(duì)軟件定義網(wǎng)絡(luò)異常流量進(jìn)行分類時(shí),得到適應(yīng)度更高,分類效果更好。
圖4 適應(yīng)度測(cè)試結(jié)果
不同算法的收斂性測(cè)試結(jié)果如圖5所示。
圖5 收斂性測(cè)試結(jié)果
分析圖5中的數(shù)據(jù)可知,基于深度特征學(xué)習(xí)的分類方法所使用的算法在執(zhí)行過(guò)程中始終未收斂,基于小波分析的分類方法所使用的算法在執(zhí)行過(guò)程中可以實(shí)現(xiàn)收斂,但是與基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類方法相比,所得結(jié)果的均方誤差較高,因此證明該算法具有較好的收斂性能,實(shí)際應(yīng)用效果好。
本文提出了基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類研究,結(jié)果顯示,該分類方法可以提高軟件定義網(wǎng)絡(luò)異常流量的分類效果。但是本文的研究仍然存在很多不足,在今后的研究中,還應(yīng)該引入分類精度指標(biāo)進(jìn)行測(cè)試,避免無(wú)法分辨軟件定義網(wǎng)絡(luò)中的異常流量與正常流量,提高異常流量分類方法的適用性。
[1] 張嘉譽(yù),章堅(jiān)民,楊才明,等. 基于信息物理融合的智能變電站過(guò)程層網(wǎng)絡(luò)異常流量檢測(cè)[J]. 電力系統(tǒng)自動(dòng)化,2019, 43(14): 173-181.
[2] 黎佳玥,趙波,李想,等. 基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量異常預(yù)測(cè)方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2020, 56(06): 39-50.
[3] 孟永偉,秦濤,趙亮,等. 利用殘差分析的網(wǎng)絡(luò)異常流量檢測(cè)方法[J]. 西安交通大學(xué)學(xué)報(bào),2020, 54(01): 42-48, 84.
[4] 董書(shū)琴,張斌. 基于深度特征學(xué)習(xí)的網(wǎng)絡(luò)流量異常檢測(cè)方法[J]. 電子與信息學(xué)報(bào),2020, 42(03): 695-703.
[5] 杜臻,馬立鵬,孫國(guó)梓. 一種基于小波分析的網(wǎng)絡(luò)流量異常檢測(cè)方法[J]. 計(jì)算機(jī)科學(xué),2019, 46(08): 178-182.
[6] 張艷升,李喜旺,李丹,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的工控網(wǎng)絡(luò)異常流量檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用,2019, 39(05): 1512-1517.
[7] 趙博,張華峰,張馴,等. 基于EMD的電廠網(wǎng)絡(luò)流量異常檢測(cè)方法[J]. 計(jì)算機(jī)科學(xué),2019, 46(S2): 464-468.
[8] 蔣華,張紅福,羅一迪,等. 基于KL距離的自適應(yīng)閾值網(wǎng)絡(luò)流量異常檢測(cè)[J]. 計(jì)算機(jī)工程,2019, 45(04): 108-113, 118.
[9] 孫旭日,劉明峰,程輝,等. 結(jié)合二次特征提取和LSTM-Autoencoder的網(wǎng)絡(luò)流量異常檢測(cè)方法[J]. 北京交通大學(xué)學(xué)報(bào),2020, 44(02): 17-26.
[10] 陳鐵明,金成強(qiáng),呂明琪,等. 基于樣本增強(qiáng)的網(wǎng)絡(luò)惡意流量智能檢測(cè)方法[J]. 通信學(xué)報(bào),2020, 41(06): 128-138.
[11] 任俊玲,王承權(quán),王海婷. 基于自相似指數(shù)變化率的網(wǎng)絡(luò)數(shù)據(jù)流異常分析[J]. 中國(guó)科技論文,2019, 14(10): 1154-1160.
[12] 郝成亮,陳明,孫偉,等. 電力信息系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)的實(shí)時(shí)流量監(jiān)控分析[J]. 電測(cè)與儀表,2019, 56(08): 119-123.
[13] 李源,謝一臻,王永建,等. 面向車聯(lián)網(wǎng)泛洪攻擊的流量異常檢測(cè)方法[J]. 南京理工大學(xué)學(xué)報(bào),2020, 44(04): 454-461.
[14] 王曉東,趙一寧,肖海力,等. 線上多節(jié)點(diǎn)日志流量異常檢測(cè)系統(tǒng)的研究[J]. 計(jì)算機(jī)科學(xué)與探索,2020, 14(11): 1828-1837.
[15] 徐玉華,孫知信. 軟件定義網(wǎng)絡(luò)中的異常流量檢測(cè)研究進(jìn)展[J]. 軟件學(xué)報(bào),2020, 31(01): 183-207.
Research on software defined network abnormal traffic classification based on K-means clustering
WANG Bin-bin
(Fuyang Preschool Teachers College, Anhui Fuyang 236015, China)
Considering that the classification of software defined network abnormal traffic is affected by the complexity of the network, resulting in the poor classification effect, a research on software defined network abnormal traffic classification based on K-means clustering is proposed. Using the weight attribute, the frequency of software defined network abnormal traffic is divided. Based on the transformation process of the distribution form of network abnormal traffic, the eigenvalues of abnormal traffic are calculated according to the probability of network abnormal nodes defined by software, the characteristics of software defined network abnormal traffic are extracted, and the measurement of network heterogeneous value difference is defined according to software. Initialize the reference vector value of the software defined network, calculate the reference vector of network abnormal traffic by updating the neighborhood radius of the classification attribute, select the software defined network abnormal traffic classification attribute, filter the software defined network abnormal traffic by using K-means clustering algorithm, retrieve the software defined network abnormal traffic, and define the objective function of network abnormal traffic classification. Using the theory of K-means clustering algorithm, the weighted critical function of software defined network abnormal traffic is constructed. Combined with the solution of diagonal matrix, the classification principle of software defined network abnormal traffic is designed, and the classification of software defined network abnormal traffic is realized. The experimental results show that the classification method in this paper has better classification effect in recall rate, difference rate and fitness index.
K-means clustering;software defined network;abnormal flow;classification method;feature extraction;attribute selection
2021-08-20
阜陽(yáng)幼兒師范高等??茖W(xué)校校級(jí)質(zhì)量工程——常態(tài)化疫情防控下的高職計(jì)算機(jī)基礎(chǔ)教學(xué)探討(ZLGC2020JY011)
王彬彬(1984-),男,安徽阜陽(yáng)人,講師,碩士,主要從事高職計(jì)算機(jī)基礎(chǔ)及高職高專大數(shù)據(jù)技術(shù)教學(xué)研究,bbwang8888@yeah.net。
TP393.08
A
1007-984X(2022)02-0050-06