亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種協(xié)作式異常流量檢測模型

        2019-09-17 00:40:02
        關(guān)鍵詞:測試階段決策樹分類器

        董 理

        (北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100876)

        0 引言

        隨著網(wǎng)絡(luò)、存儲、計(jì)算和傳輸?shù)牟粩嗤晟?,互?lián)網(wǎng)與人們的互動越來越緊密。雖然互聯(lián)網(wǎng)使人們的生活更加方便,但它也帶來了一些潛在的風(fēng)險(xiǎn)。例如,涉及用戶隱私和安全的惡意攻擊越來越頻繁。

        人們對互聯(lián)網(wǎng)的使用方式的改變,對傳統(tǒng)的異常網(wǎng)絡(luò)事件檢測技術(shù)提出了新的挑戰(zhàn)。研究人員更難意識到一些新的攻擊。針對這些問題,提出了一些異常網(wǎng)絡(luò)流量檢測方法。傳統(tǒng)的異常流量檢測方法可分為兩類[1-2]:一種是誤用檢測,另一種是異常檢測。這兩種方法各有利弊。誤用檢測具有很高的準(zhǔn)確性,但需要已知知識[3]的支持。異常檢測不需要已知的知識,但不能對攻擊類型進(jìn)行分類,準(zhǔn)確性也較低。例如,OM H[4]設(shè)計(jì)了一個(gè)混合檢測系統(tǒng),它是一個(gè)考慮K-means、K-最近鄰和樸素貝葉斯方法的混合異常檢測系統(tǒng)。

        然而,網(wǎng)絡(luò)流量的爆炸性增長直接或間接地推動互聯(lián)網(wǎng)進(jìn)入大數(shù)據(jù)時(shí)代,由于計(jì)算量大,大數(shù)據(jù)[5-7]導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)分布不斷變化,使得異常流量檢測更難處理。由于網(wǎng)絡(luò)數(shù)據(jù)生成的速度很快,使得正常流量和異常流量相差很大,數(shù)據(jù)的分布也發(fā)生了變化。此外,隨著大數(shù)據(jù)量的增加,正常流量和異常流量之間的差異也在增大。這使得傳統(tǒng)的方法無法有效地檢測異常流量。

        因此,為了提高異常流量的準(zhǔn)確度,避免誤報(bào)檢測帶來的松散性,提出了一種基于大數(shù)據(jù)分析的新模型,可以避免網(wǎng)絡(luò)流量分布調(diào)整帶來的影響,提高檢測精度,降低誤報(bào)率。該模型的核心不是簡單地結(jié)合傳統(tǒng)的檢測方法,而是基于大數(shù)據(jù)的新型檢測模型。在仿真中,使用K-means、決策樹和隨機(jī)森林算法作為比較對象來驗(yàn)證模型的有效性。仿真結(jié)果表明,該模型具有較好的檢測性能,正常數(shù)據(jù)檢測率為95.4%,DoS攻擊檢測率為98.6%,探針攻擊檢測率為93.9%,U2R攻擊檢測率為56.1%,R2L攻擊檢測率為77.2%。

        1 K-means算法

        K-means算法是一種常用的聚類算法[8-9],它使用簡單的迭代算法將數(shù)據(jù)集聚類成一定數(shù)量的類別,通常將聚類數(shù)注釋為K,K-means的四個(gè)步驟是:

        (1)初始化:從數(shù)據(jù)集中隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為K簇的中心。

        (2)分布:將數(shù)據(jù)集內(nèi)的每個(gè)點(diǎn)分配到最近的中心。

        (3)更新:根據(jù)集群分配計(jì)算新中心,新中心是集群中所有點(diǎn)的平均點(diǎn)。

        (4)重復(fù):重復(fù)這些步驟,直到在這一輪中沒有更新中心,并且集群已經(jīng)聚合。

        K表示需要指定分類K的數(shù)量。如果K選擇不當(dāng),將導(dǎo)致不恰當(dāng)?shù)姆诸惤Y(jié)果。因此,選擇合適的聚類數(shù)對K-means的計(jì)算結(jié)果至關(guān)重要。

        K-means的另一個(gè)缺點(diǎn)是,K-means只能使用歐幾里得距離。雖然歐幾里得距離便于計(jì)算,但它不能考慮兩個(gè)特征之間的差異,這意味著它對待所有特征都是一樣的。在現(xiàn)實(shí)中,有時(shí)會導(dǎo)致表現(xiàn)不佳。

        總而言之,K-means方法在處理大數(shù)據(jù)方面有其優(yōu)點(diǎn)和缺點(diǎn):K-means方法簡單,時(shí)間復(fù)雜度低,即n(nd*k+1logn)。

        1.1 決策樹算法

        決策樹[10-11]是機(jī)器學(xué)習(xí)中常用的算法,完整的決策樹由三種元素組成:

        (1)決策節(jié)點(diǎn):指明被用于分割的特征。

        (2)機(jī)會節(jié)點(diǎn):表示每個(gè)特征的可能值。

        (3)葉子結(jié)點(diǎn):記錄實(shí)際的類別。

        決策樹算法主要可分為兩個(gè)步驟:

        (1)樹生成:根據(jù)訓(xùn)練集生成樹。需要確定分割中需要使用哪個(gè)特性,并確定結(jié)果屬于哪個(gè)類別。

        (2)分類:從決策樹的根目錄對新記錄進(jìn)行分類,并將其與每個(gè)決策節(jié)點(diǎn)進(jìn)行比較,并將結(jié)果移動到相應(yīng)的分支。重復(fù)此過程,當(dāng)數(shù)據(jù)到達(dá)葉節(jié)點(diǎn)后,葉節(jié)點(diǎn)的類別是該節(jié)點(diǎn)的新類別。

        1.2 隨機(jī)森林

        隨機(jī)森林算法[12-13]是一種分類算法,包含多個(gè)決策樹,其中每棵樹都有一個(gè)投票權(quán),最終結(jié)果是投票權(quán)最高的樹。

        在生成決策樹時(shí),可以使用特征選擇和修剪來避免過度擬合。但是,當(dāng)特性的數(shù)量很大時(shí),問題就很難避免了。而隨機(jī)森林由多個(gè)決策樹組成,可以有效地避免這些問題。

        2 系統(tǒng)模型

        受異常流量影響,網(wǎng)絡(luò)流量數(shù)據(jù)分布會發(fā)生改變。如何在大量的網(wǎng)絡(luò)數(shù)據(jù)中精確地識別出異常流量,是本文主要研究的問題。

        本文提出了一種基于大數(shù)據(jù)分析的異常流量檢測模型。通過并行運(yùn)行正常流量分類器和異常流量分類器,并將待識別的流量數(shù)據(jù)輸入這兩個(gè)分類器,再將分類的輸出結(jié)果輸入到表決器,最后依據(jù)表決規(guī)則輸出該流量數(shù)據(jù)的識別結(jié)果。

        2.1 正常流量分類模型

        正常流量分類模型使用分類和聚類算法來區(qū)分正常和異常流量,而不是涉及特定的異常行為。該模型包括以下兩個(gè)階段。

        (1)訓(xùn)練階段:訓(xùn)練模型使用標(biāo)記為正?;虍惓5臄?shù)據(jù),訓(xùn)練之后的模型應(yīng)用于測試階段。

        (2)測試階段:測試階段與實(shí)際檢測階段相似。該模型使用未標(biāo)記的數(shù)據(jù),將流量數(shù)據(jù)分類為正?;虍惓?shù)據(jù),并對其進(jìn)行標(biāo)記。

        正常流量選擇模型一般采用K均值聚類算法、KNN、決策樹和隨機(jī)森林分類算法。傳統(tǒng)上,在使用K-means算法之前,設(shè)置類的數(shù)量非常重要,因?yàn)橥ǔS卸嗌兕悇e是未知的。但是,為了區(qū)分正常和異常行為,正常流量分類模型采用K-means算法,如下所示。

        (1)在訓(xùn)練階段,利用標(biāo)記信息將數(shù)據(jù)分為正常和異常。

        (2)對這兩個(gè)類別分別使用K-means算法,而不是同時(shí)對所有數(shù)據(jù)進(jìn)行聚類,分別得到數(shù)據(jù)集的中心。

        (3)利用數(shù)據(jù)集的中心和KNN聚類算法對測試數(shù)據(jù)進(jìn)行分類。

        2.2 異常流量分類模型

        異常流量分類模型的目的是避免正常交通量過多,正常流量與異常流量分布嚴(yán)重不均而影響分類準(zhǔn)確度。該模型將異常流量分為特定類別,并包括以下兩個(gè)階段。

        (1)訓(xùn)練階段:只使用異常數(shù)據(jù)來培訓(xùn)分類模型,以及每個(gè)數(shù)據(jù)標(biāo)簽特定的攻擊組。使用分類算法學(xué)習(xí)分類規(guī)則。

        (2)測試階段:測試階段類似于實(shí)際的檢測過程,使用未標(biāo)記的數(shù)據(jù)(包括正常行為數(shù)據(jù))。分類模型根據(jù)分類規(guī)則將異常流量分類為特定的類別,并對每一個(gè)數(shù)據(jù)給出特定的標(biāo)簽。

        異常流量分類模型采用決策樹和隨機(jī)森林分類算法。異常流量分類模型和正常流量分類模型是相互獨(dú)立的,在訓(xùn)練階段或測試階段沒有先后順序之分。

        2.3 表決器

        表決器的作用在于利用合適的規(guī)則對正常流量分類器和異常流量分類器的結(jié)果進(jìn)行調(diào)整,以提高對異常流量的識別率。

        針對現(xiàn)有異常流量分類誤報(bào)率高的問題,本文設(shè)計(jì)了一種利用正常流量分類結(jié)果修正異常流量分類結(jié)果的規(guī)則:

        cn表示正常流量分類模型的測試結(jié)果,ca表示異常流量分類模型的測試結(jié)果,Ai表示第i個(gè)異常類。異常流量檢測模型如圖1所示。

        圖1 異常流量檢測模型

        3 實(shí)驗(yàn)仿真

        在使用基于大數(shù)據(jù)分析的異常檢測模型檢測三個(gè)子模型之前,需要對數(shù)據(jù)集進(jìn)行訓(xùn)練模型的標(biāo)簽預(yù)處理。需要指出的是,正確選擇特征是減小尺寸、提高運(yùn)行效率的好方法。在仿真中,采用了三種不同的算法來驗(yàn)證模型的有效性。

        3.1 數(shù)據(jù)集

        本文采用KDDCUP99數(shù)據(jù)集來測試驗(yàn)證所提出的模型。KDDCUP99數(shù)據(jù)集是測試異常檢測模型的廣泛應(yīng)用,它是由KDDCUP99獲取和處理的。KDDCUP99數(shù)據(jù)集共有41個(gè)特征,分為三組:基本特征、內(nèi)容特征和時(shí)間特征。

        3.2 仿真結(jié)果

        如表1、表2所示,設(shè)計(jì)了12組對比實(shí)驗(yàn),每組實(shí)驗(yàn)都進(jìn)行了大量重復(fù)實(shí)驗(yàn),取平均值為最后結(jié)果。分別使用K-means(其中K-means1的正常類中心點(diǎn)為4,異常類中心點(diǎn)數(shù)為30;K-means2的正常類中心點(diǎn)數(shù)為100,異常類中心點(diǎn)數(shù)300)、決策樹或隨機(jī)森林作為3組對照組。Winner of KDDCUP99作為基線對比。

        表1 對比實(shí)驗(yàn)設(shè)置

        為得到“正常流量分類器”+“異常流量分類器”的效果,表2中專門設(shè)計(jì)了8組混合實(shí)驗(yàn),具體細(xì)節(jié)見表2.

        表2 模型算法設(shè)置

        本文中,采用分類準(zhǔn)確率作為分類效果的仿真指標(biāo),最終實(shí)驗(yàn)結(jié)果如表3所示。從表3的準(zhǔn)確率結(jié)果中可以看出,單獨(dú)的K-means算法、決策樹算法、隨機(jī)森林算法以及Winner of KDDCUP99在對正常流量和DoS流量的分類準(zhǔn)確度很高,但是對U2R、R2L等異常流量的識別精度不夠,尤其Winner of KDDCUP99算法對這些異常流量的識別準(zhǔn)確率最低。

        表3 分類準(zhǔn)確率

        在使用本文提出的模型后,通過對正常流量分類器和異常流量分類器搭配不同的算法,其分類結(jié)果均有所提升。同時(shí)通過對比第5、6、7、8四條結(jié)果,可以看出K-means算法在此時(shí)的分類效果大大受到聚類中心點(diǎn)的影響。

        為了評估對異常流量分類的效果,本文采用漏報(bào)率(原本是異常流量數(shù)據(jù)卻被分類為正常流量所占的比率)作為衡量的指標(biāo)。表4展示了對比實(shí)驗(yàn)第3組實(shí)驗(yàn)的結(jié)果,通過與表5中的實(shí)驗(yàn)結(jié)果對比可以看出,所列出的四個(gè)異常流量類的漏報(bào)率都顯著下降,驗(yàn)證了所提出的模型的有效性。

        表4 對比實(shí)驗(yàn)第3組的漏報(bào)率

        表5 實(shí)驗(yàn)組第8組的漏報(bào)率

        4 結(jié)論

        為了有效利用網(wǎng)絡(luò)大數(shù)據(jù),準(zhǔn)確的識別和檢測異常流量,本文設(shè)計(jì)了一種異常流量監(jiān)測模型。實(shí)驗(yàn)結(jié)果顯示,通過合理地選擇各模塊的算法,該模型對正常數(shù)據(jù)的檢測率為95.5%,對DoS攻擊的檢測率為98.8%,對探針攻擊的檢測率為94.0%,對U2R攻擊的檢測率為55.1%,對R2L攻擊的檢測率為77.4%,提高了對異常流量的識別率,并降低了誤報(bào)率。

        猜你喜歡
        測試階段決策樹分類器
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        淺談計(jì)算機(jī)軟件工程技術(shù)中的邏輯運(yùn)用
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Android應(yīng)用軟件測試研究
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        抽樣技術(shù)在政府審計(jì)中的應(yīng)用研究――基于細(xì)節(jié)測試階段
        基于決策樹的出租車乘客出行目的識別
        關(guān)于改進(jìn)英語專業(yè)高級英語教學(xué)過程的分析
        考試周刊(2015年62期)2015-09-10 07:22:44
        自拍视频国产在线观看| 鲁鲁鲁爽爽爽在线视频观看| 久久久久亚洲精品天堂| 日韩av一区二区三区四区av| 亚洲精品乱码久久麻豆| 偷拍偷窥女厕一区二区视频| 一本一道波多野结衣av中文| 国产精品亚洲А∨天堂免下载 | 日韩精品成人一区二区在线观看 | 国产a在亚洲线播放| 国内a∨免费播放| av无码一区二区三| 亚洲精品综合中文字幕组合| 无码专区亚洲综合另类| 欧美成人精品一区二区综合| 国产在视频线精品视频二代| 亚洲一区二区三区在线最新| 国产精品毛片无遮挡| 久久久久无码国产精品不卡| 最新国产精品精品视频| 一区二区三区四区草逼福利视频| 末成年女a∨片一区二区| 亚洲国产美女精品久久| 国产大学生自拍三级视频| 人妻少妇中文字幕在线观看| 国产精品自在线拍国产| 韩国一级成a人片在线观看| 亚洲精彩av大片在线观看| 国产成人无码av| 精品免费在线| 亚洲黄色一插一抽动态图在线看| 中文字幕人成人乱码亚洲av| 成人妇女免费播放久久久| 国产午夜亚洲精品一级在线| 国产交换精品一区二区三区| 一本色道久久88综合日韩精品 | 久久亚洲国产成人亚| 久久精品国产亚洲av豆腐| 伊人精品久久久久中文字幕| 爱a久久片| 中文字幕人妻乱码在线|