亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞袋模型的分布式拒絕服務(wù)攻擊檢測

        2017-09-03 10:23:54馬林進(jìn)馬紹菊易輝凡
        計(jì)算機(jī)應(yīng)用 2017年6期
        關(guān)鍵詞:關(guān)鍵點(diǎn)識別率直方圖

        馬林進(jìn),萬 良,馬紹菊,楊 婷,易輝凡

        (1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025; 2.貴州大學(xué) 計(jì)算機(jī)軟件與理論研究所, 貴陽 550025)

        基于詞袋模型的分布式拒絕服務(wù)攻擊檢測

        馬林進(jìn)1,2,萬 良1,2*,馬紹菊1,楊 婷1,易輝凡1

        (1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025; 2.貴州大學(xué) 計(jì)算機(jī)軟件與理論研究所, 貴陽 550025)

        (*通信作者電子郵箱lwan@gzu.edu.cn)

        針對分布式拒絕服務(wù)(DDoS) 攻擊有效荷載快速變化,人工干預(yù)需要依賴經(jīng)驗(yàn)設(shè)定預(yù)警閾值以及異常流量特征碼更新不及時等問題,提出一種基于二進(jìn)制流量關(guān)鍵點(diǎn)詞袋(BSP-BoW)模型的DDoS攻擊檢測算法。該算法可以自動從當(dāng)前網(wǎng)絡(luò)的流量數(shù)據(jù)中訓(xùn)練得到流量關(guān)鍵點(diǎn)(SP),針對不同拓?fù)渚W(wǎng)絡(luò)進(jìn)行自適應(yīng)異常檢測,減少頻繁更新特征集帶來的人工成本。首先,對已有的攻擊流量和正常流量進(jìn)行均值聚類,尋找網(wǎng)絡(luò)流量中的SP;然后,將原有的流量轉(zhuǎn)化映射到相應(yīng)SP上使用直方圖進(jìn)行形式化表達(dá);最后,通過歐氏距離進(jìn)行DDoS攻擊的分類檢測。在公開數(shù)據(jù)庫DARPALLDOS1.0上的實(shí)驗(yàn)結(jié)果表明,所提算法的異常網(wǎng)絡(luò)流量識別率優(yōu)于現(xiàn)有的局部加權(quán)學(xué)習(xí)(LWL)、支持向量機(jī)(SVM)、隨機(jī)樹(RandomTree)、logistic回歸分析(logistic)、貝葉斯(NB)等方法。所提的基于詞袋聚類模型算法在拒絕服務(wù)攻擊的異常流量識別中有很好的識別效果和泛化能力,適合部署在中小企業(yè)(SME)網(wǎng)絡(luò)流量設(shè)備上。

        詞袋;機(jī)器學(xué)習(xí);聚類;分布式拒絕服務(wù)攻擊;異常流量識別;流量關(guān)鍵點(diǎn)

        0 引言

        隨著互聯(lián)網(wǎng)規(guī)模的飛速發(fā)展,網(wǎng)絡(luò)流量迅速增加,充斥各種協(xié)議的異構(gòu)網(wǎng)絡(luò)變得越來越復(fù)雜。網(wǎng)絡(luò)異常流量的防御與檢測在網(wǎng)絡(luò)管理中至關(guān)重要,而分布式拒絕服務(wù)攻擊門檻低、危害巨大、難以抵御等特點(diǎn)成為企業(yè)需要長期面臨的嚴(yán)峻挑戰(zhàn)。在大量涌入的流量中迅速、準(zhǔn)確地識別和檢測網(wǎng)絡(luò)流量中的異常行為,減少異常攻擊流量對相關(guān)平臺業(yè)務(wù)以及網(wǎng)絡(luò)應(yīng)用的危害,保證機(jī)房網(wǎng)絡(luò)的有效運(yùn)行,對提高網(wǎng)絡(luò)的可靠性和可用性非常重要,同時也是學(xué)術(shù)界和工業(yè)界共同關(guān)注的前沿領(lǐng)域之一。

        分布式拒絕服務(wù)(Distributed Denial of Service, DDoS)攻擊檢測方式通常也可分為三種: 基于統(tǒng)計(jì)的檢測、基于數(shù)據(jù)挖掘的檢測和基于機(jī)器學(xué)習(xí)的異常檢測。Sun等[1]提出利用Bloom Filter來統(tǒng)計(jì)握手?jǐn)?shù)據(jù)包和確認(rèn)數(shù)據(jù)包的配對情況,用累積算法檢測時間序列的異常變化檢測攻擊。Yu等[2]針對大規(guī)模洪泛分布式拒絕服務(wù)攻擊進(jìn)行研究,通過模擬僵尸網(wǎng)絡(luò)發(fā)現(xiàn)了并發(fā)流特征規(guī)避現(xiàn)有檢測手段的問題,提出計(jì)算流之間的相似度來檢測分布式拒絕服務(wù)異常流量。顧曉清等[3]通過擬合IP請求熵(IP Service Request Entropy, SRE)時間序列的自適應(yīng)回歸模型,來獲得描述當(dāng)前用戶訪問行為特征的多維參數(shù)向量,通過支持向量機(jī)(Support Vector Machine, SVM)對參數(shù)向量進(jìn)行分類能夠準(zhǔn)確識別攻擊流量。Hurst指數(shù)和Holder指數(shù)分別用于描述網(wǎng)絡(luò)流量的自相似性和多重分型特征,廣泛應(yīng)用于檢測DDoS攻擊引起的網(wǎng)絡(luò)流量異常。Lu等[4]基于現(xiàn)有空間降維算法(Isomap)擴(kuò)大Hurst指數(shù)差異增加靈敏性,使用小波分析方法計(jì)算網(wǎng)絡(luò)流量的自相似性數(shù)據(jù)來進(jìn)行實(shí)時檢測。許曉東等[5]從流量的全局標(biāo)度指數(shù)和局部標(biāo)度指數(shù)出發(fā)分析流量異常的分形參數(shù),利用多分形奇異譜和Lipschitz正則性分布進(jìn)行異常檢測。冶曉隆等[6]利用主成分分析(Principal Component Analysis, PCA)對高維特征進(jìn)行降維,結(jié)合決策樹(C4.5),提出了一種半監(jiān)督的學(xué)習(xí)方法對異常流量進(jìn)行實(shí)時檢測。Lee等[7]利用DDoS攻擊數(shù)據(jù)源IP地址分布特性,提出了一種基于流量矩陣的 DDoS 檢測方法,通過優(yōu)化流量矩陣參數(shù)的方法,實(shí)現(xiàn)了對 DDoS流量的實(shí)時監(jiān)測。Yasami等[8]利用隱馬爾可夫模型提出一種基于主機(jī)地址解析協(xié)議(Address Resolution Protocol, ARP)的異常檢測算法,檢測精度達(dá)到90%以上。王宇等[9]提出基于決策樹(C4.5)的有監(jiān)督絡(luò)流量分類方法,討論特征選擇和boosting增強(qiáng)方法兩種改進(jìn)策略,文中實(shí)驗(yàn)結(jié)果表明,決策樹(C4.5)分類器的訓(xùn)練復(fù)雜度適中,準(zhǔn)確率高且分類速度快。胡石等[10]基于(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)模型和線性神經(jīng)網(wǎng)絡(luò)模型,分別提出了兩種無線傳感器網(wǎng)絡(luò)異常數(shù)據(jù)檢測方法,此類方法結(jié)合系統(tǒng)網(wǎng)絡(luò)中的流量特征信息,設(shè)計(jì)不同的自動學(xué)習(xí)算法,根據(jù)網(wǎng)絡(luò)的流量總體情況自動構(gòu)建不同的檢測模型,以此來分析系統(tǒng)網(wǎng)絡(luò)的異常行為情況。李向軍等[11]利用相對領(lǐng)域信息熵重新定義離群度,提出一種基于直推式網(wǎng)絡(luò)的異常檢測算法相對領(lǐng)域熵基礎(chǔ)上的直推式網(wǎng)絡(luò)異常檢測(Transductive Confidence Machines for Relative Neighborhood Entropy, TCM-RNE)算法,能有效降低網(wǎng)絡(luò)噪聲數(shù)據(jù)對檢測的影響。Seliya等[12]將主動學(xué)習(xí)引入神經(jīng)網(wǎng)絡(luò),建立一種異常檢測模型,通過建立一個神經(jīng)網(wǎng)絡(luò)模型對剩余數(shù)據(jù)的相關(guān)變量進(jìn)行預(yù)測,然后采用主動學(xué)習(xí)的方法將選中的實(shí)例加入訓(xùn)練集,該過程循環(huán)進(jìn)行直到滿足終止條件,從而能夠以較小的標(biāo)記代價(jià)獲得較好的檢測性能。

        基于統(tǒng)計(jì)的異常檢測方法通常需要確定閾值,閾值的設(shè)定有時還需要人工經(jīng)驗(yàn)的介入,也有一些算法是基于自適應(yīng)閾值進(jìn)行設(shè)定的。為了提高識別率有時需要人為調(diào)低閾值設(shè)定,相應(yīng)會提高誤識別率。統(tǒng)計(jì)方法還需要假定該網(wǎng)絡(luò)流量環(huán)境變化情況是一個似穩(wěn)態(tài)的過程,還不能很好應(yīng)對目前如分布式僵尸網(wǎng)絡(luò)的精心構(gòu)造的攻擊流量。基于數(shù)據(jù)挖掘的檢測算法如利用生成歸納規(guī)則、模糊邏輯、遺傳算法、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等,往往需要離線進(jìn)行迭代分析,無法實(shí)時進(jìn)行流量處理?;跀?shù)據(jù)挖掘的檢測算法訓(xùn)練期間還會分析大量訪問日志、流量數(shù)據(jù)等,其產(chǎn)生的中間結(jié)果和偏差往往不可干預(yù),前期模型訓(xùn)練一般較為復(fù)雜,實(shí)時處理時還需要占用服務(wù)器本身資源,對服務(wù)器本身有一定要求,不適用于小型機(jī)房檢測。而基于機(jī)器學(xué)習(xí)的異常檢測算法,依據(jù)機(jī)器學(xué)習(xí)算法進(jìn)行分類、聚類特征訓(xùn)練,能對流量進(jìn)行實(shí)時處理,算法本身比較靈活,具有較好的泛化識別能力和多種可選擇的算法,適用于中小型企業(yè)服務(wù)器端部署。

        網(wǎng)絡(luò)異常流量中分布式拒絕服務(wù)攻擊經(jīng)常變換、偽裝改變特征碼以達(dá)到欺騙繞過等目的,有時甚至攻擊流量來源于分布式網(wǎng)絡(luò)、物聯(lián)網(wǎng)(Internet of Things, IoT)等,通過模擬網(wǎng)絡(luò)的隨機(jī)突發(fā)性訪問進(jìn)行洪水式拒絕服務(wù)攻擊,檢測算法往往檢測到了攻擊,但無法識別是具體哪種攻擊,或者算法本身具有較高的誤識別率與低檢測率。傳統(tǒng)基于統(tǒng)計(jì)的異常檢測方法需要依賴人工經(jīng)驗(yàn)設(shè)定閾值,為了增加識別率往往通過人為調(diào)低閾值的方式達(dá)到,容易造成大量誤報(bào),統(tǒng)計(jì)方法也要求滿足精確的統(tǒng)計(jì)分布,不是所有的異常情況都可以通過完全的統(tǒng)計(jì)方法表示,而且后期的維護(hù)中需要大量人工維護(hù),不適用于攻擊防御階段的應(yīng)對處理。本文改進(jìn)了文本識別中的詞袋(Bag of Words, BoW)模型,提出了一種基于二進(jìn)制流量關(guān)鍵點(diǎn)的詞袋模型(Binary Stream Point Bag of Word model, BSP-BoW),并將其應(yīng)用到分布式拒絕服務(wù)攻擊的檢測中。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)異常流量檢測算法相比,基于流量關(guān)鍵點(diǎn)詞袋聚類的異常流量檢測算法前期建模速度快于REPTree(一種決策樹算法)、C4.5決策樹、支持向量機(jī)(Support Vector Machine, SVM)、JRip(重復(fù)增量修枝方法,即RIPPER 算法)、Logistic(Logistic回歸模型)、邏輯模型樹(Logistic Model Tree, LMT)、MultilayerPerceptron(多層感知模型)等算法,平均識別率高于OneR(簡單的1-R分類法)、貝葉斯分類器(Naive Bayes, NB)、RandomTree(隨機(jī)樹模型)、SVM等方法,能針對當(dāng)前網(wǎng)絡(luò)環(huán)境下的流量進(jìn)行訓(xùn)練建模,對偽造的正常數(shù)據(jù)流量具有較好的識別率,適合于部署在中小企業(yè)網(wǎng)絡(luò)流量設(shè)備上,具有很好的泛化識別能力,是較可行的分布式拒絕服務(wù)(DDoS)攻擊檢測方法。

        1 詞袋模型

        詞袋(BoW)模型是自然語言處理(Natural Language Processing, NLP)領(lǐng)域用于信息檢索(Information Retrieval)和文本分類(Text Classification)的模型,也廣泛應(yīng)用于計(jì)算機(jī)視覺(Computer Vision)領(lǐng)域物體識別、人臉識別、場景分類[13]、特征描述(Bag of Features, BoF)[14-15]等方面。詞袋模型假設(shè)關(guān)鍵點(diǎn)集合的特征描述可被看作是無序的特征集合,忽略語法甚至是特征的順序。為了使用流量關(guān)鍵點(diǎn)詞袋模型,首先要在訓(xùn)練階段建立流量關(guān)鍵點(diǎn)的集合:在訓(xùn)練模型中,歸一化所提取的流量特征,使用K-means算法對這些特征進(jìn)行聚類,得到的結(jié)果是可以被視為當(dāng)前網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)下流量數(shù)據(jù)的普遍特征,稱作流量關(guān)鍵點(diǎn)(Stream Point, SP)。將同一階段的拒絕服務(wù)攻擊流量映射到流量關(guān)鍵點(diǎn)上,形成流量關(guān)鍵點(diǎn)直方圖,可以表示某一階段拒絕服務(wù)攻擊的特有特征。同理,對不同階段異常流量進(jìn)行訓(xùn)練建模,可以得到整個拒絕服務(wù)攻擊的詞袋模型的流量關(guān)鍵點(diǎn)直方圖,將當(dāng)前網(wǎng)絡(luò)流量(測試集流量)映射到相應(yīng)流量關(guān)鍵點(diǎn)中,與訓(xùn)練直方圖進(jìn)行比較,可以檢測攻擊流量以及攻擊流量的階段,為防御階段的攔截提供依據(jù)。

        1.1K均值算法

        K均值算法以歐氏距離作為相似度測度,需要提前制定K值進(jìn)行聚類,是改進(jìn)提出的半監(jiān)督聚類算法。K-means算法能迅速將輸入數(shù)據(jù)集劃分為k個集群,每個集群都由一個質(zhì)心表示。其主要思想是:劃分N個輸入數(shù)據(jù)x1,x2,…,xN到k個不相交的子集Ci(i=1,2,…,k)中,對于每個ni數(shù)據(jù)集,0

        (1)

        其中:xt表示子集Ci中第t個數(shù)據(jù);ci是Ci的幾何中心;K-means算法旨在使得目標(biāo)函數(shù)得到最小值minJMSE;‖xt-ci‖2表示xt與ci之間距離度量。

        當(dāng)數(shù)據(jù)集成員使得函數(shù)I(xt,i)為1時,K-means算法劃分輸入數(shù)據(jù)xt到第i個集群中。

        (2)

        其中,c1,c2,cj,…,ck(j=1,2,…,k)是聚類的中心,通過以下步驟得到:

        步驟1 初始化k個隨機(jī)指定的聚類中心c1,c2,…,ck。

        步驟2 通過式(2)計(jì)算I(xt,i),決定第k集群最靠近哪個中心。

        步驟3 對于k個聚類中心,計(jì)算ci,令ci為集群Ci的質(zhì)量中心。

        對于每個輸入數(shù)據(jù)xt和k個集群,重復(fù)步驟2、3直到收斂。

        對于給定一組觀察值的序列x1,x2,…,xN,這里每一個觀察值都是一個d維的實(shí)值向量。K均值聚類的目標(biāo)是劃分這N個訓(xùn)練數(shù)據(jù)到k個聚類中心,最后得到k個d維的訓(xùn)練聚類中心。

        1.2 直方圖表示法

        直方圖模型可用于K-means聚類結(jié)果表示,對于k個d維的訓(xùn)練聚類中心用生成的詞頻統(tǒng)計(jì)直方圖進(jìn)行表示,如式(3)所示:

        (3)

        通常最終的結(jié)果用頻率直方圖進(jìn)行表示:

        (4)

        2 基于二進(jìn)制流量關(guān)鍵點(diǎn)的詞袋模型

        基于二進(jìn)制流量關(guān)鍵點(diǎn)的詞袋(BSP-BoW)模型算法,是在原有聚類模型的基礎(chǔ)上進(jìn)行改進(jìn),將其應(yīng)用到分布式拒絕服務(wù)攻擊的流量檢測中,可以用于異常流量的類別檢測、攻擊流量實(shí)時在線檢測以及流量分布式檢測?;诙M(jìn)制流量關(guān)鍵點(diǎn)的詞袋模型面向?qū)崟r的網(wǎng)絡(luò)流量,對于單個網(wǎng)絡(luò)數(shù)據(jù)包本身具有的結(jié)構(gòu)可以被視為一種文檔對象,且其符合特征描述無序性,故可以將詞袋模型應(yīng)用到流量檢測中。因?yàn)楦鱾€流量數(shù)據(jù)包大小不一樣,文中統(tǒng)一截取包括數(shù)據(jù)頭在內(nèi)的前面240個字節(jié)數(shù)據(jù),并將其轉(zhuǎn)化成[0,255]的整型數(shù)據(jù)。同一階段的惡意攻擊流量自身攜帶的特征可以被看作區(qū)別于正常流量的攻擊流量特征向量,可以通過流量關(guān)鍵點(diǎn)直方圖進(jìn)行形式化描述。對于訓(xùn)練樣本,使用訓(xùn)練得到的流量關(guān)鍵點(diǎn)模型進(jìn)行表示,訓(xùn)練過程如圖1~2所示。

        2.1BSP-BoW訓(xùn)練過程

        1)對于訓(xùn)練組數(shù)據(jù)流量,首先提取特征向量進(jìn)行數(shù)據(jù)歸約,[0,255]的整型數(shù)據(jù)可以轉(zhuǎn)化為[0,1]的浮點(diǎn)數(shù)據(jù),長度為120,對于訓(xùn)練集k個類別,每個類別有M個數(shù)據(jù),共k*M個數(shù)據(jù)的訓(xùn)練集數(shù)據(jù),為消除不同的特征數(shù)據(jù)度量對聚類造成影響,對網(wǎng)絡(luò)流量進(jìn)行如下變換:

        (5)

        2)給定k值,依據(jù)文獻(xiàn)[16]推薦k值選取在[2,134],選取如75作為k值,此值是較快達(dá)到識別率的數(shù)值,后續(xù)實(shí)驗(yàn)中還測試了選取[25,800]情況下識別率情況。對于步驟1)中歸一化后的大小為N的訓(xùn)練數(shù)據(jù)S={S1,S2,…,SN},這里每一個觀察值都是一個d維的特征向量。進(jìn)行均值聚類后使得JMSE最小,得到k維的數(shù)據(jù)劃分,即聚類中心。顯然,K-means的結(jié)果是當(dāng)前網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)下流量數(shù)據(jù)的普遍特征,將這些聚類中心稱為流量關(guān)鍵點(diǎn)。BSP-BoW建模得到流量關(guān)鍵點(diǎn)的訓(xùn)練過程如圖1所示。

        圖1 BSP-BoW得到流量關(guān)鍵點(diǎn)過程

        3)對于每一個訓(xùn)練集數(shù)據(jù),重新計(jì)算與各個流量關(guān)鍵點(diǎn)SP的距離,可以得到與之最接近的SP上Tk,因此可以將該訓(xùn)練集映射到第k個SP上,如式(6)所示:

        (6)

        對于每個分片,將其通過式(4)進(jìn)行直方圖表示,通過流量關(guān)鍵點(diǎn)直方圖替換描述原始流量樣本,即可得到訓(xùn)練組流量關(guān)鍵點(diǎn)直方圖,總的訓(xùn)練過程如圖2所示。

        圖2 BSP-BoW建模訓(xùn)練過程

        2.2BSP-BoW測試樣本處理過程

        對于測試樣本,同樣經(jīng)過轉(zhuǎn)化為[0,1]再通過式(5)數(shù)據(jù)處理,得到測試集特征S={S1,S2,…,SN},將測試集通過式(6)映射到訓(xùn)練得到的流量關(guān)鍵點(diǎn)中。測試樣本處理過程如圖3所示。

        圖3BSP-BoW測試樣本處理過程

        Fig. 3TestsampleprocessingofBSP-BoW

        對于測試集中不同類別的流量關(guān)鍵點(diǎn)特征向量,將同一類別的測試流量通過式(4)進(jìn)行直方圖處理,可以得到測試集流量關(guān)鍵點(diǎn)直方圖。

        2.3BSP-BoW識別過程

        對于已經(jīng)標(biāo)記的k個類別,每個類別M個數(shù)據(jù),共k*M個已經(jīng)映射到流量關(guān)鍵點(diǎn)的訓(xùn)練集數(shù)據(jù),給定一個聚類數(shù)目F如10,使得MmodF=0,可以將每一類別分為M/F個分片,訓(xùn)練集可以表示為C={C1,C2,…,Ck*M/F},同一類別的訓(xùn)練集劃分到M/F個分片內(nèi),對每一個分片,統(tǒng)計(jì)每一分片內(nèi)各個類別的流量關(guān)鍵點(diǎn)直方圖特征,h(i)表示該分片中一個類別的直方圖特征值,直方圖特征H(k)={h(1),h(2),…,h(k)},計(jì)算式如下:

        (7)

        對于訓(xùn)練集的每一個類別分片,都能得到相應(yīng)的流量關(guān)鍵點(diǎn)直方圖。訓(xùn)練集中得到的不同類別的頻數(shù)直方圖,還需要進(jìn)行式(4)處理,使得不同訓(xùn)練集樣本的個數(shù)能在同一尺度內(nèi)進(jìn)行識別。

        總的訓(xùn)練識別過程如圖4所示。

        圖4 BSP-BoW訓(xùn)練識別流程

        最終的分類識別率通過分類器進(jìn)行得到,本文采用的歐幾里得(Euclid)公式進(jìn)行檢測識別,計(jì)算式如下:

        (8)

        其中:n為Ci、Cj的維度。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集

        數(shù)據(jù)來源是DARPA(DefenseAdvancedResearchProjectsAgency) 2000數(shù)據(jù)集(http://www.ll.mit.edu/ideval/data/2000data.html),該數(shù)據(jù)集是由美國國防部高級研究計(jì)劃局(DefenseAdvancedResearchProjectsAgencyInformationTechnologyOffice,DARPAITO)和空軍研究實(shí)驗(yàn)室(AirForceResearchLaboratory,AFRL)贊助,麻省理工學(xué)院Lincoln實(shí)驗(yàn)室收集和整理的用于攻擊檢測評估的權(quán)威數(shù)據(jù)集。其中,數(shù)據(jù)集的背景流量是美國麻省理工學(xué)院(MassachusettsInstituteofTechnology,MIT)的日常流量,攻擊流量是由實(shí)際網(wǎng)絡(luò)環(huán)境下的攻擊實(shí)驗(yàn)所產(chǎn)生,包括兩個攻擊場景實(shí)例LLDOS1.0和LLDOS2.0.2,每個場景下都有Inside(內(nèi)部網(wǎng)絡(luò))、Outside(外部網(wǎng)絡(luò))和隔離區(qū)(DeMilitarizedZone,DMZ)下的流量數(shù)據(jù)。

        實(shí)驗(yàn)使用了第一個攻擊場景下的Inside流量數(shù)據(jù),其中Inside域中包括了近40臺的主機(jī)以及防火墻,該數(shù)據(jù)集標(biāo)記了PHASE1~5個不同攻擊階段的流量,總計(jì)649 787個數(shù)據(jù)包。數(shù)據(jù)集第5階段包含73 924個數(shù)據(jù),遠(yuǎn)大于第1~4階段全部數(shù)據(jù),為了更好顯示不同階級下的識別率,本文采集了1~4階段的全部數(shù)據(jù),以及部分第5階段數(shù)據(jù)和部分背景流量下作為訓(xùn)練集和測試集,其中訓(xùn)練集數(shù)量基本為測試集的1/2,數(shù)據(jù)情況如表1所示。

        表1 實(shí)驗(yàn)中使用的LLDOS數(shù)據(jù)集

        3.2 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)測試環(huán)境為Windows64位系統(tǒng),Inteli5CPU,主頻3.2GHz,內(nèi)存4GB,現(xiàn)有機(jī)器識別方法在weka3.8.0實(shí)驗(yàn)平臺下進(jìn)行,詞袋聚類方法在VS2015環(huán)境下編譯實(shí)現(xiàn)。

        3.3 實(shí)驗(yàn)結(jié)果

        首先需要對網(wǎng)絡(luò)流量進(jìn)行歸一化處理:截取包括數(shù)據(jù)頭在內(nèi)的前面120個字節(jié)數(shù)據(jù),將每個字節(jié)轉(zhuǎn)化成[0,255]的整型數(shù)據(jù),再歸一化為[0,1]數(shù)據(jù),使用式(5)進(jìn)行標(biāo)準(zhǔn)化。然后將流量數(shù)據(jù)分為訓(xùn)練集和測試集兩類,對訓(xùn)練集進(jìn)行特征提取與變換,將得到的特征向量進(jìn)行均值聚類式(2),計(jì)算流量關(guān)鍵點(diǎn)式(6)。將訓(xùn)練集的每個類別進(jìn)行分片,對于每10個分片,計(jì)算相應(yīng)的流量關(guān)鍵點(diǎn)直方圖式(7),最后通過式(4)得到流量關(guān)鍵點(diǎn)頻率直方圖。對于測試集提取的特征向量,與訓(xùn)練集得到的流量關(guān)鍵點(diǎn)進(jìn)行比較映射,將映射后得到關(guān)鍵點(diǎn)替換原始特征向量,對于每個類別,按每10個分片大小統(tǒng)計(jì)測試集的流量關(guān)鍵點(diǎn)直方圖,式(4)得到測試集的流量關(guān)鍵點(diǎn)頻率直方圖,最后的檢測使用歐氏距離式(8)進(jìn)行識別。總的訓(xùn)練識別過程如圖5所示。

        圖5 BSP-BoW總的過程

        為了比較BSP-BoW識別率,結(jié)果采用檢測率(TruePositive,TP)和誤報(bào)率(FalsePositive,FP)作為評價(jià)指標(biāo),使用準(zhǔn)確率(Precision)進(jìn)行表示,定義如下:

        presicion=NTP/(NTP+NFP)×100%

        (9)

        (10)

        其中:Dj表示LLDOS第j數(shù)據(jù)組總數(shù)據(jù)大??;pi表示該算法在第i數(shù)據(jù)組上準(zhǔn)確率。

        圖6 BSP-BoW在k=75下的準(zhǔn)確率

        使用OneR簡單的1-R分類法、ZeroR、LWL、Naive Bayes(NB)分類器、RandomTree、AttributeSelectedClassifier、Jrip(規(guī)則學(xué)習(xí)方法)、C4.5決策樹、FilteredClassifier 、Logistic(logistic回歸模型)、SVM、REPTree 、LogitBoost(采用對數(shù)回歸方法的弱學(xué)習(xí)器)、MultilayerPerceptron、LMT(組合樹結(jié)構(gòu)和Logistic回歸模型)進(jìn)行比較。由于不同的k值對識別率有一定影響,為了減少k值選取對本文方法所造成的影響,測試了k值選取在100~1 000,間距大小為25共計(jì)37組實(shí)驗(yàn)的全部實(shí)驗(yàn)結(jié)果,使用各組的平均值作為BSP-BoW平均效果,表2依據(jù)平均識別率對不同算法由高到低進(jìn)行排序,最后一行為BSP-BoW算法結(jié)果。

        其中:NB在D3、D4、D6上識別不佳;D6數(shù)據(jù)總數(shù)量有9 000組,識別率不高直接造成總體加權(quán)識別率下降,NB不能很好地泛化正常的流量。C4.5在D2、D3、D4上容易造成混淆,對類別的區(qū)分不是很敏感;但對于D5數(shù)據(jù)識別很好。SVM對于有些單類別識別的效率很高,對于D3、D4識別效果不佳。LogitBoost算法在D2、D5識別上優(yōu)于BSP-BoW,但加權(quán)平均值低于BSP-BoW。BSP-BoW在D3、D6上識別率優(yōu)于NB、C4.5;D6訓(xùn)練數(shù)較多,其識別率達(dá)到99%,總的加權(quán)平均值達(dá)到97.8%。表3為實(shí)驗(yàn)中所有算法的訓(xùn)練與測試所耗費(fèi)時間的詳細(xì)數(shù)據(jù)(以總耗費(fèi)時間排序從小到大排序)。MultilayerPerceptron、LMT方法雖然加權(quán)識別上準(zhǔn)確率較高,但是耗費(fèi)時間較多。

        表2 LLDOS數(shù)據(jù)集下不同算法的識別率

        表3 LLDOS數(shù)據(jù)集訓(xùn)練測試時間

        其中ZeroR訓(xùn)練與識別時間為0.23s,但其識別率平均為50.3%;LMT訓(xùn)練時間為60.44s,總的時間為61.02s;MultilayerPerceptron訓(xùn)練時間達(dá)到345s,總的時間345.89s,高于BSP-BoW的23.49s;而BSP-BoW比較的時間為平均時間,訓(xùn)練時間隨著k的個數(shù)從100至1 000變化依次增加,從4.24s至43.57s,平均時間約為23.49s,準(zhǔn)確率較高,能快速達(dá)到識別率要求。綜上,考慮時間,BSP-BoW能在相等時間耗費(fèi)的情況下迅速收斂,總體識別率為97.8%。

        為了進(jìn)一步測試詞袋聚類算法的優(yōu)劣性,本文在不同聚類中心大小下還作了進(jìn)一步實(shí)驗(yàn)測試,得到BSP-BoW識別率如圖7~8所示。

        圖7 不同聚類個數(shù)k下BSP-BoW 識別率(小范圍)

        圖7所示為k值在100到1 000之間變化對應(yīng)的BSP-BoW識別率,當(dāng)聚類個數(shù)達(dá)到75左右,即達(dá)到90%以上識別率,其中聚類個數(shù)125的情況下識別率為98.7%,且隨著聚類個數(shù)的增加,識別率穩(wěn)定在97.8%左右。

        繼續(xù)增大聚類個數(shù),隨著聚類中心的增多,識別率突變上升,隨后聚類中心開始影響最終識別率,呈現(xiàn)緩慢下降趨勢,繼續(xù)增大聚類個數(shù),識別率下降更加明顯,具體變化趨勢如圖8所示。通過高斯曲線擬合,得到曲線如圖8中所示擬合曲線??傮w來說,隨著聚類中心的個數(shù)增加,前期識別率指數(shù)級增加,識別率維持在一定范圍內(nèi)。隨著不斷增加聚類個數(shù),當(dāng)進(jìn)入一段區(qū)域(1 500~3 000)后,聚類中心會轉(zhuǎn)化為噪聲,影響識別率,識別率開始劇烈抖動。當(dāng)大于3 000后,識別率開始下降。由圖7~8可知,最優(yōu)k值處于識別率穩(wěn)定的階段,如100~1 000,最優(yōu)值與識別率穩(wěn)定存在一定關(guān)聯(lián)。

        圖8 不同聚類個數(shù)k下BSP-BoW識別率(大范圍)

        4 結(jié)語

        本文提出改進(jìn)的基于二進(jìn)制流量關(guān)鍵點(diǎn)的詞袋模型(BSP-BoW),能對當(dāng)前網(wǎng)絡(luò)環(huán)境下異常流量進(jìn)行分析,得到當(dāng)前環(huán)境的流量關(guān)鍵點(diǎn),適合中小型網(wǎng)絡(luò)的異常流量的快速檢測識別判斷。實(shí)驗(yàn)結(jié)果表明,該方法相比現(xiàn)有的OneR、NB、RandomTree、SVM等方法迅速有效,適合部署于中小企業(yè)網(wǎng)絡(luò)流量設(shè)備上,具有很好的泛化識別能力,是比較可行的DDoS攻擊檢測方法。下一步研究方向在于如何確定最優(yōu)k值,是否存在規(guī)律,以及是否存在最優(yōu)分片個數(shù),使得識別率迅速收斂,達(dá)到最優(yōu)。

        )

        [1]SUNCH,FANJD,LIUB.ArobustschemetodetectSYNfloodingattacks[C]//CHINACOM’07:Proceedingsofthe2007SecondInternationalConferenceonCommunicationsandNetworkinginChina.Piscataway,NJ:IEEE, 2007: 397-401.

        [2]YUS,GUOS,STOJMENOVICI.Canwebeatlegitimatecyberbehaviormimickingattacksfrombotnets? [C]//INFOCOM’12:Proceedingsofthe2012 31stAnnualIEEEInternationalConferenceonComputerCommunications.Piscataway,NJ:IEEE, 2012: 2851-2855.

        [3] 顧曉清,王洪元,倪彤光,等.基于時間序列分析的應(yīng)用層DDoS攻擊檢測[J].計(jì)算機(jī)應(yīng)用,2013,33(8):2228-2231.(GUXQ,WANGHY,NITG,etalDetectionofapplication-layerDDoSattackbasedontimeseriesanalysis[J].JournalofComputerApplications, 2013, 33(8): 2228-2231.)

        [4]LULF,HUANGML,ORGUNMA,etal.AnimprovedwaveletanalysismethodfordetectingDDoSattacks[C]//NSS’10:Proceedingsofthe2010 4thInternationalConferenceonNetworkandSystemSecurity.Piscataway,NJ:IEEE, 2010: 318-322.

        [5] 許曉東,朱士瑞,孫亞民.基于分形特性的宏觀網(wǎng)絡(luò)流量異常分析[J].通信學(xué)報(bào),2009,30(9):43-53.(XUXD,ZHUSY,SUNYM.Anomalydetectionalgorithmbasedonfractalcharacteristicsoflarge-scalenetworktraffic[J].JournalonCommunications, 2009, 30(9): 43-53.)

        [6] 冶曉隆,蘭巨龍,郭通.基于主成分分析禁忌搜索和決策樹分類的異常流量檢測方法[J].計(jì)算機(jī)應(yīng)用,2013,33(10):2846-2850.(YEXL,LANJL,GUOT.Networkanomalydetectionmethodbasedonprinciplecomponentanalysisandtabusearchanddecisiontreeclassification[J].JournalofComputerApplications, 2013, 33(10): 2846-2850.)

        [7]LEESM,KIMDS,LEEJH,etal.DetectionofDDoSattacksusingoptimizedtrafficmatrix[J].Computers&MathematicswithApplications, 2012, 63(2): 501-510.

        [8]YASAMIY,FARAHMANDM,ZARGARIV.AnARP-basedanomalydetectionalgorithmusinghiddenMarkovmodelinenterprisenetworks[C]//ICSNC2007:Proceedingsofthe2007SecondInternationalConferenceonSystemsandNetworksCommunications.Piscataway,NJ:IEEE, 2007: 69.

        [9] 王宇,余順爭.網(wǎng)絡(luò)流量的決策樹分類[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(11):2150-2156.(WANGY,YUSZ.Internettrafficclassificationbasedondecisiontree[J].JournalofChineseComputerSystems, 2009, 30(11): 2150-2156.)

        [10] 胡石,李光輝,盧文偉,等.基于神經(jīng)網(wǎng)絡(luò)的無線傳感器網(wǎng)絡(luò)異常數(shù)據(jù)檢測方法[J].計(jì)算機(jī)科學(xué),2014,41(11A):208-211.(HUS,LIGH,LUWW,etal.Outlierdetectionmethodsbasedonneuralnetworkinwirelesssensornetworks[J].ComputerScience, 2014, 41(11A): 208-211.)

        [11] 李向軍,張華薇,鄭思維,等.基于相對鄰域熵的直推式網(wǎng)絡(luò)異常檢測算法[J].計(jì)算機(jī)工程,2015,41(8):132-139.(LIXJ,ZHANGHW,ZHENGSW,etal.Transductivenetworkanomalydetectionalgorithmbasedonrelativeneighborhoodentropy[J].ComputerEngineering, 2015, 41(8): 132-139.)

        [12]SELIYAN,KHOSHGOFTAARTM.Activelearningwithneuralnetworksforintrusiondetection[C]//IRI2010:Proceedingsofthe2010IEEEInternationalConferenceonInformationReuseandIntegration.Piscataway,NJ:IEEE, 2010: 49-54.

        [13] 王宇新,郭禾,何昌欽,等.用于圖像場景分類的空間視覺詞袋模型[J].計(jì)算機(jī)科學(xué),2011,38(8):265-268.(WANG Y X, GUO H, HE C Q, et al. Bag of spatial visual words model for scene classification [J]. Computer Science, 2011, 38(8): 265-268.)

        [14] QIU Q, CAO Q X, ADACHI M. Filtering out background features from BoF representation by generating fuzzy signatures [C]// iFUZZY 2014: Proceedings of the 2014 International Conference on Fuzzy Theory and Its Applications. Piscataway, NJ: IEEE, 2014: 14-18.

        [15] MA L J, WANG H J. A new method for wood recognition based on blocked HLAC [C]// ICNC 2012: Proceedings of the 2012 Eighth International Conference on Natural Computation. Piscataway, NJ: IEEE, 2012: 40-43.

        [16] 吳夙慧,成穎,鄭彥寧,等.K-means 算法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2011,27(5):28-35.(WU S H, CHENG Y, ZHENG Y N, et al. Survey onK-means algorithm [J]. New Technology of Library and Information Service, 2011, 27(5): 28-35.)

        This work is partially supported by the Guizhou Provincial Science Department Project (KEHE LH [2014]7634, KEHE J [2011]2328).

        MA Linjin, born in 1991, M. S. candidate. His research interests include information security, pattern recognition, anomaly traffic detection, distributed denial of service attack detection.

        WANG Liang, born in 1974, Ph. D., professor. His research interests include information security, formal method, machine learning, intelligent home.

        MA Shaoju, born in 1991, M. S. candidate. Her research interests include information security, App privacy protection.

        YANG Ting, born in 1992, M. S. candidate. Her research interests include information security, intelligent home.

        YI Huifan, born in 1993, M. S. candidate. His research interests include information security, formal method.

        Distributed denial of service attack recognition based on bag of words model

        MA Linjin1,2, WAN Liang1,2*, MA Shaoju1, YANG Ting1, YI Huifan1

        (1.CollegeofComputerScienceandTechnology,GuizhouUniversity,GuiyangGuizhou550025,China; 2.InstituteofComputerSoftwareandTheory,GuizhouUniversity,GuiyangGuizhou550025,China)

        The payload of Distribute Denial of Service (DDoS) attack changes drastically, the manual intervention of setting warning threshold relies on experience and the signature of abnormal traffic updates not timely, an improved DDoS attack detection algorithm based on Binary Stream Point Bag of Words (BSP-BoW) model was proposed. The Stream Point (SP) was extracted automatically from current network traffic data, the adaptive anomaly detection was carried out for different topology networks, and the labor cost was reduced by decreasing frequently updated feature set. Firstly, the mean clustering was carried out for the existing attack traffic and normal traffic to look for SP in the network traffic. Then, the original traffic was mapped to the corresponding SP for formalized expression by histogram. Finally, the DDoS was detected and classified by Euclidean distance. The experimental results on public database DARPA LLDOS1.0 show that, compared with Locally Weighted Learning (LWL), Support Vector Machine (SVM), Random Tree (RT), Logistic regression analysis (Logistic), Naive Bayes (NB), the proposed algorithm has higher recognition rate of abnormal network traffic. The proposed algorithm based on BoW model has the good recognition effect and generalization ability in abnormal network traffic recognition of denial of service attack, which is suitable for the deployment in the Small Medium Enterprise (SME) network traffic equipment.

        Bag of Words (BoW); machine learning; clustering; Distributed Denial of Service (DDoS) attack; anomaly traffic detection; Stream Point (SP)

        2016- 11- 08;

        2017- 01- 06。

        貴州省科學(xué)基金資助項(xiàng)目(黔科合LH字[2014]7634號,黔科合J字[2011]2328號)。

        馬林進(jìn)(1991—),男,浙江臺州人,碩士研究生,主要研究方向:信息安全、模式識別、異常流量檢測、分布式拒絕服務(wù)攻擊檢測;萬良(1974—),男,貴州銅仁人,教授,博士,CCF會員,主要研究方向:信息安全、形式化方法、機(jī)器學(xué)習(xí)、智能家居; 馬紹菊(1991—),女,貴州畢節(jié)人,碩士研究生,CCF會員,主要研究方向:信息安全、App隱私保護(hù); 楊婷(1992—),女,貴州畢節(jié)人,碩士研究生,主要研究方向:信息安全、智能家居; 易輝凡(1993—),男,貴州安順人,碩士研究生,CCF會員,主要研究方向:信息安全、形式化方法。

        1001- 9081(2017)06- 1644- 06

        10.11772/j.issn.1001- 9081.2017.06.1644

        TP

        A

        猜你喜歡
        關(guān)鍵點(diǎn)識別率直方圖
        統(tǒng)計(jì)頻率分布直方圖的備考全攻略
        符合差分隱私的流數(shù)據(jù)統(tǒng)計(jì)直方圖發(fā)布
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個關(guān)鍵點(diǎn)
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        用直方圖控制畫面影調(diào)
        提升高速公路MTC二次抓拍車牌識別率方案研究
        高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
        基于直方圖平移和互補(bǔ)嵌入的可逆水印方案
        亚洲av日韩av不卡在线观看| 麻豆人妻性色av专区0000| av人摸人人人澡人人超碰下载 | 天堂麻豆精品在线观看| 丝袜美腿一区二区国产| 曰本大码熟中文字幕| 狼人国产精品亚洲| 亚洲精品一区二区视频| 青青草视频在线观看色| 免费拍拍拍网站| 国产av成人精品播放| 国产精品亚洲一区二区三区妖精| 中文字幕精品一区久久| 精品水蜜桃久久久久久久| 国产美熟女乱又伦av果冻传媒| 99精品又硬又爽又粗少妇毛片| 日韩乱码中文字幕在线| 成 人免费va视频| 亚洲另类欧美综合久久图片区 | 中文字幕在线日亚洲9| 久久天天躁夜夜躁狠狠躁2022| 国产精品国产三级国产三不| 日本一区二区三区光视频| yw尤物av无码国产在线观看| 在线a免费观看| 人妻免费黄色片手机版| 亚洲视频在线一区二区| 成人白浆超碰人人人人| 亚洲欧美日韩精品高清| 在线观看国产一区二区av| 品色堂永远免费| 日本欧美小视频| 久久久99精品国产片| 亚洲av无码乱码精品国产| 人妻影音先锋啪啪av资源| 国模少妇无码一区二区三区 | 国产av无码专区亚洲精品| 欧美亚洲日韩国产人成在线播放 | 精品香蕉一区二区三区| 亚洲av无码一区二区三区系列| 久久久久亚洲AV无码专区一区|