亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機制的DDoS攻擊檢測方法

        2021-09-16 01:51:42王慶生陳永樂郭旭敏
        計算機工程與設計 2021年9期
        關鍵詞:數據流數據包注意力

        賈 婧,王慶生+,陳永樂,郭旭敏

        (1.太原理工大學 信息與計算機學院,山西 晉中 030600;2.山西青年職業(yè)學院 計算機信息與工程系,山西 太原 030000)

        0 引 言

        攻擊者利用傀儡機使用分布式、協作式計算機資源以網絡帶寬和系統(tǒng)資源為主要攻擊目標,發(fā)送大量良性流量導致目標用戶無法訪問服務[1-3]。由于DDoS攻擊具有易實施、易布控、難以防范追蹤以及攻擊流量多樣性、混合性、不確定性等特點,因此以區(qū)分合法流量和攻擊流量為目標的攻擊檢測成為DDoS主要防御機制之一。其中基于統(tǒng)計學習,機器學習等淺層學習方法很難捕捉DDoS攻擊的演化本質,導致DDoS攻擊檢測準確率不高。同時,基于深度學習方法通過前后向序列信息去考慮特征的時空相關性,一定程度上提高了檢測準確率[6]。但是對于長期序列而言,深度學習中編碼向量所能存儲的信息以及其相互關系受限于序列間的距離,導致某種程度造成序列間重要特征丟失。

        因此,本文提出基于注意力機制的雙向LSTM模型應用到DDoS攻擊檢測之中。首先,根據DDoS攻擊領域知識提取出網絡攻擊流量最相關元組特征,即多種大流量攻擊類型所具備的明顯流量特征,將其與數據預處理后的數據集進行向量拼接。隨后,提出于BiLSTM中加入注意力機制模塊,為對序列進行全面分析和局部探索,BiLSTM網絡使用所有從未來和過去的時間步長所獲得的信息,學習嵌入在原始輸入流量中的復雜流級特征表示,同時注意力模型有助于聚焦表示DDoS攻擊的隱含信息,將有限注意力資源聚焦于高價值信息,用于提高準確率,降低誤報率。

        1 研究現狀

        DDoS攻擊的數量、頻率、復雜程度和影響都在急劇增長,攻擊方式變得尤為難以緩解,區(qū)分正常流量和DDoS攻擊流量特別困難。

        關于統(tǒng)計方法在DDoS攻擊檢測方面的應用,Bhuyan MH等[4]根據Hartley熵、Shannon熵、Renyi熵、廣義熵這些度量來描述網絡流量數據的特征進而檢測低速率DDoS攻擊;Hoque N等[5]提取出3個特征,即源IP的熵、源的變化IP和數據包速率,計算對網絡流量的每個樣本使用FFSc的相似度值用于攻擊檢測。然而統(tǒng)計方法需要根據專業(yè)知識進行特征向量提取,所以人為因素的不確定性導致準確率有所影響;同時機器學習在此領域中已經取得了不錯的效果,Singh.K等[7]提出一種基于隨機森林分類模型的DDoS檢測方法,將數據流信息熵作為分類標準,對3種常見的DDoS攻擊方式進行特征分析,但由于傳統(tǒng)機器學習的局限性,無法從攻擊流量的長期序列中獲取深層次特征,很難對低速率DDoS進行檢測,準確率低。近年來,深度學習在各個領域中卓有成效,在DDoS攻擊檢測中,利用一系列連續(xù)的網絡數據包獲取攻擊流量和合法流量之間的區(qū)別。Saied等[8]提出一種使用人工神經網絡檢測已知和未知的DDoS攻擊的檢測方法,選擇人工神經網絡(ANN)基于分離DDoS的特定特征,來檢測DDoS攻擊行為;Yuan X等[9]設計了一個遞歸的深度神經網絡(RNN),從網絡流量序列中學習模式,并跟蹤網絡攻擊活動。

        基于注意力機制的神經網絡最近成為了圖像再識別、語音識別和語言翻譯等研究領域中的一個熱點[10-12],其本質包含兩個部分:其一,基于實現任務目標,需著重于輸入目標的哪個部分;其二,針對使用全局注意力機制計算出注意力值,從已關注部分模塊快速篩選有用信息。在DDoS攻擊檢測領域,注意力機制思想還未得到應用。本文借鑒其主要思想提出基于注意力機制的雙向LSTM進行DDoS攻擊檢測方法。

        2 基于注意力機制的DDoS攻擊檢測

        本文提出一種基于注意力機制的DDoS攻擊檢測方法,該方法包含領域知識、數據預處理、基于注意力機制的BiLSTM這3個模塊,系統(tǒng)總體結構如圖1所示。首先,將根據領域知識所提取的特征向量與數據預處理后的數據流矩陣進行向量拼接,然后經過BiLSTM模型和注意力模型學習表示,最終通過分類器完成DDoS攻擊數據流檢測工作。

        圖1 總體結構

        2.1 領域知識

        領域知識[13]是某個研究領域中相互關聯、相互約束的概念集合,當我們處理控制、優(yōu)化和其它問題時,我們需要利用領域知識來正確地設計、初始化和修改問題解決程序的參數。DDoS攻擊的本質是攻擊者可以使用大量的“傀儡”機器短時間生成大量攻擊流量使系統(tǒng)或網站崩潰。當攻擊發(fā)生時源IP地址端和目的IP地址端數據包數量差異大以及網絡流量中數據包的大小變化率、不同端口間增長率及時間間隔均異常增長。為了及時精確檢測DDoS攻擊,本文基于DDoS攻擊領域知識,提取出最相關的特征子集,即四元組流量特征。領域知識特征組見表1。

        表1 領域知識特征向量組

        (1)不同端口增長速率:當發(fā)生大流量攻擊例如Smurf、ICMP、UDP攻擊時,通常攻擊者所發(fā)起的瞬時高峰流量通過隨機生成端口進行端口掃描攻擊,端口變化速率有異常激增情況。

        (2)單位時間內數據包數量:由于DDoS大流量攻擊有瞬時、突發(fā)等特點,單位時間內所產生的數據包急劇增加。

        (3)數據包大小變化率:攻擊者通過僵尸網絡產生大量無用數據包,其內容及字節(jié)長度一致性較高,相較于正常數據包往往大小不一。因此數據包大小變化率極低。

        (4)流持續(xù)時間:當發(fā)生TCP攻擊時,攻擊方利用3次握手協議缺陷導致受害者端資源被半連接隊列充滿,持續(xù)時間較正常連接變長。

        2.2 基于注意力機制的BiLSTM結構

        2.2.1 注意力機制

        注意力機制在深度學習中被廣泛應用研究,其在語音識別、機器翻譯等序列數據方面取得較好的效果,其本質是通過將足夠的注意力來突出對結果有重要貢獻的局部信息,而忽視不相關的信息。本文將對LSTM結構中的注意力機制進行過程說明:

        LSTM結構中,編碼器讀取向量的輸入序列,x=(x1,x2,…,xTx)為向量c,公式如下

        st=f(xt,st-1,ct)

        (1)

        c=q(s1,…,sTx)

        (2)

        其中,st為隱藏層狀態(tài),c為取決于LSTM隱藏狀態(tài)的輸出向量。在注意力模型中,上下文向量ct與編碼器映射輸入句子的注釋序列(h1,h2,…,hTx)密切相關,整個輸入序列的信息包含在注釋ht中,這些信息主要集中在圍繞輸入序列第t個單詞的部分,所有注釋的加權和構成上下文向量ct,公式如下

        (3)

        式中:每個注釋hj的權重αtj計算公式如下

        (4)

        etj=a(st-1,hj)

        (5)

        其中,函數a(st-1,hj)是用于描述j位置附近的輸入與t位置處的輸出之間的匹配能力,權重通過使用LSTM隱藏狀態(tài)st-1和輸入語句的第j個單詞的注釋hj來計算。神經網絡中的注意力機制旨在通過評估權重αtj選擇輸入中的重要輸入序列(x1,x2,…,xTx),使得神經網絡有能力專注于序列子集的輸入,即它總是選擇重要的輸入。注意力機制模型如圖2所示。

        圖2 注意力機制模型

        2.2.2 基于注意力機制的雙向LSTM結構

        長短期記憶網絡(LSTM)是RNN的最常見形式之一,旨在避免RNN等長期依賴問題,并且適合全局化處理和預測時序數據,但傳統(tǒng)LSTM的明顯缺點是它們僅利用先前的(單方面)信息對輸出進行價值評估。在DDoS攻擊檢測過程中,不僅需要關注相鄰數據流,還需要關注長距離流,以確定當前數據流是合法流量還是攻擊流量。雙向LSTM網絡通過前后向時間步長獲得信息,同時注意機制接受注釋以提取對攻擊檢測很重要的數據包所包含的細微特征,同時聚合并判斷這些信息對結果的貢獻度,形成注意力分布向量。基于注意力機制的BiLSTM結構如圖3所示。

        圖3 基于注意力機制的BiLSTM結構

        BiLSTM由2個并行運行的LSTM組成:一個按順時針方向處理數據方向即x1到xt,而另一個設置為逆時針方向即xt到x1。在每個時間步長,BiLSTM的隱藏狀態(tài)是向前和向后隱藏狀態(tài)的串聯,此設置允許隱藏狀態(tài)以捕獲過去和將來的信息,公式如下

        (6)

        (7)

        (8)

        基本的LSTM由一個存儲器組成的單元,一個輸入激活功能和3個門(輸入門it,忘記門ft,輸出門ot)。LSTM網絡在每個單個時間步生成兩個狀態(tài):一個單元狀態(tài)轉移到下一個時間步和隱藏狀態(tài)時間步的輸出向量。

        ht-1和ct-1是隱藏狀態(tài)和單元狀態(tài)上一個時間步t-1,ht和ct分別是隱藏狀態(tài)和當前時間步t的單元狀態(tài),定義如下

        ft=σ(Wf·[ht-1,xt]+bf)

        (9)

        it=σ(Wi·[ht-1,xt]+bi)

        (10)

        ct=ft°ct-1+it°[tanh(Wc·[ht-1,xt]+bc)]

        (11)

        ot=σ(Wo·[ht-1,xt]+bo)

        (12)

        ht=ot°tanh(ct)

        (13)

        權重(Wf,Wi,Wc和Wo)和偏差(bf,bi,bc和bo)都是可訓練的參數。最后時間步長的隱藏狀態(tài)ht是整個LSTM網絡的輸出。

        在雙向LSTM網絡中,聯合嵌入序列(前向)和對應的反向嵌入序列(后向)分別輸入兩個LSTM,最終雙向LSTM的輸出為hn,之后根據公式計算其對應的注意力權重,并對所有的隱藏向量進行加權求和得出其最終編碼向量c,然后將所得值傳入全連接層特征轉換后,傳入最后softmax函數的輸出層計算輸出向量。該模型偽代碼如下所示。

        算法1:基于注意力機制的BiLSTM算法

        輸入:數據流樣本F={P(1),P(2),…P(i),…,P(N)|1≤i≤N}

        輸出:樣本分類結果S

        (1) For P(i)in F:

        (5) End for

        (7)S=softmax(fullyconnect(c))

        3 實驗與分析

        3.1 實驗數據集

        本文在CAIDA-2007[14]數據集上評估了所提出的框架。此數據集包含2007年8月4日DDoS攻擊大約一小時的匿名流量跟蹤,包含UDP Flood、TCP Flood、ICMP(Ping)Flood和SYN Flood數據包。數據集中的每個數據包包含源IP地址、目的IP地址、數據包長度、協議和數據包到達時間。數據集包括213 066條網絡流量,其中正常流量有94 164條,攻擊流量118 902條。將總流量數據集分成60%(127 839)和40%(85 227)進行訓練和測試。

        3.2 實驗細節(jié)

        3.2.1 數據預處理

        根據領域知識,本文使用CICFlowMeter流量提取器[15],對CAIDA-2007訓練集提取[Por_inc_rate,Pac_tim_inte,Pac_size_rate,Flow_dur]特征四元組。由于CAIDA-2007數據集屬于原始的、未經處理的pcap格式流量集合,該格式無法輸入神經網絡進行訓練,因此本文將原數據以數據流、數據包、數據包字節(jié)三級結構轉換為神經網絡數據輸入格式,通過源地址、目的地址、傳輸層協議、源端口四元組來唯一標記一條數據流,即這兩個ip地址間相同協議,相同源端口所進行的會話視為同一條數據流。使用SplitCap工具按上述四元組將每條數據流樣本分割為時間順序不變的數據包M,每個數據包里的字節(jié)數為N。即每條數據流表示為N*M矩陣格式。由于N,M有所不同,采用padding補全或切斷數據包字節(jié)數和數據包個數使得數據流滿足模型數據輸入格式。數據流格式如圖4所示。

        圖4 數據流格式

        將數據流切分后的DDoS數據集和根據領域知識提取的特征四元組進行向量拼接及維度重構,構成(N+4)*M矩陣格式作為神經網絡輸入格式。由于數據包里有二進制字符串組成,將每個字節(jié)轉換為取值范圍[0,255]的十進制數,將協議類型布爾型轉換為二進制數。同時,將數據轉換后的十進制數進行取值為[0-1]的歸一化處理,經過處理后的數據格式可以提高模型收斂速度。

        為了確定最佳數據包數M和字節(jié)數N,分別對數據包數N取100,300,500,M取500,1000,1500進行實驗。

        3.2.2 實驗過程

        BiLSTM模型設置中,LSTM內部神經元個數為100,全連接層神經元個數為128。為了克服過度擬合的問題,本文使用在模型訓練中采用dropout技術,其丟棄率值為0.5;使用Adam優(yōu)化算法來調整學習率,初始學習率為0.001;訓練過程中使用CAIDA-2007數據集進行十折交叉驗證,批量大小設置為100,epochs設置為30,其它超參數設定采用默認值。

        本文硬件實驗環(huán)境參數如下:Intel Xeon E5-2678 V3 2.50 GHz 2,NVIDIA Tesla K40c GPU 2,128 gb RAM, 120 gb SSD。所有實驗均TensorFlow編寫,并使用GPU進行訓練、測試。

        為了選取最佳的流量矩陣表示格式,選取N=[500,1000,1500],M=[100,300,500]進行排列組合構成9種可能,將其輸入已確定參數的Att-Bilstm模型中,最終不同格式數據流分類準確率如圖5所示。

        圖5 不同格式數據流分類準確率

        從圖中可以看出,當M=500,N=1000時,模型性能表現最好,準確率最高。隨著數據流需劃分數據包個數M的減少,準確率同比下降9.1%~27.9%,因為對于DDoS攻擊檢測數據流的時序要求,每條數據流樣本處理時保留多的數據包個數有助于訓練序列數據間時序特征;由于DDoS攻擊中產生大量內容、字節(jié)大致相同的攻擊流,而數據包所包含的類別表征信息集中于前幾個數據字節(jié)數,而數據包具體內容信息集中于后幾個字節(jié)數,因此字節(jié)數設定為1000可以獲得較高準確率。通過以上實驗分析,N=500,M=1000是最佳數據流矩陣格式。

        數據流切分設置階段,以每條數據流[500,1000]的矩陣格式劃分,同時將預處理后的DDoS數據格式和根據領域知識提取的四元組特征進行向量拼接及維度重構,構成[500,1004]矩陣的數據輸入格式。

        3.3 評價標準

        本實驗采用準確性,召回率和F量度作為評價標準。其中TP代表真陽性數,FP代表假陽性數,FN代表假陰性數。精度由以下定義確定:所有元素中正確分類為肯定的元素歸類所占比例,而召回率則定義為正確分類為正數的元素所占的比例

        3.4 結果與分析

        3.4.1 深度學習檢測結果

        為了更直觀展示本文方法Att-BiLSTM的性能,與諸如RNN(循環(huán)神經網絡)、LSTM(長短期記憶網絡)、BiLSTM(雙向長短期記憶網絡)和Att-BiRNN進行對比實驗。不同深度學習結果見表2。

        表2 不同深度學習效果對比

        實驗結果可以看出,Att-BiLSTM模型在處理DDoS攻擊檢測分類時有很好的效果。與RNN、LSTM模型相比,BiLSTM模型中的記憶單元不僅有效記錄數據流中的數據信息,而且加強模型對時序序列數據的雙向學習能力,從而模型達到相對較好的結果。與BiLSTM、Att-BRNN模型相比,本文模型F度量增加了0.4%~1.2%,表明Att-BiLSTM既避免了BiRNN對遠端序列的長期依賴問題,同時注意力機制的加入將數據包對分類結果所產生的不同的貢獻度生成注意力權重,模型的效果進一步提升。

        同時,結果表明加入根據領域知識所提取的四元組特征向量與未加入相比,模型的準確率提升0.5%,因此根據領域知識提取明顯流量特征對最終分類效果有積極影響。

        3.4.2 現有方法對比實驗

        本文的DDoS攻擊檢測結果與基于統(tǒng)計學習,機器學習以及其它深度學習進行檢測方法的結果對比見表3。

        表3 現有方法效果對比

        從表中可以得到,本文基于注意力機制的BiLSTM模型準確率可達98.9%。同時本文選擇的對比方法文獻[16]、文獻[17]、文獻[21]均需要人工設計流量特征,并且在模型訓練之前完成流量特征的提取和選擇,之后通過淺層學習實施模型的訓練和測試,但該方法無法充分挖掘數據流的前后序列。文獻[19]使用靜態(tài)和動態(tài)閾值方法來分別執(zhí)行已知DDoS攻擊與未知DDoS攻擊檢測,檢測準確率高達99.95%,但是閾值的確定需要遞增地更新正常流量的統(tǒng)計信息,同時還需專業(yè)的研究知識來自定義初始閾值,這樣會使得預處理任務變得更加復雜,比本文提出的框架增加了更多訓練時間和計算成本。本章提出深度學習加入注意力機制模塊,根據BilSTM得出數據包對應權重向量,然后通過權衡時序序列的前后關系得出對最終結果有重要影響的向量表示。實驗結果表明,加入注意力機制比使用傳統(tǒng)淺層機器學習,神經網絡取得更好的分類效果。

        3.4.3 數據集對比實驗

        為了驗證本文所提出模型的泛化能力,基于DARPA[17]、ISCX[9]、TU-DDoS[21]、CAIDA這4個常用DDoS公開數據集進行實驗,數據集對比實驗結果如圖6所示。

        圖6 數據集對比實驗結果

        實驗結果表明,該方法在公開的流量數據集上取得了良好效果,DARPA、CAIDA、TU-DdoS這3個數據集準確率最高可達98.5%以上,ISCX數據集的檢測率略低,達96.5%?;诳傮w評價指標方面,總體精度可達98.3%,由以上折線圖分析可知,本文提出的基于注意力機制的雙向LSTM的DDoS攻擊流量分類方法取得了良好的分類效果,驗證了該方法的有效性。

        4 結束語

        本文提出了一種基于注意力機制的雙向LSTM的DDoS攻擊檢測方法。該模型使用雙向LSTM考慮雙向框架對所有攻擊流量的時間相關性分析并使用注意機制以便自適應地注意那些具有對檢測結果判斷的重大影響,有效利用了Att-BiLSTM優(yōu)秀的時序特征學習能力。其次,本文引入DDoS攻擊領域知識,通過對多種攻擊類別分析提取出特征元組,在CAIDA-2007數據集上的實驗結果表明,該元組使得模型檢測準確率提高0.5%。另外通過與其它現有研究方法進行對比,基于注意力機制的BiLSTM在取得較高的精度和檢測率的同時,保持了較低的誤警率,比其它公開的攻擊檢測方法具有更好的綜合檢測效果,驗證了本文提出的方法在特征學習和降低誤警率等兩方面的有效性。

        猜你喜歡
        數據流數據包注意力
        讓注意力“飛”回來
        汽車維修數據流基礎(下)
        SmartSniff
        一種提高TCP與UDP數據流公平性的擁塞控制機制
        “揚眼”APP:讓注意力“變現”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        基于數據流聚類的多目標跟蹤算法
        北醫(yī)三院 數據流疏通就診量
        基于Libpcap的網絡數據包捕獲器的設計與實現
        視覺注意的數據包優(yōu)先級排序策略研究
        黄色大片一区二区中文字幕| 亚洲av午夜福利精品一区二区| 蜜桃av噜噜一区二区三区| 国产桃色在线成免费视频| 亚洲激情一区二区三区视频 | 亚洲综合网站精品一区二区| 中文字幕一区二区三区综合网| 欧洲美熟女乱又伦av影片| 18分钟处破好疼哭视频在线观看 | 高潮又爽又无遮挡又免费| 国产网站视频| 国产精品很黄很色很爽的网站| 日韩精品第一区二区三区| 三年在线观看免费大全下载| 狠狠躁夜夜躁AV网站中文字幕 | 免费人成激情视频在线观看冫| 国产日产高清欧美一区| 伊人色综合九久久天天蜜桃| 国产影片一区二区三区| 中文人妻熟妇乱又伦精品| 自拍欧美日韩| 丝袜美腿av免费在线观看| 丰满人妻久久中文字幕| 99香蕉国产精品偷在线观看| 男人天堂av在线成人av| 伊人精品成人久久综合97| 夜夜躁狠狠躁日日躁视频 | 国产美女69视频免费观看| 手机在线国产福利av| 无码人妻精品一区二区三区夜夜嗨| 国产乱理伦片在线观看| 青青草免费激情自拍视频| 日韩精品在线视频一二三| 超清纯白嫩大学生无码网站| 亚洲精品aⅴ无码精品丝袜足| 久久一区二区视频在线观看| 人人人妻人人澡人人爽欧美一区| 五月天激情小说| 91亚洲国产成人久久精品网站| 久久亚洲精品中文字幕| 午夜丰满少妇性开放视频|