王芳
摘 要 近年來入侵檢測(cè)模型在多分類任務(wù)中存在著分類準(zhǔn)確性低的問題,并且受到數(shù)據(jù)集中攻擊類型有限等因素的影響,本文借助深度學(xué)習(xí)方法,設(shè)計(jì)一種卷積神經(jīng)網(wǎng)絡(luò)(簡稱CNN)和長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(簡稱LSTM)結(jié)合的用于網(wǎng)絡(luò)流量分類的入侵檢測(cè)模型。
關(guān)鍵詞 入侵檢測(cè);深度學(xué)習(xí);流量分類
引言
隨著物聯(lián)網(wǎng)和5G的興起,一些新的網(wǎng)絡(luò)攻擊層出不窮,全球網(wǎng)絡(luò)安全態(tài)勢(shì)依舊嚴(yán)峻,網(wǎng)絡(luò)空間安全防護(hù)工作仍然任重而道遠(yuǎn)。通過對(duì)網(wǎng)絡(luò)流量進(jìn)行研究和分類,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中的異常流量,提高入侵檢測(cè)的效率成為網(wǎng)絡(luò)安全研究的重中之重。
本文使用深度學(xué)習(xí)技術(shù)開展網(wǎng)絡(luò)流量分類研究,解決傳統(tǒng)的基于統(tǒng)計(jì)和行為的網(wǎng)絡(luò)流量分類方法的特征設(shè)計(jì)問題,提高實(shí)際應(yīng)用中網(wǎng)絡(luò)流量異常檢測(cè)的性能。
1基于網(wǎng)絡(luò)流量分類的研究
1.1 基于CNN網(wǎng)絡(luò)流量分類模型的研究
(1) 數(shù)據(jù)集
澳大利亞網(wǎng)絡(luò)安全中心實(shí)驗(yàn)室創(chuàng)建的UNSW-15數(shù)據(jù)集[1]
(2) 模型設(shè)計(jì)和環(huán)境
用CNN對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)的空間特征進(jìn)行處理,其網(wǎng)絡(luò)流量分類模型設(shè)計(jì)流程:
①對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行處理。②輸入訓(xùn)練集數(shù)據(jù),通過卷積層、池化層、全連接層的處理,將數(shù)據(jù)輸入到分類器Softmax中,對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。
本文采用MXnet深度學(xué)習(xí)框架,實(shí)驗(yàn)環(huán)境為Windows 7(64bit),數(shù)據(jù)集經(jīng)過處理轉(zhuǎn)化為16*16的二維矩陣,卷積核大小為3*3,池化層窗口為2*2,步長為2,激活函數(shù)采用Relu函數(shù)。
(3)實(shí)驗(yàn)分析
根據(jù)卷積核的數(shù)量可能會(huì)影響分類的準(zhǔn)確率的問題,進(jìn)行四組模型對(duì)比實(shí)驗(yàn)。第一組A:卷積核1個(gè)(4*4),第二組B:卷積核2個(gè)(4*4),第三組C:卷積核3個(gè)(4*4),第四組D:卷積核4個(gè)(4*4),batch_ size為32,迭代周期為20,Leaning Rate=0.01,使用隨機(jī)梯度下降。實(shí)驗(yàn)中采用分類正確率(Accuracy)衡量模型的質(zhì)量[2],計(jì)算式如(1):
(TP、FN分別為正確、錯(cuò)誤分類的攻擊行為的樣本數(shù);TN、FP分別為正確、錯(cuò)誤分類的正常行為的樣本數(shù))。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了定量分析,四組實(shí)驗(yàn)結(jié)果的準(zhǔn)確率分別為(%):82.50、83.10、84.70、83.30。
實(shí)驗(yàn)對(duì)比結(jié)果表明:模型C的卷積核個(gè)數(shù)為3時(shí),流量分類的準(zhǔn)確率最高。
1.2 基于LSTM網(wǎng)絡(luò)流量分類模型的研究
用LSTM技術(shù)對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)的時(shí)序特征進(jìn)行處理,需要選擇合適的優(yōu)化算法,使得損失函數(shù)降到最低,讓模型性能達(dá)到最優(yōu)。
(1)模型結(jié)構(gòu)
網(wǎng)絡(luò)流量分類的過程為:
①對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行處理。②前向傳播,從輸入端開始,將處理好的流量序列輸入到模型中,對(duì)每一個(gè)樣本實(shí)例的輸出進(jìn)行計(jì)算,然后預(yù)測(cè)其所屬類別標(biāo)簽。③隨時(shí)間反向傳播。通過計(jì)算預(yù)測(cè)值和實(shí)際標(biāo)簽值之間的差距,微調(diào)整個(gè)模型的共享參數(shù),通過迭代訓(xùn)練最終獲得較優(yōu)的分類模型。④檢測(cè)分類。輸入測(cè)試集中的數(shù)據(jù)到模型中,對(duì)每一條數(shù)據(jù)進(jìn)行分類,并預(yù)測(cè)流量類型。
(2)實(shí)驗(yàn)分析
根據(jù)隱藏層單元數(shù)影響分類的準(zhǔn)確率問題,進(jìn)行三組模型對(duì)比實(shí)驗(yàn)。第一組E:隱藏單元數(shù)5;第二組F:隱藏單元數(shù)10;第三組G:隱藏單元數(shù)20;第四組H:隱藏單元數(shù)30,batch_ size為64,迭代周期為30,Leaning Rate=0.01,激活函數(shù):sigmoid,使用梯度下降算法。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了定量分析,四組實(shí)驗(yàn)結(jié)果的準(zhǔn)確率分別為(%):81.50、83.40、84.20、85.30。
通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)隱藏層單元數(shù)為30時(shí),流量分類的準(zhǔn)確率最高。
2基于CNN和LSTM網(wǎng)絡(luò)流量分類的入侵檢測(cè)模型
僅僅從網(wǎng)絡(luò)流量數(shù)據(jù)的單一方面進(jìn)行考慮,會(huì)造成特征提取不充分,進(jìn)而影響模型分類正確性。結(jié)合網(wǎng)絡(luò)流量的空間特征和時(shí)序特征,設(shè)計(jì)基于CNN和LSTM網(wǎng)絡(luò)流量分類的模型,用于入侵檢測(cè)并提高入侵檢測(cè)的性能。
2.1 模型結(jié)構(gòu)
入侵模型大致分為三個(gè)部分:數(shù)據(jù)處理、模型訓(xùn)練、入侵檢測(cè)。
2.2 實(shí)驗(yàn)分析
該模型實(shí)驗(yàn)參數(shù)均使用模型C和模型H的參數(shù)。實(shí)驗(yàn)結(jié)果的準(zhǔn)確率(%):CNN和LSTM(86.20)。
通過實(shí)驗(yàn)表明:基于CNN和LSTM網(wǎng)絡(luò)流量分類的模型正確率高于單個(gè)CNN模型和LSTM模型。
3結(jié)束語
本文對(duì)網(wǎng)絡(luò)流量具有空間特征和時(shí)序特征的特點(diǎn),設(shè)計(jì)了基于CNN和LSTM網(wǎng)絡(luò)流量分類的入侵檢測(cè)模型,該模型提高了網(wǎng)絡(luò)流量分類的準(zhǔn)確率。當(dāng)然限于實(shí)驗(yàn)條件和自己知識(shí)水平的限制,召回率等其他方面的試驗(yàn)還在測(cè)試中,今后還需要進(jìn)一步努力和完善。
參考文獻(xiàn)
[1] Moustafa N,Slay J.Unsw-nb15:A comprehwnsive data set for network intrusion detection systems(unsw-nb15 network data set)[C].Military Communications and information Systems conference(MilCIS).2015:1-6.
[2] 吳翰韜.基于深度學(xué)習(xí)的軌跡數(shù)據(jù)恢復(fù)研究[D].成都:電子科技大學(xué),2018:43.