亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DL和TSVM的入侵檢測方法研究

        2020-12-14 09:16:20魏明軍
        關(guān)鍵詞:分類實(shí)驗(yàn)檢測

        魏明軍 彭 寧

        (華北理工大學(xué)信息工程學(xué)院 河北 唐山 063210)

        0 引 言

        互聯(lián)網(wǎng)的發(fā)展使我們步入科技時(shí)代,人們的日常生活也因?yàn)榫W(wǎng)絡(luò)的普及而簡化,伴隨而來的網(wǎng)絡(luò)安全問題則愈演愈烈。比如,各大網(wǎng)絡(luò)平臺(tái)用戶信息泄露、DoS攻擊、WannaCry勒索病毒、被黑客竊取計(jì)算機(jī)全部內(nèi)存內(nèi)容的漏洞等。如何有效鑒別各種網(wǎng)絡(luò)攻擊行為是網(wǎng)絡(luò)安全領(lǐng)域中迫切需要解決的問題。入侵檢測是一種積極、主動(dòng)的網(wǎng)絡(luò)安全防御技術(shù)手段,其通過分析收集計(jì)算機(jī)關(guān)鍵點(diǎn)的信息,從中發(fā)現(xiàn)是否有威脅計(jì)算機(jī)安全的異常行為[1],若有則及時(shí)作出響應(yīng)告知用戶,從而進(jìn)行緊急處理以保護(hù)本地計(jì)算機(jī)安全。因此入侵檢測技術(shù)一直是網(wǎng)絡(luò)安全研究領(lǐng)域中不可規(guī)避的重點(diǎn)課題。

        研究學(xué)者在入侵檢測系統(tǒng)(Intrusion Detection Systems,IDS)中嘗試引用不同的方法,比如:基于免疫方法[2]、基于神經(jīng)網(wǎng)絡(luò)[3]、基于數(shù)據(jù)挖掘[4]、基于粒子群[5]、基于云計(jì)算[6]、支持向量機(jī)[7](Support Vector Machine,SVM)等方法,經(jīng)實(shí)驗(yàn)證明這些方法運(yùn)用到入侵檢測中都顯示出各自的檢測優(yōu)勢。然而,現(xiàn)如今面臨網(wǎng)絡(luò)上數(shù)據(jù)的海量化、高維化的特點(diǎn),以及網(wǎng)絡(luò)攻擊方式的多樣化、復(fù)雜化的趨勢,入侵檢測技術(shù)需要尋求新的突破,在提取數(shù)據(jù)特征時(shí),能夠盡可能保留初始數(shù)據(jù)的本質(zhì)特征,并且提高檢測率。

        深度學(xué)習(xí)(Deep Learning,DL)被廣泛運(yùn)用于各個(gè)研究領(lǐng)域是因?yàn)槠渚哂歇?dú)特的數(shù)據(jù)特征學(xué)習(xí)能力。結(jié)合計(jì)算機(jī)視覺可以感知路口車流量,從而動(dòng)態(tài)地控制十字路口紅綠燈時(shí)間的長短;融合自然語言處理開發(fā)了百度智能機(jī)器人小度;在語音識(shí)別領(lǐng)域成功地被應(yīng)用于同聲傳譯技術(shù)。將深度學(xué)習(xí)應(yīng)用到不同領(lǐng)域且皆取得了很好的成果。

        綜合IDS研究現(xiàn)狀,本文將深度學(xué)習(xí)和TSVM相結(jié)合,提出一種DBN-TSVM-5入侵檢測模型。深度學(xué)習(xí)具有很好的數(shù)據(jù)特征提取性能,用于數(shù)據(jù)降維;而TSVM比SVM具有更高的分類精度,且耗時(shí)僅占SVM的四分之一[8]。數(shù)據(jù)采用KDDCUP99數(shù)據(jù)集對DBN-TSVM-5模型進(jìn)行測試與評估,結(jié)果表明該模型的性能比傳統(tǒng)的入侵檢測方法好。

        1 深度置信網(wǎng)絡(luò)

        DBN是Hinton等[9]于2006年提出的一種深度學(xué)習(xí)模型,其特征學(xué)習(xí)能力非常強(qiáng)大,通過逐層提取的方式,可將原始數(shù)據(jù)轉(zhuǎn)換成為更高層和更抽象的形式。

        DBN由若干層受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)和一層有監(jiān)督的反向傳播(Back-Propagation,BP)網(wǎng)絡(luò)組成,如圖1所示。

        圖1 DBN模型圖

        1.1 RBM模型

        1986年,一個(gè)層內(nèi)無連接、層間全連接的兩層網(wǎng)絡(luò)模型被提出,它就是RBM,包含了一個(gè)可見層V和一個(gè)隱含層H,每一層都是由神經(jīng)元組成,所有神經(jīng)元都有激活狀態(tài)1和未激活狀態(tài)0兩種狀態(tài)值。W是兩層之間的連接權(quán)重矩陣,a是可見層偏差,b是隱含層偏差。如圖2所示。

        訓(xùn)練RBM模型使用的數(shù)據(jù)特征維數(shù)較高時(shí),以Gibbs采樣方法訓(xùn)練需要足夠大的采樣步數(shù),可想而知用此方法訓(xùn)練RBM會(huì)花費(fèi)相當(dāng)多的時(shí)間,導(dǎo)致最終訓(xùn)練結(jié)果不理想。針對該問題,Hinton[10]提出對比散度算法(Contrastive Divergence,CD)。

        1.2 CD對比散度

        不同于Gibbs采樣,CD算法在一開始將訓(xùn)練樣本作為輸入加載到可見層,經(jīng)實(shí)驗(yàn)證明,僅需要使用k=1步吉布斯次采樣,就可以得到很好的近似值[11]。

        在已知v(0)的情況下,出于RBM的連接特性,所有隱含層之間相互獨(dú)立,利用式(1)計(jì)算隱含層第j個(gè)神經(jīng)元的狀態(tài)。

        (1)

        確定所有隱含層神經(jīng)元h(0)的狀態(tài)之后,由于可見層節(jié)點(diǎn)之間也是相互獨(dú)立的,再根據(jù)隱含層神經(jīng)元的狀態(tài),利用式(2)重構(gòu)出可見層第i個(gè)神經(jīng)元的狀態(tài),到得可見層重構(gòu)v(k)。

        (2)

        算法1CD算法

        輸入:訓(xùn)練樣本X(S),學(xué)習(xí)率alpha,最大訓(xùn)練周期k。

        輸出:鏈接權(quán)重矩陣W,可見層偏置向量a,隱藏層偏置向量b。

        初始化:令可見層神經(jīng)元的初始狀態(tài)v(0)=X(S),W、a、b取隨機(jī)較小的數(shù)值。

        fort=0,1,…,kdo

        forj=1,2,…,n(對于所有隱含層神經(jīng)元節(jié)點(diǎn))

        fori=1,2,…,m(對于所有可見層神經(jīng)元節(jié)點(diǎn))

        利用式(3)更新各個(gè)參數(shù):

        (3)

        2 對支持向量機(jī)

        Jayadeva等[12]在2007年提出了TSVM。TSVM的基本思想是對正負(fù)兩類樣本點(diǎn)分別構(gòu)造一個(gè)分類超平面。這樣有兩點(diǎn)好處:一方面使得每一個(gè)分類超平面與其中一類樣本點(diǎn)盡可能近;另一方面遠(yuǎn)離另一類樣本點(diǎn)。以二維平面內(nèi)的樣本數(shù)據(jù)為例,對線性TSVM分類思想描述如圖3所示。

        TSVM實(shí)質(zhì)上是將傳統(tǒng)SVM中的一個(gè)二次規(guī)劃問題(Quadratic Programming Problem,QPP)分成兩個(gè)規(guī)模較小的QPP[13],簡化了計(jì)算復(fù)雜度,使得樣本訓(xùn)練時(shí)間縮減為傳統(tǒng)SVM的四分之一,而且還保持了較高的分類精度。

        3 DBN-TSVM-5模型

        3.1 模型總體設(shè)計(jì)

        基于DBN-TSVM-5的入侵檢測方法框架結(jié)構(gòu)圖如圖4所示。

        圖4 DBN-TSVM-5框架結(jié)構(gòu)圖

        主要有以下3個(gè)步驟:

        1)數(shù)據(jù)預(yù)處理。將KDDCUP99數(shù)據(jù)集通過特征映射的方法,把字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值;再對數(shù)值化后的數(shù)據(jù)全部進(jìn)行數(shù)據(jù)歸一化處理,將數(shù)值規(guī)范到0~1之間,使之成為標(biāo)準(zhǔn)數(shù)據(jù)集。

        2)DBN降維。經(jīng)過預(yù)訓(xùn)練和權(quán)重微調(diào)兩個(gè)過程后,得到DBN網(wǎng)絡(luò)模型最優(yōu)表達(dá),能夠反映標(biāo)準(zhǔn)數(shù)據(jù)特征的低維數(shù)據(jù)。

        3)多分類TSVM-5。構(gòu)造多分類TSVM-5分類器,對五類數(shù)據(jù)進(jìn)行識(shí)別。

        3.2 DBN降維過程

        DBN訓(xùn)練經(jīng)過預(yù)訓(xùn)練和微調(diào)兩個(gè)階段后方可得到一個(gè)可以反映高維、非線性原始數(shù)據(jù)特征的低維數(shù)據(jù),從而實(shí)現(xiàn)對標(biāo)準(zhǔn)數(shù)據(jù)集的最優(yōu)提取。

        1)預(yù)訓(xùn)練。將訓(xùn)練集中的數(shù)據(jù)特征和類標(biāo)簽分離,用無標(biāo)簽的訓(xùn)練集對每一層RBM進(jìn)行自下而上、單獨(dú)、無監(jiān)督、基于CD算法的訓(xùn)練。輸入V0通過P(H|V0)計(jì)算出H0,H0根據(jù)P(V|H0)計(jì)算重構(gòu)出的V1如果和V0一樣,那么隱藏層H0就是V0的另一種表示,如此H0可作為下一層RBM的可見層V1。按照此方法執(zhí)行每一層RBM,直至訓(xùn)練完所有的RBM層。

        2)微調(diào)。RBM自下向上訓(xùn)練完之后,只能保證RBM本身這一層內(nèi)的權(quán)值對該層的特征提取是局部最優(yōu);因此還需要反向傳播網(wǎng)絡(luò)微調(diào)整個(gè)網(wǎng)絡(luò)參數(shù),達(dá)到全局最優(yōu)。在這一步需要將帶有標(biāo)簽的數(shù)據(jù)附加到頂層,使用這些帶標(biāo)簽的數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行區(qū)分性、有監(jiān)督的、自上而下的訓(xùn)練來對整個(gè)網(wǎng)絡(luò)權(quán)值進(jìn)行調(diào)整。BP網(wǎng)絡(luò)接受最后一層RBM輸出的特征向量作為其輸入數(shù)據(jù)[14],將BP網(wǎng)絡(luò)輸出層得到的實(shí)際輸出與期望信息兩者之間做減法操作,有差值則進(jìn)行反向傳播。

        算法2DBN訓(xùn)練

        輸入:可視層變量V0=(v1,v2,v3,…,vi,…,vm)。

        輸出:參數(shù)W,a,b。

        (1)將每一條訓(xùn)練數(shù)據(jù)X(S)賦值給第一個(gè)RBM的可見層V0,并用CD算法訓(xùn)練第一層RBM。

        (2)訓(xùn)練完第一層RBM后,將其輸出結(jié)果作為下一層RBM的輸入,繼續(xù)用CD算法訓(xùn)練下一層。

        (3)迭代步驟(1)和步驟(2)直至訓(xùn)練完所有層的RBM。

        (4)向前計(jì)算完之后,誤差為:

        (4)

        (5)利用梯度下降算法進(jìn)行逆向傳播,調(diào)整網(wǎng)絡(luò)中各個(gè)權(quán)值,使誤差達(dá)到最小值。權(quán)值更新公式為:

        (5)

        (6)重復(fù)步驟(4)-步驟(5)過程,直至誤差足夠小,保存參數(shù)。

        3.3 多分類TSVM-5分類器

        本文改進(jìn)的多分類TSVM算法TSVM-5設(shè)計(jì)具體分類步驟如下:

        1)先將KDDCUP99中正常樣本Normal標(biāo)記為+1,其余四類攻擊樣本標(biāo)記為-1,通過T1分類器篩選出正常樣本;

        2)將Dos和Probe兩類樣本標(biāo)記為+1,U2R和R2L標(biāo)記為-1,再將剩余四類樣本輸入到T2分類器中。標(biāo)記為+1的樣本傳到T3分類器,標(biāo)記為-1的傳到T4分類器中;

        3)通過T3分類器,輸出標(biāo)記為+1的是Dos攻擊樣本,-1是Probe樣本;

        4)通過T4分類器的,輸出標(biāo)記為+1的是U2R攻擊樣本,-1是R2L樣本。

        4 實(shí) 驗(yàn)

        4.1 數(shù)據(jù)來源與預(yù)處理

        1998年,林肯實(shí)驗(yàn)室在美國空軍局域網(wǎng)進(jìn)行模擬而采集9周的網(wǎng)絡(luò)數(shù)據(jù)。隨后Sal Stolfo教授和Wenke Lee 教授在此基礎(chǔ)之上對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析和預(yù)處理形成了KDDCUP99數(shù)據(jù)集,該數(shù)據(jù)集是IDS研究領(lǐng)域中被廣泛使用的實(shí)驗(yàn)數(shù)據(jù)之一,其中包含494 021個(gè)訓(xùn)練樣本和311 029個(gè)測試樣本,分布情況如表1所示。

        表1 KDDCUP99數(shù)據(jù)分布情況

        1)字符特征數(shù)值化。KDDCUP99數(shù)據(jù)集每一條數(shù)據(jù)有38個(gè)數(shù)字型屬性和3個(gè)字符型屬性,外加1個(gè)類標(biāo)簽。字符型屬性的數(shù)據(jù)不利于特征提取和分類算法的識(shí)別,需要將其數(shù)值化。比如Protocol_type這一屬性有3種類型:Tcp、Udp、Icmp,映射規(guī)則設(shè)置如下:Tcp=0,Udp=1,Icmp=2,將這些轉(zhuǎn)化為數(shù)值類型。

        2)數(shù)值歸一化。想要數(shù)據(jù)之間的量綱具有可比性而不對實(shí)驗(yàn)造成影響,將訓(xùn)練集和測試集中的全部數(shù)據(jù)記錄,都要進(jìn)行歸一化處理,將數(shù)據(jù)歸一到0和1之間。經(jīng)過上一步字符映射處理后,將數(shù)據(jù)用.csv格式導(dǎo)出,可以看出KDDTrain訓(xùn)練集中的第20、21兩列全為0,數(shù)據(jù)歸一后這兩列會(huì)出現(xiàn)差錯(cuò),因此歸一數(shù)據(jù)之前,對每列數(shù)據(jù)最大值最小值進(jìn)行判定:若差值不為0,進(jìn)行歸一操作;若差值為0,則不進(jìn)行歸一操作,給定這列歸一后的數(shù)據(jù)全為0。

        (6)

        4.2 參數(shù)設(shè)置

        根據(jù)已有研究表明,當(dāng)DBN層數(shù)到達(dá)7層及以上,入侵檢測識(shí)別的準(zhǔn)確率趨于穩(wěn)定值[15]。為了選取DBN模型處理KDDCUP99數(shù)據(jù)具有相對較高準(zhǔn)確率的層數(shù),本文選取2~7層DBN模型,設(shè)置6種不同的DBN網(wǎng)絡(luò)結(jié)構(gòu),如表2所示。將DBN最后的重構(gòu)誤差作為選取DBN層數(shù)的依據(jù),結(jié)果如圖5所示。由結(jié)果可知采用5層RBM網(wǎng)絡(luò)結(jié)構(gòu)的誤差最小。

        表2 DBN層數(shù)設(shè)置

        圖5 DBN不同層數(shù)重構(gòu)誤差

        KDDCUP99數(shù)據(jù)集經(jīng)過預(yù)處理后依然為41維特征,因此輸入層節(jié)點(diǎn)為41,之后依次選取為100、80、50、10和5,即用DBN-TSVM-5網(wǎng)絡(luò)結(jié)構(gòu)為41-100-80-50-10-5對歸一后的標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行降維。預(yù)訓(xùn)練迭代次數(shù)為30次,微調(diào)權(quán)值迭代次數(shù)為100次。由于RBF(radial basis function)核函數(shù)參數(shù)設(shè)置少且非線性分類性能好[16],所以本文采用RBF作為TSVM-5的核函數(shù),設(shè)置懲罰因子C1=1,C2=1核函數(shù)參數(shù)gamma=1,最后獲得準(zhǔn)確率。

        4.3 實(shí)驗(yàn)結(jié)果

        采用Anaconda的Python集成環(huán)境,使用Pycharm編譯器編寫程序代碼。實(shí)驗(yàn)用未改進(jìn)的二分類對支持向量機(jī)模型(TSVM-2)、本文改進(jìn)的多分類對支持向量機(jī)模型(TSVM-5)、基于DBN和TSVM-5混合模型(DBN-TSVM-5)三種方法對入侵檢測進(jìn)行數(shù)據(jù)分析。

        受到實(shí)驗(yàn)硬件環(huán)境的限制,分類器的代碼數(shù)據(jù)量太大會(huì)導(dǎo)致存儲(chǔ)溢出。為了對比分析這三種方法的有效性,隨機(jī)抽取以下Data1、Data2、Data3、Data4四個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),見表3。用Python第三方庫sklearn里的train_test_split函數(shù),按照6∶4的比例將每個(gè)數(shù)據(jù)集分割成訓(xùn)練集和測試集,函數(shù)里straight參數(shù)可以按照數(shù)據(jù)標(biāo)簽的比例劃分,使每個(gè)樣本類別都分到訓(xùn)練集和測試集。

        表3 實(shí)驗(yàn)數(shù)據(jù)

        從準(zhǔn)確率(Accuracy,AC)和誤報(bào)率(False Alarm,F(xiàn)A)來比對三種方法的有效性。表4是TSVM-2、TSVM-5和DBN-TSVM-5三種模型方法在不同數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)得到的檢測精度和誤報(bào)率結(jié)果。

        表4 實(shí)驗(yàn)結(jié)果 %

        可以看出,在不同數(shù)據(jù)集上TSVM-5與TSVM-2對比得出,不僅實(shí)現(xiàn)了數(shù)據(jù)樣本的多分類,檢測率還平均提高了5.37%。由TSVM-5和DBN-TSVM-5對比看出,DBN降維操作可以提取出數(shù)據(jù)的深度特征,從而更有利于數(shù)據(jù)的分類與識(shí)別,比TSVM-5的檢測率平均提高了2.52%。

        5 結(jié) 語

        面對網(wǎng)絡(luò)環(huán)境具有高維、復(fù)雜數(shù)據(jù)的特點(diǎn),本文提出一種基于DBN和改進(jìn)的TSVM入侵檢測混合模型。以字符映射和歸一化處理后的KDDCUP99數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)。DBN具有良好的降維性能,成功地減少了數(shù)據(jù)特征向量,再把降維后的數(shù)據(jù)輸入到TSVM-5多類分類器中檢測攻擊數(shù)據(jù),進(jìn)行入侵檢測識(shí)別。實(shí)驗(yàn)數(shù)據(jù)表明,DBN-TSVM-5模型的檢測準(zhǔn)確率分別比TSVM-2和TSVM-5提高了8.03%和2.52%,同時(shí)其誤報(bào)率也有所降低,是一種卓有成效的入侵檢測模型。

        猜你喜歡
        分類實(shí)驗(yàn)檢測
        記一次有趣的實(shí)驗(yàn)
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        分類算一算
        做個(gè)怪怪長實(shí)驗(yàn)
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        国产天堂av在线一二三四| 久久露脸国产精品WWW| 日韩精品一区二区亚洲av| 国产农村三片免费网站| 久草视频在线播放免费| 91成人自拍国语对白| 最近免费mv在线观看动漫| 日本阿v网站在线观看中文| 一级一级毛片无码免费视频| 久久精品国产亚洲av一| 亚洲夫妻性生活免费视频| 人妻少妇边接电话边娇喘| 国产精品区一区二区三在线播放 | 999zyz玖玖资源站永久| 国产在线一区二区三区av| 免费无码又爽又刺激高潮的视频网站| 亚洲精品成人久久av| 久久久久亚洲av无码a片| 久青草久青草视频在线观看| 亚洲国产精品一区二区第四页| 国产桃色精品网站| 一区二区三区四区亚洲免费| 曰批免费视频播放免费| 国产综合久久久久| 亚洲三级香港三级久久| 亚洲av综合日韩精品久久| 极品尤物人妻堕落沉沦| 国产精品9999久久久久仙踪林| 欧美精品中文字幕亚洲专区| 午夜亚洲AV成人无码国产| 国产精品国产三级国产不卡| 中文字幕午夜精品久久久| 丁字裤少妇露黑毛| 麻豆五月婷婷| 亚洲一区在线二区三区| 欧美激情在线播放| 中文无码成人免费视频在线观看 | 四房播播在线电影| 亚洲AV无码乱码一区二区三区| 国产精品久久久看三级| 夫妻免费无码v看片|