亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于半監(jiān)督學(xué)習(xí)和三支決策的入侵檢測(cè)模型

        2021-09-18 06:22:06張師鵬李永忠杜祥通
        計(jì)算機(jī)應(yīng)用 2021年9期
        關(guān)鍵詞:分類(lèi)器標(biāo)簽決策

        張師鵬,李永忠,杜祥通

        (江蘇科技大學(xué)計(jì)算機(jī)學(xué)院,江蘇鎮(zhèn)江 212100)

        (*通信作者電子郵箱1099682749@qq.com)

        0 引言

        入侵檢測(cè)系統(tǒng)是保護(hù)信息和通信技術(shù)基礎(chǔ)設(shè)施免受網(wǎng)絡(luò)攻擊的最重要實(shí)體之一,是學(xué)術(shù)界和工業(yè)界不可忽視的研究主題[1]。隨著人工智能的迅猛發(fā)展,越來(lái)越多的機(jī)器學(xué)習(xí)模型被應(yīng)用在入侵檢測(cè)領(lǐng)域的研究中。

        楊宏宇等[2]提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(Improved Convolutional Neural Network,ICNN)的入侵檢測(cè)模型,一定程度上解決了模型的過(guò)擬合問(wèn)題;丁紅衛(wèi)等[3]利用改進(jìn)的和聲搜索方法(Harmony Search,HS)對(duì)反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)的初始值進(jìn)行優(yōu)化,提出了一種基于改進(jìn)的HS 算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)模型;Zegeye等[4]提出了一種基于隱馬爾可夫模型等多種機(jī)器學(xué)習(xí)方法的多層入侵檢測(cè)模型,該模型可以解決維度災(zāi)難問(wèn)題;Xiao 等[5]針對(duì)誤檢率高且泛化能力差的問(wèn)題,提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)模型。

        上述方法都是基于監(jiān)督學(xué)習(xí)的入侵檢測(cè)模型,監(jiān)督學(xué)習(xí)的特點(diǎn)是穩(wěn)定,效果相對(duì)較好,但獲取大量的標(biāo)注信息是一項(xiàng)巨大的工程。然而,當(dāng)網(wǎng)絡(luò)遭受攻擊時(shí),會(huì)產(chǎn)生大量未知攻擊的數(shù)據(jù),如果單純地憑借人工進(jìn)行標(biāo)注,將會(huì)大大降低對(duì)于攻擊的檢測(cè)效率。

        半監(jiān)督學(xué)習(xí)在近些年中也越來(lái)越多地被用在了入侵檢測(cè)的領(lǐng)域中[6-7]。然而已有的基于半監(jiān)督學(xué)習(xí)的入侵檢測(cè)模型大都是基于二支決策的,即對(duì)于一個(gè)網(wǎng)絡(luò)行為,應(yīng)該立即對(duì)其作出決策,決定其是正常行為還是異常行為。在一些情況下,尤其是利用基于半監(jiān)督學(xué)習(xí)的方法進(jìn)行分類(lèi)的過(guò)程中,分類(lèi)器獲取到的信息不充足,若盲目對(duì)所有網(wǎng)絡(luò)行為作出決策,可能會(huì)出現(xiàn)大量錯(cuò)誤;而且在基于半監(jiān)督學(xué)習(xí)的分類(lèi)方法進(jìn)行分類(lèi)的過(guò)程中,對(duì)于偽標(biāo)記樣本的選擇沒(méi)有標(biāo)準(zhǔn),這些問(wèn)題可能都會(huì)導(dǎo)致分類(lèi)器無(wú)法對(duì)所有的網(wǎng)絡(luò)行為作出一個(gè)合理的決策。

        針對(duì)上述問(wèn)題,本文提出了基于半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning,SSL)[8]和三支決策(Three-Way Decision,3WD)的入侵檢測(cè)模型——SSL-3WD?;谌Q策理論,在信息不足的情況可以采用延遲決策來(lái)保證對(duì)于已經(jīng)作出決策的數(shù)據(jù)其所含信息是充分的,三支決策的這個(gè)特征可以用于滿足數(shù)據(jù)信息冗余性這個(gè)假設(shè);利用三支決策理論進(jìn)行分類(lèi)得到的結(jié)果相較于傳統(tǒng)的二支決策得到的標(biāo)記置信度更高,基于此,三支決策理論可以解決在選擇未標(biāo)記樣本時(shí)難以選擇合適樣本這個(gè)難題。

        表1為本文所使用符號(hào)的描述。

        表1 符號(hào)描述Tab.1 Description of symbols

        1 半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)(SSL)[8]的目標(biāo)是利用大量未標(biāo)記的數(shù)據(jù)來(lái)提高小數(shù)據(jù)集上監(jiān)督學(xué)習(xí)的性能。基于分歧的半監(jiān)督學(xué)習(xí)[9]是目前主流的四種半監(jiān)督學(xué)習(xí)范型的一種,關(guān)于基于分歧的半監(jiān)督學(xué)習(xí)的研究開(kāi)始于對(duì)協(xié)同訓(xùn)練的研究[10]。假設(shè)數(shù)據(jù)集D=L∪U,其中L={(x1,y1),(x2,y2),…,(xm,ym)}是帶標(biāo)簽的數(shù)據(jù)集,X={x1,x2,…,xm}是數(shù)據(jù)集L中的原始的屬性集,而Y={y1,y2,…,ym}為標(biāo)簽;U=為無(wú)標(biāo)簽的數(shù)據(jù)集。

        定義1假設(shè)X1、X2分別表示兩種不同視角V1和V2的特征,即X1=V1(X),X2=V2(X),且在理想情況下當(dāng)給定標(biāo)簽Y,協(xié)同訓(xùn)練需要滿足p(X1,X2|Y)=p(X1|Y)p(X2|Y)。假設(shè)Y=g(X)為需要學(xué)習(xí)的真實(shí)的映射函數(shù),f1和f2分別為兩個(gè)視角的分類(lèi)器,則

        在協(xié)同訓(xùn)練的過(guò)程中,利用通過(guò)不同視角的特征訓(xùn)練得到的模型f1和f2在無(wú)標(biāo)簽的數(shù)據(jù)集上進(jìn)行預(yù)測(cè),各選取預(yù)測(cè)置信度比較高的樣本加入訓(xùn)練集中,重新訓(xùn)練兩個(gè)不同視角的模型,并不斷地重復(fù)這個(gè)過(guò)程。

        當(dāng)f1=f2以及V1=V2時(shí),協(xié)同訓(xùn)練方法便退化成為自訓(xùn)練方法。雖然目前相關(guān)研究都證明協(xié)同訓(xùn)練方法充分利用了分類(lèi)器之間的分歧,相對(duì)來(lái)說(shuō)有更好的性能,然而在本文的實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng)與三支決策進(jìn)行結(jié)合時(shí),自訓(xùn)練方法才是最合適的方法。相對(duì)協(xié)同訓(xùn)練,自訓(xùn)練方法更加簡(jiǎn)單高效,而且不用考慮視圖的條件獨(dú)立性這個(gè)假設(shè),通常情況下,這個(gè)假設(shè)并不能得到滿足,甚至連弱依賴(lài)性也不能滿足[8]。

        2 三支決策

        三支決策(3WD)理論來(lái)自粗糙集理論[11]。目前,人們普遍認(rèn)為,粗糙集理論只是構(gòu)造三支決策的許多可能方法之一[12]。

        定義2假設(shè)S是一個(gè)有限非空實(shí)體集,C是有限條件集,三支決策通過(guò)一個(gè)映射f將有限非空實(shí)體集S劃分為3 個(gè)兩兩互不相交的域:POS、NEG和BND,即

        其中:POS∪NEG∪BND=S,POS∩NEG∩BND=?。

        POS、NEG、BND可用于生成三支決策的規(guī)則。具體而言:POS區(qū)域生成接受決策規(guī)則,即正域;NEG區(qū)域生成拒絕規(guī)則,即負(fù)域;而B(niǎo)ND區(qū)域生成延遲決策規(guī)則,即邊界域。如何確定對(duì)象是否包含在特定區(qū)域中將取決于它滿足C中條件的程度。正域中的樣本滿足接受條件,負(fù)域由滿足或低于拒絕級(jí)別的對(duì)象組成,邊界域由滿足度高于拒絕級(jí)別但低于接受級(jí)別的對(duì)象組成。在基于三支決策理論的整個(gè)決策過(guò)程中(最后一步除外),有必要確定是否對(duì)當(dāng)前對(duì)象作出最終決定,即對(duì)象是否屬于正域(POS)或負(fù)域(NEG),或當(dāng)前對(duì)象應(yīng)分類(lèi)為邊界域(BND)。對(duì)于邊界域中的數(shù)據(jù),在獲取其他信息之后,將重新評(píng)估邊界域。如果樣本可以分為正域或負(fù)域,則作出最終決定。對(duì)于某些樣本,最終決定需要再次推遲[13]。決策過(guò)程將繼續(xù)進(jìn)行,直到將所有對(duì)象劃分為正域或負(fù)域?yàn)橹埂?/p>

        對(duì)于一個(gè)樣本,存在三種可能的決策,即:接受(POS)、拒絕(NEG)和延遲決策(BND),并且存在樣本屬于某個(gè)域或不屬于該域兩種可能的狀態(tài)。根據(jù)這三個(gè)可能的決策和兩個(gè)可能的狀態(tài),相關(guān)成本λ如表2所示。

        表2 三支決策的決策損失函數(shù)Tab.2 Decision losst function of three-way decision

        假設(shè)樣本x屬于集合的概率為P(C|x),將C定義為正域,而P(CC|x)則為樣本x不屬于域C的概率,即x屬于負(fù)域CC的概率。則:

        1)如果P(C|x)>α,則x∈POS;

        2)如果P(C|x)<β,則x∈NEG;

        3)如果β≤P(C|x)≤α,則x∈BND。

        假設(shè)0 ≤λPP≤λBP<λNP,0 ≤λNN≤λBN<λPN,根據(jù)文獻(xiàn)[14-15]的推演證明,可以得到如下兩個(gè)相關(guān)閾值的計(jì)算公式:

        其中,0 ≤β≤α≤1??梢缘玫饺缦氯龡l應(yīng)用到入侵檢測(cè)領(lǐng)域的規(guī)則:

        1)如果P(C|x)>α,則該網(wǎng)絡(luò)行為被歸為正類(lèi),即該網(wǎng)絡(luò)行為是入侵行為;

        2)如果P(C|x)<β,則該網(wǎng)絡(luò)行為被歸為負(fù)類(lèi),即該網(wǎng)絡(luò)行為是正常行為;

        3)如果β≤P(C|x)≤α,則表示當(dāng)前信息下,無(wú)法對(duì)該行為采取任何決策,則該行為需要被劃分到邊界域以等待進(jìn)一步的處理。

        三支決策為入侵檢測(cè)提供了一種有用的機(jī)制??紤]這一種情況,在大多數(shù)情況下入侵檢測(cè)是正確的,但偶爾會(huì)攔截某些正常行為或釋放某些入侵行為。重復(fù)發(fā)生此類(lèi)錯(cuò)誤將導(dǎo)致嚴(yán)重后果。作出錯(cuò)誤分類(lèi)決定的原因可能有多種,例如分類(lèi)器的不合理設(shè)計(jì)和誤導(dǎo)的網(wǎng)絡(luò)行為等,一個(gè)重要的原因是用于決策的信息不完整且不充足。為了解決此類(lèi)問(wèn)題,可以采取三支決策,通過(guò)使用延遲選項(xiàng),可以避免某些錯(cuò)誤的分類(lèi)。

        3 本文模型SSL-3WD

        3.1 入侵檢測(cè)模型設(shè)計(jì)

        根據(jù)上文所闡述的半監(jiān)督學(xué)習(xí)相關(guān)定理,假設(shè)數(shù)據(jù)集D1所含信息可以支撐分類(lèi)器對(duì)k個(gè)無(wú)標(biāo)簽的數(shù)據(jù)作出分類(lèi),通常情況下k

        在半監(jiān)督學(xué)習(xí)中,需要從未標(biāo)記樣本中挑選出一定比率的樣本進(jìn)行標(biāo)記,并把這些帶有“偽標(biāo)記”的樣本加入分類(lèi)器的訓(xùn)練集中,從而組成新的訓(xùn)練集。然而在沒(méi)有標(biāo)簽的前提下,如何挑選樣本是一個(gè)難題。目前有關(guān)半監(jiān)督學(xué)習(xí)的研究中,并沒(méi)有在這一方面作出過(guò)多的闡述。本文提出利用三支決策理論來(lái)挑選由分類(lèi)器給出“偽標(biāo)記”的樣本。如上文所述,利用三支決策理論得到的正域和負(fù)域,可以認(rèn)為當(dāng)前有標(biāo)簽的數(shù)據(jù)集所包含的信息是足以支撐分類(lèi)器對(duì)這些樣本作出標(biāo)記的,即從某種程度上可以信任對(duì)這些數(shù)據(jù)的標(biāo)記,因此,可以選擇正域以及負(fù)域中的樣本與原有的訓(xùn)練集組成新的訓(xùn)練集,并利用得到的新的訓(xùn)練集繼續(xù)對(duì)模型進(jìn)行訓(xùn)練,而此時(shí),無(wú)標(biāo)簽的樣本集為負(fù)域中的樣本組成的樣本集。上述訓(xùn)練過(guò)程將一直持續(xù)下去,直至滿足停止條件,通常情況下,停止條件可以人為指定,可以指定訓(xùn)練次數(shù)達(dá)到一定程度時(shí)訓(xùn)練停止,也可以指定當(dāng)負(fù)域中不存在樣本時(shí)停止訓(xùn)練。

        3.2 入侵檢測(cè)模型的算法流程

        本文提出的基于半監(jiān)督學(xué)習(xí)和三支決策的入侵檢測(cè)模型(SSL-3WD)的算法流程如算法1所示。

        特征提取方式用于獲取原始數(shù)據(jù)集的低維表示。由于原始數(shù)據(jù)中包含大量冗余信息,這些信息對(duì)于分類(lèi)效果產(chǎn)生了不好的影響,因此需要對(duì)原數(shù)據(jù)進(jìn)行特征提取。相較于主成分分析方法(Principal Component Analysis,PCA)等傳統(tǒng)的線性特征提取方式,自編碼器[16]是一種非線性的特征提取方式,其提取到的特征更能抽象表示出原始數(shù)據(jù)的信息,故本文采用自編碼器這種非線性的特征提取方式。

        分類(lèi)器模型f用于獲取樣本屬于正域的概率,因此,對(duì)于f的選擇以選擇軟分類(lèi)模型為宜,本文選用邏輯回歸作為分類(lèi)器模型。邏輯回歸是一種軟分類(lèi)模型,可以輸出每個(gè)樣本屬于某個(gè)類(lèi)的概率。根據(jù)模邏輯回歸求出每一個(gè)數(shù)據(jù)屬于正類(lèi)的概率p,并根據(jù)三支決策的理論,通過(guò)預(yù)先設(shè)置的兩個(gè)閾值α以及β將該數(shù)據(jù)歸為正域或者負(fù)域:若某個(gè)樣本屬于正域的概率p>α,則將該樣本劃歸為正域;若某個(gè)樣本屬于正域的概率p<β,則將該樣本劃歸為負(fù)域;若α

        對(duì)于劃分到正域以及負(fù)域的樣本,則需要將其作為被選中的數(shù)據(jù)加入原有的訓(xùn)練集組成新的有標(biāo)簽的訓(xùn)練數(shù)據(jù)集,而邊界域中的數(shù)據(jù)則作為無(wú)標(biāo)簽的數(shù)據(jù)等待被重新劃分。重復(fù)上述步驟,直至不存在無(wú)標(biāo)簽的數(shù)據(jù)。

        從算法1 的流程可看出:本文算法在一個(gè)循環(huán)中完成,循環(huán)的結(jié)束條件為分類(lèi)器對(duì)所有的無(wú)標(biāo)記樣本作出一個(gè)合理的決策,由于在迭代過(guò)程中設(shè)置了一個(gè)強(qiáng)制程序終結(jié)的步驟,如第12)步,因此算法不會(huì)陷入無(wú)限的循環(huán)中。假設(shè)算法的迭代次數(shù)為T(mén),而循環(huán)內(nèi)部主要的時(shí)間消耗集中在特征提取,如第2)步,以及對(duì)分類(lèi)器模型的訓(xùn)練,并利用模型進(jìn)行分類(lèi),如第3)~4)步,第5)步中的for 循環(huán)并不是主要的時(shí)間消耗,在整個(gè)外部循環(huán)中進(jìn)行的次數(shù)也只為測(cè)試集的個(gè)數(shù),即時(shí)間復(fù)雜度為O(M)。特征提取方式G(自編碼器)以及f分類(lèi)器(多層感知機(jī))都是深度學(xué)習(xí)模型,而隨著分布式計(jì)算的發(fā)展,通常并不計(jì)算深度學(xué)習(xí)模型的時(shí)間復(fù)雜度,因此并不能確定給出整個(gè)算法的時(shí)間復(fù)雜度,假設(shè)這兩部分的時(shí)間復(fù)雜度為O(N),則本文算法的時(shí)間復(fù)雜度可以表示為O(T?N+M),本文的數(shù)據(jù)不是大量的圖像數(shù)據(jù),只是網(wǎng)絡(luò)行為數(shù)據(jù),對(duì)于采用了分布式計(jì)算的深度學(xué)習(xí)模型來(lái)說(shuō),時(shí)間消耗在可接受范圍內(nèi)。

        3.3 三支決策閾值的設(shè)置

        在決策的過(guò)程中,三支決策劃分三個(gè)域的關(guān)鍵在于決策閾值對(duì)的設(shè)置。通常情況下,對(duì)于損失函數(shù),應(yīng)該根據(jù)所分析問(wèn)題以及實(shí)際情況的不同,根據(jù)專(zhuān)家經(jīng)驗(yàn)以及先驗(yàn)知識(shí)進(jìn)行設(shè)定。不同的問(wèn)題對(duì)應(yīng)不同的損失函數(shù),不同的損失函數(shù)對(duì)應(yīng)不同的劃分結(jié)果。本文將三支決策理論應(yīng)用于入侵檢測(cè)的領(lǐng)域,用于確定一個(gè)網(wǎng)絡(luò)行為屬于正常行為還是異常行為,則損失函數(shù)的選取就要植根于入侵檢測(cè)的領(lǐng)域中。根據(jù)經(jīng)驗(yàn)可得,將一個(gè)正常的網(wǎng)絡(luò)行為誤認(rèn)為異常行為所產(chǎn)生的代價(jià)要遠(yuǎn)低于將一個(gè)異常行為誤認(rèn)為正常行為所產(chǎn)生的代價(jià),故可根據(jù)經(jīng)驗(yàn)設(shè)置各損失函數(shù)如表3所示。

        表3 據(jù)經(jīng)驗(yàn)設(shè)置的三支決策損失函數(shù)值Tab.3 Setting of loss functions of three-way decision based on experience

        4 實(shí)驗(yàn)結(jié)果和分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)所采用的數(shù)據(jù)集有兩個(gè),分別是NSL-KDD 數(shù)據(jù)集以及UNSW-NB15數(shù)據(jù)集。NSL-KDD數(shù)據(jù)集由41個(gè)特征屬性和1 個(gè)類(lèi)屬性組成。KDD 數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集兩種,總共包含38種攻擊,其中訓(xùn)練集包含22種攻擊,而測(cè)試集中包含訓(xùn)練集中的20種攻擊,除此之外還包含17種不在訓(xùn)練集中的攻擊類(lèi)型。因此可以使用測(cè)試集測(cè)試入侵檢測(cè)方法在未知攻擊上的表現(xiàn)。38種攻擊類(lèi)型可以分為4種主要的攻擊類(lèi)型:拒絕服務(wù)攻擊(Denial of Service,DoS)、遠(yuǎn)程攻擊(Remote-to-Login,R2L)、本地用戶(hù)非法提升權(quán)限的攻擊(User-to-Root,U2R)以及網(wǎng)絡(luò)刺探(Probe)。UNSW-NB15 數(shù)據(jù)集包含許多現(xiàn)代網(wǎng)絡(luò)的新攻擊,可以將其分為1 個(gè)正常類(lèi)和9個(gè)攻擊類(lèi)[17]。在本文的實(shí)驗(yàn)中,數(shù)據(jù)分布如表4所示。

        表4 不同數(shù)據(jù)集的數(shù)據(jù)分布Tab.4 Data distribution of different datasets

        數(shù)據(jù)不能直接用于訓(xùn)練,原始數(shù)據(jù)包含類(lèi)別特征,而類(lèi)別特征大多都是用字符串進(jìn)行表示的,因此需要進(jìn)行數(shù)值化處理。

        以字符串類(lèi)型表示的類(lèi)數(shù)據(jù)需要進(jìn)行數(shù)值化處理,數(shù)值化處理最簡(jiǎn)單的方法是序號(hào)編碼,以屬性protocol_type 為例,它的屬性值為(TCP,UDP,ICMP),則可以表示為(1,2,3)。然而利用序號(hào)編碼處理過(guò)的數(shù)據(jù)有了大小關(guān)系,例如按照上文處理會(huì)得到ICMP>UDP>TCP 的處理結(jié)果,這種大小關(guān)系并不是該屬性的性質(zhì),所以采用獨(dú)熱編碼進(jìn)行編碼。

        原始數(shù)據(jù)所處的量綱不同,自編碼器在訓(xùn)練過(guò)程中要使用梯度下降法,若每列屬性的取值范圍相差過(guò)大,會(huì)影響算法的性能,還有可能帶來(lái)意想不到的錯(cuò)誤,因此要進(jìn)行歸一化處理。

        線性函數(shù)歸一化是一種常見(jiàn)的歸一化方法,也被稱(chēng)為Min-Max 歸一化,通過(guò)這種歸一化方法可以將數(shù)據(jù)歸一到[0,1]區(qū)間內(nèi),歸一化的計(jì)算如式(5)所示:

        其中:x是第i個(gè)屬性列的一個(gè)值;mini是第i個(gè)屬性列的最小值;maxi是第i個(gè)屬性列的最大值。

        4.2 評(píng)價(jià)指標(biāo)

        選擇準(zhǔn)確率ACC(ACCuracy)、誤報(bào)率FPR(False Positive Rate)、檢出率DR(Detection Rate)與F1值作為評(píng)判指標(biāo)。

        評(píng)價(jià)指標(biāo)的計(jì)算公式如下。

        其中:TP(True Positives)和TN(True Negatives)分別表示攻擊記錄和正常記錄已正確分類(lèi);FP(False Positives)代表被誤認(rèn)為是攻擊的正常記錄;FN(False Negatives)代表錯(cuò)誤分類(lèi)為正常記錄的攻擊記錄。

        4.3 參數(shù)設(shè)置

        對(duì)于三支決策的損失函數(shù)的設(shè)置已經(jīng)給出,表5 給出了SSL-3WD模型在工作的工程中所使用的自編碼器參數(shù)。

        表5 自編碼器的參數(shù)設(shè)置Tab.5 Setting of parameters of autoencoder

        4.4 對(duì)比模型

        對(duì)比模型包括:文獻(xiàn)[18]提出的一種基于深度堆疊自編碼器(Stack Nonsymmetric Deep Autoencoder,SNDAE)的入侵檢測(cè)模型;文獻(xiàn)[19]提出的一種基于深度學(xué)習(xí)(Deep Learning)和半監(jiān)督學(xué)習(xí)的入侵檢測(cè)模型DL-SSL;文獻(xiàn)[20]提出的一種基于自編碼器(Autoencoder,AE)和支持向量機(jī)(Support Vector Machine,SVM)的入侵檢測(cè)模型AE-SVM;文獻(xiàn)[21]通過(guò)調(diào)整訓(xùn)練數(shù)據(jù)的比例并設(shè)置多個(gè)決策樹(shù)提出的一種自適應(yīng)的集成學(xué)習(xí)入侵檢測(cè)模型Multi-Tree。

        4.5 在NSL-KDD數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

        對(duì)于一個(gè)入侵檢測(cè)模型來(lái)說(shuō),檢測(cè)出入侵行為才是最主要的,因此在實(shí)驗(yàn)的過(guò)程中,把所有的入侵行為的標(biāo)記設(shè)為1,正常樣本的標(biāo)記設(shè)為0。

        SSL-3WD 模型通過(guò)多步?jīng)Q策對(duì)所有的網(wǎng)絡(luò)行為進(jìn)行分類(lèi),每一步都得到一個(gè)對(duì)當(dāng)前的正域以及負(fù)域(已經(jīng)作出確定決策的樣本)的分類(lèi)結(jié)果,如圖1 所示為得到的各步的準(zhǔn)確率。

        圖1 各決策步驟的準(zhǔn)確率變化Fig.1 Accuracy change of each decision step

        從圖1 中可以看到,隨著決策步驟的增加,準(zhǔn)確率在下降。假設(shè)第i次得到的準(zhǔn)確率為a,第i+1 次得到的準(zhǔn)確率為b,則一般情況下b要小于a。因?yàn)?,根?jù)三支決策理論,一個(gè)樣本越難以被決策,則對(duì)其作出錯(cuò)誤決策的可能性就越大,而隨著決策步驟的增加,對(duì)于邊界域中的決策很難達(dá)到上一次決策所得到的準(zhǔn)確率,因此準(zhǔn)確率呈現(xiàn)出一個(gè)下降的趨勢(shì),但是作出正確決策的樣本的數(shù)量是不斷增加的。

        表6為各個(gè)模型在NSL-KDD測(cè)試集上的性能表現(xiàn)。本實(shí)驗(yàn)在選擇數(shù)據(jù)集時(shí),令訓(xùn)練集與測(cè)試集中的樣本數(shù)量基本保持一致,即對(duì)于分類(lèi)器模型來(lái)說(shuō),所獲取的信息是不充足的。通過(guò)這種數(shù)據(jù)選擇的方式更能體現(xiàn)出SSL-3WD 模型的優(yōu)秀表現(xiàn)。

        表6 在NSL-KDD測(cè)試集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.6 Experimental results on NSL-KDD test set unt:%

        從表6 可以看出,本文模型SSL-3WD 的所有指標(biāo)都是最優(yōu),準(zhǔn)確率達(dá)到了96.1%,檢出率達(dá)到了97.7%,誤報(bào)率低至2.4%,F(xiàn)1值達(dá)到了96.6%。檢出率相較于對(duì)比模型中表現(xiàn)最好的Multi-Tree提升了5.8個(gè)百分點(diǎn)。

        從實(shí)驗(yàn)結(jié)果可以看出,SSL-3WD 模型不僅要優(yōu)于對(duì)比模型中的幾種監(jiān)督學(xué)習(xí)模型,而且要優(yōu)于同樣使用了半監(jiān)督學(xué)習(xí)的DL-SSL 模型。SSL-3WD 模型基于三支決策理論完成偽標(biāo)記樣本的選擇,這種選擇方式要優(yōu)于DL-SSL的隨機(jī)選擇。

        圖2為根據(jù)幾種模型ROC的實(shí)驗(yàn)結(jié)果得到的受試者特征圖(Receiver Operating Characteristic,ROC)曲線圖,ROC 曲線也可以綜合反映出一個(gè)模型的表現(xiàn)。每條曲線圍成所圍成的面積被稱(chēng)為AUC(Area Under Curve),AUC越大代表一個(gè)模型的綜合性能越好。從圖2 可以看出,本文模型SSL-3WD 的AUC達(dá)到了0.99,是幾種對(duì)比模型中最高的。

        圖2 在NSL-KDD數(shù)據(jù)集上進(jìn)行測(cè)試得到的ROC曲線圖Fig.2 ROC curve obtained by test on NSL-KDD test set

        為了驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)的規(guī)模對(duì)于SSL-3WD 模型的影響,在本文原本使用的訓(xùn)練集上作了調(diào)整,分別使用訓(xùn)練集的20%、40%、60%、80%、100%作為訓(xùn)練數(shù)據(jù),分別記為訓(xùn)練集1、2、3、4、5,實(shí)驗(yàn)數(shù)據(jù)分布如表7所示。

        表7 不同比例的訓(xùn)練集的數(shù)據(jù)分布Tab.7 Data distribution of train data with different proportions

        由于U2R 攻擊類(lèi)型的數(shù)據(jù)極少,因此在選擇數(shù)據(jù)時(shí)會(huì)選擇所有攻擊類(lèi)型為U2R 的數(shù)據(jù)。利用以上訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,并在測(cè)試集上進(jìn)行測(cè)試,可以得到如表8 所示的測(cè)試結(jié)果。

        表8 在比例不同的訓(xùn)練集訓(xùn)練的測(cè)試結(jié)果 單位:%Tab.8 Test results with training datasets with different proportions unit:%

        從表8 中可以看出,SSL-3WD 模型隨著數(shù)據(jù)的增多,性能在逐漸地變好,檢出率在不斷地增加,誤報(bào)率在不斷地減小,且模型變好的趨勢(shì)比較明顯。也在一定程度上說(shuō)明了模型的魯棒性較好。

        4.6 在UNSW-NB15的實(shí)驗(yàn)結(jié)果

        和在NSL-KDD 數(shù)據(jù)集上的實(shí)驗(yàn)一樣,在實(shí)驗(yàn)的過(guò)程中依舊將異常數(shù)據(jù)的標(biāo)簽置為1,正常行為的標(biāo)簽置為0,可以得到如表9所示的實(shí)驗(yàn)結(jié)果。

        表9 在UNSW-NB15測(cè)試集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.9 Experimental results on UNSW-NB15 test set unit:%

        在UNSW-NB15 的表現(xiàn)相較于在NSL-KDD 數(shù)據(jù)集上的性能表現(xiàn),各個(gè)模型都有一定的下降,但是下降幅度都非常小。從表9 中數(shù)據(jù)可以看出,SSL-3WD 模型的性能表現(xiàn)還是最優(yōu)的,其檢出率達(dá)到了96.3%,與比較方法中表現(xiàn)最好的基于深度堆疊非對(duì)稱(chēng)自編碼器(SNDAE)的入侵檢測(cè)模型比較,分別提升了3.5 個(gè)百分點(diǎn)和6.2 個(gè)百分點(diǎn);此外,誤報(bào)率低至3.2%,F(xiàn)1值達(dá)到了95.6%。

        圖3 為幾種模型的ROC 曲線圖。從圖3 可以看出,SSL-3WD 的AUC為0.98,是幾種模型中最高的,也佐證了SSL-3WD模型是幾種模型中較優(yōu)的。

        圖3 在UNSW-NB15數(shù)據(jù)集上進(jìn)行測(cè)試得到的R0C曲線圖Fig.3 ROC curve obtained by test on UNSW-NB15 dataset

        5 結(jié)語(yǔ)

        本文提出了一種基于半監(jiān)督學(xué)習(xí)和三支決策的入侵檢測(cè)方法SSL-3WD。通過(guò)三支決策理論來(lái)改善半監(jiān)督學(xué)習(xí)在信息的冗余性以及“偽標(biāo)記”樣本的選擇這兩個(gè)情形上的不足。仿真實(shí)驗(yàn)結(jié)果表明,基于半監(jiān)督學(xué)習(xí)和三支決策的入侵檢測(cè)方法要好于對(duì)比方法。

        當(dāng)使用三支決策理論挑選“偽標(biāo)記”樣本的過(guò)程中,不可避免地會(huì)選擇一些標(biāo)記錯(cuò)誤的樣本,如何盡可能地去除這些被錯(cuò)誤標(biāo)記的樣本是接下來(lái)的研究應(yīng)該注意的一個(gè)方向。

        猜你喜歡
        分類(lèi)器標(biāo)簽決策
        為可持續(xù)決策提供依據(jù)
        決策為什么失誤了
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車(chē)迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
        加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
        結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
        標(biāo)簽化傷害了誰(shuí)
        基于多進(jìn)制查詢(xún)樹(shù)的多標(biāo)簽識(shí)別方法
        基于LLE降維和BP_Adaboost分類(lèi)器的GIS局部放電模式識(shí)別
        国产主播无套内射一区| 欧美性xxxx极品高清| 午夜一区欧美二区高清三区| 亚洲丁香五月激情综合| 国产无套粉嫩白浆内精| 亚洲国产成人极品综合| 欧美极品少妇无套实战| av色综合网站| 国产高清大片一级黄色| 国产乱码人妻一区二区三区| 精品国产aⅴ无码一区二区| 亚洲欧美日韩国产精品网| 亚洲中文字幕一区高清在线| 久久不见久久见www日本网| 国产99久久久久久免费看| 人妻人妻少妇在线系列| 91精品国产高清久久福利| 亚洲av乱码一区二区三区按摩| 亚洲综合av在线在线播放| 亚洲最大av免费观看| 女同性恋一区二区三区av| 男人进去女人爽免费视频| 一级做a爰片久久毛片| 精品一区二区三区老熟女少妇| 成午夜福利人试看120秒| 精品无码中文视频在线观看| 欧美精品日韩一区二区三区| 精品久久人妻av中文字幕| 久久99热狠狠色精品一区| 青青青爽国产在线视频| 一区二区三区少妇熟女高潮| 男吃奶玩乳尖高潮视频| 少妇被躁爽到高潮无码文| 久九九久视频精品网站| 人妻熟女翘屁股中文字幕| 国产高清在线精品一区二区三区 | 日本一区二区高清视频| 国产精品国产三级国产av剧情| 美女视频黄的全免费的| 久久精品有码中文字幕1| 日韩精品第一区二区三区 |