亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        小樣本條件下列車通信網(wǎng)絡(luò)攻擊樣本生成方法

        2023-12-21 09:43:28王立德閆海鵬
        關(guān)鍵詞:樣本實(shí)驗(yàn)檢測

        岳 川,王立德,閆海鵬

        (北京交通大學(xué)電氣工程學(xué)院,北京 100044)

        隨著列車通信網(wǎng)絡(luò)(TCN)對(duì)通信速率及智能化需求的不斷增加,基于以太網(wǎng)的列車通信網(wǎng)絡(luò)(ETCN)因其帶寬高、兼容性強(qiáng)及開放性好等優(yōu)點(diǎn),正逐步成為現(xiàn)今智能列車的首選網(wǎng)絡(luò)架構(gòu)[1].但ETCN的應(yīng)用給列車帶來通信便利之時(shí),也引入了諸多網(wǎng)絡(luò)安全隱患[2].作為基礎(chǔ)性公共設(shè)施,列車的網(wǎng)絡(luò)安全至關(guān)重要,應(yīng)當(dāng)采取有效的措施來提高其安全防護(hù)能力.

        入侵檢測在網(wǎng)絡(luò)安全領(lǐng)域扮演著重要的角色,可以發(fā)現(xiàn)網(wǎng)絡(luò)入侵行為并發(fā)出告警[3].近年來,深度學(xué)習(xí)已成為入侵檢測方法的主流選擇,其優(yōu)勢發(fā)揮通常是以充足的數(shù)據(jù)樣本為基礎(chǔ),但在入侵檢測領(lǐng)域,小樣本問題(模型訓(xùn)練時(shí)攻擊樣本數(shù)量過少)仍然阻撓深度學(xué)習(xí)方法發(fā)揮其應(yīng)有的檢測能力.網(wǎng)絡(luò)攻擊多為偶發(fā)事件,攻擊報(bào)文數(shù)量往往有限,對(duì)于列車通信網(wǎng)絡(luò),攻擊者更加追求“悄無聲息”地入侵,攻擊樣本往往數(shù)量更小,小樣本問題更加凸顯,使模型沒有充足的信息可以學(xué)習(xí).同時(shí),由于正常報(bào)文數(shù)量巨大,也會(huì)進(jìn)一步導(dǎo)致類不平衡問題,即訓(xùn)練數(shù)據(jù)中各類別分布不均衡,導(dǎo)致深度學(xué)習(xí)模型傾向于學(xué)習(xí)正常樣本的特征,而輕視關(guān)鍵的攻擊樣本.

        數(shù)據(jù)增廣是解決小樣本問題的主流方法,即利用特定方法擴(kuò)充小樣本數(shù)據(jù)的數(shù)量[4].傳統(tǒng)的數(shù)據(jù)增廣方法主要為過采樣方法,例如:文獻(xiàn)[5]使用合成少數(shù)過采樣法(SMOTE)來擴(kuò)充小樣本數(shù)據(jù),提升了入侵檢測的準(zhǔn)確率;文獻(xiàn)[6]提出一種基于聚類簇結(jié)構(gòu)特性的綜合采樣法,能夠生成樣本分布結(jié)構(gòu)特性保持的均衡數(shù)據(jù)樣本.上述方法在面對(duì)入侵檢測的小樣本問題時(shí)取得了較好的效果,并且具有可解釋性強(qiáng)、機(jī)制簡單的優(yōu)勢,但也正因?yàn)槠錂C(jī)制較為簡單,生成樣本的質(zhì)量不夠突出,容易導(dǎo)致有效信息的丟失及模型過擬合.生成對(duì)抗網(wǎng)絡(luò)(GAN)[7]是一種生成模型,因其強(qiáng)大的數(shù)據(jù)生成能力已被廣泛應(yīng)用于多個(gè)領(lǐng)域的數(shù)據(jù)增廣任務(wù)中.對(duì)于入侵檢測的小樣本問題,一種更為新穎的解決思路是使用GAN 來生成高質(zhì)量的網(wǎng)絡(luò)攻擊樣本:文獻(xiàn)[8]提出了一種基于GAN 的攻擊樣本生成方法,將生成的樣本應(yīng)用在基于CNN 的入侵檢測模型中,能夠有效地提升模型的準(zhǔn)度;文獻(xiàn)[9]對(duì)傳統(tǒng)GAN 進(jìn)行了改進(jìn),提出了一種基于不平衡生成對(duì)抗網(wǎng)絡(luò)(IGAN)的攻擊樣本生成方法并應(yīng)用于點(diǎn)對(duì)點(diǎn)模式(ad-hoc)網(wǎng)絡(luò)的入侵檢測任務(wù)中,有效提升了入侵檢測的檢測準(zhǔn)度.上述方法雖取得了優(yōu)異的表現(xiàn),但皆有不同的適用場景.如何將GAN 有效地應(yīng)用于ETCN 場景仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要結(jié)合ETCN 中攻擊數(shù)據(jù)的實(shí)際特點(diǎn)對(duì)方法進(jìn)行適應(yīng)性的改進(jìn)設(shè)計(jì).

        針對(duì)ETCN 入侵檢測的小樣本問題,在傳統(tǒng)GAN 框架基礎(chǔ)上,本文提出一種改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)(GMCW-GAN),用于生成高質(zhì)量的ETCN 網(wǎng)絡(luò)攻擊樣本.實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠生成有效的ETCN 網(wǎng)絡(luò)攻擊樣本,可以在小樣本條件下提高基于深度學(xué)習(xí)的ETCN 入侵檢測的檢測準(zhǔn)度,進(jìn)而增強(qiáng)ETCN 的安全防御能力.

        1 GMCW-GAN 樣本生成方法

        首先,分析將傳統(tǒng)GAN 應(yīng)用于網(wǎng)絡(luò)攻擊樣本生成任務(wù)時(shí)存在的主要缺點(diǎn),在此基礎(chǔ)上,介紹GMCW-GAN 的主要改進(jìn)內(nèi)容;其次,設(shè)計(jì)GMCWGAN 中生成器與判別器的內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu).

        1.1 對(duì)傳統(tǒng)GAN 的優(yōu)化改進(jìn)

        GAN 是Goodfellow 等[7]于2014 年提出的一種基于可微生成器的生成式建模方法.GAN 由2 部分組成:生成器G與判別器D,通過對(duì)抗訓(xùn)練的方式使生成器產(chǎn)生的樣本服從真實(shí)數(shù)據(jù)分布.該訓(xùn)練過程是一個(gè)0 和博弈問題,即生成器與判別器各自的收益等于對(duì)方的損失,當(dāng)訓(xùn)練接近納什均衡時(shí),模型達(dá)到最優(yōu).其目標(biāo)函數(shù)如式(1),GAN 的整體優(yōu)化目標(biāo)可形式化表示為

        傳統(tǒng)GAN 存在3 項(xiàng)缺點(diǎn):1)生成器的輸入通常為符合高斯分布或均勻分布的隨機(jī)變量,然而,在實(shí)際應(yīng)用中,這2 類分布的表達(dá)能力較為單一,會(huì)從模型的初始采樣環(huán)節(jié)對(duì)生成樣本的初始數(shù)據(jù)形態(tài)產(chǎn)生約束,最終影響生成樣本的多樣性;2)生成過程中,生成樣本的類別不受控,表現(xiàn)為將GAN 應(yīng)用在多類別的生成任務(wù)中時(shí),無法按需指定其生成特定類別的樣本;3)生成器的優(yōu)化目標(biāo)等價(jià)于最小化與pr(x) 之間的JS(Jensen-Shannon)散度[7],當(dāng)分布之間沒有重疊部分時(shí),將導(dǎo)致生成器梯度消失,從而無法通過訓(xùn)練進(jìn)一步優(yōu)化生成器.

        對(duì)于ETCN 入侵檢測的攻擊樣本生成任務(wù),缺點(diǎn)1 會(huì)導(dǎo)致生成樣本的多樣性不足,從而限制其在入侵檢測模型訓(xùn)練環(huán)節(jié)中的促進(jìn)作用;缺點(diǎn)2 會(huì)導(dǎo)致生成樣本的類別難以控制,從而增加樣本生成模型的訓(xùn)練難度與成本;缺點(diǎn)3 會(huì)導(dǎo)致生成樣本的真實(shí)性不足,不能夠充分模擬真實(shí)的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù).

        面向ETCN 入侵檢測的攻擊樣本生成需求,本文設(shè)計(jì)了一種樣本生成方法GMCW-GAN,其整體結(jié)構(gòu)見圖1.該方法在傳統(tǒng)GAN 的基礎(chǔ)上從采樣策略、約束條件、損失密度3 個(gè)方面進(jìn)行改進(jìn),以克服上述缺點(diǎn).

        圖1 GMCW-GAN 的整體結(jié)構(gòu)Fig.1 Overall structure of GMCW-GAN

        1.1.1 采樣策略改進(jìn)

        傳統(tǒng)GAN 從高斯分布或均勻分布中采樣生成隨機(jī)變量作為其潛在空間的先驗(yàn)分布,這種采樣方式在一定程度上約束了生成樣本的多樣性.為解決這一問題,GMCW-GAN 采用具備多模態(tài)特性的高斯混合模型(GMM)[10]來替代傳統(tǒng)的一元高斯分布,從而更好地契合真實(shí)訓(xùn)練樣本的內(nèi)生多模態(tài)特性,增加生成樣本的多樣性.

        GMM 由N個(gè)高斯分量加權(quán)求和組成,每個(gè)分量為1 個(gè)一元高斯分布,可將GMM 形式化表述為

        式中:g(x|μi,Ci) 為單個(gè)隨機(jī)潛變量依從的S元高斯分布的概率密度函數(shù);μi為均值向量,μi∈RS;Ci為協(xié)方差矩陣;λ={ωi,μi,Ci} 為GMM的參數(shù),ωi為第i個(gè)高斯分量的權(quán)值,且

        對(duì)于ETCN 攻擊樣本生成任務(wù),在沒有先驗(yàn)知識(shí)時(shí),可認(rèn)為GMCW-GAN 潛空間中的高斯分量具有均等權(quán)值,則可令ωi=1/N,因此,潛空間需要計(jì)算的參數(shù)可約簡為 λ={μi,Ci} .由于直接從GMM 中采樣得到隨機(jī)變量的過程不可導(dǎo),無法參與反向梯度傳播來更新參數(shù) λ,因此,GMCW-GAN 通過重參數(shù)化技巧解決該問題,即首先從正態(tài)分布N(0,1) 中采樣得到 ε,并按式(3)計(jì)算得到隨機(jī)變量z.

        該過程在保持潛在變量隨機(jī)性的同時(shí),將隨機(jī)性與參與訓(xùn)練的參數(shù)分離,確保GMM 的參數(shù) λ 可以通過反向傳播來動(dòng)態(tài)更新.

        1.1.2 約束條件改進(jìn)

        傳統(tǒng)GAN 的生成過程自由度過高,其生成的樣本不可控.為解決該問題,GMCW-GAN 引入樣本條件約束技巧,通過給定相應(yīng)的樣本類別標(biāo)簽約束增強(qiáng)生成過程的可控性.

        在GMCW-GAN 中,令真實(shí)目標(biāo)樣本的類別標(biāo)簽y為樣本條件約束,通過給生成器和判別器的輸入分別增加約束x|y與z|y來實(shí)現(xiàn).增加了樣本條件約束后的優(yōu)化目標(biāo)改寫為

        改進(jìn)后,可以通過改變輸入樣本的類別標(biāo)簽y來控制模型生成所需的網(wǎng)絡(luò)攻擊樣本.

        傳統(tǒng)GAN 通過JS 散度來衡量

        沃瑟斯坦距離可度量高維空間中的數(shù)據(jù)推動(dòng)距離.面對(duì)高維的網(wǎng)絡(luò)攻擊樣本,將數(shù)據(jù)從pr(x) 推向的過程存在多種移動(dòng)路徑,每種路徑下,將數(shù)據(jù)全部推至目的分布的總代價(jià)B(γ),如式(5)所示.

        將式(5)代入式(6),可以等價(jià)地將W(pr,pg) 表示為

        求解式(7)的過程等同于求解一個(gè)線性規(guī)劃問題,面對(duì)現(xiàn)實(shí)中復(fù)雜的網(wǎng)絡(luò)攻擊數(shù)據(jù)分布,直接對(duì)其求解是難以實(shí)現(xiàn)的,因此,通過求解其對(duì)偶問題[12],等價(jià)地得到新的函數(shù)表達(dá)式為

        式中:s up 表示取上確界,L≤1 表示函數(shù)應(yīng)服從1-Lipschitz 約束.

        GMCW-GAN 引入梯度懲罰(gradient penalty)來保證函數(shù)服從1-Lipschitz 約束,即在判別器的優(yōu)化目標(biāo)中加入梯度懲罰項(xiàng)其表達(dá)式為

        聯(lián)立式(4)、(8)、(9),即可得到GMCW-GAN最終的目標(biāo)函數(shù)為

        1.2 生成器與判別器的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

        本節(jié)基于具有強(qiáng)表示能力的卷積神經(jīng)網(wǎng)絡(luò)來設(shè)計(jì)生成器與判別器的內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu).

        1.2.1 生成器

        生成器主要作用是將輸入的隨機(jī)變量轉(zhuǎn)變?yōu)楣魳颖?,GMCW-GAN 中生成器的網(wǎng)絡(luò)結(jié)構(gòu)包括全連接層(FC1)、重塑層(R2)、2 層轉(zhuǎn)置卷積層(TC3、TC4)與卷積層(C5),如圖2 所示.

        圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of generator

        從高斯混合模型中采樣得到的隨機(jī)分布z與樣本標(biāo)簽約束y的聯(lián)合嵌入表示生成器的輸入;通過FC1 將輸入進(jìn)一步表示為多神經(jīng)元隱層的輸出;通過R2 將FC1 的輸出重塑為三維結(jié)構(gòu);通過TC3 與TC4 執(zhí)行轉(zhuǎn)置卷積;通過C5,以same padding(保持卷積前后張量的高與寬不變)的方式執(zhí)行卷積,得到與真實(shí)攻擊樣本同形狀的生成攻擊樣本.

        為避免引入稀疏梯度,F(xiàn)C1、TC3 與TC4 中的非線性激活函數(shù)采用LeakyRelu[13],同時(shí)因?yàn)镃5 的輸出為生成的攻擊樣本,為保證與輸入至判別器的真實(shí)樣本具備同樣的特征尺度(0~1),采用Sigmoid函數(shù)作為其非線性激活函數(shù).

        1.2.2 判別器

        判別器主要用于判斷其輸入樣本是否真實(shí),其本質(zhì)上是一個(gè)二分類器,GMCW-GAN 中判別器的網(wǎng)絡(luò)結(jié)構(gòu)包括2 層卷積層(C1、C2)、展平層(F3)與2 層全連接層(FC4、FC5),如圖3 所示.

        圖3 判別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of discriminator

        判別器的輸入用真實(shí)攻擊樣本或生成器生成的攻擊樣本與樣本標(biāo)簽約束的聯(lián)合嵌入表示;通過C1 與C2 提取樣本特征;利用F3 將C2 的輸出展平為向量;進(jìn)一步用FC4 與FC5 提取特征,同時(shí)縮減向量長度,最終得到單個(gè)元素的輸出.C1、C2 與FC4中的非線性激活函數(shù)采用LeakyRelu,應(yīng)用沃瑟斯坦距離作為優(yōu)化目標(biāo),因此,F(xiàn)C5 的輸出無須進(jìn)行非線性激活.

        2 實(shí)驗(yàn)與討論

        為驗(yàn)證GMCW-GAN 的性能,首先,介紹ETCN半實(shí)物實(shí)驗(yàn)平臺(tái),給出攻擊數(shù)據(jù)的獲取方式;其次,給出相應(yīng)評(píng)價(jià)指標(biāo),并介紹實(shí)驗(yàn)測試環(huán)境與相關(guān)超參數(shù)配置;最后,通過多角度的實(shí)驗(yàn),驗(yàn)證GMCWGAN 的攻擊樣本生成能力.

        2.1 數(shù)據(jù)獲取

        本文對(duì)照某型ETCN 列車的實(shí)車網(wǎng)絡(luò)拓?fù)洌罱‥TCN 半實(shí)物實(shí)驗(yàn)平臺(tái),根據(jù)相關(guān)資料在平臺(tái)中模擬配置了車輛正常通信進(jìn)程,在此基礎(chǔ)上將安裝了攻擊模擬軟件的攻擊節(jié)點(diǎn)接入至交換機(jī),從而開展模擬攻擊實(shí)驗(yàn).實(shí)驗(yàn)環(huán)境如圖4 所示.

        圖4 ETCN 半實(shí)物實(shí)驗(yàn)平臺(tái)Fig.4 Hardware-in-the-loop experimental platform of ETCN

        本文提出的GMCW-GAN 生成樣本類型主要取決于輸入的真實(shí)樣本類型.為了驗(yàn)證其生成能力,本節(jié)采取的思路為:總結(jié)ETCN 可能面臨的典型攻擊,開展模擬攻擊實(shí)驗(yàn),從而獲取相應(yīng)的數(shù)據(jù),用于驗(yàn)證GMCW-GAN 的生成能力.

        作者的前期研究中總結(jié)了ETCN 可能面臨的3 大類主要攻擊有探測類攻擊、拒絕服務(wù)類攻擊、中間人類攻擊[14],因此,本文向?qū)嶒?yàn)平臺(tái)注入3 大類攻擊中的8 種典型攻擊來構(gòu)造訓(xùn)練數(shù)據(jù)集,包括屬于探測類攻擊的IP 掃描、端口掃描與漏洞掃描,屬于拒絕服務(wù)類攻擊的UDP(user datagram protocol)泛洪,TCP(transmission control protocol)泛洪,屬于中間人類攻擊的ARP(address resolution protocol)欺騙、篡改與重放.

        為便于比較GMCW-GAN 生成的樣本與真實(shí)樣本的質(zhì)量,通過2 個(gè)步驟構(gòu)建2 個(gè)ETCN 攻擊數(shù)據(jù)集.

        步驟1通過攻擊模擬實(shí)驗(yàn)構(gòu)造1 個(gè)樣本充足的基準(zhǔn)ETCN 攻擊數(shù)據(jù)集,稱為TADS(train attack dataset),其數(shù)據(jù)分布見表1.

        表1 TADS 的樣本分布Tab.1 Sample distribution of TADS

        步驟2維持TADS 中正常報(bào)文數(shù)量不變,在其各類攻擊樣本中隨機(jī)抽取500 個(gè)樣本,構(gòu)造小樣本的ETCN 攻擊數(shù)據(jù)集,稱為TADS-F,其數(shù)據(jù)分布見表2.

        表2 TADS-F 的樣本分布Tab.2 Sample distribution of TADS-F

        TADS 中,正常報(bào)文與攻擊報(bào)文均有上萬個(gè)樣本,數(shù)量充足,同時(shí)其數(shù)量比約為5.5∶4.5,分布平衡.TADS-F 中,正常報(bào)文數(shù)量充足,但攻擊報(bào)文數(shù)量稀少,其數(shù)量比約為9.6∶0.4,分布不平衡.

        2.2 評(píng)價(jià)指標(biāo)

        生成樣本的目的是給入侵檢測模型的訓(xùn)練提供更多有效信息,因此,本節(jié)通過入侵檢測性能來評(píng)價(jià)GMCW-GAN 的攻擊樣本生成能力.小樣本條件下主要關(guān)注正類樣本(攻擊)是否能被正確檢測.查準(zhǔn)率P是指所有檢測為攻擊的樣本中真正為攻擊的比例,反映了對(duì)攻擊樣本的檢測精準(zhǔn)度;查全率R是指所有攻擊樣本中被正確檢測為攻擊的比例,反映了對(duì)攻擊樣本的檢測完整度;F1分?jǐn)?shù)是P與R的調(diào)和平均,如式(11)所示,可綜合反映對(duì)攻擊樣本的檢測能力.

        虛警率(FPR)是指被錯(cuò)誤檢測為攻擊的正常樣本占所有正常樣本的比例,虛警率越低,模型對(duì)正樣本的預(yù)測純度越高,性能越好,如式(12).

        式中:FP為被誤檢的正常樣本數(shù)量,TN為被正確檢測的正常樣本數(shù)量.

        2.3 實(shí)驗(yàn)設(shè)置

        攻擊樣本生成實(shí)驗(yàn)與入侵檢測實(shí)驗(yàn)在以下配置環(huán)境中實(shí)施:1)硬件,AMD Ryzen 5 1600X CPU@3.60 GHz,32 GB RAM,NVIDIA GeForce GTX 1060 6 GB GPU;2)軟件,Windows 10 操作系統(tǒng),Keras 2.5.0,CUDA 10.2.95.

        GMCW-GAN 采用RMSProp 作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,小批量大小為32 個(gè),隨機(jī)變量設(shè)置為128 維向量,梯度懲罰項(xiàng)為10,μi與 σi賦以隨機(jī)初值(由于共有8 類攻擊樣本,因此i樣本標(biāo)簽為1~8 的整數(shù).

        深度神經(jīng)網(wǎng)絡(luò)(DNN)是一種具有代表性的深度學(xué)習(xí)方法,在入侵檢測領(lǐng)域取得了良好的應(yīng)用效果[15],其網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示.該模型的主要原理為:將入侵檢測任務(wù)轉(zhuǎn)化為深度學(xué)習(xí)中的分類任務(wù),將模型視為實(shí)現(xiàn)函數(shù)關(guān)系擬合的分類器,通過從隱含層到輸出層的逐層擬合,建立輸入(樣本的特征表示)與輸出(預(yù)測的類別)之間的映射關(guān)系,通過該映射關(guān)系即可實(shí)現(xiàn)對(duì)輸入樣本的類別預(yù)測,從而實(shí)現(xiàn)入侵檢測.所構(gòu)建的模型具有3 層隱含層,其神經(jīng)元數(shù)分別為512、256、128 個(gè),激活函數(shù)為ReLU,損失函數(shù)為交叉熵?fù)p失,優(yōu)化器采用SGD,學(xué)習(xí)率為0.002,小批量大小為64,遍歷次數(shù)epoch 為30 次,檢測的總類別數(shù)C=9(包含正常類).

        圖5 入侵檢測模型的結(jié)構(gòu)Fig.5 Network structure of intrusion detection model

        2.4 實(shí)驗(yàn)過程與結(jié)果

        開展實(shí)驗(yàn)之前,首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理:提取TADS 中網(wǎng)絡(luò)報(bào)文的主要報(bào)頭信息作為樣本特征,包括以太網(wǎng)頭、IP 頭、UDP 頭、TCP 頭、ICMP頭、ARP 頭以及TRDP 頭的各關(guān)鍵字段;用-1 填充樣本中的缺失值;使用獨(dú)熱碼(one-hot)將類別型特征轉(zhuǎn)換為數(shù)值型;使用最大最小歸一化對(duì)全部特征值進(jìn)行標(biāo)準(zhǔn)化處理.基于預(yù)處理后的TADS,通過2.1 節(jié)中的方式構(gòu)造TADS-F.

        為多角度驗(yàn)證GMCW-GAN 的性能,共開展了下述4 類實(shí)驗(yàn).

        2.4.1 樣本生成實(shí)驗(yàn)

        訓(xùn)練GMCW-GAN 模型,按需生成少數(shù)類攻擊樣本從而構(gòu)造大樣本平衡攻擊數(shù)據(jù)集.

        步驟1從高斯混合模型中生成128 維的隨機(jī)向量z,從TADS-F 中獲取真實(shí)攻擊樣本x,將z與x分別與樣本標(biāo)簽y進(jìn)行聯(lián)合嵌入,得到帶條件約束的輸入向量z|y與真實(shí)樣本x|y.

        步驟2將z|y輸入生成器,得到一批生成的攻擊樣本G(z|y) .

        步驟3固定生成器參數(shù),將x|y與G(z|y) 輸入判別器,訓(xùn)練判別器.

        步驟4固定判別器參數(shù),將z|y輸入生成器,訓(xùn)練生成器,得到新的G(z|y) .

        步驟5循環(huán)步驟3 與步驟4,對(duì)整體模型進(jìn)行對(duì)抗訓(xùn)練,直至收斂,從而完成訓(xùn)練.

        步驟6按照y從1~8 的順序,將z|y輸入訓(xùn)練好的生成器,對(duì)每類攻擊各生成9 500 個(gè)樣本,得到大樣本數(shù)據(jù)集(TADS-L),其分布見表3.

        表3 TADS-L 的樣本分布Tab.3 Sample distribution of TADS-L

        數(shù)據(jù)集中的網(wǎng)絡(luò)報(bào)文為高維樣本,無法直觀地觀察,使用t分布隨機(jī)鄰域嵌入(t-SNE)[16],將真實(shí)樣本與生成樣本映射為三維空間中的點(diǎn)以觀察其分布,如圖6 所示.

        圖6 真實(shí)樣本與生成樣本的三維空間表示Fig.6 3D representation of real and generated samples

        圖6 中紅色散點(diǎn)與藍(lán)色散點(diǎn)分別代表真實(shí)攻擊樣本與生成樣本的三維表示,可以看到:GMCWGAN 生成樣本與真實(shí)樣本高度相似,這初步證明了GMCW-GAN 的生成能力.當(dāng)然,該結(jié)果是由初步的視覺觀察得到的,由于t-SNE 實(shí)現(xiàn)的是對(duì)空間特征的維度映射,并不完全反映數(shù)據(jù)在高維空間的真實(shí)情況,因此,仍需通過下述實(shí)驗(yàn)進(jìn)一步驗(yàn)證生成樣本的質(zhì)量.

        2.4.2 驗(yàn)證生成樣本對(duì)入侵檢測性能影響的實(shí)驗(yàn)

        通過比較用TADS、TADS-F 與TADS-L 分別訓(xùn)練的DNN 入侵檢測模型在相同測試集上的性能差異,來驗(yàn)證GMCW-GAN 生成的攻擊樣本對(duì)入侵檢測性能的影響.從TADS 中對(duì)各類別均勻分層抽樣獲取測試集,每類1 000 個(gè),共計(jì)7 000 個(gè)測試數(shù)據(jù).用TADS、TADS-F 與TADS-L 分別訓(xùn)練DNN入侵檢測模型,3 個(gè)模型在測試集上測試得到的F1分?jǐn)?shù)見圖7,虛警率分別為12.7%、11.2%、12.4%.

        圖7 TADS、TADS-F、TADS-L 數(shù)據(jù)集分別訓(xùn)練的DNN 入侵檢測模型的F1 分?jǐn)?shù)Fig.7 F1 score of DNN intrusion detection models trained by TADS,TADS-F,and TADS-L

        對(duì)于TADS-DNN 在測試集上的測試結(jié)果,在其樣本分布均衡且數(shù)據(jù)量充足的情況下,不同類別攻擊的F1分?jǐn)?shù)是由其自身特性決定的,不在本文的討論范圍內(nèi).可將這一結(jié)果作為基準(zhǔn)參考,從而排除攻擊本身的檢測難度對(duì)比較結(jié)果的影響.

        TADS-DNN 與TADS-F-DNN 對(duì)比發(fā)現(xiàn):后者各類攻擊的F1分?jǐn)?shù)相較于前者有明顯下降,這是由攻擊樣本數(shù)量減少而導(dǎo)致的模型擬合能力下降引起的;與之相反的是,TADS-F-DNN對(duì)正常樣本的檢測能力略有提升,分析其原因可知,正常樣本數(shù)量沒有減少,模型可提取信息仍然充足,同時(shí),由于攻擊樣本數(shù)量減少導(dǎo)致了類不平衡,模型會(huì)將其自身學(xué)習(xí)至擅于識(shí)別樣本量大的類別,因此導(dǎo)致了對(duì)正常樣本檢測能力的小幅上升;TADS-F-DNN 的虛警率略低于TADS-DNN,這同樣說明訓(xùn)練時(shí)攻擊樣本的減少幾乎不會(huì)影響正常樣本的檢測,反而因?yàn)橐l(fā)的類不平衡現(xiàn)象,略微提高了對(duì)正常樣本的識(shí)別能力.

        根據(jù)圖7 可知:TADS-L-DNN 對(duì)攻擊樣本的檢測能力相較于TADS-F-DNN 有明顯提升,對(duì)8 類攻擊樣本的F1分?jǐn)?shù)均有促進(jìn)作用,使其平均提升了4.23%,這證明GMCW-GAN 生成的攻擊樣本對(duì)入侵檢測的檢測準(zhǔn)度有明顯的促進(jìn)作用;TADS-LDNN 的F1分?jǐn)?shù)與虛警率均非常接近于TADS-DNN,由于TADS-L 與TADS 的數(shù)據(jù)分布相同,其唯一區(qū)別在于樣本真實(shí)性不同,這證明了生成的攻擊樣本與真實(shí)樣本非常相似;盡管兩者的檢測結(jié)果差距很小,但最好的檢測效果仍由TADS-DNN 取得,這表明生成樣本本質(zhì)上仍是對(duì)真實(shí)樣本的模擬,只能盡可能地向其逼近.

        綜上可知,GMCW-GAN 可以生成非常接近真實(shí)攻擊樣本的高質(zhì)量樣本,可用于擴(kuò)充小樣本的攻擊數(shù)據(jù),從而提高入侵檢測的檢測能力.

        2.4.3 與其他生成方法的性能比較實(shí)驗(yàn)

        為進(jìn)一步驗(yàn)證GMCW-GAN 的生成能力,開展與其他經(jīng)典方法及前沿方法的對(duì)比實(shí)驗(yàn),其中,經(jīng)典方法包括隨機(jī)過采樣(ROS)、SMOTE 與傳統(tǒng)GAN;前沿方法包括文獻(xiàn)[8]與文獻(xiàn)[9]所提出的方法.利用上述多種方法從TADS-F 中生成新的網(wǎng)絡(luò)攻擊樣本,分別構(gòu)造多個(gè)大樣本數(shù)據(jù)集,其數(shù)據(jù)分布與TADS-L 相同.以TADS-L 與這多個(gè)數(shù)據(jù)集訓(xùn)練的DNN 入侵檢測模型的測試結(jié)果見圖8 與表4.

        表4 不同生成方法對(duì)入侵檢測模型虛警率的影響對(duì)比Tab.4 Comparison of data generation methods affecting FPR of intrusion detection models %

        圖8 不同生成方法對(duì)入侵檢測F1 分?jǐn)?shù)的影響對(duì)比Fig.8 Comparison of data generation methods affecting F1 score in intrusion detection

        從圖8 可知:機(jī)制最為簡單的ROS 所生成的攻擊樣本對(duì)入侵檢測的促進(jìn)最少;SMOTE 優(yōu)于ROS,這是由于其應(yīng)用了K 近鄰方法,使其比隨機(jī)采樣更具備信息提取能力;在IP 掃描、端口掃描、漏洞掃描、ARP 欺騙、UDP 泛洪與TCP 泛洪上,傳統(tǒng)GAN表現(xiàn)出比ROS 與SMOTE 更好的生成能力,這證明了傳統(tǒng)GAN 具備更強(qiáng)的樣本生成能力;但其篡改與重放樣本的生成效果劣于SMOTE,導(dǎo)致這一結(jié)果的可能原因是傳統(tǒng)GAN 訓(xùn)練中出現(xiàn)了模式崩塌,使得模型對(duì)篡改與重放的擬合能力較低;相比之下,GMCW-GAN 對(duì)篡改與重放樣本的生成效果最好,但與其他方法的差距并不突出,導(dǎo)致這一結(jié)果的可能原因是篡改與重放樣本同正常樣本在特征上非常相似,因此,入侵檢測模型對(duì)這2 類生成樣本并不敏感,表現(xiàn)為F1分?jǐn)?shù)的變化較小.

        參與對(duì)比的2 個(gè)前沿方法表現(xiàn)出了比經(jīng)典方法更好的效果.GMCW-GAN 取得了全局最優(yōu)的表現(xiàn),其生成的攻擊樣本所訓(xùn)練的模型在所有攻擊類別上均取得了最佳F1分?jǐn)?shù),相較于其他方法,GMCWGAN 擁有最佳的攻擊樣本生成能力,將傳統(tǒng)GAN的幾種改進(jìn)方法、生成器與判別器的優(yōu)化設(shè)計(jì)綜合在一起后,取得了明顯的優(yōu)化效果.

        從表4 可知,不同生成模型生成的樣本對(duì)入侵檢測模型的虛警率影響很小,這一結(jié)果再一次驗(yàn)證了2.4.3 節(jié)中的結(jié)論,即生成的攻擊樣本主要用于促進(jìn)入侵檢測模型對(duì)攻擊樣本的檢測能力,在正常樣本數(shù)量較大的前提下,生成的攻擊樣本對(duì)正常樣本的檢測幾乎沒有影響.

        2.4.4 類內(nèi)實(shí)驗(yàn)

        上述實(shí)驗(yàn)從整體視角評(píng)估并驗(yàn)證了本文方法的有效性,本節(jié)則開展類內(nèi)實(shí)驗(yàn),具體對(duì)比所提出的不同改進(jìn)對(duì)生成樣本的影響,從而驗(yàn)證各項(xiàng)改進(jìn)的有效性.

        本文共對(duì)傳統(tǒng)GAN 進(jìn)行了3 項(xiàng)改進(jìn),其中第2 項(xiàng)改進(jìn)為約束條件改進(jìn),其效果體現(xiàn)在增強(qiáng)實(shí)驗(yàn)人員在樣本生成實(shí)驗(yàn)中的控制力,即能夠通過該改進(jìn)來控制模型按需生成特定類型的攻擊樣本,因此,該改進(jìn)對(duì)樣本的質(zhì)量無影響,不參與量化的評(píng)估.為評(píng)估其他2 項(xiàng)改進(jìn),即采樣策略與損失函數(shù)的改進(jìn),首先,在GMCW-GAN 中去除這2 項(xiàng)改進(jìn),其次,去除一項(xiàng)、保留另一項(xiàng),從而共建立3 個(gè)模型,利用這3 個(gè)模型,按照2.4.3 節(jié)的方式開展對(duì)比實(shí)驗(yàn),在入侵檢測實(shí)驗(yàn)中,F(xiàn)1分?jǐn)?shù)結(jié)果如圖9 所示.由于不同生成模型對(duì)虛警率的影響已在上文實(shí)驗(yàn)中進(jìn)行了驗(yàn)證,因此不再進(jìn)行對(duì)比.

        圖9 2 項(xiàng)類內(nèi)改進(jìn)方法對(duì)入侵檢測的影響對(duì)比Fig.9 Comparison of two in-class improvements affecting intrusion detection

        通過圖9 可知:采樣策略改進(jìn)與損失函數(shù)改進(jìn)對(duì)各項(xiàng)攻擊的F1分?jǐn)?shù)均有促進(jìn)作用,驗(yàn)證了對(duì)生成樣本的多樣性與真實(shí)性的提升效果;對(duì)于除篡改與重放外的其他攻擊樣本,損失函數(shù)改進(jìn)對(duì)F1分?jǐn)?shù)的促進(jìn)比采樣策略改進(jìn)更明顯,樣本真實(shí)性的提升能夠比多樣性的提升在入侵檢測中帶來更明顯的促進(jìn)作用;對(duì)于篡改與重放,2 項(xiàng)改進(jìn)對(duì)F1分?jǐn)?shù)的提升較為接近,這2 類攻擊與正常樣本的相似度很高,因此,樣本真實(shí)性在其檢測過程中帶來的收益相對(duì)受限,表現(xiàn)為多樣性與真實(shí)性的促進(jìn)效果接近.整體而言,包含了2 項(xiàng)改進(jìn)的完整模型對(duì)各類攻擊樣本均具有最佳的F1分?jǐn)?shù),2 項(xiàng)改進(jìn)能夠共同促進(jìn)入侵檢測的檢測準(zhǔn)度提升,進(jìn)一步驗(yàn)證了2 項(xiàng)改進(jìn)的有效性.

        3 結(jié)論

        針對(duì)基于深度學(xué)習(xí)的ETCN 入侵檢測領(lǐng)域面臨的網(wǎng)絡(luò)攻擊小樣本問題,對(duì)傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了一種攻擊樣本生成方法GMCW-GAN.該方法使用高斯混合模型、樣本條件約束與沃瑟斯坦距離改進(jìn)了GAN 的采樣策略、約束條件及損失函數(shù),基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了生成器與判別器.在ETCN 半實(shí)物實(shí)驗(yàn)平臺(tái)中進(jìn)行了模擬攻擊實(shí)驗(yàn)以獲取攻擊樣本,利用GMCW-GAN 生成了新的攻擊樣本,通過多角度的實(shí)驗(yàn)證明了GMCW-GAN 可以生成有效的網(wǎng)絡(luò)攻擊樣本,可用其擴(kuò)充模型訓(xùn)練數(shù)據(jù),進(jìn)而緩解ETCN 入侵檢測的小樣本問題.

        猜你喜歡
        樣本實(shí)驗(yàn)檢測
        記一次有趣的實(shí)驗(yàn)
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        做個(gè)怪怪長實(shí)驗(yàn)
        推動(dòng)醫(yī)改的“直銷樣本”
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        亚洲女同性恋在线播放专区| 精品久久久无码中文字幕| 波多野结衣亚洲一区二区三区| 国产又爽又黄又不遮挡视频| 亚洲综合久久精品少妇av| 成人爽a毛片免费视频| 失禁大喷潮在线播放| 99久久精品一区二区三区蜜臀| 久久婷婷国产色一区二区三区| 亚洲av无码乱码精品国产| 亚洲精品乱码久久久久久蜜桃图片| 一级一级毛片无码免费视频| 最新国产一区二区三区| 国产性自爱拍偷在在线播放 | 久久亚洲国产欧洲精品一 | 亚洲国产成人久久综合下载| 亚洲国产美女在线观看| 日本免费三片在线播放| 国产特级毛片aaaaaa高潮流水| 99久久精品费精品国产一区二区| 亚洲男人堂色偷偷一区| 99久久精品人妻一区| 久久午夜羞羞影院免费观看| 车上震动a级作爱视频| 久久精品国产亚洲AⅤ无码剧情| 日本人妻精品有码字幕| 国产精品www夜色视频| 欧美亚洲国产另类在线观看| 中文字幕久久人妻av| 亚洲综合图色40p| 国产色综合天天综合网| 久久精品国产亚洲AⅤ无码剧情| 开心五月激情五月五月天| а√资源新版在线天堂| 久久精品国产亚洲Av无码偷窍| 国产精品国产三级国产专播| 中文字幕亚洲精品无码| 日韩黑人欧美在线视频观看| 日本精品熟妇一区二区三区| 国产在线第一区二区三区| 人成午夜免费大片|