亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向惡意網(wǎng)頁訓(xùn)練數(shù)據(jù)生成的GAN模型

        2021-03-23 03:44:24萬夢翔姚寒冰
        計算機工程與應(yīng)用 2021年6期
        關(guān)鍵詞:分類器網(wǎng)頁樣本

        萬夢翔,姚寒冰 ,2

        1.武漢理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,武漢 430063

        2.武漢理工大學(xué) 交通物聯(lián)網(wǎng)技術(shù)湖北省重點實驗室,武漢 430070

        隨著科技的發(fā)展,互聯(lián)網(wǎng)上層出不窮的應(yīng)用服務(wù)給人們生活帶來便利的同時也產(chǎn)生了許多安全問題。各式各樣的惡意網(wǎng)頁,在用戶不知情的情況下,竊取用戶隱私信息,對用戶網(wǎng)絡(luò)安全構(gòu)成了極大的威脅。瑞星中國網(wǎng)絡(luò)安全報告[1]顯示,2018年瑞星在全球范圍內(nèi)共攔截惡意網(wǎng)頁1.06 億個,中國地區(qū)339 萬個,并且有持續(xù)增長趨勢。

        惡意網(wǎng)頁是一類以網(wǎng)頁木馬、釣魚網(wǎng)站為代表的網(wǎng)頁,惡意網(wǎng)頁通過偽裝成合法網(wǎng)站或在頁面中嵌入惡意腳本等方式,在用戶訪問時對其網(wǎng)絡(luò)安全構(gòu)成威脅。針對惡意網(wǎng)頁識別問題,一般有傳統(tǒng)黑名單技術(shù)[2]、基于啟發(fā)式規(guī)則的方法[3]、基于機器學(xué)習(xí)的方法[4-5]以及動態(tài)檢測技術(shù)[6-7]等?,F(xiàn)有檢測方案還存在著一些缺陷:黑名單技術(shù)不能檢測新出現(xiàn)的惡意網(wǎng)頁;基于啟發(fā)式規(guī)則的方法存在規(guī)則更新難,誤判率高的問題;基于機器學(xué)習(xí)的方法需要大量標記的網(wǎng)頁樣本,但是惡意網(wǎng)頁樣本收集困難,樣本標注工作量大;使用動態(tài)檢測技術(shù)對資源、時間的消耗較大。

        基于機器學(xué)習(xí)的惡意網(wǎng)頁識別方法主要通過收集大量有標記的網(wǎng)頁樣本,通過特征提取將樣本集轉(zhuǎn)換成特征向量集,然后訓(xùn)練一個分類器或多個分類器組成集成分類器,最后通過訓(xùn)練好的分類器對待測樣本進行檢測。但是惡意網(wǎng)頁生存期短,攻擊手段多變,導(dǎo)致樣本收集困難,難以獲取充足的均衡樣本集。本文在分析惡意網(wǎng)頁的傳統(tǒng)靜態(tài)統(tǒng)計特征基礎(chǔ)上,結(jié)合條件生成對抗網(wǎng)絡(luò)(Conditional GAN,CGAN),利用生成器擴展生成網(wǎng)頁特征樣本以解決樣本收集難、樣本標注工作量大等問題,并通過實驗驗證了生成網(wǎng)頁樣本數(shù)據(jù)的有效性。

        1 相關(guān)工作

        生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)是Goodfellow等[8]在2014年提出的一種生成式模型,它能夠?qū)W習(xí)高維、復(fù)雜的真實數(shù)據(jù)分布,即它不依賴于對真實數(shù)據(jù)分布的任何假設(shè),可以簡單地從隱變量空間生成真實樣例[9]。如圖1 所示,GAN 由一個生成器和一個判別器組成,生成器接收隨機噪聲z并模擬真實數(shù)據(jù)x生成偽數(shù)據(jù)G(z),判別器接收生成器生成的偽數(shù)據(jù)G(z)和真實數(shù)據(jù)x并判別其真?zhèn)?,生成器與判別器相互博弈,最終達到納什均衡。原始GAN 存在訓(xùn)練不穩(wěn)定,模型坍塌等問題,且過于自由的學(xué)習(xí)模式導(dǎo)致GAN的訓(xùn)練過程和結(jié)果都不可控[10]。為了提高GAN的穩(wěn)定性,解決GAN 生成結(jié)果過于自由不可控的問題,Mirza等[11]提出了條件生成對抗網(wǎng)絡(luò),基本結(jié)構(gòu)如圖2所示。CGAN模型在GAN的基本結(jié)構(gòu)上加入了條件信息y,生成器接收隨機噪聲z和條件y,判別器接收真實數(shù)據(jù)x或生成器生成數(shù)據(jù)G(z|y)與條件y組成的數(shù)據(jù)對。CGAN的訓(xùn)練過程都在條件y的約束下進行,所以可以達到用條件y指導(dǎo)數(shù)據(jù)生成的目的。通常將數(shù)據(jù)的類別標簽作為條件y,這樣可以實現(xiàn)生成特定類別數(shù)據(jù)的效果。

        圖1 GAN基本結(jié)構(gòu)

        圖2 CGAN基本結(jié)構(gòu)

        變分自編碼器(Variational Auto-Encoder,VAE)也是一種常見的深度生成模型,是Kingma等人[12]于2014年提出的基于變分貝葉斯推斷的生成式網(wǎng)絡(luò)模型。VAE的目標與GAN 一致,即構(gòu)建一個從隱變量生成目標數(shù)據(jù)的模型。不同的是,VAE假設(shè)了隱變量空間服從標準正態(tài)分布,而GAN 對隱變量空間不作任何假設(shè)。與GAN一樣,VAE同樣有眾多的改進衍生模型,其中與條件生成對抗網(wǎng)絡(luò)相似的是條件變分自編碼器(Conditional Variational Auto-Encoder,CVAE)[13]。CVAE 由一個編碼器和一個解碼器組成,其結(jié)構(gòu)如圖3所示。編碼器輸入條件信息和真實數(shù)據(jù),輸出一個n維均值向量和一個n維方差向量,均值和方差兩兩組合即可得到n個正態(tài)分布,編碼器盡可能使所有正態(tài)分布趨近于標準正態(tài)分布。隱變量z是組合成的正態(tài)分布中的隨機采樣值,與條件信息一同輸入到解碼器中。解碼器輸出生成數(shù)據(jù),并與真實數(shù)據(jù)對比,盡可能生成與真實數(shù)據(jù)類似的數(shù)據(jù)。因此,隨機取一個標準正態(tài)分布的采樣值,同指定的條件信息一起輸入到訓(xùn)練好的解碼器中,就能得到指定條件下的新的生成數(shù)據(jù)。

        在生成圖像方面,VAE 生成的圖像比GAN 生成的圖像更模糊[14],而且VAE 的泛化能力差[15]。因此,本文選取了生成樣本質(zhì)量更高、泛化能力更強的GAN 模型中的CGAN擴展惡意網(wǎng)頁樣本,同時在結(jié)構(gòu)上加以改進以提高生成樣本的質(zhì)量,并在實驗中與CVAE模型進行了對比。

        作為一個具有“無限”生成能力的模型,GAN 的直接應(yīng)用就是建模,生成與真實數(shù)據(jù)分布一致的數(shù)據(jù)樣本[16]。Georgios等[17]使用條件生成對抗網(wǎng)絡(luò)來近似真實數(shù)據(jù)分布,生成器作為過采樣算法,生成數(shù)據(jù)量較少的那一類別數(shù)據(jù),并通過實驗驗證了算法的有效性。Fiore等[18]將GAN應(yīng)用于信用卡欺詐行為數(shù)據(jù)的擴展中,實驗表明,在擴展集上訓(xùn)練的分類器性能優(yōu)于在原始數(shù)據(jù)上訓(xùn)練的分類器。袁辰等[19]提出了一種基于Ascall編碼方式定義域名的編/解碼器,并結(jié)合生成對抗網(wǎng)絡(luò)構(gòu)造域名字符生成器來預(yù)測生成DGA變體樣本的方法。實驗結(jié)果表明,在采用生成數(shù)據(jù)進行分類器訓(xùn)練和性能評估中,此方法生成的DGA 域名變體樣本可充當(dāng)真實DGA 樣本,驗證了生成數(shù)據(jù)的有效性并可用于DGA 域名檢測器的訓(xùn)練評估。曹啟云[20]針對樣本不足導(dǎo)致傳統(tǒng)分類器訓(xùn)練結(jié)果不理想的問題,提出使用生成對抗網(wǎng)絡(luò)生成樣本的方法,擴充訓(xùn)練數(shù)據(jù)集,使用生成器生成大量惡意JavaScript 代碼樣本。但是該方案在提取特征時,只取用了225個JavaScript的API函數(shù),特征值均是二進制的0/1值,比較單一。

        圖3 CVAE基本結(jié)構(gòu)

        相對于傳統(tǒng)方法,生成對抗網(wǎng)絡(luò)主要優(yōu)點在于能夠?qū)W(xué)習(xí)從無監(jiān)督學(xué)習(xí)轉(zhuǎn)化為監(jiān)督學(xué)習(xí),使得其在無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)領(lǐng)域可以發(fā)揮更大的作用。通常當(dāng)缺乏足夠的訓(xùn)練數(shù)據(jù)時,生成對抗網(wǎng)絡(luò)可以學(xué)習(xí)真實數(shù)據(jù)分布,模擬生成數(shù)據(jù),從而增大訓(xùn)練數(shù)據(jù)的數(shù)量。惡意網(wǎng)頁識別任務(wù)中,常常需要大量人工標注的網(wǎng)頁樣本數(shù)據(jù),而惡意網(wǎng)頁樣本數(shù)據(jù)收集困難,且樣本標注工作量大。因而,研究基于生成對抗網(wǎng)絡(luò)擴展樣本集,對基于機器學(xué)習(xí)的惡意網(wǎng)頁識別技術(shù)具有重要意義。

        2 惡意網(wǎng)頁訓(xùn)練數(shù)據(jù)擴展模型

        2.1 網(wǎng)頁樣本表示

        基于機器學(xué)習(xí)的惡意網(wǎng)頁識別方法中,需要通過特征提取、特征處理等將網(wǎng)頁樣本集轉(zhuǎn)換為特征向量集。目前研究中心,常用的靜態(tài)網(wǎng)頁特征一般可分為主機信息、URL 特征和網(wǎng)頁內(nèi)容三類[21]。主機信息主要包括WHOIS 信息和DNS 信息,其特征數(shù)量較少且抽取難度較大。URL 特征主要是分析URL 文本特征,其特征數(shù)量也較少,但是提取過程較為簡單快捷。網(wǎng)頁內(nèi)容特征較多,又可細分為HTML 特征和JavaScript 特征等。由于主機信息和URL 特征相近,本文將其合并為一類特征,稱為主機和URL信息,HTML特征和JavaScript特征各單獨作為一類特征。

        在惡意網(wǎng)頁識別中,WHOIS 信息和DNS 信息被使用的特征一般有域名注冊日期、域名有效期、域名服務(wù)器信息等。本文從中整理了如下4個特征:域名注冊時長、域名有效期、DNS服務(wù)器數(shù)量以及重定向次數(shù)。域名注冊時長指的是域名注冊日期至今(本文取2019年6月20日)的天數(shù),域名有效期指的是域名的注冊日期至域名過期日期的天數(shù)。

        URL 特征主要是基于URL 的文本特征,如URL 長度、點的個數(shù)和特殊字符數(shù)量等。惡意網(wǎng)頁URL 通常較長,而且包含一些隨機字符串,所以惡意網(wǎng)頁URL在文本上與良性網(wǎng)頁存在一定的差異。本文從中提取了以下6 個特征:URL 長度、特殊字符數(shù)量、點的數(shù)量、數(shù)字的數(shù)量、路徑深度和是否包含IP地址。其中是否包含IP地址是一個二值特征,包含IP地址時為1,否則為0。

        常用的HTML 特征一般包括HTML 的長度、詞匯的個數(shù)以及標簽屬性等。本文從中提取了隱藏標簽數(shù)量、<iframe>標簽數(shù)量、HTML長度、URL出現(xiàn)次數(shù)等12個特征。對于隱藏標簽數(shù)量的統(tǒng)計,主要考察標簽的size 屬性(包括width 屬性和height 屬性)、hidden 屬性、display屬性以及visible屬性。

        在HTML中寫入JavaScript等腳本語言是惡意網(wǎng)頁攻擊中常見的一種技術(shù),這樣可以在未經(jīng)用戶允許或操作的前提下便可執(zhí)行某些操作。JavaScript特征主要是統(tǒng)計一些高危函數(shù)或額外嵌入的可執(zhí)行文件等信息。本文從中提取了函數(shù)eval 調(diào)用次數(shù)、長字符串?dāng)?shù)量(長度大于30)、JavaScript 代碼長度、可疑文件出現(xiàn)次數(shù)等26個特征??梢晌募饕?exe、.ini、.dll等后綴文件。

        綜上,本文將網(wǎng)頁特征分為了主機和URL 信息、HTML特征和JavaScript特征三類,并從中提取了共48個特征。對所有樣本進行特征提取后,對每個特征的特征值進行歸一化處理,將特征值縮放至區(qū)間[0,1]。本文使用線性歸一化處理,具體如公式(1)所示:

        其中x表示原特征值,x′表示轉(zhuǎn)換后的特征值,max 和min 分別表示所有樣本中該特征值得最大值和最小值。

        經(jīng)過歸一化處理后,所有網(wǎng)頁樣本均表示為一個48 維的特征向量f=[hu1,hu2,…,hu10,hl1,hl2,…,hl12,js1,js2,…,js26]T。本文后續(xù)訓(xùn)練惡意網(wǎng)頁分類器以及生成對抗網(wǎng)絡(luò)所使用的網(wǎng)頁樣本,均為其經(jīng)過上述特征提取轉(zhuǎn)換后的特征向量,并稱之為網(wǎng)頁特征樣本。

        2.2 WS-GAN模型

        目前,GAN在圖像領(lǐng)域取得了較好的成績,并開始廣泛應(yīng)用于其他領(lǐng)域。本文將GAN應(yīng)用于網(wǎng)頁特征樣本的生成,與其傳統(tǒng)應(yīng)用領(lǐng)域差異較大。因此,為使GAN適用于網(wǎng)頁特征樣本的生成,并取得較好的效果,本文設(shè)計實現(xiàn)了一種專用于網(wǎng)頁特征樣本生成的生成對抗網(wǎng)絡(luò)(Web Samples GAN,WS-GAN)。WS-GAN以CGAN 網(wǎng)絡(luò)為基礎(chǔ),將網(wǎng)頁樣本的類別標簽(良性或惡意)作為條件,以達到生成良性和惡意兩類網(wǎng)頁特征樣本的目的。同時,為了提升生成樣本的質(zhì)量,本文保留原有判別器作為全局判別器,并為網(wǎng)頁特征樣本中的三類特征數(shù)據(jù)(主機和URL信息、HTML特征和JavaScript特征)分別設(shè)計了對應(yīng)的特征判別器。因此,WS-GAN中包含一個生成器、一個全局判別器和三個特征判別器,基本結(jié)構(gòu)如圖4所示。

        其中,生成器G輸入隨機噪聲z和類別標簽c,輸出偽網(wǎng)頁特征樣本G(z|c)。與原始CGAN模型一致,各判別器輸入均是真實數(shù)據(jù)或生成數(shù)據(jù)與其對應(yīng)標簽組成的數(shù)據(jù)對。不同的是,全局判別器輸入的是完整的真實樣本數(shù)據(jù)或完整的生成數(shù)據(jù),而各特征判別器輸入的是真實樣本數(shù)據(jù)或生成數(shù)據(jù)經(jīng)過樣本分割后提取的對應(yīng)特征類別部分的數(shù)據(jù)。具體來說,全局判別器判別完整數(shù)據(jù)的真?zhèn)?,控制生成樣本整體的質(zhì)量;特征判別器Df1判別輸入數(shù)據(jù)的主機和URL信息特征數(shù)據(jù)的真?zhèn)?,Df2判別輸入數(shù)據(jù)的HTML 特征數(shù)據(jù)的真?zhèn)?,Df3判別輸入數(shù)據(jù)的JavaScript 特征數(shù)據(jù)的真?zhèn)?,控制的是生成樣本各局部特征細?jié)的質(zhì)量。

        圖4 WS-GAN基本結(jié)構(gòu)

        GAN 中使用的損失函數(shù)有多種,除了原始GAN 中使用的交叉熵損失,還有LSGAN 中的最小二乘損失以及WGAN中的Wasserstein距離損失。文獻[22]中,作者通過實驗得出以下結(jié)論:最小二乘損失學(xué)習(xí)樣本總體信息更好,交叉熵損失學(xué)習(xí)樣本局部細節(jié)更優(yōu)。因此,WS-GAN中全局判別器使用最小二乘損失,三個特征判別器均使用交叉熵損失,其損失函數(shù)分別如公式(2)和公式(3)所示。WS-GAN的總損失函數(shù)如公式(4)所示,為上述各判別器損失函數(shù)的加權(quán)和。

        其中,x表示真實樣本數(shù)據(jù),p(x)表示真實樣本數(shù)據(jù)分布,z表示噪聲數(shù)據(jù),p(z)表示噪聲數(shù)據(jù)分布,c表示樣本標簽,xi(i=1,2,3)表示真實樣本對應(yīng)的第i類特征數(shù)據(jù),yi(i=1,2,3)表示生成的偽數(shù)據(jù)G(z|c)對應(yīng)的第i類特征數(shù)據(jù),α,β1,β2,β3為各判別器損失函數(shù)的權(quán)值,并且滿足α+β1+β2+β3=1。

        本文提出的WS-GAN 模型,采用了CGAN 網(wǎng)絡(luò)的基本結(jié)構(gòu),使用網(wǎng)頁樣本的類別標簽作為條件信息,以此實現(xiàn)生成良性和惡意兩類網(wǎng)頁特征樣本的功能。同時,WS-GAN 加入了多個判別器,根據(jù)網(wǎng)頁樣本的每類特征類型設(shè)計不同的局部特征判別器,保留了原判別器作為樣本整體的全局判別器,并分別選取設(shè)計了合適的損失函數(shù),以此提高生成網(wǎng)頁樣本的質(zhì)量。

        2.3 生成器與判別器網(wǎng)絡(luò)結(jié)構(gòu)

        本文WS-GAN模型中包含一個生成器和四個判別器,均采用經(jīng)典的全連接網(wǎng)絡(luò)結(jié)構(gòu)。生成器由四層神經(jīng)網(wǎng)絡(luò)組成,包括輸入層,兩個隱含層和輸出層,如圖5所示。每一層包含全連接層、激活層以及dropout層,輸出層沒有dropout層。生成器輸入層共121個節(jié)點(120維的隨機噪聲加上1 維的類別標簽),兩個隱含層分別包含100和64個節(jié)點,網(wǎng)頁樣本為48維特征向量,所以最后輸出層共48 個節(jié)點。輸入層和兩個隱含層采用Leaky Relu 激活函數(shù),輸出層采用Sigmoid 激活函數(shù)。全局判別器與生成器結(jié)構(gòu)一致,四層全連接結(jié)構(gòu),而三個特征判別器與生成器結(jié)構(gòu)相似,三層全連接結(jié)構(gòu),去掉了一層隱含層,其具體結(jié)構(gòu)如表1所示。

        圖5 生成器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        3 實驗分析

        3.1 數(shù)據(jù)集與實驗環(huán)境

        本文從2017 年中國網(wǎng)絡(luò)安全技術(shù)對抗賽《惡意網(wǎng)頁分析》賽題的樣本數(shù)據(jù)集[23]以及Malicious Web Site Labs的host屏蔽文件中選取了6 000個良性網(wǎng)頁與5 500個惡意網(wǎng)頁進行特征提取,將轉(zhuǎn)換后的特征向量集作為實驗原始數(shù)據(jù)集。本文所有實驗選取數(shù)據(jù)集均為均衡樣本集,如不做特殊說明,默認數(shù)據(jù)集中良性網(wǎng)頁和惡意網(wǎng)頁數(shù)量一致。本文中的實驗環(huán)境詳細信息如表2所示。

        表1 生成器和判別器網(wǎng)絡(luò)結(jié)構(gòu)

        表2 實驗環(huán)境

        3.2 WS-GAN訓(xùn)練

        本文從原始數(shù)據(jù)集中選取了2 000個網(wǎng)頁特征樣本對WS-GAN進行訓(xùn)練。其中batch_size設(shè)置為50,學(xué)習(xí)率設(shè)置為0.000 2,α設(shè)置為0.4,β1、β2、β3均設(shè)置為0.2,使用Adam優(yōu)化器,最終全局判別器損失與生成器損失變化曲線分別如圖6(a)和圖6(b)所示。從圖中可以看出,生成器和判別器損失一增一減,體現(xiàn)了生成器和判別器對抗的特性。同時,全局判別器損失在訓(xùn)練次數(shù)6 000次左右開始收斂,生成器損失在訓(xùn)練次數(shù)5 500次左右開始收斂。

        3.3 WS-GAN生成樣本質(zhì)量分析

        為驗證本文WS-GAN 生成網(wǎng)頁樣本的有效性,本文進行了兩組對比實驗。實驗中主要涉及四種數(shù)據(jù)集:原始數(shù)據(jù)集RDS、WS-GAN 生成樣本數(shù)據(jù)集WDS、CGAN 生成樣本數(shù)據(jù)集CDS 以及CVAE 生成樣本數(shù)據(jù)集VDS。實驗中將WDS與RDS對比,分析WS-GAN生成樣本與原始真實樣本的差距;將WDS 與CDS、VDS對比,分析WS-GAN中改進結(jié)構(gòu)的有效性。

        圖6 損失曲線

        實驗1WS-GAN生成樣本有效性驗證實驗。從原始數(shù)據(jù)集隨機選取100正常網(wǎng)頁和100惡意網(wǎng)頁樣本作為測試樣本集。分別使用RDS、WDS、CDS 和VDS(size=1 000)作為訓(xùn)練數(shù)據(jù)集訓(xùn)練分類器,在測試樣本集上對比各分類器的準確率、正確率、召回率以及F1值,每組測試10次取平均值,其實驗結(jié)果如表3所示。

        表3 生成樣本性能對比 %

        從表3 可知,在常見的幾種分類器上,使用原始數(shù)據(jù)集訓(xùn)練的分類器與使用本文WS-GAN生成樣本訓(xùn)練的分類器,在識別惡意網(wǎng)頁的性能上基本持平,準確率與正確率方面原始數(shù)據(jù)集訓(xùn)練的分類器表現(xiàn)更好,但在召回率方面,WS-GAN 生成樣本訓(xùn)練的分類器表現(xiàn)更佳。這表明,WS-GAN 添加的局部特征判別器,提高了生成的惡意網(wǎng)頁樣本的質(zhì)量,使得惡意網(wǎng)頁的檢出率得到提高。同時,與CDS訓(xùn)練的分類器相比,WDS訓(xùn)練的分類器各項性能指標均高于前者1%至5%左右。這也表明,WS-GAN 基于CGAN 的改進有效并且生成的網(wǎng)頁樣本質(zhì)量有所提高。另外,VDS訓(xùn)練的分類器表現(xiàn)不佳,各項指標平均在80%至83%左右,與前三者訓(xùn)練的分類器性能差距較大。主要原因在于:CVAE生成圖像時一般比較模糊,即CVAE生成樣本在各像素點上精度不高,而本文將網(wǎng)頁樣本轉(zhuǎn)換成特征向量,每一個特征相當(dāng)于圖像的一個像素點,所以CVAE生成的網(wǎng)頁樣本質(zhì)量不高;CVAE 生成樣本的多樣性較差,訓(xùn)練樣本的多樣性也是影響分類器性能的關(guān)鍵。

        圖7 各分類器準確率變化趨勢

        實驗2擴展樣本性能對比實驗。選取相同的1 000個原始樣本集,在其基礎(chǔ)上分別加入原始樣本(RDS)、WS-GAN 生成樣本(WDS)、CGAN 生成樣本(CDS)以及CVAE 生成樣本(VDS),加入的擴展樣本數(shù)量從0 遞增至5 000,觀察各分類器準確率的變化情況,實驗結(jié)果如圖7所示。

        從圖7 可知,使用原始樣本、WS-GAN 生成樣本以及CGAN 生成樣本擴展的訓(xùn)練集訓(xùn)練的各分類器準確率均隨著擴展樣本的數(shù)量增加而上升,只有使用CVAE生成樣本擴展訓(xùn)練的分類器準確率呈下降趨勢。這表明,CVAE 生成的網(wǎng)頁特征樣本質(zhì)量較差,與原始樣本差異較大,影響了分類器的識別效果。從準確率的收斂速度來看,擴展樣本數(shù)從0 增加至2 000 階段準確率上升趨勢較快,K-近鄰、決策樹和支持向量機三者均在擴展樣本數(shù)4 000至5 000階段開始收斂,而邏輯回歸分類器上的準確率從2 000 開始就呈現(xiàn)收斂的趨勢。從RDS、WDS和CDS三者的對比來看,前二者曲線幾乎重合,二者差距不超過1%,而CDS對應(yīng)的曲線與前二者差距較大,也更早呈現(xiàn)收斂趨勢。分類器準確率的變化不僅與分類器本身性質(zhì)有關(guān),也與訓(xùn)練集的多樣性有關(guān),樣本集多樣性越低,增大訓(xùn)練樣本數(shù)量對分類器性能影響越小。因此,本文WS-GAN 生成樣本與原始樣本差異較小,在樣本質(zhì)量與多樣性上均優(yōu)于CGAN生成樣本。

        此外,實驗選取了各類生成樣本擴展的訓(xùn)練集在支持向量機上進行了詳細的對比,原始訓(xùn)練集大小為1 000,擴展樣本集大小為3 000,詳細對比結(jié)果如圖8所示。在準確率與F1 值上,RDS 比WDS 擴展樣本略高約0.3%,并且高于CDS 與VDS。在召回率上,與實驗1 結(jié)果一致,使用WDS 擴展訓(xùn)練的分類器在召回率方面較其余三者表現(xiàn)更優(yōu)。總體來說,使用RDS和WDS擴展樣本訓(xùn)練的分類器表現(xiàn)差異不大,WDS 在召回率上表現(xiàn)突出,CDS擴展樣本訓(xùn)練的分類器各參數(shù)值平均低于前二者3%左右,而VDS擴展樣本訓(xùn)練的分類器各參數(shù)值平均低于前二者12%左右,與前三者差距均較大。

        圖8 擴展樣本性能對比

        綜合上述實驗可知,本文提出的WS-GAN 生成的樣本與真實樣本之間差異不大,可用于擴展訓(xùn)練網(wǎng)頁分類器的訓(xùn)練數(shù)據(jù)集,也可直接作為訓(xùn)練惡意網(wǎng)頁分類器的訓(xùn)練數(shù)據(jù)。并且在用于生成惡意網(wǎng)頁樣本訓(xùn)練數(shù)據(jù)中,本文提出的WS-GAN在加入多判別器后,生成樣本的質(zhì)量與多樣性比CGAN生成樣本均有所提高。同時,CVAE 由于其生成圖像模糊、生成樣本多樣性差等缺陷,在直接用于生成網(wǎng)頁特征樣本中表現(xiàn)不佳。

        4 結(jié)束語

        本文將圖像處理領(lǐng)域中的生成對抗網(wǎng)絡(luò)創(chuàng)新地應(yīng)用于擴展惡意網(wǎng)頁訓(xùn)練數(shù)據(jù),試圖解決惡意網(wǎng)頁樣本量不足的問題,并通過實驗驗證了方案的可行性。將惡意網(wǎng)頁特征分成主機和URL信息、HTML特征和JavaScript特征三類,從中分析整理了48 個特征,通過特征提取、特征處理將網(wǎng)頁樣本表示為對應(yīng)的網(wǎng)頁特征樣本。本文提出的WS-GAN 以CGAN 為基礎(chǔ),在其原始結(jié)構(gòu)中加入了三個特征判別器用于學(xué)習(xí)對應(yīng)每個類別特征數(shù)據(jù)的細節(jié)信息,保留原有判別器作為全局判別器用于學(xué)習(xí)數(shù)據(jù)的整體語義信息,以此提升生成樣本數(shù)據(jù)的質(zhì)量。實驗表明,使用本文改進的WS-GAN 生成的網(wǎng)頁特征樣本直接訓(xùn)練惡意網(wǎng)頁分類器或是擴展網(wǎng)頁樣本集訓(xùn)練惡意網(wǎng)頁分類器時,其性能與使用等量的真實樣本訓(xùn)練的分類器性能基本一致,并且優(yōu)于使用CGAN生成樣本訓(xùn)練的分類器性能。在評價指標上,本文改進的WS-GAN 網(wǎng)絡(luò)生成的網(wǎng)頁樣本用于直接訓(xùn)練惡意網(wǎng)頁分類器時,比使用CGAN 網(wǎng)絡(luò)提高了1%至5%左右;用于擴展惡意網(wǎng)頁樣本訓(xùn)練分類器時,比使用CGAN網(wǎng)絡(luò)提高了1%至3%左右。并且,得益于局部特征判別器在控制生成樣本局部特征信息方便的成效,在使用WSGAN 生成樣本訓(xùn)練分類器時,其識別惡意網(wǎng)頁的召回率表現(xiàn)優(yōu)于原始樣本集訓(xùn)練的分類器。

        猜你喜歡
        分類器網(wǎng)頁樣本
        用樣本估計總體復(fù)習(xí)點撥
        推動醫(yī)改的“直銷樣本”
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        隨機微分方程的樣本Lyapunov二次型估計
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        村企共贏的樣本
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        中文字幕精品一二三区| 色琪琪一区二区三区亚洲区| 久久婷婷国产精品香蕉| 国产精品亚洲一区二区极品| 成av人片一区二区三区久久| 免费一区二区三区女优视频| 少妇被黑人嗷嗷大叫视频| 国产自拍高清在线观看| 69sex久久精品国产麻豆| 日韩国产欧美视频| 蜜桃在线观看免费高清完整版| 漂亮人妻被强中文字幕乱码| 日韩av水蜜桃一区二区三区| 加勒比一本heyzo高清视频 | 天天爽天天爽夜夜爽毛片 | 国产日韩亚洲中文字幕| 在线国人免费视频播放| 品色堂永远免费| 思思99热精品免费观看| 少妇极品熟妇人妻高清| 日韩有码中文字幕在线观看 | 亚洲中文字幕无码一久久区| 被群cao的合不拢腿h纯肉视频| 国产资源在线视频| 亚洲中文乱码在线视频| 久久国产人妻一区二区| 亚洲一区二区三区播放| 国产女精品| 日韩伦理av一区二区三区| gg55gg国产成人影院| 亚洲av永久无码精品网址| 99视频在线国产| 国产精品电影久久久久电影网| 加勒比一区二区三区av| 人妻久久一区二区三区| 丰满的人妻hd高清日本| 老外和中国女人毛片免费视频| 久久久久国产亚洲AV麻豆| 久亚洲一线产区二线产区三线麻豆| 久久精品熟女亚洲av麻| 少妇愉情理伦片高潮日本|