亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于孿生神經(jīng)網(wǎng)絡(luò)的惡意流量檢測方法

        2022-07-21 09:45:18李道全魯曉夫楊乾乾
        計算機(jī)工程與應(yīng)用 2022年14期
        關(guān)鍵詞:準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)流量

        李道全,魯曉夫,楊乾乾

        青島理工大學(xué) 信息與控制工程學(xué)院,山東 青島 266525

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)流量正在迅速增加,用戶訪問互聯(lián)網(wǎng)所產(chǎn)生的流量部分來源于傳統(tǒng)的網(wǎng)絡(luò)服務(wù),例如網(wǎng)頁瀏覽、電子郵件,另一部分則來源于種類繁多的多媒體服務(wù),例如P2P文件共享、游戲、社交平臺等等?;ヂ?lián)網(wǎng)的總體流量正在迅速增加,必然需要對流量進(jìn)行監(jiān)控和分類,以實現(xiàn)高效的網(wǎng)絡(luò)管理,為用戶提供更好的服務(wù)質(zhì)量。網(wǎng)絡(luò)流量的分類是一系列捕獲來自網(wǎng)絡(luò)的數(shù)據(jù)包,確定其身份的過程,例如可從捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包中找出對應(yīng)的應(yīng)用程序名稱。流量的正確分類可以實現(xiàn):服務(wù)質(zhì)量保證、惡意流量檢測、惡意軟件檢測以及入侵檢測等目的[1]。本文通過對流量的正確分類達(dá)到惡意流量檢測的目的。

        針對流量分類的主要方法有三大類:基于端口的、基于有效載荷的(如深度包檢測技術(shù)(deep packet inspection,DPI))、基于統(tǒng)計特征的(如使用機(jī)器學(xué)習(xí)進(jìn)行特征分類)等方法。文獻(xiàn)[2]提出了一種基于固定IP端口的流量分類方法,通過簡單的數(shù)據(jù)包報頭與收集到的固定IP端口進(jìn)行匹配,快速、準(zhǔn)確地完成了流量的分類?;诙丝诘牧髁糠诸惙椒ㄔ谠缙诘幕ヂ?lián)網(wǎng)中取得了不錯的效果,但隨著互聯(lián)網(wǎng)的快速發(fā)展,端口跳變、偽裝技術(shù)的出現(xiàn),導(dǎo)致此類方法的分類準(zhǔn)確度越來越低,不再可靠。文獻(xiàn)[3]使用DPI對流量進(jìn)行分類識別,該技術(shù)解決了之前利用端口進(jìn)行流量分類的不足,然而該技術(shù)需要占用大量的計算資源,雖然文獻(xiàn)[3]在原有的基礎(chǔ)上進(jìn)行了改進(jìn)提升,但它仍不適合用在現(xiàn)如今的高速網(wǎng)絡(luò)上進(jìn)行在線的流量分類。基于端口、深度包檢測的流量分類方法,都是按照人們預(yù)先設(shè)定好的匹配規(guī)則來解析網(wǎng)絡(luò)數(shù)據(jù)包中固有的成分而完成流量的分類[4]。隨后,研究人員將統(tǒng)計特征應(yīng)用于流量的分類領(lǐng)域。文獻(xiàn)[5]使用機(jī)器學(xué)習(xí)中的K均值聚類算法(K-means),作者對其稍加改進(jìn)使其應(yīng)用于流量分類中,最終取得了良好的效果,但該方法仍有著明顯的不足,即數(shù)據(jù)樣本中特征選取的好壞對最終的準(zhǔn)確率影響較大。

        傳統(tǒng)的機(jī)器學(xué)習(xí)算法應(yīng)用于流量的分類領(lǐng)域,解決了此前基于端口、有效載荷方法的不足,但傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要在預(yù)先選定好特征的前提條件下才能完成后續(xù)的分類工作,即面對一個流量數(shù)據(jù)集,特征選定的好壞直接影響最終的分類準(zhǔn)確率。該問題一直阻礙著傳統(tǒng)的機(jī)器學(xué)習(xí)算法在這一領(lǐng)域的進(jìn)一步研究。

        深度學(xué)習(xí)技術(shù)[6]屬于機(jī)器學(xué)習(xí)的子領(lǐng)域,近些年在計算機(jī)視覺、自然語言處理等領(lǐng)域有著快速的發(fā)展。深度學(xué)習(xí)中的多層學(xué)習(xí)結(jié)構(gòu)可在分布式的特征中發(fā)現(xiàn)高級的抽象特征,其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是一種典型的深度學(xué)習(xí)技術(shù),在圖像和語音識別方面都取得了出色的表現(xiàn)。已經(jīng)有大量的文獻(xiàn)證明,深度學(xué)習(xí)在流量分類領(lǐng)域也取得了出色的表現(xiàn)。文獻(xiàn)[7]使用卷積神經(jīng)網(wǎng)絡(luò)提出了一種惡意軟件的流量分類方法,該方法首先將原始的流量數(shù)據(jù)轉(zhuǎn)化成可供CNN訓(xùn)練學(xué)習(xí)的樣本,接著將這些樣本導(dǎo)入到算法模型中進(jìn)行預(yù)訓(xùn)練,再通過訓(xùn)練后的模型對樣本數(shù)據(jù)進(jìn)行識別,最終實現(xiàn)了惡意流量的分類檢測。文獻(xiàn)[8]設(shè)計了一種新的一維卷積神經(jīng)網(wǎng)絡(luò)(1D CNN)模型,從網(wǎng)絡(luò)結(jié)構(gòu)、超參數(shù)空間以及參數(shù)優(yōu)化方面入手,構(gòu)造了最優(yōu)分類模型,相比于傳統(tǒng)的1D CNN模型,在時間和準(zhǔn)確率上都有著明顯的進(jìn)步。文獻(xiàn)[9]將CNN和長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)結(jié)合在一起,提出了一種新的分類模型,在該模型中將一個預(yù)處理后的數(shù)據(jù)包導(dǎo)入到CNN中,由其完成一次特征的提取,然后再將任意三次連續(xù)輸出的特征導(dǎo)入到LSTM,最終進(jìn)一步提高了分類的準(zhǔn)確率。文獻(xiàn)[7]、文獻(xiàn)[8]、文獻(xiàn)[9]都是使用傳統(tǒng)意義上的深度學(xué)習(xí)技術(shù)進(jìn)行分類識別的,通過訓(xùn)練學(xué)習(xí)能夠自主選擇特征,解決了傳統(tǒng)機(jī)器學(xué)習(xí)中特征值選取的問題,并且在識別準(zhǔn)確度上也有著優(yōu)異的表現(xiàn)。

        傳統(tǒng)的深度學(xué)習(xí)技術(shù)雖然解決了特征選取的問題,但新的問題隨之而來,即樣本不均衡問題。不同類別的樣本數(shù)據(jù)量差別較大時稱之為樣本不均衡,使用樣本不均衡的數(shù)據(jù)集訓(xùn)練出來的模型,泛化能力差且容易發(fā)生過擬合。本文結(jié)合目前對流量分類的研究,基于深度學(xué)習(xí)技術(shù)中的孿生神經(jīng)網(wǎng)絡(luò),通過對比樣本間的相似度提出了一種端到端的單樣本檢測方法,該方法可對應(yīng)用程序的網(wǎng)絡(luò)數(shù)據(jù)包實施在線的流量分類識別,同時解決了樣本不均衡所導(dǎo)致的問題,實現(xiàn)了惡意流量的快速檢測,并且在準(zhǔn)確度上有著良好的表現(xiàn)。

        本文的創(chuàng)新點如下:

        (1)將孿生神經(jīng)網(wǎng)絡(luò)與惡意流量檢測相結(jié)合,提出了一種端到端的單樣本檢測方法。

        (2)在樣本不均衡的分類問題上,提出了一種解決方案。

        1 網(wǎng)絡(luò)流量分類問題的研究

        1.1 網(wǎng)絡(luò)流量分析

        當(dāng)前互聯(lián)網(wǎng)標(biāo)準(zhǔn)框架為OSI(open system interconnect)參考模型,OSI參考模型共七層(應(yīng)用層,表示層,會話層,傳輸層,網(wǎng)絡(luò)層,數(shù)據(jù)鏈路層,物理層)。一般來說,數(shù)據(jù)從一個終端產(chǎn)生后經(jīng)過互聯(lián)網(wǎng)被轉(zhuǎn)移到另一個終端上需要經(jīng)歷上述七層,其中的每一層都有著其相應(yīng)的功能。例如應(yīng)用層提供FTP、HTTP等協(xié)議,它們保障了文件的安全傳輸、網(wǎng)頁的正常瀏覽;數(shù)據(jù)鏈路層提供幀編碼和誤差糾正控制,以保證物理層和網(wǎng)絡(luò)層之間進(jìn)行可靠的數(shù)據(jù)傳輸。

        數(shù)據(jù)在上述七層中的每一層都可能包含一些流量的特征信息,研究人員可以利用這些流量的特征信息,如協(xié)議和端口號來識別大多數(shù)的應(yīng)用程序,確定流量的性質(zhì)。

        1.2 分類問題描述

        流量的正確分類可以轉(zhuǎn)化為對惡意流量的檢測,流量分類實際上是對惡意流量檢測的第一步。本文所討論的惡意流量來源于惡意應(yīng)用程序所產(chǎn)生的流量,這些流量會降低網(wǎng)絡(luò)服務(wù)質(zhì)量,并導(dǎo)致網(wǎng)絡(luò)犯罪。因此需要對網(wǎng)絡(luò)流量進(jìn)行快速、準(zhǔn)確的識別和分類,給用戶提供一個安全、可靠的網(wǎng)絡(luò)環(huán)境。

        文獻(xiàn)[10]利用每個flow的前N個有效載荷的特征來分析流量。因為一般來說,一個flow或者session的前端部分,通常是連接數(shù)據(jù)和一些內(nèi)容數(shù)據(jù),應(yīng)該最能反應(yīng)flow或session的內(nèi)在特征。本文在文獻(xiàn)[7]、文獻(xiàn)[10]的經(jīng)驗基礎(chǔ)上,只使用每個flow的前784個字節(jié)。由于只使用了前幾百個字節(jié),因此大大降低了計算成本,并能以較高的速度實現(xiàn)。

        流量分類問題的傳統(tǒng)處理流程如圖1所示,特征的選取和樣本不均衡是流量分類問題的研究瓶頸。

        圖1 傳統(tǒng)處理流程Fig.1 Traditional processing process

        2 方案設(shè)計

        2.1 數(shù)據(jù)集來源

        本文將收集到的16種類型數(shù)據(jù)分為兩大部分,分別命名為A和B。數(shù)據(jù)集A是由正常樣本和惡意樣本兩大類組成,共10種類型,其中5種正常樣本是由IXIA BPS[11]所采集,5種惡意樣本則來自于CTU-13[12],數(shù)據(jù)集具體如表1所示。

        表1 數(shù)據(jù)集ATable 1 Dataset A

        小數(shù)據(jù)集B的來源和上述一致,共有6種類型,其中3種為正常3種為惡意,具體如表2所示。

        表2 數(shù)據(jù)集BTable 2 Dataset B

        上述的網(wǎng)絡(luò)流量均由真實的應(yīng)用程序所產(chǎn)生,其中數(shù)據(jù)集A中的各類數(shù)據(jù)都是一些較大的流量,而小數(shù)據(jù)集B則是由一些規(guī)模比較小的流量構(gòu)成。為了滿足本次實驗的要求,再隨機(jī)地從數(shù)據(jù)集A中選出30%的數(shù)據(jù),10%組成數(shù)據(jù)集A1,用于測試模型分類的效果,剩下的20%分別組成數(shù)據(jù)集A2、A3,用于檢驗最終的檢測效果。小數(shù)據(jù)集B稍有不同,只隨機(jī)地選出20%的數(shù)據(jù)組成B1即可,其中B1也是用于測試最終的檢測效果。因為本方法需要通過相似度的對比來判定樣本x的好壞,所以還要有一個樣本庫提供樣本作對比,上述數(shù)據(jù)集A2和B相當(dāng)于樣本庫,提供樣本數(shù)據(jù)y給x做相似度分析。

        2.2 數(shù)據(jù)預(yù)處理

        由于現(xiàn)實環(huán)境中捕獲到的網(wǎng)絡(luò)流量通常是一段連續(xù)的數(shù)據(jù)流,在基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量分類之前,需要將連續(xù)的數(shù)據(jù)流拆分為離散單元,以某種粒度拆分后的數(shù)據(jù)可以作為深度學(xué)習(xí)訓(xùn)練的樣本。因此在訓(xùn)練模型之前,需要對這些數(shù)據(jù)進(jìn)行預(yù)處理,文獻(xiàn)[7]開發(fā)了一種數(shù)據(jù)預(yù)處理工具“USTC-TK2016”,該工具可對捕獲到的原始流量進(jìn)行流量拆分、流量清洗、圖像生成等操作。本文結(jié)合主流的流量分類方法最終采用該工具中的“All+Flow”的處理方式對數(shù)據(jù)集進(jìn)行預(yù)處理,其中All是指OSI的全部七層,F(xiàn)low是指具有相同五元組的所有包,即相同的源IP地址、源端口、目的IP地址、目的端口、應(yīng)用協(xié)議。本文的數(shù)據(jù)預(yù)處理流程如圖2所示。

        圖2 預(yù)處理流程Fig.2 Pre-processing process

        因為以太網(wǎng)頭中的物理鏈路信息對應(yīng)用程序標(biāo)識或流量分類任務(wù)來說沒有什么具體意義,所以首先刪除以太網(wǎng)頭。在建立連接或完成連接的過程中會生成標(biāo)志段SYN、ACK、FIN,而這些字段用于主機(jī)名的解析,是在訪問建立連接的過程中所產(chǎn)生的,也和本文中的流量分類無關(guān),因此這些信息都可以刪除。傳輸控制協(xié)議(TCP)和用戶數(shù)據(jù)報協(xié)議(UDP)的報頭大小不一,TCP的報頭長度一般為20個字節(jié),而UDP為8個字節(jié),為了使傳輸層段長度一致,在UDP段頭的末尾添加0,使其與TCP段頭的長度相等。最后通過流量清洗,對一些其他不相關(guān)的內(nèi)容進(jìn)行刪除,如一些數(shù)據(jù)包沒有應(yīng)用層,所以最終的結(jié)果文件夾為空;又如用于域名解析的一些字段,這些無關(guān)的內(nèi)容都可以刪除。

        由于一個字節(jié)等于8 bit,而這8個bit正好可以被解釋為0到255之間的無符號整數(shù)[13],轉(zhuǎn)換為十進(jìn)制數(shù)方式如下:

        例如二進(jìn)制數(shù)10000101按照上述公式可以轉(zhuǎn)化為十進(jìn)制數(shù)133,一個字節(jié)代表一個像素點,對應(yīng)的無符號整數(shù)0代表黑色,255代表白色。因此最終可以按照“一字節(jié)一像素點”的方式,把784字節(jié)的文件轉(zhuǎn)化成為一張28×28的灰度圖像。因為圖像的尺寸越小可獲得的特征也會越少,所以本文在文獻(xiàn)[7]的基礎(chǔ)上稍作修改,本文以784個字節(jié)為一個單元,使用9個連續(xù)的單元組成一個新的數(shù)據(jù)樣本,此時會得到一個84×84(7 056 Byte)的灰度圖像,如圖3所示。

        圖3 尺寸轉(zhuǎn)化Fig.3 Size conversion

        從數(shù)據(jù)集A中隨機(jī)選取兩種,從圖4的對比中可以看出,圖像的紋理有著明顯的差異,這為本文所使用的方法提供了可能。

        圖4 差異對比Fig.4 Difference comparison

        2.3 孿生神經(jīng)網(wǎng)絡(luò)

        孿生神經(jīng)網(wǎng)絡(luò)(Siamese neural network)簡單來說就是連體的神經(jīng)網(wǎng)絡(luò),一般所討論的孿生神經(jīng)網(wǎng)絡(luò)是由兩個結(jié)構(gòu)相同,且權(quán)重共享的神經(jīng)網(wǎng)絡(luò)拼接而成的。如圖5所示,Network1和Network2可以是同一個CNN或LSTM。

        圖5 孿生神經(jīng)網(wǎng)絡(luò)簡圖Fig.5 Simplified diagram of Siamese neural network

        當(dāng)輸入兩個樣本時,Network1和Network2會各自映射出樣本的特征向量,difference計算出兩個特征向量間的歐氏距離[14]來表示向量之間的差異,最后通過這個距離來擬合輸入圖像的相似度差異,結(jié)果保存在similarity中,similarity中的值介于0到1之間,越接近1表示越相似,反之則表示越不相似。計算歐氏距離的公式如下,本文采用L1距離,則公式為:

        x和y為需要進(jìn)行對比的樣本數(shù)據(jù),C表示把輸入數(shù)據(jù)轉(zhuǎn)化為一組特征向量,D用于衡量兩個輸入向量之間的距離。

        從孿生神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可知,其具有兩個輸入,當(dāng)兩個輸入為同一個類型的樣本時,標(biāo)簽為1;當(dāng)兩個輸入為不同類型的樣本時,標(biāo)簽為0。本文所使用的Loss為二分類的交叉熵?fù)p失函數(shù)[15],其公式如下:

        其中,z是標(biāo)簽(相同類型為1,不同類型時為0),p(z)是N次對比為相同類型的預(yù)測概率。對于每次對比為相同類型(z=1),它都會將lnp(z)添加到損失中,即為相同類型的對數(shù)概率。相反,它為不相同類型時(z=0),添加ln(1-p(z))到損失中,即為不相同類型的對數(shù)概率。在實際的實驗中表現(xiàn)為,對于錯誤的預(yù)測,應(yīng)該返回高值,對于良好的預(yù)測,應(yīng)該返回低值。這也是損失函數(shù)的目的,最終通過Loss的計算,評價兩個輸入的相似度。

        表3為本文卷積網(wǎng)絡(luò)部分五個卷積層參數(shù)的詳細(xì)說明。孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的CNN是用來提取特征的,如LeNet、AlexNet、VGG等都可以適用,本文的CNN采用的是VGG16。VGG16一般是由五個block組成,3×3的卷積核,共13個;層與層之間使用最大池化(max_pooling),2×2的池化核,共5個;再接3個全連接層。本章對該模型稍作修改,將第5個block的池化核調(diào)整為1×1。

        表3 卷積層參數(shù)Table 3 CNN paraments

        灰度圖像通過CNN會轉(zhuǎn)化成為一個多維特征,此時使用flatten函數(shù)將其平鋪到一維上,因為是孿生網(wǎng)絡(luò),所以最終會有兩個一維向量。將這兩個一維向量相減,然后再進(jìn)行絕對值求和,相當(dāng)于計算了兩個特征向量差值的L1范數(shù),也就是計算了兩個一維向量的距離,最后對這個距離再使用兩次全連接,將第二次全連接的結(jié)果用sigmoid函數(shù)輸出,使輸出值介于0到1之間,這個值代表兩個輸入樣本間的相似程度。

        2.4 惡意流量檢測方法實現(xiàn)

        人類可以從極少量的樣本中識別一個新物體,但目前計算機(jī)卻很難做到。目前傳統(tǒng)的深度學(xué)習(xí)技術(shù)先通過較大的數(shù)據(jù)集進(jìn)行模型預(yù)訓(xùn)練,再將其分類能力泛化到測試集中,每個類至少需要上千張樣本圖像才能使模型具有較好的性能表現(xiàn)。但現(xiàn)實中,有些類很難收集到足夠的樣本,不均衡的樣本經(jīng)過復(fù)雜網(wǎng)絡(luò)訓(xùn)練出來的模型,泛化能力差且容易發(fā)生過擬合。

        如何解決數(shù)據(jù)集中因部分樣本過少而導(dǎo)致的過擬合問題,一直都是研究人員所探討的。最直接的做法如文獻(xiàn)[7],他們將過小的樣本進(jìn)行了合并,過大的樣本只選取部分,當(dāng)然,這并不是一個好的解決方案。孿生神經(jīng)網(wǎng)絡(luò)具有一個顯著的特性,就是可以識別不在訓(xùn)練集里的類,即unseen類[16],本文正是利用這一特性來處理樣本不均衡的數(shù)據(jù)集。首先用一個較大的數(shù)據(jù)集訓(xùn)練孿生神經(jīng)網(wǎng)絡(luò),讓其獲得分辨各類別圖像之間異同的能力,然后依據(jù)孿生神經(jīng)網(wǎng)絡(luò)的特性,將該分辨能力用于分類識別小樣本數(shù)據(jù)集(傳統(tǒng)的方法無法泛化到unseen類中)。這些小樣本數(shù)據(jù)集中各類型的樣本數(shù)量很少,且是神經(jīng)網(wǎng)絡(luò)訓(xùn)練時不曾見過的類型,本文使用小數(shù)據(jù)集B(unseen類數(shù)據(jù)集)來驗證。

        圖6為本文檢測方法的簡略流程圖,使用數(shù)據(jù)集A訓(xùn)練完成之后,即本方法獲得了分辨各類別圖像之間異同的能力之后,采用輪詢的方式從數(shù)據(jù)集A2(樣本庫)中輸出y(1,2代表輪詢的順序,即等惡意樣本全部輸出結(jié)束后再輸出正常樣本),x為實時獲取的一個未知流量(由數(shù)據(jù)集A3提供)。通過CNN將x和y轉(zhuǎn)化為特征向量,經(jīng)過相似度對比后得出結(jié)果,結(jié)果值為sv保存在similarity樣本庫中,最終再結(jié)合y的性質(zhì)來定性x。

        上述檢測流程的代碼實現(xiàn)部分如下:

        相似度計算:

        1.image=input(請輸入待檢測樣本x:)

        2.#對字典A進(jìn)行遍歷,依次提供樣本y和樣本x進(jìn)行相似度的比較;

        此處的樣本數(shù)據(jù)經(jīng)CNN處理后轉(zhuǎn)化為相應(yīng)的特征向量。字典A中為樣本標(biāo)簽和樣本數(shù)據(jù),以鍵值對的形式存儲。其中鍵值為偶數(shù),對應(yīng)的值為正常樣本;鍵值為奇數(shù),則對應(yīng)的值為惡意樣本。

        3 實驗

        3.1 實驗環(huán)境

        TensorFlow由谷歌創(chuàng)建,于2015年開源,它是一個面向數(shù)據(jù)流的機(jī)器學(xué)習(xí)庫,用于處理復(fù)雜數(shù)學(xué)問題,近些年來被廣泛的應(yīng)用于深度學(xué)習(xí)領(lǐng)域。表4為本次實驗所使用的環(huán)境和配置。

        圖6 流程簡圖Fig.6 Flow chart

        表4 環(huán)境與配置Table 4 Environment and configuration

        3.2 實驗結(jié)果分析

        本文先使用一個較大的數(shù)據(jù)集A訓(xùn)練出一個模型,使得該模型有著辨別本次實驗中各類灰度圖像異同的能力。如圖7所示,損失值loss最終定在0.056 1,該值比較小,表明擬合良好,分類的準(zhǔn)確率最終定在98.65%。

        圖7 分類結(jié)果Fig.7 Classification result

        在模型訓(xùn)練完成之后,從數(shù)據(jù)集A3中隨機(jī)挑選一張圖像x,再從數(shù)據(jù)集A2中以輪詢的方式依次挑選出圖像y,其中的兩次對比結(jié)果如圖8、圖9所示。

        圖8 對比結(jié)果-1Fig.8 Comparison results-1

        圖9 對比結(jié)果-2Fig.9 Comparison results-2

        圖像x與數(shù)據(jù)集A2中的圖像依次比較,當(dāng)similarity的值接近0時,判定其為不相同,接近1時判定為相同。圖8中的兩張圖像的相似度接近0,判定圖像x和當(dāng)前圖像不相同,而圖9中的兩張圖像相似度為0.999 007 165,是接近1的一個值,判定x圖像和當(dāng)前圖像相同。假設(shè)y恰好是惡意樣本,依據(jù)當(dāng)前圖像y的性質(zhì),結(jié)合similarity的值,最終判定x圖像為惡意樣本,即x所表示的流量為惡意流量。將數(shù)據(jù)集A3中的所有樣本進(jìn)行檢測后,最終得出惡意流量檢測的準(zhǔn)確率為97.93%。

        小數(shù)據(jù)集B中各類型的樣本數(shù)量比較少,樣本數(shù)量最多的只有幾百個,若直接將這些類型的樣本放入到數(shù)據(jù)集A中一起進(jìn)行訓(xùn)練,則會導(dǎo)致泛化能力變?nèi)?,容易發(fā)生過擬合。本文利用孿生神經(jīng)網(wǎng)絡(luò)的一個特性,即可用于識別unseen類,恰好可用來解決樣本不均衡的問題,對小樣本部分做出很好的處理。本文先在完全使用數(shù)據(jù)集A的情況下訓(xùn)練出一個模型(小數(shù)據(jù)集B中的6種類型的數(shù)據(jù)都不參加訓(xùn)練),接著使用該模型對小數(shù)據(jù)集B進(jìn)行檢測。從小數(shù)據(jù)集B1中隨機(jī)挑選一張圖像x,再從小數(shù)據(jù)集B中以輪詢的方式依次挑選出圖像y,實驗結(jié)果表明本文所使用的方法可對小數(shù)據(jù)集B進(jìn)行分類檢測,且檢測效果良好。其中的兩次對比結(jié)果如圖10、圖11所示。

        圖10 對比結(jié)果-3Fig.10 Comparison results-3

        圖11 對比結(jié)果-4Fig.11 Comparison results-4

        將小數(shù)據(jù)集B1中的所有樣本進(jìn)行檢測后,得出檢測的準(zhǔn)確率為92.15%,則本實驗最終對整個數(shù)據(jù)集,即A+B總的檢測準(zhǔn)確率為95.04%。

        本文嘗試使用文獻(xiàn)[7]、文獻(xiàn)[8]中的方法對總數(shù)據(jù)集A+B進(jìn)行了分類實驗,但由于小數(shù)據(jù)集B的直接加入,總數(shù)據(jù)集中的各類型圖像樣本多的上萬,少的幾百,嚴(yán)重不均衡,導(dǎo)致模型的泛化能力變?nèi)?,出現(xiàn)了過擬合現(xiàn)象,實驗表現(xiàn)為:訓(xùn)練集上效果良好,但測試集上表現(xiàn)較差,部分類型的樣本甚至出現(xiàn)檢測準(zhǔn)確率為0的現(xiàn)象。因此本文采用文獻(xiàn)[7]中做法,將總數(shù)據(jù)集中一些過大的流量,只使用了一部分,對于一些規(guī)模過小的流量,對它們進(jìn)行合并。此時再使用文獻(xiàn)[7]、文獻(xiàn)[8]中的方法進(jìn)行分類實驗,最終得出相應(yīng)的惡意流量檢測準(zhǔn)確率為98.81%、83.26%,如表5所示。

        表5 總體準(zhǔn)確率對比Table 5 Overall accuracy comparison

        表5總結(jié)了四種方法對數(shù)據(jù)集A+B中惡意流量檢測的準(zhǔn)確率,其中SIFT+SVM[17](尺度不變特征變換(scaleinvariant feature transform,SIFT),支持向量機(jī)(support vector machine,SVM))是傳統(tǒng)的機(jī)器學(xué)習(xí)圖像分類方法。通過對比可看出,本文所提出的方法要明顯優(yōu)于SIFT+SVM和文獻(xiàn)[8]中的方法,其中文獻(xiàn)[7]的方法是最佳的。SIFT+SVM、文獻(xiàn)[7]、文獻(xiàn)[8]都需要在樣本較均衡的前提下才能達(dá)到上述的準(zhǔn)確率,而現(xiàn)實生活中所收集到的樣本很難做到恰好是均衡的。雖然文獻(xiàn)[7]在準(zhǔn)確率方面有著優(yōu)異的表現(xiàn),但該方法在數(shù)據(jù)集的選取時,為了達(dá)到樣本均衡,對于過大和過小的流量需要采取刪除和合并的措施,而本文所使用的方法不僅規(guī)避了這一問題,而且在檢測的準(zhǔn)確率上也有著良好的表現(xiàn)。

        綜上所述,本文所提出的方法在檢測準(zhǔn)確率和解決樣本不均衡的問題上都有著進(jìn)步的意義。

        4 結(jié)束語

        本文將孿生神經(jīng)網(wǎng)絡(luò)與惡意流量檢測相結(jié)合,從相似度入手,將分類問題轉(zhuǎn)化為檢測問題,在解決樣本不均衡問題的同時,依然有著良好的檢測效果,此方法對未來的流量分類和惡意流量檢測都有著參考的意義。

        當(dāng)然本文也有著不足之處,假如有一個新的惡意流量和現(xiàn)存的惡意流量完全不同,則檢測效果會很差,因此需要及時不斷地更新擴(kuò)展樣本庫,才能保證此方法有一個良好的檢測效果。本文還有一個待解決的問題,就是在分析similarity樣本庫中的數(shù)據(jù)時,如何設(shè)定閾值問題,本文設(shè)定的是0.5,即低于0.5判定為不相似,高于或等于0.5時判定為相似,但這樣的設(shè)定方式過于直接、簡單,因此有待進(jìn)一步的研究,并給出數(shù)學(xué)方面嚴(yán)謹(jǐn)?shù)耐茖?dǎo)和證明。

        猜你喜歡
        準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)流量
        冰墩墩背后的流量密碼
        玩具世界(2022年2期)2022-06-15 07:35:36
        張曉明:流量決定勝負(fù)!三大流量高地裂變無限可能!
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        尋找書業(yè)新流量
        出版人(2020年4期)2020-11-14 08:34:26
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        日产精品一区二区三区| 无码人妻精品一区二区三区东京热| 人妻尝试又大又粗久久| 最近中文字幕在线mv视频在线| 日韩欧美亚洲中字幕在线播放| 国产精品亚洲一区二区三区正片| 日本中文字幕精品久久| 亚洲国产一二三精品无码| 亚洲自偷自拍熟女另类| 精品国产亚欧无码久久久| 日本黄色特级一区二区三区| 丁香五月缴情在线| 97精品国产手机| 日本在线观看不卡| 粉色蜜桃视频完整版免费观看在线| 国产国产精品人在线视| 亚洲av综合av国产av| 亚洲av高清在线观看三区| 亚洲肥婆一区二区三区| 亚洲色欲久久久综合网东京热| 真实国产乱啪福利露脸| 国产三级精品美女三级| 性感熟妇被我玩弄到高潮| 婷婷色综合视频在线观看| 亚洲国产另类久久久精品黑人| 思思99热| 亚洲偷自拍国综合第一页国模| 人人超碰人人爱超碰国产| 国产激情内射在线影院| 成人无码区免费AⅤ片WWW| 麻豆国产成人av高清在线| 亚洲高清在线天堂精品| 国产精品欧美一区二区三区| 亚洲AV无码成人网站久久精品| 亚洲中国美女精品久久久| 少妇人妻综合久久中文字幕| 久久国产精品-国产精品| 在线免费欧美| 亚洲福利一区二区不卡| 亚洲av永久无码精品漫画| 永久免费不卡在线观看黄网站|