亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的匿名協(xié)議流量識別技術研究

        2021-11-17 06:53:10白惠文馬雪婧劉偉偉劉光杰
        計算機仿真 2021年7期
        關鍵詞:特征模型

        白惠文,馬雪婧,劉偉偉,劉光杰

        (1. 南京理工大學自動化學院,江蘇 南京 210094;2. 中國船舶重工集團第八研究院,江蘇 南京 211153)

        1 引言

        網(wǎng)絡流量分類與識別技術是有效的網(wǎng)絡規(guī)劃、基于策略的流量管理、應用程序先驗化和安全控制的前提和基礎。近年來出現(xiàn)了一種新的混淆方式,該方式使用特殊的加密手段,隱藏自己的密鑰協(xié)商和身份認證過程,無法獲取其協(xié)議類型,把這種類型的流量稱作全程加密流量,該流量在傳輸層就可以表現(xiàn)出近乎完全隨機的字節(jié)特性,這種類型的協(xié)議無法通過類似于SSL的明文握手過程來進行識別,它們的TCP數(shù)據(jù)流是全密文的形式,普通的流量識別手段無法獲取用戶的任何行為信息,甚至協(xié)議類型都無從得知,稱這一類型的協(xié)議為匿名協(xié)議,針對具有這種類型的典型應用,即Tor、Tunsafe和Psiphon3進行了研究,并使用深度神經(jīng)網(wǎng)絡對它們產(chǎn)生的流量類型進行了識別。

        由于隨機端口以及全程加密的手段,傳統(tǒng)的基于端口[1-3]和深度包檢測[4-7]的方法已經(jīng)失效。ML(機器學習)的方法被已經(jīng)廣發(fā)的應用到網(wǎng)絡流量分析中,但是其準確度依賴于所提取的特征,而基于深度學習的方法則不需要人為的提取特征,并且已經(jīng)被陸續(xù)應用到加密流量的識別技術中并且取得了一定的研究成果。Aceto[8]等將許多深度學習方法與隨機森林(RF)算法進行了比較,以顯示性能上的差距。他們使用3個帶有不同數(shù)量標簽的移動數(shù)據(jù)集,這些深度學習方法在兩個數(shù)據(jù)集上都優(yōu)于RF。Wang[9]提出使用卷積神經(jīng)網(wǎng)絡(CNN)模型,他們將數(shù)據(jù)包中的字節(jié)進行標準化,使用前784個字節(jié)作為輸入,并使用一個包含12種加密應用程序的數(shù)據(jù)集對模型進行了評估,并與使用時間和長度統(tǒng)計特特征的C4.5決策樹方法作了比較,結果顯示有較為明顯的改進。Chen等[10]使用具有2個卷積、2個池和3個全連接層的CNN模型來完成協(xié)議和應用程序分類任務。他們利用核希爾伯特空間(RKHS)的重生成嵌入,將早期的時間序列數(shù)據(jù)轉換為二維圖像。他們的CNN模型在協(xié)議和應用分類任務上優(yōu)于經(jīng)典的機器學習方法。Rezaei[11]等使用時間序列結合基于一維CNN的半監(jiān)督方法對5個應用程序進行分類。他們使用帶有大量未標記數(shù)據(jù)包的數(shù)據(jù)集進行模型的訓練,隨后使用該模型對帶有標記的數(shù)據(jù)集進行應用程序分類,實驗表明該模型可以應用于高帶寬業(yè)務網(wǎng)絡。為了同時捕捉流的時空特征,Wang[12]和Lopez-Martin[13]分別使用了CNN和RNN進行應用的識別。除了微小的差異,兩項研究都將前6-30個數(shù)據(jù)包的內容作為模型的輸入。雖然輸入特征、神經(jīng)網(wǎng)絡結構和數(shù)據(jù)集是不同的,但它們都具有較高的準確性。Lotfollahi[14]利用頭部和載荷數(shù)據(jù),在ISCX數(shù)據(jù)集中使用VPN和非VPN數(shù)據(jù)訓練一維CNN和SAE模型。兩種模型都顯示出較高的精度,但CNN模型的性能略優(yōu)于SAE模型。

        由于以上研究成果主要集中在已知的標準加密協(xié)議或隧道中,對于傳輸層中使用了特有的協(xié)議進行加密的流量缺乏相應的研究工作,針對這種問題,提出一種基于卷積神經(jīng)網(wǎng)絡的傳輸層全程加密流量的識別方法,并與多種經(jīng)典的機器學習方法做了對比實驗,結果表明深度學習方法對于這種全程加密的流量具有較好的識別效果,該方法可以有效地對混淆為全密文的TCP流量進行識別。

        2 匿名協(xié)議分析

        幾乎所有的加密協(xié)議都可以分為兩個主要階段:連接的初始化和加密數(shù)據(jù)的傳輸。第一階段可以進一步劃分為初始化握手、身份驗證和共享加密秘密。在第一階段,通常交換算法套件,驗證通信方,并交換密鑰。然后,這些密鑰用于加密第二階段傳輸?shù)臄?shù)據(jù)。圖1描述了這種通用協(xié)議方案,比如加密網(wǎng)站最常使用的TLS協(xié)議,應用層的加密安全協(xié)議SSH,在VPN中常用的IPsec,以及BitTorrent和Skype等應用都具有類似的過程。私有加密協(xié)議一般也會有這些或者部分過程,匿名協(xié)議的產(chǎn)生一般有兩種實現(xiàn)方法:1)通過加入一個混淆過程將常用加密協(xié)議(如SSL或SSH等)的初始化連接過程加密;2)使用靜態(tài)密碼省去密鑰協(xié)商過程。這里將針對基于基于混淆SSH協(xié)議的Psiphon 、基于Ofbs4的Tor、基于加密TCP的Tundafe進行介紹。

        圖1 加密協(xié)議通用過程

        2.1 基于混淆SSH的Psiphon(Psi)

        Psiphon產(chǎn)生的匿名流量是由混淆過的SSH協(xié)議產(chǎn)生的,它使用Obfuscated-OpenSSH加密了SSH協(xié)議加密初始化過程,使SSH流量變?yōu)槟涿髁?。Obfuscated-OpenSSH協(xié)議是著名的SSH混淆協(xié)議實現(xiàn),開源代碼托管于網(wǎng)站github。Obfuscated-OpenSSH協(xié)議基本實現(xiàn)原理如圖2所示。

        圖2 Obfuscated-OpenSSH協(xié)議實現(xiàn)原理圖

        Obfuscated-OpenSSH在TCP連接建立以后,SSH連接建立以前,客戶端和服務器交互若干個負載內容隨機的數(shù)據(jù)包,交換混淆加密參數(shù),用于推出兩端的混淆加密密鑰;然后,服務器和客戶端分別對對方身份進行驗證;隨后,進行SSH協(xié)議連接建立過程,該過程使用混淆密鑰進行加密。SSH協(xié)議數(shù)據(jù)交互階段是加密的,Obfuscated-OpenSSH增加了混淆后使得整個SSH會話是加密的,難以通過DPI的方式進行解析分析。這種混淆方式一定程度上增加了通信的隱私效果。

        2.2 基于Obfs4的Tor

        Obfs4是Obfs系列的最新一代匿名插件,它仍然主要圍繞為現(xiàn)有的經(jīng)過身份驗證的協(xié)議(如SSH或TLS)提供一層混淆來設計,但obfs4嘗試提供身份驗證和數(shù)據(jù)完整性。該協(xié)議有兩個階段:密鑰交換和加密數(shù)據(jù)傳輸。Obfs4繼承了Obfs的特點,抹除了Tor的數(shù)據(jù)包的標識,并通過隨機橢圓加密算法對數(shù)據(jù)重新進行了加密。由于Obfs4并未使用常見的加密協(xié)議而是使用了私有的加密協(xié)議,這就使得其數(shù)據(jù)包看起來像是一般的攜帶數(shù)據(jù)負載的tcp協(xié)議,這樣便給數(shù)據(jù)流過濾造成了一定的困難。同時,為了彌補Obfs3的不足,Obfs4沿用了ScreambleSuit的可以通過在負載部分進行隨機填充,混淆了數(shù)據(jù)包的負載和間隔時間的特征的方式;同時,在數(shù)據(jù)通訊前,Obfs4進行了多重認證機制,一旦任何一次認證出現(xiàn)問題,Obfs4將立刻停止繼續(xù)通信,這種多重認證使得其的匿名性和反探測能力得到了很大的提升。

        2.3 Tunsafe(Tun)

        Tunsafe是一款基于WireGuard協(xié)議的VPN應用。WireGuard是一個非常簡單但快速和現(xiàn)代的VPN協(xié)議,利用了最先進的加密技術。它的目標是比IPsec更快、更簡單、更精簡、更有用,同時避免了大量的麻煩。它目前正在進行大量的開發(fā),但它可能已經(jīng)被認為是業(yè)界最安全、最容易使用和最簡單的VPN解決方案。WireGuard是基于UDP協(xié)議設計的輕量級的安全VPN協(xié)議,官方并未支持TCP協(xié)議的混淆模式,但是已經(jīng)被第三方進行開發(fā),增加了無狀態(tài)加密TCP和TLS的混淆方式。本文針對其TCP混淆模式進行了研究,發(fā)現(xiàn)其表現(xiàn)出了匿名協(xié)議的特性,整個會話過程不包含任何明文特征。

        3 基于卷積神經(jīng)網(wǎng)絡的匿名流量識別方法

        3.1 數(shù)據(jù)包序列到圖像的轉換

        基于機器學習的網(wǎng)絡流量識別需要借助人工分析適合的特征,特征的好壞決定了最終的識別效果。卷積神經(jīng)網(wǎng)絡識別技術繞過了特征提取,直接從訓練數(shù)據(jù)中進行深度學習,自動得到不同網(wǎng)絡流量的特征模型,實現(xiàn)對網(wǎng)絡流量識別的目的。為了充分利用流量中的統(tǒng)計特征,提出了一種數(shù)據(jù)包序列轉換為圖像的方法,過程如圖3所示。

        圖3 數(shù)據(jù)包序列到圖像的轉換

        本文設置了一個窗口,每個窗口中包含同一條流中連續(xù)的23個數(shù)據(jù)包,即可得到一個數(shù)據(jù)包序列,每個數(shù)據(jù)包序列可以表示為

        Xn={x1,x2,…,xk}

        (1)

        其中,X表示數(shù)據(jù)包向量,x為數(shù)據(jù)包對象,k=23。用每個數(shù)據(jù)包的長度、方向以及TCP的6個標記位來代替數(shù)據(jù)包對象,則一個數(shù)據(jù)包可以表示為

        xn={y1,y2,…,yk}T

        (2)

        其中1≤n≤23,y1…y16分別表示兩字節(jié)數(shù)據(jù)包長度的每一位上面的值,y17…y23則表示方向以及數(shù)據(jù)包中TCP層的標記位,這23個元素取值均為0或1。最終,每個窗口中的數(shù)據(jù)包可以表示為:

        (3)

        這樣,每個數(shù)據(jù)包序列對象就可以被表示為一個二維的向量,將這個向量的值放大255倍,轉換為一個通道數(shù)為1的圖像進行處理,作為卷積神經(jīng)網(wǎng)絡的訓練數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡通過局部感知和權值共享對原始流量灰度圖進行卷積,將網(wǎng)絡流量信息的特征提取出來,再用池化操作對特征值進行降維,經(jīng)多層提取,最終抽取出對應網(wǎng)絡流信息的多項抽象特征。本文卷積神經(jīng)網(wǎng)絡參考經(jīng)典的卷積網(wǎng)絡結構LeNet構造訓練網(wǎng)絡,各層卷積核個數(shù)分別為6,12和120,最終提取了網(wǎng)絡流量灰度圖的抽象特征,然后用多分類Softmax分類器實現(xiàn)網(wǎng)絡流量的歸類。

        3.2 卷積神經(jīng)網(wǎng)絡結構介紹

        本文構建了一個7層的卷積神經(jīng)網(wǎng)絡,如圖4所示。

        圖4 卷積神經(jīng)網(wǎng)絡模型

        模型由7層CNN(不包含輸入層)組成,上圖中輸入的原始圖像大小是28*28像素,卷積層用Ci表示,子采樣層(pooling,即池化)用Si表示,全連接層用Fi表示。

        C1層(卷積層):6*28*28,該層使用了6個卷積核,每個卷積核的大小為5*5,每個卷積核(5*5)與原始的輸入圖像(28*28)進行卷積,這樣就得到了6個feature map(特征圖)。由于參數(shù)(權值)共享的原因,對于同個卷積核每個神經(jīng)元均使用相同的參數(shù),因此,參數(shù)個數(shù)為(5*5+1)*6=156,其中5*5為卷積核參數(shù),1為偏置參數(shù)。卷積后的圖像大小為28*28,因此每個特征圖有28*28個神經(jīng)元,每個卷積核參數(shù)為(5*5+1)*6,該層的連接數(shù)為(5*5+1)*6*28*28=122304。

        S2層(下采樣層,也稱池化層):6*14*14,這一層主要是做池化或者特征映射(特征降維),池化單元為2*2,因此,6個特征圖的大小經(jīng)池化后即變?yōu)?4*14。S2層需要2*6=12個參數(shù)。下采樣之后的圖像大小為14*14,因此S2層的每個特征圖有14*14個神經(jīng)元,每個池化單元連接數(shù)為2*2+1(1為偏置量),因此,該層的連接數(shù)為(2*2+1)*14*14*6=5880。

        C3層(卷積層):16*10*10,C3層有16個卷積核,卷積模板大小為5*5。與C1層的分析類似,C3層的特征圖大小為(14-5+1)*(14-5+1)=10*10。此處,C3與S2并不是全連接而是部分連接,有些是C3連接到S2三層、有些四層、甚至達到6層,通過這種方式提取更多特征。C3層的參數(shù)數(shù)目為(5*5*3+1)*6+(5*5*4+1)*9+5*5*6+1=1516。卷積后的特征圖大小為10*10,參數(shù)數(shù)量為1516,因此連接數(shù)為1516*10*10=151600。

        S4(下采樣層,也稱池化層):16*5*5,池化單元大小為2*2,因此,該層與C3一樣共有16個特征圖,每個特征圖的大小為5*5。所需要參數(shù)個數(shù)為16*2=32,連接數(shù)為(2*2+1)*5*5*16=2000

        C5層(卷積層),該層有120個卷積核,每個卷積核的大小仍為5*5,因此有120個特征圖。由于S4層的大小為5*5,而該層的卷積核大小也是5*5,因此特征圖大小為(5-5+1)*(5-5+1)=1*1。這樣該層就剛好變成了全連接。本層的參數(shù)數(shù)目為120*(5*5*16+1)=48120。由于該層的特征圖大小剛好為1*1,因此連接數(shù)為48120*1*1=48120。

        F6層(全連接層), F6層有84個單元,該層有84個特征圖,特征圖大小與C5一樣都是1*1,與C5層全連接。參數(shù)數(shù)量為(120+1)*84=10164, 由于是全連接,連接數(shù)與參數(shù)數(shù)量一樣,也是10164。

        Output層也是全連接層,共有4個節(jié)點,代表四種類型的流量,分別為0-背景流量(Ground,Gnd)、1-Tor、2-Psi、3-Tun流量。由于是全連接,參數(shù)個數(shù)為84*10=840,連接數(shù)與參數(shù)個數(shù)一樣,也是840。

        4 實驗結果分析

        為了評估本文提出的針對匿名協(xié)議的加密流量識別模型的準確率,在實際網(wǎng)絡環(huán)境中分別使用Tor、Psiphon和Wireguard軟件產(chǎn)生實際的網(wǎng)絡流量,并使用WireShark捕獲數(shù)據(jù)包。為了符合實際網(wǎng)絡環(huán)境中的流量情況,使用大量的正常流量作為背景流量進行實驗,數(shù)據(jù)集的情況如表1所示。

        表1 匿名協(xié)議和背景流量數(shù)據(jù)集

        將以8:1:1的比將數(shù)據(jù)集分為3各部分,分別為訓練集(train set)、驗證集(validation set)和測試集(test set)。訓練集用于學習樣本數(shù)據(jù),通過匹配一些參數(shù)來建立一個分類器;驗證集用于調整分類器的參數(shù);測試集用來測試訓練好的模型的分辨能力(識別率等)。

        使用測試集的數(shù)據(jù)一般會得到四類結果,分別是:

        1)真正類(True Positive,TP):正確肯定的匹配數(shù)目(自身屬于類別A被分類成類別A)。

        2)假正類(False Positive,F(xiàn)P):誤分,給出的匹配是不正確的(自身不屬于類別A被分類為類別A)。

        3)假負類(False Negative,F(xiàn)N):漏分,沒有正確找到的匹配的數(shù)目(自身屬于類別A卻被分類為非類別A)。

        4)真負類(True Negative,TN):正確拒絕的非匹配數(shù)目(自身不屬于類別A被分類為非類別A)。

        使用機器分類中的一般評價指標對實驗結果進行評估,它們分別是:準確率(Accuracy)、精確率(Precision)和查全率(Recall)。

        準確率代表被正確分類的樣本占樣本總數(shù)的比例,如式(4)所示。精確率代表被正確分類的本類樣本占所有被分到該類樣本數(shù)量的比例,如式(5)所示。查全率代表被正確分類的樣本占所有應該被正確分類的樣本的比例,如式(6)所示

        (4)

        (5)

        (6)

        可以看出,精確率和查全率反映了分類器性能的兩個方面,單一依靠某個指標并不能較為全面地評估分類器的性能。因此還需要精確率和查全率的綜合指標F-score來評估性能,F(xiàn)-score的計算方法如式(7)所示

        (7)

        可以看出F-score是精確率和查全率的加權調和平均,當F-score較高時可以說明分類性能較好。取參數(shù)β=1,即認為精確率和查全率同等重要。

        設置步長為16,即每次取出訓練集中的16組數(shù)據(jù)并將順序進行置亂,然后進行模型參數(shù)的訓練,迭代200次以后,使用驗證集的全部數(shù)據(jù)對得到的模型進行驗證,隨著迭代次數(shù)的不斷增加,模型的準確率會不斷增加并趨于穩(wěn)定,同時,交叉熵損失(Loss,用來表示目標與預測值之間的差距)會逐漸變小并趨于穩(wěn)定。為了得到最優(yōu)的模型,將迭代次數(shù)設置為10000。訓練過程的模型Loss值和Accuracy的變化過程如圖4所示。

        最終,使用訓練過程得到的最優(yōu)模型對測試集進行分類,得到圖7所示的混淆矩陣。

        圖6 混淆矩陣

        使用混淆矩陣可以計算得到如圖7所示的各項評價指標。

        圖7 模型性能評估

        其中,模型對于Wgd的識別效果最好,準確率達到了99.63%,F(xiàn)-score為98.87%,精確率和召回率分別為99.59%和98.16%;對于Psi,識別準確率為99.27%,F(xiàn)-score為95.42%,精確率和召回率分別為97.10%和93.80%;對于Tor,準確率為96.82%,F(xiàn)-score為89.11%,精確率和召回率分別為87.15%和91.17%,各項指標在三種流量中是最差的,說明Tor在背景流量中更不容易被識別出來。模型的總體準確率使用式(8)進行計算,最終得到總體的準確率為96.16%。

        (8)

        為了充分體現(xiàn)本文所提使用卷積神經(jīng)網(wǎng)絡的優(yōu)越性,同樣以23為窗口,提取了窗口內數(shù)據(jù)包的統(tǒng)計特征(如表3所示),利用決策樹、SVM和隨機森林的機器學習方法與本文得到的結果進行對比。

        表2 統(tǒng)計特征

        表3所示為各種識別方法的平均評價指標,從對比實驗的結果可以看出,本文提出的將數(shù)據(jù)包序列轉換為序列,結合卷積神經(jīng)網(wǎng)絡的方法,對匿名協(xié)議的加密流量具有很好的識別效果。無論從準確率,還是漏檢率和誤檢率,性能都要優(yōu)于普通的機器學習方法的檢測結果。

        表3 對比實驗結果

        5 結論

        本文針對網(wǎng)絡中的特殊加密流量——基于匿名協(xié)議的加密流量進行檢測和識別,首先提出一種將數(shù)據(jù)包序列轉為圖像的方法,并利用卷積神經(jīng)網(wǎng)絡在圖像識別方面的優(yōu)勢,自動提取窗口中數(shù)據(jù)包的特征,并進行模型的訓練。經(jīng)過實驗證明,這種方法可以有效地從大的背景流量中有效的檢測出匿名協(xié)議的加密流量。本文在較為理想的情況下討論了在一個固定窗口中對流量進行檢測的方法,但在真實環(huán)境中存在數(shù)據(jù)包缺失、亂序、單向數(shù)據(jù)流等多種復雜環(huán)境,窗口機制可能效果會有所下降,后續(xù)的工作將以單個數(shù)據(jù)包為單位進行加密流量的分析。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        国产成人高清亚洲一区二区| 蜜臀av一区二区| 国内精品一区二区2021在线 | 亚洲av日韩一区二区| 亚洲中文字幕无码一久久区| 国产天堂网站麻豆| 色婷婷亚洲十月十月色天| 国内精品久久人妻互换| 久久精品av在线观看| 亚洲色欲色欲www在线观看| 麻豆91免费视频| 中文字幕无线精品亚洲乱码一区 | 亚洲精品欧美二区三区中文字幕| 呦泬泬精品导航| 亚洲女同精品一区二区久久| 手机在线看片| 五月天激情婷婷婷久久| 久久亚洲国产成人精品v| 一区二区三区四区黄色av网站| 无码国产精品久久一区免费| 中文字幕亚洲无线码| 中国精品久久久久国产| 国产自拍偷拍视频免费在线观看| 亚洲国产日韩精品一区二区三区 | 国产精品一区二区偷拍| 无码va在线观看| 欧美在线不卡视频| 国产自产在线视频一区| 女人18片毛片60分钟| 国模少妇一区二区三区| 亚洲AV永久无码精品表情包| 亚洲av高清一区二区在线观看| 人人色在线视频播放| 国产精品一区二区韩国AV| 中文无字幕一本码专区| 欧美成人www在线观看| 五十路熟女一区二区三区| 魔鬼身材极品女神在线| 久久精品熟女亚洲av麻| 狠狠精品久久久无码中文字幕| 国产精品二区在线观看|