網(wǎng)絡(luò)環(huán)境自適應(yīng)的流量特征擬態(tài)技術(shù)

2021-03-16 13:29:00王軼駿姜開(kāi)達(dá)

計(jì)算機(jī)應(yīng)用與軟件 2021年3期

施帆王軼駿薛質(zhì) 姜開(kāi)達(dá)

(上海交通大學(xué)網(wǎng)絡(luò)空間安全學(xué)院上海 200240)

0 引言

在網(wǎng)絡(luò)普及帶來(lái)便利的同時(shí)，一些非法的網(wǎng)絡(luò)傳輸需要進(jìn)行控制。為防止非法的信息傳輸造成信息泄密，監(jiān)管者需要對(duì)異常的流量進(jìn)行審查過(guò)濾，阻止非法信息的網(wǎng)絡(luò)傳輸以保障信息安全。Tor是當(dāng)前最常用的匿名通信網(wǎng)絡(luò)之一，其通信協(xié)議具有強(qiáng)大的逆蹤性使得通信雙方無(wú)法知曉對(duì)方的真實(shí)網(wǎng)絡(luò)地址[1]，因此充斥著大量的非法信息資源，同時(shí)還能夠被攻擊者用于建立與命令控制服務(wù)器的隱蔽傳輸信道[2]。網(wǎng)絡(luò)監(jiān)管方會(huì)對(duì)管理范圍內(nèi)的Tor網(wǎng)絡(luò)流量進(jìn)行識(shí)別和阻攔，一方面防止個(gè)人用戶訪問(wèn)非法的網(wǎng)絡(luò)資源，另一方面防止內(nèi)網(wǎng)中可能存在的滲透行為發(fā)生或重要信息的泄露。

由于Tor沒(méi)有將協(xié)議設(shè)計(jì)重點(diǎn)放在如何掩蓋用戶使用Tor網(wǎng)絡(luò)的事實(shí)上，原生的Tor協(xié)議具有一定的顯著特征。何高峰等[3]提出了基于Tor的TLS指紋特征和報(bào)文長(zhǎng)度分布的檢測(cè)方法，利用Tor的密碼套件、證書序列號(hào)、起效時(shí)間和定長(zhǎng)數(shù)據(jù)包等固定特征識(shí)別Tor流量；Kwon等[4]基于數(shù)據(jù)包往來(lái)特征和連接建立時(shí)長(zhǎng)，依據(jù)Tor通信協(xié)議特有的連接握手方式和鏈路切換進(jìn)行檢測(cè)。這些固有特征使得當(dāng)前在工程上部署對(duì)Tor流量的檢測(cè)識(shí)別已經(jīng)較為成熟。

為了彌補(bǔ)Tor協(xié)議在上述方面的不足，Tor社區(qū)通過(guò)部署代理網(wǎng)橋節(jié)點(diǎn)以隱藏或破壞原始Tor協(xié)議的特征，通過(guò)對(duì)原始Tor流量的編碼混淆以在技術(shù)上增加檢測(cè)的難度。但是目前各網(wǎng)橋技術(shù)因存在一定局限性而被陸續(xù)挖掘出檢測(cè)特征，文獻(xiàn)[6，17，27]中歸納了Tor及相關(guān)隱蔽網(wǎng)橋的檢測(cè)特征。

檢測(cè)方在利用黑特征檢測(cè)非法協(xié)議之外，一些企業(yè)網(wǎng)絡(luò)管理員還會(huì)對(duì)TLS等加密連接的通信方證書進(jìn)行記錄與校驗(yàn)，部署強(qiáng)制中間人審查[7]以及對(duì)通信方的白名單規(guī)則過(guò)濾，使得直接向網(wǎng)橋建立TLS連接并使用加密信道轉(zhuǎn)發(fā)Tor網(wǎng)絡(luò)包易被監(jiān)管者發(fā)現(xiàn)。一些企業(yè)安全管理人員因此認(rèn)為白名單檢測(cè)機(jī)制足以阻擋非法數(shù)據(jù)的傳輸。

本文設(shè)計(jì)并實(shí)現(xiàn)了能夠自適應(yīng)當(dāng)前網(wǎng)絡(luò)環(huán)境特征的擬態(tài)網(wǎng)橋(Self-Adaptive Mimicry Bridge，SAMB)，能基于用戶使用環(huán)境動(dòng)態(tài)確定特征和擬態(tài)規(guī)則。SAMB采用當(dāng)前常見(jiàn)的HTTP協(xié)議進(jìn)行擬態(tài)混淆，其動(dòng)態(tài)自適應(yīng)擬態(tài)協(xié)議能夠避免當(dāng)前主流網(wǎng)橋協(xié)議靜態(tài)特征被二次發(fā)現(xiàn)的問(wèn)題，同時(shí)也將論證當(dāng)前基于特征的對(duì)特定流量的檢測(cè)技術(shù)，即使是使用白名單規(guī)則部署，也仍然存在一定的檢測(cè)盲區(qū)和缺陷。

1 相關(guān)工作

當(dāng)前Tor的網(wǎng)橋協(xié)議設(shè)計(jì)主要集中于傳輸層和應(yīng)用層。盡管在隱蔽信道方面有部分工作聚焦在更底層的協(xié)議或是字段時(shí)序上[8-9]，但是由于數(shù)據(jù)的攜帶效率較低而不適用較大數(shù)據(jù)量的隱蔽傳輸場(chǎng)景。

圖1為Tor網(wǎng)橋部署架構(gòu)，用戶試圖與訪問(wèn)目標(biāo)即Tor的節(jié)點(diǎn)進(jìn)行數(shù)據(jù)傳輸，管理者將在網(wǎng)絡(luò)邊界如網(wǎng)關(guān)上部署檢測(cè)系統(tǒng)。網(wǎng)橋分為客戶端與服務(wù)器兩部分，分別位于檢測(cè)者監(jiān)管區(qū)域內(nèi)和區(qū)域外。網(wǎng)橋的目標(biāo)是在客戶端上將用戶發(fā)送的原始數(shù)據(jù)包執(zhí)行編碼混淆，并在服務(wù)器上進(jìn)行譯碼恢復(fù)，以繞過(guò)檢測(cè)者部署的檢測(cè)系統(tǒng)，成功完成用戶預(yù)期的隱蔽通信。當(dāng)前主流的Tor網(wǎng)橋技術(shù)分為流量混淆、流量擬態(tài)、隧道技術(shù)三大類型。

圖1 Tor網(wǎng)橋部署架構(gòu)

1.1 流量混淆技術(shù)

流量混淆技術(shù)將數(shù)據(jù)包內(nèi)容加密混淆，使得處理后的數(shù)據(jù)包內(nèi)容隨機(jī)化，以此破壞原始協(xié)議的數(shù)據(jù)包內(nèi)容特征。

當(dāng)前已有實(shí)際工程部署的混淆技術(shù)有ScrambleSuit[10]和Obfs4[11]等，其中Obfs4作為Tor的主流網(wǎng)橋之一，能夠在對(duì)數(shù)據(jù)包進(jìn)行加密混淆的同時(shí)以拆分或填充的方式隨機(jī)化包的長(zhǎng)度，并在發(fā)送時(shí)隨機(jī)化發(fā)送時(shí)間間隔。由于其加密混淆的實(shí)現(xiàn)原理為流異或運(yùn)算，因此處理速度快、計(jì)算開(kāi)銷較低，針對(duì)單純的黑名單規(guī)則檢測(cè)非常有效。

Wang等[5]提出基于計(jì)算數(shù)據(jù)報(bào)文熵值的方法來(lái)檢測(cè)此類純隨機(jī)化混淆技術(shù)。被Obfs4等混淆技術(shù)隨機(jī)化后的數(shù)據(jù)包雜亂程度遠(yuǎn)高于普通網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)包，而且混淆流量不具備TLS等加密協(xié)議應(yīng)有的密鑰交換與身份認(rèn)證過(guò)程?；煜夹g(shù)生成的隨機(jī)化數(shù)據(jù)包由于不具備任何協(xié)議特征本身可以作為一個(gè)特征用于檢測(cè)。

1.2 隧道傳輸技術(shù)

當(dāng)前最有效的隧道傳輸技術(shù)之一是Tor網(wǎng)橋中的Meek[12]。Meek采用域前置技術(shù)，將受審查限制的URL置于TLS協(xié)議的HTTP Host Header字段，將TLS中的前置SNI字段設(shè)置為可信任的域名，從而檢測(cè)者能看到的僅是前置SNI字段中的受信任域名，而可信任服務(wù)器解析出真實(shí)URL后將數(shù)據(jù)包轉(zhuǎn)發(fā)至真實(shí)通信目標(biāo)地址。

Wang等[5]在實(shí)驗(yàn)中論證基于ACK頻率特征的方法可以檢測(cè)Meek協(xié)議流量。而另一方面，由于域前置技術(shù)經(jīng)常被用于網(wǎng)絡(luò)攻擊等其他非法用途上，云服務(wù)器廠商正試圖阻止域前置技術(shù)的被濫用。谷歌已于2018年4月禁止了其云服務(wù)上的域前置技術(shù)[13]，此類傳輸技術(shù)因過(guò)于依賴服務(wù)提供商的特性而欠缺通用性，并在今后的適用空間會(huì)越加狹窄。

1.3 流量擬態(tài)技術(shù)

流量擬態(tài)是指將將黑名單協(xié)議偽裝成其他協(xié)議以繞過(guò)審查檢測(cè)。FTE[13]是Tor曾經(jīng)常用的流量擬態(tài)技術(shù)之一，可以在最大長(zhǎng)度允許的情況下將任意輸入字符序列轉(zhuǎn)換成符合指定的正則表達(dá)式規(guī)則的字符串。通過(guò)將任意輸入數(shù)據(jù)包基于HTTP數(shù)據(jù)包的正則規(guī)則偽裝變形后輸出，將Tor流量擬態(tài)成HTTP流量以試圖繞過(guò)檢測(cè)。

在實(shí)際應(yīng)用中FTE生成的擬態(tài)流量與正常HTTP流量存在以下主要差異：

1) URL長(zhǎng)度與熵值。FTE生成包中的URL因需攜帶實(shí)際負(fù)載，長(zhǎng)度明顯高于普通數(shù)據(jù)包；由于不具備可讀特征，字符串的雜亂程度高于正常狀況，導(dǎo)致字段熵值過(guò)高。Wang等[5]基于URI的熵識(shí)別的方法，在實(shí)驗(yàn)中達(dá)到了100%的識(shí)別率。

2) 協(xié)議字段的不匹配性。由于FTE只是擬態(tài)了HTTP的正則規(guī)則特征，從而被擬態(tài)協(xié)議中多數(shù)字段都不具有實(shí)際意義。

3) 協(xié)議的語(yǔ)義性。靜態(tài)正則特征使得生成的擬態(tài)數(shù)據(jù)包都具有固定樣式，例如客戶端與服務(wù)器之間單一重復(fù)的Get請(qǐng)求與HTTP 200響應(yīng)來(lái)回并不符合正常的流量特征[20]。

Dyer等設(shè)計(jì)了可編程網(wǎng)絡(luò)混淆系統(tǒng)Marionette[14]以優(yōu)化上述問(wèn)題。其在FTE擬態(tài)基礎(chǔ)上使用狀態(tài)機(jī)模擬HTTP的語(yǔ)義狀態(tài)，增加擬態(tài)的靈活性，使生成流量在協(xié)議語(yǔ)義上具有一定隨機(jī)變動(dòng)而更接近真實(shí)情況。但是Marionette并沒(méi)有將工作重點(diǎn)放在熵值對(duì)抗上，并且使用單一規(guī)則文件屬于靜態(tài)規(guī)則特征，在較長(zhǎng)時(shí)間分析中仍能提取到檢測(cè)特征。

1.4 當(dāng)前混淆與檢測(cè)技術(shù)小結(jié)

根據(jù)先前的工作研究，隱蔽傳輸技術(shù)的突破點(diǎn)如下：

1) 增加混淆規(guī)則的動(dòng)態(tài)性，避免在混淆時(shí)引入固定特征。Shahbak等[15]通過(guò)各網(wǎng)橋協(xié)議的專有指紋特征在實(shí)驗(yàn)中有效識(shí)別檢測(cè)出了Tor的各常用網(wǎng)橋流量。提升混淆的變化性可有效加強(qiáng)檢測(cè)難度。

2) 提升特征擬態(tài)的深度。檢測(cè)系統(tǒng)通常需要面向海量流量數(shù)據(jù)，采用的檢測(cè)維度主要為直觀淺顯的特征。相對(duì)地，混淆方需要處理的數(shù)據(jù)少，通過(guò)少量的額外計(jì)算開(kāi)銷可以大幅提高檢測(cè)所需的復(fù)雜度。

3) 考慮混淆時(shí)網(wǎng)絡(luò)環(huán)境的差異。部分檢測(cè)系統(tǒng)采用白名單特征，通用的混淆方式難以適用于所有應(yīng)用場(chǎng)景。例如用戶主機(jī)中不同瀏覽器、訪問(wèn)目標(biāo)系統(tǒng)語(yǔ)言等特征或不同主機(jī)中能夠出現(xiàn)的正常網(wǎng)絡(luò)協(xié)議的差異。

綜上，隱蔽傳輸技術(shù)可以通過(guò)在客戶端增加復(fù)雜性，依賴當(dāng)前網(wǎng)絡(luò)環(huán)境的流量特征自適應(yīng)生成混淆特征，從而加大被檢測(cè)的難度。本文設(shè)計(jì)基于網(wǎng)絡(luò)環(huán)境自適應(yīng)的動(dòng)態(tài)規(guī)則特征擬態(tài)方法，將流量擬態(tài)偽裝工作的核心聚焦在對(duì)當(dāng)前網(wǎng)絡(luò)環(huán)境的流量特征提取與學(xué)習(xí)上，取代當(dāng)前單一靜態(tài)規(guī)則的擬態(tài)或混淆方法。鑒于多數(shù)情況下各檢測(cè)方案中存在如HTTP等白名單明文協(xié)議，本文將重點(diǎn)探討與實(shí)現(xiàn)對(duì)此部分協(xié)議的自適應(yīng)擬態(tài)偽裝，以試圖繞過(guò)當(dāng)前檢測(cè)機(jī)制。

2 網(wǎng)橋總體架構(gòu)

SAMB基于當(dāng)前網(wǎng)絡(luò)環(huán)境中的真實(shí)流量特征預(yù)測(cè)該環(huán)境下正常數(shù)據(jù)包的特征，并以此對(duì)隱蔽傳輸數(shù)據(jù)進(jìn)行擬態(tài)偽裝。

圖2是SAMB網(wǎng)橋客戶端的總體架構(gòu)設(shè)計(jì)，共分?jǐn)?shù)據(jù)包特征提取、特征學(xué)習(xí)預(yù)測(cè)和擬態(tài)執(zhí)行三個(gè)主要模塊。圖2中的白色與黑色箭頭分別表示自適應(yīng)特征學(xué)習(xí)與數(shù)據(jù)包發(fā)送擬態(tài)過(guò)程中的數(shù)據(jù)流向，虛線箭頭表示網(wǎng)橋客戶端數(shù)據(jù)包接收流程。接收過(guò)程中的數(shù)據(jù)解碼采用通用方法，與具體的擬態(tài)規(guī)則無(wú)關(guān)，不依賴于預(yù)測(cè)特征的輸入。

圖2 SAMB客戶端總體架構(gòu)圖

數(shù)據(jù)包特征提取模塊將對(duì)當(dāng)前環(huán)境的進(jìn)出數(shù)據(jù)包進(jìn)行搜集，過(guò)濾并提取所需擬態(tài)協(xié)議樣本的流量特征。

特征學(xué)習(xí)與預(yù)測(cè)模塊根據(jù)提取到的真實(shí)流量協(xié)議特征，分析擬態(tài)特征規(guī)則，生成預(yù)測(cè)特征并輸出到特征模板隊(duì)列。

擬態(tài)執(zhí)行模塊異步讀取特征模板隊(duì)列中的預(yù)測(cè)特征，對(duì)需要隱蔽傳輸?shù)牧髁炕煜用?。最終生成的擬態(tài)流量先放入發(fā)送隊(duì)列，并基于給定的間隔時(shí)間發(fā)送至網(wǎng)橋服務(wù)器。

SAMB采用HTTP作為擬態(tài)目標(biāo)協(xié)議，數(shù)據(jù)包特征提取模塊更適合作為瀏覽器插件過(guò)濾提取并處理網(wǎng)頁(yè)訪問(wèn)過(guò)程中的HTTP流量。本文使用火狐瀏覽器插件HAR Export Trigger[25]，在Firefox 43.0上將用戶在瀏覽器中的網(wǎng)頁(yè)訪問(wèn)流量以HAR格式保存至本地，并提供給后續(xù)模塊處理。保存的HAR文件中將包含或可推算得到所需要的特征信息。特征學(xué)習(xí)與預(yù)測(cè)模塊將以上信息作為輸入，基于馬爾可夫狀態(tài)模型挖掘該環(huán)境下正常用戶的網(wǎng)頁(yè)訪問(wèn)數(shù)據(jù)包特征，預(yù)測(cè)后續(xù)可能會(huì)產(chǎn)生的正常流量數(shù)據(jù)包特征作為輸出。

3 自適應(yīng)混淆特征學(xué)習(xí)

SAMB基于當(dāng)前網(wǎng)絡(luò)環(huán)境中的真實(shí)流量特征，推斷預(yù)測(cè)該環(huán)境下正常數(shù)據(jù)包的特征，以此對(duì)隱蔽傳輸數(shù)據(jù)進(jìn)行擬態(tài)偽裝。本節(jié)將介紹SAMB的自適應(yīng)特征學(xué)習(xí)方法和流程。

3.1 擬態(tài)特征維度

SAMB擬態(tài)網(wǎng)橋自適應(yīng)學(xué)習(xí)以下數(shù)據(jù)包特征：

1) 數(shù)據(jù)包長(zhǎng)度。不經(jīng)混淆的Tor流量具有大量定長(zhǎng)數(shù)據(jù)包[18]，隨機(jī)化混淆產(chǎn)生的數(shù)據(jù)包長(zhǎng)度仍然具有最小長(zhǎng)度等可辨別特征[5]。正常通信協(xié)議的數(shù)據(jù)包長(zhǎng)度在時(shí)序上也應(yīng)服從一定分布特征而非完全隨機(jī)化。

2) 數(shù)據(jù)包負(fù)載熵值。混淆或擬態(tài)后的數(shù)據(jù)包因不可讀而熵值高于正常數(shù)據(jù)包。檢測(cè)方也可通過(guò)特定時(shí)序上的數(shù)據(jù)包熵值進(jìn)行辨別正常TLS加密協(xié)議與混淆協(xié)議[5,20]。

3) 協(xié)議字段與語(yǔ)義的合法性。正常協(xié)議中會(huì)帶有特定固有字段，并且與服務(wù)器之間的通信狀態(tài)也可作為被檢測(cè)的特征[20,26]。

4) 發(fā)包間隔時(shí)間。Tor流量在數(shù)據(jù)包之間存在時(shí)間特征[4]。Lashkari等[21]基于流持續(xù)時(shí)間、報(bào)文間隔時(shí)間等多項(xiàng)特征維度識(shí)別Tor流量，并取得一定效果。

相關(guān)檢測(cè)工作還有圍繞其他深層特征維度的分析，如文獻(xiàn)[22-24]使用基于大量維度的機(jī)器學(xué)習(xí)算法。盡管這些算法模型在實(shí)驗(yàn)中都取得了較高的準(zhǔn)確度，但在工程應(yīng)用中因?yàn)閿?shù)據(jù)集規(guī)模小、擴(kuò)展性差，所以其真實(shí)部署效果有待驗(yàn)證[17]。本文只對(duì)以上檢測(cè)最常用特征進(jìn)行處理，其他維度的特征混淆將在未來(lái)工作中進(jìn)一步擴(kuò)展。

3.2 特征學(xué)習(xí)與預(yù)測(cè)流程

SAMB自適應(yīng)特征學(xué)習(xí)流程如下：

(1) 根據(jù)采集到的HAR文件根據(jù)訪問(wèn)目標(biāo)劃分分組；

(2) 對(duì)同一訪問(wèn)目標(biāo)的分組計(jì)算其平均請(qǐng)求包熵值，建立HTTP狀態(tài)和請(qǐng)求包大小預(yù)測(cè)模型。

在完成特征學(xué)習(xí)后，生成預(yù)測(cè)特征的流程如下：

(1) 隨機(jī)從已保存的預(yù)測(cè)模型中選取一個(gè)模型；

(2) 按時(shí)序預(yù)測(cè)該組通信中的HTTP請(qǐng)求方式和響應(yīng)狀態(tài)直到預(yù)測(cè)到HTTP請(qǐng)求方式為結(jié)束狀態(tài)，即得到該序列的預(yù)測(cè)長(zhǎng)度；

(3) 根據(jù)請(qǐng)求包長(zhǎng)度組的馬爾可夫模型預(yù)測(cè)每個(gè)請(qǐng)求數(shù)據(jù)包的長(zhǎng)度；

(4) 根據(jù)熵值分布設(shè)置請(qǐng)求包的平均熵值；

(5) 將預(yù)測(cè)的數(shù)據(jù)包的具體序列緩存至特征隊(duì)列中供后續(xù)模塊使用。

3.3 特征序列分組

不同的網(wǎng)頁(yè)后臺(tái)邏輯的差異化設(shè)計(jì)將表現(xiàn)出不同的數(shù)據(jù)包特征，因此特征學(xué)習(xí)預(yù)測(cè)將對(duì)不同子域名的網(wǎng)站分別提取特征。圖3是特征序列分組的示意圖，HAR Export Trigger插件會(huì)將用戶在瀏覽器中不同頁(yè)面的訪問(wèn)流量分別保存在一個(gè)HAR文件中并存儲(chǔ)至指定目錄，SAMB將根據(jù)這些文件中請(qǐng)求數(shù)據(jù)包的高頻Host字段確定對(duì)應(yīng)訪問(wèn)目標(biāo)，并將同一目標(biāo)的所有HAR文件作為后續(xù)特征學(xué)習(xí)預(yù)測(cè)的一組輸入數(shù)據(jù)。

圖3 基于HOST子域名的特征序列分組

定義數(shù)據(jù)包的一組特征序列為用戶在瀏覽器的一個(gè)頁(yè)面中使用網(wǎng)頁(yè)服務(wù)所產(chǎn)生的數(shù)據(jù)包特征的有序集合，即瀏覽器頁(yè)面創(chuàng)建至關(guān)閉的整個(gè)過(guò)程中產(chǎn)生的數(shù)據(jù)包特征按產(chǎn)生時(shí)間順序排列的集合。一個(gè)HAR文件對(duì)應(yīng)一組特征序列。

對(duì)于特征序列中的請(qǐng)求數(shù)據(jù)包中Host字段，從頂級(jí)域名起往前匹配至第一個(gè)非通用域名后綴為止，作為該請(qǐng)求數(shù)據(jù)的訪問(wèn)網(wǎng)站域名，以屏蔽子域名的差別。在訪問(wèn)一個(gè)網(wǎng)頁(yè)時(shí)除了收發(fā)來(lái)自網(wǎng)頁(yè)服務(wù)器的數(shù)據(jù)包外，還可能會(huì)伴隨一定數(shù)量的CDN節(jié)點(diǎn)的數(shù)據(jù)包，因此無(wú)法僅依據(jù)訪問(wèn)最頻繁的域名來(lái)識(shí)別訪問(wèn)目標(biāo)，故選取特征序列分組中出現(xiàn)頻率最高的三個(gè)域名一起作為該特征分組的訪問(wèn)目標(biāo)標(biāo)簽，用于標(biāo)識(shí)該特征序列分組對(duì)應(yīng)的訪問(wèn)目標(biāo)。

3.4 基于馬爾可夫模型的特征預(yù)測(cè)

1) HTTP協(xié)議語(yǔ)義特征擬態(tài)。SAMB網(wǎng)橋在Marionette使用狀態(tài)機(jī)模型模擬真實(shí)環(huán)境下HTTP數(shù)據(jù)包請(qǐng)求與響應(yīng)狀態(tài)序列的基礎(chǔ)之上，基于當(dāng)前環(huán)境歷史流量的協(xié)議狀態(tài)預(yù)測(cè)來(lái)確定擬態(tài)數(shù)據(jù)包協(xié)議的狀態(tài)轉(zhuǎn)移，從而增加擬態(tài)流量的真實(shí)性，減少靜態(tài)特征被檢測(cè)發(fā)現(xiàn)的可能。

SAMB使用馬爾可夫模型表示數(shù)據(jù)包請(qǐng)求方式和相應(yīng)狀態(tài)的轉(zhuǎn)移關(guān)系，依據(jù)數(shù)據(jù)包在一組特征序列分組的出現(xiàn)時(shí)序與前一響應(yīng)包的狀態(tài)來(lái)預(yù)測(cè)下一請(qǐng)求包的請(qǐng)求方式，依據(jù)出現(xiàn)時(shí)序和當(dāng)前請(qǐng)求包的請(qǐng)求方式預(yù)測(cè)對(duì)應(yīng)響應(yīng)包的狀態(tài)。如圖4所示，使用馬爾可夫模型表示該狀態(tài)轉(zhuǎn)移關(guān)系，圖中每一節(jié)點(diǎn)表示請(qǐng)求包方式或響應(yīng)包狀態(tài)，每一節(jié)點(diǎn)都只和前一節(jié)點(diǎn)狀態(tài)有關(guān)。

圖4 HTTP數(shù)據(jù)包狀態(tài)值的馬爾可夫模型

上述基于前一節(jié)點(diǎn)的狀態(tài)次序來(lái)預(yù)測(cè)下一節(jié)點(diǎn)狀態(tài)的方法，是考慮到訪問(wèn)同一網(wǎng)站時(shí)瀏覽器發(fā)起請(qǐng)求資源的順序因服務(wù)端的固有設(shè)計(jì)邏輯而相對(duì)固定，而且在一些異常情況發(fā)生時(shí)也會(huì)有相似的處理流程。例如：在有些業(yè)務(wù)處理中遇到404錯(cuò)誤狀態(tài)后會(huì)立即結(jié)束，而一些可能會(huì)用其他地址的資源代替；有些網(wǎng)站加載資源時(shí)可能會(huì)有重定向或使用本地緩存操作，使得初始的數(shù)據(jù)包狀態(tài)出現(xiàn)差異。

圖4中的馬爾可夫模型中各狀態(tài)轉(zhuǎn)移矩陣的定義為：

(1)

(2)

2) 請(qǐng)求包長(zhǎng)度預(yù)測(cè)。SAMB同樣采用馬爾可夫模型預(yù)測(cè)客戶端向服務(wù)器發(fā)送的請(qǐng)求包數(shù)據(jù)長(zhǎng)度。先將數(shù)據(jù)包長(zhǎng)度劃分聚類后，通過(guò)預(yù)測(cè)請(qǐng)求包長(zhǎng)度的所屬類別確定預(yù)測(cè)長(zhǎng)度。

在實(shí)驗(yàn)中觀測(cè)發(fā)現(xiàn)，一次HTTP服務(wù)過(guò)程中請(qǐng)求包的長(zhǎng)度會(huì)出現(xiàn)聚集效應(yīng)，即在一定時(shí)間內(nèi)連續(xù)多個(gè)請(qǐng)求包的長(zhǎng)度固定或僅有極小幅度偏差。例如圖5是某一正常HTTP特征序列分組的請(qǐng)求包大小分布，橫坐標(biāo)為請(qǐng)求包次序，縱坐標(biāo)表示請(qǐng)求包長(zhǎng)度?？捎^察到該特征序列分組的請(qǐng)求包分別在750和1 500字節(jié)處出現(xiàn)聚集。這一般出現(xiàn)在加載網(wǎng)頁(yè)時(shí)對(duì)多個(gè)同一類資源文件的請(qǐng)求，如向服務(wù)器請(qǐng)求網(wǎng)頁(yè)中的各圖片資源。此類請(qǐng)求包一般具有同樣的結(jié)構(gòu)，且資源文件的URI也相似，使得連續(xù)請(qǐng)求包的大小固定。

圖5 一正常HTTP特征序列分組的請(qǐng)求包大小分布

由于同一訪問(wèn)目標(biāo)的各頁(yè)面設(shè)計(jì)相似，特征序列分組中請(qǐng)求包長(zhǎng)度聚集處較為類似，且多數(shù)網(wǎng)站的訪問(wèn)請(qǐng)求包長(zhǎng)度一般聚集在2至3處。在特征學(xué)習(xí)階段，SAMB采用算法1將給定的同一訪問(wèn)目標(biāo)的所有特征序列分組基于請(qǐng)求包大小執(zhí)行簡(jiǎn)單聚類，以標(biāo)識(shí)出上述聚集效應(yīng)顯著的數(shù)據(jù)包。

簡(jiǎn)單聚類的算法的目標(biāo)是將給定的特征序列分組請(qǐng)求包長(zhǎng)度劃分為出現(xiàn)頻率最高的若干類和其他。給定一個(gè)請(qǐng)求包長(zhǎng)度值，尋找均值距其最小的類別，并判斷該類別的均值和極值是否超過(guò)設(shè)定的最大比例α和β，若不存在符合條件的類別則新建一個(gè)新的類別，并將該長(zhǎng)度值作為該類別初始元素。α和β參數(shù)用于控制類別的上下界范圍大小，值越大則產(chǎn)生的類別跨度越大，最終劃分的總類別數(shù)量越小。在算法1中動(dòng)態(tài)調(diào)整該參數(shù)可以控制所得到的類別數(shù)量以及出現(xiàn)頻率最高兩類中元素?cái)?shù)量占總體的比例。如果在多次嘗試后無(wú)法得到合適的α和β以滿足所定需求，則丟棄該特征序列分組數(shù)據(jù)。

SAMB進(jìn)一步依據(jù)歷史狀態(tài)轉(zhuǎn)移預(yù)測(cè)擬態(tài)數(shù)據(jù)包的請(qǐng)求包長(zhǎng)度類別?；谙惹皟蓚€(gè)請(qǐng)求包的長(zhǎng)度類別預(yù)測(cè)下一個(gè)類別。在特征學(xué)習(xí)過(guò)程中計(jì)算同一訪問(wèn)目標(biāo)的請(qǐng)求包長(zhǎng)度類別條件概率如下：

0≤i,j,m≤3

(3)

式中：φk表示第i個(gè)請(qǐng)求包長(zhǎng)度類別，φk=0至2分別表示算法1中的三種類別；定義φ-1和φ-2的值為3表示初始狀態(tài)。在確定預(yù)測(cè)數(shù)據(jù)包長(zhǎng)度的類別后，根據(jù)特征學(xué)習(xí)時(shí)對(duì)應(yīng)類別組中長(zhǎng)度分布的均值和方差使用高斯分布預(yù)測(cè)具體數(shù)值，將該預(yù)測(cè)值寫入預(yù)測(cè)特征序列中。

算法1請(qǐng)求包長(zhǎng)度的分類算法

輸入：請(qǐng)求包長(zhǎng)度陣列Ln,其中Li是第i個(gè)請(qǐng)求包的長(zhǎng)度。

輸出：標(biāo)簽陣列Mn,其中Mi是第i個(gè)包的長(zhǎng)度類別。

1.C←φ

2.fori=1:ndo

5.c.element.add(i)

6.else

7.c

8.c.element.add(i)

9.C.append(c)

10.endif

11.endfor

12.ifC.size<3then

13. (α,β)←0.9×(α,β)

14.gototop

15.endif

17.ifc1.size+c2.size

18. (α,β)←1.1×(α,β)

19.gototop

20.endif

21.Mn←{CLUSTER_TAG_OTHER(2)}

22.foriinc1.elementdo

23.Mi←CLUSTER_TAG_1(0)

24.endfor

25.foriinc2.elementdo

26.Mi←CLUSTER_TAG_2(1)

27.endfor

28.returnMn;

3.5 協(xié)議特殊字段采集

隱蔽傳輸數(shù)據(jù)的實(shí)際負(fù)載將附加在請(qǐng)求字段和POST數(shù)據(jù)中。但在實(shí)驗(yàn)中發(fā)現(xiàn)HTTP的請(qǐng)求包中POST方法使用頻率較低，隱蔽傳輸數(shù)據(jù)主要附加在GET方法中的頭部字段。

特征學(xué)習(xí)模塊統(tǒng)計(jì)正常環(huán)境HTTP請(qǐng)求中各字段的出現(xiàn)頻率，篩選出固定字段、可變字段、自定義字段三類。其中固定字段如User-Agent、Connection等幾乎必定出現(xiàn)且值固定，保存這些字段和值用于在擬態(tài)包中重放；可變字段為高頻出現(xiàn)但值經(jīng)常變化的字段，保存這些字段和出現(xiàn)值作隨機(jī)化重放；自定義字段為出現(xiàn)過(guò)但頻率極低的自定義協(xié)議字段，用于擬態(tài)中附加實(shí)際傳輸數(shù)據(jù)。這一過(guò)程用于確定模仿當(dāng)前環(huán)境類似的HTTP數(shù)據(jù)包所必需的字段和可用于攜帶數(shù)據(jù)的自定義字段，生成數(shù)據(jù)包擬態(tài)模板記錄擬態(tài)數(shù)據(jù)包中的冗余添加字段。

4 擬態(tài)執(zhí)行方法

特征預(yù)測(cè)序列提供了擬態(tài)完成后的數(shù)據(jù)包大小、熵值、請(qǐng)求方式、所需具備的固定字段與值、可依附數(shù)據(jù)的自定義字段名、期望服務(wù)器回復(fù)數(shù)據(jù)包的響應(yīng)狀態(tài)和期望數(shù)據(jù)包發(fā)送間隔時(shí)間。擬態(tài)執(zhí)行模塊將按圖6的流程分別使用以上預(yù)測(cè)提供的特征將原始隱蔽傳輸數(shù)據(jù)包擬態(tài)偽裝。

圖6 擬態(tài)執(zhí)行流程圖

擬態(tài)執(zhí)行模塊根據(jù)預(yù)測(cè)數(shù)據(jù)包長(zhǎng)度、熵值和需要附加的固定字段長(zhǎng)度推算出該次擬態(tài)中可以攜帶的最大負(fù)載數(shù)據(jù)長(zhǎng)度；將原始數(shù)據(jù)包拆分或填充至推算長(zhǎng)度，并執(zhí)行熵值混淆編碼；根據(jù)擬態(tài)特征構(gòu)造與服務(wù)器通信協(xié)商的數(shù)據(jù)包頭部，以通知服務(wù)器擬態(tài)返回包時(shí)所需信息；將編碼后數(shù)據(jù)拆分后附加在可依附的自定義字段中，并按一定順序增添固定字段，生成擬態(tài)數(shù)據(jù)包；最后根據(jù)預(yù)測(cè)時(shí)延將數(shù)據(jù)包發(fā)往服務(wù)器。

4.1 熵值控制編碼

SAMB通過(guò)調(diào)整編碼字符空間大小來(lái)控制輸出熵值。在FTE使用正則規(guī)則的編碼方式的基礎(chǔ)上進(jìn)行簡(jiǎn)化，將固定字段與編碼可變字段分離，以提供更高效和靈活的編碼方式。

編碼效果等同于限定正則規(guī)則為[α-β]*的FTE編碼，其中α與β為可讀英文字符或數(shù)字。假設(shè)編碼字符空間數(shù)量為m，編碼首先將輸入數(shù)據(jù)以字節(jié)二進(jìn)制轉(zhuǎn)化成整型大數(shù)結(jié)構(gòu)X；隨后將X轉(zhuǎn)換為m進(jìn)制，并用可讀字符一一代替。解碼則是同樣的反向進(jìn)制轉(zhuǎn)換。

當(dāng)輸入數(shù)據(jù)字節(jié)均勻隨機(jī)分布時(shí)，編碼輸出的熵值完全由字符空間大小決定。假設(shè)編碼字符空間大小為m，且所有字符服從均勻分布出現(xiàn)。給定編碼輸出長(zhǎng)度為n字節(jié)和所需控制熵值E，則編碼字符空間m和輸入長(zhǎng)度最大字節(jié)數(shù)k計(jì)算式分別如下：

m=2E

(4)

(5)

4.2 擬態(tài)數(shù)據(jù)包頭部定義

在完成負(fù)載數(shù)據(jù)編碼后，在數(shù)據(jù)前附加自定義頭部實(shí)現(xiàn)服務(wù)器與客戶端的混淆通信?；煜龜?shù)據(jù)包頭部定義為如圖7所示的10個(gè)字節(jié)的定長(zhǎng)結(jié)構(gòu)，其中除了前2個(gè)字節(jié)的熵節(jié)字段外，后續(xù)字段在發(fā)送過(guò)程中為編碼后的狀態(tài)。

圖7 混淆數(shù)據(jù)包頭部定義

頭部中的熵節(jié)為2個(gè)可讀字符，用以確定熵值編碼參數(shù)。SAMB網(wǎng)橋客戶端與服務(wù)器通過(guò)事先約定該字段的參數(shù)解析方法，確定后續(xù)數(shù)據(jù)熵混淆時(shí)所使用的編碼字符空間。對(duì)于給定的2個(gè)熵節(jié)字段字符x1和x2，首先按照字符在可讀字符中的出現(xiàn)次序得到y(tǒng)1和y2，將其以特定進(jìn)制拼接得后取其二進(jìn)制的前11位作為有效參數(shù)。其中低6位表示編碼字符空間大小，高5位表示編碼起始字符(即最高支持32種編碼起始字符)。根據(jù)該兩個(gè)參數(shù)可以確定編碼所用的字符空間，并對(duì)后續(xù)數(shù)據(jù)采用相應(yīng)編碼或解碼方式。

解碼后的magic字段用于校驗(yàn)數(shù)據(jù)包；總分片與當(dāng)前分片記錄單個(gè)數(shù)據(jù)包的分片重組信息；原始長(zhǎng)度記錄該混淆包的實(shí)際負(fù)載長(zhǎng)度，用于去掉最后分片末尾的填充字節(jié)；序列號(hào)用于標(biāo)識(shí)原始數(shù)據(jù)包的序號(hào)，同一序列號(hào)的包的總分片字段值應(yīng)為一致。最后一個(gè)字段在客戶端發(fā)送的擬態(tài)請(qǐng)求包中為標(biāo)識(shí)服務(wù)器應(yīng)發(fā)送的擬態(tài)響應(yīng)包狀態(tài)，由特征序列決定；在服務(wù)器發(fā)送的擬態(tài)響應(yīng)包中為處理錯(cuò)誤碼，標(biāo)識(shí)流程的處理結(jié)果是否正常，或者是否要求客戶端盡快發(fā)送下一個(gè)請(qǐng)求包以響應(yīng)回復(fù)傳輸數(shù)據(jù)。

4.3 擬態(tài)服務(wù)器響應(yīng)方式

圖8所示為網(wǎng)橋服務(wù)器端收發(fā)數(shù)據(jù)流程。服務(wù)器在接收擬態(tài)數(shù)據(jù)包后，按順序提取請(qǐng)求包中自定義字段的值并拼接，依據(jù)4.2節(jié)的方式提取熵值信息并解碼校驗(yàn)。保存當(dāng)前鏈路和數(shù)據(jù)包頭部中的響應(yīng)狀態(tài)的對(duì)應(yīng)關(guān)系，按分片和實(shí)際長(zhǎng)度信息重組完一個(gè)完整的原始數(shù)據(jù)包后發(fā)送至隱蔽通信目標(biāo)。

圖8 網(wǎng)橋服務(wù)器收發(fā)數(shù)據(jù)流程

隱蔽通信鏈路可能是異步雙工，但是需擬態(tài)的HTTP協(xié)議在多數(shù)情況下需要客戶端與服務(wù)器之間發(fā)送數(shù)據(jù)包的配對(duì)。當(dāng)服務(wù)器接收到來(lái)自隱蔽通信目標(biāo)的數(shù)據(jù)時(shí)，先查看當(dāng)前鏈路是否有保存的響應(yīng)狀態(tài)，若存在則根據(jù)相應(yīng)狀態(tài)構(gòu)造擬態(tài)響應(yīng)數(shù)據(jù)包，并將該保存的響應(yīng)狀態(tài)刪除；若不存在則表示當(dāng)前沒(méi)有請(qǐng)求包能對(duì)應(yīng)發(fā)往客戶端的響應(yīng)包，此時(shí)通信阻塞，需要等待客戶端發(fā)送新的數(shù)據(jù)包或者心跳包時(shí)才可繼續(xù)發(fā)送數(shù)據(jù)。

圖7中由服務(wù)器發(fā)往客戶端的數(shù)據(jù)包頭部中的狀態(tài)碼記錄當(dāng)前隊(duì)列中需要發(fā)送給客戶端拆分后的數(shù)據(jù)包個(gè)數(shù)。當(dāng)要發(fā)送的數(shù)據(jù)包有多個(gè)時(shí)，客戶端應(yīng)盡快回復(fù)對(duì)應(yīng)數(shù)量的擬態(tài)請(qǐng)求包，否則客戶端將按照間隔時(shí)間特征不定時(shí)發(fā)送心跳擬態(tài)包。

擬態(tài)響應(yīng)包的長(zhǎng)度僅依據(jù)服務(wù)器設(shè)定的預(yù)期值決定。服務(wù)器端特征無(wú)須考慮與運(yùn)行環(huán)境正常流量特征的相似度，因此采用隨機(jī)化長(zhǎng)度與熵值的編碼方式，以此減少數(shù)據(jù)包拆分并提高傳輸效率。但是在一些以客戶端上傳流量為主的隱蔽傳輸中，盡管服務(wù)器需要發(fā)送至客戶端的數(shù)據(jù)量較小，但仍需填充大量數(shù)據(jù)以擬態(tài)真實(shí)環(huán)境下網(wǎng)頁(yè)服務(wù)器與客戶端之間的上下行流量比。

5 實(shí) 驗(yàn)

本節(jié)通過(guò)理論分析和實(shí)驗(yàn)數(shù)據(jù)評(píng)估自適應(yīng)網(wǎng)橋的數(shù)據(jù)效率和擬態(tài)相似度。由于本文主要工作聚焦在流量的變形與重組，并在設(shè)計(jì)目標(biāo)上對(duì)應(yīng)用層透明，因此不涉及如建立連接或加密校驗(yàn)等針對(duì)傳輸應(yīng)用層面的協(xié)議設(shè)計(jì)。本節(jié)中所討論的實(shí)際傳輸負(fù)載數(shù)據(jù)均為包含應(yīng)用層的協(xié)議封裝后生成的最終數(shù)據(jù)。

本實(shí)驗(yàn)中的環(huán)境流量是基于用戶在兩個(gè)小時(shí)內(nèi)訪問(wèn)網(wǎng)頁(yè)所產(chǎn)生的HTTP數(shù)據(jù)包，共采集到230個(gè)特征序列，根據(jù)域名被劃分至22個(gè)特征序列分組。通過(guò)擬態(tài)網(wǎng)橋執(zhí)行隱蔽文件傳輸。本節(jié)將主要從傳輸效率以及預(yù)測(cè)特征與真實(shí)流量的相似度兩方面進(jìn)行評(píng)估。

5.1 傳輸效率

定義隱蔽傳輸?shù)臄?shù)據(jù)效率為實(shí)際傳輸負(fù)載的初始長(zhǎng)度與擬態(tài)后數(shù)據(jù)包總長(zhǎng)度的比值。假設(shè)原始數(shù)據(jù)包字節(jié)數(shù)為x，F(xiàn)TE編碼字符空間為m，由4.1可知FTE的輸出長(zhǎng)度為：

(6)

若HTTP擬態(tài)中混淆所需的冗余字段與數(shù)據(jù)頭部的字節(jié)數(shù)之和為s，特征預(yù)測(cè)模塊提供的輸出預(yù)測(cè)長(zhǎng)度為ypre，則該擬態(tài)包可攜帶的實(shí)際數(shù)據(jù)字節(jié)數(shù)x0為：

(7)

對(duì)一個(gè)隱蔽原始數(shù)據(jù)包所需要拆分的數(shù)據(jù)包個(gè)數(shù)為：

(8)

單工上傳信道的傳輸數(shù)據(jù)效率為：

(9)

式中：預(yù)測(cè)擬態(tài)包長(zhǎng)度ypre、冗余字段長(zhǎng)度s和混淆熵值所采用編碼字符空間m都是由特征預(yù)測(cè)模塊在實(shí)驗(yàn)中基于環(huán)境流量特征所得。實(shí)驗(yàn)中s的值在300字節(jié)附近小幅波動(dòng)，m均值為45.78，ypre均值為644.64字節(jié)。

實(shí)驗(yàn)分別測(cè)試了單工上傳文件與使用網(wǎng)頁(yè)服務(wù)兩種業(yè)務(wù)模式下的數(shù)據(jù)效率。其中上傳文件的傳輸效率為原始文件大小與客戶端實(shí)際發(fā)送流量大小之比；網(wǎng)頁(yè)服務(wù)的數(shù)據(jù)效率為原始收發(fā)數(shù)據(jù)和與實(shí)際收發(fā)數(shù)據(jù)和之比。當(dāng)使用單工信道上傳文件時(shí)，擬態(tài)數(shù)據(jù)效率與傳輸量大小關(guān)系如圖9所示，當(dāng)傳輸量大于一組擬態(tài)特征序列的總請(qǐng)求長(zhǎng)度時(shí)，數(shù)據(jù)效率約穩(wěn)定為40%；在傳輸1 MB以內(nèi)數(shù)據(jù)時(shí)由于擬態(tài)需至少發(fā)送完一組預(yù)測(cè)特征序列的數(shù)據(jù)包，因此冗余數(shù)據(jù)比例較高，數(shù)據(jù)效率較低。

圖9 實(shí)驗(yàn)上傳文件擬態(tài)數(shù)據(jù)效率

表1列舉了不同業(yè)務(wù)場(chǎng)景下網(wǎng)頁(yè)傳輸?shù)脑L問(wèn)效率。一般的網(wǎng)頁(yè)服務(wù)以下行數(shù)據(jù)為主，由于服務(wù)器端的擬態(tài)效率較高，因此總體效率較高，可在70%以上。對(duì)于以上載數(shù)據(jù)為主的網(wǎng)頁(yè)服務(wù)時(shí)，較高的上傳數(shù)據(jù)量可以充分利用每組擬態(tài)特征制定的請(qǐng)求長(zhǎng)度，因此上行效率更高。但是因?yàn)樾枰獮榉?wù)器響應(yīng)發(fā)送冗余請(qǐng)求包，數(shù)據(jù)效率低于單工上傳文件時(shí)的效率。同樣，服務(wù)端需要為每個(gè)請(qǐng)求包發(fā)送較多冗余響應(yīng)數(shù)據(jù)，下行效率低于正常網(wǎng)頁(yè)服務(wù)。從總數(shù)據(jù)效率看，SAMB網(wǎng)橋在大容量的隱蔽傳輸中的額外傳輸開(kāi)銷可在實(shí)際的接受范圍之內(nèi)。

表1 網(wǎng)頁(yè)訪問(wèn)擬態(tài)傳輸效率

5.2 預(yù)測(cè)特征相似度

本節(jié)主要從客戶端發(fā)送的擬態(tài)請(qǐng)求包長(zhǎng)度、協(xié)議狀態(tài)和熵值特征評(píng)估自適應(yīng)網(wǎng)橋預(yù)測(cè)特征與實(shí)際被擬態(tài)流量的相似度。

1) 預(yù)測(cè)狀態(tài)相似度。在衡量預(yù)測(cè)長(zhǎng)度序列和HTTP狀態(tài)序列的準(zhǔn)確性上，本文采用萊文斯坦距離計(jì)算預(yù)測(cè)序列和實(shí)際序列的相似度。兩個(gè)序列的相似度r定義如下：

(10)

式中：l為兩個(gè)序列的長(zhǎng)度和；d為兩個(gè)序列的萊文斯坦距離。當(dāng)d為0時(shí)，相似度r為1，此時(shí)兩個(gè)序列完全一致；當(dāng)r為0時(shí)兩個(gè)序列無(wú)相關(guān)性。

萊文斯坦距離常用于衡量?jī)蓚€(gè)不定長(zhǎng)字符串的相似度。在實(shí)驗(yàn)中將長(zhǎng)度和狀態(tài)序列轉(zhuǎn)換為字符串后計(jì)算萊文斯坦距離作為兩個(gè)序列的相似程度。這是因?yàn)閷?shí)驗(yàn)中的預(yù)測(cè)序列在長(zhǎng)度上不固定，且長(zhǎng)度本身為預(yù)測(cè)的重要指標(biāo)之一；另一方面在實(shí)際場(chǎng)景中僅增或刪一個(gè)數(shù)據(jù)包特征對(duì)整體的相似度并不會(huì)產(chǎn)生太大的影響，類似于在計(jì)算萊文斯坦距離時(shí)增與刪的權(quán)重等同于改一個(gè)字符的權(quán)重，而漢明距離、歐氏距離等效果并不佳，且無(wú)法計(jì)算不同長(zhǎng)度的序列之間距離。

實(shí)驗(yàn)測(cè)試了真實(shí)HTTP請(qǐng)求狀態(tài)分別與預(yù)測(cè)狀態(tài)系列和FTE擬態(tài)中采用的固定特征的狀態(tài)序列的相似度。由于在FTE擬態(tài)中不存在序列長(zhǎng)度的設(shè)定，實(shí)驗(yàn)分別取等同預(yù)測(cè)狀態(tài)和隨機(jī)兩種情況下的長(zhǎng)度值。實(shí)驗(yàn)計(jì)算預(yù)測(cè)序列、等同預(yù)測(cè)序列長(zhǎng)度的固定序列和隨機(jī)長(zhǎng)度的固定序列分別與采集到的部分真實(shí)環(huán)境HTTP流量狀態(tài)序列相似度的最大值，以表示測(cè)試序列與真實(shí)流量中最相似序列的近似度。

實(shí)驗(yàn)數(shù)據(jù)如表2所示，分別測(cè)試整體環(huán)境與基于特定購(gòu)物、社交和視頻業(yè)務(wù)網(wǎng)站的相似度。SAMB的預(yù)測(cè)狀態(tài)序列在相同長(zhǎng)度下相似度略高于固定序列，而考慮固定序列的隨機(jī)長(zhǎng)度時(shí)相似度優(yōu)勢(shì)更顯著。由此表明基于馬爾可夫模型的狀態(tài)預(yù)測(cè)和序列長(zhǎng)度預(yù)測(cè)可提高擬態(tài)流量的真實(shí)度。

表2 預(yù)測(cè)序列和FTE序列與真實(shí)流量的相似度

在整體環(huán)境下同樣長(zhǎng)度的預(yù)測(cè)序列與固定序列的近似度都達(dá)到了1，這是因?yàn)楫?dāng)采集到的對(duì)比真實(shí)流量較多時(shí)更容易出現(xiàn)一組完全以GET和200OK組成的狀態(tài)序列，即出現(xiàn)于固定序列完全相符的狀況。但預(yù)測(cè)系列的近似度達(dá)到了1，表明SAMB在具有隨機(jī)性的動(dòng)態(tài)預(yù)測(cè)狀態(tài)仍可在真實(shí)流量中匹配到相類似的流量樣本，在避免靜態(tài)特征的同時(shí)具有較高偽裝性。

2) 預(yù)測(cè)長(zhǎng)度相似度。實(shí)驗(yàn)測(cè)試對(duì)比擬態(tài)流量與真實(shí)流量在整體分布上的相似程度。圖10所示為實(shí)驗(yàn)中預(yù)測(cè)請(qǐng)求長(zhǎng)度在擬態(tài)生成流量、參照的自適應(yīng)環(huán)境流量和測(cè)試實(shí)際普通流量的對(duì)比，其中測(cè)試流量為不被包括在自適應(yīng)環(huán)境流量?jī)?nèi)的實(shí)際訪問(wèn)網(wǎng)頁(yè)產(chǎn)生的流量。圖10表明基于聚類分塊后的馬爾可夫預(yù)測(cè)模型在總體分布上與真實(shí)流量具有較高相似度。

圖10 擬態(tài)請(qǐng)求長(zhǎng)度分布與真實(shí)流量對(duì)比

為了對(duì)比序列的相似度，實(shí)驗(yàn)采用算法1得到擬態(tài)輸出序列的數(shù)據(jù)包長(zhǎng)度狀態(tài)序列，計(jì)算與真實(shí)流量狀態(tài)序列之間的萊文斯坦距離。其中Obfs4網(wǎng)橋采用默認(rèn)配置，在同一個(gè)序列中長(zhǎng)度取值為自適應(yīng)網(wǎng)橋預(yù)測(cè)的長(zhǎng)度。圖11中橫坐標(biāo)為實(shí)驗(yàn)次數(shù)，縱坐標(biāo)為擬態(tài)數(shù)據(jù)長(zhǎng)度序列與真實(shí)流量中最接近的長(zhǎng)度序列的相似度。由于不同網(wǎng)站設(shè)計(jì)邏輯差異，序列的相似度存在一定變化范圍，但是預(yù)測(cè)序列的相似度多數(shù)在0.7以上，并且穩(wěn)定高于當(dāng)前網(wǎng)橋采用的隨機(jī)序列。

圖11 擬態(tài)長(zhǎng)度序列與真實(shí)流量相似度

取上述實(shí)驗(yàn)中真實(shí)流量中與擬態(tài)序列相似度最高的一組數(shù)據(jù)包序列，對(duì)比序列中請(qǐng)求包長(zhǎng)度的均值與方差，數(shù)據(jù)如表3所示，其中真實(shí)序列1為真實(shí)流量中與預(yù)測(cè)序列相似度最高的序列；真實(shí)序列2同樣相對(duì)應(yīng)于隨機(jī)序列。SAMB的擬態(tài)序列請(qǐng)求包長(zhǎng)度在均值與方差上都要比當(dāng)前Obfs網(wǎng)橋的固定隨機(jī)序列更為接近真實(shí)值。

表3 擬態(tài)序列與最相似的真實(shí)序列均值方差

以上實(shí)驗(yàn)表明，每次預(yù)測(cè)的擬態(tài)序列數(shù)據(jù)包長(zhǎng)度都可以在真實(shí)的環(huán)境流量中找到一組相近似的序列。生成的擬態(tài)請(qǐng)求包大小相比隨機(jī)化的混淆擬態(tài)方法更具有對(duì)當(dāng)前環(huán)境真實(shí)流量的偽裝性。

3) 預(yù)測(cè)熵值相似度。圖12為預(yù)測(cè)擬態(tài)請(qǐng)求與真實(shí)請(qǐng)求在熵值分布上的對(duì)比。實(shí)驗(yàn)發(fā)現(xiàn)預(yù)測(cè)的擬態(tài)流量熵值略高于真實(shí)流量。這是因?yàn)樵跀M態(tài)中執(zhí)行熵值混淆的字段僅為附加實(shí)際傳輸數(shù)據(jù)的字段，未完全考慮附加的固定字段，由此總體熵值存在約0.05的誤差。但相比Obfs4與FTE網(wǎng)橋等完全不對(duì)熵值處理的混淆方法，SAMB在熵值相似度上具有顯著優(yōu)勢(shì)。

圖12 擬態(tài)請(qǐng)求熵值分布與真實(shí)流量對(duì)比

6 結(jié) 語(yǔ)

本文提出與設(shè)計(jì)了基于當(dāng)前用戶真實(shí)網(wǎng)絡(luò)環(huán)境流量特征的自適應(yīng)擬態(tài)網(wǎng)橋SAMB。相比較于當(dāng)前的靜態(tài)規(guī)則網(wǎng)橋，SAMB能自動(dòng)生成與環(huán)境流量相似特征的擬態(tài)規(guī)則，對(duì)于生成的擬態(tài)流量的偽裝性與對(duì)抗靜態(tài)特征的可檢測(cè)性都具有優(yōu)勢(shì)。

本文中將擬態(tài)特征的學(xué)習(xí)聚焦于上行數(shù)據(jù)包大小、協(xié)議狀態(tài)轉(zhuǎn)換和熵值控制上，生成擬態(tài)HTTP數(shù)據(jù)包，模仿瀏覽器向網(wǎng)頁(yè)服務(wù)器發(fā)包以實(shí)現(xiàn)隱蔽數(shù)據(jù)傳輸。實(shí)際上還有時(shí)間間隔、服務(wù)器端響應(yīng)包長(zhǎng)度等特征可進(jìn)一步完善或?qū)崿F(xiàn)自適應(yīng)學(xué)習(xí)，擬態(tài)的協(xié)議類型也可不局限于HTTP。但本文提出的核心設(shè)計(jì)理念是隱蔽傳輸端可以通過(guò)提高擬態(tài)規(guī)則的動(dòng)態(tài)復(fù)雜度對(duì)抗當(dāng)前基于特征的檢測(cè)系統(tǒng)，隱蔽傳輸模型與算法復(fù)雜度提升的可行性遠(yuǎn)高于相應(yīng)檢測(cè)系統(tǒng)算法與規(guī)則的復(fù)雜度提升。因此即使在強(qiáng)制代理轉(zhuǎn)發(fā)與白名單過(guò)濾規(guī)則的企業(yè)網(wǎng)絡(luò)出口部署中仍然可能存在一定的安全風(fēng)險(xiǎn)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放