亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)burst特征分析的網(wǎng)站指紋攻擊方法

        2020-04-21 07:57:00馬陳城杜學(xué)繪曹利峰
        關(guān)鍵詞:網(wǎng)頁(yè)指紋準(zhǔn)確率

        馬陳城 杜學(xué)繪 曹利峰 吳 蓓

        1(戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450001) 2(河南省信息安全重點(diǎn)實(shí)驗(yàn)室(戰(zhàn)略支援部隊(duì)信息工程大學(xué)) 鄭州 450001) 3(61497部隊(duì) 北京 100000)

        對(duì)于黨政軍網(wǎng)絡(luò)及大型企業(yè)網(wǎng)絡(luò)等敏感網(wǎng)絡(luò),網(wǎng)絡(luò)監(jiān)管是維護(hù)網(wǎng)絡(luò)良好秩序的重要手段.近年來發(fā)展迅速的流量加密和匿名網(wǎng)絡(luò)技術(shù),一方面保護(hù)了網(wǎng)絡(luò)的敏感數(shù)據(jù)和用戶隱私,另一方面也給網(wǎng)絡(luò)監(jiān)管帶來了巨大的困難和挑戰(zhàn).SSH和VPN等技術(shù)通過加密數(shù)據(jù)包載荷,可繞過基于載荷字段的流量分析和檢測(cè),但通過分析數(shù)據(jù)包的長(zhǎng)度分布等規(guī)律,加密流量仍能被有效分析[1-3].但隨后的Tor(the onion router)匿名通信技術(shù)進(jìn)一步隱匿了數(shù)據(jù)包長(zhǎng)度信息,給流量分析帶來了更大的困難.由于匿名通信系統(tǒng)具有節(jié)點(diǎn)發(fā)現(xiàn)難、服務(wù)定位難、用戶監(jiān)控難、通信關(guān)系確認(rèn)難等特點(diǎn),利用匿名通信系統(tǒng)隱藏真實(shí)身份從事惡意甚至網(wǎng)絡(luò)犯罪活動(dòng)的現(xiàn)象層出不窮[4],如利用暗網(wǎng)進(jìn)行地下交易[5]及國(guó)內(nèi)不法分子翻越中國(guó)墻訪問不健康網(wǎng)站和發(fā)表不正當(dāng)言論等行為.

        Fig. 1 Schematic diagram of the Tor network圖1 Tor網(wǎng)絡(luò)原理示意圖

        Tor網(wǎng)絡(luò)[6]是匿名網(wǎng)絡(luò)的代表之作.目前Tor網(wǎng)絡(luò)在全球擁有6 000個(gè)志愿者節(jié)點(diǎn),日活躍用戶達(dá)到了200萬(wàn)[7].Tor基于傳輸層安全協(xié)議(transport layer security, TLS)加密數(shù)據(jù)包載荷以及隨機(jī)鏈路技術(shù)來保護(hù)用戶端的數(shù)據(jù)隱私.其原理如圖1所示,用戶本地的客戶端與Tor目錄服務(wù)器進(jìn)行協(xié)商分配鏈路節(jié)點(diǎn),由于構(gòu)成通信鏈路(circuit)的3個(gè)Tor節(jié)點(diǎn)relay的隨機(jī)性和周期更新性,基于鏈路追溯數(shù)據(jù)包是困難的.待傳輸數(shù)據(jù)在客戶端相應(yīng)地被依次實(shí)施3道傳輸層安全協(xié)議(TLS)加密,每經(jīng)過一個(gè)Tor節(jié)點(diǎn),最外面一層的加密就被相應(yīng)地解開,因此即使控制了其中一個(gè)Tor節(jié)點(diǎn),也無(wú)法讀取用戶的數(shù)據(jù)包內(nèi)容.Tor基于一個(gè)或多個(gè)512 B的數(shù)據(jù)單元(cell)實(shí)現(xiàn)數(shù)據(jù)傳輸.固定長(zhǎng)度的cell傳輸模式使得過去基于數(shù)據(jù)包長(zhǎng)度的分析手段失去了攻擊和分析效果.為了對(duì)基于Tor匿名網(wǎng)絡(luò)的通信和訪問行為進(jìn)行有效監(jiān)管,針對(duì)Tor匿名通信系統(tǒng)的攻擊和分析技術(shù)研究發(fā)展迅速,如流水印技術(shù)[8]、流量關(guān)聯(lián)分析技術(shù)[9]等.其中,網(wǎng)站指紋(website finger-printing, WF)攻擊技術(shù)發(fā)展尤為迅速[10-11].相比其他匿名通信攻擊技術(shù),WF攻擊技術(shù)具有易部署、低成本的特點(diǎn).面向加密或匿名傳輸?shù)腤F攻擊技術(shù)基于內(nèi)網(wǎng)用戶訪問網(wǎng)站產(chǎn)生的流量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,模型對(duì)新產(chǎn)生的網(wǎng)頁(yè)流進(jìn)行分類,分析該網(wǎng)頁(yè)流是否正在利用加密通道或匿名通信網(wǎng)絡(luò)秘密訪問敏感網(wǎng)站,如非法網(wǎng)站或可能導(dǎo)致內(nèi)網(wǎng)失泄密的網(wǎng)站,及以暗網(wǎng)為代表的隱藏網(wǎng)站等[12],實(shí)現(xiàn)對(duì)利用匿名網(wǎng)絡(luò)訪問非法網(wǎng)站行為的攻擊與分析.

        WF攻擊與分析本質(zhì)上是一個(gè)分類問題[11],機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)空間安全中的廣泛應(yīng)用[13-14]促進(jìn)了WF技術(shù)的快速發(fā)展,近幾年神經(jīng)網(wǎng)絡(luò)方法更是隱隱成為研究WF技術(shù)的主要利器[15].基于神經(jīng)網(wǎng)絡(luò)的WF攻擊技術(shù)通過數(shù)據(jù)驅(qū)動(dòng)構(gòu)建模型,使模型自動(dòng)學(xué)習(xí)網(wǎng)站指紋特征.相比傳統(tǒng)方法[16-17],神經(jīng)網(wǎng)絡(luò)方法能夠?qū)W習(xí)到人工經(jīng)驗(yàn)難以定義的網(wǎng)站指紋特性,實(shí)現(xiàn)更好的攻擊效果[11].

        但目前主流的基于神經(jīng)網(wǎng)絡(luò)的WF攻擊與分析方法仍存在不足之處.WF攻擊技術(shù)研究通?;诜忾]世界場(chǎng)景(close-world, CW)和開放世界場(chǎng)景(open-world, OW)2個(gè)假設(shè)進(jìn)行分析.CW場(chǎng)景假設(shè)用戶僅訪問網(wǎng)絡(luò)管理員定義的被監(jiān)控的敏感網(wǎng)站,WF模型需要識(shí)別出用戶當(dāng)前訪問被監(jiān)控網(wǎng)站的具體站點(diǎn)域名,是一個(gè)n分類問題(n為被監(jiān)控網(wǎng)站的數(shù)量);而OW場(chǎng)景假設(shè)用戶訪問任意網(wǎng)站,WF模型需要識(shí)別用戶是否正在訪問被監(jiān)控網(wǎng)站集的站點(diǎn),即識(shí)別網(wǎng)頁(yè)流是否屬于被監(jiān)控網(wǎng)站集,是一個(gè)二分類問題.在CW和OW場(chǎng)景下,當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的WF研究都僅直接利用經(jīng)典的神經(jīng)網(wǎng)絡(luò)架構(gòu),如VGG16[18],ResNet[19]等,沒有根據(jù)WF攻擊技術(shù)的特點(diǎn)對(duì)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行設(shè)計(jì)和改進(jìn),存在網(wǎng)絡(luò)過于復(fù)雜和分析模塊冗余導(dǎo)致特征提取和分析不徹底、模型運(yùn)行緩慢等問題[20],因此神經(jīng)網(wǎng)絡(luò)在WF攻擊技術(shù)上的適應(yīng)性還有待提高,模型性能還有很大的提升空間.另外,神經(jīng)網(wǎng)絡(luò)方法在OW場(chǎng)景下通常僅基于閾值判別法分析神經(jīng)網(wǎng)絡(luò)輸出的指紋向量以實(shí)現(xiàn)二分類決策[21].由于神經(jīng)網(wǎng)絡(luò)方法輸出的指紋向量的高度準(zhǔn)確性,閾值法雖然簡(jiǎn)單但也表現(xiàn)出了較好的分類性能[22].但是閾值法沒有分析被監(jiān)控網(wǎng)站集和非監(jiān)控網(wǎng)站集的指紋向量在各維度的相關(guān)性,也沒有學(xué)習(xí)被監(jiān)控網(wǎng)站集和非監(jiān)控網(wǎng)站集的二類別特性.在被監(jiān)控集網(wǎng)站為天然自成一類的情況下(如被監(jiān)控集的站點(diǎn)均為Tor隱藏網(wǎng)站),閾值法的分類性能表現(xiàn)出較大的不足.

        針對(duì)上述研究存在的問題,本文通過對(duì)Tor匿名網(wǎng)絡(luò)流量序列的特征表現(xiàn)進(jìn)行研究后,設(shè)計(jì)了基于深度分析burst特征的網(wǎng)站指紋攻擊模型(deep burst-analysis based website fingerprinting attack, DBF).強(qiáng)加密性和隱匿性的Tor網(wǎng)絡(luò)流量只有少數(shù)特征可分析出有用信息,突發(fā)流量特征(burst)是其中的一個(gè)重要的上層特征,它反映了訪問網(wǎng)站時(shí)數(shù)據(jù)交互過程中的一段持續(xù)性的數(shù)據(jù)傳輸行為.為對(duì)Tor匿名網(wǎng)絡(luò)流量的burst特征進(jìn)行有效發(fā)現(xiàn)與分析,本文分別針對(duì)CW與OW場(chǎng)景進(jìn)行了相關(guān)研究.在CW場(chǎng)景中,設(shè)計(jì)了基于burst特征提取模塊和burst特征抽象學(xué)習(xí)及深度分析模塊的DBF-CW(DBF in Close-World)模型.首先,burst特征提取模塊通過由多個(gè)卷積層平行拼接而成的淺層卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)對(duì)不同長(zhǎng)度的burst特征進(jìn)行提?。蝗缓?,burst特征抽象學(xué)習(xí)及深度分析模塊對(duì)VGG16架構(gòu)的基本區(qū)塊(由2層卷積層及一層池化層組成)和含殘差連接的密集神經(jīng)網(wǎng)絡(luò)(dense neural network, DNN)進(jìn)行融合,對(duì)burst特征進(jìn)行深度的抽象學(xué)習(xí),由此提取并輸出網(wǎng)頁(yè)流的指紋向量,并通過對(duì)指紋向量做反向最大值函數(shù)計(jì)算實(shí)現(xiàn)對(duì)被監(jiān)控網(wǎng)頁(yè)流的網(wǎng)站標(biāo)記識(shí)別;在OW場(chǎng)景中,基于DBF-CW輸出的指紋向量結(jié)果,進(jìn)一步設(shè)計(jì)了基于隨機(jī)森林算法的二分類模型DBF-OW(DBF in Open-World),通過對(duì)指紋向量進(jìn)行向量維度相關(guān)性分析,模型可以學(xué)習(xí)二分類特性,實(shí)現(xiàn)了比閾值法更好的分類效果.

        本文的主要貢獻(xiàn)有3個(gè)方面:

        1) 在封閉世界場(chǎng)景中設(shè)計(jì)了一個(gè)基于CNN和DNN的WF攻擊模型DBF-CW,通過對(duì)淺層卷積網(wǎng)絡(luò)、VGG16基本區(qū)塊和含殘差連接的密集神經(jīng)網(wǎng)絡(luò)進(jìn)行連接與結(jié)合,形成多層深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)Tor流量序列的burst特征進(jìn)行提取和深度分析,提高了burst特征發(fā)現(xiàn)的成功率和準(zhǔn)確率,模型對(duì)Tor流量的分析和分類性能得到很大的提高;

        2) 在開放世界場(chǎng)景中設(shè)計(jì)了一個(gè)基于隨機(jī)森林算法的WF模型DBF-OW,改進(jìn)了基于閾值法的決策思路,通過分析DBF-CW輸出的指紋向量間各維度相關(guān)性與被監(jiān)控網(wǎng)站集和非監(jiān)控集二類別的映射規(guī)律,實(shí)現(xiàn)了更有效的二分類決策;

        3) 使用了多個(gè)數(shù)據(jù)集對(duì)方法進(jìn)行評(píng)估,從實(shí)踐的角度驗(yàn)證了本文所提出的DBF模型在緩解概念漂移、繞過網(wǎng)站指紋攻擊防御機(jī)制、識(shí)別Tor網(wǎng)絡(luò)隱藏網(wǎng)站、小樣本訓(xùn)練模型和運(yùn)行速度等方面優(yōu)異的性能表現(xiàn).

        1 相關(guān)工作

        1.1 針對(duì)匿名通信的攻擊與分析技術(shù)對(duì)比

        從對(duì)流量的干擾程度及流量的采集點(diǎn)2個(gè)維度進(jìn)行分析[23],匿名通信攻擊技術(shù)主要可分為被動(dòng)端到端流量分析[9]、主動(dòng)端到端流量分析[8,24-25]、被動(dòng)單端流量分析[1,12,26]和主動(dòng)單端流量分析[27-29],它們的區(qū)別如表1所示.端到端分析在實(shí)際網(wǎng)絡(luò)環(huán)境中難以實(shí)施完備的攻擊,因?yàn)樾枰诒槐O(jiān)控站點(diǎn)近端進(jìn)行系統(tǒng)部署,而站點(diǎn)數(shù)量往往是非常龐大的.主動(dòng)單端攻擊通過向用戶端注入惡意代碼,通過分析用戶機(jī)器物理特征(如內(nèi)存)與訪問不同網(wǎng)站時(shí)的映射關(guān)系來實(shí)現(xiàn)攻擊,操作性要求較高.相比之下,以網(wǎng)站指紋攻擊為代表的被動(dòng)單端流量分析的實(shí)現(xiàn)成本最低,通過監(jiān)聽并分析用戶近端流量即可建模,是當(dāng)前實(shí)現(xiàn)全面的敏感站點(diǎn)檢測(cè)的最可行方法.

        Table 1 Comparison of Four Anonymous Network Communication Attack Technologies

        1.2 網(wǎng)站指紋攻擊技術(shù)發(fā)展現(xiàn)狀

        網(wǎng)站指紋(WF)攻擊是一個(gè)本地的、被動(dòng)地獲取用戶進(jìn)出流量、不主動(dòng)干預(yù)流量狀態(tài)的一種流量竊聽攻擊.如圖2所示,WF攻擊的發(fā)起者可以是用戶與Tor入口節(jié)點(diǎn)之間鏈路上的本地管理員(local administrator)、服務(wù)提供商(Internet server provider, ISP)、自治系統(tǒng)(auto-nomous system, AS)或者控制了Tor入口節(jié)點(diǎn)的攻擊者.網(wǎng)絡(luò)管理員首先定義需要監(jiān)控的敏感網(wǎng)站集,通過前期獲取用戶端近端流量樣本和網(wǎng)站標(biāo)記形成訓(xùn)練數(shù)據(jù),完成訓(xùn)練的模型部署在用戶端近端的鏈路上.基于被動(dòng)監(jiān)聽用戶的進(jìn)出流量判斷用戶當(dāng)前是否正在訪問被監(jiān)控網(wǎng)站,以達(dá)到網(wǎng)絡(luò)監(jiān)管的目的.

        Fig. 2 Schematic diagram of WF attack圖2 WF攻擊原理示意圖

        WF攻擊通?;?種模型假設(shè):

        1) 用戶訪問行為單一.假設(shè)用戶在同一時(shí)間只瀏覽一個(gè)網(wǎng)頁(yè),攻擊者可以簡(jiǎn)單獲取到網(wǎng)頁(yè)流的開始和結(jié)束.

        2) 無(wú)噪聲流量.假設(shè)網(wǎng)頁(yè)流無(wú)背景流量,不需要處理噪聲流量.

        3) 特殊網(wǎng)頁(yè)可代表網(wǎng)站.假設(shè)用戶訪問某個(gè)具體網(wǎng)站時(shí)必將訪問某個(gè)特殊網(wǎng)頁(yè)(如網(wǎng)站首頁(yè)),因此網(wǎng)站指紋分析可轉(zhuǎn)化為網(wǎng)頁(yè)指紋分析.

        WF攻擊技術(shù)由于初期所基于的安全假設(shè)過于理想化而沒有被廣泛認(rèn)可[30],近年來有許多研究圍繞放松其基于的安全假設(shè)展開[31].Gu等人[1]在2015年在用戶同時(shí)訪問2個(gè)網(wǎng)站的復(fù)雜情況下成功實(shí)施了WF攻擊;Wang等人[32]在2016年提出了模型更新算法以應(yīng)對(duì)數(shù)據(jù)概念漂移問題,提出了多網(wǎng)頁(yè)流分割算法以應(yīng)對(duì)用戶同時(shí)瀏覽多個(gè)網(wǎng)頁(yè)的情況,還提出了處理流量噪聲的手段等;Cui等人[33]在2019年提出了2個(gè)針對(duì)連續(xù)和重合網(wǎng)頁(yè)流的分割算法;針對(duì)網(wǎng)站指紋攻擊可轉(zhuǎn)換為網(wǎng)頁(yè)指紋攻擊的理想假設(shè),Cai等人[34]在2012年基于隱Markov鏈對(duì)網(wǎng)站鏈接的點(diǎn)擊關(guān)系進(jìn)行分析,基于多網(wǎng)頁(yè)訓(xùn)練形成網(wǎng)站指紋;Zhuo等人[35]在2017年提出了一種面向分析網(wǎng)站鏈接的隱Markov鏈模型.

        上述對(duì)模型基礎(chǔ)性安全假設(shè)進(jìn)行分析和放松的研究工作,為在理想條件下建模的WF攻擊技術(shù)提供了數(shù)據(jù)清洗等基礎(chǔ)性的支撐工作,大大提高了WF模型應(yīng)用到真實(shí)網(wǎng)絡(luò)中的可行性.這些基礎(chǔ)性的工作同樣適用于本文模型,因此本文不涉及對(duì)安全假設(shè)的研究,旨在在理想條件下,提高WF模型在2個(gè)場(chǎng)景下對(duì)Tor匿名通信的攻擊和分析能力,從提升分類性能的角度提高WF攻擊技術(shù)應(yīng)用到實(shí)際的可行性.

        依據(jù)數(shù)據(jù)封裝協(xié)議的不同,WF攻擊主要分為3類[36].在早期網(wǎng)站還使用HTTP1.0進(jìn)行數(shù)據(jù)傳輸時(shí),攻擊者通過分析資源(如圖片、文字等)長(zhǎng)度可實(shí)現(xiàn)WF攻擊[37-38].而后HTTP1.1,VPN和SSH通過加密和混淆的方式使攻擊者無(wú)法獲取網(wǎng)站資源長(zhǎng)度特征,基于數(shù)據(jù)包長(zhǎng)度的分析可構(gòu)建網(wǎng)站的指紋信息[26,39].Tor匿名網(wǎng)絡(luò)通過填充和固定傳輸單元的大小進(jìn)一步隱匿了長(zhǎng)度特征,針對(duì)Tor網(wǎng)絡(luò)的網(wǎng)站指紋攻擊在當(dāng)前仍是一個(gè)難點(diǎn).

        作為WF模型的信息源,流量特征的提取是決定模型性能的關(guān)鍵一環(huán).Tor流量可以在數(shù)據(jù)包、TLS和cell層次上進(jìn)行提取,實(shí)驗(yàn)證明在cell層次上提取特征最有利于對(duì)Tor流量的分析[40].由于只有方向特征和數(shù)量特征可利用,對(duì)cell的分析通?;赾ell方向序列的形式.方向序列中的burst特征被WF研究廣泛使用[16,36],是實(shí)現(xiàn)WF攻擊的一個(gè)重要的上層特征.

        當(dāng)前主流的面向Tor網(wǎng)絡(luò)的WF模型主要分為基于人工設(shè)計(jì)指紋的一般機(jī)器學(xué)習(xí)方法和指紋(半)自動(dòng)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法.如表2所示,序列號(hào)1~7為一般機(jī)器學(xué)習(xí)方法,其基于流量特征直接形成或者通過形態(tài)變換形成網(wǎng)站指紋;而序列號(hào)8~14為神經(jīng)網(wǎng)絡(luò)方法,它通過深度挖掘流量特征的方式自動(dòng)學(xué)習(xí)形成網(wǎng)站指紋.表2還對(duì)各研究所采用的基礎(chǔ)模型算法、所利用的流量基礎(chǔ)特征的層次、類型和表現(xiàn)形式進(jìn)行了總結(jié)和描述.

        Table 2 Comparison of Website Fingerprint Attack Methods for Tor

        Notes:Accmeans accuracy;TPRmeans true positive rate; “√” means the item is selected.

        對(duì)于一般機(jī)器學(xué)習(xí)方法,由于模型分析能力有限,指紋向量通?;谌斯ぴO(shè)計(jì)的規(guī)則進(jìn)行提取,模型算法只進(jìn)行指紋向量的距離對(duì)比、相似性計(jì)算等,因此模型所分析的特征一般需要包含豐富的表層信息,如通過增加特征維度、擴(kuò)大特征的涵蓋范圍(如通過統(tǒng)計(jì)計(jì)算的方式)等,特征提取一般較為復(fù)雜.Wang等人[36]在2014年通過對(duì)傳統(tǒng)KNN算法進(jìn)行加權(quán)改進(jìn),并基于改進(jìn)后的k-NN算法分析高維特征集實(shí)施WF攻擊,在封閉世界環(huán)境下取得了91%的準(zhǔn)確率.Panchenko等人[17]在2016年對(duì)網(wǎng)頁(yè)流實(shí)例使用累加和(cumulative representation, CUMUL)的方式表達(dá)序列特征,并使用基于RBF(radial basis function)核函數(shù)的改進(jìn)SVM進(jìn)行分類,得到較好的效果.Hayes等人[16]在2016年使用隨機(jī)森林(random forest, RF)模型分析網(wǎng)頁(yè)流的包計(jì)數(shù)、包間隔等共150維統(tǒng)計(jì)特征,并基于各葉子節(jié)點(diǎn)的標(biāo)識(shí)形成網(wǎng)頁(yè)指紋,通過傳統(tǒng)KNN算法和漢明距離(Hamming distance)實(shí)現(xiàn)分類.然而,一般機(jī)器學(xué)習(xí)方法基于人工設(shè)計(jì)的指紋是不穩(wěn)健的,匿名網(wǎng)絡(luò)通過改進(jìn)協(xié)議即可破壞這些指紋的提取[11].

        對(duì)于指紋(半)自動(dòng)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法,由于模型具備強(qiáng)大的分析能力,指紋向量通常由模型自行分析得到,因此模型所分析的特征一般為不加處理的原始流量特征(如網(wǎng)頁(yè)流的包方向序列、時(shí)間序列等),較少通過統(tǒng)計(jì)的方式對(duì)原始數(shù)據(jù)進(jìn)行加工.Abe等人[42]在2016年提出了一種基于自編碼神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)分析Tor cell方向序列的WF方法,在開放世界場(chǎng)景中的準(zhǔn)確度要高于此前的一般機(jī)器學(xué)習(xí)方法.Rimmer等人[11]在2018年提出了利用深度學(xué)習(xí)的思想分析Tor cell方向序列并自動(dòng)提取流量特征,以實(shí)現(xiàn)網(wǎng)站指紋建模.他們采用了SDAE(stacked denoising autoencoder),CNN和LSTM(long short term memory)這3種神經(jīng)網(wǎng)絡(luò)進(jìn)行模型構(gòu)建.實(shí)驗(yàn)結(jié)果表明,基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)站指紋攻擊方法在性能上比當(dāng)前人工提取指紋的傳統(tǒng)方法要好.Sirinam等人[22]在2018年基于CNN的VGG框架[18]分析Tor網(wǎng)頁(yè)流cell序列特征,在封閉世界情景下達(dá)到98%的準(zhǔn)確率,并成功攻破了WTD-PAD防御機(jī)制[44].Oh等人[15]基于CNN分析cell序列和人工提取的burst長(zhǎng)度特征實(shí)施WF攻擊,在封閉世界情景得到了較高的準(zhǔn)確率.He等人[20]利用殘差網(wǎng)絡(luò)思想分析cell序列特征和包時(shí)間戳特征,基于CNN的ResNets架構(gòu)[19]和GRU網(wǎng)絡(luò)實(shí)施WF攻擊,在封閉世界場(chǎng)景下得到了99%的準(zhǔn)確率.Bhat等人[21]在2019年同樣基于ResNets架構(gòu)訓(xùn)練WF模型,并且還引入了時(shí)間類特征,通過集成的方法綜合分析了方向和時(shí)間類特征,也取得了99%的分類準(zhǔn)確率.Rahman等人[43]在2019年通過實(shí)驗(yàn)證明了在一般機(jī)器學(xué)習(xí)算法中無(wú)法被有效使用的時(shí)間特征,在神經(jīng)網(wǎng)絡(luò)中能被有效挖掘出有用的信息.以上方法從特征設(shè)計(jì)和提取的角度對(duì)WF攻擊技術(shù)進(jìn)行改進(jìn),或利用已有的神經(jīng)網(wǎng)絡(luò)架構(gòu)直接應(yīng)用到WF攻擊上,但都沒有根據(jù)Tor流量和WF攻擊技術(shù)的特點(diǎn)對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),網(wǎng)絡(luò)結(jié)構(gòu)存在指紋分析不徹底或結(jié)構(gòu)冗余的問題,前者導(dǎo)致分類準(zhǔn)確率較低,后者導(dǎo)致模型運(yùn)行速度緩慢.

        burst特征是方向(direction)特征的序列形式表現(xiàn),是流量中的一種上層特征表現(xiàn),在人工設(shè)計(jì)指紋的一般機(jī)器學(xué)習(xí)方法被廣泛使用[16,36],但通過人工提取的burst特征只有長(zhǎng)度信息,而位置抽象信息及潛藏的深度規(guī)律難以被人工設(shè)計(jì)的規(guī)則所提取和分析.同時(shí),當(dāng)前的神經(jīng)網(wǎng)絡(luò)方法[11,20,22]大多僅利用深度學(xué)習(xí)泛性地挖掘原始流量特征的規(guī)律,而沒有從流量本身潛藏的特性分析出發(fā)設(shè)計(jì)模型,因此目前還沒有針對(duì)burst特征進(jìn)行分析的神經(jīng)網(wǎng)絡(luò)方法.對(duì)于數(shù)據(jù)加密、鏈路隨機(jī)、傳輸時(shí)延不穩(wěn)定、隱匿了數(shù)據(jù)傳輸單元長(zhǎng)度特征的Tor流量,burst特征無(wú)疑是一個(gè)非常重要的上層特征表現(xiàn),而本文是該領(lǐng)域首個(gè)針對(duì)Tor流量burst特征進(jìn)行分析的神經(jīng)網(wǎng)絡(luò)方法.

        由于WF攻擊的蓬勃發(fā)展,相應(yīng)的防御手段也應(yīng)運(yùn)而生[45],但大多數(shù)防御技術(shù)的實(shí)用性較差[46-47],或僅針對(duì)某一個(gè)具體的WF攻擊模型進(jìn)行防御,應(yīng)用范圍不廣[48].BuFLO家族(BuFLO[49],CS-BuFLO[50],Tamaraw[51])對(duì)WF進(jìn)行了有效的阻截,但是消耗過多的網(wǎng)絡(luò)帶寬和增加較多的傳輸延遲.近年來基于神經(jīng)網(wǎng)絡(luò)方法提出了對(duì)抗樣本模型,基于誤導(dǎo)攻擊者將該網(wǎng)頁(yè)流誤導(dǎo)分類至另一個(gè)網(wǎng)站的思想實(shí)施防御[52-53],但是該方法的假設(shè)前提過強(qiáng),實(shí)際可操作性較低.目前相對(duì)可用的WF防御機(jī)制是WTF-PAD[54]和Walkie-Talkie(W-T)[55],但本文在實(shí)驗(yàn)部分會(huì)驗(yàn)證模型可以有效攻破這2個(gè)防御機(jī)制.

        2 基于burst深度分析的網(wǎng)站指紋攻擊模型

        基于當(dāng)前神經(jīng)網(wǎng)絡(luò)方法與面向Tor匿名網(wǎng)絡(luò)的WF攻擊技術(shù)結(jié)合不足的問題,根據(jù)burst特征在基于Tor網(wǎng)絡(luò)的網(wǎng)站訪問流量中具有強(qiáng)顯性的特點(diǎn),設(shè)計(jì)了基于深度分析burst特征的網(wǎng)站指紋攻擊模型(DBF).本節(jié)首先對(duì)模型的重要元素進(jìn)行定義,然后給出模型的整體框架,最后對(duì)DBF模型的2個(gè)重要部分DBF-CW和DBF-OW進(jìn)行闡述和分析.

        2.1 模型基本元素的定義

        在對(duì)本文提出的DBF模型進(jìn)行分析前,需要對(duì)網(wǎng)站指紋(WF)攻擊技術(shù)的重要元素進(jìn)行介紹,符號(hào)定義如表3所示,其中4個(gè)重要的定義如下:

        定義1.網(wǎng)站集(website set).網(wǎng)站集分為被監(jiān)控網(wǎng)站集和非監(jiān)控網(wǎng)站集.被監(jiān)控網(wǎng)站集是由網(wǎng)絡(luò)管理員定義的禁止用戶訪問的網(wǎng)站集,以MW表示;而非監(jiān)控集則為真實(shí)網(wǎng)絡(luò)中除監(jiān)控集以外的所有網(wǎng)站,以UW表示.

        WF模型的任務(wù)是分析內(nèi)網(wǎng)中是否存在用戶正在利用匿名網(wǎng)絡(luò)訪問被監(jiān)控網(wǎng)站,甚至進(jìn)一步分析用戶訪問的是哪一個(gè)被監(jiān)控網(wǎng)站,2個(gè)目的分別對(duì)應(yīng)于WF模型驗(yàn)證及測(cè)試階段的開放世界場(chǎng)景(OW)和封閉世界場(chǎng)景(CW).如表3所示,MW的大小為Ns,UW的大小在真實(shí)網(wǎng)絡(luò)中為無(wú)限大,而在模型實(shí)驗(yàn)階段是有限的,實(shí)驗(yàn)會(huì)采集一個(gè)盡可能大的數(shù)據(jù)集以模擬真實(shí)環(huán)境,至少保證UW的大小遠(yuǎn)大于MW的大小.

        Table 3 Concepts and Symbol Definitions of WF Model

        定義2.網(wǎng)頁(yè)流實(shí)例(instance).是用戶對(duì)單個(gè)網(wǎng)站訪問一次所產(chǎn)生的流量,是WF模型訓(xùn)練和分析的數(shù)據(jù)基本單元,Ii表示實(shí)例集I中的第i個(gè)實(shí)例,F(xiàn)i表示實(shí)例Ii用于模型輸入的特征向量.

        定義3.網(wǎng)站標(biāo)記(website label).是網(wǎng)站類別的標(biāo)識(shí),是WF模型的分類標(biāo)記.其中封閉世界場(chǎng)景標(biāo)記(CW)集中的每一個(gè)標(biāo)記分別對(duì)應(yīng)于被監(jiān)控網(wǎng)站集中的一個(gè)網(wǎng)站,為Ns類標(biāo)記;開放世界場(chǎng)景標(biāo)記(OW)集為二類標(biāo)記,即被監(jiān)控網(wǎng)站類標(biāo)記和非監(jiān)控網(wǎng)站類標(biāo)記.實(shí)例Ii的2種標(biāo)記分別記為l(CW)(Ii)和l(OW)(Ii),以l(Ii)泛指Ii的2種標(biāo)記.

        定義4.指紋向量(fingerprinting vector).即神經(jīng)網(wǎng)絡(luò)的結(jié)果向量(result vector),由神經(jīng)網(wǎng)絡(luò)方法自動(dòng)學(xué)習(xí)特征形成并輸出,用于識(shí)別網(wǎng)站標(biāo)記.實(shí)例Ii的指紋向量記為Ri,Ri[k]為向量第k維的值.

        2.2 DBF模型框架

        封閉世界場(chǎng)景假設(shè)(CW)和開放世界場(chǎng)景假設(shè)(OW)是WF攻擊技術(shù)研究中2個(gè)重要的場(chǎng)景驗(yàn)證.DBF模型由DBF-CW和DBF-OW這2個(gè)子模型構(gòu)成,如圖3所示.DBF-CW基于深度神經(jīng)網(wǎng)絡(luò)對(duì)被監(jiān)控網(wǎng)站的網(wǎng)頁(yè)流burst特征進(jìn)行深度分析和學(xué)習(xí),輸出網(wǎng)頁(yè)流的指紋向量,若網(wǎng)頁(yè)流屬于被監(jiān)控網(wǎng)站集,則利用指紋向量可直接得到該被監(jiān)控流的網(wǎng)站域名CW標(biāo)記.CW標(biāo)記為多分類標(biāo)記,每一類為一個(gè)具體的網(wǎng)站域名.以往的研究通常僅訓(xùn)練一個(gè)WF模型同時(shí)用于2個(gè)場(chǎng)景,在OW場(chǎng)景中對(duì)模型輸出的指紋向量基于閾值判斷的方式實(shí)現(xiàn)二分類決策.DBF-OW同樣是基于DBF-CW輸出的指紋向量進(jìn)行再分析,但放棄了閾值法的使用,而是利用隨機(jī)森林(RF)算法對(duì)被監(jiān)控網(wǎng)站流和非監(jiān)控流進(jìn)行二分類特性學(xué)習(xí)以構(gòu)建模型,在OW場(chǎng)景下實(shí)現(xiàn)二分類獲取流的OW標(biāo)記,即識(shí)別該網(wǎng)頁(yè)流是否屬于被監(jiān)控網(wǎng)站集,OW是二類標(biāo)記,即被監(jiān)控網(wǎng)站標(biāo)記和非監(jiān)控網(wǎng)站標(biāo)記.

        Fig. 3 The framework of DBF圖3 DBF模型框架

        (1)

        (2)

        在模型驗(yàn)證和測(cè)試階段,對(duì)于CW場(chǎng)景,DBF-CW與常規(guī)基于神經(jīng)網(wǎng)絡(luò)的WF模型相同,輸入待測(cè)試的被監(jiān)控網(wǎng)頁(yè)流實(shí)例Itest的特征向量Ftest,提取指紋向量Rtest,Rtest←DBF_CW(Ftest),進(jìn)一步得到被監(jiān)控網(wǎng)站CW標(biāo)記l(CW)(Itest)=arg max(Rtest),即實(shí)例標(biāo)記l(CW)(Itest)為Rtest中向量值最大對(duì)應(yīng)的維度位序.對(duì)于OW場(chǎng)景,區(qū)別于一般神經(jīng)網(wǎng)絡(luò)方法人工設(shè)定一個(gè)閾值Th,只有當(dāng)Rtest[arg max(Rtest)]>Th時(shí),實(shí)例Itest才被判定為被監(jiān)控網(wǎng)頁(yè)流,否則為非監(jiān)控網(wǎng)頁(yè)流的思路,DBF在DBF-CW提取出指紋向量的基礎(chǔ)上,DBF的子模型DBF-OW基于隨機(jī)森林算法分析指紋向量Rtest各維度值的關(guān)聯(lián)性和潛在規(guī)律得到實(shí)例Itest的OW標(biāo)記,即l(OW)(Itest)←DBF_OW(Rtest).

        在WF模型應(yīng)用到實(shí)際中時(shí),模型首先基于OW場(chǎng)景分析網(wǎng)頁(yè)流是否屬于被監(jiān)控網(wǎng)站集,若是則進(jìn)一步基于CW場(chǎng)景分析網(wǎng)頁(yè)流所屬的具體網(wǎng)站域名.具體而言,模型首先基于DBF-CW計(jì)算獲取指紋向量,并基于DBF-OW對(duì)指紋向量的分析得到網(wǎng)頁(yè)流的OW標(biāo)記,若流的OW標(biāo)記為被監(jiān)控網(wǎng)站,則進(jìn)一步基于指紋向量分析流的CW標(biāo)記,即識(shí)別流的具體網(wǎng)站域名,如圖3所示.

        2.3 封閉世界場(chǎng)景模型DBF-CW

        2.3.1 burst特征

        2.3.2 burst特征深度分析的神經(jīng)網(wǎng)絡(luò)原理

        一維卷積神經(jīng)網(wǎng)絡(luò)對(duì)序列具有較好的分析效果,而且相比循環(huán)網(wǎng)絡(luò),運(yùn)行速度更快.卷積網(wǎng)絡(luò)基于卷積層和池化層的疊加,使得卷積窗口能覆蓋到越來越多的局部序列信息,并提取到越來越深度抽象的序列特性,其卷積原理如圖4所示.卷積網(wǎng)絡(luò)的卷積核可用于提取網(wǎng)頁(yè)流序列的burst特征,并通過更深層的卷積和池化運(yùn)算得到序列中burst位置的抽象相關(guān)特性.Tor流量的burst特征有長(zhǎng)有短,利用卷積核大小不同的卷積層對(duì)不同長(zhǎng)度的burst特征進(jìn)行提取,進(jìn)而利用深層網(wǎng)絡(luò)對(duì)不同長(zhǎng)度burst的位置分布進(jìn)行分析,能較有效地分析Tor流量的burst特征,解構(gòu)Tor流量特性.深度神經(jīng)網(wǎng)絡(luò)對(duì)高維向量具有較好的分析效果,基于卷積網(wǎng)絡(luò)輸出的高維向量,DNN可以實(shí)現(xiàn)對(duì)向量各維度間復(fù)雜的相關(guān)性分析,如圖5所示.

        Fig. 4 Schematic diagram of one-dimensional convolution operation圖4 一維卷積運(yùn)算示意圖

        Fig. 5 Schematic diagram of dense neural network圖5 密集神經(jīng)網(wǎng)絡(luò)示意圖

        2.3.3 DBF-CW的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

        DBF-CW由burst提取模塊、burst抽象學(xué)習(xí)模塊和burst深度分析模塊三大模塊構(gòu)成,主要由卷積層(convolution layer, Conv)、最大池化層(max pooling layer)、密集層(dense layer)、批標(biāo)準(zhǔn)化處理(batch normalization)和Dropout處理這5個(gè)基本層件組成,如圖6所示.批標(biāo)準(zhǔn)化處理有助于神經(jīng)網(wǎng)絡(luò)參數(shù)的快速訓(xùn)練;Dropout處理則有利于提高模型的泛化性,丟失率越高,模型越不容易過擬合,但丟失率過高會(huì)大大降低模型的性能.

        Fig. 6 The neural network structure of DBF-CW圖6 DBF-CW神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        模塊1為burst特征提取模塊,主要作用和功能是利用不同大小的卷積核對(duì)短、中、長(zhǎng)burst進(jìn)行提取,并對(duì)burst在序列中的位置進(jìn)行簡(jiǎn)單的定位和淺層分析.定義短、中、長(zhǎng)burst長(zhǎng)度依次為8,24和72,后者依次為前者的3倍長(zhǎng)度.基于該定義,模型對(duì)不同長(zhǎng)度的burst分別采用了4個(gè)與其長(zhǎng)度對(duì)應(yīng)大小(即8,24和72)的卷積核進(jìn)行提取,然后將得到的3個(gè)卷積張量在通道維度軸上進(jìn)行拼接(concatenate),形成通道軸為12維的卷積張量.拼接后的張量進(jìn)入有32個(gè)大小為1的卷積核的卷積層中進(jìn)行學(xué)習(xí),大小為1的卷積核的主要作用是學(xué)習(xí)卷積張量在通道維度軸上的通道向量各維度之間的規(guī)律和相關(guān)性,分析定位burst在序列上可能出現(xiàn)的單點(diǎn)位置.最后采用一層最大池化層加快卷積網(wǎng)絡(luò)對(duì)局部特征的學(xué)習(xí)效率.DBF-CW使用的池化層均為最大池化層,且池化窗口大小與短burst長(zhǎng)度一致,步進(jìn)長(zhǎng)度為短burst長(zhǎng)度的一半.

        模塊2為burst抽象學(xué)習(xí)模塊,主要作用是對(duì)第1模塊輸出的淺層卷積張量實(shí)施更加抽象和深度的學(xué)習(xí),從局部特征的學(xué)習(xí)逐漸過渡到全局概念的學(xué)習(xí),以挖掘不同類網(wǎng)頁(yè)流序列burst特征的深層抽象特性和概念.該模塊由經(jīng)典CNN架構(gòu)VGG16的2個(gè)基本區(qū)塊構(gòu)成,該基本區(qū)塊由2層卷積層和一層最大池化層組成,在充分利用卷積運(yùn)算對(duì)特征規(guī)律學(xué)習(xí)的同時(shí),保證了網(wǎng)絡(luò)的學(xué)習(xí)效率.第1個(gè)VGG16基本區(qū)塊的卷積核數(shù)為64,是模塊1卷積層的2倍;第2個(gè)VGG16基本區(qū)塊的卷積核數(shù)為128,是上一個(gè)基本區(qū)塊的2倍.隨著卷積網(wǎng)絡(luò)層的深入,卷積核數(shù)的增加有助于學(xué)習(xí)到不同類網(wǎng)頁(yè)流burst特征的深層概念.burst抽象學(xué)習(xí)模塊的卷積窗口大小均與定義的短burst長(zhǎng)度一致,步進(jìn)長(zhǎng)度均為1.

        模塊3為burst深度分析模塊,主要作用是將上一模塊輸出的具有burst特性深度和全局概念意義的卷積張量鋪平形成向量,并基于密集神經(jīng)網(wǎng)絡(luò)對(duì)該向量的各維度相關(guān)性和特征規(guī)律進(jìn)行分析,以進(jìn)一步挖掘上一模塊所提取出的各個(gè)全局特征的關(guān)系.模塊3由4個(gè)密集基本區(qū)塊構(gòu)成,密集基本區(qū)塊由一層全連接層、一層批標(biāo)準(zhǔn)化層和一層Dropout層組成,全連接層的神經(jīng)元數(shù)均為512.同時(shí),burst深度分析模塊還基于殘差連接的思想,將第1和第3、第2和第4基本區(qū)塊的輸出進(jìn)行殘差相加,以緩解特征向量信息隨著網(wǎng)絡(luò)層的增加而丟失和遺忘的問題.

        模型采用RMSProp算法訓(xùn)練網(wǎng)絡(luò),批處理大小batch為128,采用交叉熵計(jì)算分類損失,模型評(píng)估指標(biāo)為準(zhǔn)確率(accuracy,Acc).

        2.4 開放世界場(chǎng)景模型DBF-OW

        DBF-OW模型基于隨機(jī)森林(RF)算法,對(duì)DBF-CW輸出的指紋向量Ri進(jìn)行分析.隨機(jī)森林是基于結(jié)構(gòu)和參數(shù)簡(jiǎn)單的決策樹等弱分類器的集成模型,對(duì)中低維的特征向量具有良好的分析效果.如圖7所示,DBF-CW結(jié)果向量在進(jìn)入RF模型訓(xùn)練前,DBF-OW先計(jì)算向量Ri各維度值的3個(gè)統(tǒng)計(jì)特征.結(jié)果向量各維度值的統(tǒng)計(jì)分布是反映向量屬性的重要特征,對(duì)模型的分類決策具有影響力.3個(gè)統(tǒng)計(jì)特征如式(3)~(5)所示,DBF-OW通過計(jì)算Ri的最大維度值、熵和標(biāo)準(zhǔn)差,得到Ri各維度值的分布情況,并將這3個(gè)統(tǒng)計(jì)特征添加到Ri中,形成Ns+3維的特征向量.新的特征向量與其對(duì)應(yīng)的二分類標(biāo)記輸入到RF模型中進(jìn)行規(guī)律學(xué)習(xí),最終得到一個(gè)可識(shí)別未知網(wǎng)頁(yè)流實(shí)例的二分類標(biāo)記的開放世界模型.

        (3)

        (4)

        (5)

        Fig.7 The structure of DBF-OW圖7 DBF-OW模型結(jié)構(gòu)

        DBF-OW所基于的隨機(jī)森林由若干決策樹構(gòu)成,每個(gè)決策樹的訓(xùn)練、結(jié)構(gòu)和參數(shù)相互獨(dú)立、各不相同.每個(gè)決策樹在分析訓(xùn)練數(shù)據(jù)時(shí),以指紋向量某一維度的屬性值作為基準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行劃分,計(jì)算分類前和分類后的信息熵差值,以此得到以不同維度軸作為劃分基準(zhǔn)的各數(shù)據(jù)劃分方法的信息增益,以信息增益最大的分類方法作為該“樹支”的分類邏輯.訓(xùn)練數(shù)據(jù)被劃分成多個(gè)部分后,決策樹對(duì)各部分?jǐn)?shù)據(jù)分別繼續(xù)分析,形成新的分支邏輯,以此類推,最終形成一個(gè)有若干分支的決策樹.信息熵、信息增益及劃分基準(zhǔn)選擇的計(jì)算如式(6)~(8)所示:

        (6)

        (7)

        (8)

        其中,Ent(D)表示原始數(shù)據(jù)集D的信息熵,|y|是數(shù)據(jù)的類別數(shù),p(xi)表示第i類數(shù)據(jù)占整個(gè)數(shù)據(jù)集的比例;G(D,a)表示以指紋向量第a維度作為劃分基準(zhǔn)時(shí)的信息增益,J表示此時(shí)的分支數(shù),Dj表示被劃分到第j個(gè)分支的數(shù)據(jù);a*表示被選擇的基準(zhǔn)維度,即信息增益最大的指紋向量維度.

        在各決策樹訓(xùn)練完畢后,決策樹的所有葉結(jié)點(diǎn)由該結(jié)點(diǎn)訓(xùn)練數(shù)據(jù)的大多數(shù)類作為該結(jié)點(diǎn)的類別.決策樹在對(duì)新的數(shù)據(jù)點(diǎn)指紋向量進(jìn)行分析時(shí),新向量依照決策樹的邏輯分支分配到某個(gè)葉結(jié)點(diǎn),該葉結(jié)點(diǎn)對(duì)應(yīng)的類別即決策樹對(duì)該向量的類別預(yù)測(cè).在所有決策樹都對(duì)新數(shù)據(jù)點(diǎn)的指紋向量進(jìn)行類別預(yù)測(cè)后,隨機(jī)森林對(duì)各決策樹的預(yù)測(cè)結(jié)果進(jìn)行集成和綜合分析,以投票的方式?jīng)Q定數(shù)據(jù)點(diǎn)的類別,如式(9)所示:

        (9)

        其中,ct(x)表示第t個(gè)決策樹對(duì)x的預(yù)測(cè)結(jié)果;T是隨機(jī)森林模型中決策樹的個(gè)數(shù);Y是標(biāo)簽集;派函數(shù)∏()表示當(dāng)括號(hào)內(nèi)條件為真時(shí)函數(shù)值為1,否則為0.因此式(9)的含義是對(duì)于標(biāo)簽集Y中的每一個(gè)元素標(biāo)記y,將隨機(jī)森林模型T中的每一棵樹t的預(yù)測(cè)結(jié)果ct(x)與y進(jìn)行比較,當(dāng)結(jié)果為真時(shí)對(duì)y的預(yù)測(cè)值加1,最后通過反向最大值函數(shù)輸出具有最大預(yù)測(cè)值的y值,即為隨機(jī)森林模型對(duì)數(shù)據(jù)x的標(biāo)記預(yù)測(cè)結(jié)果.隨機(jī)森林以決策樹為基礎(chǔ),通過各決策樹對(duì)指紋向量的學(xué)習(xí),分析向量各維度的相關(guān)性和潛在規(guī)律,獲取指紋向量的屬性邏輯規(guī)則,對(duì)應(yīng)于決策樹的每一條路徑.

        隨機(jī)森林作為一個(gè)集成模型,子分類器的個(gè)數(shù)是一個(gè)重要的參數(shù).由于結(jié)果向量的維度會(huì)隨著被監(jiān)控網(wǎng)站集的大小而變化,DBF-OW設(shè)定子分類器數(shù)為Ns/4,即被監(jiān)控網(wǎng)站集大小的四分之一.RF子分類器數(shù)隨著被監(jiān)控網(wǎng)站集的大小而變化,有利于RF模型對(duì)數(shù)據(jù)進(jìn)行充分的擬合,避免欠擬合的情況發(fā)生.

        3 實(shí)驗(yàn)與結(jié)果

        3.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)主要分為2個(gè)部分,分別在封閉世界場(chǎng)景和開放世界場(chǎng)景下對(duì)模型性能進(jìn)行評(píng)估.采用了微星(MSI)GT63作為實(shí)驗(yàn)機(jī)器,包含了6個(gè)Intel?CoreTMi7-8750H@2.2 GHz的CPU和一個(gè)NVDIA GeForce GTX 1070的GPU,機(jī)器內(nèi)存為32 GB.實(shí)驗(yàn)中的算法代碼均基于Keras實(shí)現(xiàn),DF[22]和AWF[11]作為實(shí)驗(yàn)的對(duì)比模型.由于實(shí)驗(yàn)所使用的數(shù)據(jù)集只有包方向序列特征,k-FP[16],k-NN[36]和CUMUL[17]等需要分析時(shí)間特征的算法無(wú)法在該實(shí)驗(yàn)條件下執(zhí)行,這些模型的實(shí)驗(yàn)對(duì)比結(jié)果來源于與數(shù)據(jù)集或模型相關(guān)的論文.

        3.2 評(píng)估指標(biāo)

        封閉世界場(chǎng)景是一個(gè)多分類任務(wù),在該場(chǎng)景下模型的分類性能主要體現(xiàn)在對(duì)不同網(wǎng)頁(yè)流的分類能力上,因此采用準(zhǔn)確率(Acc)對(duì)模型性能進(jìn)行評(píng)估:

        (10)

        其中,TPi表示第i類網(wǎng)頁(yè)流被正確分類的實(shí)例數(shù),N表示參與評(píng)估的實(shí)例總數(shù).

        開放世界場(chǎng)景是一個(gè)二分類任務(wù),在該場(chǎng)景下模型的分類性能不僅體現(xiàn)在能正確識(shí)別出受監(jiān)控網(wǎng)頁(yè),還體現(xiàn)在盡可能少地將非監(jiān)控網(wǎng)頁(yè)誤識(shí)別成監(jiān)控網(wǎng)頁(yè).實(shí)驗(yàn)采用了真陽(yáng)性率(true positive rate,TPR)、假陽(yáng)性率(false positive rate,FPR)和多類真陽(yáng)性率(multi-TPR,MTPR)對(duì)模型性能進(jìn)行評(píng)估:

        (11)

        (12)

        (13)

        其中,TP表示被監(jiān)控網(wǎng)頁(yè)流被正確分類的實(shí)例數(shù),TN表示非監(jiān)控網(wǎng)頁(yè)流被正確分類的實(shí)例數(shù),F(xiàn)N表示受監(jiān)控網(wǎng)頁(yè)流被錯(cuò)誤分類為非監(jiān)控網(wǎng)頁(yè)流的實(shí)例數(shù),F(xiàn)P表示非監(jiān)控網(wǎng)頁(yè)流被錯(cuò)誤分類為受監(jiān)控網(wǎng)頁(yè)流的實(shí)例數(shù).在真實(shí)網(wǎng)絡(luò)中非監(jiān)控網(wǎng)頁(yè)流要遠(yuǎn)多于被監(jiān)控網(wǎng)頁(yè)流,準(zhǔn)確率和精度(precision)指標(biāo)不能準(zhǔn)確衡量模型性能,因此實(shí)驗(yàn)不采用這2個(gè)指標(biāo).

        3.3 實(shí)驗(yàn)數(shù)據(jù)集

        針對(duì)不同的實(shí)驗(yàn)?zāi)康模瑢?shí)驗(yàn)采用了多個(gè)基于Tor網(wǎng)絡(luò)訪問網(wǎng)站的數(shù)據(jù)集,數(shù)據(jù)集的每一條數(shù)據(jù)表示一個(gè)網(wǎng)頁(yè)流實(shí)例的數(shù)據(jù)包方向序列,即(1,-1,-1,…,-1)的數(shù)據(jù)形式,序列長(zhǎng)度均為5 000維,不足5 000維的部分以0補(bǔ)足.如表4所示,前綴為CW的數(shù)據(jù)集表示封閉世界數(shù)據(jù)集,前綴為OW的數(shù)據(jù)集表示封閉世界數(shù)據(jù)集;N(MW)表示被監(jiān)控網(wǎng)站集的大??;N(Ii)表示各被監(jiān)控網(wǎng)站的網(wǎng)頁(yè)流實(shí)例數(shù);N(UW)表示非監(jiān)控網(wǎng)站集的大小,每個(gè)非監(jiān)控網(wǎng)站的實(shí)例數(shù)均為1;數(shù)據(jù)括號(hào)中的第1個(gè)數(shù)表示訓(xùn)練-驗(yàn)證集(train-val)的大小,第2個(gè)數(shù)表示測(cè)試集(test)的大小,訓(xùn)練-驗(yàn)證集和測(cè)試集的劃分與源論文保持一致.所有數(shù)據(jù)的測(cè)試集僅用于模型最后的結(jié)果對(duì)比;在參數(shù)驗(yàn)證的實(shí)驗(yàn)中,驗(yàn)證集的大小始終保持為訓(xùn)練-驗(yàn)證集的10%.

        Table 4 Datasets Used in the Experiments

        不同數(shù)據(jù)集的用處不盡相同.CW100-CW900數(shù)據(jù)集的被監(jiān)控網(wǎng)站集大小不同,可用于驗(yàn)證被監(jiān)控網(wǎng)站集MW的大小對(duì)模型性能的影響.CW200-Time和OW200-Time數(shù)據(jù)集采集了與訓(xùn)練數(shù)據(jù)間隔3 d、10 d、2周、4周、6周的被監(jiān)控網(wǎng)站實(shí)例,可用于測(cè)試模型的抗概念漂移性能.Sirinam數(shù)據(jù)集[22]用于驗(yàn)證模型對(duì)W-T和WTFPAD這2個(gè)相對(duì)成熟的WF防御機(jī)制的突破能力,CW-NoDef,CW-W-T,CW-WTFPAD分別是在無(wú)WF防御、有W-T防御和有WTFPAD防御機(jī)制下采集的封閉世界數(shù)據(jù)集,OW-NoDef,OW-W-T,OW-WTFPAD同理.Haye數(shù)據(jù)集[1]可用于驗(yàn)證模型對(duì)Tor隱藏網(wǎng)站的檢測(cè)能力,CW-Normal和CW-HS是用戶通過Tor網(wǎng)絡(luò)分別訪問普通網(wǎng)站和Tor隱藏網(wǎng)站所采集到的數(shù)據(jù)集,OW-Normal和OW-HS同理.

        3.4 封閉世界場(chǎng)景實(shí)驗(yàn)

        封閉世界場(chǎng)景的實(shí)驗(yàn)?zāi)康模菣z驗(yàn)WF攻擊模型是否能正確分類被監(jiān)控網(wǎng)頁(yè)流實(shí)例所對(duì)應(yīng)的被監(jiān)控網(wǎng)站集標(biāo)記,檢驗(yàn)的是模型的多分類性能.實(shí)驗(yàn)主要分為參數(shù)驗(yàn)證和性能測(cè)試2部分.參數(shù)驗(yàn)證階段主要探討訓(xùn)練輪次epoch、神經(jīng)網(wǎng)絡(luò)的輸入序列長(zhǎng)度、訓(xùn)練實(shí)例數(shù)對(duì)模型性能的影響;性能測(cè)試階段主要分析被監(jiān)控網(wǎng)站集MW的大小對(duì)性能的影響、模型的抗概念漂移能力、繞過WF攻擊防御機(jī)制的能力以及檢測(cè)Tor隱藏網(wǎng)站的能力.DBF-CW與DF的默認(rèn)參數(shù)是epoch為30,輸入序列長(zhǎng)度為5 000.AWF的默認(rèn)參數(shù)是epoch為30,輸入序列長(zhǎng)度為3 000.

        3.4.1 epoch對(duì)模型準(zhǔn)確率的影響

        實(shí)驗(yàn)在CW100和CW-NoDef數(shù)據(jù)集上對(duì)訓(xùn)練不同epoch下的模型準(zhǔn)確率進(jìn)行驗(yàn)證,訓(xùn)練集為訓(xùn)練-驗(yàn)證集的90%,驗(yàn)證集為10%.如圖8和圖9所示,圖8為DBF-CW模型分別在CW100和CW-NoDef數(shù)據(jù)集上運(yùn)行60個(gè)epoch的結(jié)果,圖9為DBF-CW,DF和AWF模型在CW100數(shù)據(jù)集運(yùn)行30個(gè)epoch的結(jié)果.盡管CW100和CW-NoDef數(shù)據(jù)集的大小不同,但當(dāng)epoch為15~20時(shí),DBF-CW在2個(gè)數(shù)據(jù)集上均達(dá)到了擬合的狀態(tài),驗(yàn)證了DBF-CW訓(xùn)練的穩(wěn)定性.同時(shí),相比AWF模型,DBF-CW和DF訓(xùn)練速度更快且更穩(wěn)健,僅經(jīng)過前5輪的訓(xùn)練,整體準(zhǔn)確率已經(jīng)穩(wěn)定在97%以上.

        Fig. 8 Performance of DBF-CW under different epochs圖8 DBF-CW訓(xùn)練不同epoch時(shí)的性能

        Fig. 9 Performance under different epochs on the CW100 dataset圖9 各算法在CW100數(shù)據(jù)集上訓(xùn)練不同epoch的性能

        3.4.2 網(wǎng)頁(yè)流序列長(zhǎng)度對(duì)模型準(zhǔn)確率的影響

        實(shí)驗(yàn)在CW100和CW-NoDef數(shù)據(jù)集上驗(yàn)證模型在輸入的網(wǎng)頁(yè)流序列長(zhǎng)度不同時(shí)的準(zhǔn)確率變化,訓(xùn)練集為訓(xùn)練-驗(yàn)證集的90%,驗(yàn)證集為10%.如圖10所示,DBF-CW和DF模型的準(zhǔn)確率均隨著輸入序列長(zhǎng)度的增大而增大,且在輸入長(zhǎng)度為1 000時(shí),模型的驗(yàn)證準(zhǔn)確率在98%以上.相比AWF模型,DBF-CW和DF模型對(duì)輸入長(zhǎng)度不敏感,準(zhǔn)確率變化幅度較小,表明模型對(duì)輸入的長(zhǎng)度依賴性不強(qiáng),有較好的健壯性.

        Fig. 10 Accuracy of the algorithms with different input lengths圖10 各算法在輸入序列長(zhǎng)度不同時(shí)的準(zhǔn)確率

        3.4.3 訓(xùn)練實(shí)例數(shù)對(duì)模型準(zhǔn)確率的影響

        Fig. 11 Accuracy of the algorithms with different training instances on the CW100 dataset圖11 各算法在CW100數(shù)據(jù)集上訓(xùn)練不同實(shí)例數(shù)的準(zhǔn)確率

        實(shí)驗(yàn)在CW100和CW-NoDef數(shù)據(jù)集上對(duì)模型的訓(xùn)練實(shí)例數(shù)與模型準(zhǔn)確率之間的關(guān)系進(jìn)行驗(yàn)證,驗(yàn)證集大小為訓(xùn)練-驗(yàn)證集的10%,訓(xùn)練集大小依次為10%~90%,間隔10%,取9個(gè)點(diǎn).實(shí)驗(yàn)結(jié)果如圖11和圖12所示,隨著每類被監(jiān)控網(wǎng)站的訓(xùn)練實(shí)例數(shù)增加,3個(gè)算法模型的分類準(zhǔn)確率均隨之增大,但DBF-CW相比AWF的變化幅度小得多.在小樣本訓(xùn)練的情況下,DBF-CW和DF算法仍能保持96%以上的分類準(zhǔn)確率,表明算法對(duì)樣本的規(guī)律學(xué)習(xí)和泛化性能比較好,在小樣本訓(xùn)練的情況下同樣可以成功實(shí)施WF攻擊.

        Fig. 12 Accuracy of the algorithms with different training instances on the CW-NoDef dataset圖12 各算法在CW-NoDef集上訓(xùn)練不同實(shí)例數(shù)的準(zhǔn)確率

        3.4.4 被監(jiān)控網(wǎng)站集大小對(duì)模型準(zhǔn)確率的影響

        實(shí)驗(yàn)在CW100-CW900四個(gè)數(shù)據(jù)集上驗(yàn)證被監(jiān)控網(wǎng)站集的大小對(duì)模型準(zhǔn)確率的影響,這4個(gè)數(shù)據(jù)集的網(wǎng)站集大小分別為100,200,500和900.如圖13和表5所示,隨著被監(jiān)控網(wǎng)站集的增大,DBF-CW和DF的準(zhǔn)確率有略微下降,而AWF模型準(zhǔn)確率下降較快.DBF-CW的分類準(zhǔn)確率始終保持在最高位,且均在98%以上.實(shí)驗(yàn)表明DBF-CW是健壯的,對(duì)WF技術(shù)適應(yīng)性較好,受被監(jiān)控集網(wǎng)站大小的變化影響較小.

        Fig. 13 Test accuracy of the algorithms on CW100-900 dataset 圖13 各算法在CW100-900數(shù)據(jù)集上的測(cè)試準(zhǔn)確率對(duì)比

        Table 5 Test Accuracy of the Algorithms on CW100-900 Dataset

        3.4.5 模型的抗概念漂移能力驗(yàn)證

        實(shí)驗(yàn)采用CW200-Time數(shù)據(jù)集驗(yàn)證模型緩解概念漂移(concept drift)的能力.概念漂移是指在實(shí)際網(wǎng)絡(luò)環(huán)境中,數(shù)據(jù)模式會(huì)隨時(shí)間的推移而出現(xiàn)變化,模型訓(xùn)練使用的數(shù)據(jù)與測(cè)試數(shù)據(jù)的間隔越長(zhǎng),模型通過“舊”數(shù)據(jù)訓(xùn)練得到的概念與測(cè)試數(shù)據(jù)實(shí)際的概念模式的偏差就會(huì)越大,導(dǎo)致模型分類性能下降.

        圖14和表6是DBF-CW與對(duì)比算法在CW-Time數(shù)據(jù)集上的準(zhǔn)確率對(duì)比,CW-Time數(shù)據(jù)集包含1個(gè)訓(xùn)練集和6個(gè)測(cè)試集,各測(cè)試集的采集時(shí)間與訓(xùn)練集分別相隔了0 d,3 d,10 d、2周、4周和6周.從圖14可以看到,DBF-CW,DF和AWF模型的分類準(zhǔn)確率隨著時(shí)間間隔增大而均有所下降,但DBF-CW的下降速度是最慢的,驗(yàn)證了DBF-CW能較有效地緩解概念漂移問題.概念漂移是實(shí)際應(yīng)用中模型隨著時(shí)間推移而性能下降的一個(gè)無(wú)法避免的問題,但如果模型能有效減緩性能下降的速度,就有更充分的時(shí)間準(zhǔn)備新的訓(xùn)練數(shù)據(jù)以訓(xùn)練出新的模型,以真正解決實(shí)際應(yīng)用場(chǎng)景中的概念漂移問題.

        Fig. 14 Test accuracy of the algorithms on CW-Time dataset圖14 各算法在CW-Time數(shù)據(jù)集上的測(cè)試準(zhǔn)確率

        Table 6 Test Accuracy of the Algorithms on CW-Time Dataset

        3.4.6 模型對(duì)Tor隱藏網(wǎng)站的檢測(cè)性能

        實(shí)驗(yàn)在Tor隱藏網(wǎng)站數(shù)據(jù)集上對(duì)模型的Tor隱藏網(wǎng)站檢測(cè)能力進(jìn)行測(cè)試.如表7所示,DBF-CW在正常集CW-Normal和隱藏網(wǎng)站集CW-HS的準(zhǔn)確率表現(xiàn)一般,分別為70.6%和80.66%.這可能是因?yàn)樵摂?shù)據(jù)集的訓(xùn)練實(shí)例數(shù)和序列長(zhǎng)度過短導(dǎo)致的,各類被監(jiān)控網(wǎng)站的訓(xùn)練實(shí)例數(shù)僅為70和60,遠(yuǎn)遠(yuǎn)少于其他2個(gè)數(shù)據(jù)集的900訓(xùn)練實(shí)例和2375訓(xùn)練實(shí)例;另一方面,該數(shù)據(jù)集的序列為數(shù)據(jù)包序列,而不是其他2個(gè)數(shù)據(jù)集的cell序列,這會(huì)導(dǎo)致模型對(duì)burst特征的提取和分析不足.相比之下,基于一般機(jī)器學(xué)習(xí)方法的k-FP[16]在小樣本情況下表現(xiàn)出了較強(qiáng)的學(xué)習(xí)能力.從縱向看,DBF-CW在隱藏網(wǎng)站數(shù)據(jù)集上的分類準(zhǔn)確率高于正常數(shù)據(jù)集約10%,說明DBF-CW對(duì)Tor隱藏網(wǎng)站是有檢測(cè)能力的.從橫向上看,DBF-CW相比其他2個(gè)神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率是最高的,體現(xiàn)了DBF-CW的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在WF領(lǐng)域有更強(qiáng)的適應(yīng)性.

        Table 7 Test Accuracy on Tor Hidden Website Dataset

        表7 各算法在Tor隱藏網(wǎng)站數(shù)據(jù)集上的測(cè)試準(zhǔn)確率 %

        3.4.7 模型對(duì)WF攻擊防御機(jī)制的突破能力驗(yàn)證

        實(shí)驗(yàn)在無(wú)針對(duì)WF攻擊的防御機(jī)制、有W-T機(jī)制和有WTFPAD機(jī)制這3個(gè)數(shù)據(jù)集上進(jìn)行.如表8所示,WTFPAD和W-T防御機(jī)制犧牲了一定的帶寬,分別為31%和64%,WTFPAD機(jī)制還有34%的傳輸延遲.從橫向比較上看,DBF-CW在CW-NoDef,CW-W-T和CW-WTFPAD這3個(gè)數(shù)據(jù)集上的準(zhǔn)確率均為最高.對(duì)于WTFPAD防御機(jī)制,DBF-CW對(duì)各被監(jiān)控網(wǎng)站的識(shí)別準(zhǔn)確率達(dá)到了96.25%,表明WTFPAD對(duì)DBF-CW幾乎沒有防御能力.雖然DBF-CW在W-T防御機(jī)制數(shù)據(jù)集上的準(zhǔn)確率只有52.06%,但考慮到該數(shù)據(jù)集的被監(jiān)控集大小為100,該準(zhǔn)確率仍能說明DBF-CW在一定程度上能夠突破W-T防御機(jī)制.

        Table 8 Test Accuracy of the Algorithms on Defense Against WF Attack Dataset

        3.5 開放世界場(chǎng)景實(shí)驗(yàn)

        開放世界場(chǎng)景的實(shí)驗(yàn)?zāi)康?,是檢驗(yàn)WF攻擊模型是否能正確識(shí)別未知網(wǎng)頁(yè)流實(shí)例為被監(jiān)控網(wǎng)站流或非監(jiān)控網(wǎng)站流,檢驗(yàn)的是模型的二分類性能.實(shí)驗(yàn)主要分為參數(shù)驗(yàn)證和性能測(cè)試2部分.參數(shù)驗(yàn)證階段主要探討基于隨機(jī)森林算法的DBF-OW子分類器數(shù)和非監(jiān)控網(wǎng)站訓(xùn)練實(shí)例數(shù)對(duì)DBF模型性能的影響;性能測(cè)試階段主要分析模型的抗概念漂移能力、繞過WF攻擊防御機(jī)制能力以及對(duì)Tor隱藏網(wǎng)站的檢測(cè)能力.實(shí)驗(yàn)中,DBF-OW的子分類器為被監(jiān)控集大小的1/4,其余參數(shù)與封閉世界場(chǎng)景實(shí)驗(yàn)的設(shè)置保持一致.

        3.5.1 DBF-OW子分類器數(shù)對(duì)模型準(zhǔn)確率的影響

        Fig. 15 Performance of DBF with different number of estimators on OW-NoDef圖15 DBF在OW-NoDef上子分類器個(gè)數(shù)不同時(shí)的性能

        實(shí)驗(yàn)在OW-NoDef和OW200數(shù)據(jù)集上對(duì)由不同子分類器構(gòu)建的DBF-OW模型性能進(jìn)行驗(yàn)證,訓(xùn)練集為訓(xùn)練-驗(yàn)證集的90%,驗(yàn)證集為10%.如圖15和圖16所示,圖15為DBF-OW模型在OW-NoDef數(shù)據(jù)集上運(yùn)行的結(jié)果,實(shí)驗(yàn)選取了子分類器數(shù)分別為10~210(間隔為20)的11個(gè)模型進(jìn)行評(píng)估;圖16為DBF-OW模型在OW200數(shù)據(jù)集上運(yùn)行的結(jié)果,選取了子分類器數(shù)分別為10~410(間隔為40)的11個(gè)模型進(jìn)行評(píng)估.從對(duì)比結(jié)果上看,2個(gè)實(shí)驗(yàn)分別在分類器數(shù)為30和50時(shí)性能達(dá)到相對(duì)最優(yōu),此后模型性能幾乎沒有增長(zhǎng).需要注意的是,30和50個(gè)分類器分別約是各自所使用數(shù)據(jù)集的被監(jiān)控網(wǎng)站集大小(N(MW))的31%和25%.因此,該實(shí)驗(yàn)驗(yàn)證了DBF-OW模型在分類器數(shù)取為被監(jiān)控網(wǎng)站集大小的1/4時(shí),性能能夠達(dá)到一個(gè)相對(duì)較好的水平.

        Fig. 16 Performance of DBF with different number of estimators on OW200圖16 DBF在OW200上子分類器個(gè)數(shù)不同時(shí)的性能

        3.5.2 DBF-OW有效性驗(yàn)證

        實(shí)驗(yàn)在OW-NoDef和OW200數(shù)據(jù)集上通過比較DBF-OW和閾值法的性能以驗(yàn)證DBF-OW模型思想的有效性,訓(xùn)練集為訓(xùn)練-驗(yàn)證集的90%,驗(yàn)證集為10%.如表9所示,DBF-OW模型在OW-NoDef數(shù)據(jù)集上的TPR與MTPR值要優(yōu)于閾值法,而在OW200數(shù)據(jù)集上的TPR與MTPR值與閾值法持平,表明DBF-OW相比閾值法對(duì)正類的檢測(cè)率有所提高,但提升水平有限.而對(duì)于FPR值,閾值法在2個(gè)數(shù)據(jù)集上的表現(xiàn)均大于15%,表明閾值法將反類誤分類為正類的問題較為嚴(yán)重,而DBF-OW的FPR分別僅為傳統(tǒng)閾值法的43%和11%,表明DBF-OW有效緩解了該問題的出現(xiàn),改進(jìn)了閾值法的缺陷.

        3.5.3 非監(jiān)控網(wǎng)站訓(xùn)練實(shí)例數(shù)對(duì)模型準(zhǔn)確率的影響

        實(shí)驗(yàn)在OW200數(shù)據(jù)集上對(duì)模型的非監(jiān)控網(wǎng)站訓(xùn)練實(shí)例數(shù)與模型性能之間的關(guān)系進(jìn)行驗(yàn)證.實(shí)驗(yàn)使用數(shù)量固定的被監(jiān)控網(wǎng)站實(shí)例數(shù)和數(shù)量不定的非監(jiān)控網(wǎng)站實(shí)例數(shù)對(duì)DBF模型進(jìn)行訓(xùn)練.被監(jiān)控網(wǎng)站訓(xùn)練實(shí)例數(shù)為訓(xùn)練-驗(yàn)證集中被監(jiān)控集的一半,即190 000條數(shù)據(jù),非監(jiān)控網(wǎng)站訓(xùn)練實(shí)例數(shù)依次取訓(xùn)練-驗(yàn)證集中非監(jiān)控集的10%~90%,間隔10%,共9個(gè)點(diǎn).實(shí)驗(yàn)使用10%的訓(xùn)練-驗(yàn)證集(含監(jiān)控集和非監(jiān)控集,且與訓(xùn)練數(shù)據(jù)不重復(fù))作為驗(yàn)證數(shù)據(jù).如圖17所示,隨著非監(jiān)控網(wǎng)站訓(xùn)練實(shí)例的增多,模型的TPR,MTPR和FPR均有所下降.但整體上看,DBF在訓(xùn)練數(shù)據(jù)不平衡的情況下,性能依舊是穩(wěn)健的:在非監(jiān)控網(wǎng)站訓(xùn)練實(shí)例數(shù)約為被監(jiān)控?cái)?shù)的20%時(shí),F(xiàn)PR只有4.5%;而在非監(jiān)控?cái)?shù)為被監(jiān)控?cái)?shù)1.8倍時(shí),DBF的TPR和MTPR仍舊保持在97%以上.

        Table 9 Performance of DBF-OW and Threshold Method

        Fig. 17 Performance comparison of DBF with different number of training instances of unmonitored website 圖17 DBF在非監(jiān)控網(wǎng)站訓(xùn)練實(shí)例數(shù)不相同時(shí)的性能對(duì)比

        3.5.4 模型的抗概念漂移能力驗(yàn)證

        實(shí)驗(yàn)采用OW200-Time數(shù)據(jù)集驗(yàn)證模型在開放世界場(chǎng)景下緩解概念漂移的能力.OW200-Time的被監(jiān)控網(wǎng)站集部分與3.4.5節(jié)中使用的CW200-Time數(shù)據(jù)集完全相同,非監(jiān)控網(wǎng)站集部分與OW200完全相同.由于實(shí)驗(yàn)重點(diǎn)關(guān)注的是模型對(duì)被監(jiān)控網(wǎng)站類的學(xué)習(xí)是否會(huì)隨著時(shí)間的變化與實(shí)際的類概念發(fā)生偏差,而不關(guān)心非監(jiān)控網(wǎng)站是否出現(xiàn)概念漂移(各非監(jiān)控網(wǎng)站實(shí)例只有一個(gè),實(shí)際上構(gòu)不成概念),因此實(shí)驗(yàn)的非監(jiān)控網(wǎng)站集沒有和被監(jiān)控集一樣間隔多天采集一次,所以測(cè)試集中的非監(jiān)控集部分沒有變化,如表10所示FPR始終為1.63%.如圖18和表10所示,模型性能隨著時(shí)間間隔的增大,有較明顯的下降.相比3.4.5節(jié)在封閉世界場(chǎng)景下驗(yàn)證模型抗概念漂移能力的實(shí)驗(yàn),模型在開放世界場(chǎng)景下的性能下降得更快.但總的來說,模型在使用42 d前的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)仍能達(dá)到80%的TPR,表明模型具有較強(qiáng)的抗概念漂移能力.從實(shí)踐的角度分析,6周的時(shí)間足夠網(wǎng)絡(luò)管理員采集新的數(shù)據(jù)訓(xùn)練模型.

        Fig. 18 DBF performance on the OW-Time dataset圖18 DBF在OW-Time數(shù)據(jù)集上的性能表現(xiàn)

        Table 10 DBF Performance on the OW-Time Dataset

        3.5.5 模型對(duì)Tor隱藏網(wǎng)站的檢測(cè)能力

        實(shí)驗(yàn)在Tor隱藏網(wǎng)站數(shù)據(jù)集上對(duì)模型的Tor隱藏網(wǎng)站檢測(cè)能力進(jìn)行測(cè)試,該數(shù)據(jù)集的被監(jiān)控網(wǎng)站集部分與CW-Normal和CW-HS一致.如表11所示:

        Table 11 Performance on Tor Hidden Website Dataset

        表11 各算法在Tor隱藏網(wǎng)站數(shù)據(jù)集上的性能測(cè)試對(duì)比 %

        DBF對(duì)Tor隱藏網(wǎng)站的檢測(cè)效果是最好的,在FPR只有0.13的情況下FPR達(dá)到了85.33%,在各類監(jiān)控網(wǎng)站訓(xùn)練實(shí)例只有不到100的情況下,其性能比一般機(jī)器學(xué)習(xí)k-FP[16]還要出色.相比3.4.6節(jié)在封閉世界場(chǎng)景下DBF-CW檢測(cè)Tor隱藏網(wǎng)站較弱的準(zhǔn)確率表現(xiàn),DBF在開放世界場(chǎng)景下對(duì)Tor隱藏網(wǎng)站的識(shí)別有了很大的提高,而2個(gè)實(shí)驗(yàn)的被監(jiān)控集是相同的.出現(xiàn)這種的可能原因是DBF-OW起到了重要的作用.不同于AWF[11]僅使用被監(jiān)控網(wǎng)站集訓(xùn)練以及DF[22]同時(shí)使用被監(jiān)控集和非監(jiān)控集及相應(yīng)的多分類標(biāo)記同時(shí)訓(xùn)練模型,DBF的子模型DBF-OW使用二分類標(biāo)記訓(xùn)練模型,使得DBF-OW能夠?qū)W習(xí)隱藏網(wǎng)站及非隱藏網(wǎng)站的二類特性.另外,不同于人為隨機(jī)定義的被監(jiān)控網(wǎng)站集,其整體的規(guī)律性比較弱,Tor隱藏網(wǎng)站作為一種特殊的網(wǎng)頁(yè)流天然地自成一類網(wǎng)頁(yè)流,因此Tor隱藏網(wǎng)站和非Tor隱藏網(wǎng)站具有可以學(xué)習(xí)的網(wǎng)頁(yè)流規(guī)律.實(shí)際上,在該實(shí)驗(yàn)中DBF的MTPR只有66%,遠(yuǎn)低于TPR值85.33%,從反向的角度也證明了DBF-OW在識(shí)別Tor隱藏網(wǎng)站中起到的重要作用.

        3.5.6 模型對(duì)WF攻擊防御機(jī)制的突破能力驗(yàn)證

        實(shí)驗(yàn)在無(wú)防御機(jī)制、有W-T機(jī)制和有WTFPAD機(jī)制這3個(gè)開放世界數(shù)據(jù)集上進(jìn)行.如表12所示,DBF在WTFPAD數(shù)據(jù)集上對(duì)各被監(jiān)控網(wǎng)站的MTPR和TPR分別達(dá)到了92.16%和93.66%,WTFPAD對(duì)DBF幾乎沒有防御能力,與3.4.7節(jié)在封閉世界場(chǎng)景下的結(jié)果相呼應(yīng);DBF-CW在W-T數(shù)據(jù)集上的TPR到達(dá)了93.92%,但MTPR為64.11%,超高的TPR值與3.5.5節(jié)中的實(shí)驗(yàn)結(jié)果類似,這同樣歸功于DBF-OW對(duì)二類特性的學(xué)習(xí)能力.綜合來看,DBF在一定程度上繞過了W-T防御機(jī)制.與其他算法對(duì)比,DBF在3個(gè)數(shù)據(jù)集上的MTPR和TPR均為最高,且有較高的性能優(yōu)勢(shì).但DBF在2個(gè)數(shù)據(jù)集上的FPR均超過了15%,在非監(jiān)控網(wǎng)頁(yè)流遠(yuǎn)遠(yuǎn)少于被監(jiān)控網(wǎng)頁(yè)流的真實(shí)網(wǎng)絡(luò)中,這個(gè)FPR值是過高的,其主要原因是非監(jiān)控網(wǎng)站集的訓(xùn)練實(shí)例數(shù)(20 000)較少于監(jiān)控集訓(xùn)練數(shù)(90 000)且防御機(jī)制對(duì)模型起到了干擾作用.但在與對(duì)比算法的橫向比較上,DBF的FPR性能也不具備太大優(yōu)勢(shì),說明DBF-OW在分析經(jīng)過防御機(jī)制加持的Tor流量時(shí)還存在一定問題,仍需要繼續(xù)改進(jìn).

        Table 12 Performances on Defense Against WF Attack Datasets

        3.6 模型復(fù)雜度分析

        DBF相比其他2個(gè)神經(jīng)網(wǎng)絡(luò)方法要更加輕便、運(yùn)行速度更快,其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化對(duì)比如圖19所示.DBF的簡(jiǎn)化結(jié)構(gòu)與DF相似(DBF的具體參數(shù)在2.3.3節(jié)已有描述;DF的4輪卷積網(wǎng)絡(luò)參數(shù)為:卷積窗口均為8,卷積步進(jìn)均為1,卷積核數(shù)依次為32,64,128,256,池化步進(jìn)均為4,池化窗口均為8),但DBF運(yùn)算速度更快.一方面,DBF僅有3輪基本卷積網(wǎng)絡(luò)運(yùn)算(即2層卷積層一層最大池化層),而DF有4輪.另一方面,DBF的第1輪卷積網(wǎng)絡(luò)用于burst特征提取,其結(jié)構(gòu)遠(yuǎn)比DF的第1輪卷積網(wǎng)絡(luò)要簡(jiǎn)單,如第1層卷積層的核數(shù)僅為4(DF的卷積核數(shù)為32),第2層卷積層的卷積窗口大小僅為1(DF的卷積窗口大小為8).DBF由于深度分析burst特征的需要,密集連接網(wǎng)絡(luò)運(yùn)算有4輪,要多于DF的2輪,但密集連接網(wǎng)絡(luò)的運(yùn)算速度很快,時(shí)間消耗遠(yuǎn)遠(yuǎn)少于卷積網(wǎng)絡(luò).DBF在簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)提高了模型性能,關(guān)鍵在于DBF充分結(jié)合了流量burst特征分析的需要和網(wǎng)站指紋攻擊技術(shù)的特點(diǎn)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且摒棄了以往研究中冗余的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).其中最具特色的是DBF的第1輪卷積網(wǎng)絡(luò)的第1層卷積層運(yùn)算實(shí)際上包含了3個(gè)平行的卷積層,用于提取burst特征(DBF的具體結(jié)構(gòu)如2.3.3節(jié)圖6所示),而這3個(gè)平行的卷積層是可以并行計(jì)算的,因此沒有增加時(shí)間消耗.AWF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)雖然僅有7層,但長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層(LSTM)屬于循環(huán)網(wǎng)絡(luò)層的一種,運(yùn)算非常耗時(shí),因此AWF的時(shí)間消耗要大于DBF和DF.

        Fig. 19 Simplified neural network structures of the algorithms圖19 各算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化圖

        DBF與對(duì)比算法具體的時(shí)間消耗如表13和表14所示,DBF每個(gè)epoch的訓(xùn)練時(shí)間只有86.30 s,遠(yuǎn)低于對(duì)比算法,可知DBF在模型效率上同樣優(yōu)于對(duì)比算法.實(shí)際上DBF的訓(xùn)練并不需要多達(dá)30個(gè)epoch,3.4.1節(jié)驗(yàn)證了模型在15~20個(gè)epoch時(shí)就基本能達(dá)到最佳的性能效果.在減少訓(xùn)練epoch的情況下,模型的訓(xùn)練時(shí)間能進(jìn)一步縮短.

        Table 13 Running Time of DBF on OW-NoDef Dataset

        Table 14 Comparison of Running Time of the Algorithms on OW-NoDef Dataset

        3.7 實(shí)驗(yàn)討論

        從場(chǎng)景的設(shè)置上看,實(shí)驗(yàn)從封閉世界場(chǎng)景和開放世界場(chǎng)景2個(gè)角度對(duì)DBF進(jìn)行了分析,模型均表現(xiàn)出了良好的性能.從功能性驗(yàn)證上看,DBF在受被監(jiān)控網(wǎng)站集大小影響、緩解真實(shí)網(wǎng)絡(luò)環(huán)境存在的概念漂移問題、繞過WF攻擊防御機(jī)制以及對(duì)Tor隱藏網(wǎng)站的檢測(cè)上有較好的性能表現(xiàn),這些模型性能對(duì)WF攻擊技術(shù)應(yīng)用到真實(shí)網(wǎng)絡(luò)環(huán)境中有很大幫助;同時(shí)DBF在3.5.2節(jié)的開放世界場(chǎng)景實(shí)驗(yàn)驗(yàn)證中,表現(xiàn)出對(duì)傳統(tǒng)閾值法的極大改進(jìn),相較傳統(tǒng)方法明顯降低了FPR值,但在3.5.6節(jié)的實(shí)驗(yàn)出現(xiàn)了FPR值過高的情況,表明抵御WF攻擊的防御機(jī)制對(duì)帶寬的擾亂,在誤導(dǎo)WF模型將非監(jiān)控網(wǎng)頁(yè)流誤分類為監(jiān)控流方面起到了明顯的作用.雖然DBF一定程度上突破了防御機(jī)制,并表現(xiàn)出了較高的MTPR,但較高的FPR表示DBF-OW受防御機(jī)制加持的影響較大,說明模型在訓(xùn)練階段對(duì)指紋向量的學(xué)習(xí)能力還有所欠缺.從模型自身的參數(shù)驗(yàn)證上看,DBF對(duì)訓(xùn)練輪次epoch、輸入的特征序列長(zhǎng)度、被監(jiān)控網(wǎng)站的訓(xùn)練實(shí)例數(shù)、隨機(jī)森林算法的子分類器數(shù)等參數(shù)敏感度不高,說明模型本身的結(jié)構(gòu)是健壯的,模型性能不容易受參數(shù)變化而影響.從模型對(duì)比上看,DBF模型在各方面的性能表現(xiàn)都要優(yōu)于DF模型,但是在個(gè)別方面的優(yōu)勢(shì)不明顯,如小樣本訓(xùn)練下的模型準(zhǔn)確率、輸入序列長(zhǎng)度對(duì)模型的準(zhǔn)確率影響等;而AWF模型的性能與DBF和DF模型相差較大,證明了神經(jīng)網(wǎng)絡(luò)方法雖然是一個(gè)利器,但是如果沒有對(duì)經(jīng)典架構(gòu)做出改進(jìn)以適應(yīng)WF的特點(diǎn),神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)也無(wú)法發(fā)揮出來.另外,DBF相比其他2個(gè)神經(jīng)網(wǎng)絡(luò)方法要更加輕便、運(yùn)行速度更快.綜上,DBF在保證模型運(yùn)行效率的同時(shí),全方位地提高了模型的分類性能.

        4 結(jié) 論

        本文提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)深度分析burst特征的網(wǎng)站指紋攻擊模型DBF,提高了神經(jīng)網(wǎng)絡(luò)應(yīng)用到WF攻擊技術(shù)上的適應(yīng)性.DBF有效緩解了概念漂移問題和提高了小樣本訓(xùn)練下模型的分類準(zhǔn)確率等,相比已有研究的方法要更加輕便、運(yùn)行速度更快,從提升性能的角度提高了WF攻擊技術(shù)應(yīng)用到實(shí)際的可行性.但在OW場(chǎng)景下驗(yàn)證模型對(duì)WF攻擊防御機(jī)制的突破能力實(shí)驗(yàn)中,DBF出現(xiàn)了FPR過高的情況,這將對(duì)實(shí)際中的網(wǎng)絡(luò)管理帶來一定困難,也表明了DBF對(duì)WF攻擊防御機(jī)制的突破還有很大的提升空間.該問題的出現(xiàn)與DBF-OW的設(shè)計(jì)是相關(guān)的,因此下一步將研究對(duì)DBF-OW作出改進(jìn),使DBF-OW的設(shè)計(jì)更加精細(xì),以更加有效地應(yīng)對(duì)WF攻擊防御機(jī)制,有效降低在加持了防御機(jī)制下的FPR值,進(jìn)一步提高WF攻擊技術(shù)在WF攻擊防御機(jī)制下的性能表現(xiàn).

        猜你喜歡
        網(wǎng)頁(yè)指紋準(zhǔn)確率
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        像偵探一樣提取指紋
        為什么每個(gè)人的指紋都不一樣
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        基于自適應(yīng)稀疏變換的指紋圖像壓縮
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        无码a级毛片免费视频内谢| 国产成人涩涩涩视频在线观看| 亚洲av无码一区二区三区网站| 中文字幕无码免费久久9一区9| 青青草久久久亚洲一区| 免费av一区二区三区| 四川老熟妇乱子xx性bbw| 国产艳妇av在线出轨| 亚洲av手机在线一区| 日韩在线永久免费播放| 四川老熟女下面又黑又肥| 精品国产亚欧无码久久久| 人妻1024手机看片你懂的| 天天做天天爱夜夜爽女人爽| 无码a∨高潮抽搐流白浆| 亚洲性69影视| 蜜桃在线视频一区二区| 亚洲人成网网址在线看 | 国产毛片网| 看全色黄大黄大色免费久久 | av在线免费播放网站| 日韩不卡的av二三四区| 午夜内射中出视频| 国产成人亚洲综合一区| 成人激情视频一区二区三区 | 亚洲妇熟xxxx妇色黄| 三上悠亚av影院在线看| 久九九久视频精品网站| 亚洲av手机在线网站| 亚洲精品suv精品一区二区| 久久福利资源国产精品999| 亚洲一区二区三区福利久久蜜桃| 无码色av一二区在线播放| 天天做天天爱天天综合网| 伊人影院在线观看不卡| 亚洲桃色视频在线观看一区| 品色永久免费| 国产9 9在线 | 免费| 国产精品精品国产色婷婷| аⅴ资源天堂资源库在线| 久久精品熟女不卡av高清|