亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自注意力機(jī)制和時(shí)空特征的Tor網(wǎng)站流量分析模型

        2022-11-08 12:42:38席榮康蔡滿春蘆天亮李彥霖
        計(jì)算機(jī)應(yīng)用 2022年10期
        關(guān)鍵詞:指紋注意力準(zhǔn)確率

        席榮康,蔡滿春,蘆天亮,李彥霖

        (中國(guó)人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038)

        0 引言

        洋蔥路由器(The onion router,Tor)匿名通信系統(tǒng)是一種基于鏈路的低延遲通信系統(tǒng)。與其他匿名通信系統(tǒng)相比,Tor 匿名通信系統(tǒng)因具有更好的安全性、可部署性、可用性、靈活性而被匿名用戶廣泛運(yùn)用。由于該系統(tǒng)具有節(jié)點(diǎn)發(fā)現(xiàn)難、用戶定位難、通信關(guān)系確認(rèn)難的特點(diǎn),常常被不法分子用來(lái)作為隱匿網(wǎng)絡(luò)行為的工具從事網(wǎng)絡(luò)犯罪活動(dòng)。Tor 是用戶訪問(wèn)暗網(wǎng)的重要工具,而暗網(wǎng)中充斥著信息泄露、人口販賣(mài)、槍支貿(mào)易,以及敲詐勒索等反社會(huì)活動(dòng)和言論,嚴(yán)重威脅著個(gè)人隱私安全、社會(huì)治安,甚至國(guó)家安全。Tor 匿名通信系統(tǒng)使用安全傳輸層(Transport Layer Security,TLS)協(xié)議進(jìn)行數(shù)據(jù)加密,研究者無(wú)法通過(guò)分析分組有效負(fù)載來(lái)識(shí)別流量,且該方法由于解析分組負(fù)載而觸犯隱私。后來(lái)有研究者嘗試將流量中獨(dú)特的數(shù)據(jù)包大小與網(wǎng)頁(yè)建立匹配關(guān)系,從而獲取用戶訪問(wèn)的頁(yè)面。但Tor 匿名通信系統(tǒng)不但通過(guò)多層跳轉(zhuǎn)、隨機(jī)轉(zhuǎn)發(fā)機(jī)制隱藏了通信雙方的真實(shí)身份,而且通過(guò)分割數(shù)據(jù)包為512 比特固定長(zhǎng)度的數(shù)據(jù)單元消除了許多常用的流量特征。因此,針對(duì)Tor 加密流量的監(jiān)管和識(shí)別成為亟待解決的重要問(wèn)題。

        Tor 網(wǎng)站指紋攻擊也稱(chēng)為T(mén)or 網(wǎng)站流量分析,攻擊者通過(guò)監(jiān)聽(tīng)用戶訪問(wèn)頁(yè)面的流量,分析其行為模式和特征進(jìn)一步判斷用戶當(dāng)前正在訪問(wèn)的頁(yè)面。目前,Tor 網(wǎng)站指紋攻擊在兩種應(yīng)用場(chǎng)景下進(jìn)行。封閉世界下,攻擊者需要準(zhǔn)確識(shí)別出Tor 網(wǎng)絡(luò)匿名用戶正在訪問(wèn)的已知監(jiān)控網(wǎng)站種類(lèi),檢驗(yàn)?zāi)P湍軌驅(qū)ΡO(jiān)控網(wǎng)站類(lèi)別正確分類(lèi)的多分類(lèi)能力。在更接近真實(shí)互聯(lián)網(wǎng)環(huán)境的開(kāi)放世界下,攻擊者需要在復(fù)雜的網(wǎng)絡(luò)環(huán)境下識(shí)別出受監(jiān)控網(wǎng)站,以檢驗(yàn)?zāi)P偷亩诸?lèi)能力。

        Hintz[1]最先提出了Web 網(wǎng)站指紋攻擊的概念,針對(duì)加密代理SafeWeb 證明了指紋攻擊的可行性與有效性。后來(lái)Liberatore等[2]首次將機(jī)器學(xué)習(xí)算法運(yùn)用在網(wǎng)站指紋攻擊模型中,模型分類(lèi)準(zhǔn)確率達(dá)68%。早期網(wǎng)站指紋攻擊主要針對(duì)安全外殼(Secure SHell,SSH)協(xié)議與安全套接字層(Secure Socket Layer,SSL)協(xié)議。自2004 年起,Dingledine等[3]介紹了第二代洋蔥路由系統(tǒng)Tor,Tor 通信系統(tǒng)便成為了當(dāng)今最為流行的匿名通信系統(tǒng)。此后,多種機(jī)器學(xué)習(xí)算法相繼被應(yīng)用于Tor 網(wǎng)站指紋攻擊中。例如,基于K 指紋的模型K-FP(K-FingerPrinting)[4]采用隨機(jī)森林算法、基于累積量模型CUMUL(CUMULative sum fingerprinting)[5]采取支持向量機(jī)算法。將機(jī)器學(xué)習(xí)算法應(yīng)用于網(wǎng)站指紋攻擊中需要人手動(dòng)選擇特征且選擇的依據(jù)多為專(zhuān)家經(jīng)驗(yàn),算法的固有缺陷導(dǎo)致模型性能難以進(jìn)一步提高。

        神經(jīng)網(wǎng)絡(luò)模型由于能夠在訓(xùn)練過(guò)程中自動(dòng)提取特征向量,通過(guò)大量互聯(lián)神經(jīng)元的非線性變換獲取抽象特征并進(jìn)行自適應(yīng)端到端的分類(lèi)處理而被廣泛運(yùn)用于網(wǎng)站指紋攻擊。Abe等[6]首次嘗試將深度學(xué)習(xí)算法用于指紋攻擊,使用堆棧去噪自編碼器(Stacked Denoised AutoEncoder,SDAE)對(duì)數(shù)據(jù)進(jìn)行分類(lèi),在封閉世界數(shù)據(jù)集中達(dá)到88%的準(zhǔn)確率。后來(lái),研究者一方面通過(guò)改進(jìn)數(shù)據(jù)分析模型來(lái)提高網(wǎng)站指紋攻擊的準(zhǔn)確率,Rimmer等[7]收集了包含300 萬(wàn)條流量的數(shù)據(jù)集,并使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、SDAE、長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行分類(lèi),封閉世界下能達(dá)到96%的準(zhǔn)確率。Zhang等[8]提出了多尺寸卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶(MultiScale CNN with LSTM,MSCNN-LSTM)網(wǎng)絡(luò)模型,利用輸入數(shù)據(jù)的時(shí)空特征對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)。另一方面,研究者通過(guò)改進(jìn)網(wǎng)絡(luò)流量的預(yù)處理方法以達(dá)到更好的實(shí)驗(yàn)效果。馬陳城等[9]提出將突發(fā)流量特征作為指紋攻擊特征,在封閉世界下模型分類(lèi)準(zhǔn)確率達(dá)到98%。張道維等[10]提出將匿名通信流量映射為RGB 圖像,然后使用殘差神經(jīng)網(wǎng)絡(luò)構(gòu)造網(wǎng)站分類(lèi)模型,模型準(zhǔn)確率達(dá)到97.2%。

        除了通過(guò)改進(jìn)模型和數(shù)據(jù)處理方法提高Tor 網(wǎng)站指紋攻擊的準(zhǔn)確率,Wang等[11]提出目前網(wǎng)站指紋攻擊的局限性,運(yùn)用數(shù)據(jù)集更新、網(wǎng)頁(yè)分割、去噪聲等方法來(lái)增加指紋攻擊的實(shí)用性。針對(duì)深度學(xué)習(xí)需要大樣本學(xué)習(xí)、靈活性差等問(wèn)題,Sirinam等[12]提出三聯(lián)體指紋攻擊的方法,通過(guò)小樣本訓(xùn)練數(shù)據(jù)模型,模型分類(lèi)準(zhǔn)確率可達(dá)95%且抵抗概念漂移能力和靈活性大幅提高。Attarian等[13]提出自適應(yīng)的在線指紋識(shí)別流處理方法實(shí)現(xiàn)網(wǎng)站的動(dòng)態(tài)識(shí)別。蔡滿春等[14]利用Seq2seq模型自動(dòng)生成流特征,采用自適應(yīng)隨機(jī)森林算法作為分類(lèi)器,模型在線識(shí)別率達(dá)98%。

        綜上所述,針對(duì)Tor 網(wǎng)站指紋攻擊的研究集中在模型性能改進(jìn)和模型實(shí)用性提高兩方面。目前關(guān)于Tor 網(wǎng)站流量分析模型的改進(jìn)雖取得了較大成功但仍存在如下問(wèn)題:1)通過(guò)神經(jīng)網(wǎng)絡(luò)的疊加雖提高了模型分類(lèi)準(zhǔn)確率,但模型處理數(shù)據(jù)量大幅增加,模型訓(xùn)練效率較低;2)利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行多次信息提取存在信息丟失的隱患;3)模型尺寸單一,結(jié)構(gòu)不靈活,無(wú)法充分提取數(shù)據(jù)多維度、多視野特征進(jìn)行分類(lèi)。

        本文提出一種基于自注意力機(jī)制和時(shí)空特征的Tor 網(wǎng)站流量分析模型SA-HST(Self-Attention and Hierarchical SpatioTemporal features):首次引用注意力機(jī)制用于Tor 網(wǎng)站流量分析,為輸入數(shù)據(jù)分配注意力權(quán)重以選取重要特征;采用多通道并聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)取代深度神經(jīng)網(wǎng)絡(luò)以提取數(shù)據(jù)多視野細(xì)粒度特征;基于CNN、LSTM 提取流量時(shí)空特征用于Tor匿名流量分類(lèi)。SA-HST 在分類(lèi)準(zhǔn)確率、分類(lèi)效率、魯棒性等多方面的性能均有較大提高。

        1 基于SA-HST的Tor網(wǎng)站流量分析

        1.1 Tor網(wǎng)絡(luò)結(jié)構(gòu)分析

        圖1 為T(mén)or 網(wǎng)絡(luò)結(jié)構(gòu)。Tor 網(wǎng)絡(luò)客戶端在與目標(biāo)節(jié)點(diǎn)數(shù)據(jù)傳輸過(guò)程中基于加權(quán)隨機(jī)路由選擇算法選擇3 個(gè)中繼節(jié)點(diǎn)傳輸信息并建立鏈路。由于對(duì)數(shù)據(jù)進(jìn)行三次加密,中繼節(jié)點(diǎn)和目的服務(wù)器無(wú)法同時(shí)獲知客戶端IP 地址、目的服務(wù)器IP 地址以及數(shù)據(jù)內(nèi)容,從而保護(hù)了用戶隱私。

        基于該網(wǎng)絡(luò)結(jié)構(gòu),攻擊者可通過(guò)獲取Tor 網(wǎng)絡(luò)入口節(jié)點(diǎn)的權(quán)限并位于用戶客戶端到Tor 網(wǎng)絡(luò)入口節(jié)點(diǎn)的鏈路上對(duì)傳輸數(shù)據(jù)包進(jìn)行監(jiān)聽(tīng)。擁有Tor 網(wǎng)絡(luò)入口節(jié)點(diǎn)權(quán)限的攻擊者,能夠解密Tor 網(wǎng)絡(luò)數(shù)據(jù)包的第一層加密信息并獲取Tor 協(xié)議信息,但無(wú)法獲取Tor 網(wǎng)絡(luò)數(shù)據(jù)包有效載荷信息。因此,攻擊者可通過(guò)分析數(shù)據(jù)包時(shí)間、方向等統(tǒng)計(jì)特征達(dá)到網(wǎng)站指紋攻擊的目的。

        1.2 SA-HST流量分析模型

        結(jié)合自注意力機(jī)制與多核CNN-LSTM,設(shè)計(jì)了SA-HST流量分析模型。圖2 為SA-HST 模型流程,該模型分為三部分:1)數(shù)據(jù)編碼層將預(yù)處理后的數(shù)據(jù)填充或截取為固定長(zhǎng)度的序列,對(duì)網(wǎng)站標(biāo)簽采用One-Hot 方式編碼;2)自注意力機(jī)制層為數(shù)據(jù)序列特征分配不同的權(quán)重,提取出重要的數(shù)據(jù)特征用于分類(lèi);3)多核CNN-LSTM 層提取輸入數(shù)據(jù)的時(shí)空特征用于分類(lèi),進(jìn)一步提高分類(lèi)準(zhǔn)確率。最后通過(guò)調(diào)整全連層參數(shù)和數(shù)據(jù)重組實(shí)現(xiàn)開(kāi)放世界和封閉世界下模型的二分類(lèi)/多分類(lèi)。

        SA-HST 模型主要具有以下特點(diǎn):1)注意力機(jī)制層忽略輸入數(shù)據(jù)的長(zhǎng)度,通過(guò)固定運(yùn)算量便可計(jì)算輸入數(shù)據(jù)任意兩個(gè)位置的依賴關(guān)系。對(duì)于長(zhǎng)序列數(shù)據(jù)的處理既保留了完整的數(shù)據(jù)信息,又沒(méi)有降低訓(xùn)練效率。2)SA-HST 模型采取并聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)以消耗算力的方式提高訓(xùn)練效率。3)采用多尺寸卷積核卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)提取數(shù)據(jù)細(xì)粒度、多尺寸、跨時(shí)空特征,充分提取數(shù)據(jù)特征使模型能夠在復(fù)雜的測(cè)試數(shù)據(jù)中保持性能穩(wěn)定。本文模型能夠在淺層網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,實(shí)現(xiàn)分類(lèi)高準(zhǔn)確率、高訓(xùn)練效率和高魯棒性。

        1.2.1 數(shù)據(jù)編碼層

        本文在開(kāi)放世界和封閉世界下的實(shí)驗(yàn)都屬于有監(jiān)督學(xué)習(xí),即利用已知的訓(xùn)練數(shù)據(jù)訓(xùn)練模型并通過(guò)輸入未知數(shù)據(jù)映射輸出,以達(dá)到分類(lèi)或預(yù)測(cè)的目的。訓(xùn)練數(shù)據(jù)通常表示為:

        其中:Τ為訓(xùn)練數(shù)據(jù);X為經(jīng)過(guò)預(yù)處理后的網(wǎng)絡(luò)流量實(shí)例;G為網(wǎng)站類(lèi)標(biāo)簽,開(kāi)放世界下為二分類(lèi)標(biāo)簽,封閉世界下為多分類(lèi)標(biāo)簽。由于無(wú)法獲取Tor 網(wǎng)絡(luò)傳遞的有效載荷信息,X可表示為:

        其中:-1 和1 表示數(shù)據(jù)包傳輸方向,數(shù)據(jù)長(zhǎng)度則表示該網(wǎng)站流量實(shí)例的大小。經(jīng)過(guò)預(yù)處理的信息流是長(zhǎng)度不一的數(shù)據(jù)序列,而模型采用批處理的方式加載數(shù)據(jù),需要對(duì)批數(shù)據(jù)進(jìn)行填充和截取操作以保持長(zhǎng)度統(tǒng)一。采用數(shù)據(jù)處理函數(shù)處理數(shù)據(jù)矩陣,若序列長(zhǎng)度過(guò)長(zhǎng)則截?cái)?,反之則補(bǔ)零。由于神經(jīng)網(wǎng)絡(luò)執(zhí)行數(shù)字運(yùn)算性質(zhì),輸入數(shù)據(jù)通常為范圍是[-1,1]的數(shù)字序列,經(jīng)數(shù)據(jù)編碼層處理的數(shù)據(jù)序列X能直接輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行運(yùn)算。

        對(duì)于多分類(lèi)標(biāo)簽,由于同批數(shù)據(jù)的各網(wǎng)站標(biāo)簽相互獨(dú)立,采用One-Hot 編碼將網(wǎng)站標(biāo)簽編碼為神經(jīng)網(wǎng)絡(luò)可處理的一維向量:

        One-Hot 編碼采用N個(gè)狀態(tài)位來(lái)對(duì)N個(gè)網(wǎng)站名稱(chēng)進(jìn)行編碼,網(wǎng)站名稱(chēng)被映射為整數(shù)索引值,N個(gè)狀態(tài)位任意時(shí)刻只有一位有效。當(dāng)表示某一網(wǎng)站時(shí)該索引值對(duì)應(yīng)數(shù)值為1,其他位都是0。標(biāo)簽G3=1,則G表示第4 個(gè)網(wǎng)站類(lèi)標(biāo)簽。

        1.2.2 自注意力機(jī)制層

        注意力機(jī)制的思想起初受到人類(lèi)注意力機(jī)制的啟發(fā)。本質(zhì)上來(lái)說(shuō)是實(shí)現(xiàn)模型算力資源的高效分配[15]。注意力機(jī)制第一次應(yīng)用于圖像處理領(lǐng)域,通過(guò)對(duì)圖像關(guān)鍵位置有選擇的處理,減少了需要處理的樣本量并提高了模型性能。而后,注意力機(jī)制思想在機(jī)器翻譯領(lǐng)域解決了不定長(zhǎng)翻譯問(wèn)題。接著在數(shù)據(jù)預(yù)測(cè)領(lǐng)域,LSTM[16]將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)與注意力機(jī)制思想相結(jié)合,利用門(mén)結(jié)構(gòu)依據(jù)重要性選擇將信息進(jìn)行傳遞或者遺忘,有效地解決梯度爆炸問(wèn)題,模型得到初步運(yùn)用。2017 年以自注意力機(jī)制為基本單元的Transformer 模型的提出使注意力機(jī)制得到真正的成功運(yùn)用[17]。Google 公司使用Transformer 模型代替Seq2seq 模型,利用自注意力單元代替?zhèn)鹘y(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)單元,在機(jī)器翻譯領(lǐng)域取得了重大成功[18]。受到自注意力機(jī)制在序列數(shù)據(jù)中的應(yīng)用啟發(fā),本文將注意力機(jī)制運(yùn)用于Tor 匿名流量分類(lèi)中,相較于之前流量分類(lèi)模型,模型性能在多方面有較大提升。

        圖3 為自注意力機(jī)制層模型結(jié)構(gòu)。首先,先設(shè)置輸入序列X=(1,-1,1,-1,…,1)的初始化權(quán)重矩陣,并計(jì)算序列X的相關(guān)矩陣:

        其中:Wv、Wk、Wq分別為輸入序列X的值Value、鍵Key 以及查詢Query 初始化權(quán)重矩陣;V、K、Q分別為輸入序列X的值Value、鍵Key 以及查詢Query 矩陣。然后,利用特征xi的查詢向量與各個(gè)位置的鍵Key 內(nèi)積并歸一化得到注意力權(quán)重,注意力權(quán)重表示特征xi與序列其他位置的依賴關(guān)系,權(quán)重越大表示該數(shù)據(jù)特征越重要:

        其中:qi為輸入序列中特征xi的查詢向量;ai為特征xi的注意力權(quán)重;Softmax()為歸一化指數(shù)函數(shù),用于將注意力得分歸一化為調(diào)節(jié)因子,使得內(nèi)積不至于太大以便于Softmax()函數(shù)計(jì)算。最后,將注意力權(quán)重與對(duì)應(yīng)的值Value 加權(quán)求和得到特征xi的注意力得分:

        其中:attention()表示注意力得分函數(shù);vj為特征xj對(duì)應(yīng)的Value 向量。

        1.2.3 多核CNN-LSTM層

        卷積神經(jīng)網(wǎng)絡(luò)能夠通過(guò)卷積核與局部圖像的卷積運(yùn)算提取抽象的數(shù)據(jù)特征,在圖像處理問(wèn)題上有良好表現(xiàn)。一維卷積神經(jīng)網(wǎng)絡(luò)相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)層具有輕量級(jí)的結(jié)構(gòu)且更易捕捉序列的空間特征[19]。序列數(shù)據(jù)常用的深度學(xué)習(xí)模型為RNN,RNN 通過(guò)記錄系統(tǒng)狀態(tài)量使神經(jīng)元具有記憶能力。對(duì)于第t時(shí)間步,計(jì)算公式為:

        其中:et表示t時(shí)刻系統(tǒng)狀態(tài)向量;Wp、Wg、Wo為轉(zhuǎn)移矩陣;Xt、Lt分別為t時(shí)刻輸入向量、輸出向量;tanh()為雙曲正切函數(shù)。由式(9)可知,RNN 運(yùn)算方式為串行運(yùn)算,上一刻系統(tǒng)狀態(tài)影響下一刻系統(tǒng)輸出,存在下列局限:1)受制于遞推機(jī)制,RNN 不能實(shí)現(xiàn)并行運(yùn)算,運(yùn)算效率低;2)RNN 僅能獲取序列上下文依賴關(guān)系而忽略數(shù)據(jù)局部依賴關(guān)系;3)深度RNN 存在梯度消失和梯度爆炸的隱患。本文選用一維卷積神經(jīng)網(wǎng)絡(luò)作為分類(lèi)工具。卷積核與提取的數(shù)據(jù)序列進(jìn)行卷積運(yùn)算來(lái)提取多視野細(xì)粒度數(shù)據(jù)特征,表示形式為:

        其中:和分別表示第l層的第j個(gè)輸入和第l-1 層的第j個(gè)輸出;?表示卷積操作;代表卷積核;為卷積層偏置量;f() 為激勵(lì)函數(shù)。對(duì)于自注意力層輸出向量C=(c1,c2,…,cn)經(jīng)卷積操作之后,每個(gè)卷積神經(jīng)網(wǎng)絡(luò)得到一個(gè)特征矩陣M∈R32*(n+1-h)。卷積核掃描步長(zhǎng)為1,則每個(gè)卷積核經(jīng)卷積操作后提取的特征序列長(zhǎng)度為n+1 -h。32 個(gè)卷積核掃描得到特征序列并拼接為二維特征矩陣M。

        其次,一維卷積神經(jīng)網(wǎng)絡(luò)后接一維最大池化層對(duì)數(shù)據(jù)特征進(jìn)行降維、去除冗余信息、壓縮,簡(jiǎn)化特征信息以提高計(jì)算速度,防止過(guò)擬合[20]。設(shè)置一維最大池化層核大小為4,步長(zhǎng)為1,最大池化的表示形式為:

        其中:表示將第l層三個(gè)不同大小卷積核的卷積神經(jīng)網(wǎng)絡(luò)卷積、最大池化操作后進(jìn)行融合的特征;concat()為融合函數(shù)用于將矩陣融合。特征矩陣N∈R32*[(n+1-h)/4]經(jīng)融合層進(jìn)行矩陣拼接后得到融合矩陣K∈R96*[(n+1-h)/4]。

        相較于傳統(tǒng)的單尺寸卷積神經(jīng)網(wǎng)絡(luò),本文所提出的并聯(lián)多尺寸卷積核卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具有以下改進(jìn):1)使用不同尺寸的卷積核對(duì)應(yīng)不同的序列長(zhǎng)度窗口,進(jìn)而提取不同粒度的空間特征。卷積核h=5 的卷積神經(jīng)網(wǎng)絡(luò)能夠增大卷積層感受野[21],卷積核h=3 的卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)細(xì)粒度的特征獲取。2)改變傳統(tǒng)神經(jīng)網(wǎng)絡(luò)串行疊加的思路,采用并聯(lián)結(jié)構(gòu)并行提取數(shù)據(jù)序列的多粒度特征。沒(méi)有減少運(yùn)算量導(dǎo)致特征提取不充分,通過(guò)消耗計(jì)算機(jī)內(nèi)存與算力資源實(shí)現(xiàn)網(wǎng)絡(luò)并行運(yùn)算,運(yùn)行效率約為串聯(lián)網(wǎng)絡(luò)的3 倍。此外,網(wǎng)絡(luò)并聯(lián)有效避免了同種特征經(jīng)過(guò)多次卷積、池化操作后的信息丟失問(wèn)題。3)特征融合。由于三組不同卷積核大小的卷積神經(jīng)網(wǎng)絡(luò)卷積操作獲取的特征是相互獨(dú)立的,各組之間沒(méi)有信息交互,因此降低了模型的信息提取能力。如圖4 所示,通過(guò)融合層將特征矩陣進(jìn)行簡(jiǎn)單拼接獲得融合特征使信息可以在不同組流轉(zhuǎn)[22]。

        融合層處理完畢之后,串聯(lián)接入LSTM 網(wǎng)絡(luò)來(lái)提取數(shù)據(jù)的時(shí)序特征。LSTM 網(wǎng)絡(luò)利用門(mén)結(jié)構(gòu)控制信息輸入解決了循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)距離依賴難以捕捉的問(wèn)題,通過(guò)挖掘數(shù)據(jù)包內(nèi)部前后依賴信息,保證了信息持久化。LSTM 內(nèi)部含有3 個(gè)控制門(mén)和1 個(gè)記憶單元,用來(lái)記憶和存儲(chǔ)當(dāng)前時(shí)刻的信息。設(shè)置LSTM 網(wǎng)絡(luò)單元個(gè)數(shù)為128,則特征矩陣K∈R96*[(n+1-h)/4]經(jīng)LSTM 網(wǎng)絡(luò)挖掘數(shù)據(jù)時(shí)序依賴關(guān)系和特征一維化之后輸出一維矩陣U∈R128并輸入全連接層進(jìn)行分類(lèi)。全連接層將權(quán)重矩陣與輸入向量相乘再加上偏置,輸出數(shù)據(jù)屬于各個(gè)網(wǎng)站的分?jǐn)?shù),表示形式為:

        其中:X為輸入向量;WT為權(quán)重矩陣;si∈(-∞,+∞)為輸入向量屬于網(wǎng)站i的分?jǐn)?shù);z表示全連接層偏置量;mi為利用Softmax()函數(shù)將分?jǐn)?shù)歸一化后的概率值。

        本文兩類(lèi)實(shí)驗(yàn)場(chǎng)景即開(kāi)放世界和封閉世界下的實(shí)驗(yàn)都屬于有監(jiān)督學(xué)習(xí),通過(guò)修改全連接層輸出單元個(gè)數(shù)和數(shù)據(jù)重組能夠讓模型同時(shí)滿足兩個(gè)場(chǎng)景下的實(shí)驗(yàn)需求。

        1.3 Tor網(wǎng)站指紋攻擊流程

        圖5 為T(mén)or 網(wǎng)站指紋攻擊流程,流程分為訓(xùn)練階段和攻擊階段。訓(xùn)練階段主要利用已有的數(shù)據(jù)集訓(xùn)練數(shù)據(jù)模型,調(diào)整模型參數(shù),保存攻擊模型。在真實(shí)的互聯(lián)網(wǎng)環(huán)境下,監(jiān)控網(wǎng)站與非監(jiān)控網(wǎng)站比例復(fù)雜,非監(jiān)控網(wǎng)站類(lèi)別多樣。首先,為了模擬開(kāi)放世界網(wǎng)絡(luò)環(huán)境,需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)重建。將監(jiān)控網(wǎng)站標(biāo)簽設(shè)置為1,非監(jiān)控網(wǎng)站標(biāo)簽設(shè)置為0。按照網(wǎng)站規(guī)模、網(wǎng)站構(gòu)成的不同構(gòu)建二分類(lèi)數(shù)據(jù)集。然后,將構(gòu)建的二分類(lèi)數(shù)據(jù)輸入開(kāi)放世界下基于自注意力機(jī)制的跨時(shí)空網(wǎng)站流量分析模型SA-HST-OW(SA-HST in Open World)并保存。利用多分類(lèi)數(shù)據(jù)集訓(xùn)練并保存封閉世界下基于自注意力機(jī)制的跨時(shí)空網(wǎng)站流量分析模型SA-HST-CW(SA-HST in Closed World)。

        在攻擊階段,攻擊者先通過(guò)獲取Tor 鏈路入口節(jié)點(diǎn)的權(quán)限并在客戶端到Tor 鏈路入口節(jié)點(diǎn)的鏈路上監(jiān)聽(tīng)收集流量數(shù)據(jù)。然后加載SA-HST-OW 模型并輸入網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行二分類(lèi)。如果檢驗(yàn)到目標(biāo)網(wǎng)站為非監(jiān)控網(wǎng)站則輸出為非監(jiān)控網(wǎng)站標(biāo)簽;反之,繼續(xù)將數(shù)據(jù)流輸入SA-HST-CW 模型輸出監(jiān)控網(wǎng)站類(lèi)別標(biāo)簽。

        2 實(shí)驗(yàn)與結(jié)果分析

        本文模型使用Tensorflow 2.3.0 后端的Keras 2.4.3 庫(kù)實(shí)現(xiàn)。計(jì)算機(jī)配置為12 核Xeon Platinum 8163 處理器,64 GB內(nèi)存,運(yùn)行環(huán)境為Windows 10 專(zhuān)業(yè)版,顯卡為NVIDIA Tesla P100-16 GB,Python 3.7 語(yǔ)言編寫(xiě)。

        SA-HST 模型參數(shù)如表1 所示,將序列輸入數(shù)據(jù)編碼層被填充為固定長(zhǎng)度128,設(shè)置自注意力層輸出單元個(gè)數(shù)為128,設(shè)置卷積層的3 個(gè)卷積核大小分別為3、4、5,并將特征融合,將融合特征輸入LSTM 層提取時(shí)序特征。最后依據(jù)二分類(lèi),多分類(lèi)實(shí)驗(yàn)場(chǎng)景將全連接層單元數(shù)量設(shè)置為2 或100。

        表1 SA-HST模型參數(shù)Tab.1 SA-HST model parameters

        2.1 數(shù)據(jù)集

        對(duì)于深度神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),用足夠的數(shù)據(jù)集進(jìn)行訓(xùn)練能夠讓模型精確地識(shí)別輸入數(shù)據(jù)特征,而且讓模型對(duì)于未知實(shí)例具有更好的預(yù)測(cè)能力。本文采用Rimmer等[7]收集的數(shù)據(jù)集,該數(shù)據(jù)集是迄今為止針對(duì)Tor 網(wǎng)站指紋攻擊收集的最大數(shù)據(jù)集,包括封閉世界與開(kāi)放世界數(shù)據(jù)集。在封閉世界下,收集了Alexa Top1 200 個(gè)網(wǎng)站,每一個(gè)網(wǎng)站收集了2 500 條流量訪問(wèn)記錄。按照訪問(wèn)網(wǎng)站類(lèi)別將數(shù)據(jù)集分為CW100、CW200、CW500、CW900 數(shù)據(jù)集。封閉世界主要檢驗(yàn)?zāi)P蛯?duì)于已知監(jiān)控網(wǎng)站的多分類(lèi)識(shí)別能力。在開(kāi)放世界數(shù)據(jù)集中,分別對(duì)Alexa Top40 萬(wàn)個(gè)網(wǎng)站每個(gè)網(wǎng)站收集一個(gè)訪問(wèn)記錄作為非監(jiān)控網(wǎng)站,對(duì)Alexa Top200 個(gè)網(wǎng)站,每個(gè)網(wǎng)站收集2 000個(gè)實(shí)例作為監(jiān)控網(wǎng)站,共80 萬(wàn)條記錄用于模型測(cè)試。數(shù)據(jù)集按照訓(xùn)練集:驗(yàn)證集:測(cè)試集為8∶1∶1 的比例進(jìn)行劃分。

        2.2 評(píng)估指標(biāo)

        在封閉世界下,使用準(zhǔn)確率Accuracy衡量模型在各類(lèi)外在條件下的性能表現(xiàn)。在開(kāi)放世界下,在多個(gè)應(yīng)用場(chǎng)景下對(duì)模型進(jìn)行多角度衡量,因此實(shí)驗(yàn)指標(biāo)包括準(zhǔn)確率Accuracy、召回率Recall、精確率Precision及F1 分?jǐn)?shù)F1-Score。具體公式為:

        其中:TP(True Positive)為正確分類(lèi)為監(jiān)控網(wǎng)站的樣本總數(shù);TN(True Negative)為正確分類(lèi)為非監(jiān)控網(wǎng)站的樣本總數(shù);FP(False Positive)為誤分類(lèi)為監(jiān)控網(wǎng)站的樣本總數(shù);FN(False Negative)為誤分類(lèi)為非監(jiān)控的網(wǎng)站樣本總數(shù)。

        2.3 實(shí)驗(yàn)設(shè)置

        引入Rimmer等[7]提出的CNN 模型、LSTM 模型進(jìn)行對(duì)比實(shí)驗(yàn)。在傳統(tǒng)機(jī)器學(xué)習(xí)模型中CUMUL[5]表現(xiàn)突出,將其作為機(jī)器學(xué)習(xí)模型的代表進(jìn)行對(duì)比。為驗(yàn)證注意力機(jī)制對(duì)于模型性能的影響,在CNN 基礎(chǔ)上引入了注意力機(jī)制構(gòu)建結(jié)合自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的流量分析模型SA-CNN(Self-Attention and CNN)。

        2.3.1 模型分類(lèi)準(zhǔn)確率實(shí)驗(yàn)

        表2 為5 類(lèi)模型在CW100 數(shù)據(jù)集下訓(xùn)練60 輪的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,CUMUL[5]利用機(jī)器學(xué)習(xí)算法支持向量機(jī)作為分類(lèi)器,分類(lèi)準(zhǔn)確率最低。SA-CNN 在CNN 的基礎(chǔ)上引入了注意力機(jī)制能夠提取重要數(shù)據(jù)特征用于分類(lèi),較CNN模型[7]提高約6.43 個(gè)百分點(diǎn)。SA-HST 進(jìn)一步提取細(xì)粒度時(shí)空特征分類(lèi)準(zhǔn)確率達(dá)到97.14%,相較于CUMUL[5]和深度學(xué)習(xí)模型CNN[7]分別提高8.74、7.84 個(gè)百分點(diǎn)。

        表2 封閉世界下的模型分類(lèi)準(zhǔn)確率對(duì)比 單位:%Tab.2 Comparison of model classification accuracy in closed world unit:%

        2.3.2 模型訓(xùn)練效率對(duì)比實(shí)驗(yàn)

        從擬合輪次、訓(xùn)練時(shí)間、數(shù)據(jù)擬合度三個(gè)角度對(duì)模型性能進(jìn)行驗(yàn)證。圖6 為4 類(lèi)模型在CW100 數(shù)據(jù)集上不同訓(xùn)練輪次下分類(lèi)準(zhǔn)確率。

        表3 為4 類(lèi)模型在CW100 數(shù)據(jù)集共250 000 條實(shí)例上訓(xùn)練一輪所需時(shí)間。

        表3 4類(lèi)模型每輪訓(xùn)練時(shí)間對(duì)比 單位:sTab.3 Comparison of training time per epoch among four models unit:s

        圖7 為4 類(lèi)模型數(shù)據(jù)集上不同訓(xùn)練輪次下模型數(shù)據(jù)擬合實(shí)驗(yàn)結(jié)果。數(shù)據(jù)集采用CW100,分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。訓(xùn)練準(zhǔn)確率Train_acc表示模型每一輪訓(xùn)練過(guò)程中在訓(xùn)練數(shù)據(jù)集的分類(lèi)準(zhǔn)確率,驗(yàn)證準(zhǔn)確率Val_acc表示模型在驗(yàn)證集上的分類(lèi)準(zhǔn)確率。利用指標(biāo)誤差率abs來(lái)表示已訓(xùn)練好的數(shù)據(jù)模型對(duì)未知數(shù)據(jù)的擬合能力:

        引入注意力機(jī)制的SA-HST 模型、SA-CNN 模型能夠高效提取重要特征用于分類(lèi),模型在訓(xùn)練10 輪之后便進(jìn)入擬合狀態(tài),且抵抗概念漂移能力強(qiáng),對(duì)于未知數(shù)據(jù)擬合效果較好。相較于CNN[7]、LSTM[7]模型利用LSTM 網(wǎng)絡(luò)基于上下文時(shí)序序列提取特征,SA-CNN 模型利用自注意力機(jī)制通過(guò)固定運(yùn)算并行提取全局依賴關(guān)系,大幅縮短了訓(xùn)練時(shí)間。實(shí)驗(yàn)結(jié)果表明,引入注意力機(jī)制能夠在輕量級(jí)模型結(jié)構(gòu)基礎(chǔ)上,快速捕捉數(shù)據(jù)重要特征。

        2.3.3 開(kāi)放世界下模型性能

        開(kāi)放世界實(shí)驗(yàn)設(shè)置目的是探究模型能否在互聯(lián)網(wǎng)中準(zhǔn)確識(shí)別出監(jiān)控網(wǎng)站。相較于封閉世界數(shù)據(jù)集,開(kāi)放世界數(shù)據(jù)集網(wǎng)站種類(lèi)龐多、流量實(shí)例多樣、環(huán)境更加復(fù)雜,檢驗(yàn)?zāi)P投诸?lèi)性能。采用Rimmer等[7]的open world 數(shù)據(jù)集來(lái)盡量還原網(wǎng)絡(luò)環(huán)境。抽取監(jiān)控網(wǎng)站50 000 條流量實(shí)例(20 個(gè)網(wǎng)站),非監(jiān)控網(wǎng)站50 000 條實(shí)例(50 000 個(gè)網(wǎng)站),重新構(gòu)建數(shù)據(jù)集用于實(shí)驗(yàn)。

        圖8 為4 類(lèi)模型在開(kāi)放世界下的性能表現(xiàn)。召回率衡量了模型對(duì)監(jiān)控網(wǎng)站的查全能力。精確率體現(xiàn)了模型對(duì)監(jiān)控網(wǎng)站的查準(zhǔn)能力。F1 分?jǐn)?shù)為召回率和精確率的調(diào)和平均。準(zhǔn)確率體現(xiàn)了模型能將網(wǎng)站正確分類(lèi)二分類(lèi)能力。實(shí)驗(yàn)結(jié)果表明,開(kāi)放世界下SA-HST 模型各項(xiàng)指標(biāo)保持穩(wěn)定的高性能。

        圖9 為4 類(lèi)模型在不同網(wǎng)站構(gòu)成下的性能表現(xiàn)。利用指標(biāo)網(wǎng)站比率衡量開(kāi)放世界環(huán)境的復(fù)雜程度。網(wǎng)站比率表示監(jiān)控網(wǎng)站與非監(jiān)控網(wǎng)站的實(shí)例數(shù)目比。本文采用大小為100 000 的開(kāi)放世界數(shù)據(jù)集驗(yàn)證模型在開(kāi)放世界環(huán)境下性能的穩(wěn)定性。

        實(shí)驗(yàn)結(jié)果表明,當(dāng)開(kāi)放世界大小一定時(shí),網(wǎng)絡(luò)環(huán)境趨于復(fù)雜,模型的分類(lèi)準(zhǔn)確率會(huì)有顯著降低,SA-HST 模型能保持相對(duì)穩(wěn)定的高性能。由此也可得出,網(wǎng)站指紋攻擊模型需要不斷更新網(wǎng)絡(luò)流量實(shí)例才能在互聯(lián)網(wǎng)環(huán)境中保持實(shí)時(shí)性和實(shí)用性,以及時(shí)檢測(cè)網(wǎng)絡(luò)違法犯罪活動(dòng)并進(jìn)一步進(jìn)行網(wǎng)絡(luò)管控。

        3 結(jié)語(yǔ)

        本文基于多核卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò),引入注意力機(jī)制實(shí)現(xiàn)對(duì)Tor 匿名網(wǎng)站的流量分析,通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了SA-HST 模型性能優(yōu)勢(shì)。SA-HST 模型在封閉世界下多分類(lèi)準(zhǔn)確率達(dá)97%以上,在開(kāi)放世界下各項(xiàng)指標(biāo)穩(wěn)定在96%以上。

        將深度學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)指紋攻擊中多基于封閉世界和開(kāi)放世界前提假設(shè),模型在數(shù)據(jù)集中能夠保持良好性能。在實(shí)際網(wǎng)站指紋攻擊過(guò)程中,應(yīng)考慮到互聯(lián)網(wǎng)中噪聲流量、多標(biāo)簽網(wǎng)頁(yè)訪問(wèn)場(chǎng)景。除此之外,流量實(shí)例流處理取代傳統(tǒng)批處理模式能更及時(shí)應(yīng)對(duì)瞬息萬(wàn)變互聯(lián)網(wǎng)環(huán)境帶來(lái)的挑戰(zhàn)。

        猜你喜歡
        指紋注意力準(zhǔn)確率
        讓注意力“飛”回來(lái)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        像偵探一樣提取指紋
        為什么每個(gè)人的指紋都不一樣
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        基于自適應(yīng)稀疏變換的指紋圖像壓縮
        精品国产乱码久久免费看| 国产aⅴ夜夜欢一区二区三区| 精品国产香蕉伊思人在线又爽又黄| 国产精品久久中文字幕第一页 | 免费网站国产| 精品国产亚欧无码久久久| 日本精品久久性大片日本| 国产一区二区三区av观看| 日本一区二区国产精品| 中文字幕日韩精品人妻久久久| 偷拍综合在线视频二区日韩| 国产精品亚洲一区二区三区| 亚洲愉拍99热成人精品热久久| 少妇人妻偷人精品免费视频| 亚洲欧洲高潮| 免费无码又爽又刺激又高潮的视频| 91青青草免费在线视频| 女女同女同一区二区三区| 人人妻人人澡人人爽人人精品浪潮| 亚洲av成人中文无码专区| 国产成人综合久久精品推| 国产精品久久久久免费a∨不卡| 精品国产免费一区二区久久| 可以免费看亚洲av的网站| 国产无吗一区二区三区在线欢| 亚洲学生妹高清av| 国产免费一级在线观看| 精品黑人一区二区三区| 久久国产精品免费专区| 欧美日韩在线视频| 欧美日韩国产一区二区三区不卡 | 亚洲男人av香蕉爽爽爽爽| 日韩在线精品在线观看 | 女主播国产专区在线观看| 免费在线观看av不卡网站| 国产人妻大战黑人20p| 免费xxx在线观看| 麻豆国产乱人伦精品一区二区| 极品少妇在线观看视频| 国产麻豆精品传媒av在线| 国产成人亚洲精品无码av大片|