亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力機(jī)制的惡意代碼家族分類(lèi)研究

        2021-05-14 03:42:12王潤(rùn)正楊夢(mèng)岐
        計(jì)算機(jī)與生活 2021年5期
        關(guān)鍵詞:注意力家族卷積

        王潤(rùn)正,高 見(jiàn),2+,仝 鑫,楊夢(mèng)岐

        1.中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院,北京100038

        2.安全防范與風(fēng)險(xiǎn)評(píng)估公安部重點(diǎn)實(shí)驗(yàn)室,北京102623

        目前,隨著黑客技術(shù)以及隱蔽技術(shù)的多樣化和復(fù)雜化,網(wǎng)絡(luò)安全狀況愈加嚴(yán)峻。惡意軟件安全威脅呈指數(shù)級(jí)增長(zhǎng),各類(lèi)新型病毒層出不窮,反檢測(cè)技術(shù)不斷更新。在各類(lèi)惡意軟件中,攻擊性廣告軟件、特洛伊木馬和黑客工具位居首位,勒索病毒打擊事件高頻發(fā)生,各行各業(yè)遭到不同程度的惡意攻擊,其中傳統(tǒng)企業(yè)、教育、醫(yī)療、政府機(jī)構(gòu)遭受攻擊最為嚴(yán)重,因此加強(qiáng)安全防護(hù),抵御病毒攻擊刻不容緩。

        在惡意代碼家族分類(lèi)研究中,研究人員往往從靜態(tài)或者動(dòng)態(tài)的角度對(duì)惡意樣本進(jìn)行有效的特征提取,本文對(duì)各類(lèi)惡意樣本進(jìn)行靜態(tài)分析,深度剖析PE(portable executable)文件的結(jié)構(gòu)組成,將二進(jìn)制文件進(jìn)行區(qū)段劃分,研究不同區(qū)段的特征對(duì)惡意代碼家族分類(lèi)的影響,同時(shí)在改進(jìn)傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,融合注意力機(jī)制來(lái)識(shí)別惡意代碼家族。

        1 相關(guān)工作

        惡意代碼特征提取方法主要分為靜態(tài)方法和動(dòng)態(tài)方法。研究人員采用靜態(tài)分析的方法,在不運(yùn)行惡意樣本的情況下,使用逆向工具獲取二進(jìn)制數(shù)據(jù)、操作碼、函數(shù)調(diào)用等靜態(tài)信息,進(jìn)而構(gòu)建靜態(tài)特征序列;采用動(dòng)態(tài)分析的方法,在真機(jī)或者沙箱中運(yùn)行惡意樣本,一定程度上可以抵御加殼或者混淆等對(duì)抗技術(shù),獲取樣本的API(application programming interface)、流量等動(dòng)態(tài)信息。Jeon等人[1]提取惡意軟件的操作碼序列,使用操作碼級(jí)卷積自動(dòng)編碼器將長(zhǎng)操作碼序列轉(zhuǎn)換為較短的壓縮序列,使用動(dòng)態(tài)遞歸神經(jīng)網(wǎng)絡(luò)檢測(cè)惡意軟件。Kakisim 等人[2]提出了一種基于高級(jí)引擎簽名的變種惡意軟件識(shí)別方法,為每個(gè)變種惡意樣本構(gòu)造co-opcode 圖,從圖中提取引擎特定的操作碼模式,然后用二進(jìn)制矢量表示提取的操作碼模式來(lái)生成屬于每個(gè)家族的高級(jí)簽名。Zhang 等人[3]通過(guò)二元模型來(lái)表示操作碼,并通過(guò)頻率向量來(lái)表示API調(diào)用,使用卷積神經(jīng)網(wǎng)絡(luò)和BP(back propagation)神經(jīng)網(wǎng)絡(luò)檢測(cè)惡意代碼。Lu 等人[4]提出了一種新的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合的模型,在功能級(jí)別上分析了API 調(diào)用序列中的依賴(lài)關(guān)系,使用隨機(jī)森林(random forest,RF)算法進(jìn)行分類(lèi),同時(shí)采用雙向殘差神經(jīng)網(wǎng)絡(luò)研究API 序列并通過(guò)冗余信息預(yù)處理發(fā)現(xiàn)惡意軟件。Amer等人[5]對(duì)惡意軟件API調(diào)用序列建模,生成語(yǔ)義轉(zhuǎn)換矩陣描述API 函數(shù)之間的關(guān)系,使用馬爾可夫鏈對(duì)惡意軟件進(jìn)行檢測(cè)和預(yù)測(cè)。Huang等人[6]提取惡意樣本的動(dòng)態(tài)API 序列,使用最長(zhǎng)頻繁序列挖掘算法挖掘多個(gè)類(lèi)別的最長(zhǎng)頻繁序列集合,從而根據(jù)詞袋模型將API 序列轉(zhuǎn)化為向量,使用隨機(jī)森林算法檢測(cè)惡意代碼。Zheng 等人[7]對(duì)惡意軟件的前后API 調(diào)用概率關(guān)系進(jìn)行了建模,并通過(guò)隨機(jī)插入API 序列的方式構(gòu)造模擬對(duì)抗樣本來(lái)測(cè)試原始參數(shù)模型的分類(lèi)性能,使用雙向LSTM(long short-term memory)對(duì)惡意軟件家族分類(lèi)。Zhao 等人[8]在基于真機(jī)的沙箱中提取惡意代碼的API 序列,根據(jù)漸近均分性提取語(yǔ)義信息豐富的API,以構(gòu)建API 依賴(lài)圖,利用平均對(duì)數(shù)分支因子和直方圖bin 方法來(lái)構(gòu)建特征空間,采用集成學(xué)習(xí)算法-隨機(jī)森林進(jìn)行惡意代碼分類(lèi)。Zhang 等人[9]在沙盒環(huán)境下運(yùn)行惡意軟件獲取其動(dòng)態(tài)調(diào)用序列,并通過(guò)滑動(dòng)窗口劃分得到窗口子序列,引入多示例學(xué)習(xí)和注意力機(jī)制來(lái)構(gòu)建層次化特征抽取的深度神經(jīng)網(wǎng)絡(luò),使用循環(huán)神經(jīng)網(wǎng)絡(luò)抽取API 特征,結(jié)合兩個(gè)注意力機(jī)制分別抽取窗口特征和序列特征,并使用序列特征檢測(cè)惡意軟件。靜態(tài)分析和動(dòng)態(tài)分析相互結(jié)合、相互補(bǔ)充,共同對(duì)抗惡意代碼的規(guī)避和反調(diào)試技術(shù)。

        為區(qū)別傳統(tǒng)的特征提取方法,減少特征工程的復(fù)雜度,研究人員將惡意樣本進(jìn)行可視化,在靜態(tài)或動(dòng)態(tài)分析的基礎(chǔ)上,采用圖像的方法對(duì)惡意代碼進(jìn)行研究。Nataraj 等人[10]首次提出將惡意樣本的二進(jìn)制文件轉(zhuǎn)換成灰度圖的方法,利用圖像紋理的相似性對(duì)惡意軟件進(jìn)行分類(lèi)。Vasan 等人[11]將原始惡意軟件二進(jìn)制文件轉(zhuǎn)換為彩色圖像,通過(guò)微調(diào)后的神經(jīng)網(wǎng)絡(luò)模型對(duì)惡意軟件進(jìn)行檢測(cè)和識(shí)別。Fu 等人[12]將惡意軟件可視化為RGB彩色圖像,并從圖像中提取全局特征,并選擇灰度共生矩陣(gray-level co-occurrence matrix,GLCM)和顏色矩分別描述全局紋理特征和顏色特征,產(chǎn)生低維特征數(shù)據(jù)以減少訓(xùn)練模型的復(fù)雜性。同時(shí)從惡意軟件的代碼部分和數(shù)據(jù)部分中提取了一系列特殊字節(jié)序列,并由Simhash 作為局部特征將其處理為特征向量。最后合并全局特征和局部特征,以使用隨機(jī)森林、K最鄰近分類(lèi)算法(K-nearest neighbor,KNN)和支持向量機(jī)(support vector machine,SVM)對(duì)惡意軟件進(jìn)行分類(lèi)。Yakura等人[13]將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為圖像,利用帶有注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)計(jì)算注意力圖,根據(jù)區(qū)域的重要性從二進(jìn)制數(shù)據(jù)中提取惡意家族特有的特征字節(jié)序列,以便手動(dòng)分析惡意軟件樣本。Lu 等人[14]將惡意代碼映射為灰度圖,將灰度圖轉(zhuǎn)為固定大小后,采用方向梯度直方圖提取灰度圖的特征,使用深度森林對(duì)惡意代碼分類(lèi)。Xiao 等人[15]提出了一種基于惡意軟件可視化和自動(dòng)特征提取的有效惡意軟件分類(lèi)框架(MalFCS),將惡意樣本可視化為熵圖,采用深度神經(jīng)網(wǎng)絡(luò)作為特征提取器,自動(dòng)從熵圖中提取共有的特征,最后使用支持向量機(jī)分類(lèi)器對(duì)惡意軟件進(jìn)行分類(lèi)。Yuan 等人[16]根據(jù)字節(jié)傳輸概率矩陣將惡意軟件二進(jìn)制文件轉(zhuǎn)換為Markov 圖像,然后將深度卷積神經(jīng)網(wǎng)絡(luò)用于馬爾可夫圖像分類(lèi)。上述研究說(shuō)明可視化技術(shù)對(duì)惡意代碼分析具有可行性,能夠有效地對(duì)惡意代碼家族及其變種進(jìn)行檢測(cè)與分類(lèi)。

        隨著惡意代碼形態(tài)的多樣化,針對(duì)傳統(tǒng)的靜態(tài)或者動(dòng)態(tài)檢測(cè)方法的對(duì)抗技術(shù)不斷發(fā)展,加大了特征提取的難度,同時(shí)基于動(dòng)態(tài)特征提取方法耗費(fèi)資源較多,不利于對(duì)大批量樣本的檢測(cè)。為緩解上述問(wèn)題,本文借鑒可視化思想,兼顧二進(jìn)制程序靜態(tài)文件結(jié)構(gòu),提出一種基于區(qū)段特征融合的可視化方法,相比于動(dòng)態(tài)分析,該方法具有快速、資源消耗少的特點(diǎn),可以在一定程度上規(guī)避惡意代碼的混淆、反調(diào)試等對(duì)抗手段,使特征更具魯棒性。

        2 惡意代碼家族分類(lèi)模型

        在惡意代碼家族分類(lèi)研究中,惡意代碼以其功能行為特征劃分家族類(lèi)別。同類(lèi)惡意代碼家族普遍存在代碼復(fù)用的現(xiàn)象,其二進(jìn)制可執(zhí)行文件在可視化中存在相似的紋理特征,但不同的惡意家族往往執(zhí)行不同的惡意行為,組成不同惡意行為的操作碼可視化所形成的紋理特征不同。在惡意代碼家族數(shù)據(jù)預(yù)處理中,將惡意樣本可視化后,為了有效地表征各惡意家族的特征,研究人員采用灰度共生矩陣、通用搜索樹(shù)(generalized search trees,GIST)、局部二值模式(local binary patterns,LBP)、尺度不變特征變換(scale-invariant feature transform,SIFT)、顏色矩等方法提取全局或者局部的圖像紋理特征,進(jìn)而將產(chǎn)生低維度的特征數(shù)據(jù)輸入分類(lèi)檢測(cè)模型。本文采取深度學(xué)習(xí)的方法使模型自主學(xué)習(xí)圖像中的紋理特征信息,減少人工提取紋理特征的復(fù)雜度。在惡意代碼家族分類(lèi)判定過(guò)程中,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型無(wú)法關(guān)注特征中的關(guān)鍵信息,為了更加有效地區(qū)分不同惡意代碼家族形成不同的紋理特征,本文在惡意代碼家族分類(lèi)模型中采用深度可分離卷積[17]提取特征信息的基礎(chǔ)上,引入由通道域和空間域注意力組成混合域注意力機(jī)制來(lái)模擬人對(duì)重要信息的關(guān)注,使神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練自主學(xué)習(xí)特征圖的權(quán)重分布,從不同的維度提取區(qū)段中的關(guān)鍵信息,從而使模型深度挖掘出顯著的紋理特征,忽略無(wú)關(guān)的特征信息,提高模型的分類(lèi)準(zhǔn)確率。同時(shí),注意力機(jī)制在提升神經(jīng)網(wǎng)絡(luò)分類(lèi)效果的過(guò)程中,增加的參數(shù)量和計(jì)算量相對(duì)較少,與輕量化網(wǎng)絡(luò)結(jié)合,保證了模型的分類(lèi)效率。

        融合注意力機(jī)制的惡意代碼家族分類(lèi)模型結(jié)構(gòu)如圖1 所示,主要分為數(shù)據(jù)預(yù)處理模塊和基于混合域注意力機(jī)制的深度可分離卷積網(wǎng)絡(luò)模型(depthwise separable convolution model with attention mechanism,DSCAM)。其中,DSCAM 包括深度可分離卷積模塊(separableconv block)和混合域注意力模塊(attention block)。模型采用深度可分離卷積模塊從通道和空間維度上學(xué)習(xí)惡意樣本的紋理特征;混合域注意力模塊提取全局和局部的核心特征,進(jìn)行特征細(xì)化;使用殘差連接每個(gè)子模塊,加速模型收斂,提升模型的判別能力。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)將通道和空間分離,更加關(guān)注于特征圖的權(quán)重信息,有利于區(qū)分惡意家族間的差異性,便于對(duì)惡意家族進(jìn)行同源性分析。

        2.1 數(shù)據(jù)預(yù)處理

        Fig.1 Malicious family classification model圖1 惡意代碼家族分類(lèi)模型

        目前,惡意代碼家族陸續(xù)產(chǎn)生一些變種,致使同類(lèi)惡意代碼家族間存在差異性,降低分類(lèi)模型的準(zhǔn)確率。由于同類(lèi)惡意代碼家族所執(zhí)行的惡意功能相同或者相似,PE 頭、代碼、數(shù)據(jù)等片段可能存在相似性。PE 頭中包含著惡意樣本執(zhí)行時(shí)的相關(guān)信息。PE節(jié)區(qū)中包含著組成惡意程序的匯編代碼、源代碼中聲明的全局變量以及程序加載的圖片、文檔等資源,其中“.text”包含可執(zhí)行的代碼段,“.data”包含程序的全局變量和靜態(tài)變量,“.idata”通常存儲(chǔ)導(dǎo)入函數(shù)信息,“.edata”通常存儲(chǔ)導(dǎo)出函數(shù)信息,“.rdata”包含程序中全局可訪問(wèn)的只讀數(shù)據(jù),“.rsrc”存儲(chǔ)可執(zhí)行程序所需要的資源等。惡意代碼的特征信息存在于各區(qū)段中,不同惡意代碼家族在不同區(qū)段所執(zhí)行的惡意功能存在差異,具有不同的特征碼,因此對(duì)各區(qū)段分析可以有效地幫助分類(lèi)模型對(duì)各惡意代碼家族作出準(zhǔn)確的判斷。

        PE 文件各部分所在位置與其數(shù)據(jù)結(jié)構(gòu)位置順序一致,程序加載到內(nèi)存中時(shí),大部分位置保持不變,而內(nèi)存狀態(tài)不同時(shí),各節(jié)區(qū)加載的順序往往不同。為了方便提取各區(qū)段的數(shù)據(jù),本文使用Python 結(jié)合IDApython 插件自動(dòng)提取惡意樣本的區(qū)段特征。通過(guò)IDA Pro 對(duì)惡意樣本進(jìn)行反匯編,使用SegName()函數(shù)獲取各段名稱(chēng),調(diào)用SegStart()和SegEnd()函數(shù)來(lái)獲取段的開(kāi)始到結(jié)束范圍,使用Segments()函數(shù)對(duì)整個(gè)數(shù)據(jù)進(jìn)行遍歷,以獲取所有的區(qū)段信息,最后提取各區(qū)段的字節(jié)碼作為特征信息。同時(shí)使用PeFile提取PE header 中的DOS_HEADER、NT_HEADER、FILE_HEADER、OPTIONAL_HEADER 等字段作為惡意代碼家族補(bǔ)充特征。

        在惡意代碼家族分類(lèi)任務(wù)中,本文將靜態(tài)提取的特征可視化后,使用圖像特征對(duì)惡意樣本進(jìn)行分類(lèi)。在傳統(tǒng)的惡意代碼可視化方法中,因惡意樣本的大小不一,相關(guān)研究人員將生成的圖像采用縮放、裁剪等圖像處理方法以適應(yīng)深度學(xué)習(xí)模型的輸入,這會(huì)導(dǎo)致一些重要的信息丟失,如在一些惡意代碼家族中,“.data”“.rsrc”段中會(huì)存有部分惡意代碼偽裝特征,因此無(wú)法進(jìn)行有效的檢測(cè)分類(lèi)。對(duì)惡意樣本進(jìn)行灰度圖轉(zhuǎn)化過(guò)程中,不會(huì)有效區(qū)分樣本的代碼段和數(shù)據(jù)段特征,數(shù)據(jù)段中的某些相似特征可能被識(shí)別為代碼段中關(guān)鍵的特征碼,從而導(dǎo)致某些惡意樣本無(wú)法進(jìn)行正確的分類(lèi)。針對(duì)上述情況,本文將代碼段和數(shù)據(jù)段分離,再進(jìn)行可視化,分別研究其對(duì)分類(lèi)模型的影響,同時(shí)將各區(qū)段分成三部分,對(duì)特征進(jìn)行融合,按照R、G、B 三個(gè)通道轉(zhuǎn)化為彩色圖,如圖2 所示。

        Fig.2 Visualization method圖2 可視化方法

        本文研究對(duì)象為Windows PE 文件,樣本均來(lái)源于VirusShare,因?yàn)闃颖編?kù)存在各類(lèi)平臺(tái)的文件,所以本文根據(jù)PE 文件結(jié)構(gòu)對(duì)樣本庫(kù)進(jìn)行篩選,選取滿(mǎn)足條件的惡意樣本進(jìn)行處理,并對(duì)加殼樣本進(jìn)行脫殼處理,進(jìn)而提取各區(qū)段特征,按照可視化規(guī)則讀取各區(qū)段數(shù)據(jù),生成RGB 彩色圖像。圖3 所示依次為DownloadGuide、Emotet、Softcnapp、Zbot 家族的可視化圖像??梢钥闯?,不同的惡意代碼家族的紋理特征不同,不同惡意樣本惡意信息存在不同的區(qū)段,其中,圖(a)、(b)大量信息存在于代碼段,圖(c)存在紅色條紋,經(jīng)過(guò)溯源發(fā)現(xiàn)該惡意樣本存在“.giats”“.tls”“.gfids”段,圖(d)大量信息存在于數(shù)據(jù)段。由此可見(jiàn),對(duì)于惡意代碼家族分類(lèi)需要對(duì)各區(qū)段進(jìn)行全面分析,各區(qū)段特征在一定程度上可以表現(xiàn)出各類(lèi)惡意代碼家族的差異性,該方法能夠提升分類(lèi)效果。

        Fig.3 Malicious sample圖3 惡意樣本

        2.2 深度可分離卷積

        在卷積神經(jīng)網(wǎng)絡(luò)中,卷積是一種局部操作,通過(guò)一定大小的卷積核作用于局部圖像區(qū)域獲取圖像的局部信息。本文惡意代碼家族分類(lèi)模型采用深度可分離卷積代替標(biāo)準(zhǔn)卷積操作,在減少模型參數(shù)量的同時(shí),實(shí)現(xiàn)了通道與空間的分離。深度可分離卷積[18](depthwise separable convolution)可將卷積核分成兩個(gè)單獨(dú)的卷積核,這兩個(gè)卷積核進(jìn)行兩個(gè)卷積:深度卷積(depthwise convolution)和逐點(diǎn)卷積(pointwise convolution)。

        惡意樣本可視化后經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)產(chǎn)生的特征圖(feature map)尺寸為(DF,DF,M),采用標(biāo)準(zhǔn)的卷積K為(DK,DK,M,N)。經(jīng)卷積操作后,計(jì)算公式如式(1)所示,輸出的特征圖G大小為(DG,DG,N)。其中,M為輸入的通道數(shù),N為輸出的通道數(shù)。

        將標(biāo)準(zhǔn)卷積分成深度卷積和逐點(diǎn)卷積。深度卷積的一個(gè)卷積核只有一個(gè)通道,尺寸為(DK,DK,1,M),輸出尺寸為(DG,DG,M);逐點(diǎn)卷積對(duì)上一特征圖在深度方向上進(jìn)行加權(quán)組合,尺寸為(1,1,M,N),輸出尺寸為(DG,DG,N)。相比于標(biāo)準(zhǔn)卷積,深度可分離卷積計(jì)算量減少了Δ,計(jì)算如式(2)所示。

        本文惡意代碼家族分類(lèi)模型深度可分離卷積模塊結(jié)構(gòu)組成如圖4 所示。每一個(gè)模塊中包含兩個(gè)深度可分離卷積層,一個(gè)最大池化層,最后通過(guò)shortcut進(jìn)行殘差連接。每個(gè)深度可分離卷積層先進(jìn)行3×3的深度卷積,再進(jìn)行1×1 的逐點(diǎn)卷積,卷積后經(jīng)過(guò)BN(batch normalization)層,最后使用ReLU 進(jìn)行非線性激活。

        Fig.4 SeparableConv Block圖4 深度可分離卷積模塊

        2.3 混合域注意力機(jī)制

        在計(jì)算機(jī)視覺(jué)中,注意力機(jī)制應(yīng)用于視覺(jué)信息的處理,其基本思想是使得神經(jīng)網(wǎng)絡(luò)具備專(zhuān)注于輸入特征的某些局部信息的能力,能夠忽略無(wú)關(guān)信息而更多地關(guān)注重點(diǎn)信息。以注意力關(guān)注的域可以分為通道域、空間域、層域、混合域和時(shí)間域注意力機(jī)制,從不同的維度學(xué)習(xí)特征圖的權(quán)重分布,提升神經(jīng)網(wǎng)絡(luò)的分類(lèi)性能。

        通道域注意力機(jī)制解決惡意代碼家族關(guān)鍵紋理特征“是什么”的問(wèn)題,空間域注意力機(jī)制解決核心紋理特征“在哪里”的問(wèn)題。其中單一注意力機(jī)制不足以完全表征關(guān)鍵特征,如忽視空間域注意力,對(duì)于特征定位會(huì)產(chǎn)生影響,從而忽略局部紋理信息。因此,為提升惡意代碼家族關(guān)鍵區(qū)域的特征表達(dá),本文采用混合域注意力機(jī)制,即同時(shí)引入通道域和空間域注意力機(jī)制,從通道和空間兩個(gè)維度提取更關(guān)鍵、重要的深層特征,兩者結(jié)合進(jìn)一步增強(qiáng)特征表示,使惡意代碼家族分類(lèi)模型關(guān)注于重要的區(qū)域,做出更準(zhǔn)確的判斷。

        2.3.1 通道域注意力機(jī)制

        通道域注意力機(jī)制使神經(jīng)網(wǎng)絡(luò)模型通過(guò)訓(xùn)練獲取每個(gè)特征通道的重要程度,以使模型更加關(guān)注權(quán)重高的通道并抑制權(quán)重低的通道。在惡意代碼分類(lèi)模型中引入通道域注意力機(jī)制[19],提高分類(lèi)模型對(duì)全局紋理特征的提取能力,如圖5 所示。

        首先,將各類(lèi)惡意樣本的H×W×C三維特征圖x,分別輸入全局平均池化和最大池化層,從不同的角度提取特征信息,得到兩個(gè)1×1×C的特征信息。其次,將特征信息輸入一個(gè)多層感知機(jī)MLP 中,經(jīng)過(guò)兩層神經(jīng)網(wǎng)絡(luò),得到兩個(gè)1×1×C的通道特征圖,計(jì)算公式如式(3)所示,其中σ為Sigmoid 激活函數(shù),W0和W1為多層感知機(jī)的兩層參數(shù)。最后,將得到的兩個(gè)特征相加后經(jīng)過(guò)Sigmod 激活函數(shù)得到相應(yīng)的權(quán)重,再與原特征進(jìn)行相乘得到新特征。

        2.3.2 空間域注意力機(jī)制

        空間域注意力機(jī)制使神經(jīng)網(wǎng)絡(luò)模型通過(guò)訓(xùn)練獲取特征圖不同位置的重要程度,以使模型更加關(guān)注于關(guān)鍵的局部特征。本文惡意代碼家族分類(lèi)模型在通道域注意力機(jī)制的基礎(chǔ)上,加入空間域注意力機(jī)制[19],從空間維度提取特征,提高分類(lèi)模型對(duì)局部紋理特征的提取能力,如圖6 所示。

        Fig.5 Channel attention圖5 通道域注意力

        Fig.6 Spatial attention圖6 空間域注意力

        將H×W×C三維特征圖分別輸入最大池化和平均池化層,得到兩個(gè)H×W×1的特征信息,并將這兩種特征信息拼接在一起,經(jīng)過(guò)卷積操作后,通過(guò)Sigmod激活函數(shù)得到相應(yīng)的權(quán)重,再與原特征進(jìn)行相乘得到新特征,計(jì)算公式如式(4)所示。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集

        為了有效地評(píng)估本文方法,實(shí)驗(yàn)采用VirusShare.com 公開(kāi)的惡意樣本數(shù)據(jù)集,樣本選取的時(shí)間范圍以2019 年和2020 年為主。惡意代碼變種及混淆對(duì)抗手段不斷加強(qiáng),單一檢測(cè)引擎難以對(duì)各類(lèi)惡意家族進(jìn)行準(zhǔn)確的標(biāo)注。為了合理地取得惡意樣本的標(biāo)簽數(shù)據(jù),本文借助AVclass[20]對(duì)惡意樣本進(jìn)行標(biāo)定,標(biāo)注方法為對(duì)VirusTotal.com 報(bào)告的各檢測(cè)引擎的家族標(biāo)簽數(shù)據(jù)進(jìn)行綜合考慮,并且根據(jù)統(tǒng)計(jì)結(jié)果對(duì)惡意樣本進(jìn)行標(biāo)簽化。最終,選取了6 464 個(gè)樣本作為實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集中各類(lèi)惡意代碼家族分布情況如表1所示。

        3.2 評(píng)價(jià)指標(biāo)

        本文對(duì)各類(lèi)惡意代碼家族進(jìn)行衡量的指標(biāo)為:TP,將正類(lèi)預(yù)測(cè)為正類(lèi)的樣本數(shù);FN,將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的樣本數(shù);FP,將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)的樣本數(shù);TN,將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)的樣本數(shù)。由于惡意代碼家族分類(lèi)屬于多分類(lèi)問(wèn)題,為了更好地衡量模型對(duì)惡意代碼家族分類(lèi)的效果,對(duì)每一類(lèi)惡意代碼家族的精確率(Precision)、召回率(Recall)、F1 值(F1-score)、準(zhǔn)確率(Accuracy),取其算數(shù)平均值作為最后模型性能衡量的標(biāo)準(zhǔn)。四個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下,其中,N為總樣本數(shù)。

        Table 1 Dataset distribution表1 數(shù)據(jù)集分布情況

        3.3 注意力機(jī)制分析

        不同的注意力機(jī)制對(duì)模型會(huì)產(chǎn)生不同的效果,為了使惡意代碼家族分類(lèi)模型取得更好的分類(lèi)效果,研究不同注意力模塊以及注意力模塊的位置對(duì)模型分類(lèi)的影響,實(shí)驗(yàn)中設(shè)計(jì)了四種注意力模塊,如圖7 所示。

        (1)SeparableConv Block。本模塊為原始模型,不采用任何注意力機(jī)制,輸入經(jīng)過(guò)兩個(gè)深度可分離卷積后直接進(jìn)行最大池化層。如圖4 所示。

        (2)ChannelAttention Block。本模塊在深度可分離卷積和最大池化層間加入通道域注意力機(jī)制,通過(guò)通道域注意力機(jī)制學(xué)習(xí)不同通道間的權(quán)重。如圖7(a)所示。

        Fig.7 Block structure圖7 模塊結(jié)構(gòu)

        (3)SpatialAttention Block。本模塊在深度可分離卷積和最大池化層間加入空間域注意力機(jī)制,通過(guò)空間域注意力機(jī)制學(xué)習(xí)局部關(guān)鍵特征。如圖7(b)所示。

        (4)SplitAttention Block。本模塊將深度可分離卷積后的特征圖分別經(jīng)過(guò)通道域和空間域注意力機(jī)制,再將各注意力機(jī)制的輸出進(jìn)行相加,形成新的特征圖,輸入最大池化層。如圖7(c)所示。

        (5)CSAttention Block。本模塊將深度可分離卷積后的特征圖經(jīng)過(guò)混合域注意力機(jī)制,即先經(jīng)過(guò)通道域注意力機(jī)制再經(jīng)過(guò)空間域注意力機(jī)制,原特征圖經(jīng)過(guò)這兩次注意力機(jī)制處理后,輸入最大池化層。如圖7(d)所示。

        本文將各類(lèi)惡意代碼家族樣本進(jìn)行數(shù)據(jù)預(yù)處理后按照8∶2 的比例隨機(jī)分為訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)使用PyTorch 的transforms 方法對(duì)圖像進(jìn)行預(yù)處理,將圖像統(tǒng)一進(jìn)行標(biāo)準(zhǔn)化、歸一化處理后,分別使用實(shí)驗(yàn)數(shù)據(jù)集對(duì)上述模塊進(jìn)行訓(xùn)練和測(cè)試。經(jīng)訓(xùn)練后,五種模型對(duì)各類(lèi)惡意代碼家族分類(lèi)準(zhǔn)確率如圖8 所示。

        各模塊組成的模型的準(zhǔn)確率和參數(shù)量如表2所示。

        經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),注意力機(jī)制模塊提升了原始模型的分類(lèi)效果,不同的注意力機(jī)制以及注意力機(jī)制的位置對(duì)模型具有一定的影響。其中,單一注意力機(jī)制忽視了某些關(guān)鍵特征,將通道域和空間域疊加組合能夠獲取更多有效的特征表達(dá),使模型對(duì)各類(lèi)惡意家族具有更好的識(shí)別率。因此,本文選取混合域注意力機(jī)制模塊對(duì)原始模型進(jìn)行加強(qiáng),從而構(gòu)建基于混合域注意力機(jī)制的深度可分離卷積網(wǎng)絡(luò)模型,模型具體網(wǎng)絡(luò)結(jié)構(gòu)如表3 所示。

        Fig.8 Accuracy of malicious family圖8 各類(lèi)惡意家族分類(lèi)準(zhǔn)確率

        Table 2 Model accuracy and number of parameters表2 模型準(zhǔn)確率和參數(shù)量

        3.4 對(duì)比實(shí)驗(yàn)結(jié)果與分析

        3.4.1 不同區(qū)段特征對(duì)比

        由于PE 文件的段名之間存在差異性,本文選用IDA PRO 反匯編工具對(duì)樣本進(jìn)行區(qū)段提取,其中,“.text”統(tǒng)稱(chēng)為代碼段,“.data”“.rdata”“.idata”“.edata”統(tǒng)稱(chēng)為數(shù)據(jù)段。實(shí)驗(yàn)中將惡意樣本進(jìn)行區(qū)段劃分,對(duì)各區(qū)段進(jìn)行可視化,從而研究數(shù)據(jù)段、代碼段以及各區(qū)段融合特征對(duì)惡意代碼家族分類(lèi)的影響。三組不同區(qū)段特征下各類(lèi)惡意代碼家族的準(zhǔn)確率、精確率、召回率和F1 值如圖9 所示。

        Table 3 Network structure表3 網(wǎng)絡(luò)結(jié)構(gòu)

        Fig.9 Features contrast of different sections圖9 不同區(qū)段特征對(duì)比

        由圖9 可知,融合特征能夠有效區(qū)分各類(lèi)惡意代碼家族,其準(zhǔn)確率、精確率、召回率和F1 值均高于代碼段特征和數(shù)據(jù)段特征,其中,融合特征對(duì)Ursnif、Zbot 家族識(shí)別效果更好,對(duì)于這些惡意家族,單一區(qū)段特征不能完全描述此類(lèi)惡意家族的全部特征信息,不能進(jìn)行準(zhǔn)確的檢測(cè)與分類(lèi)。經(jīng)測(cè)試,代碼段和數(shù)據(jù)段均會(huì)影響模型對(duì)各惡意家族的同源判定,惡意樣本不僅在代碼段中描述其惡意功能,而且在數(shù)據(jù)段中存有相關(guān)惡意數(shù)據(jù),部分惡意家族的PE 頭信息以及其他區(qū)段也存在一定的惡意信息。因此,對(duì)于惡意代碼家族多分類(lèi)問(wèn)題,要綜合考慮各區(qū)段特征,基于區(qū)段特征融合的可視化方法可以在一定程度上解決因傳統(tǒng)可視化方法導(dǎo)致的惡意家族數(shù)據(jù)缺失、文件結(jié)構(gòu)破壞等問(wèn)題。

        3.4.2 不同模型對(duì)比

        為進(jìn)一步驗(yàn)證模型的準(zhǔn)確率和泛化能力,選取惡意代碼家族分類(lèi)研究中常使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行對(duì)比分析,如KNN、SVM、RF、VGG16、InceptionV2、ResNet50、MobileNetV2。八種分類(lèi)模型在測(cè)試集上進(jìn)行對(duì)比實(shí)驗(yàn),各類(lèi)惡意代碼家族分類(lèi)準(zhǔn)確率如圖10 所示。采用模型準(zhǔn)確率、宏召回率、宏精確率和宏F1-score 作為模型性能評(píng)價(jià)的指標(biāo),模型的對(duì)比實(shí)驗(yàn)結(jié)果如表4 所示。

        Fig.10 Accuracy of malicious family圖10 各類(lèi)惡意家族分類(lèi)準(zhǔn)確率

        實(shí)驗(yàn)結(jié)果表明,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相關(guān)分類(lèi)算法在本文數(shù)據(jù)集上均有不錯(cuò)的表現(xiàn),證明了本文特征提取方法的可行性和有效性。該方法能夠突顯惡意家族的核心特征,有利于分類(lèi)器對(duì)惡意樣本進(jìn)行同源判定。從圖10 可知,本文提出的模型優(yōu)于一些機(jī)器學(xué)習(xí)分類(lèi)算法,對(duì)各類(lèi)惡意家族分類(lèi)效果較好。深度學(xué)習(xí)模型經(jīng)過(guò)訓(xùn)練后,由標(biāo)準(zhǔn)卷積組成的神經(jīng)網(wǎng)絡(luò)模型分類(lèi)準(zhǔn)確率較高,而深度可分離卷積將空間特征和跨通道特征完全分開(kāi),采用深度卷積進(jìn)行空間特征提取,逐點(diǎn)卷積進(jìn)行跨通道特征提取,兩者深度提取了豐富的特征信息,進(jìn)一步提升了模型的判別能力?;诨旌嫌蜃⒁饬C(jī)制的深度可分離卷積網(wǎng)絡(luò)模型的準(zhǔn)確率、宏召回率、宏精確率和宏F1-score 均優(yōu)于VGG16、InceptionV2、ResNet50、MobileNetV2 四種神經(jīng)網(wǎng)絡(luò)模型,說(shuō)明混合域注意力機(jī)制從通道和空間兩個(gè)維度學(xué)習(xí)不同的權(quán)重,多維度地提取惡意代碼家族圖像的深層紋理特征,加強(qiáng)模型提取關(guān)鍵特征的能力,從而提高模型的分類(lèi)準(zhǔn)確率。

        Table 4 Comparison of model test results表4 模型測(cè)試結(jié)果對(duì)比

        在本文實(shí)驗(yàn)中,模型主要分為數(shù)據(jù)預(yù)處理和惡意家族分類(lèi)兩部分。數(shù)據(jù)預(yù)處理階段采用IDA Pro工具提取區(qū)段特征,按照規(guī)則進(jìn)行可視化,該階段時(shí)間開(kāi)銷(xiāo)取決于區(qū)段提取器的效率。本文實(shí)驗(yàn)環(huán)境為i7-9750H,2.60 GHz CPU,32 GB 內(nèi)存。為測(cè)試數(shù)據(jù)預(yù)處理階段的時(shí)間開(kāi)銷(xiāo),從各類(lèi)惡意家族中隨機(jī)選取若干樣本,計(jì)算特征提取所需時(shí)間,并取其算數(shù)平均值作為樣本的平均時(shí)間開(kāi)銷(xiāo)。樣本在數(shù)據(jù)預(yù)處理階段中的平均時(shí)間開(kāi)銷(xiāo)如表5 所示。

        在惡意家族分類(lèi)階段,相比于機(jī)器學(xué)習(xí)分類(lèi)算法,深度學(xué)習(xí)分類(lèi)模型需要訓(xùn)練神經(jīng)網(wǎng)絡(luò)獲取性能優(yōu)良的分類(lèi)器。在表4 所述的分類(lèi)模型中,本文提出的模型借鑒輕量化網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)量較少,在同等參數(shù)量的情況下可獲得更高的分類(lèi)性能,但在時(shí)間開(kāi)銷(xiāo)上,由于本文模型結(jié)構(gòu)深而寬以及注意力機(jī)制的引入,相比于淺層神經(jīng)網(wǎng)絡(luò)增加了一定的計(jì)算時(shí)間,在保持對(duì)惡意家族的分類(lèi)準(zhǔn)確率的基準(zhǔn)上,對(duì)每個(gè)樣本的平均檢測(cè)時(shí)間為1.13 s。

        Table 5 Average time overhead of data preprocessing表5 數(shù)據(jù)預(yù)處理平均時(shí)間開(kāi)銷(xiāo)

        4 結(jié)束語(yǔ)

        本文采用惡意代碼可視化的方法對(duì)惡意代碼家族進(jìn)行分類(lèi)研究,針對(duì)傳統(tǒng)可視化中數(shù)據(jù)損失、單一等問(wèn)題,提出了一種基于區(qū)段特征融合的可視化的方法,即提取惡意樣本的各區(qū)段特征以增加圖像的信息量,使圖像的不同通道代表不同的區(qū)段特征。同時(shí)借此探究了不同區(qū)段對(duì)惡意代碼家族分類(lèi)的影響,實(shí)驗(yàn)證明單一區(qū)段特征不足以表征惡意代碼家族的全部特征信息,對(duì)各區(qū)段特征進(jìn)行融合可以提高模型的判別能力。為了使分類(lèi)模型有效地提取惡意樣本的關(guān)鍵特征,融合注意力機(jī)制,提出了一種基于混合域注意力機(jī)制的深度可分離卷積網(wǎng)絡(luò)。該模型從不同的維度獲取不同的權(quán)重信息,提取惡意樣本的核心特征,與傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法相比,取得了較好的分類(lèi)效果。

        本文采取靜態(tài)方法提取各區(qū)段特征,不可避免地需要處理一些加殼樣本,加大了特征提取的復(fù)雜度。下一步將對(duì)特征工程進(jìn)行優(yōu)化,結(jié)合動(dòng)態(tài)特征以對(duì)抗加殼混淆樣本,提高惡意代碼家族分類(lèi)效率和魯棒性,同時(shí)對(duì)惡意家族分類(lèi)模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整優(yōu)化,減少在實(shí)際環(huán)境中的時(shí)間開(kāi)銷(xiāo)。

        猜你喜歡
        注意力家族卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        HK家族崛起
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        《小偷家族》
        電影(2019年3期)2019-04-04 11:57:18
        皿字家族
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        家族中的十大至尊寶
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        欧美丰满大爆乳波霸奶水多| 男人天堂这里只有精品| 医院人妻闷声隔着帘子被中出| 日本精品人妻无码77777| 中文字幕无码日韩欧毛| 男女视频网站免费精品播放| 国产91人妻一区二区三区| 亚洲av综合永久无码精品天堂| 香蕉久久夜色精品国产2020| 亚洲av综合日韩精品久久久| 99久久精品人妻少妇一| 国产在线精品一区二区三区直播| 亚洲精品国偷拍自产在线观看蜜臀| 无码国产精品色午夜| 亚洲天码一区二区三区| 国产精品日本一区二区在线播放| 日本三级欧美三级人妇视频| 日韩国产有码在线观看视频| 国产人妻久久精品二区三区老狼 | 人妻饥渴偷公乱中文字幕| 亚洲av无码一区二区乱子伦| 日韩肥熟妇无码一区二区三区| 中文字幕在线乱码av| 久久久久亚洲av成人无码| 国产在线高清视频| 国产av一区仑乱久久精品| 日韩精品亚洲一区二区| 精品国产sm捆绑最大网免费站| 日本在线观看不卡| 亚洲啪啪色婷婷一区二区| 欧美成人看片一区二区三区尤物| 国产一起色一起爱| 美女黄网站永久免费观看网站| av免费播放网站在线| 怡红院a∨人人爰人人爽| 无码av一区在线观看| 亚洲岛国一区二区三区| 人妻丰满熟妇av无码区| 国产剧情福利AV一区二区| 日本一区中文字幕在线播放| 日韩网红少妇无码视频香港|