亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多通道圖像深度學習的惡意代碼檢測

        2021-04-20 14:07:22蔣考林潘志松郭世澤
        計算機應用 2021年4期
        關鍵詞:實驗檢測方法

        蔣考林,白 瑋,張 磊,陳 軍,潘志松,郭世澤

        (陸軍工程大學指揮控制工程學院,南京 210007)

        0 引言

        惡意代碼已經(jīng)成為網(wǎng)絡空間的主要威脅來源之一。近年來,全球信息安全事故頻發(fā),能源、電力、通信、交通等基礎設施不斷遭受攻擊,特別是高級持續(xù)攻擊(Advanced Persistent Threat,APT)的不斷涌現(xiàn),嚴重威脅國家安全與社會穩(wěn)定。2019 年中國互聯(lián)網(wǎng)網(wǎng)絡安全報告[1]顯示,全年捕獲計算機惡意程序樣本數(shù)量超過6 200 萬個,日均傳播次數(shù)達824 萬余次,涉及66萬余個惡意程序類,包含73.1萬余個勒索病毒,而僅僅由其中GandCrab 病毒造成的經(jīng)濟損失就達20 億美元。當前惡意代碼日益泛濫,亟須一種高效準確的惡意代碼檢測分析技術。

        惡意代碼檢測方法按照是否執(zhí)行代碼可以分為靜態(tài)檢測和動態(tài)檢測。靜態(tài)檢測在不執(zhí)行任何代碼的情況下,對代碼文件的內(nèi)容和結構進行分析[2];動態(tài)檢測將程序加載到實驗環(huán)境中運行,監(jiān)測程序的運行時狀態(tài),提取其行為特征,確定代碼的惡意性[3-4]。靜態(tài)檢測通過代碼低層語義來判斷其所有的執(zhí)行特性,存在復雜度高、狀態(tài)爆炸等問題,難以應對復雜軟件,以及加密與混淆等反檢測手段。動態(tài)檢測根據(jù)代碼執(zhí)行時所反映出的行為特性,判斷其是否存在惡意行為,但無法保證檢測的完全性。同時,無論是靜態(tài)檢測還是動態(tài)檢測,均大量依賴富有經(jīng)驗的分析人員和專業(yè)復雜的實驗環(huán)境與工具,人工成本、經(jīng)濟成本均較高,難以滿足互聯(lián)網(wǎng)時代大規(guī)模的惡意代碼檢測需求。

        近年來,隨著深度學習的發(fā)展,深度學習方法已代替?zhèn)鹘y(tǒng)方法成為惡意代碼識別的研究熱點。深度學習被廣泛用于惡意代碼檢測[5],它從大量的惡意代碼樣本中提取惡意代碼的特征,并利用這些特征進行分類,得到惡意代碼識別模型,具有自動化程度高、資源消耗低等顯著優(yōu)點;但是現(xiàn)有基于深度學習的檢測模型,還存在深層次特征提取能力偏弱、模型相對復雜、模型泛化能力不足等問題,需要進一步探索和研究。針對以上問題,本文提出了一種基于多通道圖像深度學習的惡意代碼檢測模型,該模型將惡意代碼轉化為彩色圖像,利用基于AlexNet[6]的神經(jīng)網(wǎng)絡模型,綜合多通道圖像特征提取、局部響應歸一化(Local Response Normalization,LRN)等技術,在有效降低模型復雜度的基礎上,提升了惡意代碼的檢測性能。

        1 相關工作

        惡意代碼檢測問題一直廣受研究人員的關注,這些工作可以分為傳統(tǒng)檢測方法和基于深度學習的檢測方法。

        1.1 傳統(tǒng)惡意代碼檢測方法

        傳統(tǒng)檢測方法在早期的惡意代碼檢測中發(fā)揮了重要作用。靜態(tài)檢測方法[7]所提取的特征主要來源于可執(zhí)行文件及其反匯編文件的字節(jié)碼、匯編指令、導入函數(shù)和分節(jié)信息等,但是該方法對使用了混淆技術的惡意代碼作用有限[8]。動態(tài)檢測能克服代碼混淆技術的影響,如:Nikolopoulos等[9]利用動態(tài)污點追蹤技術,分析代碼的系統(tǒng)調(diào)用依賴圖來檢測未知軟件的惡意性,依賴圖中的頂點代表系統(tǒng)調(diào)用,邊代表系統(tǒng)調(diào)用之間依賴關系,這樣就將代碼的行為映射成了一張圖,再利用圖的相似性度量關系進行惡意代碼檢測。Han 等[10]提出利用應用程序接口(Application Programming Interface,API)調(diào)用產(chǎn)生的臨時信息來進行惡意代碼檢測,該方法數(shù)據(jù)空間大,分析過程復雜,效果穩(wěn)定性較差,并且基于API調(diào)用的檢測方法對運行在內(nèi)核態(tài)的惡意代碼無能為力[11]。秦中元等[12]提出了一種基于多級簽名匹配的檢測方法,需要實時地更新惡意樣本庫,然而惡意代碼的種類和數(shù)量較多,這使得該方法較為復雜,有效性難以保證。CWSandbox[13]工具將程序加載到Windows 沙箱中運行,通過提取程序運行時特征來識別惡意代碼,但是搭建這樣的仿真環(huán)境較為復雜,資源消耗較大;另外,可以識別當前環(huán)境是否為沙箱環(huán)境的惡意代碼,能夠在沙箱環(huán)境中不執(zhí)行惡意片段,從而躲避CWSandbox 工具的分析[14]。

        由于傳統(tǒng)的惡意代碼檢測方法依賴逆向工程且檢測成本高,嚴重影響了惡意代碼的識別準確率和速度,所以深度學習方法因其能夠快速提取惡意代碼特征而逐漸成為主流方法,人們對其進行了廣泛的研究,有效促進了惡意代碼檢測技術的發(fā)展。

        1.2 基于深度學習的惡意代碼檢測方法

        基于深度學習的檢測方法一般流程如圖1所示。

        圖1 基于深度學習的檢測方法的一般流程Fig.1 General flowchart of deep learning-based detection method

        其中特征提取和模型搭建是深度學習檢測方法中的關鍵步驟。人們對惡意代碼的不同特征進行了廣泛研究,Ki 等[15]利用代碼執(zhí)行時的系統(tǒng)調(diào)用關系圖作為程序的特征,用機器學習代替人工分析,雖然仍有執(zhí)行路徑不完全的問題,但大大提升了圖分析的效率。Park等[16]研究了基于檢測行為圖中最大公共子圖的惡意軟件分類方法,并在含有6 類惡意軟件的300 個樣例中驗證了他的結果。Kim 等[17]利用多模態(tài)神經(jīng)網(wǎng)絡檢測安卓惡意代碼,該模型從代碼的靜態(tài)特征中提取程序的屬性,實驗結果表明,此方法對安卓惡意代碼有較好的檢測效果。榮俸萍等[18]使用模式挖掘算法得到API調(diào)用序列并結合隨機森林模型來識別惡意代碼,該方法在改進的沙箱環(huán)境中能有效檢測逃避性樣本。Nataraj等[19]提出將惡意軟件轉換成灰度圖,提取圖像的全局信息特征,使用K近鄰(K-Nearest Neighbor,KNN)算法進行惡意代碼檢測,實驗結果表明該方法能有效地識別惡意代碼,且能抵御一般的代碼混淆技術;但灰度圖每個像素點包含的信息較少,圖像特征不明顯,不能很好地反映惡意代碼的特性。王博等[7]提出將惡意代碼轉化為彩色圖片,利用VGGNet 生成惡意樣本分類模型,對識別準確率有一定提升;但是該模型過于復雜、參數(shù)量大,存在訓練效率不高的問題。為此,本文提出一種基于多通道圖像和AlexNet的深度學習檢測方法,主要解決了惡意代碼深層次特征提取和神經(jīng)網(wǎng)絡模型高效預測的問題,并通過測試與分析,驗證了該模型具有特征提取能力強、結構簡單、訓練效率高、識別準確率高、速度快等優(yōu)勢。

        2 基于多通道圖像深度學習的惡意代碼識別方法

        2.1 基本結構

        基于多通道圖像深度學習的惡意代碼檢測方法總體流程包括:惡意代碼樣本可視化處理,神經(jīng)網(wǎng)絡模型構建,以及神經(jīng)網(wǎng)絡的訓練和測試。整體流程如圖2。

        圖2 惡意代碼識別的整體流程Fig.2 Overall flowchart of malicious code detection

        整個框架包含五個部分:1)代碼可視化,是指將待檢測代碼文件轉化為多通道圖像,獲得圖片格式的數(shù)據(jù)集。2)數(shù)據(jù)預處理,由于深度學習模型對數(shù)據(jù)集的要求較高,對數(shù)據(jù)集進行預處理以適應深度學習模型,例如,對圖片大小標準化,對數(shù)據(jù)集進行均衡處理等。3)構建神經(jīng)網(wǎng)絡,即針對惡意代碼檢測任務,構建能提取惡意代碼特征的神經(jīng)網(wǎng)絡。4)模型訓練與參數(shù)調(diào)優(yōu),即利用訓練數(shù)據(jù)對神經(jīng)網(wǎng)絡進行訓練,逐步調(diào)優(yōu)參數(shù)。5)模型測試,即利用測試數(shù)據(jù)對訓練好的模型進行測試,并根據(jù)結果評價模型。

        2.2 代碼可視化

        現(xiàn)在大量的惡意代碼都使用代碼復用技術,一些關鍵的代碼塊被重復使用,因此同類代碼常常含有相同的模塊,代碼存在相似性,而不同類代碼存在相異性。圖像紋理特征能有效反映這種相似性和差異性。每個可執(zhí)行文件都以二進制形式存儲在磁盤中,將二進制碼按照字節(jié)重新編碼,選取連續(xù)的3個字節(jié),分別對應于多通道彩色圖中的R、G、B 三色通道,重復這一過程直到所有的數(shù)據(jù)都被選取完畢,最末端數(shù)據(jù)量不足3 字節(jié)的,用0 補足。例如,52D586=(R:82,G:213,B:134),AA3033=(R:170,G:48,B:51)。將代碼文件轉化為一維的像素序列后,將像素序列進行正方化,得到一張彩色圖片。圖3 是可執(zhí)行文件被轉化為RGB 圖像的流程:圖3(a)為某一惡意代碼的可執(zhí)行文件數(shù)據(jù);圖3(b)為將可執(zhí)行文件按照字節(jié)重新編碼后的像素序列;圖3(c)為將像素序列正方化后得到的彩色圖片。

        圖3 可執(zhí)行文件生成RGB圖像的流程Fig.3 Flowchart of generating RGB image from executable file

        2.3 神經(jīng)網(wǎng)絡模型構建

        基于AlexNet模型構建卷積神經(jīng)網(wǎng)絡,神經(jīng)網(wǎng)絡總共僅有8 層是可訓練的:5 個卷積層和3 個全連接層;另外5 個是不可訓練層:2 個局部響應歸一化層LRN 和3 個池化層。圖4 展示了神經(jīng)網(wǎng)絡的結構,其中網(wǎng)絡的輸入為RGB 圖像,輸出結果為代碼的類別,C1、C2、C3、C4、C5為卷積層,P1、P2、P3為池化層,LRN1、LRN2為局部響應歸一化層,F(xiàn)1、F2為全連接層。

        圖4 神經(jīng)網(wǎng)絡的結構Fig.4 Structure of neural network

        LRN 層是AlexNet 模型特有的結構,該層引入了橫向抑制,將激活函數(shù)得到的結果進行歸一化,能提高神經(jīng)網(wǎng)絡的泛化性能,其歸一化方法為:

        表1 神經(jīng)網(wǎng)絡各層的詳細參數(shù)Tab.1 Detailed parameters of each layer of neural network

        3 實驗

        3.1 數(shù)據(jù)集

        在惡意代碼數(shù)據(jù)集Malimg[20]上進行了實驗,此數(shù)據(jù)集包含來自25 個不同惡意軟件類型的9 339 個惡意代碼樣本,類別信息及各類樣本數(shù)如表2所示。Malimg 數(shù)據(jù)集數(shù)據(jù)有嚴重的分布不均衡現(xiàn)象,最多的Allaple.A 類有2 949 個樣本,最少的Skintrim.N 類只有80 個樣本,在訓練過程中會引起過擬合現(xiàn)象,導致模型的健壯性和準確性降低。因此必須對數(shù)據(jù)進行均衡處理,數(shù)據(jù)均衡技術主要有數(shù)據(jù)增強和降采樣等技術,實驗中所用的是經(jīng)過均衡處理后的數(shù)據(jù),其中每一類的樣本數(shù)都為400。

        表2 Malimg數(shù)據(jù)集惡意軟件類型及樣本數(shù)Tab.2 Malware types and sample numbers of malimg dataset

        3.2 實驗過程

        實驗任務分為三個:第一個是比較多個惡意樣本類的可視化效果;第二個是對模型進行訓練并測試其對惡意代碼的檢測能力;第三個是將本文方法與其他方法進行比較分析。

        3.2.1 可視化效果比較(實驗1)

        為驗證特征的有效性,將Malimg 中各樣本轉化成多通道圖像,觀察各惡意代碼生成的多通道圖像的紋理特征。

        3.2.2 模型的訓練與測試(實驗2)

        模型訓練最大迭代次數(shù)為3 600,批處理樣本數(shù)為32,初始權值隨機,優(yōu)化器為Adam,學習率取經(jīng)驗值0.001,損失函數(shù)為交叉熵損失。將Malimg 數(shù)據(jù)集分成10 份,進行10 次實驗,每次實驗取其中1 份輪流作為測試集,其余9 份作為訓練集,最終實驗結果為這10 次實驗結果的平均值。測試集樣本數(shù)為1 000,每類40個,占總樣本數(shù)的10%。

        3.2.3 模型的比較分析(實驗3)

        為驗證本文方法對惡意代碼檢測效果的提升情況,將其與基線方法進行比較。

        1)基線方法。

        Fu 等[21]將惡意代碼轉化為灰度圖,利用KNN-3 算法進行分類識別;Cui 等[22]將惡意代碼轉化為灰度圖,利用自建卷積神經(jīng)網(wǎng)絡識別惡意代碼;而王博等[7]將惡意代碼轉化為彩色圖,利用基于VGG16 的卷積神經(jīng)網(wǎng)絡模型提取特征,實現(xiàn)惡意代碼的檢測。

        另外,為了驗證數(shù)據(jù)均衡對模型檢測效果的影響,使用未做數(shù)據(jù)均衡的樣本進行實驗;為了驗證LRN 對神經(jīng)網(wǎng)絡性能的影響,使用沒有LRN的神經(jīng)網(wǎng)絡進行實驗。

        2)評價指標。

        在評價多分類問題的模型時,通常將其拆分成多個二分類問題。如果原多分類問題將樣本分為c類,則在第i個二分類問題中,第i類作為正樣本,其余類作為負樣本,這樣就將原多分類問題分解為c個二分類問題,原多分類問題的準確率Acc(Accuracy)、精確率Pre(Precision)、召回率Rec(Recall)和F1值(F1-score)由這c個二分類問題的各預測結果確定。

        假定TPi、FPi、FNi和TNi分別是第i個二分類問題中正確分類為正樣本的數(shù)量、錯誤分類為正樣本的數(shù)量、錯誤分類為負樣本的數(shù)量和正確分類為負樣本的數(shù)量。原多分類模型的評價指標,計算公式如下:

        3.3 實驗結果

        3.3.1 實驗1結果

        觀察圖5~6 可以發(fā)現(xiàn),多通道圖像能反映惡意代碼之間的相似性和相異性。

        圖5 Fakerean類惡意代碼生成圖Fig.5 Generation diagrams of fakerean malicious codes

        圖5 展示了Fakerean 惡意代碼類內(nèi)的4 個不同樣本實例的生成圖,可以看出它們之間有高度的相似性。

        圖6 四類惡意代碼生成圖Fig.6 Generation diagrams of four types of malicious codes

        同時,圖6 展示了不同惡意代碼類的樣本實例,可以看出在不同類之間,惡意代碼的生成圖具有明顯的差異。

        3.3.2 實驗2結果

        在訓練過程中損失值逐漸減小,準確率逐漸增大。圖7展示了損失值隨訓練輪次的增加而減小的變化曲線,前500輪期間,模型快速收斂,到3 000 輪后損失值接近于0,且趨于穩(wěn)定;圖8 展示了準確率隨訓練輪次的增加而增大的變化曲線,前1 000 輪期間準確率增大較快,3 000 輪后接近于1,且趨于穩(wěn)定。

        圖7 訓練過程中損失值的變化曲線Fig.7 Change curve of loss value during training

        圖8 訓練過程中準確率的變化曲線Fig.8 Change curve of accuracy during training

        圖9展示了本文方法的測試結果,為10次實驗的平均值,四舍五入取整數(shù)。

        3.3.3 實驗3結果

        表3 展示了本文方法與對比方法的比較結果。對照組1是未使用LRN 層的模型在均衡處理后的數(shù)據(jù)集上進行的實驗,對照組2 是使用了LRN 層的模型在原始Malimg 數(shù)據(jù)集上進行的實驗,實驗組是使用了LRN 層的模型在均衡處理后的數(shù)據(jù)集的實驗。

        圖9 模型測試結果Fig.9 Model test results

        表3 不同方法的實驗結果對比Tab.3 Experimental results comparison of different methods

        4 結果分析

        4.1 代碼可視化效果比較

        相同類惡意樣本的彩色圖像紋理特征具有相似性,不同類惡意代碼樣本的彩色紋理特征存在相異性,這驗證了多通道圖像能夠反映惡意代碼的代碼復用特性。

        4.2 訓練模型與測試模型

        圖7 顯示在訓練中模型收斂速度較快,這是由于模型采用了結構較簡單的神經(jīng)網(wǎng)絡。圖8 顯示預測準確率最終穩(wěn)定在一個較高水平,說明該方法能很好地提取多通道圖像的紋理特征。圖9 測試結果顯示,大多數(shù)的樣本能夠被很好地預測,只有少量的樣本預測錯誤,其中錯誤較多的兩類為:1)Swizzor.gen!I 類有8 個樣本被錯誤地預測為Swizzor.gen!E 類;2)C2Lop.gen!g 類有3 個樣本被錯誤地預測為C2Lop.P 類??梢园l(fā)現(xiàn)預測錯誤主要發(fā)生在屬于同一大類的兩子類之間,這是由于同一大類的兩個子類具有同源性,它們之間的差異比其他的類間差異要小很多。這也說明了惡意代碼的類別特征已經(jīng)被模型很好地捕捉到了,并且模型能夠利用這些特征進行惡意代碼類別預測。最后由圖9 中的測試結果計算出此模型的準確率、精確率、召回率和F1 值分別為97.8%、97.8%、98.0%和97.8%。

        4.3 比較分析實驗

        表3 顯示本文方法比其他對比方法的識別性能都要好。對比文獻[21-22]方法和文獻[7]以及實驗組方法可以發(fā)現(xiàn),多通道圖像優(yōu)于灰度圖特征,這是因為多通道圖像單個像素所包含的信息比灰度圖多,能更好地反映惡意代碼的類別特征;分析實驗組和對照組1可以發(fā)現(xiàn),使用了LRN 層的模型具有更高的準確率,提升了1.2 個百分點,但是識別效率有所下降,這說明LRN 層能增加了模型泛化能力,使其能更有效地提取圖像紋理特征,提高預測準確率;LRN層的計算也需要消耗一定的時間,但是對于惡意代碼檢測任務來說,準確率是更重要的指標,且使用LRN 層的時間消耗也是可以接受的,所以使用LRN層是值得的。

        對比文獻[7]方法和實驗組可以發(fā)現(xiàn),相對于VGGNet 網(wǎng)絡,本文方法使用基于AlexNet 的神經(jīng)網(wǎng)絡具有更好的效果,識別準確率提升了1.8%;而且該模型結構簡單,使檢測時間明顯縮短,檢測效率有很大提升,檢測效率提升了60.2%;分析對照組2 和實驗組可以發(fā)現(xiàn),對數(shù)據(jù)集作均衡處理能防止模型過擬合,充分發(fā)揮模型的學習能力,提高預測精確率和召回率,并且在不均衡的數(shù)據(jù)集上準確率無法很好地衡量模型的性能;因此,在實際應用中訓練此模型時,應控制訓練集中各類樣本的數(shù)量大致相等。

        5 結語

        本文提出了一種基于多通道圖像深度學習的惡意代碼檢測方法。首先,該方法將惡意代碼轉化為圖像特征更加明顯的多通道圖像;然后,利用帶有LRN 層的神經(jīng)網(wǎng)絡模型提取多通道圖像的彩色紋理特征;最后,利用均衡處理后的Malimg數(shù)據(jù)集訓練得到惡意代碼檢測模型。實驗結果表明,該方法在識別準確率和識別速度上都優(yōu)于對比方法。本文工作的不足在于,當數(shù)據(jù)集中不同分類粒度的類同時存在時,此模型對粒度較細的樣本類預測準確率會略有下降,因此下一步將引入多層級分類機制,使模型能夠應對不同分類粒度惡意代碼混雜情況下的檢測問題。

        猜你喜歡
        實驗檢測方法
        記一次有趣的實驗
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        做個怪怪長實驗
        可能是方法不對
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        小波變換在PCB缺陷檢測中的應用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        337p日本欧洲亚洲大胆色噜噜| 极品粉嫩嫩模大尺度无码视频| 欧美亚洲国产一区二区三区| 区久久aaa片69亚洲| 伊人亚洲综合网色AV另类| 青青草视频在线观看视频免费| 中文字幕国产精品一二三四五区| 中文在线8资源库| 免费可以在线看A∨网站| 国产福利一区二区三区视频在线看| 偷拍综合在线视频二区日韩| 欧美xxxx做受欧美| 中文字幕无码精品亚洲资源网久久| AV熟妇导航网| 日本本土精品午夜视频| 亚洲无线码一区二区三区| 中文字幕av日韩精品一区二区 | 国产黄片一区视频在线观看| 羞羞色院99精品全部免| 狠狠色噜噜狠狠狠777米奇小说 | 国内精品久久久影院| 日本一区二区三区看片| 国产一区二区av免费在线观看| 国产办公室沙发系列高清| 日日摸日日碰人妻无码老牲| 92自拍视频爽啪在线观看| 国产av一区二区三区无码野战| 116美女极品a级毛片| 无码人妻少妇久久中文字幕| 校园春色日韩高清一区二区 | 亚洲av网站在线观看一页| 亚洲男人av天堂午夜在| 日韩五十路| 偷偷夜夜精品一区二区三区蜜桃| 亚洲日韩精品一区二区三区无码 | 一区二区视频中文字幕| 在线看片免费人成视频久网下载 | 精品无码久久久九九九AV| 精品中文字幕久久久人妻| 中文字幕人乱码中文字幕| 亚洲国产高清在线观看视频|