亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于1D-CNN-Densenet的惡意代碼檢測(cè)方法

2022-07-20 02:29:08劉曉晨蘆天亮楊錦璈

中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年1期

劉曉晨，蘆天亮，楊錦璈，楊明

(1.中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院，北京 100038; 2.中國(guó)人民公安大學(xué)公共安全行為科學(xué)實(shí)驗(yàn)室，北京 100038)

0 引言

網(wǎng)絡(luò)技術(shù)的日益發(fā)展帶來越來越多的網(wǎng)絡(luò)安全問題，惡意軟件如病毒、蠕蟲、后門、僵尸網(wǎng)絡(luò)和特洛伊木馬等成為當(dāng)今影響世界網(wǎng)絡(luò)安全的一大威脅，其多種多樣的攻擊手段給人們的生活帶來了極為不利的影響。惡意代碼對(duì)互聯(lián)網(wǎng)的健康發(fā)展產(chǎn)生了嚴(yán)重的影響，甚至對(duì)重點(diǎn)行業(yè)的關(guān)鍵基礎(chǔ)設(shè)施造成威脅。McAfee發(fā)布報(bào)告稱，2020年第二季度新發(fā)現(xiàn)惡意軟件樣本數(shù)量增長(zhǎng)了11.5%，平均每分鐘會(huì)出現(xiàn)419個(gè)新威脅[1]。

隨著深度學(xué)習(xí)模型的發(fā)展，API調(diào)用序列作為特征處理惡意代碼檢測(cè)不再局限于數(shù)據(jù)挖掘和傳統(tǒng)的機(jī)器學(xué)習(xí)算法[2-3]，基于深度學(xué)習(xí)的惡意代碼檢測(cè)模型中循環(huán)神經(jīng)網(wǎng)絡(luò)占多數(shù)，這些模型比數(shù)據(jù)挖掘和傳統(tǒng)的機(jī)器學(xué)習(xí)方法具有更高的準(zhǔn)確性。本文設(shè)計(jì)了一種1D-CNN-Densenet模型對(duì)惡意代碼進(jìn)行檢測(cè)，主要工作如下：

(1)通過Cuckoo Sandbox動(dòng)態(tài)提取API序列，對(duì)獲取到的API原始序列轉(zhuǎn)化、去重，對(duì)每個(gè)API進(jìn)行十進(jìn)制編碼向量化表示。

(2)統(tǒng)計(jì)所有API個(gè)數(shù)和每一個(gè)惡意程序的API個(gè)數(shù)，通過剪裁和補(bǔ)齊，構(gòu)建輸入到檢測(cè)模型的矩陣。

(3)設(shè)計(jì)基于一維卷積和稠密網(wǎng)絡(luò)結(jié)構(gòu)的1D-CNN-Densenet，提取和學(xué)習(xí)更深層次的惡意代碼特征，進(jìn)一步提高惡意代碼檢測(cè)模型的準(zhǔn)確率。

1 相關(guān)工作

1.1 惡意代碼分析技術(shù)

靜態(tài)分析和動(dòng)態(tài)分析是惡意代碼分析技術(shù)的兩種常見方法。靜態(tài)分析不對(duì)惡意樣本進(jìn)行執(zhí)行操作，直接從二進(jìn)制文件中提取特征，方法簡(jiǎn)單，效率高，占用資源較少，從特征碼、文件完整性、反匯編等方面了解惡意軟件的代碼、邏輯結(jié)構(gòu)等。廖國(guó)輝等[4]從Windows可執(zhí)行PE文件中提取靜態(tài)特征分析惡意代碼；Natarajf等[5]將惡意代碼的二進(jìn)制文件轉(zhuǎn)化為灰度圖像，利用神經(jīng)網(wǎng)絡(luò)分類惡意代碼；楊頻等[6]提取操作碼特征構(gòu)建檢測(cè)模型；Raff等[7]將惡意代碼原生字節(jié)序列作為輸入，將可執(zhí)行文件結(jié)構(gòu)通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)軟件中具有判別力的特征信息；Zhao等[8]基于函數(shù)的調(diào)用圖對(duì)惡意代碼的變形進(jìn)行分類檢測(cè)。靜態(tài)分析具有局限性，攻擊技術(shù)的加強(qiáng)，受混淆、壓縮、加殼等影響，靜態(tài)分析的泛化能力變?nèi)?，易出現(xiàn)漏報(bào)和誤報(bào)。

動(dòng)態(tài)分析是在隔離環(huán)境如沙箱中執(zhí)行惡意樣本，提取樣本的動(dòng)態(tài)特征，對(duì)新型惡意代碼識(shí)別率較高。其中分析API調(diào)用序列最具代表性，Dahl等[9]根據(jù)置信度分析惡意代碼的動(dòng)態(tài)API序列進(jìn)行惡意代碼分類；Hyunjoo等[10]使用API調(diào)用序列和序列比對(duì)算法實(shí)現(xiàn)了惡意軟件的檢測(cè)和分類；Abdurrahman等[11]提取惡意代碼注冊(cè)表活動(dòng)以及API序列等動(dòng)態(tài)特征，構(gòu)建特征向量，對(duì)惡意軟件進(jìn)行分類檢測(cè)。

此外還有通過靜態(tài)分析技術(shù)提取惡意代碼特征，利用動(dòng)態(tài)檢測(cè)方法識(shí)別惡意代碼的混合分析技術(shù)。Zhao等[12]結(jié)合動(dòng)態(tài)和靜態(tài)特征基于機(jī)器學(xué)習(xí)算法對(duì)惡意代碼進(jìn)行檢測(cè)；Kang[13]等基于word2vec以較少維度分析操作碼和API序列，使用分類器分類惡意軟件。

綜上，無(wú)論是靜態(tài)分析還是動(dòng)態(tài)分析都是通過分析樣本的內(nèi)容以及樣本間的關(guān)系提取惡意代碼的特征并對(duì)其進(jìn)行分類。

1.2 基于API調(diào)用序列的惡意代碼檢測(cè)技術(shù)

傳統(tǒng)的基于特征碼的檢測(cè)受限于混淆、多態(tài)的代碼。許多研究使用機(jī)器學(xué)習(xí)算法進(jìn)行惡意代碼分析如LR、DT、NNs等。Kolter等[14]使用字節(jié)序列N- Gram通過機(jī)器學(xué)習(xí)(如NB、SVM、DT等)構(gòu)建分類模型對(duì)惡意代碼進(jìn)行檢測(cè)。Saxe等[15]使用神經(jīng)網(wǎng)絡(luò)算法對(duì)惡意代碼進(jìn)行分類檢測(cè)。深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)及其改進(jìn)的算法在惡意代碼檢測(cè)領(lǐng)域中也有所應(yīng)用。Kolosnjaji等[16]將提取的特征通過N- Gram和CNN模型將其轉(zhuǎn)換為L(zhǎng)STM模型的輸入進(jìn)行分類。Tobiyama等[17]將API序列和API返回值輸入RNN模型中進(jìn)行惡意代碼分類。

API調(diào)用序列可以反映惡意代碼的運(yùn)行，可以作為惡意代碼檢測(cè)的特征進(jìn)行分析。Chen等[18]從PE文件中提取API調(diào)用序列；Ravi等[19]將API調(diào)用序列用用數(shù)據(jù)挖掘算法進(jìn)行惡意代碼檢測(cè)；Hansen等[20]利用RF根據(jù)API調(diào)用序列和API調(diào)用頻率對(duì)惡意軟件進(jìn)行分類；Ding等[21]標(biāo)記API序列，提取調(diào)用關(guān)系，挖掘行為依賴圖用于惡意代碼檢測(cè)。蘆效峰[22]基于序列數(shù)據(jù)的長(zhǎng)短期記憶深度學(xué)習(xí)模型對(duì)API調(diào)用統(tǒng)計(jì)特征組合提出惡意樣本檢測(cè)框架。

上述列舉的基于API調(diào)用序列的模型大多依賴于循環(huán)結(jié)構(gòu)，循環(huán)結(jié)構(gòu)按順序處理長(zhǎng)數(shù)據(jù)，處理較長(zhǎng)的輸入序列性能較低，需要消耗較長(zhǎng)的時(shí)間和資源，影響惡意代碼檢測(cè)的性能。在這種情況下，本文設(shè)計(jì)了基于一維卷積和稠密結(jié)構(gòu)的1D-CNN-Densenet模型。

2 模型設(shè)計(jì)與實(shí)現(xiàn)

如圖1所示，本文設(shè)計(jì)了一種1D-CNN-Densenet針對(duì)惡意代碼進(jìn)行檢測(cè)，在Cuckoo sandbox中運(yùn)行程序動(dòng)態(tài)提取正常軟件和惡意代碼的行為報(bào)告，經(jīng)過API序列數(shù)據(jù)預(yù)處理[23]，將十進(jìn)制編碼映射API序列對(duì)其進(jìn)行補(bǔ)齊和裁剪，向量化輸入到1D-CNN-Densenet模型，通過稠密網(wǎng)絡(luò)式結(jié)構(gòu)，挖掘和學(xué)習(xí)更深層次的特征，訓(xùn)練和測(cè)試模型，從而判斷程序是良性還是惡意。

圖1 實(shí)驗(yàn)流程

2.1 數(shù)據(jù)預(yù)處理

2.1.1 惡意代碼行為表示

每一個(gè)可執(zhí)行文件運(yùn)行程序的行為都可以使用API調(diào)用序列來表示，API調(diào)用序列的提取可以通過沙箱動(dòng)態(tài)執(zhí)行程序獲得。本文基于Cuckoo sandbox[24]搭建惡意代碼分析環(huán)境，使用隔離環(huán)境自動(dòng)執(zhí)行不可信的惡意軟件，分析樣本提取出進(jìn)程、網(wǎng)絡(luò)、文件等動(dòng)態(tài)行為。主機(jī)通過Cuckoo sandbox分發(fā)惡意樣本至客戶機(jī)并執(zhí)行惡意代碼，Cuckoo sandbox生成多種形式的結(jié)果，由于Json格式的報(bào)告在跨平臺(tái)適用性方面較好，且格式規(guī)范統(tǒng)一，便于下一步對(duì)惡意代碼樣本行為進(jìn)行批量處理，因此采用Json格式的報(bào)告提取API調(diào)用序列并轉(zhuǎn)化為txt文檔進(jìn)行下一步數(shù)據(jù)處理。

經(jīng)轉(zhuǎn)化，每一個(gè)txt文檔代表著一個(gè)程序所有的API調(diào)用，即一個(gè)程序的所有動(dòng)態(tài)行為，其中一行由API類型和API名稱兩部分組成，表示一個(gè)API調(diào)用序列。

2.1.2 向量化表示

程序會(huì)連續(xù)執(zhí)行類似的操作，因此在分析API調(diào)用序列時(shí)發(fā)現(xiàn)無(wú)論正常還是惡意程序，同一個(gè)API函數(shù)通常被連續(xù)多次調(diào)用，為減少送入模型的序列的長(zhǎng)度，對(duì)重復(fù)調(diào)用的API序列進(jìn)行去重，刪除重復(fù)的API調(diào)用序列可以避免信息冗余。

將txt文件去重后將每一串字符用十進(jìn)制編碼成[n,m]的矩陣。n為每個(gè)程序中API的取值個(gè)數(shù)，m為每個(gè)API的平均長(zhǎng)度，本文3.4的預(yù)實(shí)驗(yàn)中得出結(jié)論n的取值為平均個(gè)數(shù)時(shí)效率最高，因此n為每個(gè)程序的平均API個(gè)數(shù)。對(duì)每個(gè)API長(zhǎng)度不足平均長(zhǎng)度的補(bǔ)0，大于平均長(zhǎng)度的裁剪，將所有API個(gè)數(shù)不足平均個(gè)數(shù)的補(bǔ)[1，m]的0矩陣至n，超過n的進(jìn)行裁剪以保證每一個(gè)txt里面的矩陣為[n,m]。

本次實(shí)驗(yàn)最終網(wǎng)絡(luò)輸出為(N, 50，22)，其中N代表輸入數(shù)據(jù)的批次，是一個(gè)由20行20列組成的矩陣；50代表經(jīng)過裁剪和補(bǔ)齊的行數(shù)，即每一個(gè)txt里有50個(gè)API。22代表API編碼化后的平均列數(shù)，即每一個(gè)API編碼化后的向量長(zhǎng)度為22。

2.2 1D-CNN-Densenet模型

2.2.1 模型設(shè)計(jì)

本文設(shè)計(jì)了一種融合一維卷積和稠密結(jié)構(gòu)的模型：1D-CNN-Densenet模型，此模型包含了兩部分：一維卷積和稠密結(jié)構(gòu)，橫向進(jìn)行一維卷積計(jì)算，縱向構(gòu)建稠密結(jié)構(gòu)網(wǎng)絡(luò)，每一層的輸入都是前面所有層輸出的相加。本文采用的基于深度學(xué)習(xí)的惡意代碼檢測(cè)程序能夠自主學(xué)習(xí)惡意代碼的深度特征，對(duì)測(cè)試集的惡意代碼樣本進(jìn)行分類。

(1)一維卷積網(wǎng)絡(luò)

一維卷積在單方向上滑動(dòng)窗口并相乘求和，常用于序列模型、自然語(yǔ)言處理領(lǐng)域，對(duì)本文惡意代碼序列預(yù)處理后的數(shù)據(jù)處理效果較好。將處理過的惡意代碼API序列向量表示為矩陣，輸入到模型中，如圖2對(duì)矩陣橫向做一維卷積，一個(gè)n×m的矩陣經(jīng)一維卷積計(jì)算為n×1的矩陣，惡意代碼特征數(shù)據(jù)在卷積層進(jìn)行學(xué)習(xí)和訓(xùn)練，同時(shí)數(shù)據(jù)經(jīng)轉(zhuǎn)置為(N,1,n)。

圖2 一維卷積網(wǎng)絡(luò)

(2)稠密結(jié)構(gòu)

卷積層的加深可以提高分類模型準(zhǔn)確性，但隨著卷積層增多、計(jì)算量增加，梯度消失等問題隨之而來，準(zhǔn)確率反而會(huì)受到影響，因此引入跳躍連接嵌套稠密卷積網(wǎng)絡(luò)的稠密結(jié)構(gòu)，稠密網(wǎng)絡(luò)[25]的結(jié)構(gòu)每個(gè)層都會(huì)接受其前面所有層作為其額外的輸入，能很好地學(xué)習(xí)惡意代碼更深層次的特征如式(1)，通過加深網(wǎng)絡(luò)層數(shù)提高分類準(zhǔn)確性的同時(shí)，跳躍連接[26]即式(2)對(duì)于解決梯度消失、改善梯度反向傳播、加快訓(xùn)練過程效果較好。

xl=Hl([x0,x1,…,xl-1])

(1)

y=H(x,WH)+X

(2)

以上的優(yōu)點(diǎn)融合有效地提高了分類檢測(cè)的準(zhǔn)確性。一維稠密網(wǎng)絡(luò)的輸入(1，n)，特征通過包含17層卷積層和1層全連接層的18層稠密結(jié)構(gòu)網(wǎng)絡(luò)，稠密結(jié)構(gòu)的稠密塊使用跳躍連接使得網(wǎng)絡(luò)層數(shù)加深也不會(huì)出現(xiàn)梯度消失問題，卷積層能夠向更深發(fā)展，提取和學(xué)習(xí)更深層次的特征，提高惡意代碼檢測(cè)的準(zhǔn)確性，1D-CNN-Densenet的稠密結(jié)構(gòu)及其內(nèi)部的卷積塊如圖3所示。

圖3 稠密結(jié)構(gòu)

2.2.2 模型優(yōu)化及訓(xùn)練

本文設(shè)計(jì)的1D-CNN-Densenet模型在選取激活函數(shù)時(shí)考慮到ReLU函數(shù)可以增加神經(jīng)網(wǎng)絡(luò)模型的非線性，提升分類的準(zhǔn)確性。且該激活函數(shù)計(jì)算簡(jiǎn)便，沒有復(fù)雜運(yùn)算，消耗資源少，收斂速度快，提高檢測(cè)效率，于是選取此函數(shù)作為激活函數(shù)。ReLU函數(shù)契合神經(jīng)網(wǎng)絡(luò)激活機(jī)制，貼近深度學(xué)習(xí)模型，能更好地挖掘惡意代碼特征，擬合訓(xùn)練數(shù)據(jù)，取得更好的效果，公式如(3)。

ReLU(x)=max(0,x)

(3)

神經(jīng)網(wǎng)絡(luò)模型參數(shù)的優(yōu)化需要優(yōu)化器來調(diào)整，模型學(xué)習(xí)和訓(xùn)練參數(shù)在優(yōu)化器的優(yōu)化下得到更新，這充分地挖掘模型的潛力，使分類檢測(cè)取得更好的效果。本文為了提升模型的準(zhǔn)確性，通過對(duì)超參數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)選擇Adam優(yōu)化器[27]優(yōu)化模型參數(shù)。該優(yōu)化器可對(duì)學(xué)習(xí)率的動(dòng)態(tài)調(diào)整且實(shí)現(xiàn)簡(jiǎn)單，計(jì)算效率卻很高。Adam優(yōu)化器每次迭代的學(xué)習(xí)率都有確定范圍，因此參數(shù)比較平穩(wěn)，不需要調(diào)整，對(duì)大批量數(shù)據(jù)的優(yōu)化優(yōu)勢(shì)明顯。

根據(jù)訓(xùn)練模型的經(jīng)驗(yàn)，本文采用的稠密結(jié)構(gòu)包含了17個(gè)卷積層和1個(gè)全連接層。每個(gè)卷積層的各單元之間共享訓(xùn)練參數(shù)。使用dropout避免過擬合問題[28]，dropout設(shè)置為0.7，為了更好地估計(jì)模型在新數(shù)據(jù)集上的錯(cuò)誤率，采用十折交叉法驗(yàn)證線性核函數(shù)的分類準(zhǔn)確率，每次留一份數(shù)據(jù)作為測(cè)試集，其余數(shù)據(jù)用于訓(xùn)練模型。模型的參數(shù)對(duì)于大批量的惡意代碼檢測(cè)能發(fā)揮其優(yōu)越性。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)中Windows平臺(tái)惡意代碼樣本的收集使用網(wǎng)站http:∥virusshare.com[29]以及http:∥www.malware-traffic-analysis.net[30]，正常樣本的收集是Windows操作系統(tǒng)中的正常應(yīng)用程序，且經(jīng)VirusTotal[31]檢測(cè)掃描確認(rèn)無(wú)惡意。將分類錯(cuò)誤的惡意樣本和正確樣本剔除，以保證樣本的純凈。實(shí)驗(yàn)數(shù)據(jù)通過在虛擬環(huán)境Cuckoo Sandbox中模擬運(yùn)行正常和惡意的樣本，獲取分析報(bào)告，提取其API調(diào)用序列。為保證正負(fù)樣本比例近似為1∶1，惡意樣本取5 000，正常樣本取4 975，其中70%的樣本用于模型訓(xùn)練，30%的樣本用于測(cè)試，篩選后的數(shù)據(jù)集樣本分布如表1所示。

表1 數(shù)據(jù)集樣本分布

3.2 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)環(huán)境為Ubuntu 16.04 LTS，依托編程語(yǔ)言Python實(shí)現(xiàn)，運(yùn)行環(huán)境為PyCharm，算法的實(shí)現(xiàn)由TensorFlow深度學(xué)習(xí)框架完成。其中Cuckoo Sandbox提取API序列運(yùn)行環(huán)境為Ubuntu 16.10，虛擬機(jī)環(huán)境為Windows 7。

3.3 評(píng)價(jià)指標(biāo)

為分析該模型的惡意代碼檢測(cè)效果，本實(shí)驗(yàn)使用以下評(píng)價(jià)指標(biāo)來評(píng)價(jià)模型的效果：準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)。

本實(shí)驗(yàn)解決樣本基于深度學(xué)習(xí)模型的二分類問題，因此實(shí)驗(yàn)結(jié)果會(huì)出現(xiàn)以下4種情況：

TP：正常樣本被算法分類為正常樣本；

TN：惡意樣本被算法分類為惡意樣本；

FP：惡意樣本被算法分類為正常樣本；

FN：正常樣本被算法分類為惡意樣本。

其混淆矩陣如表2：

表2 混淆矩陣

準(zhǔn)確率是指輸入到所設(shè)計(jì)的分類模型中所有數(shù)據(jù)中分類正確的數(shù)據(jù)個(gè)數(shù)：

(4)

精確率是指輸入到所設(shè)計(jì)的分類模型中分類為正常樣本的數(shù)據(jù)個(gè)數(shù)中分類正確的數(shù)據(jù)個(gè)數(shù)：

(5)

召回率是指輸入到所設(shè)計(jì)的分類模型中真實(shí)為正常樣本的數(shù)據(jù)個(gè)數(shù)中分類正確的數(shù)據(jù)個(gè)數(shù)：

(6)

3.4 實(shí)驗(yàn)結(jié)果與分析

為評(píng)估設(shè)計(jì)的模型對(duì)惡意代碼檢測(cè)任務(wù)的有效性以及所提出的設(shè)計(jì)和設(shè)置的影響，包括API序列預(yù)處理方法、超參數(shù)設(shè)置以及評(píng)估所提出模型的性能。

首先，為在數(shù)據(jù)預(yù)處理階段選取更好的網(wǎng)絡(luò)輸入矩陣進(jìn)行預(yù)實(shí)驗(yàn)，以此決定編碼后的每個(gè)程序中API的個(gè)數(shù)，以評(píng)估所提出的數(shù)據(jù)預(yù)處理的效果。經(jīng)統(tǒng)計(jì)，每個(gè)程序API個(gè)數(shù)的平均值為50，去重后的API個(gè)數(shù)最大為156。預(yù)實(shí)驗(yàn)階段，取不同的API數(shù)據(jù)長(zhǎng)度進(jìn)行實(shí)驗(yàn)，分別取30、50、70、90、120、150，通過準(zhǔn)確性評(píng)估訓(xùn)練后的模型。結(jié)果如圖4。

圖4 API個(gè)數(shù)取值對(duì)準(zhǔn)確率的影響

由圖4可知，當(dāng)API的個(gè)數(shù)取到50及以上實(shí)驗(yàn)結(jié)果趨于平緩，且API個(gè)數(shù)為50時(shí)預(yù)實(shí)驗(yàn)效果最好，這表明當(dāng)每一個(gè)程序里的API個(gè)數(shù)取到50時(shí)，模型能學(xué)習(xí)到更多的特征，可以有效地提高此模型的性能，同時(shí)保證了模型效率。因此，在以下所有實(shí)驗(yàn)選取50個(gè)API個(gè)數(shù)作為模型輸入。

進(jìn)行實(shí)驗(yàn)以選擇模型的超參數(shù)值，控制其他變量，通過準(zhǔn)確率、每個(gè)epoch的用時(shí)來評(píng)估不同的設(shè)置，其中對(duì)于重要性較低的超參數(shù)不做討論，結(jié)果如表3所示。

表3 不同超參數(shù)的影響

作為深度學(xué)習(xí)模型中的重要超參數(shù)之一，學(xué)習(xí)率(lr)對(duì)目標(biāo)函數(shù)收斂到最小值起決定作用。合適時(shí)間收斂到局部最小值是選取學(xué)習(xí)率的標(biāo)準(zhǔn)。如表3所示，當(dāng)lr取0.001時(shí)模型收斂到局部最小值的時(shí)間和準(zhǔn)確率最佳。batch_size表示模型模塊能夠接受作為輸入的長(zhǎng)度，序列越長(zhǎng)，分裂越少，但訓(xùn)練成本卻會(huì)增加。如表3所示，尺寸增大至128效果最好。在優(yōu)化器的選擇上Adam的效果和效率均比SGD要高。

為驗(yàn)證本文所提1D-CNN-Densenet模型對(duì)于惡意代碼檢測(cè)的有效性，本文還進(jìn)行了不同模型的對(duì)比實(shí)驗(yàn)，選取SVM、DT、RF 3種傳統(tǒng)的基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法，CNN、LSTM、LSTM- ATT、Ghostnet 4種深度學(xué)習(xí)算法的惡意代碼檢測(cè)方法在不改變運(yùn)行環(huán)境的基礎(chǔ)上，使用同樣的數(shù)據(jù)集對(duì)它們進(jìn)行控制變量的對(duì)比試驗(yàn)，實(shí)驗(yàn)所得的結(jié)果如表4所示。

表4 不同模型對(duì)模型的評(píng)價(jià)

上表列出上述模型的檢測(cè)準(zhǔn)確率、精確率和召回率。模型1～3是基于傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)文本特征進(jìn)行分類，模型4～7是基于現(xiàn)有熱門的深度學(xué)習(xí)算法對(duì)文本輸入進(jìn)行分類的，通過兩組模型對(duì)比可以得出結(jié)論，在機(jī)器學(xué)習(xí)算法中隨機(jī)森林在3種評(píng)價(jià)指標(biāo)中的結(jié)果較穩(wěn)定，但召回率較低，在現(xiàn)有的熱門深度學(xué)習(xí)算法中添加注意力機(jī)制的LSTM模型和Ghostnet模型在3種評(píng)價(jià)指標(biāo)中的結(jié)果較穩(wěn)定，但同樣召回率較低，同時(shí)可知當(dāng)使用API調(diào)用序列作為文本特征輸入時(shí)，深度學(xué)習(xí)模型的性能優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。模型8結(jié)果與模型4～7的對(duì)比表明了本文設(shè)計(jì)的模型帶來了可觀的性能改進(jìn)。從以上結(jié)果可以得出結(jié)論，1D-CNN-Densenet模型具有最高的準(zhǔn)確率、精確率、召回率，因此其性能優(yōu)于表中的其他模型。

4 結(jié)語(yǔ)

本文針對(duì)依賴于循環(huán)神經(jīng)網(wǎng)絡(luò)的基于API調(diào)用序列進(jìn)行惡意代碼檢測(cè)存在按序處理長(zhǎng)數(shù)據(jù)性能低、消耗時(shí)間長(zhǎng)，影響檢測(cè)效果等問題，提出了一種基于API序列和卷積神經(jīng)網(wǎng)絡(luò)的惡意代碼檢測(cè)方法，設(shè)計(jì)了基于1D-CNN-Densenet的網(wǎng)絡(luò)模型，通過沙箱動(dòng)態(tài)提取的惡意代碼特征，編碼處理動(dòng)態(tài)API調(diào)用序列，輸入到基于1D-CNN-Densenet的網(wǎng)絡(luò)模型，學(xué)習(xí)惡意代碼更深層次的特征，從而進(jìn)行模型的訓(xùn)練和測(cè)試。從實(shí)驗(yàn)結(jié)果可知，對(duì)比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和圖像分類網(wǎng)絡(luò)等，在相同惡意代碼數(shù)據(jù)集情況下，1D-CNN-Densenet模型在惡意代碼檢測(cè)方面有更高的準(zhǔn)確率和效率，性能更好。