亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于量化的CNN惡意代碼檢測方法

        2023-09-04 14:36:10邱曉蕾張紅梅嚴(yán)海兵
        計算機仿真 2023年7期
        關(guān)鍵詞:可視化分類方法

        邱曉蕾,張紅梅,嚴(yán)海兵

        (桂林電子科技大學(xué)信息與通信學(xué)院,廣西 桂林541004)

        1 引言

        邊緣設(shè)備由于資源受限、安全防護薄弱容易成為黑客的攻擊目標(biāo),其安全威脅日益嚴(yán)重。惡意軟件檢測是信息系統(tǒng)安全防護的重要手段,研究邊緣設(shè)備上的惡意軟件檢測有著重要的現(xiàn)實意義。

        研究人員發(fā)現(xiàn)程序的結(jié)構(gòu)相似性可以體現(xiàn)在程序可視化后的圖片相似性,因而將可視化思想融合進(jìn)惡意軟件的檢測和分類。Nataraj等[1]首次提出將惡意軟件二進(jìn)制字節(jié)轉(zhuǎn)變成圖片,再通過圖像分類技術(shù)實現(xiàn)惡意軟件分類??梢暬椒ㄗ畛踔饕墙Y(jié)合SVM(支持向量機)[2]、KNN(K近鄰)[3]等機器學(xué)習(xí)方法對惡意代碼進(jìn)行分類,但是基于機器學(xué)習(xí)的方法主要通過人工提取特征,這個過程耗時且費力。而深度學(xué)習(xí)方法則能夠自動提取特征,同時也可以提高對惡意軟件的分類能力。文獻(xiàn)[4]使用深度學(xué)習(xí)比傳統(tǒng)的機器學(xué)習(xí)SVM、KNN的分類精確度均有所提高。

        近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)被廣泛應(yīng)用于惡意代碼檢測,但是隨著CNN的深度和廣度不斷加深其網(wǎng)絡(luò)結(jié)構(gòu)愈加復(fù)雜。文獻(xiàn)[5]展示了由于GoogleNet和ResNet的網(wǎng)絡(luò)結(jié)構(gòu)不斷加深,使得模型的計算量和參數(shù)量大大增加,使得深度網(wǎng)絡(luò)很難應(yīng)用在資源受限的邊緣設(shè)備上。

        為了解決CNN網(wǎng)絡(luò)中參數(shù)量過多和計算量過大的問題,曾[6]等人提出一種輕量級的神經(jīng)網(wǎng)絡(luò)模型。然而,輕量級模型的可擴展性和集成性較弱,泛化性也較弱[7]。而深度模型壓縮方法可以在不過多損失精度的情況下,降低對設(shè)備資源的需求。當(dāng)前主要的模型壓縮方法有網(wǎng)絡(luò)剪枝[8]、低秩分解[9]、網(wǎng)絡(luò)量化[10]和緊湊網(wǎng)絡(luò)設(shè)計[11]四大類,其中量化方法是目前最直接有效的方法,通過對網(wǎng)絡(luò)中參數(shù)進(jìn)行低秩量化,減小網(wǎng)絡(luò)所需的存儲空間,加快運算速度[7]。Courbariaux等[12]發(fā)表了BNN(BinaryNeuralNetworks,二值化神經(jīng)網(wǎng)絡(luò))方法,該方法將卷積運算轉(zhuǎn)換為同或和位運算,轉(zhuǎn)換方式是將浮點型權(quán)重和輸入都量化為+1和-1,毫無疑問這種方法會較大程度的壓縮并加速了深度網(wǎng)絡(luò)的運算,同時也會產(chǎn)生嚴(yán)重的精度損失。XNOR-Net算法[13]通過重建具有單個比例因子的全精度濾波器,在精度損失較低的情況下,有效地實現(xiàn)卷積運算。2021年,張[14]等發(fā)表HBF-Net(Half-wareGaussianQuantization+BinaryWeightNetworks+Fine-tune Net,半波高斯量化器+二值化權(quán)重網(wǎng)絡(luò)+微調(diào))算法,該方法在精度損失較小的情況下,實現(xiàn)了理論上30倍的模型壓縮。

        基于此,本文結(jié)合HBF-Net方法構(gòu)建了基于量化的VGG(CNN經(jīng)典模型之一)惡意軟件家族分類模型HBF-VGG14-Net,保證精度近乎不損失的情況下,該方法實現(xiàn)了模型內(nèi)存占用更小,同時還保證了訓(xùn)練得以加速。

        2 研究方法

        基于量化的VGG14惡意代碼檢測模型,以惡意代碼的紋理特征為分析對象,其過程如圖1所示。

        圖1 基于可視化的惡意軟件檢測方法的流程圖

        主要分為5個部分:①數(shù)據(jù)集可視化,將惡意代碼的APK文件反匯編為二進(jìn)制.bytes文件,將其可視化為灰度圖片,獲得對應(yīng)的圖片格式數(shù)據(jù)集;②對數(shù)據(jù)集進(jìn)行預(yù)處理,以適應(yīng)量化后的VGG模型,主要對數(shù)據(jù)集進(jìn)行了縮放和擴充處理;③構(gòu)建HBF-VGG14-net模型,將惡意軟件的灰度圖像數(shù)據(jù)集輸入卷積神經(jīng)網(wǎng)絡(luò)中,并對卷積神經(jīng)網(wǎng)絡(luò)的輸入值和權(quán)重進(jìn)行量化運算;④模型訓(xùn)練與優(yōu)化,根據(jù)訓(xùn)練的分類精度調(diào)整模型的重要參數(shù),并微調(diào)模型的結(jié)構(gòu);⑤特征分類,選擇Softmax分類器,根據(jù)數(shù)據(jù)集紋理相似性對惡意家族進(jìn)行分類。

        2.1 惡意軟件可視化

        惡意代碼轉(zhuǎn)變成灰度圖像能夠?qū)崿F(xiàn)家族分類的原因在于,同一家族中的惡意代碼普遍存在代碼復(fù)用的現(xiàn)象,故相同家族的代碼一般會有很多相同的二進(jìn)制代碼,表現(xiàn)在圖像上就是相似的紋理圖案。而惡意代碼可視化的過程可以不受惡意代碼數(shù)量的影響,且實現(xiàn)簡單,因此可以用在邊緣設(shè)備上。

        圖2為APK文件轉(zhuǎn)為圖像的過程圖,APK文件反匯編為二進(jìn)制.bytes文件,先將二進(jìn)制比特串按照每8位的子串進(jìn)行劃分,然后遍歷文件,將分好的文件按無符號向量進(jìn)行排列,最后將向量轉(zhuǎn)換為二維數(shù)組,即表現(xiàn)為灰度圖。其中八位子串對應(yīng)十進(jìn)制數(shù)為0到255,這恰好對應(yīng)了圖像像素點0至255,(0表現(xiàn)為黑色,255表現(xiàn)為白色)。矩陣的寬高根據(jù)文件大小進(jìn)行設(shè)定和調(diào)整。

        圖2 二進(jìn)制轉(zhuǎn)灰度圖

        2.2 HBF-VGG14-Net模型

        本文構(gòu)建了基于HBF-Net方法的VGG14模型,對惡意代碼進(jìn)行特征提取與分類,HBF-VGG14-Net模型對模型的輸入和權(quán)重都進(jìn)行了量化,以此達(dá)到在精度近似全精度的前提下,模型的參數(shù)量有所減小的目的。HBF-VGG14-Net的模型壓縮框架如圖3所示。

        圖3 模型壓縮框架

        h(x)=max(0,x)

        (1)

        考慮到ReLU的半波整流性,以及防止在正向階段出現(xiàn)過擬合現(xiàn)象,因此正向近似ReLU的量化函數(shù)Q(x)定義如下

        (2)

        (3)

        2-bit均勻半波高斯量化器則是令m=3,qi+1-qi=△,i=1,2,q2=β則量化后的值只能取0,β-△,β,β+△四個值。由此可求得qi(i=1,2,3)別為0.375874,1.209144,2.042415,ti(i=1,2,3)分別為0.792509,1.625780,∞。

        隨后采取文獻(xiàn)[15]中的BWN網(wǎng)絡(luò)對權(quán)重部分進(jìn)行量化,同時為了解決由于同時對模型的輸入和權(quán)重進(jìn)行了量化操作,最后每層累計而成的誤差,造成精度損失較大的問題,采用文獻(xiàn)[17]中交替更新的方法對每一層以及整個模型進(jìn)行微調(diào)。

        本文使用了VGG16架構(gòu),在考慮到數(shù)據(jù)集的數(shù)量,以及灰度圖的紋理特征并不復(fù)雜的情況,為了降低過擬合的發(fā)生,將VGG16的全連接層(Fully Connected,FC)的三層改為一層,并且將節(jié)點數(shù)由512改為256,用以整合卷積層提取的特征,構(gòu)建了HBF-VGG14-Net模型。

        3 實驗過程

        本文實驗環(huán)境中的硬件環(huán)境是8核 Intel(R) Xeon(R) CPUE5-2620 V4 2.10GHz處理器,31G內(nèi)存,GPU為 Ge Force GTX 1080Ti;軟件環(huán)境是64 位的Ubuntu16.04 LTS,CUDA10.0,Pytorch0.3.1,python3.5。

        3.1 數(shù)據(jù)集預(yù)處理

        本文實驗數(shù)據(jù)取自2015 年的 Kaggle Microsoft惡意軟件分類挑戰(zhàn)賽中的數(shù)據(jù)集,表1展示了該數(shù)據(jù)集共9個家族的10868個惡意軟件樣本,每個惡意軟件樣本分別包含了反匯編.asm文件和二進(jìn)制.bytes文件。本文隨機選取樣本.bytes文件的70%作為訓(xùn)練集,其余作為測試集。

        表1 BIG2015數(shù)據(jù)集分類

        將二進(jìn)制文件可視化為灰度圖后,為了保證輸入到卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)大小一致,接著利用resize()函數(shù)對得到的灰度圖進(jìn)行調(diào)整,通過雙線性插值法實現(xiàn)縮放處理,將全部灰度圖縮放至32*32大小??s放后的部分圖片示例如表2所示??梢杂^察到兩個不同的惡意家族里的圖片,紋理具有很大的不同,而同一家族的圖片又高度相似。

        表2 BIG2015數(shù)據(jù)集灰度圖部分示例

        最后對數(shù)據(jù)集進(jìn)行擴充處理,通過擴展數(shù)據(jù)集使其內(nèi)容更加豐富,從而提高了模型的泛化性。主要包括對數(shù)據(jù)集實現(xiàn)隨機的水平翻轉(zhuǎn)、切割中心點、標(biāo)準(zhǔn)化。其中,標(biāo)準(zhǔn)化需要求出訓(xùn)練數(shù)據(jù)集的均值為0.302、方差為0.225。

        3.2 模型參數(shù)優(yōu)化

        將預(yù)處理后的數(shù)據(jù)集導(dǎo)入模型后進(jìn)行訓(xùn)練。因為模型參數(shù)學(xué)習(xí)率lr、迭代次數(shù)epochs以及批次batch size的調(diào)整,都會影響最終的準(zhǔn)確率。故首先要找出最佳參數(shù),本文通過隨機搜索的方式,尋找最優(yōu)參數(shù)。調(diào)優(yōu)過程中,先調(diào)整學(xué)習(xí)率lr,其余參數(shù)保持默認(rèn)值。

        如圖4所示。lr為0.19時,模型的分類精度最高,此時模型的收斂能力最好。隨后保持lr為0.19,其余參數(shù)為默認(rèn),對迭代次數(shù)epochs進(jìn)行調(diào)優(yōu),如圖5所示。

        圖4 學(xué)習(xí)率對分類精度的影響

        圖5 迭代次數(shù)對分類結(jié)果的影響

        由圖5知,當(dāng)?shù)螖?shù)為220時,分類精度取得最大值,整體上,分類精度隨epochs先增大后減小。當(dāng)epochs較低時,模型沒有足夠強得學(xué)習(xí)能力,而epochs較高時,模型則會出現(xiàn)過擬合導(dǎo)致精度降低。隨后保持lr、epochs及其它參數(shù)不變,改變batchsize,如圖6所示。當(dāng)batch-size為110時,分類精度達(dá)到最高。故模型參數(shù)設(shè)置為lr=0.1,epochs=220,batch-size=110時,此時模型能達(dá)到分類精度96.90%。

        圖6 批次大小對分類結(jié)果的影響

        4 實驗結(jié)果與分析

        4.1 準(zhǔn)確率

        圖7展示了本文方法和全精度方法在訓(xùn)練錯誤率上的變化。整體上來看,隨著epochs的增加,錯誤率逐漸減少,在epochs=220的時候,本文方法接近全精度的錯誤率。

        圖7 量化與全精度訓(xùn)練錯誤率對比

        圖8展示了本文模型與全精度模型的測試精度,對輸入和權(quán)重都進(jìn)行了量化,縮減了運行時間的基礎(chǔ)上,本文的測試精度最終穩(wěn)定在96%附近,與全精度的測試精度相差不到1%。

        圖8 量化與全精度測試精度對比

        圖9展示了本文模型在訓(xùn)練和測試上的損失,可以看出,經(jīng)過220個epochs,訓(xùn)練和測試的損失都在下降并趨于穩(wěn)定,并且最終的損失值都非常小,低于0.3。本文模型在內(nèi)存消耗和時間消耗都大大降低的同時,對惡意代碼的分類精度基本沒有影響。

        圖9 量化訓(xùn)練損失和測試損失對比

        4.2 加速比

        本文采用了一個具有加速作用的2-bit均勻半波高斯量化器,能夠把浮點型卷積運算轉(zhuǎn)化為簡單的位運算和同或運算。由表3知,相對于全精度,本文在惡意代碼的訓(xùn)練上實現(xiàn)了30倍的加速。

        表3 模型加速對比

        4.3 對比實驗

        本文將訓(xùn)練集與測試集設(shè)置為7∶3 的比例,驗證不同方法對于實驗結(jié)果的影響。

        圖10記錄了傳統(tǒng)機器學(xué)習(xí)算法KNN、SVM、RandomForest(隨機森林)以及本文HBF-net、全精度VGG分類精度對比。從圖10得知,在使用相同數(shù)據(jù)集的情形下,本文模型的分類效果更好。相比傳統(tǒng)的機器學(xué)習(xí)方法,本文方法在實現(xiàn)了自動提取特征的同時,又提高了特征的表達(dá)能力,也因此提高了模型的分類性能。

        圖10 BIG2015數(shù)據(jù)集在各算法分類準(zhǔn)確性對比

        本文進(jìn)一步統(tǒng)計了各深度學(xué)習(xí)模型大小以及精確度,考慮到數(shù)據(jù)集大小問題,以及防止過擬合問題,選取了模型MobileNetV2[18]、ResNet18[19]作為對比實驗,實驗結(jié)果如表4所示。

        表4 BIG2015數(shù)據(jù)集在不同模型上的對比

        在表4中,展示了各模型占用內(nèi)存大小,以及對數(shù)據(jù)集的分類精度。由表4可知,在輸入相同的數(shù)據(jù)集的情況下,本文模型的分類精度與其它模型精度相近的情況下,模型大小明顯減少,本文模型相比全精度,壓縮比達(dá)到28倍,相比ResNet18,壓縮比達(dá)到47倍,相比輕量化模型MobileNetV2,壓縮比達(dá)到10倍。

        綜合以上實驗可知,HBF-VGG14-Net模型在時間消耗和資源消耗都大幅下降的前提下,能夠?qū)崿F(xiàn)自動化提取圖片紋理特征,然后進(jìn)行自動化惡意代碼家族分類。

        5 結(jié)語

        本文提出了一種可視化方法結(jié)合基于量化VGG14的惡意代碼分類方法。該方法通過將二進(jìn)制文件轉(zhuǎn)換成圖像,實現(xiàn)了惡意代碼的特征可視化;半波高斯算法和BWN網(wǎng)絡(luò)相結(jié)合,將復(fù)雜的乘法運算轉(zhuǎn)化為加法和位運算。實驗結(jié)果表明,在精度幾乎不變的情況下,模型的內(nèi)存開銷大幅降低,并且對模型的訓(xùn)練過程也具有加速作用,因此本文提出的模型可以應(yīng)用在小內(nèi)存的邊緣設(shè)備上。下一步的工作方向為:1)為擴大該方法的應(yīng)用范圍,將考慮收集更多的樣本;2)鑒于灰度圖的特征不夠明顯,考慮將二進(jìn)制文件映射為RGB彩圖。

        猜你喜歡
        可視化分類方法
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        分類算一算
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        91乱码亚洲精品中文字幕| 久久精品韩国日本国产| 极品新娘高清在线观看| 精品人妻一区三区蜜桃| 国产女厕偷窥系列在线视频| 欧美亚洲综合另类| 一区二区三区在线观看日本视频| 女同性恋一区二区三区av| 和黑人邻居中文字幕在线| 亚洲最大中文字幕无码网站| 完整在线视频免费黄片| 一区二区三区亚洲视频| 亚洲av无码国产精品永久一区| 红杏亚洲影院一区二区三区| 日韩精品精品一区二区三区| 深夜一区二区三区视频在线观看 | 中文字幕在线亚洲日韩6页手机版| 水蜜桃视频在线观看免费18| 国产成人亚洲一区二区| 69sex久久精品国产麻豆| a观看v视频网站入口免费| 女同中文字幕在线观看| 国产一区二区三区日韩精品 | 成人综合久久精品色婷婷| 国产一级黄色片在线播放| 日韩精品极品视频在线观看免费| 爱a久久片| 精品人妻一区二区三区蜜臀在线| 包皮上有一点一点白色的| 国产成人免费一区二区三区 | 国产成人精品自拍在线观看| 国产精品会所一区二区三区| 国产乱妇乱子在线播视频播放网站| 亚洲女同成av人片在线观看| 美女被内射中出在线观看 | 日韩人妻免费视频一专区| 亚洲国产精品久久人人爱| 98在线视频噜噜噜国产| 精品国模人妻视频网站| 亚洲欧洲国产码专区在线观看| 欲妇荡岳丰满少妇岳|