亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GHM可視化和深度學(xué)習(xí)的惡意代碼檢測與分類

        2024-03-12 09:21:36張淑慧胡長棟王連海徐淑獎
        信息安全研究 2024年3期
        關(guān)鍵詞:分類檢測方法

        張淑慧 胡長棟 王連海 徐淑獎 邵 蔚 蘭 田

        1(齊魯工業(yè)大學(xué)(山東省科學(xué)院)山東省計算中心(國家超級計算濟南中心) 濟南 250014)

        2(算力互聯(lián)網(wǎng)與信息安全教育部重點實驗室(齊魯工業(yè)大學(xué)(山東省科學(xué)院)) 濟南 250014)

        3(山東省計算機網(wǎng)絡(luò)重點實驗室(山東省計算中心(國家超級計算濟南中心)) 濟南 250014)

        4(山東省基礎(chǔ)科學(xué)研究中心(計算機科學(xué))齊魯工業(yè)大學(xué)(山東省科學(xué)院)) 濟南 250014)

        隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,惡意代碼的數(shù)量和種類增長迅速[1],AV-TEST研究所每天捕獲到超過45萬個新的惡意程序樣本和潛在的未知應(yīng)用程序[2].惡意代碼指的是在受害者的計算機或網(wǎng)絡(luò)上執(zhí)行未經(jīng)授權(quán)和有害操作的軟件,包括病毒、蠕蟲、木馬和僵尸程序,導(dǎo)致數(shù)據(jù)泄露、系統(tǒng)破壞和網(wǎng)絡(luò)癱瘓[3].研究者們對惡意代碼檢測技術(shù)展開了研究,包括基于簽名的檢測、基于行為的檢測和基于機器學(xué)習(xí)的檢測方法.

        近年來,基于圖像處理的檢測方法[4]用于可視化和惡意軟件分類已經(jīng)變得越來越受歡迎.由于缺乏有效的預(yù)處理,其檢測精度和穩(wěn)定性并不高.本文構(gòu)建了一種VLMal神經(jīng)網(wǎng)絡(luò)模型,以訓(xùn)練和分類預(yù)處理的數(shù)據(jù).大多數(shù)PE文件都是加密和混淆的.然而,運行在內(nèi)存中的PE文件是已解密和解包的原始數(shù)據(jù).為了評估模型的有效性,本文收集了PE文件樣本并在沙盒環(huán)境中執(zhí)行PE文件.然后,使用內(nèi)存取證技術(shù)從內(nèi)存中提取出PE文件,構(gòu)建小型內(nèi)存PE文件數(shù)據(jù)集.本文的主要工作和貢獻如下:

        1) 提出了基于GHM(Gray,HOG,Markov)的PE二進制文件可視化方法,利用圖像轉(zhuǎn)換、增強和馬爾科夫矩陣等多種技術(shù)生成3個灰度圖像,并將這些圖像構(gòu)建3通道的彩色圖像,保留了PE文件更加詳細的數(shù)據(jù)特征.

        2) 構(gòu)建了基于CNN(卷積神經(jīng)網(wǎng)絡(luò))和LSTM(長短期記憶模型)的VLMal分類模型,實現(xiàn)對可視化的圖像進行惡意軟件檢測分類.

        3) 構(gòu)建了1個小型樣本的內(nèi)存PE文件數(shù)據(jù)集,以評估本文提出方法的檢測效果,彌補了目前沒有公開內(nèi)存PE文件數(shù)據(jù)集的不足.

        1 相關(guān)工作

        在計算機安全領(lǐng)域,惡意軟件的檢測和分類變得越來越重要.為了解決這一問題,研究者們提出靜態(tài)分析、動態(tài)分析和內(nèi)存取證分析等多種分析技術(shù).

        1.1 靜態(tài)分析

        Schultz等人[5]提出一種用于識別惡意代碼的初始數(shù)據(jù)挖掘方法,利用惡意軟件二進制文件的字符串序列、字節(jié)序列和PE文件頭部3個不同的靜態(tài)特征進行識別.Iwamoto等人[6]使用n-gram技術(shù)從Windows二進制文件中提取字節(jié),并使用1對多的分類方法訓(xùn)練了多個分類器.Zhang等人[7]提出一種基于操作碼序列的勒索軟件分類方法,該方法將勒索軟件樣本的操作碼序列轉(zhuǎn)換為n-gram序列,然后使用n-gram特征的詞頻值構(gòu)建特征向量,采用5種機器學(xué)習(xí)方法對勒索軟件進行分類.Soni等人[8]提出一種利用API調(diào)用和操作碼序列信息進行惡意軟件分類的方法,該方法首先提取這些特征,然后使用樸素貝葉斯(NB)、邏輯回歸、隨機森林(RF)和支持向量機(SVM)4種機器學(xué)習(xí)算法對惡意軟件進行分類.

        1.2 動態(tài)分析

        靜態(tài)分析側(cè)重于在不執(zhí)行程序代碼的情況下分析程序代碼,而動態(tài)分析是運行軟件并在其執(zhí)行過程中監(jiān)視其行為.Anderson等人[9]提出一種基于動態(tài)指令跟蹤圖的惡意軟件檢測算法.該方法從收集的數(shù)據(jù)中構(gòu)建了馬爾科夫圖,使用SVM(支持向量機)進行分類.Nair等人[10]提出一種基于API調(diào)用的動態(tài)分析方法檢測惡意軟件,對所有惡意軟件家族生成簽名,并發(fā)現(xiàn)同一家族的大多數(shù)變異病毒共享相同的基本特征.Bayer等人[11]提出一種可擴展的聚類方法,用于基于相似行為識別和分組的惡意軟件聚類.

        1.3 內(nèi)存取證分析

        惡意軟件內(nèi)存取證是一種分析計算機內(nèi)存中的惡意軟件行為的技術(shù).Bozkir等人[12]利用內(nèi)存數(shù)據(jù)通過計算機視覺和機器學(xué)習(xí)技術(shù)對惡意軟件進行分類.Otsuki等人[13]提出從64位Windows系統(tǒng)內(nèi)存鏡像中提取堆棧痕跡的方法.Uroz等人[14]提出從注冊表ASEP(auto-start extensibility point)中尋找未知和罕見程序的方法.針對通過內(nèi)存轉(zhuǎn)儲獲取的Windows進程和系統(tǒng)庫文件,Martín-Pérez等人[15]提出以文件對象為導(dǎo)向和線性搜索的方法,清除重定位,實現(xiàn)轉(zhuǎn)儲文件的相似性計算.

        相較于之前的惡意軟件分類研究,本文構(gòu)建了1個3通道彩色圖像.在構(gòu)建彩色圖像時,本文根據(jù)數(shù)據(jù)集中的稀疏性對每個通道的圖像生成算法進行了改進.

        2 方案設(shè)計

        本節(jié)將詳細解釋本文方案整體工作流程(如圖1所示).

        2.1 數(shù)據(jù)集x

        本文使用Kaggle公共惡意軟件檢測數(shù)據(jù)集[16]作為第1個數(shù)據(jù)集.此外,收集了最新的惡意的和常用的良性PE文件,在沙箱中運行,并在內(nèi)存中提取PE文件,確保了PE文件是真實的、未加密的數(shù)據(jù),并將收集到的樣本構(gòu)建了小樣本數(shù)據(jù)集作為本文的第2個數(shù)據(jù)集.

        2.1.1 數(shù)據(jù)集A

        Kaggle發(fā)布的微軟惡意軟件分類挑戰(zhàn)數(shù)據(jù)集包含10868條帶標簽的訓(xùn)練數(shù)據(jù)和未標記的測試數(shù)據(jù),分為9類.本文提出的檢測方法是一種監(jiān)督學(xué)習(xí)方法,因此只使用微軟惡意軟件分類挑戰(zhàn)數(shù)據(jù)集的訓(xùn)練集作為本文的數(shù)據(jù)集.以8∶2的比例將其劃分為新的訓(xùn)練集和測試集.

        2.1.2 數(shù)據(jù)集B

        本文從VirusShare收集樣本作為惡意樣本,并將Windows系統(tǒng)中常用軟件作為良性樣本.通過使用VirusTotal平臺檢測收集的樣本,發(fā)現(xiàn)每個反病毒平臺給出的標簽不一致,因此本文將收集到的樣本分為良性和惡意2個類別.之前的研究已經(jīng)通過在沙箱中運行并以其他格式發(fā)布了預(yù)處理樣本.文獻[17]給出了1個API數(shù)據(jù)集,在杜鵑沙盒中執(zhí)行PE文件,生成報告,提取API調(diào)用.然而,沒有在相關(guān)文獻中找到提供原始內(nèi)存PE文件的數(shù)據(jù)集,只有將內(nèi)存PE文件轉(zhuǎn)換為API或圖像格式的數(shù)據(jù)集.因此,本文在沙盒中運行收集到的靜態(tài)樣本,并每隔10min轉(zhuǎn)儲1次內(nèi)存鏡像,重復(fù)該過程10次,盡可能多地捕獲惡意行為.本文使用volatility[18]和團隊開發(fā)的內(nèi)存取證工具[19]分析這些轉(zhuǎn)儲的內(nèi)存鏡像,從而提取exe和dll文件.

        2.2 GHM可視化

        2.2.1 灰度圖轉(zhuǎn)化

        為了可視化PE文件,需要將它們轉(zhuǎn)換為向量矩陣從而可視化為灰度圖.然而,由于每個PE文件的數(shù)據(jù)大小差異較大,將它們轉(zhuǎn)換成具有相同寬度的2維矩陣會導(dǎo)致較小的文件在放大時其結(jié)構(gòu)遭受損失.因此,在將其轉(zhuǎn)換為2維向量矩陣時根據(jù)文件的大小確定矩陣向量的寬度,如表1所示:

        表1 圖像寬度設(shè)定表

        數(shù)據(jù)集中每個樣本的大小不均勻,由于訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要創(chuàng)建大小一致的灰度圖像,本文將不同大小的灰度圖像調(diào)整為224×224px.

        2.2.2 HOG圖像

        為了增強灰度圖像的對比度,采用方向梯度直方圖(HOG)特征提取方法[20],通過提取有用信息并丟棄無關(guān)信息構(gòu)造第2通道的灰度圖像.

        HOG中計算梯度g和方向θ的公式如式(1)所示:

        (1)

        其中

        gx=(hx+1,y-hx-1,y+hx+1,y-hx-1,y)/2,

        (2)

        gy=(hx,y+1-hx,y-1+hx,y+1-hx,y-1)/2.

        (3)

        本文注意到內(nèi)存PE文件中數(shù)據(jù)的稀疏性,并調(diào)整梯度g以更清晰地反映數(shù)據(jù)梯度.具體來說,在計算梯度g和方向θ時,本文使用式(2)(3)計算水平和垂直梯度,然后使用式(1)計算梯度g和方向θ.將梯度g按比例分成9個角度塊,構(gòu)建初步的梯度方向直方圖.然后,利用L2范數(shù)對梯度方向直方圖進行歸一化處理,以減少訓(xùn)練時的計算量,防止因計算量大而導(dǎo)致數(shù)據(jù)溢出.

        2.2.3 馬爾科夫圖像

        本文選擇的PE文件為二進制數(shù)據(jù),即字節(jié)流數(shù)據(jù).取值范圍為0x00~0xff.為了構(gòu)建字節(jié)頻率表,本文創(chuàng)建1個256×256矩陣,并將矩陣中的每個坐標點初始化為0.將PE文件作為序列讀取之后,將滑動窗口大小設(shè)置為2,即每2B表示矩陣中的1個坐標點.例如,如果窗口中的2B是0x00和0x01,表示第1行和第2列中的1個坐標點,而這個坐標點的值加1.滑動窗口繼續(xù)移動,直到遍歷完整個數(shù)據(jù)序列,從而構(gòu)建PE文件的字節(jié)頻率表.通過字節(jié)頻率表可以計算出字節(jié)概率表.具體來說,每個矩陣坐標點的頻率除以每行樣本總數(shù)就是該坐標點的概率.

        (4)

        BFTij表示第i行第j列的頻率分布,Si表示第i行總的頻率.通過遍歷字節(jié)頻率表構(gòu)建了字節(jié)概率表.

        分析過程中發(fā)現(xiàn),字節(jié)頻率分布不均勻,難以充分體現(xiàn)低概率字節(jié)的特征.因此,使用對數(shù)變換公式構(gòu)造馬爾科夫圖像:

        (5)

        其中GIij表示將概率表中的元素轉(zhuǎn)換為灰度值后得到的像素,p(i,j)表示概率表中的元素值,c表示1個取值為0.1的參數(shù),L表示灰度級的個數(shù).通過遍歷字節(jié)頻率表和字節(jié)概率表,構(gòu)建馬爾科夫圖像,得到馬爾科夫圖像的特征信息.

        2.2.4 GHM彩色圖像構(gòu)建

        最后,將3種類型的灰度圖像(Gray,HOG,Markov)填充到彩色圖像的3個通道中,以構(gòu)建樣本數(shù)據(jù)的最終可視化彩色圖像.此過程的目的是將不同的圖像特征合并到RGB圖像中,使得本文的神經(jīng)網(wǎng)絡(luò)模型能夠更好地理解圖像的特征和內(nèi)容,如圖2所示.通過使用這些樣本數(shù)據(jù),構(gòu)建和訓(xùn)練能夠準確分類和識別惡意軟件的神經(jīng)網(wǎng)絡(luò)模型.

        圖2 馬爾科夫圖像構(gòu)建

        2.3 VLMal模型

        本文對幾個成熟的基于CNN的網(wǎng)絡(luò)模型(包括GoogLeNet,ResNet,ResNet)進行了實驗,發(fā)現(xiàn)VGG16在選擇的數(shù)據(jù)集上評估指標最好.考慮到二進制PE文件表現(xiàn)出文本序列的特征,本文在VGG16特征提取后結(jié)合LSTM模型進一步突出序列特征.

        通過將原始VGG16的1000個類別修改為數(shù)據(jù)集的9個類別來改進VGG16的分類器.由于本文使用遷移學(xué)習(xí)加載預(yù)訓(xùn)練模型,在導(dǎo)入預(yù)訓(xùn)練參數(shù)時,將參數(shù)strict設(shè)置為false.在VGG16特征提取后,使用Flatten將數(shù)據(jù)轉(zhuǎn)換成1維序列,然后使用LSTM進一步訓(xùn)練數(shù)據(jù),以獲得更好的分類性能.

        在數(shù)據(jù)分析過程中,本文發(fā)現(xiàn)數(shù)據(jù)集的不平衡性.文獻[20]由于不平衡而選擇刪除樣本數(shù)量少的類別.針對此問題,本文使用了Focal Loss函數(shù)FL(·)平衡權(quán)重并將模型的注意力更多地集中在難以分類的類別上.

        CE(pt)=-lg(pt),

        (6)

        FL(pt)=-(1-pt)γlg(pt).

        (7)

        FL(x)通過增加γ的值,提高了少量樣本類別的分類性能.隨著γ的增加,FL(x)對錯誤分類樣本的懲罰更大,從而強調(diào)了少數(shù)樣本的重要性.當γ=0時,FL(x)降為標準的交叉熵損失函數(shù)CE(x).在模型訓(xùn)練過程中,樣本的預(yù)測概率記為pt.此外,在權(quán)重分配過程中,為樣本較少的類別分配更高的權(quán)重.

        2.4 評估指標

        為了檢測惡意代碼類別,本文使用分類的4個評價指標:Accuracy,Precision,F1_score,Recall.F1_score表示可以同時反映準確率和召回率的指標.

        (8)

        (9)

        (10)

        (11)

        TP表示被模型正確預(yù)測為惡意樣本數(shù)量;而FP表示被錯誤預(yù)測為惡意的樣本數(shù)量;TN表示被正確預(yù)測為良性樣本數(shù)量;FN表示被錯誤預(yù)測為良性的樣本數(shù)量.

        3 惡意軟件分類實驗評估

        3.1 環(huán)境設(shè)置

        本文實驗中使用的CPU為Intel?CoreTMi7-11800H處理器,配備2個8GB內(nèi)存模塊和1個NVIDIA GeForce RTX 3050顯卡.軟件環(huán)境包括64位的Windows 10操作系統(tǒng)和VMWare,其中包含Windows 7和Windows XP虛擬機,用于執(zhí)行惡意樣本.深度學(xué)習(xí)框架使用Python 3.7,Anaconda conda 4.11.0,PyTorch torch1.10.1構(gòu)建和執(zhí)行的.模型學(xué)習(xí)率設(shè)置為0.001,批處理大小為8,epoch為25,使用SGD優(yōu)化器.

        3.2 數(shù)據(jù)集A

        在構(gòu)建的模型中對3種特征提取方法(Gray,HOG,Markov)和GHM的3通道彩色圖像進行實驗.對不同通道的圖像進行了10折交叉驗證實驗.圖3示出采用不同特征提取方法的Accuracy,Precision,F1_score,Recall指標:

        圖3 不同通道圖像實驗結(jié)果對比

        3.3 數(shù)據(jù)集B

        為了探索本文方法在內(nèi)存數(shù)據(jù)上的分類性能,在數(shù)據(jù)集B上訓(xùn)練和測試本文的模型.表2給出了GHM的3通道彩色圖像和單通道灰度圖像的實驗結(jié)果對比:

        表2 數(shù)據(jù)集B實驗結(jié)果對比

        4 結(jié) 語

        本文提出了一種基于GHM-VLMal的惡意代碼檢測與分類方法,并對該方法進行了全面的實驗,取得了良好的效果.

        該方法在靜態(tài)數(shù)據(jù)集上表現(xiàn)良好,但在內(nèi)存數(shù)據(jù)集上檢測性能下降.通過觀察內(nèi)存數(shù)據(jù),發(fā)現(xiàn)其數(shù)據(jù)是高度稀疏的,這是導(dǎo)致檢測性能下降的原因.

        未來,計劃對稀疏內(nèi)存數(shù)據(jù)進行進一步的研究,提高檢測性能.還將對跨平臺的惡意軟件檢測和分類進行研究.

        猜你喜歡
        分類檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        分類算一算
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲精品无码久久久久牙蜜区| 亚洲一区二区三区在线最新| 久久99热国产精品综合| 熟女精品视频一区二区三区| 免费在线视频一区| 成av人片一区二区三区久久| 日韩不卡的av二三四区| 美女把尿囗扒开让男人添| 这里只有久久精品| 狼人av在线免费观看| 成人偷拍自拍视频在线观看| 99精品人妻少妇一区二区| 色yeye免费视频免费看| 亚洲国产av中文字幕| 人妖一区二区三区四区| 午夜精品一区二区三区的区别| 亚洲欧美日韩国产一区二区精品| 亚洲成人中文| 亚洲av偷拍一区二区三区| 久久在一区二区三区视频免费观看| 无码av中文一区二区三区| 扒开双腿疯狂进出爽爽爽视频| 日韩在线观看网址| 中文字幕一区乱码在线观看| 亚洲中文字幕精品乱码2021| 99久久精品日本一区二区免费| 亚洲一区二区三区av链接| 国产偷闻隔壁人妻内裤av| 丰满少妇在线播放bd| av无码人妻中文字幕| 乱子伦av无码中文字幕| 91羞射短视频在线观看| 国产卡一卡二卡3卡4乱码 | 视频一区二区在线播放| 在线视频一区二区三区中文字幕| 人妻诱惑中文字幕在线视频| 99久久久精品免费观看国产| 高清高速无码一区二区| 亚洲国产天堂久久综合网| 激情综合色五月丁香六月欧美| 国产精品久久无码一区二区三区网 |