亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于紋理特征和隨機(jī)森林的惡意代碼分類研究

2020-05-30 03:32:58劉宇強(qiáng)范志鵬

湖北工業(yè)大學(xué)學(xué)報(bào) 2020年2期

劉宇強(qiáng)，李軍，范志鵬

(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，湖北武漢 430068)

惡意代碼檢測(cè)技術(shù)主要分為兩類[1-2]：靜態(tài)的、基于代碼程序結(jié)構(gòu)、控制流特征的技術(shù)和動(dòng)態(tài)的、基于行為特征的技術(shù)。這些技術(shù)包括建立簽名數(shù)據(jù)庫。主要的限制是，這些技術(shù)無法檢測(cè)到一個(gè)新的惡意軟件，直到它的簽名被更新。動(dòng)態(tài)技術(shù)在執(zhí)行過程中會(huì)分析惡意軟件樣本。檢測(cè)惡意軟件是否類似報(bào)告樣本的行為。然而，與靜態(tài)技術(shù)相比，動(dòng)態(tài)技術(shù)更為精確，因?yàn)樵趷阂廛浖?zhí)行過程中更難掩蓋其行為。但風(fēng)險(xiǎn)是檢測(cè)和識(shí)別過程可能已經(jīng)對(duì)用戶的工作造成了傷害。

近年來，許多研究人員使用機(jī)器學(xué)習(xí)[3](Machine Learning，ML)技術(shù)動(dòng)態(tài)處理不斷變化的惡意軟件檢測(cè)行為。機(jī)器學(xué)習(xí)技術(shù)將一個(gè)標(biāo)記的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集，并開發(fā)一個(gè)區(qū)分惡意軟件和良性樣本行為的模型。訓(xùn)練后的模型能夠?qū)y(cè)試樣本進(jìn)行分類。ML技術(shù)可以通過大量的標(biāo)記訓(xùn)練數(shù)據(jù)中學(xué)習(xí)并提高預(yù)測(cè)精度。

為了確定惡意代碼功能屬性并對(duì)其進(jìn)行分類，研究人員探索了許多對(duì)惡意代碼檢測(cè)和識(shí)別的方法[4-5],但面對(duì)大量使用混淆技術(shù)的惡意代碼來說，傳統(tǒng)的分析方法都存在一定的局限性[6]。為了克服加殼加密技術(shù)的影響，將惡意代碼進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練已成為了惡意代碼分類檢測(cè)的主流趨勢(shì)。分類過程主要步驟：1)預(yù)處理，將惡意代碼二進(jìn)制文件進(jìn)行數(shù)據(jù)預(yù)處理，構(gòu)建成為符合分類器的輸入模型；2)特征選擇，不同的分類器有著不同的特征選擇方法，依次選擇特征集中影響最大的幾個(gè)特征項(xiàng)的特征值作為特征子集，從而構(gòu)建新的特征集；3)分類器訓(xùn)練與分類運(yùn)算[7]。惡意軟件分類的關(guān)鍵是分類模型的選擇和訓(xùn)練階段定義模型的參數(shù)。模型確定后，可以用于新數(shù)據(jù)的分類。這里選擇隨機(jī)森林模型作為分類器，因?yàn)樗軌蛴行У靥幚泶笮秃筒黄胶獾臄?shù)據(jù)集。此外，它可以處理大量的特征，而不會(huì)過度擬合。同時(shí)，考慮到惡意程序的長(zhǎng)度、原理、以及各種技術(shù)的應(yīng)用導(dǎo)致其代碼千差萬別，直接導(dǎo)致其代碼信息很難識(shí)別，筆者提出了惡意代碼的圖像紋理信息作為特征數(shù)據(jù)，將其二進(jìn)制信息理解為圖像，設(shè)計(jì)了單字節(jié)、雙字節(jié)和三字節(jié)圖像紋理，達(dá)到提取特征的目的。

1 相關(guān)理論

1.1 灰度紋理圖像特征

灰度共生矩陣GLCM(Gray Level Co-Occurrence Matrixes)是研究圖像像素的空間相關(guān)特性的常用方法。利用灰度紋理特征來表示大規(guī)模的圖像紋理數(shù)據(jù)集可以以最小的資源占比來歸納所有的圖像，Gotlied等[8]在研究共生矩陣中研究出的一種歸納特征提取的方法，該方法后被證實(shí)對(duì)于細(xì)微紋理歸納時(shí)有良好的效果。Kancherla等[9]提出用灰度紋理特征來對(duì)惡意代碼進(jìn)行分類檢測(cè)并取得了95%的準(zhǔn)確率，在此之后研究人員逐步開始利用灰度圖像來進(jìn)行惡意代碼研究。

通常，GLCM是像素距離和角度的矩陣函數(shù)，它不僅能反映亮度的分布特征，還能描述給定圖像的紋理特征。可以為整個(gè)圖像計(jì)算GLCM，也可以為像素值周圍的小窗口計(jì)算GLCM。雖然給定的圖像灰度為256，但在計(jì)算灰度共生矩陣導(dǎo)出的紋理特征時(shí)，圖像的灰度遠(yuǎn)小于256。主要是由于矩陣維數(shù)較大，窗口尺寸較小，灰度共生矩陣不能很好地表示紋理，同時(shí)計(jì)算量大大增加。因此在計(jì)算灰度共生矩陣之前，需要對(duì)圖像進(jìn)行直方圖化處理，以降低圖像的灰度值，圖像的灰度為8或16。給定圖像灰度共生矩陣的構(gòu)造公式如下：

(1)

式(1)是對(duì)圖像上保持一定距離的像素點(diǎn)g1,g2之間的灰度情況進(jìn)行統(tǒng)計(jì)，根據(jù)圖像中兩個(gè)不同像素之間的距離為d，方位關(guān)系度數(shù)為θ的兩個(gè)像素點(diǎn)構(gòu)建聯(lián)合概率分布p(g1,g2|d,θ)。將距離d的值設(shè)置為1,θ設(shè)置為0°、45°、90°和135°

(2)

R={N(N-1)θ=0°，90°(N-1)2θ=45°，135°

通常以三個(gè)角度的聯(lián)合統(tǒng)計(jì)數(shù)據(jù)，就能夠歸納出原始圖像的所有特征，通過選擇其中影響最大的幾個(gè)特征作為特征值，可以在關(guān)鍵信息丟失率最低的情況下進(jìn)行降維處理，GLCM算法能夠找出其相關(guān)性過大的部分進(jìn)行分割，除了保存關(guān)鍵信息外，也能夠很好地剔除掉干擾混淆的部分。

根據(jù)上述過程，當(dāng)角度分別為0°、45°、90°和135°時(shí)，可以計(jì)算出四個(gè)GLCM。計(jì)算結(jié)果反映了圖像的紋理特征，如角二階矩、熵、逆微分矩、慣性矩和相關(guān)性。

例如熵是對(duì)圖像信息的度量。從熵的值可以看出圖像紋理的不均勻程度或復(fù)雜程度，且CLCM散射元素越多，圖像熵的值越大。二維數(shù)組數(shù)字差異變化越大，表現(xiàn)出的圖像越復(fù)雜，具體公式為：

(3)

其中k為灰度圖像尺寸大小，通過對(duì)圖像當(dāng)中任意像素點(diǎn)g1,g2構(gòu)造出的灰度共生矩陣進(jìn)行統(tǒng)計(jì)，計(jì)算出4個(gè)方向上的熵值，將所有方向結(jié)果上的值進(jìn)行求和，可以還原出原始灰度圖像的特征圖像。

1.2 隨機(jī)森林RF(Fandom Forest)分類器

隨機(jī)森林算法是一種能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行準(zhǔn)確分類的新型分類技術(shù)[10]。它既可以用于故障的分類，也可以用于故障的回歸類型?；跇涞膶W(xué)習(xí)算法是機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中應(yīng)用最廣泛的學(xué)習(xí)方法之一。

由于隨機(jī)森林分類器建立了多個(gè)決策樹，并根據(jù)這些樹的投票結(jié)果對(duì)最終結(jié)果進(jìn)行評(píng)估，從而消除了單決策樹方法中存在的過度擬合問題。合并樹的過程稱為集成方法，從每棵樹中對(duì)向量進(jìn)行分類，并將其視為類的投票，然后選擇投票最多的分類器作為向量。它是以分治方法為基礎(chǔ)的集成模型分類器。一組個(gè)體的弱學(xué)習(xí)者可以通過這個(gè)過程共同形成一個(gè)強(qiáng)學(xué)習(xí)者。

圖 1 隨機(jī)森林整體模型

假設(shè)數(shù)據(jù)集T具有M個(gè)特征，n個(gè)數(shù)據(jù)。T表示為X1,Y1;X2,Y2;…;Xn,Yn。其中Xi={Ai1,Ai2,…,AiM}為M個(gè)特征值創(chuàng)建的第i個(gè)向量，Yi為對(duì)應(yīng)向量的輸出類。通過自助法重采樣技術(shù)將原始數(shù)據(jù)集T有放回的重復(fù)抽取n個(gè)樣本，形成新的訓(xùn)練集樣本Ti，新的訓(xùn)練集樣本大小與原始訓(xùn)練集樣本大小相同，這一步驟重復(fù)S次形成S個(gè)數(shù)據(jù)集：T1,T2,…,TS，通常隨機(jī)森林分類器使用輸入數(shù)據(jù)的2/3作為訓(xùn)練集，1/3作為測(cè)試集，這一類數(shù)據(jù)稱為包外數(shù)據(jù)。對(duì)于一組在數(shù)據(jù)集Ti上被選擇的向量Xi,Yi，在進(jìn)行重構(gòu)數(shù)據(jù)集時(shí)，可以被重新用來創(chuàng)造新的數(shù)據(jù)集Tj，由于隨機(jī)采樣是通過替換完成的，任何向量Xi,Yi都可以被不同的數(shù)據(jù)集Ti選擇多次，并且存在一些從未被任何Ti選擇的向量，這種情況被稱為bagging，它基于引導(dǎo)聚合產(chǎn)生[11]。對(duì)于每個(gè)數(shù)據(jù)集Ti都會(huì)形成一個(gè)決策樹Si，通過決策樹對(duì)輸出向量Vi進(jìn)行分類，最后統(tǒng)計(jì)V1,V2,…,Vs的輸出結(jié)果，取最大的分類結(jié)果來決定Vi的類別。

1.3 K-MEANS聚類分類方法

K-means聚類是一種基于相似性將數(shù)據(jù)對(duì)象分為K個(gè)簇的分塊聚類方法[12]。在算法中，必須指定集群的數(shù)量K。最初選擇K個(gè)質(zhì)心。每個(gè)數(shù)據(jù)對(duì)象都被分配給包含其最近質(zhì)心的簇。初始質(zhì)心的選擇是隨機(jī)的。用歐幾里德距離、余弦相似性來衡量與質(zhì)心和數(shù)據(jù)對(duì)象的接近程度。初始分組完成后，計(jì)算每個(gè)簇的新質(zhì)心以及每個(gè)數(shù)據(jù)點(diǎn)到每個(gè)中心的距離。根據(jù)距離重新分配數(shù)據(jù)點(diǎn)。如果該點(diǎn)與簇的所有成員之間的距離之和不能再最小化，則將簇中的點(diǎn)視為質(zhì)心。K-means聚類的主要目的是最小化聚類成員與其質(zhì)心之間的距離之和。

假設(shè)數(shù)據(jù)集X1,X2,…,Xn中，每一個(gè)樣本Xi均為d維實(shí)向量，k-means方法就是將這n個(gè)樣本劃分到k個(gè)集合當(dāng)中，其中k≤n，同時(shí)滿足劃分后的聚類平方和最小為Ks，具體公式為：

(4)

其中ui為數(shù)據(jù)集X1,X2,…,Xn中所有點(diǎn)的平均值。

2 改進(jìn)的灰度紋理圖像特征

惡意軟件中的單個(gè)操作碼與普通代碼并無太大差異，而較長(zhǎng)的操作碼具有預(yù)測(cè)現(xiàn)象發(fā)生的能力。每個(gè)惡意軟件文件的二進(jìn)制代碼長(zhǎng)度不一，經(jīng)過文本可視化后[3]，可以看到惡意軟件代碼可以理解為由眾多的1字節(jié)16進(jìn)制數(shù)構(gòu)成的1維向量，數(shù)據(jù)集中最長(zhǎng)的長(zhǎng)度為405 248×16B，最短向量的長(zhǎng)度為8950×16B。若直接理解為圖像，顯然圖像大小不一，帶來后續(xù)訓(xùn)練和檢測(cè)的困難，因此，需要提取每個(gè)惡意軟件圖像的紋理特征，并形成統(tǒng)一大小的特征紋理圖像?？紤]到代碼的順序性，只采用了水平方向的步長(zhǎng)，而不考慮其他方向。

首先選擇步長(zhǎng)1、2、3建立灰度共生矩陣。原因如下：在操作系統(tǒng)以及匯編指令手冊(cè)的分析中可以知道，計(jì)算機(jī)代碼中大部分由1字節(jié)、2字節(jié)、3字節(jié)指令構(gòu)成，如分類1：沒有操作數(shù)的指令，指令長(zhǎng)度為1字節(jié) ；分類2：操作數(shù)只涉及寄存器的指令，長(zhǎng)度為2字節(jié)；分類3：操作數(shù)涉及內(nèi)存地址的指令，長(zhǎng)度為3字節(jié)等。因此，在灰度共生矩陣中采用了1字節(jié)、2字節(jié)和3字節(jié)的灰度共生矩陣。首先分別以1字節(jié)、2字節(jié)、3字節(jié)為單位切割惡意軟件代碼行向量并做統(tǒng)計(jì)。通常的灰度共生矩陣考慮的是距離為d的2字節(jié)同時(shí)出現(xiàn)的統(tǒng)計(jì)，在大多數(shù)文獻(xiàn)中[13-14]均為2字節(jié)矩陣。對(duì)于1字節(jié)，行列坐標(biāo)為0-255，統(tǒng)計(jì)每個(gè)字節(jié)中對(duì)應(yīng)的數(shù)值出現(xiàn)個(gè)數(shù)。對(duì)于2字節(jié)灰度矩陣，則行代表第一字節(jié)，列代表第二字節(jié)，如：EB 3C代表EB行，3C列的值加1，直至循環(huán)遍歷整個(gè)惡意軟件代碼。其中，1字節(jié)和2字節(jié)矩陣均可形成256×256的標(biāo)準(zhǔn)輸入矩陣，1字節(jié)灰度共生矩陣為主對(duì)角對(duì)稱矩陣。以樣本文件di5lC6uMRX8hJ3BQtIVf.bytes為例，通過圖像可視化得到三個(gè)紋理圖像(圖2)。

圖 2 樣本文件不同字節(jié)紋理圖像

3 實(shí)驗(yàn)和仿真

3.1 數(shù)據(jù)集

本文采用的數(shù)據(jù)集為微軟2015年惡意代碼分類大賽中使用的數(shù)據(jù)集，BIG2015數(shù)據(jù)集包含9個(gè)惡意家族的21 741個(gè)樣本，其中10 868個(gè)樣本為帶標(biāo)簽的訓(xùn)練集，其他為不帶標(biāo)簽的測(cè)試集。訓(xùn)練集中，每一個(gè)樣本名為一個(gè)20字符的哈希ID，以及對(duì)應(yīng)的一個(gè)整數(shù)值作為家族標(biāo)簽，分別為Ramnit、Lollipop、Kelihos ver3、Vundo、Simda、Tracur、Kelihos、ver1、Obfuscator.ACY和Gatak。對(duì)于每個(gè)類別，對(duì)惡意代碼圖像分別做1字節(jié)，2字節(jié)和3字節(jié)紋理提取。

3.2 RF實(shí)驗(yàn)結(jié)果

在這項(xiàng)工作中，根據(jù)第2部分生成的灰度共生矩陣生成方法，對(duì)每個(gè)惡意代碼文件重新構(gòu)成了3個(gè)256×256的共生矩陣CSV文件。并根據(jù)隨機(jī)森林分類算法，將樣本與百分比分割(80%)使用。其余20%樣本向量用作測(cè)試數(shù)據(jù)集。

T={(X1,Y1),(X2,Y2),…,(Xn,Yn)}

在隨機(jī)森林分類器訓(xùn)練過程中，首先從10棵決策樹開始進(jìn)行訓(xùn)練，通過圖3可以看出，隨著決策樹的增加，分類準(zhǔn)確率逐步提升，但超過30棵后，準(zhǔn)確率在96%左右變化，不再增加。準(zhǔn)確率隨著深度增加而逐步提高，但超過10棵后增加不明顯。通過圖4可以得出，隨機(jī)森林算法還可以評(píng)估所有變量的重要性，無需顧慮變量的多元共線性問題?，F(xiàn)實(shí)情況下，一個(gè)數(shù)據(jù)集中往往有成百上千個(gè)特征，如何在其中選擇對(duì)結(jié)果影響最大的那幾個(gè)特征，以此來縮減建立模型時(shí)的特征數(shù)目可以提高算法的效率。這樣的方法其實(shí)很多，比如主成分分析，lasso等等?？梢酝ㄟ^計(jì)算每個(gè)特征在隨機(jī)森林中的每顆樹上做了多大的貢獻(xiàn)，然后取平均值，最后比較特征之間的貢獻(xiàn)大小。該方法通常采用基尼指數(shù)來評(píng)價(jià)奉獻(xiàn)率。變量重要性評(píng)分(variable importance measures)用VIM來表示，將基尼指數(shù)用Gini來表示，在分類問題中，假設(shè)有k個(gè)類，樣本點(diǎn)屬于第k類的概率為Pk，則概率分布的Gini指數(shù)的定義為：

圖 3 樹的數(shù)目對(duì)正確率影響

圖 4 樹的深度對(duì)正確率影響

(5)

基于圖像紋理的雙字節(jié)特征相對(duì)重要性見表1?；嵯禂?shù)越大，說明該變量對(duì)代碼特征的分類重要性越高，經(jīng)過實(shí)驗(yàn)，本方案得出的基于代碼特征的指標(biāo)重要性排序?yàn)椤?000” >”BC66” >”474E” >”4E49” >”69C3”>…”0001”。由表1可知，取前600個(gè)參數(shù)就可以達(dá)到96%的累計(jì)重要性比率，因此可以進(jìn)一步簡(jiǎn)化模型，分類代碼時(shí)，無須每次計(jì)算全部的256×256個(gè)矩陣參數(shù)，而只需要計(jì)算列表中

600個(gè)參數(shù)，即可達(dá)到近似的效果。經(jīng)過實(shí)驗(yàn)，表格1中GLCM-RF簡(jiǎn)化版，可以達(dá)到91%。

表1 各列重要性排序表

3.3 KNN聚類結(jié)果

為了檢驗(yàn)基于惡意代碼圖像紋理特征提取的效果，繼續(xù)采用KNN分類方法來驗(yàn)證該特征提取方式的有效性。并將隨機(jī)森林中得到的重要性特征排序進(jìn)行聚類可視化排序。由圖5可知，各個(gè)類別在這些重要的特征上表現(xiàn)出了較強(qiáng)的聚類現(xiàn)象。

圖 5 前2列特征聚類情況分析

由于按GLCM聚類的維數(shù)較多，達(dá)到65 536維，為了更好地的顯示結(jié)果，采用了TSNE可視化方法。TSNE是一種非線性降維算法，非常適用于高維數(shù)據(jù)降維到2維或者3維，圖6為采用默認(rèn)的T分布后9類別映射到二維后的結(jié)果。每種不同的演示代表了不同的種類，可以看出，紅色和綠色的種類聚類特征明顯，其他類則較為分散。

為了比較采用GLCM后對(duì)分類算法帶來的影響，直接提取惡意代碼文件的前64K字節(jié)作為數(shù)據(jù)集，用同樣的分類方法來進(jìn)行比較，通過分析統(tǒng)計(jì)數(shù)據(jù)可以看出，采用了圖像紋理特征提取后的分類方法均比以前有了顯著的提高，其中，GLCM-RF隨機(jī)森林方法準(zhǔn)確率達(dá)到了96.36%，較未采用圖像特征提取的RF方法提高了約10%，對(duì)于傳統(tǒng)的KNN方法也有了較大的提高，分類效果明顯。

圖 6 惡意軟件分為9類并采用TSNE后的聚類顯示

表2 基于GLCM的RF與傳統(tǒng)KNN方法比較

方法正確率召回率KNN61.10.42GLCM-KNN77.10.68RF85.3685.69GLCM-RF96.360.96GLCM-RF(簡(jiǎn)化版)90.20.90

4 總結(jié)

本研究提出一種基于惡意代碼圖像紋理的隨機(jī)森林分類方法，這種方法的優(yōu)點(diǎn)是能夠快速高效的識(shí)別惡意代碼。并通過隨機(jī)森林分析的特征重要性排序，可以簡(jiǎn)化圖像特征維數(shù)，加快分類識(shí)別時(shí)間。研究結(jié)果表明，圖像紋理提取簡(jiǎn)化了代碼維數(shù)，提高了識(shí)別準(zhǔn)確率。