亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于紋理特征和隨機(jī)森林的惡意代碼分類研究

        2020-05-30 03:32:58劉宇強(qiáng)范志鵬
        關(guān)鍵詞:字節(jié)紋理灰度

        劉宇強(qiáng), 李 軍, 范志鵬

        (湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院, 湖北 武漢 430068)

        惡意代碼檢測(cè)技術(shù)主要分為兩類[1-2]:靜態(tài)的、基于代碼程序結(jié)構(gòu)、控制流特征的技術(shù)和動(dòng)態(tài)的、基于行為特征的技術(shù)。這些技術(shù)包括建立簽名數(shù)據(jù)庫。主要的限制是,這些技術(shù)無法檢測(cè)到一個(gè)新的惡意軟件,直到它的簽名被更新。動(dòng)態(tài)技術(shù)在執(zhí)行過程中會(huì)分析惡意軟件樣本。檢測(cè)惡意軟件是否類似報(bào)告樣本的行為。然而,與靜態(tài)技術(shù)相比,動(dòng)態(tài)技術(shù)更為精確,因?yàn)樵趷阂廛浖?zhí)行過程中更難掩蓋其行為。但風(fēng)險(xiǎn)是檢測(cè)和識(shí)別過程可能已經(jīng)對(duì)用戶的工作造成了傷害。

        近年來,許多研究人員使用機(jī)器學(xué)習(xí)[3](Machine Learning,ML)技術(shù)動(dòng)態(tài)處理不斷變化的惡意軟件檢測(cè)行為。機(jī)器學(xué)習(xí)技術(shù)將一個(gè)標(biāo)記的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,并開發(fā)一個(gè)區(qū)分惡意軟件和良性樣本行為的模型。訓(xùn)練后的模型能夠?qū)y(cè)試樣本進(jìn)行分類。ML技術(shù)可以通過大量的標(biāo)記訓(xùn)練數(shù)據(jù)中學(xué)習(xí)并提高預(yù)測(cè)精度。

        為了確定惡意代碼功能屬性并對(duì)其進(jìn)行分類,研究人員探索了許多對(duì)惡意代碼檢測(cè)和識(shí)別的方法[4-5],但面對(duì)大量使用混淆技術(shù)的惡意代碼來說,傳統(tǒng)的分析方法都存在一定的局限性[6]。為了克服加殼加密技術(shù)的影響,將惡意代碼進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練已成為了惡意代碼分類檢測(cè)的主流趨勢(shì)。分類過程主要步驟:1)預(yù)處理,將惡意代碼二進(jìn)制文件進(jìn)行數(shù)據(jù)預(yù)處理,構(gòu)建成為符合分類器的輸入模型;2)特征選擇,不同的分類器有著不同的特征選擇方法,依次選擇特征集中影響最大的幾個(gè)特征項(xiàng)的特征值作為特征子集,從而構(gòu)建新的特征集;3)分類器訓(xùn)練與分類運(yùn)算[7]。惡意軟件分類的關(guān)鍵是分類模型的選擇和訓(xùn)練階段定義模型的參數(shù)。模型確定后,可以用于新數(shù)據(jù)的分類。這里選擇隨機(jī)森林模型作為分類器,因?yàn)樗軌蛴行У靥幚泶笮秃筒黄胶獾臄?shù)據(jù)集。此外,它可以處理大量的特征,而不會(huì)過度擬合。同時(shí),考慮到惡意程序的長(zhǎng)度、原理、以及各種技術(shù)的應(yīng)用導(dǎo)致其代碼千差萬別,直接導(dǎo)致其代碼信息很難識(shí)別,筆者提出了惡意代碼的圖像紋理信息作為特征數(shù)據(jù),將其二進(jìn)制信息理解為圖像,設(shè)計(jì)了單字節(jié)、雙字節(jié)和三字節(jié)圖像紋理,達(dá)到提取特征的目的。

        1 相關(guān)理論

        1.1 灰度紋理圖像特征

        灰度共生矩陣GLCM(Gray Level Co-Occurrence Matrixes)是研究圖像像素的空間相關(guān)特性的常用方法。利用灰度紋理特征來表示大規(guī)模的圖像紋理數(shù)據(jù)集可以以最小的資源占比來歸納所有的圖像,Gotlied等[8]在研究共生矩陣中研究出的一種歸納特征提取的方法,該方法后被證實(shí)對(duì)于細(xì)微紋理歸納時(shí)有良好的效果。Kancherla等[9]提出用灰度紋理特征來對(duì)惡意代碼進(jìn)行分類檢測(cè)并取得了95%的準(zhǔn)確率,在此之后研究人員逐步開始利用灰度圖像來進(jìn)行惡意代碼研究。

        通常,GLCM是像素距離和角度的矩陣函數(shù),它不僅能反映亮度的分布特征,還能描述給定圖像的紋理特征。可以為整個(gè)圖像計(jì)算GLCM,也可以為像素值周圍的小窗口計(jì)算GLCM。雖然給定的圖像灰度為256,但在計(jì)算灰度共生矩陣導(dǎo)出的紋理特征時(shí),圖像的灰度遠(yuǎn)小于256。主要是由于矩陣維數(shù)較大,窗口尺寸較小,灰度共生矩陣不能很好地表示紋理,同時(shí)計(jì)算量大大增加。因此在計(jì)算灰度共生矩陣之前,需要對(duì)圖像進(jìn)行直方圖化處理,以降低圖像的灰度值,圖像的灰度為8或16。給定圖像灰度共生矩陣的構(gòu)造公式如下:

        (1)

        式(1)是對(duì)圖像上保持一定距離的像素點(diǎn)g1,g2之間的灰度情況進(jìn)行統(tǒng)計(jì),根據(jù)圖像中兩個(gè)不同像素之間的距離為d,方位關(guān)系度數(shù)為θ的兩個(gè)像素點(diǎn)構(gòu)建聯(lián)合概率分布p(g1,g2|d,θ)。將距離d的值設(shè)置為1,θ設(shè)置為0°、45°、90°和135°

        (2)

        R={N(N-1)θ=0°,90°(N-1)2θ=45°,135°

        通常以三個(gè)角度的聯(lián)合統(tǒng)計(jì)數(shù)據(jù),就能夠歸納出原始圖像的所有特征,通過選擇其中影響最大的幾個(gè)特征作為特征值,可以在關(guān)鍵信息丟失率最低的情況下進(jìn)行降維處理,GLCM算法能夠找出其相關(guān)性過大的部分進(jìn)行分割,除了保存關(guān)鍵信息外,也能夠很好地剔除掉干擾混淆的部分。

        根據(jù)上述過程,當(dāng)角度分別為0°、45°、90°和135°時(shí),可以計(jì)算出四個(gè)GLCM。計(jì)算結(jié)果反映了圖像的紋理特征,如角二階矩、熵、逆微分矩、慣性矩和相關(guān)性。

        例如熵是對(duì)圖像信息的度量。從熵的值可以看出圖像紋理的不均勻程度或復(fù)雜程度,且CLCM散射元素越多,圖像熵的值越大。二維數(shù)組數(shù)字差異變化越大,表現(xiàn)出的圖像越復(fù)雜,具體公式為:

        (3)

        其中k為灰度圖像尺寸大小,通過對(duì)圖像當(dāng)中任意像素點(diǎn)g1,g2構(gòu)造出的灰度共生矩陣進(jìn)行統(tǒng)計(jì),計(jì)算出4個(gè)方向上的熵值,將所有方向結(jié)果上的值進(jìn)行求和,可以還原出原始灰度圖像的特征圖像。

        1.2 隨機(jī)森林RF(Fandom Forest)分類器

        隨機(jī)森林算法是一種能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行準(zhǔn)確分類的新型分類技術(shù)[10]。它既可以用于故障的分類,也可以用于故障的回歸類型?;跇涞膶W(xué)習(xí)算法是機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中應(yīng)用最廣泛的學(xué)習(xí)方法之一。

        由于隨機(jī)森林分類器建立了多個(gè)決策樹,并根據(jù)這些樹的投票結(jié)果對(duì)最終結(jié)果進(jìn)行評(píng)估,從而消除了單決策樹方法中存在的過度擬合問題。合并樹的過程稱為集成方法,從每棵樹中對(duì)向量進(jìn)行分類,并將其視為類的投票,然后選擇投票最多的分類器作為向量。它是以分治方法為基礎(chǔ)的集成模型分類器。一組個(gè)體的弱學(xué)習(xí)者可以通過這個(gè)過程共同形成一個(gè)強(qiáng)學(xué)習(xí)者。

        圖 1 隨機(jī)森林整體模型

        假設(shè)數(shù)據(jù)集T具有M個(gè)特征,n個(gè)數(shù)據(jù)。T表示為X1,Y1;X2,Y2;…;Xn,Yn。其中Xi={Ai1,Ai2,…,AiM}為M個(gè)特征值創(chuàng)建的第i個(gè)向量,Yi為對(duì)應(yīng)向量的輸出類。通過自助法重采樣技術(shù)將原始數(shù)據(jù)集T有放回的重復(fù)抽取n個(gè)樣本,形成新的訓(xùn)練集樣本Ti,新的訓(xùn)練集樣本大小與原始訓(xùn)練集樣本大小相同,這一步驟重復(fù)S次形成S個(gè)數(shù)據(jù)集:T1,T2,…,TS,通常隨機(jī)森林分類器使用輸入數(shù)據(jù)的2/3作為訓(xùn)練集,1/3作為測(cè)試集,這一類數(shù)據(jù)稱為包外數(shù)據(jù)。對(duì)于一組在數(shù)據(jù)集Ti上被選擇的向量Xi,Yi,在進(jìn)行重構(gòu)數(shù)據(jù)集時(shí),可以被重新用來創(chuàng)造新的數(shù)據(jù)集Tj,由于隨機(jī)采樣是通過替換完成的,任何向量Xi,Yi都可以被不同的數(shù)據(jù)集Ti選擇多次,并且存在一些從未被任何Ti選擇的向量,這種情況被稱為bagging,它基于引導(dǎo)聚合產(chǎn)生[11]。對(duì)于每個(gè)數(shù)據(jù)集Ti都會(huì)形成一個(gè)決策樹Si,通過決策樹對(duì)輸出向量Vi進(jìn)行分類,最后統(tǒng)計(jì)V1,V2,…,Vs的輸出結(jié)果,取最大的分類結(jié)果來決定Vi的類別。

        1.3 K-MEANS聚類分類方法

        K-means聚類是一種基于相似性將數(shù)據(jù)對(duì)象分為K個(gè)簇的分塊聚類方法[12]。在算法中,必須指定集群的數(shù)量K。最初選擇K個(gè)質(zhì)心。每個(gè)數(shù)據(jù)對(duì)象都被分配給包含其最近質(zhì)心的簇。初始質(zhì)心的選擇是隨機(jī)的。用歐幾里德距離、余弦相似性來衡量與質(zhì)心和數(shù)據(jù)對(duì)象的接近程度。初始分組完成后,計(jì)算每個(gè)簇的新質(zhì)心以及每個(gè)數(shù)據(jù)點(diǎn)到每個(gè)中心的距離。根據(jù)距離重新分配數(shù)據(jù)點(diǎn)。如果該點(diǎn)與簇的所有成員之間的距離之和不能再最小化,則將簇中的點(diǎn)視為質(zhì)心。K-means聚類的主要目的是最小化聚類成員與其質(zhì)心之間的距離之和。

        假設(shè)數(shù)據(jù)集X1,X2,…,Xn中,每一個(gè)樣本Xi均為d維實(shí)向量,k-means方法就是將這n個(gè)樣本劃分到k個(gè)集合當(dāng)中,其中k≤n,同時(shí)滿足劃分后的聚類平方和最小為Ks,具體公式為:

        (4)

        其中ui為數(shù)據(jù)集X1,X2,…,Xn中所有點(diǎn)的平均值。

        2 改進(jìn)的灰度紋理圖像特征

        惡意軟件中的單個(gè)操作碼與普通代碼并無太大差異,而較長(zhǎng)的操作碼具有預(yù)測(cè)現(xiàn)象發(fā)生的能力。每個(gè)惡意軟件文件的二進(jìn)制代碼長(zhǎng)度不一,經(jīng)過文本可視化后[3],可以看到惡意軟件代碼可以理解為由眾多的1字節(jié)16進(jìn)制數(shù)構(gòu)成的1維向量,數(shù)據(jù)集中最長(zhǎng)的長(zhǎng)度為405 248×16B,最短向量的長(zhǎng)度為8950×16B。若直接理解為圖像,顯然圖像大小不一,帶來后續(xù)訓(xùn)練和檢測(cè)的困難,因此,需要提取每個(gè)惡意軟件圖像的紋理特征,并形成統(tǒng)一大小的特征紋理圖像??紤]到代碼的順序性,只采用了水平方向的步長(zhǎng),而不考慮其他方向。

        首先選擇步長(zhǎng)1、2、3建立灰度共生矩陣。原因如下:在操作系統(tǒng)以及匯編指令手冊(cè)的分析中可以知道,計(jì)算機(jī)代碼中大部分由1字節(jié)、2字節(jié)、3字節(jié)指令構(gòu)成,如分類1:沒有操作數(shù)的指令,指令長(zhǎng)度為1字節(jié) ;分類2:操作數(shù)只涉及寄存器的指令,長(zhǎng)度為2字節(jié);分類3:操作數(shù)涉及內(nèi)存地址的指令,長(zhǎng)度為3字節(jié)等。因此,在灰度共生矩陣中采用了1字節(jié)、2字節(jié)和3字節(jié)的灰度共生矩陣。首先分別以1字節(jié)、2字節(jié)、3字節(jié)為單位切割惡意軟件代碼行向量并做統(tǒng)計(jì)。通常的灰度共生矩陣考慮的是距離為d的2字節(jié)同時(shí)出現(xiàn)的統(tǒng)計(jì),在大多數(shù)文獻(xiàn)中[13-14]均為2字節(jié)矩陣。對(duì)于1字節(jié),行列坐標(biāo)為0-255,統(tǒng)計(jì)每個(gè)字節(jié)中對(duì)應(yīng)的數(shù)值出現(xiàn)個(gè)數(shù)。對(duì)于2字節(jié)灰度矩陣,則行代表第一字節(jié),列代表第二字節(jié),如:EB 3C代表EB行,3C列的值加1,直至循環(huán)遍歷整個(gè)惡意軟件代碼。其中,1字節(jié)和2字節(jié)矩陣均可形成256×256的標(biāo)準(zhǔn)輸入矩陣,1字節(jié)灰度共生矩陣為主對(duì)角對(duì)稱矩陣。以樣本文件di5lC6uMRX8hJ3BQtIVf.bytes為例,通過圖像可視化得到三個(gè)紋理圖像(圖2)。

        圖 2 樣本文件不同字節(jié)紋理圖像

        3 實(shí)驗(yàn)和仿真

        3.1 數(shù)據(jù)集

        本文采用的數(shù)據(jù)集為微軟2015年惡意代碼分類大賽中使用的數(shù)據(jù)集,BIG2015數(shù)據(jù)集包含9個(gè)惡意家族的21 741個(gè)樣本,其中10 868個(gè)樣本為帶標(biāo)簽的訓(xùn)練集,其他為不帶標(biāo)簽的測(cè)試集。訓(xùn)練集中,每一個(gè)樣本名為一個(gè)20字符的哈希ID,以及對(duì)應(yīng)的一個(gè)整數(shù)值作為家族標(biāo)簽,分別為Ramnit、Lollipop、Kelihos ver3、Vundo、Simda、Tracur、Kelihos、ver1、Obfuscator.ACY和Gatak。對(duì)于每個(gè)類別,對(duì)惡意代碼圖像分別做1字節(jié),2字節(jié)和3字節(jié)紋理提取。

        3.2 RF實(shí)驗(yàn)結(jié)果

        在這項(xiàng)工作中,根據(jù)第2部分生成的灰度共生矩陣生成方法,對(duì)每個(gè)惡意代碼文件重新構(gòu)成了3個(gè)256×256的共生矩陣CSV文件。并根據(jù)隨機(jī)森林分類算法,將樣本與百分比分割(80%)使用。其余20%樣本向量用作測(cè)試數(shù)據(jù)集。

        T={(X1,Y1),(X2,Y2),…,(Xn,Yn)}

        在隨機(jī)森林分類器訓(xùn)練過程中,首先從10棵決策樹開始進(jìn)行訓(xùn)練,通過圖3可以看出,隨著決策樹的增加,分類準(zhǔn)確率逐步提升,但超過30棵后,準(zhǔn)確率在96%左右變化,不再增加。準(zhǔn)確率隨著深度增加而逐步提高,但超過10棵后增加不明顯。通過圖4可以得出,隨機(jī)森林算法還可以評(píng)估所有變量的重要性,無需顧慮變量的多元共線性問題?,F(xiàn)實(shí)情況下,一個(gè)數(shù)據(jù)集中往往有成百上千個(gè)特征,如何在其中選擇對(duì)結(jié)果影響最大的那幾個(gè)特征,以此來縮減建立模型時(shí)的特征數(shù)目可以提高算法的效率。這樣的方法其實(shí)很多,比如主成分分析,lasso等等??梢酝ㄟ^計(jì)算每個(gè)特征在隨機(jī)森林中的每顆樹上做了多大的貢獻(xiàn),然后取平均值,最后比較特征之間的貢獻(xiàn)大小。該方法通常采用基尼指數(shù)來評(píng)價(jià)奉獻(xiàn)率。變量重要性評(píng)分(variable importance measures)用VIM來表示,將基尼指數(shù)用Gini來表示,在分類問題中,假設(shè)有k個(gè)類,樣本點(diǎn)屬于第k類的概率為Pk,則概率分布的Gini指數(shù)的定義為:

        圖 3 樹的數(shù)目對(duì)正確率影響

        圖 4 樹的深度對(duì)正確率影響

        (5)

        基于圖像紋理的雙字節(jié)特征相對(duì)重要性見表1?;嵯禂?shù)越大,說明該變量對(duì)代碼特征的分類重要性越高,經(jīng)過實(shí)驗(yàn),本方案得出的基于代碼特征的指標(biāo)重要性排序?yàn)椤?000” >”BC66” >”474E” >”4E49” >”69C3”>…”0001”。由表1可知,取前600個(gè)參數(shù)就可以達(dá)到96%的累計(jì)重要性比率,因此可以進(jìn)一步簡(jiǎn)化模型,分類代碼時(shí),無須每次計(jì)算全部的256×256個(gè)矩陣參數(shù),而只需要計(jì)算列表中

        600個(gè)參數(shù),即可達(dá)到近似的效果。經(jīng)過實(shí)驗(yàn),表格1中GLCM-RF簡(jiǎn)化版,可以達(dá)到91%。

        表1 各列重要性排序表

        3.3 KNN聚類結(jié)果

        為了檢驗(yàn)基于惡意代碼圖像紋理特征提取的效果,繼續(xù)采用KNN分類方法來驗(yàn)證該特征提取方式的有效性。并將隨機(jī)森林中得到的重要性特征排序進(jìn)行聚類可視化排序。由圖5可知,各個(gè)類別在這些重要的特征上表現(xiàn)出了較強(qiáng)的聚類現(xiàn)象。

        圖 5 前2列特征聚類情況分析

        由于按GLCM聚類的維數(shù)較多,達(dá)到65 536維,為了更好地的顯示結(jié)果,采用了TSNE可視化方法。TSNE是一種非線性降維算法,非常適用于高維數(shù)據(jù)降維到2維或者3維,圖6為采用默認(rèn)的T分布后9類別映射到二維后的結(jié)果。每種不同的演示代表了不同的種類,可以看出,紅色和綠色的種類聚類特征明顯,其他類則較為分散。

        為了比較采用GLCM后對(duì)分類算法帶來的影響,直接提取惡意代碼文件的前64K字節(jié)作為數(shù)據(jù)集,用同樣的分類方法來進(jìn)行比較,通過分析統(tǒng)計(jì)數(shù)據(jù)可以看出,采用了圖像紋理特征提取后的分類方法均比以前有了顯著的提高,其中,GLCM-RF隨機(jī)森林方法準(zhǔn)確率達(dá)到了96.36%,較未采用圖像特征提取的RF方法提高了約10%,對(duì)于傳統(tǒng)的KNN方法也有了較大的提高,分類效果明顯。

        圖 6 惡意軟件分為9類并采用TSNE后的聚類顯示

        表2 基于GLCM的RF與傳統(tǒng)KNN方法比較

        方法正確率召回率KNN61.10.42GLCM-KNN77.10.68RF85.3685.69GLCM-RF96.360.96GLCM-RF(簡(jiǎn)化版)90.20.90

        4 總結(jié)

        本研究提出一種基于惡意代碼圖像紋理的隨機(jī)森林分類方法,這種方法的優(yōu)點(diǎn)是能夠快速高效的識(shí)別惡意代碼。并通過隨機(jī)森林分析的特征重要性排序,可以簡(jiǎn)化圖像特征維數(shù),加快分類識(shí)別時(shí)間。研究結(jié)果表明,圖像紋理提取簡(jiǎn)化了代碼維數(shù),提高了識(shí)別準(zhǔn)確率。

        猜你喜歡
        字節(jié)紋理灰度
        采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過濾技術(shù)
        No.8 字節(jié)跳動(dòng)將推出獨(dú)立出口電商APP
        基于灰度拉伸的圖像水位識(shí)別方法研究
        基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
        軟件(2020年3期)2020-04-20 01:45:18
        No.10 “字節(jié)跳動(dòng)手機(jī)”要來了?
        使用紋理疊加添加藝術(shù)畫特效
        簡(jiǎn)談MC7字節(jié)碼
        TEXTURE ON TEXTURE質(zhì)地上的紋理
        Coco薇(2017年8期)2017-08-03 15:23:38
        基于最大加權(quán)投影求解的彩色圖像灰度化對(duì)比度保留算法
        基于灰度線性建模的亞像素圖像抖動(dòng)量計(jì)算
        人妻少妇乱子伦精品| 久久少妇高潮免费观看| 青青草视频在线观看色| 色www永久免费视频| 亚洲色偷偷色噜噜狠狠99| 久久精品综合国产二区| 一级老熟女免费黄色片| 又色又爽又黄高潮的免费视频 | 不卡高清av手机在线观看| 国产在线观看黄| 人妻丰满熟妇一二三区| 免费不卡无码av在线观看| 久久精品一区二区三区av| 亚洲欧美日韩精品高清| 一本色道久久88加勒比—综合| 中国少妇×xxxx性裸交| 小sao货水好多真紧h视频| 99久久精品久久久| 成人在线观看av毛片| 最近2019年好看中文字幕视频| 国产女在线| 日本a一区二区三区在线| 天堂视频在线观看一二区| 激情综合一区二区三区| 日韩av二区三区一区| 亚洲国产91高清在线| 国产精品国产三级国产专播| 日韩精品无码久久一区二区三| 日本一区二区三区在线| 风骚人妻一区二区三区| 四虎影视永久在线观看| 久久精品国产亚洲婷婷| 国产精品自拍视频在线| 国产美女做爰免费视频| 亚洲欧美成人a∨| 亚洲天堂色婷婷一区二区| 亚洲av成人一区二区三区本码 | 免费又黄又爽又色的视频| 广东少妇大战黑人34厘米视频 | 宅男视频一区二区三区在线观看| 亚洲精品国产精品国自产|