亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征隨機(jī)森林的惡意代碼檢測

        2020-10-15 11:02:26李劭杰
        關(guān)鍵詞:分類特征

        李劭杰 王 晨 史 崯

        1(武漢郵電科學(xué)研究院 湖北 武漢 430074) 2(南京烽火軟件股份有限公司 江蘇 南京 210000)

        0 引 言

        飛速發(fā)展的互聯(lián)網(wǎng)技術(shù)推動人類社會不斷進(jìn)步,然而互聯(lián)網(wǎng)技術(shù)的不斷革新也促進(jìn)了惡意代碼的發(fā)展壯大,其危害從原來的計(jì)算機(jī)虛擬世界逐漸延伸到現(xiàn)實(shí)生活中?!?018年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢報(bào)告》顯示[1],網(wǎng)絡(luò)安全問題越來越尖銳,目前的網(wǎng)絡(luò)安全問題已經(jīng)從高技術(shù)人員為展現(xiàn)技術(shù)的惡作劇式攻擊,轉(zhuǎn)變成目的性極強(qiáng)、組織嚴(yán)密、技術(shù)高超的團(tuán)伙式黑色產(chǎn)業(yè)鏈,攻擊者的黑手不斷向各個領(lǐng)域傳導(dǎo)滲透?!禙reebuff 2018年度互聯(lián)網(wǎng)安全報(bào)告》顯示[2],惡意代碼的種類和數(shù)量日漸龐大,危害日益嚴(yán)重。惡意代碼在眾多的網(wǎng)絡(luò)威脅和安全事件中最具威脅性,在網(wǎng)絡(luò)安全防護(hù)中已知的惡意軟件攻擊反而相對威脅較小,真正具有巨大破壞力的是潛在的病毒威脅。隨著互聯(lián)網(wǎng)和移動端的技術(shù)進(jìn)步,惡意軟件的攻擊手段和攻擊形式也發(fā)生了巨大的變化。例如2018年頻發(fā)的勒索軟件惡意程序利用影響范圍廣的漏洞快速傳播,形式和目的都具有多樣性,對我國的政府、醫(yī)療和教育等機(jī)構(gòu)造成了嚴(yán)重的損失。云平臺給我們的生活帶來極大的便利,我們將大量關(guān)乎國計(jì)民生、企業(yè)運(yùn)營的系統(tǒng)平臺部署到云服務(wù)器上,這也使云服務(wù)平臺成為黑客攻擊的重災(zāi)區(qū)。2018年,云平臺遭受的攻擊超過其他各類型網(wǎng)絡(luò)安全事件總比例的50%,其中攻擊手段以DDoS攻擊、植入后門和篡改網(wǎng)站為主。另外惡意軟件攻擊越來越多開始針對工業(yè)控制系統(tǒng)并且?guī)в袠O強(qiáng)的目的性,惡意軟件Trisis就曾成功襲擊我國某石油天然氣工廠致使工廠停運(yùn)?,F(xiàn)在有越來越多的惡意嗅探器針對國內(nèi)的工業(yè)設(shè)備、系統(tǒng)平臺進(jìn)行目的性極強(qiáng)的偵測,雖然目前仍未造成較大的損失,但仍需提高警惕。黑客攻擊從原來原始的單一攻擊手段演變到現(xiàn)在復(fù)雜多重偽裝的安全事件,提醒我們惡意軟件的檢測防護(hù)工作時刻不能放松,否則會給我們的生活帶來難以估量的損失。但是惡意代碼在變種的過程中有許多內(nèi)聯(lián)性和相似性,多特征融合檢測方法可以有效地發(fā)現(xiàn)潛在的惡意代碼?,F(xiàn)代惡意代碼樣本數(shù)據(jù)規(guī)模十分龐大,機(jī)器學(xué)習(xí)算法能有效克服這一困難,完成對龐大數(shù)據(jù)集的訓(xùn)練。隨機(jī)森林以決策樹為基礎(chǔ)高度靈活且準(zhǔn)確地對惡意代碼完成分類,通過判斷種類來確定樣本是否已知,從而采取相應(yīng)的安全措施,是一種值得嘗試的方法。

        1 相關(guān)研究

        20世紀(jì)70年代Creeper程序由BNN Technologies的開發(fā)人員Bob Thomas創(chuàng)建,標(biāo)志著計(jì)算機(jī)病毒的概念由此產(chǎn)生。雖然這個程序初衷并非要破壞個人電腦,且該程序也是在數(shù)年之后才被認(rèn)定為是病毒,但是其程序設(shè)計(jì)理念是當(dāng)下惡意程序的藍(lán)本。隨著Reaper程序誕生,它能從系統(tǒng)中完美地切斷Creeper并將其刪除,因此Reaper程序也被稱為第一個“殺毒軟件”,就此拉開了惡意代碼攻擊與防護(hù)拉鋸戰(zhàn)的序幕,以至于眾多組織機(jī)構(gòu)投入大量的資金和精力到惡意代碼的檢測和防護(hù)當(dāng)中。

        機(jī)器學(xué)習(xí)是目前計(jì)算機(jī)技術(shù)的熱門話題,而網(wǎng)絡(luò)安全問題又是一個經(jīng)久不衰的命題,兩者互相滲透后也產(chǎn)生了意想不到的效果。崔鴻雁等[3]提出了機(jī)器學(xué)習(xí)中特征選擇的方法,并針對五大類機(jī)器學(xué)習(xí)算法展開了深入探討,羅列了多種情況,分析了各種算法的解決思路和適用場景以及當(dāng)數(shù)據(jù)量不足時的解決辦法。高程程等[4]提出了可以將木材表面抽象成灰度圖像再通過灰度共生矩陣發(fā)現(xiàn)木材表面的紋理特征,這個構(gòu)想可以應(yīng)用于惡意代碼的檢測,因?yàn)閻阂獯a同樣可以可視化為灰度圖像。周綺鳳等[5]提出了一種優(yōu)化隨機(jī)森林特征選擇的方式,將隨機(jī)森林的相似度矩陣看作一種特殊的核度量,提出相似性比率的轉(zhuǎn)化量作為優(yōu)先選擇特征的重要指標(biāo),來選取隨機(jī)森林的特征。隨著信息技術(shù)的發(fā)展惡意代碼也衍生出了種類繁多的變種,但是對于相同族類的惡意代碼其核心代碼段具有很高的傳承性[6]。因此我們可以將這部分代碼作文本相似比對,或者轉(zhuǎn)化成圖像進(jìn)行比對。多分類器算法中隨機(jī)森林算法(RF)是一個典型代表,作為一種重要和常用的數(shù)據(jù)挖掘技術(shù),隨機(jī)森林算法在各個行業(yè)和領(lǐng)域都有不錯的分類和預(yù)測能力[7]。本文通過選取多角度特征與隨機(jī)森林算法相結(jié)合,以達(dá)到對惡意代碼完成分類的目的。

        2 惡意代碼文件特征提取

        2.1 灰度圖特征提取

        2.1.1惡意代碼可視化

        惡意代碼可視化將單純的文本拓展到了空間圖像領(lǐng)域,可以更有效地分析惡意代碼結(jié)構(gòu),為發(fā)現(xiàn)其潛在特征提供了新的思路。隨后提出了惡意代碼轉(zhuǎn)換成灰度圖像的想法,將惡意代碼二進(jìn)制文件利用B2M算法轉(zhuǎn)換為未壓縮灰度圖像。將惡意軟件做反匯編的預(yù)處理,得到.asm后將其作為二進(jìn)制位流讀取,長度length由文件大小和寬度自動獲得,向量以二維矩陣的形式排列,每個矩陣元素具有0到255的值[8]?;叶葓D像是無色彩的2D圖像,可記錄明亮的信息,因此,惡意代碼文件轉(zhuǎn)化而來的矩陣中每個元素都可以當(dāng)作灰度圖里的像素點(diǎn),映射成無壓縮灰度圖像。

        2.1.2灰度圖紋理特征

        盡管反檢測技術(shù)產(chǎn)生了大量惡意代碼變體,但變體惡意代碼在很大程度上共享了祖先的大部分源代碼。惡意軟件在代碼結(jié)構(gòu)上大同小異,殊途同歸。利用B2M算法將不同家族惡意代碼文件轉(zhuǎn)化為對應(yīng)的灰度圖像,圖1被虛線分割開的4個部分:惡意代碼Adialer.C、Instantaccess、Lolyda.AA2和Swizzor.gen!I生成的灰度圖像。

        圖1 灰度圖

        由虛線分隔的4個區(qū)域代表4 種惡意代碼族,肉眼可以看出同家族的惡意代碼圖像整體上呈現(xiàn)相似性,不同家族代碼呈現(xiàn)不同的紋理結(jié)構(gòu),有較明顯的差別,惡意代碼文件轉(zhuǎn)化來的灰度圖能夠有效地取代惡意代碼文件本身,成為其另一種表達(dá)形式。

        2.1.3灰度共生矩陣

        灰度共生矩陣是通過空間特性來描述灰度圖像的紋理特征,惡意代碼PE文件不同程序段在其轉(zhuǎn)化來的灰度圖像中對應(yīng)著不同的紋理表現(xiàn),紋理特征由像素值排列分布反映出差別。圖2是一幅紋理像素的放大圖以及其對應(yīng)的灰度矩陣,可以看出灰度圖有三個灰度級別,所以其灰度共生矩陣應(yīng)為3×3的矩陣。

        圖2 灰度像素圖及矩陣

        則圖2中灰度像素圖的灰度共生矩陣為:

        (1)

        歸一化后的形式為:

        (2)

        灰度共生矩陣通過灰度像素圖及其灰度像素矩陣計(jì)算而得,灰度共生矩陣的一些特征值代表灰度像素圖的部分特性??梢酝ㄟ^一些參數(shù)體現(xiàn)圖像間清晰度的差異,觀察其矩陣內(nèi)部行和列的相似程度,以及灰度分布均勻度和紋理的粗細(xì)程度,還可以發(fā)現(xiàn)紋理是否存在一致性。這些值可以在一定程度上反映一幅灰度圖像的特性,選用這些值作為灰度共生矩陣的特征,可以有效地篩選出相同類別的惡意軟件。

        2.1.4灰度直方圖

        數(shù)字圖像既具有空間分布特性又有統(tǒng)計(jì)特性,也是灰度圖像的顏色特征,灰度直方圖可以在一定程度上代表數(shù)字圖像的全局特征?;趫D1中不同惡意代碼家族圖像像素亮度的分布特性表現(xiàn)出明顯的差別,采用灰度直方圖作為惡意代碼全局特征并驗(yàn)證其在分類中的表現(xiàn)。惡意代碼Adialer.C灰度直方圖如圖3所示。

        圖3 Adialer.C灰度直方圖

        量化灰度圖后方便提取其灰度分布的特征,直方圖統(tǒng)計(jì)的數(shù)據(jù)和圖像中亮暗的位置無關(guān),將灰度圖以像素點(diǎn)為基本單元劃分灰度子空間,分割為0~255共256個像素單元,遍歷整幅圖像統(tǒng)計(jì)落在每個單元像素點(diǎn)的像素?cái)?shù)。

        2.2 OpCode N-Gram的特征提取

        先從.asm文件中獲取操作碼序列[9]。N-Gram模型的第n個單詞僅與其前n-1個單詞相關(guān),整個句子出現(xiàn)的概率就等于各個詞出現(xiàn)的概率乘積,可以快速地完成文本相似度比對。本文準(zhǔn)備對2-Gram至6-Gram的特征進(jìn)行簡單的測試,由于4-Gram以上的測試需要龐大的語料且時間復(fù)雜度很高所以測試效果并不理想,準(zhǔn)確率也低于3-Gram特征,所以本文決定采用出現(xiàn)次數(shù)超過400的3-Gram作為特征。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文數(shù)據(jù)集由微軟公司在2015年 Kaggle 的惡意代碼分類大賽中提供,本文選用的惡意代碼共9類,包括Adialer.C、Instantaccess、Lolyda.AA1、Lolyda.AA2、Lolyda.AA3、Yuner.A、VB.AT、Skintrim.N和Swizzor.gen!I[10]。從35 GB的Kaggle數(shù)據(jù)集中抽取2 000條數(shù)據(jù)進(jìn)行實(shí)驗(yàn),訓(xùn)練測試數(shù)據(jù)按照6 ∶4的比例進(jìn)行測試。

        3.2 隨機(jī)森林算法

        隨機(jī)森林算法有其獨(dú)特的采樣方式和分類形式,它采用“裝袋”的方式訓(xùn)練數(shù)據(jù),首先從原始樣本集中抽取訓(xùn)練集進(jìn)行n輪抽取得到n個訓(xùn)練集,然后使用抽取的n個訓(xùn)練集得到n個模型,最后n個訓(xùn)練集按照投票的方式得到分類結(jié)果。其中:f表示特征;c表示基于某種特征得到的分類結(jié)果。如圖4所示。

        圖4 基礎(chǔ)模型(決策樹)

        每棵樹由列采樣隨機(jī)使用一定量特征值訓(xùn)練出來,并且每棵樹的分類能力具有很強(qiáng)的針對性,將一個樣本通過決策樹按照不同的角度進(jìn)行分類,并將這些預(yù)測結(jié)果通過投票的方式給出最終結(jié)果,將針對分類能力強(qiáng)的分類器整合,是集體智慧的體現(xiàn),其分類性能往往高于單個分類器[10]。

        Gini系數(shù)是我們選擇隨機(jī)森林特征的重要參考標(biāo)準(zhǔn)。特征選擇依據(jù)于Gini系數(shù)的增益,Gini系數(shù)用來計(jì)算樣本不純度的公式如下:

        (3)

        式中:c表示數(shù)據(jù)集類別數(shù)量;i表示第i種分類;計(jì)算樣本數(shù)量占所有樣本的比例,數(shù)據(jù)混合程度越高Gini指數(shù)也越高。若數(shù)據(jù)集T被特征A分成n個Ta子集,則分裂后屬性A劃分子集的Gini指數(shù)為:

        (4)

        其增益指數(shù)為:

        ΔGini(A)=Gini(T)-GiniA(T)

        (5)

        分類器采用隨機(jī)森林算法,為了準(zhǔn)確地進(jìn)行分析和驗(yàn)證,本實(shí)驗(yàn)使用以下幾個參數(shù)進(jìn)行驗(yàn)證分析:

        (6)

        (7)

        (8)

        (9)

        式中:TP表示為預(yù)測為真,實(shí)際為真;TN預(yù)測為假,實(shí)際為假;FP預(yù)測為真,實(shí)際為假;FN為預(yù)測為假,實(shí)際為假。

        本文之所以選擇隨機(jī)森林算法,是因?yàn)殡S機(jī)森林算法可以處理高維數(shù)據(jù),在采樣時有其獨(dú)有的特點(diǎn),隨機(jī)抽樣和又放回的抽樣兩個隨機(jī)性可有效地減小過擬合程度,旦其特征遺失仍可以維持準(zhǔn)確度。Opcode N-Gram和灰度圖紋理特征都是對惡意代碼局部的描述,必然會遺失其他信息,各種混淆技術(shù)會導(dǎo)致代碼不全,隨機(jī)森林模型具有對缺失值不敏感的特點(diǎn),所以其對惡意代碼特征有很好的包容性,能夠?qū)共糠只煜?/p>

        3.3 單一特征分類性能比較

        3.3.1基于灰度直方圖的隨機(jī)森林

        將3種特征的特征向量分別輸送到隨機(jī)森林分類器進(jìn)行訓(xùn)練,數(shù)據(jù)集訓(xùn)練時均采用Cross-Validation交叉驗(yàn)證以避免陷入局部最小值造成過擬合的情形。隨機(jī)按比例抽取60%數(shù)據(jù)作為訓(xùn)練集,其余數(shù)據(jù)作為測試集。

        由表1可知共有實(shí)例1 524例,其中1類實(shí)例共有118例,預(yù)測正確的有99例,錯誤預(yù)測成3類的共有15例,錯誤預(yù)測成4、5、7類的各有2、1、1個,2類預(yù)測正確的76例無預(yù)測錯誤,3類實(shí)例共有119例,預(yù)測正確有103例,錯誤預(yù)測共有16例。錯誤預(yù)測成1、6、7類的各有2、3、11個,以此類推。

        表1 混淆矩陣

        由表2可知利用隨機(jī)森林算法和灰度直方圖獲得的特征值相結(jié)合其準(zhǔn)確率為93.96%,能有效地對惡意代碼進(jìn)行分類。

        表2 綜合指標(biāo)

        3.3.2基于OpCode3-Gram的隨機(jī)森林

        同樣參照上文的方法可以發(fā)現(xiàn),采用OpCode N-Gram的方式作為特征預(yù)測,數(shù)據(jù)集中不同惡意代碼文件大小不一,從全部的惡意代碼數(shù)據(jù)集中提取所有操作指令的 N-Gram數(shù)量過大,本文對此進(jìn)一步作特征選擇。

        分別選取N值為{2,3,4,5,6}進(jìn)行不同元組的分類準(zhǔn)確率對比,結(jié)果如圖5所示。經(jīng)過測試發(fā)現(xiàn)與隨機(jī)森林算法相結(jié)合后3-Gram特征的準(zhǔn)確率和穩(wěn)定性都要略優(yōu)于其他兩種特征,其準(zhǔn)確率為94.75%。對比灰度直方圖特征,3-Gram特征略強(qiáng)于灰度直方圖的特征值的隨機(jī)森林,所以其同樣也能有效地對惡意代碼進(jìn)行分類。

        圖5 N-Gram對分類準(zhǔn)確率的影響

        3.3.3基于灰度共生矩陣的隨機(jī)森林

        利用隨機(jī)森林算法和灰度共生矩陣獲得的特征值相結(jié)合,本文選取灰度共生矩陣的對比度、相異性、同質(zhì)性、能量和自相關(guān)系數(shù)作為灰度共生矩陣提取出的灰度圖像特征。惡意代碼的分類準(zhǔn)確率為96.01%,相較于其他兩個單一特征準(zhǔn)確率最高,具有良好的分類效果。

        3.3.4基于特征融合隨機(jī)森林

        將三個特征融合在一起,如表3所示。

        表3 融合特征綜合指標(biāo)

        特征向量合并成新的特征向量輸入隨機(jī)森林分類器,進(jìn)行多次訓(xùn)練后按照融合特征綜合指標(biāo)所示,根據(jù)圖6所示三種特征融合后作為新的特征構(gòu)成的隨機(jī)森林,在精確率、召回率和F1參數(shù)上都有一定的提高,說明融合特征作為分類標(biāo)準(zhǔn)能取得較好的分類效果。

        圖6 各特征準(zhǔn)確率比較

        與3個單一特征分類的平均準(zhǔn)確度相比,融合特征的分類準(zhǔn)確率為97.04%,比單個特征中具有最高準(zhǔn)確度的灰度共生矩陣高1.03%,充分說明組合特征能夠很好地對惡意代碼進(jìn)行準(zhǔn)確分類。

        4 結(jié) 語

        從惡意代碼反編譯文件的核心代碼出發(fā)提取Opcode N-Gram 和灰度共生矩陣特征以及可以描述病毒文件的全局特征的灰度直方圖,算法系統(tǒng)由特征提取、訓(xùn)練特征集、聚類3部分組成,實(shí)驗(yàn)結(jié)果表明融合后的特征可以有效清晰地描述惡意代碼特征,從而判斷其種類。本文對9類惡意代碼樣本進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明灰度直方圖的隨機(jī)森林、灰度共生矩陣的隨機(jī)森林、N-Gram的隨機(jī)森林,以及融合特征的隨機(jī)森林均可以有效地進(jìn)行惡意代碼的分類,其中3種特征融合后與隨機(jī)森林算法相結(jié)合其分類效果顯著提升。目前更多的是靜態(tài)特征融合,從代碼生成的灰度圖紋理和惡意代碼文本兩方面為切入點(diǎn),取得不錯的分類效果。下一步將融合一些動態(tài)特征,比如惡意軟件的行為特征,觀察其是否可以進(jìn)一步提高惡意代碼分類的準(zhǔn)確率,從而進(jìn)一步優(yōu)化分類器。

        猜你喜歡
        分類特征
        抓住特征巧觀察
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        日本丰满人妻xxxxxhd| 日韩有码在线一区二区三区合集| 亚洲成av人片女在线观看| 尤物网址在线观看| 激情婷婷六月| 中文乱码字幕在线中文乱码 | 国产一区二三区中文字幕| 国产精品沙发午睡系列| 国产高潮刺激叫喊视频| 欧美亚洲国产日韩一区二区三区| 国内专区一区二区三区| 中文字幕在线乱码一区| 久久久久国产一区二区| 国产成人亚洲综合无码精品| 丝袜美腿亚洲综合久久 | 青青草是针对华人绿色超碰| 亚洲av成人无码久久精品老人| 97夜夜澡人人爽人人喊中国片| 91精品久久久久含羞草| 美女一区二区三区在线视频| 好大好湿好硬顶到了好爽视频 | 久久老熟女乱色一区二区| 99视频在线精品免费观看6| 欧洲一卡2卡三卡4卡免费网站| 亚洲精品成人av观看| av一区二区在线免费观看| 成人一区二区免费中文字幕视频 | 国产真实二区一区在线亚洲| 亚洲综合日韩一二三区| 色 综合 欧美 亚洲 国产| 久久精品国产亚洲不av麻豆| 91青青草手机在线视频| 亚洲自偷精品视频自拍| 国产午夜福利短视频| 黄色三级视频中文字幕| 国产肥熟女免费一区二区| 国产av无码专区亚洲awww| 东京热加勒比在线观看| 国产性感午夜天堂av| 久久精品夜色国产亚洲av| 99福利网|