亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于行為路徑樹的惡意軟件分類方法

        2020-06-09 07:20:52金炳初石志強(qiáng)張智淵陳俊杰
        關(guān)鍵詞:分類深度特征

        金炳初,文 輝,石志強(qiáng),張智淵,陳俊杰

        1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原030024

        2.中國科學(xué)院 信息工程研究所 物聯(lián)網(wǎng)信息安全技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100195

        3.中國科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京100195

        1 引言

        惡意軟件是一種用來實(shí)現(xiàn)攻擊者有害意圖的軟件[1],旨在獲取對(duì)計(jì)算機(jī)系統(tǒng)和網(wǎng)絡(luò)資源的訪問,干擾計(jì)算機(jī)操作,并在未經(jīng)系統(tǒng)所有者同意的情況下收集個(gè)人信息,對(duì)互聯(lián)網(wǎng)的可用性、主機(jī)的完整性和用戶的隱私構(gòu)成嚴(yán)重威脅[2]。在互聯(lián)網(wǎng)飛速發(fā)展的今天,網(wǎng)絡(luò)安全形勢(shì)不容樂觀。2016 年,賽門鐵克公司共監(jiān)測(cè)到超過35億個(gè)惡意軟件的新型變種,100多個(gè)新型惡意軟件家族,數(shù)量是過去的3倍[3]。2017年,騰訊電腦管家統(tǒng)計(jì)數(shù)據(jù)顯示,PC端總計(jì)已攔截病毒近30億次,平均每月攔截木馬病毒近2.45 億次,全年共發(fā)現(xiàn)6.3 億臺(tái)用戶機(jī)器中病毒或木馬[4]。2018 年上半年瑞星“云安全”系統(tǒng)共截獲病毒樣本總量2 587萬個(gè),病毒感染次數(shù)7.82億次,其中新增木馬病毒占總體數(shù)量的62.83%[5]。綜上所述,惡意軟件數(shù)量迅速增加的同時(shí),呈現(xiàn)出多樣化、多態(tài)化的趨勢(shì)。傳統(tǒng)的基于病毒特征碼的檢測(cè)技術(shù)無法檢測(cè)新增惡意軟件,雖然部分惡意軟件檢測(cè)技術(shù)采用啟發(fā)式的檢測(cè)方法,使用API 序列、系統(tǒng)全局鉤子等方式監(jiān)測(cè)軟件行為,但這樣的方式速度慢、效率低且存在安全隱患,不適合大規(guī)模的惡意樣本檢測(cè)[6]。因此,如何快速進(jìn)行惡意軟件的檢測(cè),已成為網(wǎng)絡(luò)安全界關(guān)注的焦點(diǎn),其中惡意軟件分類是檢測(cè)新型惡意軟件的第一步[7],在對(duì)抗惡意軟件多態(tài)與多樣性具有重要意義。

        目前用于分類惡意軟件的技術(shù)可分為兩大類:基于靜態(tài)特征的方法和基于動(dòng)態(tài)特征的方法。靜態(tài)特征指的是在惡意樣本不運(yùn)行的情況下通過分析程序指令與結(jié)構(gòu)提取的特征[8],常用的靜態(tài)特征包括字符串、指令序列以及字節(jié)序列等,這些靜態(tài)特征粒度雖細(xì),但不能反應(yīng)樣本真實(shí)的惡意行為。動(dòng)態(tài)特征則是在惡意樣本運(yùn)行后,與系統(tǒng)進(jìn)行交互所產(chǎn)生的狀態(tài)變化,如注冊(cè)表、文件系統(tǒng)、網(wǎng)絡(luò)活動(dòng)。常用的動(dòng)態(tài)特征包括系統(tǒng)調(diào)用及參數(shù)、網(wǎng)絡(luò)活動(dòng)等,從動(dòng)態(tài)特征中可以觀察到惡意樣本的真實(shí)活動(dòng)。

        根據(jù)目前的研究現(xiàn)狀,本文提出了一種基于行為路徑樹的惡意軟件分類方法,首先在虛擬環(huán)境中捕捉惡意樣本與系統(tǒng)交互的行為路徑,然后將其轉(zhuǎn)化為樹型結(jié)構(gòu)并提取特征向量。最后構(gòu)建了基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型對(duì)樣本進(jìn)行分類。本文的貢獻(xiàn)主要包含以下3部分:

        (1)本文設(shè)計(jì)了一種基于行為路徑的惡意樣本特征提取方法,與基于系統(tǒng)調(diào)用的特征提取相比,能以更小的代價(jià)生成特征間的依賴關(guān)系。

        (2)本文從多個(gè)公開數(shù)據(jù)集收集并構(gòu)建了一個(gè)惡意樣本數(shù)據(jù)庫,包含102 個(gè)惡意軟件家族,共計(jì)37 000 個(gè)惡意樣本。

        (3)本文構(gòu)建了一個(gè)基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型,該模型能夠通過隨機(jī)逼近的方式完成行為路徑樹深度尋優(yōu),且惡意軟件分類效果優(yōu)于其他常見的分類器算法。

        2 相關(guān)工作

        傳統(tǒng)基于動(dòng)態(tài)特征的惡意軟件分類方法中,主要使用系統(tǒng)調(diào)用及參數(shù)作為樣本動(dòng)態(tài)特征。文獻(xiàn)[7]提出了一種基于最大分量子圖檢測(cè)的惡意軟件分類方法。在沙箱環(huán)境中運(yùn)行惡意樣本后,捕獲系統(tǒng)調(diào)用以及這些調(diào)用的參數(shù)值,并從這些系統(tǒng)調(diào)用中生成有向圖,通過計(jì)算最大公共子圖來比較兩個(gè)樣本的相似度。文獻(xiàn)[9]使用動(dòng)態(tài)分析工具從運(yùn)行在虛擬環(huán)境中的可執(zhí)行文件中提取系統(tǒng)調(diào)用序列,并使用隨機(jī)森林分類器對(duì)惡意軟件進(jìn)行分類,在其使用的數(shù)據(jù)集中達(dá)到97%的準(zhǔn)確率。文獻(xiàn)[10]提出了一種基于網(wǎng)絡(luò)行為的惡意軟件分類框架,網(wǎng)絡(luò)行為以pcap文件的形式輸入到框架中,提取包含IP地址、端口號(hào)和協(xié)議信息的網(wǎng)絡(luò)流作為惡意軟件動(dòng)態(tài)特征,將網(wǎng)絡(luò)流及其依賴關(guān)系抽象成行為圖來表示惡意軟件的網(wǎng)絡(luò)活動(dòng)。文獻(xiàn)[11]提出了一種利用機(jī)器學(xué)習(xí)對(duì)惡意樣本進(jìn)行聚類的方法。數(shù)據(jù)集中所有樣本都在虛擬環(huán)境中運(yùn)行,并監(jiān)視系統(tǒng)調(diào)用及其參數(shù)。創(chuàng)建包含注冊(cè)表鍵、寫入文件和網(wǎng)絡(luò)活動(dòng)的行為概要文件。通過計(jì)算兩個(gè)概要文件之間的相似性,利用聚類算法將惡意樣本分組到不同的集群中。文獻(xiàn)[12]提出了一種降低沙箱分析結(jié)果復(fù)雜性的惡意軟件指令集(MIST),將沙箱分析結(jié)果轉(zhuǎn)化為指令的形式,輸入惡意軟件分類模型中,取得了較好的實(shí)驗(yàn)結(jié)果。

        以上基于動(dòng)態(tài)特征的惡意軟件分類方法中,系統(tǒng)調(diào)用序列與沙箱分析結(jié)果指令化忽略了系統(tǒng)調(diào)用間的依賴關(guān)系;網(wǎng)絡(luò)行為圖的方法缺少注冊(cè)表、文件系統(tǒng)等基于主機(jī)的特征,這種特征提取的片面性導(dǎo)致分類結(jié)果不可信;系統(tǒng)調(diào)用圖中通過結(jié)點(diǎn)間的有向邊體現(xiàn)系統(tǒng)調(diào)用之間的依賴關(guān)系,但圖中過多的回路增加了圖結(jié)構(gòu)的復(fù)雜度,加大分類模型的性能開銷。

        針對(duì)以上方法中出現(xiàn)的問題,本文提出了基于行為路徑樹的惡意軟件分類方法,該方法選擇惡意樣本細(xì)粒度行為路徑作為樣本動(dòng)態(tài)特征,行為路徑中包含基于主機(jī)和網(wǎng)絡(luò)的特征,涵蓋了惡意樣本對(duì)注冊(cè)表、文件系統(tǒng)以及網(wǎng)絡(luò)的操作。此外,本文將行為路徑轉(zhuǎn)化為樹型結(jié)構(gòu),稱作行為路徑樹。樹型結(jié)構(gòu)中相同路徑的行為都?xì)w為樹型結(jié)構(gòu)的一個(gè)結(jié)點(diǎn),有相同路徑前綴的行為則有相同的父結(jié)點(diǎn),降低結(jié)構(gòu)復(fù)雜度的同時(shí),又保留了行為之間的依賴關(guān)系(父結(jié)點(diǎn)與子結(jié)點(diǎn))。

        3 基于自適應(yīng)隨機(jī)森林的分類方法

        本章主要描述了基于自適應(yīng)隨機(jī)森林的惡意軟件分類方法,整體流程如圖1所示。首先在虛擬環(huán)境中通過監(jiān)控惡意樣本運(yùn)行捕獲惡意操作,包括惡意樣本對(duì)注冊(cè)表、文件系統(tǒng)及網(wǎng)絡(luò)的相關(guān)操作;然后將其按照操作目標(biāo)的不同劃分多個(gè)細(xì)粒度行為,并獲取相應(yīng)的行為路徑;再次,將捕獲到的行為路徑轉(zhuǎn)化成樹型結(jié)構(gòu),按照一定規(guī)則從樹型結(jié)構(gòu)中進(jìn)行特征提取并進(jìn)行特征離散化;最后采用集成學(xué)習(xí)構(gòu)建基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型,分類結(jié)果通過Bagging 策略來決定。本文在下面的部分中將更詳細(xì)地描述各個(gè)步驟。

        圖1 整體流程

        3.1 動(dòng)態(tài)行為獲取

        惡意樣本動(dòng)態(tài)行為獲取是通過對(duì)樣本進(jìn)行監(jiān)控,捕獲樣本細(xì)粒度行為路徑。獲取過程如下:首先配置虛擬環(huán)境,并設(shè)置網(wǎng)絡(luò)連接方式為host-only,防止惡意樣本對(duì)真實(shí)的操作系統(tǒng)造成影響;其次,對(duì)惡意樣本進(jìn)行動(dòng)態(tài)行為監(jiān)控與捕獲,包括被監(jiān)控惡意樣本對(duì)注冊(cè)表、文件系統(tǒng)以及網(wǎng)絡(luò)活動(dòng)的操作;再次,根據(jù)操作對(duì)象的不同,將同一操作劃分為細(xì)粒度行為;最后捕獲樣本細(xì)粒度行為路徑。圖2 為惡意樣本locky.exe 的部分監(jiān)控結(jié)果,惡意樣本的運(yùn)行代表程序中API序列的執(zhí)行,API與行為路徑之間存在一對(duì)多的關(guān)系,例如函數(shù)RegQuery-ValueEx 對(duì)應(yīng)圖中查詢注冊(cè)表鍵值的操作RegQuery-Value,該操作根據(jù)查詢對(duì)象不同可分為多個(gè)細(xì)粒度查詢行為RegQueryValue(reg1),RegQueryValue(reg2),…,RegQueryValue(regN),每種查詢行為都對(duì)應(yīng)一條行為路徑。

        圖2 監(jiān)控結(jié)果

        3.2 動(dòng)態(tài)特征提取

        動(dòng)態(tài)特征提取是將行為路徑轉(zhuǎn)化為樹型結(jié)構(gòu),再從樹型結(jié)構(gòu)生成特征向量的過程,本文中將該樹型結(jié)構(gòu)稱作行為路徑樹。惡意樣本的行為路徑樹是動(dòng)態(tài)生成的,其生成方式按照路徑一致性原則將路徑序列合并到已有行為樹中。路徑一致性原則如下,每獲取樣本的一條行為路徑,都會(huì)遍歷當(dāng)前已存在的行為路徑樹,若路徑樹中存在完全相同的路徑,則將該路徑中所有目錄結(jié)點(diǎn)間的邊權(quán)值加1;若樹中存在不完全相同(擁有相同路徑前綴)的路徑,則將該路徑前綴中目錄結(jié)點(diǎn)間的邊權(quán)值加1,并從前綴中最后一個(gè)結(jié)點(diǎn)處生成新的分支,新分支中邊權(quán)值初始化為1;若樹中不存在相同的路徑或路徑前綴,則從行為樹的根結(jié)點(diǎn)處生成新的分支,邊權(quán)值初始化為1。

        綜上所述,行為路徑樹有3個(gè)重要組成部分。(1)結(jié)點(diǎn):合并相同的行為路徑作為路徑樹中的結(jié)點(diǎn)。(2)依賴關(guān)系:擁有相同路徑前綴的行為構(gòu)成路徑樹中的父與子結(jié)點(diǎn)。(3)邊權(quán)值:從上層目錄到下層目錄的訪問次數(shù)。

        行為路徑樹構(gòu)建完成后,按照結(jié)點(diǎn)與邊權(quán)值交錯(cuò)的方式進(jìn)行動(dòng)態(tài)特征提取,最大限度保留樹型結(jié)構(gòu)的完整性。動(dòng)態(tài)特征提取過程如圖3所示,其中樹型結(jié)構(gòu)的第一層為根結(jié)點(diǎn),即惡意樣本自身,Ci為行為路徑樹中第i 層結(jié)點(diǎn)個(gè)數(shù)之和,Wj為第j 到第j+1 層的邊權(quán)值之和,特征向量T=(C1,W1,C2,W2,C3,W3,C4,W4,C5,W5,C6,W6,C7)=(1,26,1,26,1,26,1,26,2,24,3,18,2)。

        圖3 (a) 惡意代碼路徑

        圖3 (b)惡意代碼路徑轉(zhuǎn)化為樹型結(jié)構(gòu)

        從行為路徑樹中提取的特征向量需要進(jìn)行最大最小值規(guī)一化,將各屬性值按比例映射到[0,1]區(qū)間,平衡各個(gè)屬性對(duì)距離的影響。映射公式如下,其中max(aj)和min(aj)表示所有元素項(xiàng)中第j 個(gè)屬性的最大值和最小值。

        3.3 依賴生成算法對(duì)比

        本節(jié)對(duì)行為路徑樹以及系統(tǒng)調(diào)用圖的依賴關(guān)系生成算法進(jìn)行對(duì)比,證明構(gòu)造行為路徑樹的復(fù)雜度更低。系統(tǒng)調(diào)用之間的依賴關(guān)系定義為參數(shù)之間的依賴關(guān)系[13],動(dòng)態(tài)分析中常用于構(gòu)造系統(tǒng)調(diào)用依賴關(guān)系的方法是動(dòng)態(tài)污點(diǎn)分析[14]。該技術(shù)首先使用污染標(biāo)簽對(duì)系統(tǒng)調(diào)用的輸入(_In_)、輸出(_Out_)參數(shù)進(jìn)行標(biāo)記,并生成記錄文件;然后檢查系統(tǒng)調(diào)用A 的輸入?yún)?shù)是否被污染,通過跟蹤被污染的輸入?yún)?shù),定位另一個(gè)系統(tǒng)調(diào)用B 的輸出參數(shù),創(chuàng)建從B 到A 的有向邊;最后遍歷所有的系統(tǒng)調(diào)用,生成系統(tǒng)調(diào)用圖。調(diào)用圖生成過程如圖4。

        圖4 系統(tǒng)調(diào)用圖生成過程

        系統(tǒng)調(diào)用圖的生成過程中,每生成圖中的一個(gè)結(jié)點(diǎn),都要遍歷所有的系統(tǒng)調(diào)用序列,算法復(fù)雜度為平方階?;谛袨槁窂綐涞膼阂廛浖诸惙椒ㄖ?,行為之間的依賴關(guān)系通過樹型結(jié)構(gòu)來體現(xiàn),樹型結(jié)構(gòu)中每一個(gè)結(jié)點(diǎn)的生成,只需要遍歷與該結(jié)點(diǎn)擁有相同路徑前綴的子樹即可,與系統(tǒng)調(diào)用圖的生成算法相比,構(gòu)造行為路徑樹的復(fù)雜度更低。

        3.4 自適應(yīng)隨機(jī)森林的惡意軟件分類模型

        傳統(tǒng)隨機(jī)森林分類模型的分類精度會(huì)受到行為路徑樹深度的影響,樹深度過低會(huì)降低模型的分類精度,樹深度過高則會(huì)產(chǎn)生大量冗余信息。傳統(tǒng)隨機(jī)森林分類模型的評(píng)分函數(shù)如下:

        其中,k 為行為路徑樹深度,m 為惡意樣本總量,bi為其中任意一個(gè)樣本,xk定義為行為路徑樹深度域R 中的前k 層,Y 是分類模型的最高分類精度,f(xk,bi)定義為行為路徑樹深度為k 時(shí)模型的分類精度。||Yf(xk,bi)||2的值越接近0,評(píng)分函數(shù)φ(xk,bi)的值越小,模型的分類效果越好。

        為解決傳統(tǒng)方法的弊端,本文構(gòu)建了基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型,該模型通過隨機(jī)逼近的方式完成行為路徑樹深度尋優(yōu),模型評(píng)分函數(shù)如下:

        本節(jié)主要描述了基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型構(gòu)建過程,整體流程如圖5所示。首先進(jìn)行離散化特征的生成;然后構(gòu)建隨機(jī)森林并對(duì)模型誤差進(jìn)行優(yōu)化;最后通過隨機(jī)逼近的方式對(duì)行為路徑樹深度進(jìn)行迭代尋優(yōu),得到最優(yōu)路徑樹深度。

        圖5 基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型

        3.4.1 離散化特征生成

        惡意樣本的特征向量中,結(jié)點(diǎn)數(shù)Ci與邊權(quán)值Wj均為連續(xù)的數(shù)值,不利于分類模型的快速迭代,需要對(duì)連續(xù)屬性進(jìn)行離散化,即將連續(xù)區(qū)間劃分為小區(qū)間,并將連續(xù)的小區(qū)間與離散的值關(guān)聯(lián)起來。本文使用基于熵的離散化方法將連續(xù)屬性離散化,離散化過程如下:

        步驟1 將連續(xù)屬性按照數(shù)值大小排序形成有序區(qū)間。

        步驟2 把有序區(qū)間劃分成為兩部分并計(jì)算熵值,當(dāng)總熵值最小時(shí),第一次劃分完成。計(jì)算公式如下,其中ei為第i 個(gè)區(qū)間的熵值,e 為總熵值。 y 為惡意軟件類別數(shù),pij為第i 個(gè)區(qū)間中屬于j 類的概率。Wi為第i個(gè)區(qū)間的數(shù)值個(gè)數(shù)占總區(qū)間的比例,n 為區(qū)間個(gè)數(shù)。

        步驟3 選擇熵值最大的區(qū)間重復(fù)步驟2過程,直到滿足指定的區(qū)間個(gè)數(shù)。

        3.4.2 隨機(jī)森林優(yōu)化

        隨機(jī)森林優(yōu)化指的是在行為路徑樹深度k 為定值的情況下,對(duì)分類模型誤差||Y-f(xk,bi)||2進(jìn)行優(yōu)化,具體方法是通過限制決策樹個(gè)數(shù)以及結(jié)點(diǎn)數(shù)來實(shí)現(xiàn)。隨機(jī)森林分類模型利用多棵決策樹對(duì)惡意樣本進(jìn)行訓(xùn)練和預(yù)測(cè),每一棵決策樹都是惡意軟件檢測(cè)的弱分類器,隨機(jī)森林則為結(jié)合多個(gè)弱分類器的強(qiáng)分類器[15]。分類模型的構(gòu)建包含兩部分,生成決策樹、構(gòu)建隨機(jī)森林。

        (1)生成決策樹

        決策樹的生成分為選擇訓(xùn)練集、選擇特征以及生成決策樹3部分。首先從N 個(gè)惡意樣本中有放回地抽取N 次作為訓(xùn)練集S;然后從惡意樣本的M 個(gè)屬性中,隨機(jī)選擇sqrt(M)個(gè)屬性作為決策樹的結(jié)點(diǎn)數(shù);最后根據(jù)信息增益最大原則選擇決策樹結(jié)點(diǎn),生成決策樹。以行為路徑樹每一層結(jié)點(diǎn)數(shù)、邊權(quán)值作為分類屬性的信息增益算法如下:

        S 為訓(xùn)練集,樣本家族分類結(jié)果為r1,r2,…,rn,惡意樣本家族的信息熵記為Entropy(S),信息熵計(jì)算公式如下:

        在樣本集S 中,設(shè)分類屬性第i 層結(jié)點(diǎn)數(shù)Ci在離散化之后有n 種屬性,分別為a1,a2,…,an,值為ai的所有樣本構(gòu)成的數(shù)據(jù)集記為Ai,則分類屬性Ci的信息增益記為Gain(Ci),計(jì)算公式如下:

        分類屬性的總量為M ,隨機(jī)選擇并計(jì)算sqrt(M)個(gè)分類屬性的信息增益,信息增益最高的屬性為決策樹的根結(jié)點(diǎn),其他結(jié)點(diǎn)按照信息增益最大原則來選擇。

        (2)構(gòu)建隨機(jī)森林

        首先從惡意樣本集中隨機(jī)進(jìn)行n 次采樣得到n 個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集的樣本容量都與原始樣本集相同;其次,按照決策樹的生成方式,對(duì)n 個(gè)訓(xùn)練集建立n 個(gè)決策樹模型;最終組合n 棵決策樹構(gòu)成隨機(jī)森林。隨機(jī)森林的分類結(jié)果通過集成學(xué)習(xí)方法Bagging 策略來確定,Bagging策略的公式如下。

        其中,xi為用于訓(xùn)練第i 棵決策樹的樣本集,通過n 輪訓(xùn)練,得到n 棵決策樹的分類模型序列{f1(x1),f2(x2),…,fn(xn)},F(xiàn)(x)表示隨機(jī)森林分類模型,fi是單棵決策樹,Z 表示決策樹預(yù)測(cè)的惡意樣本家族,I 為示性函數(shù)。

        3.4.3 最優(yōu)樹深度迭代(對(duì)xk進(jìn)行優(yōu)化)

        基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型采用隨機(jī)逼近的方式完成行為路徑樹深度尋優(yōu),通過重復(fù)“產(chǎn)生新的樹深度-計(jì)算評(píng)分函數(shù)差-接受或丟棄”的迭代過程,最終得到最優(yōu)路徑樹深度。該過程可描述為對(duì)一個(gè)自變量為k 目標(biāo)函數(shù)為φ1(xk,bi)的極小化問題,若φ1(xk,bi)>φ1(xk+1,bi),則接受k+1,并作為下一次迭代的初始值,直到滿足結(jié)束條件;若φ1(xk,bi)<φ1(xk+1,bi),則以概率p接受k+1。其中c 為迭代次數(shù),在迭代尋優(yōu)過程中,c 必須緩慢降低,否則會(huì)使優(yōu)化過程陷入局部極值點(diǎn)。

        行為路徑樹深度尋優(yōu)過程的偽代碼如下:

        輸入:外層迭代次數(shù)c、初始路徑樹深度k。輸出:最優(yōu)路徑樹深度k′。

        1. Initizlize h,j,p

        2. for t=c to t=0

        3. for i=1 to i=h

        4. k'=k+j

        5. Δφ1=φ1(xk',bi)-φ1(xk,bi)

        6. if (Δφ1<0)

        7. k=k'

        8. else

        9. 以概率p 接受k=k'

        10.end for

        11.output φ1(xk',bi)

        12.end for

        13.output k'

        其中,h 為內(nèi)層迭代次數(shù),對(duì)應(yīng)行為路徑樹的最大樹深度,j 為步長。每一次迭代的結(jié)果都是找到當(dāng)前狀態(tài)的極小值點(diǎn)(k',φ1(xk',bi)),由此得到關(guān)于行為路徑樹深度的序列集,序列集中min φ1(xk',bi)對(duì)應(yīng)的k′值即為最優(yōu)路徑樹深度。

        3.4.4 小結(jié)

        基于自適應(yīng)隨機(jī)森林的分類模型包含兩層迭代,其中內(nèi)層迭代是對(duì)路徑樹深度進(jìn)行迭代尋優(yōu),外層迭代則是對(duì)分類模型誤差的迭代。該模型以隨機(jī)逼近的方式完成行為路徑樹深度尋優(yōu),克服了傳統(tǒng)隨機(jī)森林受制于路徑樹深度這一缺點(diǎn),同時(shí)減少了冗余信息的產(chǎn)生,提高分類模型的運(yùn)行效率。

        4 實(shí)驗(yàn)

        本章包含3 部分,首先構(gòu)建惡意樣本數(shù)據(jù)庫,并從中隨機(jī)選取惡意樣本進(jìn)行實(shí)驗(yàn);再次,設(shè)計(jì)實(shí)驗(yàn)對(duì)特征的性能進(jìn)行驗(yàn)證;最后,設(shè)計(jì)實(shí)驗(yàn)對(duì)基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型進(jìn)行驗(yàn)證。

        4.1 樣本集

        本文構(gòu)建了一個(gè)惡意樣本數(shù)據(jù)庫,樣本來源于VirusSign[16]、MalShare[17]等多個(gè)網(wǎng)站,從數(shù)據(jù)庫中隨機(jī)選擇了8 個(gè)惡意軟件家族,并加入良性樣本集Benign,該良性集合的樣本全部為系統(tǒng)盤下的可執(zhí)行文件。樣本信息如表1所示。

        表1 惡意樣本集

        4.2 實(shí)驗(yàn)結(jié)果及分析

        4.2.1 特征性能驗(yàn)證

        本文從行為路徑樹中按照不同的規(guī)則提取3 種特征(見表2)進(jìn)行對(duì)比。此外,由于模型分類效果與路徑樹深度(路徑層數(shù))直接相關(guān),本節(jié)對(duì)樣本家族與路徑樹深度及權(quán)值的關(guān)系進(jìn)行挖掘,如圖6 所示,橫軸為樣本家族,縱軸為行為路徑樹深度,豎軸為規(guī)一化后的權(quán)值。由圖可知,用于實(shí)驗(yàn)的樣本家族中,行為路徑樹深度最大為17層,最小為12層,各家族權(quán)值均逐層遞減。

        表2 3種動(dòng)態(tài)特征

        圖6 樣本家族與路徑樹深度及權(quán)值的關(guān)系

        本部分對(duì)3種特征的分類效果進(jìn)行對(duì)比,將特征A、B、C 作為基于自適應(yīng)隨機(jī)森林(Self-adaptation RF)分類模型的輸入。為驗(yàn)證分類模型的性能,實(shí)驗(yàn)采用十折交叉驗(yàn)證,將惡意樣本集分為10 份,取其中1 份作為測(cè)試集,其他9份作為訓(xùn)練集,結(jié)果取10 次平均值,結(jié)果如圖7所示。

        圖7 特征A、B、C在隨機(jī)森林分類器中的分類精度

        由圖可知,特征A 的精度曲線在3 條曲線中波動(dòng)程度最小,且具有較高的分類精度,所以特征A 具有較好的健壯性。經(jīng)自適應(yīng)隨機(jī)森林分類模型對(duì)行為路徑樹深度的迭代尋優(yōu),最終確定當(dāng)路徑樹深度為12時(shí),達(dá)到最高分類精度91.11%。樣本家族的分類精度(Precision)及召回率(Recall Rate)見表3,由此可見,使用行為路徑樹作為樣本動(dòng)態(tài)特征在各家族中均有較好的分類結(jié)果。

        表3 樣本家族分類精度及召回率

        4.2.2 分類模型性能驗(yàn)證

        本節(jié)將基于自適應(yīng)隨機(jī)森林的分類模型與其他4種常見的分類器算法進(jìn)行了比較,結(jié)果證明本文提出的分類模型擁有更好的分類效果。

        基于自適應(yīng)隨機(jī)森林(RF)的惡意軟件分類模型由100 棵決策樹組成,與k 近鄰(kNN)、J48 決策樹、多層感知機(jī)(SMO)以及樸素貝葉斯(NB)分類器算法進(jìn)行比較,同樣采取十折交叉驗(yàn)證,并從分類精度(Precision)、F 值(F-Measure)、MCC 系數(shù)以及ROC Area(ROC 曲線下的面積)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見圖8。從分類器的性能結(jié)果對(duì)比中可以得出,基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型在4 種評(píng)判標(biāo)準(zhǔn)上均優(yōu)于其他分類器算法。

        圖8 分類模型對(duì)比

        4.3 實(shí)驗(yàn)結(jié)論

        實(shí)驗(yàn)結(jié)果證明,基于結(jié)點(diǎn)與邊權(quán)值相結(jié)合的特征擁有更好的分類效果。該特征在基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型中達(dá)到91.11%的分類精度,且優(yōu)于k近鄰(kNN)、J48決策樹等分類器算法。

        5 結(jié)束語

        本文提出了一種基于行為路徑樹的惡意軟件分類方法。首先對(duì)惡意樣本進(jìn)行動(dòng)態(tài)分析,監(jiān)控并捕捉樣本細(xì)粒度的行為路徑;然后將路徑之間的依賴關(guān)系轉(zhuǎn)化為樹型結(jié)構(gòu)并進(jìn)行特征提??;最后構(gòu)建了基于自適應(yīng)隨機(jī)森林的惡意軟件分類模型,分類精度達(dá)到91.11%,優(yōu)于其他常見的分類器算法。

        本文詳細(xì)介紹了特征提取與分類模型構(gòu)建部分,對(duì)分類算法優(yōu)化尚不完善。實(shí)驗(yàn)所用的惡意樣本家族和數(shù)量有待進(jìn)一步擴(kuò)充,用以進(jìn)一步驗(yàn)證行為路徑作為惡意軟件動(dòng)態(tài)特征的有效性。此外,本文提取行為路徑樹作為樣本動(dòng)態(tài)特征,該特征雖然能最大限度地獲取樣本動(dòng)態(tài)行為(樣本對(duì)文件系統(tǒng)、注冊(cè)表、網(wǎng)絡(luò)的操作),但并未考慮惡意樣本規(guī)避機(jī)制(反沙箱、反蜜罐、反虛擬機(jī)技術(shù))帶來的影響,這是惡意軟件動(dòng)態(tài)分析技術(shù)的弊端,也是下一步工作中有待解決的問題。

        猜你喜歡
        分類深度特征
        分類算一算
        深度理解一元一次方程
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        深度觀察
        深度觀察
        深度觀察
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        日日摸天天摸97狠狠婷婷| 午夜一区二区在线视频| 中文字幕在线亚洲精品一区| 激情内射人妻1区2区3区| 国产精品无圣光一区二区| 无码一级视频在线| 日本大胆人体亚裔一区二区 | 日本另类αv欧美另类aⅴ| 醉酒后少妇被疯狂内射视频| 久久亚洲国产成人精品v| 美利坚合众国亚洲视频| 国产猛烈高潮尖叫视频免费| 成在人线av无码免观看麻豆| 中文字幕精品一二三区| 蜜桃码一区二区三区在线观看| 无码av专区丝袜专区| 国产呦系列呦交| 狠狠丁香激情久久综合| av天堂中文亚洲官网| 无套内内射视频网站| 久久久久亚洲av无码专区网站| 欧美日韩综合在线视频免费看 | 丰满岳乱妇一区二区三区| 精品人妻少妇一区二区不卡| 免费国产在线精品三区| 精品一区二区三区蜜桃麻豆| 爱性久久久久久久久| 热99精品| 国产内射视频免费观看| 日韩精品无码一区二区三区 | 99熟妇人妻精品一区五一看片| 日韩精品一区二区免费| 麻豆精品国产精华液好用吗| 国产啪精品视频网站丝袜| 人妻风韵犹存av中文字幕| 色哟哟亚洲色精一区二区| 青青草原精品99久久精品66| 亚洲中文久久久久无码| 国产精品毛片av毛片一区二区| 免费黄色影片| 国产欧美日韩午夜在线观看|