亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的分層木馬檢測技術(shù)研究*

        2016-07-05 07:41:48吳金龍石曉飛
        通信技術(shù) 2016年4期
        關(guān)鍵詞:隨機森林

        吳金龍,石曉飛,許 佳,史 軍

        (江南計算技術(shù)研究所,江蘇 無錫 214083)

        ?

        基于隨機森林的分層木馬檢測技術(shù)研究*

        吳金龍,石曉飛,許佳,史軍

        (江南計算技術(shù)研究所,江蘇 無錫 214083)

        摘要:為了應(yīng)對以未知木馬為核心的APT類攻擊帶來的威脅,對基于數(shù)據(jù)流的木馬檢測技術(shù)進行了研究。提出一種基于分層的多維通信特征的木馬檢測方法,檢測網(wǎng)絡(luò)數(shù)據(jù)流中的木馬數(shù)據(jù)。在對已有分類檢測算法調(diào)研的基礎(chǔ)上,創(chuàng)新的將隨機森林算法應(yīng)用于訓(xùn)練集,以建立檢測模型,創(chuàng)新的建立了分層評分策略,為分析人員提供可信的檢測結(jié)果。通過實驗將該方法與三種常用的機器學(xué)習(xí)算法對比,在數(shù)據(jù)流的檢測方面,該方法的準確率至少提高了1.8%,誤報率最少降低了2.77%。

        關(guān)鍵詞:木馬檢測; 隨機森林; 多維特征; APT攻擊;分層檢測

        0引言

        隨著網(wǎng)絡(luò)的普及和廣泛應(yīng)用,隨之而來的安全問題日益凸出。近年來,網(wǎng)民的上網(wǎng)呈現(xiàn)出網(wǎng)民規(guī)?;蜕暇W(wǎng)方式多樣化的特點,網(wǎng)民的上網(wǎng)環(huán)境異常復(fù)雜。據(jù)瑞星報告指出,2015 年,新增病毒樣本3,715萬余個,其中木馬病毒占總體病毒的 61.79%,報告期內(nèi),共有 4.75 億人次網(wǎng)民被病毒感染,人均病毒感染次數(shù)為 35.65 次。(數(shù)據(jù)引自《瑞星 2015 年中國信息安全報告》[1])。面對如此規(guī)模的網(wǎng)民數(shù)和多樣的上網(wǎng)方式,保護用戶隱私數(shù)據(jù),降低上網(wǎng)風(fēng)險的問題尤為凸出。

        除個人終端外,企業(yè)用戶終端也常成為木馬的受害者。據(jù)FireEye的調(diào)查報告指出[2]。在企業(yè)網(wǎng)絡(luò)中,有95%以上的主機曾被木馬植入。然而,在這些被植入的主機中,僅不到10%的木馬樣本被安全軟件和防護設(shè)備檢測。未知木馬由于較難及時捕獲,因而是控制和實施APT等高危攻擊的核心環(huán)節(jié)。因此,傳統(tǒng)的木馬檢測方法都很難發(fā)揮有效的作用。

        本文旨在提出一種基于隨機森林的木馬檢測方法,通過對網(wǎng)絡(luò)數(shù)據(jù)流的分類,提前檢測出木馬行為,及時為用戶預(yù)警,以降低用戶上網(wǎng)的風(fēng)險,加強用戶網(wǎng)絡(luò)環(huán)境的安全性。

        1研究現(xiàn)狀

        1.1現(xiàn)有的木馬檢測技術(shù)

        目前木馬檢測技術(shù)主要分為以下兩類[3]。

        1.1.1基于主機端

        根據(jù)上一節(jié)介紹,目前上網(wǎng)主機平臺多樣,且操作系統(tǒng)種類和版本繁雜,其復(fù)雜性和多樣性導(dǎo)致了檢測存在較大的實現(xiàn)難度,且基于主機系統(tǒng)行為的檢測方法要求對主機系統(tǒng)平臺有非常深入的了解。因此,在現(xiàn)有的技術(shù)條件下,單靠主機端的防護軟件尚無法實現(xiàn)對木馬進行有效檢測。

        1.1.1基于網(wǎng)絡(luò)端

        目前,基于網(wǎng)絡(luò)端的數(shù)據(jù)流木馬檢測主要分為三種。

        一是基于特征匹配及信譽值的檢測技術(shù),該類檢測基于已有樣本的特征和信譽值判定未知數(shù)據(jù)的屬性。二是基于協(xié)議分析的檢測技術(shù),以數(shù)據(jù)流中采用的協(xié)議與已知協(xié)議對比,如有不同則認為異常。這兩類的檢測方法的缺陷在于對偽裝和變形的木馬數(shù)據(jù)檢測效果較差,如隧道加密或采用代理方式通信,此類技術(shù)提高了各木馬程序的隱蔽性和生存周期,隱藏了木馬的特征[4]。三是基于通信行為分析的檢測技術(shù)。該檢測技術(shù)是基于木馬通信的網(wǎng)絡(luò)數(shù)據(jù)流進行檢測分類,具有較強的通用性。該技術(shù)被認為是最有前景的木馬檢測方法,代表著該領(lǐng)域未來的發(fā)展趨勢。文獻[5]是基于此類檢測技術(shù)。本文的研究也是基于此類檢測技術(shù)。

        1.2隨機森林用于檢測分類現(xiàn)狀

        隨機森林分類器是在決策樹這種單一分類器基礎(chǔ)上的一種組合分類器。隨機森林分類器有以下優(yōu)點:

        (1)其性能和檢測率方面,優(yōu)于單一的分類器。

        (2)對異常值和噪聲的容忍度好。

        (3)不易出現(xiàn)過度擬合[6-9]。

        故而,隨機森林提出至今,已廣泛應(yīng)用于文本和語言的驗證處理、醫(yī)療和臉部識別等諸多領(lǐng)域。同時,隨機森林的分類方法也較好的應(yīng)用于郵件過濾、入侵檢測等安全領(lǐng)域。然而,目前尚未發(fā)現(xiàn)將隨機森林的分類方法單純用于檢測網(wǎng)絡(luò)數(shù)據(jù)流中的木馬數(shù)據(jù)。

        1.3基本思路

        不難發(fā)現(xiàn)隨機森林在入侵檢測領(lǐng)域已得到較好的應(yīng)用,且目前的木馬檢測領(lǐng)域中,尚未使用隨機森林進行數(shù)據(jù)的分類檢測。木馬雖是一種廣義上的病毒,屬于一種特殊的入侵行為,但木馬與病毒、蠕蟲等其他惡意程序的行為特征有較大的區(qū)別。通常病毒、蠕蟲等惡意程序會對用戶終端系統(tǒng)造成明顯的破壞,然而木馬行為特點主要是潛伏在用戶電腦,監(jiān)視用戶操作,竊取用戶文件,收集系統(tǒng)信息?;谀抉R與普通病毒、蠕蟲等其他病毒行為特征的不同,其檢測技術(shù)不能一概而論,否則,在檢測木馬數(shù)據(jù)時,會有較高的誤報率和漏報率,無法完成細粒度的木馬檢測。故,隨機森林的方法應(yīng)用于木馬檢測領(lǐng)域與應(yīng)用于入侵檢測、異常檢測等安全領(lǐng)域是不同的。本文將側(cè)重關(guān)注隨機森林應(yīng)用于木馬檢測領(lǐng)域。

        通過加密、變形等技術(shù)實現(xiàn)自身隱藏,躲避查殺是木馬程序存活的重要特征,然而此類特征是經(jīng)常變換,不易作為檢測依據(jù)。然而,木馬要實現(xiàn)其完整功能,必有一些可以從端到端的數(shù)據(jù)流中提取的固定不變的特征。如:基于流量的上傳下載特征、基于連接的 “心跳”特征、基于時間的通聯(lián)時間特征等。因此從數(shù)據(jù)流的角度進行檢測,可以有效解決木馬免殺和未知木馬檢測的問題,也為APT攻擊檢測提供新的思路。木馬在運行中,服務(wù)端與客戶端的交互更多的是人工的控制和干預(yù)。故,基于網(wǎng)絡(luò)流木馬的檢測的核心是區(qū)分正常通信行為(自動行為)與木馬通信行為(人工干預(yù)行為)。

        本文提出一種快速的基于通信行為多維特征的木馬檢測方法。分層提取的木馬通信行為的多維特征,結(jié)合機器學(xué)習(xí)技術(shù)中的隨機森林分類算法,建立木馬數(shù)據(jù)流特征模型。創(chuàng)建可以區(qū)分木馬程序和正常應(yīng)用程序數(shù)據(jù)流特征的判定規(guī)則集。參照該模型實現(xiàn)的原型系統(tǒng)可通過網(wǎng)絡(luò)數(shù)據(jù)流特征判定規(guī)則集,有效檢測未知木馬,并可根據(jù)實際環(huán)境進行自學(xué)習(xí)和調(diào)整優(yōu)化,使得該檢測方法具有較強的適應(yīng)能力。

        2木馬通信行為檢測模型

        木馬要實現(xiàn)自身功能,必然無法使自身通信行為與正常通信行為一致,例如,上傳/下載數(shù)據(jù)量的比例、客戶端與服務(wù)端之間的“Keep-Alive” 機制(也稱為?;顧C制)等造成了木馬與正常數(shù)據(jù)流的特征差異。木馬的功能及自身的特殊性讓基于通信行為分析的木馬檢測技術(shù)可行且有效。

        2.1分析木馬通信行為

        不同的木馬程序在功能上,針對不同操作系統(tǒng)、不同應(yīng)用平臺,其采用的網(wǎng)絡(luò)通信協(xié)議方面存在很大差異,但它們在通信行為上又具有一定的相似性。通過對大量木馬樣本進行分析發(fā)現(xiàn):木馬通信過程大致分為兩個階段,即連接保持階段和命令控制階段。

        連接保持階段不僅包括植入木馬后的上線通知,還包括了木馬上線之后保持通聯(lián)的“心跳”機制。攻擊者將木馬程序植入到目標系統(tǒng)后,攻擊者需等待木馬植入成功的消息,然后進行遠程控制。所以,木馬程序植入的成功與否則需要一種通知機制,即上線通知。實際上,上線通知也是一種前期特殊的“心跳”行為,有些木馬在上線通知的數(shù)據(jù)包里包含了“心跳”包。

        2.2木馬通信行為描述

        定義1用D表示所有網(wǎng)絡(luò)通信數(shù)據(jù),C表示正常網(wǎng)絡(luò)通信數(shù)據(jù),T表示木馬通信數(shù)據(jù),對網(wǎng)絡(luò)通信行為特征向量F定義如下:

        F(D)=F1(D)×F2(D)×…×Fn(D);

        D=C∪T;

        其中,隨機變量Fi(i=1,2,…,n)表示網(wǎng)絡(luò)通信的單一行為特征屬性,并且是多項式時間可計算的。

        定義2定義函數(shù)SF為與F(D)一致的分類器,其中

        SF:F1×F2×…×Fn→{0,1};

        其中,SF是多項式時間可計算的, 0是正常通信,1是木馬通信,(F,SF)稱為木馬通信行為檢測模型。因此,網(wǎng)絡(luò)通信行為特征屬性提取和分類器設(shè)計是實現(xiàn)木馬檢測的關(guān)鍵。

        分析木馬通信行為,將木馬的通信全過程劃分為:連接保持和命令控制這兩個階段。故,檢測木馬通信行為按照這兩個階段分別定義并檢測。相關(guān)定義和檢測過程如下:

        首先,根據(jù)木馬通信行為分析分階段提取木馬通信行為特征屬性Fki和Foi。其中,F(xiàn)ki(i=1,2,…,n)表示木馬連接保持階段的網(wǎng)絡(luò)通信的行為特征屬性,F(xiàn)oi(i=1,2,…,n)表示木馬命令控制階段的網(wǎng)絡(luò)通信行為特征屬性。

        然后,根據(jù)行為特征屬性Fki和Foi的數(shù)據(jù)類型特點和實際檢測要求,選擇分類算法構(gòu)造分類器SFk和SFo,其中,SFk表示木馬連接保持階段的分類器,SFo表示木馬命令控制階段的分類器。

        其中,這里0表示正常網(wǎng)絡(luò)通信,1表示木馬通信。

        最后,判斷分類器的輸出結(jié)果SFk∪SFo,檢測到任意階段產(chǎn)生報警,就認為存在木馬通信行為。

        3隨機森林分層檢測木馬

        根據(jù)定義的木馬通信行為,本節(jié)將介紹構(gòu)建隨機森林的步驟及基于分層思路的多維特征的選取。

        3.1C4.5決策樹的局限性

        C4.5決策樹是一種典型的單分類器,使用單分類器檢測木馬通信行為具有一些局限性,主要體現(xiàn)在:

        (1)C4.5決策樹分類器的精度在到達一定指標后,難以繼續(xù)提高,其檢測精度存在不易突破的瓶頸。

        (2)一種給定的分類器,其檢測的準確率較為依賴實際的檢測環(huán)境,同樣的算法和檢測模型在不同的環(huán)境,其檢測準確率可能差別很大。

        (3)在有監(jiān)督的學(xué)習(xí)訓(xùn)練過程中,C4.5這類單分類器需要大量的訓(xùn)練數(shù)據(jù)。

        由機器學(xué)習(xí)領(lǐng)域的研究結(jié)論可知,就檢測分類效果而言,基于單一分類分類器弱于基于由多分類器組合集成的檢測分類器。隨機森林檢測方法是一種建立在統(tǒng)計分析理論上集成的組合檢測分類器。隨機森林由多顆決策樹組成,它通過組合多個弱分類器,集成一個強分類器的方法克服決策樹的局限性,多個分類器通過投票決定最終分類屬性,既起到了互補作用提高了檢測的穩(wěn)定性,又降低了個別分類器錯誤所帶來的影響,進而提高了檢測分類的準確率。

        3.2構(gòu)建隨機森林

        本文提出將Random-SMOTE方法結(jié)合隨機森林算應(yīng)用于木馬通信行為檢測。采用Random-SMOTE方法的目的是對數(shù)據(jù)集抽樣預(yù)處理,將數(shù)量較少的木馬樣本進行過抽樣,以提高稀有類數(shù)據(jù)所占的比重,降低大類數(shù)據(jù)的比例,提高稀有類數(shù)據(jù)中木馬行為的識別率。隨后用隨機森林的方法訓(xùn)練預(yù)處理后的數(shù)據(jù)集,生成檢測模型。

        定義T為原訓(xùn)練數(shù)據(jù)集中的木馬數(shù)據(jù)流樣本集,S為正常應(yīng)用數(shù)據(jù)流樣本集,隨機森林的生成步驟如下:

        (1)首先對木馬數(shù)據(jù)流樣本集T進行過抽樣,根據(jù)Random-SMOTE方法和過抽樣倍率N,為每個木馬數(shù)據(jù)流樣本隨機生成N個新樣本;將新的樣本加入原訓(xùn)練數(shù)據(jù)集,形成新的木馬數(shù)據(jù)流樣本集T′,以減少樣本集中木馬樣本和正常樣本在個數(shù)上的不平衡。

        (3)基于每個自助樣本,構(gòu)建一棵決策樹。采用Forest-RI(ForestRandomInputs,隨機選擇輸入變量)方法。假設(shè)屬性特征有M維,從M維特征中隨機抽取Mca維特征作為候選特征。選擇這Mca個特征上最好的分裂方式對決策樹每個節(jié)點進行分裂,使每個決策樹都得到最大限度的生長,不進行剪枝。

        (4)重復(fù)步驟(2)和步驟(3),可以得到多棵決策樹,并且在隨機森林生長過程中Mca值保持不變。

        (5)讓每一棵決策樹對輸入的未知數(shù)據(jù)流X進行投票。計算所有的投票數(shù),找出其中票數(shù)最高的一個就是數(shù)據(jù)流X的分類標簽。

        3.3分層檢測

        作者在設(shè)計分層提取多維通信設(shè)計的基礎(chǔ)上,設(shè)計了可信度評分策略,為分析人員提供結(jié)果可信度的結(jié)果。

        3.3.1基本思路

        上文描述的是單個隨機森林的生成過程。在此基礎(chǔ)上,作者從基于IP協(xié)議的網(wǎng)絡(luò)層會話數(shù)據(jù)流、基于TCP協(xié)議的傳輸層會話數(shù)據(jù)流和基于HTTP協(xié)議的應(yīng)用層會話數(shù)據(jù)流三個層面分別提取木馬的多維特征屬性。在數(shù)據(jù)預(yù)處理時,對原始捕獲的PCAP數(shù)據(jù)包,按照IP會話、TCP會話和HTTP會話三個層次分別提取數(shù)據(jù)流通信特征,進而構(gòu)建三個隨機森林分類器,分別記為RFip、RFtcp和RFhttp,用以從不同層面檢測數(shù)據(jù)流行為特征屬性。判斷三個分類器的輸出結(jié)果RFip∪RFtcp∪RFhttp,檢測到任意層面產(chǎn)生異常數(shù)據(jù)流報警,就認為存在木馬通信行為。

        3.3.2分層多維特征選取

        分別按照網(wǎng)絡(luò)層、傳輸層和應(yīng)用層簡單例舉選取的多維特征:

        基于IP協(xié)議的網(wǎng)絡(luò)層會話特征:

        (1)IP會話下載數(shù)據(jù)量/IP會話上傳數(shù)據(jù)量特征:控制端流向被控端的字節(jié)數(shù)與反方向字節(jié)數(shù)的比較,該行為特征值一般小于1。

        (2)IP會話時長/主連接時長:IP會話數(shù)據(jù)流的持續(xù)時間與主連接持續(xù)時間之比,該行為特征值一定大于1,但是木馬程序的取值會顯著小于正常網(wǎng)絡(luò)應(yīng)用。

        基于TCP協(xié)議的傳輸層會話特征:

        (1)TCP會話時長:命令交互、文件資源搜索和文件傳輸需要大量的等待時間,再加上人類的思考時間,使得通信會話持續(xù)時間較長。

        (2)TCP會話上傳數(shù)據(jù)量:木馬程序根據(jù)控制命令將被控主機的信息和文件資源不斷上傳,導(dǎo)致會話上傳數(shù)據(jù)量偏大。

        基于HTTP協(xié)議的應(yīng)用層會話特征:

        (1)HTTP會話數(shù)據(jù)包集參差度:正常HTTP應(yīng)用的數(shù)據(jù)包集參差度對其總尺寸的分布體現(xiàn)出分段性和有界性,而HTTP隧道卻跟其差異很大。

        (2)HTTPRequest數(shù)據(jù)包信息熵特征:在信息層面提供一個評估正常HTTP通信和HTTP隧道通信行為的一個指標。

        以上從3個會話層例分別舉了2個特征作為隨機森林決策樹的判斷條件。類似的特征可以選取很多,然而,需要根據(jù)實驗和實際情況決定在每一層采用哪些特征。

        3.3.3可信度評分策略

        參數(shù)λ的圖像如圖1所示

        圖1 λ的圖像

        記檢測結(jié)果中,分別命中網(wǎng)絡(luò)層、傳輸層、應(yīng)用層的協(xié)議為0x0001、0x0010、0x0100,三層均命中則為0x0111,分別定義Credit1、Credit2、Credit3表示協(xié)議命中一層、兩層和三層。

        (1)檢測結(jié)果,協(xié)議命中其中一層。

        If(protocol == (0x0001, 0x0010, 0x0100))

        Credit1=Standpoint*λ;

        則,48.4≤Credit1≤55

        (2)檢測結(jié)果,協(xié)議命中其中兩層。

        If(protocol == (0x0011, 0x0101, 0x0110))

        Credit2=Credit1*1.35*λ;

        則,57.5≤Credit2≤74.25

        (3)檢測結(jié)果,協(xié)議三層全部命中

        If(protocol == (0x0111))

        Credit3=Credit2*1.25*λ;

        則,63.25≤Credit3≤92.81

        4實驗分析

        為了更好的驗證本文的方法。本文采用兩組試驗分析對比實驗結(jié)果。

        4.1實驗一

        第一組實驗數(shù)據(jù)是:綜合搜集結(jié)合網(wǎng)絡(luò)上2015年以前相關(guān)文獻實驗數(shù)據(jù)或有代表性的61款樣本,包括:PcShell、灰鴿子、Gh0st、ZXShell等,共325個木馬通信數(shù)據(jù)流作為樣本數(shù)據(jù)。選取MSN、ICQ、QQ、skype等65款正常應(yīng)用的通信數(shù)據(jù),共1 175個數(shù)據(jù)流作為正常數(shù)據(jù)。正常和樣本數(shù)據(jù)合計1 500個數(shù)據(jù)流。

        為了對比試驗結(jié)果,更好的評價本文的方法。選取:C4.5決策樹[10]、SVM[11-12]、Naive Bayes[5,11]作為木馬檢測算法。通過開源機器學(xué)習(xí)模塊“scikit-learn”[13]實現(xiàn)了對應(yīng)算法。將這些方法與本文分層檢測的隨機森林(記為MRF)的檢測方法進行對比。將C4.5決策樹(記為C4.5)、SVM和Naive Bayes算法(記為NB)用于檢測木馬數(shù)據(jù),四種方法對1500個數(shù)據(jù)流的檢測結(jié)果,按照性能評價指標參數(shù)匯總?cè)绫?所示。

        表1 4種機器學(xué)習(xí)算法的性能評價指標

        通過實驗的對比結(jié)果,不難看出,基于隨機森林的檢測方法其準確率(Accuracy,ACC)最高,假負率(False Negative Rate,FNR)最低,真正率(True Positive Rate,TPR) 最好,即靈敏度(sensitivity)最好。綜合對比分析,用隨機森林算法作為木馬檢測分類模型的效果最優(yōu)。

        4.2實驗二

        第二組數(shù)據(jù)是:選取2015年以來的,基于漏洞利用的15款木馬數(shù)據(jù),共36個數(shù)據(jù)流,對于訓(xùn)練模型而言,該15款木馬均為未知屬性的數(shù)據(jù)。(數(shù)據(jù)來源:malware traffic analysis[14]網(wǎng)站)

        近年來,通過系統(tǒng)及應(yīng)用軟件的漏洞作為木馬傳播載體的方式廣泛且流行。此類木馬的傳播方式較為隱蔽,一般隱匿或捆綁在文檔、應(yīng)用、鏈接等看似正常的文件中。包括:Angler-EK( 利用IE漏洞,如:CVE-2015-2419 )、 BizCN( 利用Flash漏洞,如: CVE-2015-0522等 ) 、Nuclear-EK(利用Flash漏洞)等。作者將搜集的2015年以來的數(shù)據(jù)流文件作為未知木馬樣本。在已有的檢測模型上,測試本方法對于未知數(shù)據(jù)流(未知木馬及未知的傳播方式)的檢測率,結(jié)果見表2。

        表2 15款未知數(shù)據(jù)的檢測結(jié)果

        實驗結(jié)果顯示,在15個未知應(yīng)用數(shù)據(jù)中,檢測出14個,檢測率為93.3%,其中36個數(shù)據(jù)流中檢測出32個,數(shù)據(jù)流的檢測率為88.9%。與其他三種方法的對比結(jié)果如圖2所示。

        圖2 未知數(shù)據(jù)檢測對比

        實驗結(jié)果顯示,就預(yù)測性而言, 隨機森林的檢測方法對未知數(shù)據(jù)屬性的分類效果最好,預(yù)測性最佳。

        6結(jié)語

        本文創(chuàng)新的提出了將隨機森林引用于單一的木馬檢測領(lǐng)域,通過實驗驗證,本文的方法在提高檢測率和降低誤報率方面均優(yōu)于目前已知的木馬檢測方法,對于未知數(shù)據(jù)有較好的檢測分類效果。此外,本文創(chuàng)新提出可信度評分策略,通過大量實踐驗證得到的行之有效的評分方法對檢測結(jié)果進行評分,為研判人員提供可信參考。但是,依然存在一些有待改進的地方,比如,檢測出來的結(jié)果中,誤告警所占比例達7.76%,下一步將嘗試通過數(shù)據(jù)挖掘算法對檢測結(jié)果分析,以去除誤告警,降低誤報率。

        參考文獻:

        [1]瑞星.瑞星2015年中國信息安全報告[EB/OL]. (2016-01-20)[2016-03-02]. http://it.rising.com.cn/dongtai/18131.html.

        Rising. Rising 2015 China Information Security Report[EB/OL]. (2016-01-20)[2016-03-02]. http://it.rising.com.cn/dongtai/18131.html

        [2]Fire Eye. Advanced Targeted Attacks: How to Protect Against the New Generation of Cyber Attacks.[EB/OL].[2016-03-02].http://www2.fireeye.com/rs/fireye/images/fireeye-advanced-targeted-attacks.pdf.

        [3]李世淙,云曉春,張永錚.一種基于分層聚類方法的木馬通信行為檢測模型[J].計算機研究與發(fā)展,2012(S2):9-16.

        LI Shi-cong, YUN Xiao-chun, ZHANG Yong-zheng. A Model of Trojan Communication Behavior Detection based Hierarchical Clustering Technique[J]. Journal of Computer Research and Development,2012,(S2):9-16 .

        [4]周趙軍, 張劍, 彭春林. 多Web代理技術(shù)在木馬通信中的實現(xiàn) [J]. 通信技術(shù), 2012, 45(08):73-76.

        ZHOU Zhao-jun, ZHANG Jian, PENG Chun-lin. Trojan Communication based on Multi-Web Proxy[J]. Communications Technology,2012,45(08):73-76.

        [5]薛磊. 基于通信行為證據(jù)鏈的木馬檢測系統(tǒng)[D].南京:南京郵電大學(xué),2013.

        XUE Lei. Trojan Detection System based on Evidence of Communication Behaviors.[D].2013,Nanjing:Nanjing University of Posts and Telecommunications,2013.

        [6]WOLPERT D H. Stacked Generalization [J]. Neural Networks, 1992, 5(2): 241-259.

        [7]Breiman L. Bagging Predictors [J]. Machine Learning, 1996, 24(2): 123-140.

        [8]Dietterich T G. Ensemble Methods in Machine Learning [M]. Multiple Classifier Systems. Springer Berlin Heidelberg,2000:1-15.

        [9]方匡男, 吳見彬, 朱見平等. 隨機森林方法研究綜述[J]. 統(tǒng)計與信息論壇, 2011, 26(03): 32-38.

        FANG Kuang-nan, WU Jian-bin, ZHU Jian-ping,et al. Research of Random Forest Method[J]. Statistics & Information Forum, 2011, 26(03): 32-38.

        [10]ZHANG Xiao-chen, LIU Sheng-li, MENG Lei, SHI Yun-fang. Trojan Detection based on Network Flow Clustering. Multimedia Information Networking and Security (MINES), 2012 Fourth International Conference on DOI: 10.1109/MINES.2012.242[C]. 2012:947-950.

        [11]Ponomarev S, Durand J, Wallace N, et al. Evaluation of Random Projection for Malware Classification[C] Software Security and Reliability-Companion(SERE-C), 2013 IEEE 7th International Conference on IEEE, 2013:68-73.

        [12]李鵬,王汝傳,高德華.基于模糊識別和支持向量機的聯(lián)合Rootkit動態(tài)檢測技術(shù)研究[J].電子學(xué)報,2012(01):49-56.

        LI Peng, WAGN Ru-chuan, GAO De-hua. Research on Rootkit Dynamic Detection based on Fuzzy Pattern Recognition and Support Virtual Machine Technology[J]. Acta Electronica Sinica, 2012(01):49-56.

        [13]scikit-learn.[EB/OL]. [2015-10-09]. http://scikit-learn.org/stable/.

        [14]Malware Traffic Analysis. [EB/OL]. [2015-10-09].http://www.malware-traffic-analysis.net/blog-entries.html

        Hierarchical Detection of Trojan Behavior based on Random Forest

        WU Jin-long,SHI Xiao-fei,XU Jia,SHI Jun

        (Jiangnan Institute of Computing Technology,Wuxi Jiangsu 214083,China)

        Abstract:In order to deal with the threat from APT attacks with unknown Trojan as the core,Trojan detection technology based on net flows is studied and discussed. A method based on multidimensional features from different layers for Trojan detection is proposed, thus to detect Trojan data in the network data flows. Based on intestigation of the existing detection technology,the random forest algorithm is applied to training data set,thus to construct the detection model,establish hierarchical scoring policy,and providing a trusted detection result for analysts.Experiment and comparison of the three learning algorithms indicate that this method could improve accuracy rate at least 1.8% and reduce the false alarm rate at least 2.77% in the detection of Trojans.

        Key words:trojan detection;random forest;multi-dimensional features;APT attack;hierarchical detection

        doi:10.3969/j.issn.1002-0802.2016.04.018

        *收稿日期:2015-11-09;修回日期:2016-02-20Received date:2015-11-09;Revised date:2016-02-20

        中圖分類號:TP393.08

        文獻標志碼:A

        文章編號:1002-0802(2016)04-0475-06

        作者簡介:

        吳金龍(1988—),男,碩士,研究實習(xí)員,主要研究方向為信息安全和網(wǎng)絡(luò)安全;

        石曉飛(1976—),女,碩士,工程師,主要研究方向為信息安全和網(wǎng)絡(luò)安全;

        許佳(1981—),男,博士,工程師,主要研究方向為信息安全和網(wǎng)絡(luò)安全;

        史軍(1972—),男,碩士,高級工程師,主要研究方向為信息安全和網(wǎng)絡(luò)安全。

        猜你喜歡
        隨機森林
        隨機森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
        基于隨機森林的登革熱時空擴散影響因子等級體系挖掘
        基于隨機森林的HTTP異常檢測
        個人信用評分模型比較數(shù)據(jù)挖掘分析
        時代金融(2017年6期)2017-03-25 22:21:13
        隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
        基于二次隨機森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
        基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
        基于奇異熵和隨機森林的人臉識別
        軟件(2016年2期)2016-04-08 02:06:21
        基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
        55夜色66夜色国产精品视频| 国产毛片精品一区二区色| 粗大猛烈进出高潮视频| 51久久国产露脸精品国产| 欧美色色视频| 国产精品人成在线765| 大陆老熟女自拍自偷露脸| 农村欧美丰满熟妇xxxx| 亚洲夜夜骑| 一区二区三区精品偷拍av| 美丽的小蜜桃在线观看| 亚洲国产精品ⅴa在线观看| 日本高清不卡二区| 成人全视频在线观看免费播放| 极品粉嫩小仙女高潮喷水网站| 亚洲av永久精品爱情岛论坛| 欧美伊人网| 99精品又硬又爽又粗少妇毛片| 中文字幕一区二区人妻秘书| 无码福利写真片视频在线播放| 一级毛片不卡在线播放免费| 国语对白三级在线观看| 一边摸一边做爽的视频17国产| 国产精品毛片久久久久久久| 老色鬼永久精品网站| 国产熟女露脸大叫高潮| 97se色综合一区二区二区| 中文字幕乱码免费视频| 天天澡天天揉揉AV无码人妻斩 | 一区二区三区在线蜜桃| 女同视频一区二区在线观看| 大陆极品少妇内射aaaaaa| 97日日碰日日摸日日澡| 国产大屁股熟女流白浆一区二区| 国产成人综合日韩精品无码| 人妻少妇av无码一区二区| 欧洲AV秘 无码一区二区三| 一区二区在线视频免费蜜桃| 无码一区二区三区亚洲人妻| 国产欧美日韩综合一区二区三区 | 伊人久久大香线蕉亚洲五月天|