亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向Android惡意應(yīng)用靜態(tài)檢測的特征頻數(shù)差異增強(qiáng)算法*

        2020-06-22 12:50:04李向軍魏智翔王科選肖聚鑫
        關(guān)鍵詞:特征選擇分類器靜態(tài)

        李向軍,孔 珂,魏智翔,王科選,肖聚鑫

        (1.南昌大學(xué)軟件學(xué)院,江西 南昌 330047;2.南昌大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,江西 南昌 330031)

        1 引言

        Android已經(jīng)占據(jù)了智能手機(jī)操作系統(tǒng)的大量市場份額,據(jù)Statcounter統(tǒng)計(jì),2019年8月Android占據(jù)了全球移動(dòng)操作系統(tǒng)市場份額的76.23%[1],至2019年,Google Play應(yīng)用數(shù)量超過250萬[2]。惡意軟件開發(fā)者把大量惡意軟件進(jìn)行偽裝上傳至Google Play 或第三方市場。2018全年,360互聯(lián)網(wǎng)安全中心累計(jì)監(jiān)測移動(dòng)端惡意軟件感染量約為1.1億人次[3]。Android應(yīng)用程序的安全性檢測已成為網(wǎng)絡(luò)安全領(lǐng)域的熱點(diǎn)研究問題之一。

        根據(jù)Android惡意應(yīng)用的特征性質(zhì),檢測方法可分為靜態(tài)檢測、動(dòng)態(tài)檢測和動(dòng)靜混合檢測[4]。3種檢測方法中,靜態(tài)檢測的研究更廣泛。靜態(tài)檢測是指通過靜態(tài)特征進(jìn)行惡意應(yīng)用檢測,該方法可以在軟件未安裝之前對應(yīng)用程序進(jìn)行識別,提前預(yù)防惡意行為的發(fā)生。靜態(tài)特征通過對APK(Android Application Package)反編譯后,通過相關(guān)文件獲取,相比于動(dòng)態(tài)特征的獲取,較為方便,不浪費(fèi)用戶系統(tǒng)資源。靜態(tài)特征的提取通常會(huì)獲取大量的特征信息,其中大部分為冗余特征,因此特征選擇是十分必要的工作。而傳統(tǒng)的特征選擇算法不完全適用于Android惡意應(yīng)用檢測的靜態(tài)特征選擇,如無法去除非典型特征,偏重惡意典型特征,在非平衡數(shù)據(jù)上對惡意應(yīng)用識別準(zhǔn)確率不良。

        本文主要貢獻(xiàn):在分析卡方校驗(yàn)、信息增益、FrequenSel等特征選擇算法不足的基礎(chǔ)上,給出了良性特征、惡意特征、良性典型特征、惡意典型特征和非典型特征等定義,提出了一種適用于Android惡意應(yīng)用靜態(tài)檢測的特征選擇算法——特征頻數(shù)差異增強(qiáng)FDE(Frequency Differential Enhancement)算法。平衡數(shù)據(jù)集和非平衡數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)DE算法可有效去除靜態(tài)特征中的非典型特征,篩選出更有效特征。同時(shí),引入權(quán)重?fù)p失函數(shù)彌補(bǔ)不平衡數(shù)據(jù)的缺陷,可有效提高惡意應(yīng)用的識別準(zhǔn)確率。

        2 研究現(xiàn)狀

        目前,Android惡意應(yīng)用檢測3類方法中,相比于動(dòng)態(tài)檢測、動(dòng)靜混合檢測2種方法,靜態(tài)檢測方法的研究和應(yīng)用更為廣泛。

        靜態(tài)檢測需要對APK進(jìn)行反編譯,從各類文件中提取信息,如權(quán)限、API信息等。Felt等[5]評價(jià)了權(quán)限機(jī)制的可用性,研究得出了惡意應(yīng)用存在過度敏感權(quán)限申請問題。Nix等[6]使用API調(diào)用序列對惡意應(yīng)用進(jìn)行檢測,在深度置信網(wǎng)絡(luò)上檢測準(zhǔn)確率達(dá)到95.7%。Mclaughlin等[7]使用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)從原始操作碼序列中學(xué)習(xí)惡意應(yīng)用的特征,召回率達(dá)到96.29%。Yerima等[8]提取權(quán)限信息作為數(shù)據(jù)特征,開發(fā)和分析了基于貝葉斯分類的主動(dòng)式機(jī)器學(xué)習(xí)方法,展示了高精度的檢測能力。Wang等[9]集成了5種分類算法,使用11種類型的靜態(tài)特征識別良性應(yīng)用和惡意應(yīng)用,準(zhǔn)確率高達(dá)99.39%。Shabtai等[10]使用了APK大小、特征數(shù)量等非主流特征。

        動(dòng)態(tài)檢測需要對應(yīng)用進(jìn)行安裝,獲取系統(tǒng)調(diào)用、網(wǎng)絡(luò)流量等信息。早期研究者缺乏對惡意應(yīng)用行為模式的認(rèn)識,把手機(jī)能量的消耗作為評判依據(jù)[11]。隨著對動(dòng)態(tài)信息的研究,研究者獲得了更有代表性的動(dòng)態(tài)特征。Martinelli等[12]在CNN上建立了一個(gè)基于系統(tǒng)調(diào)用的檢測應(yīng)用程序,準(zhǔn)確率在85%~95%。Vinod等[13]針對系統(tǒng)調(diào)用研究了數(shù)種動(dòng)態(tài)特征選擇算法。Liang等[14]通過將系統(tǒng)調(diào)用序列視為文本來設(shè)計(jì)端到端惡意軟件識別模型,準(zhǔn)確率達(dá)93.1%,F(xiàn)-1值為86.57%??露娴萚15]使用隨機(jī)森林算法對行為日志中的惡意行為進(jìn)行識別與分類,該方法對惡意行為分類的平均準(zhǔn)確率達(dá)到96.8%。

        動(dòng)靜混合檢測是指將動(dòng)態(tài)特征和靜態(tài)特征相結(jié)合的檢測方法。Fang等[16]對靜態(tài)檢測的結(jié)果進(jìn)行動(dòng)態(tài)檢測,在XGBoost算法上達(dá)到94.6%的檢測精度。Alshahrani等[17]把權(quán)限、組件信息、系統(tǒng)調(diào)用進(jìn)行結(jié)合,實(shí)現(xiàn)了可運(yùn)行在用戶設(shè)備上的識別器,準(zhǔn)確率達(dá)到95%。Xu等[18]將靜態(tài)信息轉(zhuǎn)換為矢量,動(dòng)態(tài)信息轉(zhuǎn)換為圖形特征集,組合構(gòu)建了混合分類器,準(zhǔn)確率達(dá)到93.4%。Vinayakumar等[19]使用基于多種網(wǎng)絡(luò)拓?fù)涞拈L短期循環(huán)神經(jīng)網(wǎng)絡(luò)對混合特征進(jìn)行處理,準(zhǔn)確率最高為94.2%。

        基于靜態(tài)特征的Android惡意應(yīng)用檢測方法使用的特征種類眾多。DREBIN[20]中使用了硬件組件、請求權(quán)限、應(yīng)用程序組件、過濾意圖、限制API調(diào)用、使用權(quán)限、可疑API調(diào)用、網(wǎng)絡(luò)地址等8種靜態(tài)特征。Zhang等[21]使用了權(quán)限、API、組件、字符串4種特征。Luo等[22]只用了API調(diào)用信息。分析可見,多數(shù)基于靜態(tài)特征的應(yīng)用檢測研究中,權(quán)限和API是最常用的特征。研究者針對靜態(tài)特征檢測使用的分類算法各有不同,Wang等[23]使用了支持向量機(jī)、隨機(jī)森林、K最近鄰3種傳統(tǒng)的機(jī)器學(xué)習(xí)算法。Arshad等[24]使用了隨機(jī)森林算法建立了三級混合惡意軟件檢測模型。深度學(xué)習(xí)算法也受到很多研究者青睞[25,26]。分類算法種類繁多,針對不同問題有不同的處理效果。

        基于權(quán)限和API的靜態(tài)檢測中,Android系統(tǒng)要求應(yīng)用權(quán)限信息必須公開,通過權(quán)限使用情況,一定程度上可以判斷是否為有惡意行為。權(quán)限特征聲明在AndroidManifest.xml文件中,可以通過對APK的反編譯得到。API特征存在于.smali文件中,攻擊者想要實(shí)現(xiàn)某一惡意行為,必須使用相應(yīng)的API,所以API信息在惡意軟件靜態(tài)檢測中是非常重要的特征。權(quán)限與API信息相比,API信息的數(shù)量遠(yuǎn)遠(yuǎn)大于權(quán)限的數(shù)量,因?yàn)锳PI不僅限于Google提供的,開發(fā)者也可以使用自己編寫的API,導(dǎo)致API數(shù)量龐大。API數(shù)量雖多,但大部分的API信息是無用的,并不具有識別惡意應(yīng)用的功能。

        靜態(tài)檢測提取特征信息后,有研究者使用卡方校驗(yàn)、信息增益等傳統(tǒng)方法[27,28]進(jìn)行特征選擇。Zhao等[29]在傳統(tǒng)算法的基礎(chǔ)上提出FrequenSel算法進(jìn)行特征選擇。面對靜態(tài)特征選擇,這些算法都存在一些不足,如非典型特征排名過高,偏重惡意典型特征,重復(fù)選擇同一特征。很少有研究者對Android惡意應(yīng)用檢測靜態(tài)特征選擇算法進(jìn)行研究,多數(shù)研究者選擇傳統(tǒng)的特征選擇算法或人工特征選擇,部分研究者不進(jìn)行特征選擇。

        3 特征頻數(shù)差異增強(qiáng)算法

        傳統(tǒng)特征選擇算法,如FrequenSel(Fre)[29]、卡方校驗(yàn)Chi(Chi-square test)[30]、信息增益Info(Information divergence)[31]等,應(yīng)用在Android惡意應(yīng)用檢測領(lǐng)域存在一定的不足。其中,卡方校驗(yàn)和信息增益特征選擇算法在特征分值計(jì)算過程中會(huì)賦予不利于辨別良性和惡意應(yīng)用的非典型特征高排名。FrequenSel特征選擇算法在特征選擇過程中注重惡意特征的比例,忽略了特征的原始規(guī)律,并且在選擇良性特征和惡意特征時(shí)會(huì)重復(fù)選擇同一特征。為了彌補(bǔ)以上缺點(diǎn),本文提出一種新的特征選擇算法——特征頻數(shù)差異增強(qiáng)算法FDE。

        FDE算法旨在排除非典型特征,遵循特征的原始規(guī)律進(jìn)行特征選擇。算法從特征最本質(zhì)的角度,即各特征在良性應(yīng)用與惡意應(yīng)用中出現(xiàn)的頻率角度,進(jìn)行分析設(shè)計(jì)。應(yīng)用數(shù)據(jù)集上數(shù)據(jù)的非典型特征和典型特征呈現(xiàn)的特點(diǎn)是:良性典型特征只在良性應(yīng)用中大量出現(xiàn),惡意典型特征只在惡意應(yīng)用中大量出現(xiàn)。非典型特征在良性應(yīng)用和惡意應(yīng)用中大量出現(xiàn),或只少量出現(xiàn)在良性應(yīng)用或惡意應(yīng)用中。因此,以特征在良性應(yīng)用和惡意應(yīng)用中出現(xiàn)的頻數(shù)差異數(shù)和總樣本數(shù)量的比值作為評價(jià)特征的標(biāo)準(zhǔn),設(shè)計(jì)特征評價(jià)公式如下所示:

        (1)

        其中,Nm表示包含特征fi的惡意應(yīng)用數(shù)量,Nb表示包含特征fi的良性應(yīng)用數(shù)量,Tm表示惡意應(yīng)用的總數(shù)量,Tb表示良性應(yīng)用的總數(shù)量。

        特征評價(jià)公式先計(jì)算特征在良性應(yīng)用與惡意應(yīng)用中出現(xiàn)次數(shù)的差值絕對值,再用差值絕對值除以總樣本數(shù)。其特點(diǎn)是:(1)可計(jì)算得出每個(gè)特征的分值,每個(gè)特征的分值作為特征選擇的依據(jù)。(2)可有效對非典型特征進(jìn)行甄別。根據(jù)非典型特征和典型特征的特點(diǎn)分析,通過式(1)的計(jì)算,非典型特征的S值較小,典型特征的S值較大,因此可有效去除非典型特征,篩選出更有效的特征。同時(shí),該公式是從特征最原始的規(guī)律角度設(shè)計(jì),不會(huì)干預(yù)惡意典型特征所占比例。

        為有效篩選特征,給出如下相關(guān)定義:

        定義1(良性特征) 對于某個(gè)特征fi,其在良性應(yīng)用中和在惡意應(yīng)用中出現(xiàn)的次數(shù)記為二元組counti=(Nb,Nm),若Nb>Nm,則稱其為良性特征。

        定義2(惡意特征) 對于某個(gè)特征fi,其在良性應(yīng)用中和在惡意應(yīng)用中出現(xiàn)的次數(shù)記為二元組counti=(Nb,Nm),若Nm>Nb,則稱其為惡意特征。

        定義3(良性典型特征) 若某特征fi為良性特征,即counti=(Nb,Nm),其中Nb>Nm,且滿足:

        (2)

        則稱其為良性典型特征。

        定義4(惡意典型特征) 若某特征fi為惡意特征,即counti=(Nb,Nm),其中Nm>Nb,且滿足:

        (3)

        則稱其為惡意典型特征。

        定義5(非典型特征) 若某特征fi滿足以下2個(gè)條件之一,則稱其為非典型特征。

        (1)counti=(Nb,Nm),且:

        (4)

        即該特征在良性應(yīng)用中出現(xiàn)的次數(shù)較少,在惡意應(yīng)用中出現(xiàn)的次數(shù)幾乎為0,或其在惡意應(yīng)用中出現(xiàn)的次數(shù)較少,在良性應(yīng)用中出現(xiàn)的次數(shù)幾乎為0。

        (2)counti=(Nb,Nm),且:

        (5)

        即該特征在良性應(yīng)用和惡意應(yīng)用中都大量出現(xiàn),但出現(xiàn)的次數(shù)差的絕對值很小。

        根據(jù)上述定義,特征頻數(shù)差異增強(qiáng)算法FDE的思路為:首先,統(tǒng)計(jì)總樣本數(shù)量以及各特征在良性應(yīng)用和惡意應(yīng)用中出現(xiàn)的次數(shù);然后,按照式(1)計(jì)算每個(gè)特征的S值,并按照定義3~定義5進(jìn)行特征選擇。算法偽代碼如下所示:

        算法1特征頻數(shù)差異增強(qiáng)算法FDE

        輸入:特征集合F,閾值ɑ。

        輸出:新的特征集合F′。

        1.Tm←CountMalware;

        2.Tb←CountBenign;

        3.Fori←1toF.Size()do

        4.Nm←CountInMalware(fi);

        5.Nb←CountInBenign(fi);

        6.S←|Nb-Nm|/(Tb+Tm);

        7.IfS≥αthen

        8.F′←fi;

        9.endif

        10.endfor

        第1~2行統(tǒng)計(jì)惡意樣本和良性樣本數(shù)量;第3~10行執(zhí)行循環(huán),統(tǒng)計(jì)每個(gè)特征在良性應(yīng)用和惡意應(yīng)用出現(xiàn)的次數(shù),然后計(jì)算每一個(gè)特征的S值,根據(jù)定義3~定義5選取符合條件的特征。其中不同的閾值ɑ取值會(huì)產(chǎn)生不同數(shù)量的特征。

        由算法描述可見,F(xiàn)DE算法只需統(tǒng)計(jì)每個(gè)特征出現(xiàn)在良性應(yīng)用和惡意應(yīng)用中的數(shù)量,計(jì)算每個(gè)特征的S值,并依據(jù)相關(guān)定義進(jìn)行特征選擇。相比于FrequenSel、卡方校驗(yàn)、信息增益等算法,F(xiàn)DE算法特征評價(jià)簡便,特征選擇依據(jù)更加合理,計(jì)算消耗低且時(shí)間代價(jià)呈線性,運(yùn)行時(shí)間增幅與樣本輸入規(guī)模增幅成固定比例。由算法步驟可知,第1~2行執(zhí)行次數(shù)和問題規(guī)模無關(guān),僅執(zhí)行2次,第3~10行執(zhí)行次數(shù)隨問題規(guī)模n變化,其執(zhí)行次數(shù)最少為5n,最多為6n。故算法計(jì)算復(fù)雜度僅和樣本數(shù)量相關(guān),算法最好情況和最壞情況的時(shí)間復(fù)雜度均為O(n)。

        4 實(shí)驗(yàn)結(jié)果與分析

        本文通過3組實(shí)驗(yàn)來驗(yàn)證FDE算法的目標(biāo)效果和性能。第1組實(shí)驗(yàn)展示5個(gè)特征使用FDE算法的詳細(xì)計(jì)算過程和結(jié)果,驗(yàn)證FDE算法是否可達(dá)到有效去除非典型特征的目標(biāo)。第2組實(shí)驗(yàn)是在理想平衡數(shù)據(jù)集上驗(yàn)證不同特征數(shù)量下FDE算法的有效性,以及相比其他特征選擇算法的優(yōu)越性。第3組實(shí)驗(yàn)是在非平衡數(shù)據(jù)集上驗(yàn)證FDE算法選擇特征的有效性,以及相比其他特征選擇算法的優(yōu)越性。其中,為解決正負(fù)樣本不平衡情況下各算法組合對惡意樣本識別準(zhǔn)確率較低的問題,引入權(quán)重?fù)p失函數(shù),以降低誤報(bào)率。

        4.1 實(shí)驗(yàn)數(shù)據(jù)集與預(yù)處理

        在Google Play應(yīng)用市場下載5 000個(gè)良性應(yīng)用,VirusShare下載5 000個(gè)惡意應(yīng)用,通過Androidguard反編譯得到AndroidManifest.xml和.smali文件,提取權(quán)限和API調(diào)用信息。10 000個(gè)應(yīng)用構(gòu)成平衡數(shù)據(jù)集,共提取14 610個(gè)特征,按7∶3比例劃分訓(xùn)練集和測試集。非平衡數(shù)據(jù)集中良性與惡意應(yīng)用比例為5∶1,共提取13 789個(gè)特征,按10∶1劃分訓(xùn)練集和測試集。原始特征為權(quán)限信息和API信息,需將特征信息數(shù)字化,樣本中如果包含該特征則該欄特征信息為1,否則為0。表1展示了少量權(quán)限信息的特征數(shù)字化。

        Table 1 Examples of individual sample feature digitization 表1 個(gè)別樣本特征數(shù)字化示例

        4.2 評價(jià)指標(biāo)

        TP(True Positive):將正類預(yù)測為正類;

        TN(True Negative):將負(fù)類預(yù)測為負(fù)類;

        FP(False Positive):將負(fù)類預(yù)測為正類;

        FN(False Negative):將正類預(yù)測為負(fù)類。

        準(zhǔn)確率:

        (6)

        精確率:

        (7)

        召回率:

        (8)

        誤報(bào)率:

        (9)

        F-1:

        (10)

        均值:

        (11)

        方差:

        (12)

        ROC(Receiver Operating Characteristic)曲線:ROC曲線是以假正率(FPR)和真正率(TPR)為軸的曲線,設(shè)定不同的判定正負(fù)樣本閾值,可以得到不同的TPR和FPR點(diǎn)對。將一系列點(diǎn)對連接成平滑的曲線,則為ROC曲線。TPR和FPR的定義見式(8)和式(9),其中TPR=Recall。

        4.3 FDE算法目標(biāo)效果驗(yàn)證

        設(shè)計(jì)FDE算法的目的是為了去除非典型特征,選擇更有效的特征。為驗(yàn)證FDE算法是否達(dá)到設(shè)計(jì)目的,從14 610個(gè)特征中選取5個(gè)特征進(jìn)行計(jì)算和分析。表2展示了5個(gè)特征的特征信息及FDE算法計(jì)算結(jié)果。

        詳細(xì)計(jì)算過程如下所示:

        步驟1統(tǒng)計(jì)惡意樣本和良性樣本數(shù)量Tm=5000和Tb=5000。

        步驟2分別統(tǒng)計(jì)5個(gè)特征在惡意樣本和良性樣本中出現(xiàn)的次數(shù)Nm和Nb。

        步驟3根據(jù)式(1)計(jì)算5個(gè)特征的S值。

        步驟4根據(jù)特征選擇標(biāo)準(zhǔn),選擇S值大于或等于0.1的特征,5個(gè)特征中有3個(gè)特征的S值大于0.1。

        表2中非典型特征Landroid/net/SSLSessi-onCache和Landroid/graphics/Typeface經(jīng)FDE算法計(jì)算,分值較低,與其他典型特征分值差距較大,排名第4位和第5位,不在選取特征范圍之內(nèi)。后續(xù)使用卡方校驗(yàn)方法對上述5個(gè)特征進(jìn)行分值計(jì)算,結(jié)果顯示非典型特征Landroid/net/SSLSessionCache分值排名第3位。計(jì)算結(jié)果表明,F(xiàn)DE算法能達(dá)到有效去除非典型特征的目的。

        4.4 平衡數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析

        給定平衡數(shù)據(jù)集,將FDE算法中ɑ設(shè)置為不同值,驗(yàn)證不同特征數(shù)量時(shí)FDE算法的有效性,以及相比其他算法的優(yōu)越性。ɑ取值分別為0.1,0.15,0.2和0.25,產(chǎn)生的特征數(shù)量分別為778,566,398和233。將經(jīng)過特征選擇后的不同數(shù)量特征放入SVM、KNN、CNN、Bayes、決策樹DT(Decision Tree)5種分類器中進(jìn)行實(shí)驗(yàn)對比,其中,由于CNN的特性,在平衡數(shù)據(jù)集上有關(guān)CNN實(shí)驗(yàn)結(jié)果皆取500次迭代的平均值作為實(shí)驗(yàn)結(jié)果。各分類器實(shí)驗(yàn)結(jié)果如圖1所示。

        圖1a展示了各分類器準(zhǔn)確率的變化。由圖1a可見,隨著特征數(shù)量的增加,多數(shù)分類器的準(zhǔn)確率都呈上升趨勢。其中,SVM分類器的效果最優(yōu),準(zhǔn)確率最高值達(dá)98%,CNN分類準(zhǔn)確率略低于SVM的,Bayes分類效果最差,準(zhǔn)確率最高值僅為93.30%。DT分類準(zhǔn)確率呈現(xiàn)上下波動(dòng)狀況,與KNN分類準(zhǔn)確率基本接近。

        圖1b展示了各分類器在778個(gè)特征上的ROC曲線(不含CNN算法,原因在于CNN取500次迭代平均值,無法生成其ROC曲線)。ROC曲線能夠綜合反映一個(gè)分類器的好壞,4種分類器ROC曲線中,最靠近左上方的是SVM的曲線,DT和KNN的曲線基本重合,Bayes的曲線最靠近右下方。實(shí)驗(yàn)結(jié)果表明,5種分類器中最適合FDE特征選擇的是SVM分類器,效果最差的是Bayes分類器。

        Table 2 Instance data and calculation analysis of FDE algorithm表2 實(shí)例數(shù)據(jù)及FDE計(jì)算分析

        Figure 1 Experimental results of FDE algorithm’s effectiveness with different features number圖1 不同特征數(shù)量時(shí)FDE算法的有效性實(shí)驗(yàn)結(jié)果

        為比較FDE算法和其他特征選擇算法的性能差別,選擇卡方校驗(yàn)、信息增益、FrequenSel和FDE算法在SVM、KNN、CNN 3種分類器上進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果如圖2所示。由于FrequenSel無法自主選擇特征數(shù)量,經(jīng)參數(shù)調(diào)整特征數(shù)量最低為930個(gè),將單獨(dú)把FrequenSel選擇的930個(gè)特征和卡方校驗(yàn)、信息增益、FDE等選擇的778個(gè)特征作比較。

        圖2展示的實(shí)驗(yàn)結(jié)果中,SVM+Chi表示為SVM算法結(jié)合卡方校驗(yàn)特征選擇算法所得的實(shí)驗(yàn)結(jié)果,后續(xù)圖表中相關(guān)表示具有同種含義。由圖2a可知,F(xiàn)DE在各特征數(shù)量選擇上的準(zhǔn)確率都優(yōu)于卡方校驗(yàn)和信息增益特征選擇算法的。圖2b和圖2c所示為召回率和F-1值實(shí)驗(yàn)結(jié)果,由于對CNN的準(zhǔn)確率取500次迭代的平均值,所以無法得出其具體的召回率和F-1值。在召回率上FDE沒有表現(xiàn)出絕對優(yōu)勢,卡方校驗(yàn)與SVM的組合擁有最高的召回率,但在KNN分類器上,F(xiàn)DE的召回率基本優(yōu)于其他2種算法的。在F-1值上,F(xiàn)DE算法與SVM的組合擁有最高值,且各特征數(shù)量上的F-1值優(yōu)于其他特征選擇算法的。

        Figure 2 Experimental results of FDE algorithm with other feature selection algorithms圖2 FDE算法與其他特征選擇算法對比實(shí)驗(yàn)結(jié)果

        表3給出了FDE算法與FrequenSel、卡方校驗(yàn)、信息增益等算法在SVM、CNN、KNN 3種分類器上的比對實(shí)驗(yàn)結(jié)果。FrequenSel特征選擇算法在SVM和CNN上的準(zhǔn)確率都是最低的,在KNN上的準(zhǔn)確率高于卡方校驗(yàn)和信息增益的,但低于FDE的。在召回率及F-1值上,F(xiàn)requenSel在KNN上有較好表現(xiàn),但在SVM上均最差。從3種評價(jià)指標(biāo)的最高數(shù)值來看,F(xiàn)DE算法優(yōu)于FrequenSel算法。

        同時(shí),為更詳細(xì)地比較各特征選擇算法對分類的影響,本文從分類概率值角度,驗(yàn)證分析了在SVM分類器上FDE與其他特征選擇算法對分類概率值的影響。實(shí)驗(yàn)中選取了平衡數(shù)據(jù)測試集中的1 522個(gè)惡意樣本和1 478個(gè)良性樣本,對各特征選擇算法在SVM分類器上的分類概率值進(jìn)行了驗(yàn)證分析。首先,選擇表現(xiàn)最優(yōu)異的SVM分類器,然后統(tǒng)計(jì)SVM結(jié)合不同特征選擇算法的分類概率值,計(jì)算出均值和方差。通過均值分析分類概率值的整體大小,通過方差分析分類概率值的離散程度。

        表4展示了在SVM分類器上各特征選擇算法對分類概率值的影響結(jié)果。在良性測試樣本上SVM+FDE的分類概率值的均值略低于SVM+Chi的,方差略高于SVM+Chi的。在惡意測試樣本上SVM+FDE的均值最高,方差最小。結(jié)合召回率說明SVM+FDE傾向于惡意類別的識別,SVM+Chi在良性樣本的識別上效果要略好于SVM+FDE。雖然SVM+Chi在良性測試樣本上的分類概率值的均值和方差最優(yōu),但在惡意測試樣本上的分類概率值的均值和方差都是最差的。良性樣本和惡意樣本的分類概率值匯總計(jì)算后得出,SVM+FDE擁有最高的均值和最低的方差,所以SVM+FDE的分類概率值更大、更穩(wěn)定,F(xiàn)DE對分類的影響效果更好。

        Table 3 Experimental results of FDE algorithm,FrequenSel algorithm,Chi-square test algorithm and Information divergence algorithm on SVM,CNN and KNN 表3 FDE與FrequenSel、卡方校驗(yàn)、信息增益等算法在SVM、KNN、CNN 3種分類器上的比對實(shí)驗(yàn)結(jié)果

        Table 4 Average value and variance of classify probability values of FDE and other feature selection algorithms on SVM表4 FDE與其他特征選擇算法在SVM上分類概率值的均值和方差

        表5中對比了SVM+FDE與其他4位研究者文章中的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,與FDE結(jié)合效果最好的SVM分類器的準(zhǔn)確率、F-1值都高于其他4篇文獻(xiàn)的方法,但在召回率上略有不足。

        小結(jié):(1) 5種分類算法驗(yàn)證實(shí)驗(yàn)上的結(jié)果表明,F(xiàn)DE算法是有效可行的。(2) 與FrequenSel、卡方校驗(yàn)、信息增益等特征選擇算法的對比實(shí)驗(yàn)結(jié)果說明,SVM+FDE擁有最高的準(zhǔn)確率和F-1值,但SVM+Chi的召回率最高。召回率只是單方面地反映對正樣本的識別準(zhǔn)確度,但準(zhǔn)確率和F-1值更能綜合反應(yīng)方法的好壞,且FDE算法對分類概率值的影響較好。這表明FDE算法有效且優(yōu)于其他算法。(3) FDE算法的不足之處為:對良性樣本的識別比其他算法略差,即召回率略低。導(dǎo)致這種情況的原因有2種可能:一是FDE算法設(shè)計(jì)的目的是去除非典型特征,選擇有利于識別惡意應(yīng)用的特征,從而導(dǎo)致對惡意應(yīng)用識別效果較好,對良性應(yīng)用的識別效果較差。二是由于本文只使用了權(quán)限和API信息作為特征,僅依據(jù)這2種特征可能不能全面地分辨良性應(yīng)用與惡意應(yīng)用。

        Table 5 Comparison of the method in this paper with other methods表5 本文方法與其他方法比較

        4.5 非平衡數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析

        為模仿良性應(yīng)用數(shù)量遠(yuǎn)超出惡意應(yīng)用數(shù)量的真實(shí)應(yīng)用軟件環(huán)境,本文在10 000個(gè)應(yīng)用的基礎(chǔ)上,刪除4 000個(gè)惡意應(yīng)用,形成正負(fù)樣本比為5∶1的非平衡數(shù)據(jù)集。重新進(jìn)行特征提取后獲得13 789個(gè)特征,使用FDE算法進(jìn)行特征選擇,共選擇1 062個(gè)特征。與平衡數(shù)據(jù)集選擇的778個(gè)特征作比較,其中有709個(gè)特征重合,權(quán)限類特征重復(fù)率為零。實(shí)驗(yàn)訓(xùn)練集包含3 850個(gè)應(yīng)用,測試集共2 150個(gè)樣本。

        首先,設(shè)計(jì)實(shí)施了非平衡數(shù)據(jù)上FDE算法特征選擇有效性驗(yàn)證和FDE算法與其他特征選擇算法性能比對實(shí)驗(yàn)。實(shí)驗(yàn)中,卡方校驗(yàn)、信息增益、FrequenSel皆重新進(jìn)行特征選擇,并分別在SVM和CNN分類器上進(jìn)行實(shí)驗(yàn)比較,實(shí)驗(yàn)結(jié)果如表 6所示,其中所有CNN實(shí)驗(yàn)均運(yùn)行5次,每次迭代150次,每次運(yùn)行結(jié)果取值于最后一次的迭代結(jié)果,統(tǒng)計(jì)5次運(yùn)行的結(jié)果。

        表6中,Accuracy-max為最高準(zhǔn)確率,Accur-acy-aver為平均準(zhǔn)確率,M-Accuracy為惡意樣本識別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,當(dāng)正負(fù)樣本比例不平衡時(shí),各特征選擇算法效果均有所降低。在CNN實(shí)驗(yàn)中,F(xiàn)DE算法的最高準(zhǔn)確率和平均準(zhǔn)確率最高,最高值為96.56%,平均值為96.35%。且對惡意樣本識別效果最好,最高值達(dá)到93.85%,平均值達(dá)到93.72%。在SVM分類器上,F(xiàn)DE算法的效果略低于信息增益特征選擇算法的。同時(shí),對比了各特征選擇算法進(jìn)行特征提取的時(shí)間,結(jié)果表明,F(xiàn)DE算法的時(shí)間遠(yuǎn)遠(yuǎn)少于卡方校驗(yàn)和信息增益的,略少于FrequenSel的特征提取時(shí)間。以上分析表明,F(xiàn)DE算法在非平衡數(shù)據(jù)集上同樣有效,且相比其他特征選擇算法具有一定的優(yōu)勢。

        Table 6 Experimental results on unbalanced data sets表6 非平衡數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

        其次,注意到由于正負(fù)樣本的不平衡,使得各算法組合對惡意樣本的識別準(zhǔn)確率明顯低于對良性樣本的識別準(zhǔn)確率。由于特征良性或惡意判斷問題可理解為二分類問題,為解決惡意樣本識別準(zhǔn)確率低的問題,引入權(quán)重?fù)p失函數(shù)。

        以交叉熵函數(shù)作為損失函數(shù),計(jì)算公式如下所示:

        (13)

        考慮到樣本的不平衡性,在損失函數(shù)中賦予不同類別不同的權(quán)重,改進(jìn)式(13)得權(quán)重?fù)p失函數(shù)如下所示:

        (14)

        其中,W0為第1個(gè)類別的權(quán)重,W1為第2個(gè)類別的權(quán)重。若W0值較高,W1值較低,第1類中的樣本被錯(cuò)分時(shí),權(quán)重?fù)p失函數(shù)值比無權(quán)重的損失函數(shù)值更大,而第2類中的樣本被錯(cuò)分時(shí),對損失值的影響較小。因此,影響網(wǎng)絡(luò)傾向于學(xué)習(xí)某些類而降低損失值。對于多分類的問題,同樣可以使用這種賦予權(quán)重的方式來讓網(wǎng)絡(luò)傾向于某些類。

        實(shí)驗(yàn)中,采用FDE+CNN組合的方法驗(yàn)證引入權(quán)重?fù)p失函數(shù)的效果。圖3展示了FDE+CNN組合方法下各權(quán)重誤報(bào)率和準(zhǔn)確率變化情況,其中,良性類別權(quán)重為BW,惡意類別權(quán)重為MW。誤報(bào)率可以反映測試集中惡意樣本被錯(cuò)分為良性應(yīng)用的比例。

        Figure 3 Weight adjustment experimental results of FDE+CNN combination method圖3 FDE+CNN組合方法的權(quán)重調(diào)整實(shí)驗(yàn)結(jié)果

        由圖3a和圖3b可見,隨著迭代次數(shù)的增加,誤報(bào)率呈現(xiàn)先下降后升高的趨勢,且隨著惡意樣本類權(quán)重?cái)?shù)值的增大,誤報(bào)率整體呈下降趨勢,但準(zhǔn)確率呈先上升后下降的趨勢。這表明惡意類別權(quán)重?cái)?shù)值增大可以減少誤報(bào)率,但權(quán)重超過一定數(shù)值,會(huì)降低整體準(zhǔn)確率。

        因此,經(jīng)多次權(quán)重參數(shù)調(diào)整,最終權(quán)重取值確定為MW=3,BW=1。此權(quán)重下惡意樣本識別準(zhǔn)確率為94.31%,整體準(zhǔn)確率為96.37%。相比于表6中未考慮權(quán)重?fù)p失函數(shù)的實(shí)驗(yàn)結(jié)果,惡意樣本識別準(zhǔn)確率得到提高,整體準(zhǔn)確率和平均值相近,但對良性樣本的識別率有所下降。

        該實(shí)驗(yàn)結(jié)果表明:(1)在非平衡數(shù)據(jù)集上FDE算法同樣有效,且相比于其他特征選擇算法,具有整體準(zhǔn)確率高、善于識別惡意應(yīng)用、特征提取時(shí)間短等特點(diǎn)。(2)針對非平衡數(shù)據(jù)中惡意應(yīng)用識別率較低的問題,引入權(quán)重?fù)p失函數(shù),賦予惡意應(yīng)用類別高權(quán)重可提高對惡意應(yīng)用的識別準(zhǔn)確率。

        5 結(jié)束語

        本文針對Android惡意應(yīng)用靜態(tài)檢測提出了一種新的特征選擇算法FDE,其目的是為了解決已有特征選擇算法在檢測中存在的不足,以篩選出更有效的特征,提高檢測的準(zhǔn)確率。FDE算法從特征最本質(zhì)的角度篩選有效特征,去除非典型特征,從大量特征中選取少量特征作為分類算法的輸入,減少模型訓(xùn)練時(shí)間與特征提取時(shí)間。理論分析和實(shí)驗(yàn)結(jié)果表明,F(xiàn)DE算法是有效可行的,且相比于其他特征選擇算法具有自身的優(yōu)勢。但是也反映出,FDE算法還存在需要改進(jìn)完善之處:對非典型特征做的限定略顯粗糙,可能會(huì)使一些典型特征被限定為非典型特征,且實(shí)驗(yàn)中分類器在召回率上的表現(xiàn)略有不足。未來值得進(jìn)一步探討的方向有:(1)新特征[35 - 37]或有效特征的組合方法。有研究者發(fā)現(xiàn)僅靠權(quán)限和API信息2種特征并不能全面地檢測惡意應(yīng)用,可以挖掘更具有代表性的特征進(jìn)行惡意應(yīng)用檢測。(2)對抗攻擊的深度學(xué)習(xí)檢測方法研究。隨著深度學(xué)習(xí)的廣泛應(yīng)用[38],有研究者利用深度學(xué)習(xí)的脆弱性實(shí)現(xiàn)了針對基于深度學(xué)習(xí)的對抗攻擊。(3)基于Android的其他惡意行為檢測,如釣魚網(wǎng)站檢測[39]等。

        猜你喜歡
        特征選擇分類器靜態(tài)
        靜態(tài)隨機(jī)存儲器在軌自檢算法
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        機(jī)床靜態(tài)及動(dòng)態(tài)分析
        具7μA靜態(tài)電流的2A、70V SEPIC/升壓型DC/DC轉(zhuǎn)換器
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        精品人妻潮喷久久久又裸又黄| 国产自拍在线观看视频| 欧美肥妇毛多水多bbxx水蜜桃| 国产麻豆剧传媒精品国产av| 国产精品女视频一区二区| 久久精品国产亚洲av热九| av深夜福利在线| 国产成人综合亚洲av| 日韩在线精品视频免费| 国产乱码精品一区二区三区久久| 人与动牲交av免费| 国产亚洲av无码专区a∨麻豆| 永久黄网站色视频免费| 国产亚洲成年网址在线观看| 亚洲av国产精品色a变脸| 久久精品国产亚洲av麻豆会员| 久久精品国产只有精品96| 久激情内射婷内射蜜桃| 91免费在线| 亚洲国产av中文字幕| 337p日本欧洲亚洲大胆色噜噜| 激情伊人五月天久久综合| 最新亚洲人成无码网站| 亚洲av乱码国产精品色| 国产人妖网站在线视频| 久久精品第九区免费观看| 免费看av在线网站网址| 欧美日韩电影一区| 国产在线精彩自拍视频| 久久亚洲av成人无码电影| 无码人妻丰满熟妇片毛片| 日韩国产欧美| 久久夜色精品亚洲天堂| 成人av蜜桃在线观看| 久久久久亚洲av成人网人人软件| 久久久久久久性潮| 中文字幕一区二区人妻痴汉电车| 午夜视频在线观看日本| 美女午夜福利视频网址| 野外少妇愉情中文字幕| 精品国产看高清国产毛片|