亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的惡意代碼檢測技術(shù)研究進展

        2019-07-15 01:37:34周顯春龔家浩李蕓倩陳雪姣
        現(xiàn)代計算機 2019年15期
        關(guān)鍵詞:分類深度特征

        周顯春,龔家浩,李蕓倩,陳雪姣

        (三亞學(xué)院信息與智能工程學(xué)院,海南 572022)

        1 研究背景及意義

        隨著互聯(lián)網(wǎng)的發(fā)展,惡意代碼攻擊呈幾何級增長,惡意代碼變體是互聯(lián)網(wǎng)安全的一個主要威脅。其中,木馬、病毒、蠕蟲等惡意代碼造成的影響最為廣泛,社會很多方面都造成損失,不僅是經(jīng)濟上而且還是精神層面的。通過分析騰訊安全《2017年度互聯(lián)網(wǎng)安全報告》,可以發(fā)現(xiàn):PC端病毒攔截近30億次,近60%的惡意程序為木馬,已成網(wǎng)絡(luò)黑客首選攻擊方式。其中新型勒索類病毒呈噴發(fā)狀態(tài),僅在2017年統(tǒng)計發(fā)現(xiàn)勒索類病毒樣本數(shù)量達到660萬,僅在我們國家的2017年5月、6月分別就發(fā)生了wannacry病毒、Petya的變種兩次較大規(guī)模的傳播,并且大部分受害者都不知道何時、何地、何種方式感染。與PC端相對比,無線移動端的情況也差不多,僅2017年就查殺Android病毒12.4億次,新増病毒1545萬,并且感染病毒用戶超過1.88億[1]。

        五花八門變種惡意代碼的數(shù)量噴發(fā)增長,爆發(fā)行為詭秘、隱形手段高明等特點,使得基于抽樣技術(shù)和已有惡意代碼特征的檢測技術(shù)在檢測準(zhǔn)確性、時效性面臨前有未有的挑戰(zhàn)[2]。無論是政府機構(gòu),還是企業(yè)、社會團體都對此特別重視,重視、鼓勵組織和個人研究惡意代碼檢測技術(shù)。但是,在大數(shù)據(jù)環(huán)境下,因為大多數(shù)的惡意代碼檢測方法都不是智能型的,尤其對海量數(shù)據(jù)下實時性的迫切需求,導(dǎo)致現(xiàn)有技術(shù)實在無法滿足現(xiàn)實生活的需求。針對日益惡化的網(wǎng)絡(luò)安全形勢,改善或提高現(xiàn)有惡意代碼檢測的精度、實時性,增強檢測技術(shù)的智能能力,無論是對凈化網(wǎng)絡(luò)安全環(huán)境,還是減少網(wǎng)絡(luò)受害者,避免社會動蕩都有非常重要的意義。

        2 國內(nèi)外研究現(xiàn)狀及分析

        經(jīng)國內(nèi)外學(xué)者的長期研究,目前惡意代碼檢測方法研究可以劃分為:基于靜態(tài)分析的方法[4]、基于動態(tài)分析的方法[5]、基于機器學(xué)習(xí)算法分析的方法[6]。

        不管是動態(tài)還是靜態(tài)惡意代碼分析方法,面對規(guī)模龐大且增長迅速的惡意代碼庫,需要消耗大量的時間和資源,己經(jīng)不能滿足實時分析的需求,而且都很難對所有的未知惡意程序進行甄別。而機器學(xué)習(xí)分析方法,如隨機森林、支持向量等算法可以區(qū)分良性代碼和惡意代碼[7],也可以用來檢測已知的、未知的惡意代碼及其變體[8]。但是要想讓其保持高精度,必須讓訓(xùn)練數(shù)據(jù)大多帶有標(biāo)簽。在大數(shù)據(jù)的環(huán)境下,造成訓(xùn)練數(shù)據(jù)的人工標(biāo)注標(biāo)簽的工作量非常大且檢測效果依賴分析人員的經(jīng)驗和檢測惡意代碼的實時性差[9]。

        深度學(xué)習(xí)應(yīng)用于惡意代碼檢測方面的研究是近3年來的研究熱點[2]。深度學(xué)習(xí)是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進行表征學(xué)習(xí)的算法[10]。隨著CPU、GPU、TPU圖像處理專用處理器、分布式架構(gòu)技術(shù)的發(fā)展,深度學(xué)習(xí)算法在計算機視覺、語音識別、NLP、生物醫(yī)學(xué)等領(lǐng)域取得的最大成功,促使國內(nèi)外研究人員開始嘗試使用深度學(xué)習(xí)解決惡意代碼識別問題[11]。尤其對其應(yīng)用于惡意代碼檢測中存在的有效特征的提取與融合方法、惡意代碼的特征與分類標(biāo)簽的相關(guān)性、惡意代碼分布式處理等3個問題展開了重點研究。

        2.1 有效特征的提取與融合方法

        深度學(xué)習(xí)與傳統(tǒng)模式識別方法的最大不同在于它是從大數(shù)據(jù)中自動學(xué)習(xí)特征,而非采用手工標(biāo)注特征,因為特征工程的工作量占整個數(shù)據(jù)處理80%左右?,F(xiàn)有的研究工作基本上都是使用現(xiàn)有數(shù)據(jù)集默認(rèn)的N-grams[12-13]或者圖像紋理熵值圖[14-15]等特征來進行學(xué)習(xí),但非融合特征不能體現(xiàn)數(shù)據(jù)的關(guān)鍵特征,影響惡意代碼檢測效果。

        惡意代碼特征的深度分析處理是惡意代碼分類的重要過程之一,現(xiàn)有的研究面臨著多維特征融合和深度分析處理的問題[16]。因為惡意代碼數(shù)據(jù)具有多維特征的特點,僅僅提取單一高維度,不能完全表現(xiàn)其有效特征[17],需要從文件實體、文件反匯編等不同的角度來提取惡意代碼樣本的特征并融合,從而形成健壯性更好的特征向量[18-20]。如:國內(nèi)清華大學(xué)Liu等人[18]提出融合灰度圖像的紋理特征、Opcode特征和API特征等三種特征作為特征向量,采用共享近鄰聚類算法來發(fā)現(xiàn)新的惡意代碼,可以針對Windows程序文件有效地分類未知惡意代碼。崔弘等人[19]提出了一種基于Sim-Hash的靜態(tài)二進制文件、反匯編的高維特征融合惡意代碼分析方法。該方法能夠有效提高分析精度,但是該方法只適合較少的惡意代碼分類場景。隨著移動端的大量使用,惡意APK也成倍增長,采用上述類似方法也取得效果。王磊團隊通過提取結(jié)構(gòu)化、統(tǒng)計類、長期經(jīng)驗總結(jié)的特征并歸一化處理,用15萬個樣本數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)框架,準(zhǔn)確率達到99.96%。他們的研究成果主要集中于靜態(tài)特征的提取,仍然沒有從根本上解決問題。

        日本名古屋大學(xué)Tobiyama等人[20]把日志文件存在軟件進程行為圖像化,包括API調(diào)用序列數(shù)據(jù),并使用RNN提取有效圖像特征,然后用CNN對特征圖像進行分類方法,AUC值達到了96%??墒菙?shù)據(jù)量太小,把該方法應(yīng)用于大規(guī)模數(shù)據(jù)集時的實時性還有待驗證。

        2.2 惡意代碼的特征與分類標(biāo)簽的相關(guān)性

        深度學(xué)習(xí)模型輸出分類結(jié)果時,其依據(jù)對用戶往往是不可見的。不可解釋同樣也意味著危險。例如開發(fā)一款基于深度學(xué)習(xí)模型某種疾病診斷系統(tǒng),它能夠幫助醫(yī)生判定病人風(fēng)險的應(yīng)用,開發(fā)者可能還需要知道模型產(chǎn)生診斷結(jié)果是基于那些特征,否則影響各行各業(yè)普遍接受和應(yīng)用。在分類模型準(zhǔn)確率不降低的前提下,如何解釋類型的意義和通過分類類型追朔輸入數(shù)據(jù)的有效特征,破解深度學(xué)習(xí)的“黑匣子”,是近幾年深度學(xué)習(xí)領(lǐng)域的重點解決問題[21-25]。

        谷歌公司Sundararajan等人[21]雖然從經(jīng)濟學(xué)的角度在理解深層網(wǎng)絡(luò)中輸入特征的相對重要性方面取得了一些進展,但沒有解決輸入特征或網(wǎng)絡(luò)所使用的邏輯之間的相互作用。瑞士蘇黎世聯(lián)邦理工大學(xué)Ancona等人[22]提出了一個稱為敏感度-n的度量,它有助于發(fā)現(xiàn)現(xiàn)有屬性方法的性質(zhì),同時也為更一般的屬性方法追蹤提供了研究方向。

        在2016年KDD會議上華盛頓大學(xué)Ribeiro等人[23]提出局部解釋性(LIME)模型,分析細(xì)微修改樣本的局部特征值和其輸出類型之間的關(guān)系。2017年在ICML會議上,美國斯坦福大學(xué)Koh等人[24]實現(xiàn)了分類類別和樣本之間的可追溯性,利用穩(wěn)健統(tǒng)計學(xué)中的影響函數(shù)分析訓(xùn)練樣本數(shù)據(jù)集中對測試樣本的預(yù)測類別影響最大的樣本。該方案在圖像處理領(lǐng)域已經(jīng)初有成效,但是現(xiàn)有研究均處于起步階段,具有運算量大、復(fù)雜性高的特點。影響函數(shù)的定義:

        弄清楚神經(jīng)網(wǎng)絡(luò)做出預(yù)測分類的原因是人工智能領(lǐng)域最大的擔(dān)憂之一。UC Berkeley、阿姆斯特丹大學(xué)、Facebook AI Research[25]團隊的研究人員創(chuàng)建出一個AI自我解釋模型,既可以對預(yù)測分類類型做出文本及配套的圖像解釋,還可以找到預(yù)測分類類型與訓(xùn)練圖像樣本上重要的證據(jù)。麻省理工學(xué)院林肯實驗室David Mascharka等人[26]提出可解釋視覺推理人工神經(jīng)網(wǎng)絡(luò)TbD網(wǎng)絡(luò)應(yīng)用于視覺問答模型,讓其保持高精度同時易于解釋,并且具有較強的泛化能力。但是利用深度學(xué)習(xí)在惡意代碼檢測中應(yīng)用的可解釋性和可追朔性研究,研究還不夠深入,遠(yuǎn)遠(yuǎn)沒有達到實際應(yīng)用要求。

        2.3 惡意代碼分布式處理

        除了檢測的精度外,惡意代碼檢測的實時性是另一個衡量檢測效果的評估指標(biāo)。在大數(shù)據(jù)環(huán)境下,樣本數(shù)量越大,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型花費時間過長;取樣數(shù)量少,時間變短,但是模型分類效率不強了,準(zhǔn)確率往往會出現(xiàn)明顯下降。而把分布式計算框架,如Spark與深度學(xué)習(xí)相結(jié)合,能夠改善數(shù)據(jù)分析的性能[27-31]。

        巴基斯坦比爾澤特大學(xué)Alsheikh等人[27]、印度德里大學(xué)Gupta、新加坡南洋理工大學(xué)Gupta等人[28]已經(jīng)提出了結(jié)合Apache Spark和深度學(xué)習(xí)技術(shù)的框架,實證該框架能夠在短時間內(nèi)執(zhí)行大規(guī)模數(shù)據(jù)分析任務(wù)、具有較低的計算復(fù)雜度和顯著較高的準(zhǔn)確度。國內(nèi)謝鐵等人[29]、張翔等人[30]把基于Spark平臺的深度學(xué)習(xí)技術(shù)應(yīng)用于情感分類研究,時間效率和準(zhǔn)確率都得到了提高。莊福振等人[31]實現(xiàn)的并行自動編碼機,在大數(shù)據(jù)環(huán)境下可以高效地進行特征表示學(xué)習(xí)。

        但是,目前國內(nèi)外還沒有涉及到Spark分布式計算框架和深度學(xué)習(xí)結(jié)合架構(gòu)在惡意代碼檢測中的應(yīng)用。

        3 基于深度學(xué)習(xí)面向惡意代碼檢測的未來研究方向

        綜述所述,有效特征提取與融合方法、惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性、惡意代碼分布式處理問題等無疑是深度學(xué)習(xí)在惡意代碼檢測技術(shù)中倍受國內(nèi)外關(guān)注的焦點問題,但現(xiàn)有大部分惡意代碼檢測技術(shù)的精度、魯棒性、可解釋性和可追朔性與實時性之間的矛盾依然比較突出。缺乏原創(chuàng)性理論和方法,缺乏具有針對性的研究背景,缺乏系統(tǒng)性的研究思路。

        (1)改進有效特征提取與融合方法。為了克服基于深度學(xué)習(xí)的在惡意代碼的單一特征智能提取的片面性和靜態(tài)特征的不足,本課題采用動、靜態(tài)多種特征來融合更加全面地表達惡意代碼樣本的有效特征,從而形成具有更好的抗混淆特性和抗干擾特性的特征向量。

        (2)研究惡意代碼的特征與分類標(biāo)簽的相關(guān)性。找到惡意代碼預(yù)測分類與訓(xùn)練樣本之間的關(guān)聯(lián)證據(jù)。破解深度學(xué)習(xí)的“黑匣子”是當(dāng)前的研究熱點,有很重要的應(yīng)用價值。只有破解了“黑匣子”,AI才能讓人放心使用。

        (3)利用深度學(xué)習(xí)的分布式部署改善惡意代碼檢測的效果。如,采用二次開發(fā)TensorFlowOnSpark分布式框架改善惡意代碼檢測的實時性。TensorFlowOn-Spark分布式框架該庫支持把現(xiàn)有的TensorFlow程序切換到新的API,同時實現(xiàn)了模型訓(xùn)練的性能提升,能實現(xiàn)更好的分布式訓(xùn)練和數(shù)據(jù)傳輸。

        4 結(jié)語

        本文針對基于深度學(xué)習(xí)的惡意代碼檢測技術(shù)中的理論和應(yīng)用研究的需要,從國內(nèi)外前期預(yù)研結(jié)果出發(fā),以研究惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性為基本突破口,系統(tǒng)性地研究深度學(xué)習(xí)應(yīng)用于惡意代碼檢測技術(shù)中的幾個核心的關(guān)鍵問題——有效特征提取與融合方法、惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性、惡意代碼分布式處理問題,最終形成一個集數(shù)據(jù)的輸入、預(yù)處理、分析、輸出為一體的初具精度、魯棒性、可解釋性和可追朔性與實時性的惡意代碼檢測系統(tǒng)。

        猜你喜歡
        分類深度特征
        分類算一算
        深度理解一元一次方程
        如何表達“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        深度觀察
        深度觀察
        深度觀察
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        日韩精品极品系列在线免费视频| 国产精品久久久久9999无码| 丰满少妇作爱视频免费观看| 国产亚洲精品bt天堂精选| 毛片毛片免费看| 国内自拍偷拍一区二区| 亚洲一区二区三区蜜桃| 免费操逼视频| 一级午夜视频| 日本不卡一区二区三区在线| 中文字幕国产精品一二三四五区| 国产成本人片无码免费2020| 狠狠色狠狠色综合日日92| 亚洲一区二区三区国产精品视频| 亚洲视频高清一区二区| 看av免费毛片手机播放| 亚洲成a人v欧美综合天堂麻豆 | 中文字字幕人妻中文| 国产成人综合久久精品免费| 亚洲欧洲美洲无码精品va| 人妻少妇中文字幕,久久精品| 玩弄丰满奶水的女邻居| 亚洲一区日韩无码| 亚洲一区二区视频蜜桃| 精品人妻av一区二区三区| 人妻丝袜无码国产一区| 91视频88av| 免费在线av一区二区| 人妻夜夜爽天天爽三区丁香花| 熟女人妻在线视频| 国产欧美日韩专区毛茸茸| 草逼视频污的网站免费| 人人妻人人狠人人爽天天综合网| 亚洲欧洲精品成人久久曰影片| 欧美日韩国产在线人成dvd| 女同性恋一区二区三区av| 久久精品国产视频在热| 亚洲a级片在线观看| 蜜桃在线高清视频免费观看网址| 精品人妻伦一二三区久久| 国自产偷精品不卡在线|