亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的惡意代碼檢測技術(shù)研究進展

2019-07-15 01:37:34周顯春龔家浩李蕓倩陳雪姣

現(xiàn)代計算機 2019年15期

周顯春，龔家浩，李蕓倩，陳雪姣

（三亞學(xué)院信息與智能工程學(xué)院，海南 572022）

1 研究背景及意義

隨著互聯(lián)網(wǎng)的發(fā)展，惡意代碼攻擊呈幾何級增長，惡意代碼變體是互聯(lián)網(wǎng)安全的一個主要威脅。其中，木馬、病毒、蠕蟲等惡意代碼造成的影響最為廣泛，社會很多方面都造成損失，不僅是經(jīng)濟上而且還是精神層面的。通過分析騰訊安全《2017年度互聯(lián)網(wǎng)安全報告》，可以發(fā)現(xiàn)：PC端病毒攔截近30億次，近60%的惡意程序為木馬，已成網(wǎng)絡(luò)黑客首選攻擊方式。其中新型勒索類病毒呈噴發(fā)狀態(tài)，僅在2017年統(tǒng)計發(fā)現(xiàn)勒索類病毒樣本數(shù)量達到660萬，僅在我們國家的2017年5月、6月分別就發(fā)生了wannacry病毒、Petya的變種兩次較大規(guī)模的傳播，并且大部分受害者都不知道何時、何地、何種方式感染。與PC端相對比，無線移動端的情況也差不多，僅2017年就查殺Android病毒12.4億次，新増病毒1545萬，并且感染病毒用戶超過1.88億[1]。

五花八門變種惡意代碼的數(shù)量噴發(fā)增長，爆發(fā)行為詭秘、隱形手段高明等特點，使得基于抽樣技術(shù)和已有惡意代碼特征的檢測技術(shù)在檢測準(zhǔn)確性、時效性面臨前有未有的挑戰(zhàn)[2]。無論是政府機構(gòu)，還是企業(yè)、社會團體都對此特別重視，重視、鼓勵組織和個人研究惡意代碼檢測技術(shù)。但是，在大數(shù)據(jù)環(huán)境下，因為大多數(shù)的惡意代碼檢測方法都不是智能型的，尤其對海量數(shù)據(jù)下實時性的迫切需求，導(dǎo)致現(xiàn)有技術(shù)實在無法滿足現(xiàn)實生活的需求。針對日益惡化的網(wǎng)絡(luò)安全形勢，改善或提高現(xiàn)有惡意代碼檢測的精度、實時性，增強檢測技術(shù)的智能能力，無論是對凈化網(wǎng)絡(luò)安全環(huán)境，還是減少網(wǎng)絡(luò)受害者，避免社會動蕩都有非常重要的意義。

2 國內(nèi)外研究現(xiàn)狀及分析

經(jīng)國內(nèi)外學(xué)者的長期研究，目前惡意代碼檢測方法研究可以劃分為：基于靜態(tài)分析的方法[4]、基于動態(tài)分析的方法[5]、基于機器學(xué)習(xí)算法分析的方法[6]。

不管是動態(tài)還是靜態(tài)惡意代碼分析方法，面對規(guī)模龐大且增長迅速的惡意代碼庫，需要消耗大量的時間和資源，己經(jīng)不能滿足實時分析的需求，而且都很難對所有的未知惡意程序進行甄別。而機器學(xué)習(xí)分析方法，如隨機森林、支持向量等算法可以區(qū)分良性代碼和惡意代碼[7]，也可以用來檢測已知的、未知的惡意代碼及其變體[8]。但是要想讓其保持高精度，必須讓訓(xùn)練數(shù)據(jù)大多帶有標(biāo)簽。在大數(shù)據(jù)的環(huán)境下，造成訓(xùn)練數(shù)據(jù)的人工標(biāo)注標(biāo)簽的工作量非常大且檢測效果依賴分析人員的經(jīng)驗和檢測惡意代碼的實時性差[9]。

深度學(xué)習(xí)應(yīng)用于惡意代碼檢測方面的研究是近3年來的研究熱點[2]。深度學(xué)習(xí)是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進行表征學(xué)習(xí)的算法[10]。隨著CPU、GPU、TPU圖像處理專用處理器、分布式架構(gòu)技術(shù)的發(fā)展，深度學(xué)習(xí)算法在計算機視覺、語音識別、NLP、生物醫(yī)學(xué)等領(lǐng)域取得的最大成功，促使國內(nèi)外研究人員開始嘗試使用深度學(xué)習(xí)解決惡意代碼識別問題[11]。尤其對其應(yīng)用于惡意代碼檢測中存在的有效特征的提取與融合方法、惡意代碼的特征與分類標(biāo)簽的相關(guān)性、惡意代碼分布式處理等3個問題展開了重點研究。

2.1 有效特征的提取與融合方法

深度學(xué)習(xí)與傳統(tǒng)模式識別方法的最大不同在于它是從大數(shù)據(jù)中自動學(xué)習(xí)特征，而非采用手工標(biāo)注特征，因為特征工程的工作量占整個數(shù)據(jù)處理80%左右?，F(xiàn)有的研究工作基本上都是使用現(xiàn)有數(shù)據(jù)集默認(rèn)的N-grams[12-13]或者圖像紋理熵值圖[14-15]等特征來進行學(xué)習(xí)，但非融合特征不能體現(xiàn)數(shù)據(jù)的關(guān)鍵特征，影響惡意代碼檢測效果。

惡意代碼特征的深度分析處理是惡意代碼分類的重要過程之一，現(xiàn)有的研究面臨著多維特征融合和深度分析處理的問題[16]。因為惡意代碼數(shù)據(jù)具有多維特征的特點，僅僅提取單一高維度，不能完全表現(xiàn)其有效特征[17]，需要從文件實體、文件反匯編等不同的角度來提取惡意代碼樣本的特征并融合，從而形成健壯性更好的特征向量[18-20]。如：國內(nèi)清華大學(xué)Liu等人[18]提出融合灰度圖像的紋理特征、Opcode特征和API特征等三種特征作為特征向量，采用共享近鄰聚類算法來發(fā)現(xiàn)新的惡意代碼，可以針對Windows程序文件有效地分類未知惡意代碼。崔弘等人[19]提出了一種基于Sim-Hash的靜態(tài)二進制文件、反匯編的高維特征融合惡意代碼分析方法。該方法能夠有效提高分析精度，但是該方法只適合較少的惡意代碼分類場景。隨著移動端的大量使用，惡意APK也成倍增長，采用上述類似方法也取得效果。王磊團隊通過提取結(jié)構(gòu)化、統(tǒng)計類、長期經(jīng)驗總結(jié)的特征并歸一化處理，用15萬個樣本數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)框架，準(zhǔn)確率達到99.96%。他們的研究成果主要集中于靜態(tài)特征的提取，仍然沒有從根本上解決問題。

日本名古屋大學(xué)Tobiyama等人[20]把日志文件存在軟件進程行為圖像化，包括API調(diào)用序列數(shù)據(jù)，并使用RNN提取有效圖像特征，然后用CNN對特征圖像進行分類方法，AUC值達到了96%?？墒菙?shù)據(jù)量太小，把該方法應(yīng)用于大規(guī)模數(shù)據(jù)集時的實時性還有待驗證。

2.2 惡意代碼的特征與分類標(biāo)簽的相關(guān)性

深度學(xué)習(xí)模型輸出分類結(jié)果時，其依據(jù)對用戶往往是不可見的。不可解釋同樣也意味著危險。例如開發(fā)一款基于深度學(xué)習(xí)模型某種疾病診斷系統(tǒng)，它能夠幫助醫(yī)生判定病人風(fēng)險的應(yīng)用，開發(fā)者可能還需要知道模型產(chǎn)生診斷結(jié)果是基于那些特征，否則影響各行各業(yè)普遍接受和應(yīng)用。在分類模型準(zhǔn)確率不降低的前提下，如何解釋類型的意義和通過分類類型追朔輸入數(shù)據(jù)的有效特征，破解深度學(xué)習(xí)的“黑匣子”，是近幾年深度學(xué)習(xí)領(lǐng)域的重點解決問題[21-25]。

谷歌公司Sundararajan等人[21]雖然從經(jīng)濟學(xué)的角度在理解深層網(wǎng)絡(luò)中輸入特征的相對重要性方面取得了一些進展，但沒有解決輸入特征或網(wǎng)絡(luò)所使用的邏輯之間的相互作用。瑞士蘇黎世聯(lián)邦理工大學(xué)Ancona等人[22]提出了一個稱為敏感度-n的度量，它有助于發(fā)現(xiàn)現(xiàn)有屬性方法的性質(zhì)，同時也為更一般的屬性方法追蹤提供了研究方向。

在2016年KDD會議上華盛頓大學(xué)Ribeiro等人[23]提出局部解釋性（LIME）模型，分析細(xì)微修改樣本的局部特征值和其輸出類型之間的關(guān)系。2017年在ICML會議上，美國斯坦福大學(xué)Koh等人[24]實現(xiàn)了分類類別和樣本之間的可追溯性，利用穩(wěn)健統(tǒng)計學(xué)中的影響函數(shù)分析訓(xùn)練樣本數(shù)據(jù)集中對測試樣本的預(yù)測類別影響最大的樣本。該方案在圖像處理領(lǐng)域已經(jīng)初有成效，但是現(xiàn)有研究均處于起步階段，具有運算量大、復(fù)雜性高的特點。影響函數(shù)的定義：

弄清楚神經(jīng)網(wǎng)絡(luò)做出預(yù)測分類的原因是人工智能領(lǐng)域最大的擔(dān)憂之一。UC Berkeley、阿姆斯特丹大學(xué)、Facebook AI Research[25]團隊的研究人員創(chuàng)建出一個AI自我解釋模型，既可以對預(yù)測分類類型做出文本及配套的圖像解釋，還可以找到預(yù)測分類類型與訓(xùn)練圖像樣本上重要的證據(jù)。麻省理工學(xué)院林肯實驗室David Mascharka等人[26]提出可解釋視覺推理人工神經(jīng)網(wǎng)絡(luò)TbD網(wǎng)絡(luò)應(yīng)用于視覺問答模型，讓其保持高精度同時易于解釋，并且具有較強的泛化能力。但是利用深度學(xué)習(xí)在惡意代碼檢測中應(yīng)用的可解釋性和可追朔性研究，研究還不夠深入，遠(yuǎn)遠(yuǎn)沒有達到實際應(yīng)用要求。

2.3 惡意代碼分布式處理

除了檢測的精度外，惡意代碼檢測的實時性是另一個衡量檢測效果的評估指標(biāo)。在大數(shù)據(jù)環(huán)境下，樣本數(shù)量越大，訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型花費時間過長；取樣數(shù)量少，時間變短，但是模型分類效率不強了，準(zhǔn)確率往往會出現(xiàn)明顯下降。而把分布式計算框架，如Spark與深度學(xué)習(xí)相結(jié)合，能夠改善數(shù)據(jù)分析的性能[27-31]。

巴基斯坦比爾澤特大學(xué)Alsheikh等人[27]、印度德里大學(xué)Gupta、新加坡南洋理工大學(xué)Gupta等人[28]已經(jīng)提出了結(jié)合Apache Spark和深度學(xué)習(xí)技術(shù)的框架，實證該框架能夠在短時間內(nèi)執(zhí)行大規(guī)模數(shù)據(jù)分析任務(wù)、具有較低的計算復(fù)雜度和顯著較高的準(zhǔn)確度。國內(nèi)謝鐵等人[29]、張翔等人[30]把基于Spark平臺的深度學(xué)習(xí)技術(shù)應(yīng)用于情感分類研究，時間效率和準(zhǔn)確率都得到了提高。莊福振等人[31]實現(xiàn)的并行自動編碼機，在大數(shù)據(jù)環(huán)境下可以高效地進行特征表示學(xué)習(xí)。

但是，目前國內(nèi)外還沒有涉及到Spark分布式計算框架和深度學(xué)習(xí)結(jié)合架構(gòu)在惡意代碼檢測中的應(yīng)用。

3 基于深度學(xué)習(xí)面向惡意代碼檢測的未來研究方向

綜述所述，有效特征提取與融合方法、惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性、惡意代碼分布式處理問題等無疑是深度學(xué)習(xí)在惡意代碼檢測技術(shù)中倍受國內(nèi)外關(guān)注的焦點問題，但現(xiàn)有大部分惡意代碼檢測技術(shù)的精度、魯棒性、可解釋性和可追朔性與實時性之間的矛盾依然比較突出。缺乏原創(chuàng)性理論和方法，缺乏具有針對性的研究背景，缺乏系統(tǒng)性的研究思路。

（1）改進有效特征提取與融合方法。為了克服基于深度學(xué)習(xí)的在惡意代碼的單一特征智能提取的片面性和靜態(tài)特征的不足，本課題采用動、靜態(tài)多種特征來融合更加全面地表達惡意代碼樣本的有效特征，從而形成具有更好的抗混淆特性和抗干擾特性的特征向量。

（2）研究惡意代碼的特征與分類標(biāo)簽的相關(guān)性。找到惡意代碼預(yù)測分類與訓(xùn)練樣本之間的關(guān)聯(lián)證據(jù)。破解深度學(xué)習(xí)的“黑匣子”是當(dāng)前的研究熱點，有很重要的應(yīng)用價值。只有破解了“黑匣子”，AI才能讓人放心使用。

（3）利用深度學(xué)習(xí)的分布式部署改善惡意代碼檢測的效果。如，采用二次開發(fā)TensorFlowOnSpark分布式框架改善惡意代碼檢測的實時性。TensorFlowOn-Spark分布式框架該庫支持把現(xiàn)有的TensorFlow程序切換到新的API，同時實現(xiàn)了模型訓(xùn)練的性能提升，能實現(xiàn)更好的分布式訓(xùn)練和數(shù)據(jù)傳輸。

4 結(jié)語

本文針對基于深度學(xué)習(xí)的惡意代碼檢測技術(shù)中的理論和應(yīng)用研究的需要，從國內(nèi)外前期預(yù)研結(jié)果出發(fā)，以研究惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性為基本突破口，系統(tǒng)性地研究深度學(xué)習(xí)應(yīng)用于惡意代碼檢測技術(shù)中的幾個核心的關(guān)鍵問題——有效特征提取與融合方法、惡意代碼的特征與分類標(biāo)簽之間的相關(guān)性、惡意代碼分布式處理問題，最終形成一個集數(shù)據(jù)的輸入、預(yù)處理、分析、輸出為一體的初具精度、魯棒性、可解釋性和可追朔性與實時性的惡意代碼檢測系統(tǒng)。