亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        惡意軟件新型檢測方法

        2018-11-16 09:34:20劉耀宗李千目
        軟件 2018年10期
        關鍵詞:工控二進制字節(jié)

        姚 鍵,劉耀宗,侯 君,凌 飛,4,李千目

        ?

        惡意軟件新型檢測方法

        姚 鍵1,劉耀宗2,3*,侯 君3,凌 飛3,4,李千目3

        (1. 國家稅務總局北京市稅務局第一分局,北京 100089;2. 五邑大學 智能制造學部,廣東 江門 529020 3. 南京理工大學 計算機科學與工程學院,江蘇 南京 210094;4. 南京聯成科技發(fā)展股份有限公司 江蘇省研究生工作站,江蘇 南京 211800)

        每年有數以千計的惡意軟件出現,這已經成為一種嚴重的安全威脅。目前的殺毒軟件系統試圖通過人工啟發(fā)式生成來檢測這些新型的惡意程序。這種方法的困難在于,成本極高,且確定惡意程序的過程中,即分析程序和生成簽名時,系統處于程序的危險中,經常會導致檢測失效。本文提出一種針對未知工控惡意軟件的自動挖掘框架。這個框架自動發(fā)現現有數據集的模式,使用模式去檢測一組新的惡意二進制文件。該方法在檢測工控未知惡意軟件的效率顯著高于當前傳統的檢測方法。本文研究不僅對交通、電網等行業(yè)能有重要意義,對稅務系統中的稅控機、自助辦稅這類設備也有顯著的價值。

        網絡攻擊;網絡流量;信息安全

        0 引言

        惡意軟件是一段執(zhí)行惡意功能的程序,比如危害工控系統安全、破壞工控系統或者在未經過用戶允許的情況下獲取敏感信息[1,2]。在工控安全領域檢測工控惡意軟件不是一個新問題[3]。早期的方法使用簽名去檢測工控惡意軟件。這些簽名由許多不同的屬性組成:文件名、文本串或字節(jié)碼[4]。研究思路集中在保護系統使其不受工控惡意軟件創(chuàng)造的安全漏洞所侵害。例如,專家們手工分析可疑程序,發(fā)現簽名不同于其他工控惡意軟件或安全程序的工控惡意軟件[5]。這種分析方法盡管精確,但是代價高昂、速度緩慢。目前,檢測工控惡意軟件的方法是在已知工控惡意軟件庫中進行匹配[6]。例如,有研究者開發(fā)了一個可以自動提取工控惡意軟件簽名的靜態(tài)方法[7]。文獻[8]提出了一個過濾惡意代碼的方法,這個方法是基于“跡象”來檢測惡意代碼的[8]。這些是通過觀察惡意代碼的特征來手動設計的。不幸的是,一個新的工控惡意軟件可能不包含任何已知的簽名,導致傳統的基于簽名的方法無法檢測。為了解決這個問題,有研究者提出手動生成啟發(fā)式分類器[9]。這種處理過程甚至比生成簽名代價還要大,研究人員曾將人工神經網絡應用到檢測引導扇區(qū)的惡意二進制文件[10]。ANN是擴展人類認知的神經網絡模型的分類器。使用ANN分類器,將所有引導扇區(qū)工控惡意軟件的字節(jié)作為輸入,研究人員可以成功識別80-85%未知的引導扇區(qū)可執(zhí)行文件,誤判率低于1%[11]。但是他們不能找到將ANN分類器應用到另外95%的計算機惡意二進制文件上的途徑。

        本文提出在大量數據中發(fā)現模式,使用數據挖掘算法在一組惡意和良性的可執(zhí)行文件上訓練多分類器,例如字節(jié)碼,并使用這些模式在相似數據中去檢測未來的實例(新實例),利用分類器檢測新的工控惡意軟件。這些二進制文件首先被靜態(tài)分析并提取特征屬性,然后分類器會訓練這些數據的子集。分類器是由數據挖掘算法在訓練數據集上得到的一個規(guī)則集或是檢測模型。

        1 檢測思路

        本文通過探索若干數據挖掘方法來分析和找尋準確的探測器用于未知二進制文件。首先在實驗中,集中大量的公共來源的程序,并將這些程序分成兩個類別:惡意的和良性的可執(zhí)行文件。為了使數據集標準化,實驗使用了MacAfee更新的病毒掃描器,將程序打上惡意或者良性可執(zhí)行文件的標簽。由于病毒掃描器的更新,且病毒來源于公開渠道,本文假設病毒掃描器為每一種惡意病毒生成了簽名。其次,將數據集分開為兩個子集:訓練集和測試集。數據挖掘算法利用訓練集生成規(guī)則集。本文利用測試集檢驗分類器在未知實例上的準確性。接下來,本文從數據集的每一個實例中自動提取它們的二進制配置文件,然后利用分類器從配置文件中提取特征。在數據挖掘框架中,特征就是從數據集中提取出的屬性,比如字節(jié)序列,分類器可以利用這些屬性生成檢測模型。利用不同的特征,訓練出一組數據挖掘分類器來辨別良性或工控惡意軟件。注意,提取的特征是二進制的靜態(tài)屬性,不需要執(zhí)行二進制文件。

        本文使用系統資源信息、字符串和從數據集的工控惡意軟件中提取出的字節(jié)序列作為不同類型的特征,本文使用了三種學習算法:

        ?基于規(guī)則的布爾規(guī)則

        ?給定一組特征的某一類概率的概率方法

        ?結合多個分類器輸出的多分類器系統

        本文設計了一個自動的簽名生成器,將數據挖掘方法和傳統的基于簽名方法比較。由于商業(yè)的掃描器包含數據集中所有工控惡意軟件的簽名,因此無法使用現成的病毒掃描器模仿新工控惡意軟件的檢測。像數據挖掘算法,基于簽名的算法僅僅被允許在訓練集上生成簽名。這允許本文的數據挖掘框架在新數據上能與傳統掃描器公平對比。為了量化表示本文方法的表現,本文展示了正確肯定、正確否定、錯誤肯定、錯誤否定計數的表格。正確肯定是惡意例子被正確標注為惡意,正確否定是良性實例被正確分類。錯誤肯定是良性實例被算法錯誤歸為工控惡意軟件,錯誤否定是工控惡意軟件被錯誤歸為良性程序。為了評價這些表現,本文計算了錯誤肯定率(假陽性率)和檢測率。

        根據上述思路,本文的數據集由4266個程序組成,其中有3265個工控惡意軟件,1001個無害程序。數據集中沒有程序副本,每個程序都由商業(yè)病毒掃描器標記為惡意或良性。工控惡意軟件是從不同的FTP網站上下載的,被商業(yè)病毒掃描器貼上正確的類別標簽(惡意的或是良性的)。數據集由5%的特洛伊木馬和95%的工控病毒。本文也檢查數據的PE(可移植的可執(zhí)行文件)格式的子集。由PE格式的可執(zhí)行文件組成的數據集包含206個良性程序和38個工控惡意軟件。

        2 LibBFD數據處理與特征分析

        首先,使用LibBFD,僅檢測PE文件的子集。然后,使用更多的普通方法提取所有類型的二進制文件的特征。為了從Windows二進制文件中提取源信息,本文使用GNU二進制目錄檢索文件。GNU二進制目錄檢索文件套件工具能夠在Windows上分析PE二進制文件,在PE或者通用目標文件格式(COFF)中,程序標題由一個COFF標題、一個選配標題、磁盤操作系統(MS-DOS)和一個文件簽名組成。PE標題本文使用libBFD(包含二進制目錄檢索文件的庫)來提取目標格式的信息。PE二進制文件的目標格式給出了文件大小、動態(tài)鏈接庫(DLLs)名稱和DLLS及重定位表的函數調用的名稱。從目標格式中本文提取特征集,用于組成每個二進制文件的特征向量。

        為了理解資源如何影響二進制文件的行為,本文利用三種特征來完成本文的試驗:二進制文件使用的DLLs(動態(tài)鏈接庫)的清單;二進制文件的DLLs的函數調用清單;每個DLL的函數被調用的次數。

        第一步,剖析二進制文件使用的DLLs。加載二進制文件作為特征,如式(1)所示。特征向量包含30個布爾值,表示此文件是否使用了DLLs。并不是每個DLL都被所有二進制文件使用,大部分文件調用相同的資源。例如,幾乎所有的二進制文件調用了GDI32.DLL,這是Windows的圖形設備接口,是Windows操作系統的核心組件。

        ┑advapi32∧avicap32∧……∧

        winmm∧┑wsock32 (1)

        以式(1)為例,式(1)中給出的向量至少由兩項未使用的資源組成:ADVAPI32.DLL(高級的Windows API)和WSOCK32.DLL(Windows套接字API)。同樣,向量至少包含兩項使用的資源:AVICAP32.DLL(AVI捕捉API)和WINNM.DLL(Windows多媒體API)。

        第二步,二進制文件性能分析使用DLLs和函數調用作為特征。這一步與第一步類似,但增加了函數調用的信息。特征向量由2229個布爾值組成,一些DLL有著相同的函數名,記錄了這些函數是哪個DLL的。式(2)是DLL及每個DLL內部的函數調用,式(2)中給出的樣本向量至少包含四個資源。ADVAPI32.DLL的兩個函數調用:Adjust-Token-Privileges()和GetFileSecurityA(),還有WSOCK32. DLL的兩個函數調用:recv()和send()。

        advapi32.AdjustTokenPrivileges()∧advapi32. GetFileSecurityA()∧……∧wsock32.recv()

        ∧wsock32.send() (2)

        第三步,統計每個DLL內部不同函數調用的次數。特征向量包括30個整型值。這個概要文件粗略測量DLL使用特定二進制文件,統計每個資源調用數目,而不是列舉引用函數。比如,如果一個程序僅僅調用WSOCK32.DLL的recv()和send()函數,計數為2。注意:不統計函數可能被調用的次數。

        3 GNU strings數據處理與特征分析

        由于非PE可執(zhí)行文件同樣有著字符串編碼,可以使用這些信息來給所有的4266個項目數據集分類,而不是小的LibBFD數據集。為了從第一個有4266個程序的數據集中提取特征,本文使用GNU字符串程序。這個字符串程序可以從任何文件中提取連續(xù)可打印字符。通過干凈程序中的相似字符串,能夠從中區(qū)分工控惡意軟件,通過工控惡意軟件中的相似字符串,可以從中區(qū)分干凈程序(通過相似字符串來區(qū)分工控惡意軟件和干凈程序)。二進制文件中每個字符串都作為一個特征。在數據挖掘步驟,本文討論頻度分析如何在數據集的整個字節(jié)序列上工作。

        一個二進制文件中的字符串可能由重復代碼片段、作者簽名、文件名、系統資源信息等組成。這個檢測工控惡意軟件的方法已經被反工控病毒社區(qū)用來生成工控惡意軟件的簽名。從可執(zhí)行文件中提取字符串并不如特征提取那樣強健,因為它們很容易被改變,因此本文分析另一個特征,字節(jié)序列。

        字節(jié)序列特征集中最后一個特征,本文利用整個4266個的數據集。本文利用hexdump來將二進制文件轉成十六進制文件。字節(jié)序列特征最具信息性,它表示可執(zhí)行文件的機器代碼,而不是像LibBFD特征這樣的資源信息。第二,分析整個二進制文件可以給出非PE可執(zhí)行文件的更多信息,strings方法則不行。生成hexdump之后,可以得到如圖1中展示的特征,其中,每一行代表機器代碼指令的一個短序列。

        假設工控惡意軟件中有一些相似指令,可以通過它們來區(qū)分出干凈程序,干凈程序中也有相似指令來區(qū)分工控惡意軟件。類似于strings特征,二進制文件中每個字節(jié)序列都被當做一個特征。

        圖1 Hexdump例子

        4 算法設計和分析

        本文使用2個不同的數據挖掘算法來生成有不同特征的分類器:Na?ve Bayes、Multi-Classifier系統。

        基于簽名檢測方法是工業(yè)中最常用的算法。這些簽名被選擇來區(qū)分工控惡意軟件與干凈文件。簽名通過某個領域的專家生成或者通過自動方法生成。典型地,簽名被用來說明特定工控惡意軟件的獨特屬性。我們用這個方法實施一個基于簽名的掃描器。

        首先,我們計算只在工控惡意軟件類中發(fā)現的字節(jié)序列。這些字節(jié)序列串接在一起成為每個工控惡意軟件樣本唯一的簽名。因此,每個工控惡意軟件簽名包含只在工控惡意軟件類中發(fā)現的字節(jié)序列。為了使簽名唯一,每個樣本中發(fā)現的字節(jié)序列串接在一起構成一個簽名。由于訓練時一個字節(jié)序列僅會在某類中發(fā)現,也可能在另一類中出現,這就導致了測試的假陽性(誤報)。

        其次,我們使用的算法是一個歸納規(guī)則(誘導性規(guī)則)學習者。這種算法生成一個由資源規(guī)則組成的檢測模型,被用于檢測未知的工控惡意軟件樣本。此算法使用libBFD信息作為特征。算法是基于規(guī)則的學習者,建立規(guī)則集來確定分類,是錯誤總數降到最小。錯誤被定義為訓練樣本被規(guī)則誤分類的數目。

        正例被定義為工控惡意軟件,反例被定義為良性程序。初始假設Find-S由<⊥,⊥,⊥,⊥>開始。假設最具體的,因為在盡可能少的樣本上為真,none。檢查Table 2中第一個正例,算法選擇下一個最具體的假設。下一個正例,,不符合假設的第一個和第四個屬性(“Does it have a GUI?”和“Does it delete files?”)、還有假設中被下一個最通用的屬性代替的那些屬性T。

        經過兩個正例的結果假設是。算法越過第三個樣本(反例),發(fā)現這個假設符合Table 2中最后的樣本。Table 2列出的訓練數據的最后規(guī)則是。規(guī)則基于訓練數據,規(guī)定一個工控惡意軟件的屬性是擁有一個惡意功能、危害系統安全。這符合我們在introduction中給出的工控惡意軟件的定義。在樣本中一個工控惡意軟件是否刪除文件或者是否有GUI這不重要。

        接下來,引入Na?ve Bayes分類器。Na?ve Bayes分類器計算給出特征的一個程序是工控惡意軟件的似然估計。本文使用strings和字節(jié)序列數據來計算一個二進制文件是惡意的概率。本文計算一個包含特征集F的程序的類,定義C為分類集上的一個隨機變量:良性和惡意的可執(zhí)行文件。本文想要計算P(C|F),即程序在某類中的概率,程序包含特征集F。為了訓練分類器,我們記錄了每個類中有多少程序包含唯一特征。我們使用Na?ve Bayes算法,為字節(jié)序列和strings計算最可能的類。

        每個數據挖掘算法生成自己的規(guī)則集來評估新樣本。每個算法的規(guī)則集能合并為一個掃描器來檢測工控惡意軟件。規(guī)則的生成僅需要定期來做。

        一個工控惡意軟件符合四個假設之一:

        1. 不調用user32.EndDialog(),調用kernel32. EnumCalendarInfoA()

        2. 不調用user32.LoadIconA(),kernel32.Get-TempPathA()和advapi32.dll中的其它任何函數

        3. 調用shell32.ExtractAssociatedIconA()

        4. 調用msvbbm.dll和the Microsoft Visual Basic Library中的任何函數

        如果一個二進制文件不符合Figure 5中所有惡意二進制文件的假設,那么它會被標記為良性。

        由Multi-Na?ve Bayes算法生成的規(guī)則集是每個樸素貝葉斯分類器組件生成的規(guī)則的集合。對每個分類器,都有一個規(guī)則集。不同分類器的概率規(guī)則可能不同,每個分類器訓練的基本數據是不一樣的。為了評估本文方法,定義:

        ? ?正確肯定(TP),工控惡意軟件樣本被歸類為惡意的數目

        ? ?正確否定(TN),良性程序被歸類為良性的數目

        ? ?錯誤肯定(FP),良性程序被歸類為惡意的數目

        ? ?錯誤否定(FN),工控惡意軟件被歸類為良性的數目

        檢測率是所有工控惡意軟件中被標記為惡意的百分比。假陽性率是良性程序中被標記為惡意的百分比,別稱誤警。檢測率定義為TP/(TP+FN),假陽性率定義為FP/(TN+FP),總準確度是(TP+TN)/ (TP+ TN+FP+FN)。實驗的結果如表1所示。

        表1 實驗結果

        Tab.1 Experimental Result

        5 結論

        本文提出一種針對未知工控惡意軟件的自動挖掘框架。這個框架自動發(fā)現現有數據集的模式,使用模式去檢測一組新的惡意二進制文件。通過與傳統的基于簽名(基于特征)方法比較,該方法在檢測工控未知惡意軟件的效率顯著高于當前傳統的檢測方法。本文研究對稅控機、自助辦稅設備也很有意義。

        [1] LIU Lixia, LING Ren, BEI Xiaomeng, GUO Rongwei, et al. coexistence of synchronization and anti-synchronization of a novel hyperchaotic finance system[C]. IEEE Proceeding of the 34th Chinese Control conference, Hangzhou, 2015: 8585- 8589.

        [2] 孫哲, 巫中正, 李千目. 基于網絡流量的安全可達性推理方法[J]. 軟件, 2018, 39(04): 36-43.

        [3] 孫哲, 巫中正, 李千目. 流量攻擊圖的建模與生成方法[J]. 軟件, 2018, 39(04): 48-52.

        [4] Li QM, Zhang H. Information Security Risk Assessment Technology of Cyberspace: a Review. INFORMATION. 2012, 15(11): 677-683.

        [5] 鮑克, 嚴丹, 李富勇, 等. 車聯網信息安全防護體系研究[J]. 軟件, 2018, 39(6): 29-31.

        [6] Li QM, Li J . Rough Outlier Detection Based Security Risk Analysis Methodology. CHINA COMMUNICATIONS. 2012, 9(7): 14-21.

        [7] 孟晨宇, 史淵, 王佳偉, 等. Windows 內核級防護系統[J]. 軟件, 2016, 37(3): 16-20.

        [8] Li, QM; Hou, J; Qi, Y; Zhang, H. The Rule Engineer Model on the high-speed processing of Disaster Warning Infor-mation. DISASTER ADVANCES. 2012, 5(4): 1196-1201.

        [9] 李磊. 數據通信網絡安全維護策略探討[J]. 軟件, 2018, 39(7): 191-193.

        [10] 蘇奎, 張彥超, 董默. 一種計算機安全評價系統設計[J]. 軟件, 2015, 36(4): 119-122.

        [11] 趙健, 桑笑楠, 馬迪揚等. 智能電網安全策略切換判決算法設計[J]. 軟件, 2015, 36(9): 70-77.

        New Industrial Control Malware Detection Method

        YAO Jian1, LIU Yao-zong2,3*, HOU Jun3, LING Fei3,4, LI Qian-mu3

        (1. The first branch of the Beijing Municipal Taxation Bureau of the State Administration of Taxation, Beijing, 100089; 2. Intelligent Manufacturing Department, Wuyi University, Jiangmen, 529020; 3. School of Computer science and Engineering, Nanjing University of Science and Technology, Nanjing 210094; 4. Jiangsu Postgraduate Workstation, Nanjing Liancheng Technology Development Co., Ltd, Nanjing 211800)

        Thousands of industrial malware appear every year, which has become a serious security threat. The current industrial anti-virus software system attempts to detect these new malicious programs through artificial heuristic generation. The difficulty with this approach is that it is extremely costly, and in the process of identifying malicious programs, that is, when analyzing programs and generating signatures, the system is at risk of the program, often causing detection failure. This paper proposes an automatic mining framework for unknown industrial control malware. This framework automatically discovers the patterns of existing datasets and uses patterns to detect a new set of malicious binary files. Compared with the traditional signature-based (feature-based) method, the method is significantly more efficient in detecting industrially unknown malware than current traditional detection methods. This research not only has important support for transportation, power grid and other industries, but also has significant value for tax control machines and self-service taxation in the tax system.

        Network attack; Network traffic; Information security

        TP391

        A

        10.3969/j.issn.1003-6970.2018.10.001

        江蘇省重大研發(fā)計劃(BE2017100、BE2017739);賽爾下一代互聯網創(chuàng)新項目(NGII20160122)

        姚鍵(1971-),高級工程師,博士,研究方向為智慧稅務、大數據、網絡安全;侯君(1982-),助理研究員,研究方向為數據分析、高等教育;凌飛(1984-),高級工程師,研究方向為信息安全。

        劉耀宗(1974-),講師,研究方向為信息安全。

        姚健,劉耀宗,侯君,等. 基于數據挖掘的新型惡意軟件檢測方法[J]. 軟件,2018,39(10):01-05

        猜你喜歡
        工控二進制字節(jié)
        用二進制解一道高中數學聯賽數論題
        中等數學(2021年8期)2021-11-22 07:53:38
        No.8 字節(jié)跳動將推出獨立出口電商APP
        有趣的進度
        二進制在競賽題中的應用
        中等數學(2019年4期)2019-08-30 03:51:44
        No.10 “字節(jié)跳動手機”要來了?
        簡談MC7字節(jié)碼
        工控速派 一個工控技術服務的江湖
        工控速浱 一個工控技術服務的江湖
        熱點追蹤 工控安全低調而不失重要
        基于攻擊圖的工控系統脆弱性量化方法
        自動化學報(2016年5期)2016-04-16 03:38:47
        日本岛国视频在线观看一区二区| 丰满人妻被黑人猛烈进入| 午夜精品久久久久久久99热| 成人av鲁丝片一区二区免费| 亚洲精品熟女国产| 国产精品jizz视频| 亚洲性无码av在线| 亚洲红怡院| 国产福利小视频在线观看| 国产国拍亚洲精品永久69| 少妇爽到爆视频网站免费| 久久久国产精品首页免费| 精品一区二区三区老熟女少妇| 精品国产一区二区三区a| 国产中文三级全黄| 亚洲国产另类久久久精品黑人| 精品国产亚洲一区二区三区演员表 | 国产精品一区二区三区在线观看| 国产日韩精品中文字幕| 四虎影视成人永久免费观看视频| y111111少妇影院无码| 亚洲欧美日韩中文字幕网址| 日韩午夜三级在线视频| 国产精品永久在线观看| 亚洲精品久久久久久久不卡四虎| 亚洲av无码av制服丝袜在线| 亚洲av日韩片在线观看| 在线看亚洲一区二区三区| 99久久国产精品网站| 欧美金发尤物大战黑人| 91国在线啪精品一区| 丝袜美腿亚洲综合在线播放| 国产精品无码久久综合| 无码少妇一级AV便在线观看| 亚洲免费看三级黄网站| 蜜桃高清视频在线看免费1| 九色综合九色综合色鬼| 波多野结衣中文字幕久久| 国内精品久久久久影院优| 亚洲综合天堂一二三区| 国产在线一区二区av|