亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法

2016-11-22 11:35:28郭亮羅森林潘麗敏

北京理工大學(xué)學(xué)報 2016年5期

關(guān)鍵詞：網(wǎng)絡(luò)協(xié)議字段數(shù)據(jù)包

郭亮，羅森林，潘麗敏

(北京理工大學(xué) 信息系統(tǒng)及安全對抗實(shí)驗(yàn)中心，北京 100081)

基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法

郭亮，羅森林，潘麗敏

(北京理工大學(xué) 信息系統(tǒng)及安全對抗實(shí)驗(yàn)中心，北京 100081)

為解決網(wǎng)絡(luò)協(xié)議語法分析方法中，依賴人工干預(yù)、分析效率低下、分析范圍較小等問題，提出一種基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法. 通過嗅探采集網(wǎng)絡(luò)原始數(shù)據(jù)包，解析基礎(chǔ)協(xié)議并對數(shù)據(jù)包進(jìn)行預(yù)處理，提取9維不同角度的特征，建立了網(wǎng)絡(luò)協(xié)議語法相似分析模型，分析網(wǎng)絡(luò)協(xié)議細(xì)節(jié)語法特征. 通過將TCP協(xié)議作為已知協(xié)議，對UDP、DNS、QQ等3種不同類型的協(xié)議測試，結(jié)果表明這3類協(xié)議報頭中，33%以上的字段能在TCP協(xié)議中找到對應(yīng)的相似語法，而且平均準(zhǔn)確率均在96%以上，該方法不需人工干預(yù)，可以提高分析效率、減少限制條件、擴(kuò)大分析范圍，并能較為有效地分析出網(wǎng)絡(luò)協(xié)議語法特征.

協(xié)議語法分析；協(xié)議逆向；相似度匹配

網(wǎng)絡(luò)協(xié)議語法分析在網(wǎng)絡(luò)安全中地位越來越重要，涉及到入侵檢測[1]、漏洞挖掘[2]、協(xié)議重用[3]等. 目前主要采用協(xié)議逆向分析的手段實(shí)現(xiàn)協(xié)議語法信息的提取，可分為兩類，基于流量跟蹤進(jìn)行分析和基于指令執(zhí)行進(jìn)行分析. PAN-Fan等[4]對這兩類方法進(jìn)行了比較，后者逆向能力和準(zhǔn)確度優(yōu)于前者，而前者限制條件和分析速度由于后者.

基于流量跟蹤分析的協(xié)議逆向方法，最早是Marshall Beddoe[5]啟動的PI(protocol information)項目來分析未知或者未公開的網(wǎng)絡(luò)協(xié)議的結(jié)構(gòu). CUI等[6]提出一種Discoverer方案，采用聚類的方法，比PI中基于字節(jié)的方法，更有針對性，同時還針對標(biāo)志、長度、偏移、cookie等語法，分別采用了一種啟發(fā)式識別規(guī)則. 但是該方法的無監(jiān)督聚類方法，并不能保證聚類結(jié)果完全可靠，而其使用的識別規(guī)則，針對性太強(qiáng)，識別結(jié)果較固定. Antunes等[7]提出一種以偏序比對算法為基礎(chǔ)，構(gòu)建有窮自動機(jī)識別報文的方法，但該識別并不能識別具體語法，只能識別狀態(tài)變化等，只滿足協(xié)議識別的基本需求. 基于指令執(zhí)行分析的逆向方法研究也比較多. 比如應(yīng)凌云等[8]提出惡意軟件網(wǎng)絡(luò)協(xié)議的語法和行為語義分析方法，這類方法有很高的準(zhǔn)確性和可靠性，但其復(fù)雜度依賴于分析對象軟件的代碼復(fù)雜度，而且分析過程長，效率低.

本文提出的基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法是屬于流量跟蹤的分析方法. 該方法能夠提高協(xié)議分析效率，進(jìn)行自動化協(xié)議分析，并且擴(kuò)大了協(xié)議語法分析的范圍，能夠適用于更多類型的語法分析.

1 網(wǎng)絡(luò)協(xié)議語法相似分析模型

1.1 原理框架

本文提出的網(wǎng)絡(luò)協(xié)議語法相似分析模型，原理圖如圖1所示.

1.2 網(wǎng)絡(luò)數(shù)據(jù)采集

對數(shù)據(jù)包進(jìn)行主要采集依靠網(wǎng)絡(luò)嗅探技術(shù)，捕獲經(jīng)過網(wǎng)卡的所有數(shù)據(jù)包，解析已知的基礎(chǔ)協(xié)議，過濾掉非目標(biāo)協(xié)議的所有數(shù)據(jù)包，只采集目標(biāo)協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)包. 本文所采用的訓(xùn)練數(shù)據(jù)使用最為常見的TCP協(xié)議數(shù)據(jù)，本文實(shí)驗(yàn)所用到的測試數(shù)據(jù)，主要包括UDP、DNS、QQ等協(xié)議數(shù)據(jù). 所采集數(shù)據(jù)均為原始數(shù)據(jù)包，每類數(shù)據(jù)均采集50 MB左右.

1.3 數(shù)據(jù)預(yù)處理

數(shù)據(jù)采集后，需要進(jìn)行基礎(chǔ)協(xié)議解析、數(shù)據(jù)截斷等步驟. 基礎(chǔ)協(xié)議解析主要指將原始數(shù)據(jù)流依據(jù)基礎(chǔ)協(xié)議語法拆分成一個個獨(dú)立數(shù)據(jù)包，并且去掉基礎(chǔ)協(xié)議的報頭. 而數(shù)據(jù)截斷指設(shè)置一個數(shù)據(jù)截斷長度N，截斷所有長度大于N字節(jié)的數(shù)據(jù)包，丟棄掉所有長度小于N字節(jié)的數(shù)據(jù)包.

將輸入的原始網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化成c[N][M]的標(biāo)準(zhǔn)二維向量，其中N表示數(shù)據(jù)包長度，M表示參與統(tǒng)計特征提取的數(shù)據(jù)包個數(shù). 對于N的選取，原則上只需要覆蓋協(xié)議的報頭即可，本文選取的4類協(xié)議，報頭長度均在30以下，同時考慮到32位計算機(jī)中默認(rèn)4字節(jié)對齊的問題，本文選取了N=32. 對于M的選取，本文采用網(wǎng)格法進(jìn)行了多組實(shí)驗(yàn)，選取了實(shí)驗(yàn)結(jié)果最佳的M=300.

1.4 特征提取

特征提取是最核心的一步，為了選擇更有效的特征，本文從取值范圍、隨機(jī)性、統(tǒng)計參數(shù)等3個角度選取了9維特征. 在預(yù)處理之后，將其輸出的c[N][M]的數(shù)據(jù)包，按照單字節(jié)進(jìn)行拆分，拆分成N個ci[M]序列，然后分別選取對每一組ci[M]序列進(jìn)行統(tǒng)計特征提取，得到N組9維特征向量λi[N](i=1，2，…，9)，對應(yīng)的特征如表1所示.

1.5 向量分組

根據(jù)網(wǎng)絡(luò)協(xié)議的一般特征，協(xié)議報頭中相同偏移的字節(jié)語法相同，而不同偏移地址的字節(jié)也存在語法相同的情況. 本文選取的訓(xùn)練協(xié)議TCP協(xié)議，根據(jù)其協(xié)議語義，對20位偏移地址進(jìn)行分組，最終分組結(jié)果為：[1、3] [2、4] [5、9] [6、10] [7、11] [8、12] [13] [14] [15] [16] [17、18] [19、20]等12組. 將每一組數(shù)據(jù)輸入，均可得到N組特征向量λi[N](i=1，2，…，9)，所有訓(xùn)練數(shù)據(jù)根據(jù)這12類分組，計算其每組的質(zhì)心向量，作為相似匹配的模型參數(shù).

1.6 相似匹配

提取出已知協(xié)議的特征向量質(zhì)心模型之后，需要將未知協(xié)議特征向量與該模型進(jìn)行相似匹配. 本文對歐幾里得距離函數(shù)，Jffreys 距離，Manhattan 距離，相關(guān)系數(shù)，余弦函數(shù)等5類相似度函數(shù)從時間性能和匹配成功率兩個角度進(jìn)行了對比分析實(shí)驗(yàn)(鑒于篇幅考慮，略去該實(shí)驗(yàn)具體內(nèi)容)，選擇匹配率和時間性能較好的Jffreys距離作為相似度函數(shù)，其公式為

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)?zāi)康?/p>

將TCP協(xié)議數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，UDP、DNS、QQ協(xié)議等作為測試數(shù)據(jù)，來驗(yàn)證算法有效性.

2.2 評價方法說明

統(tǒng)計每一類協(xié)議中各字段所匹配結(jié)果中，概率最大的TCP匹配類別及其匹配概率，并且人為根據(jù)其語義判定是否相似，將相似類別的平均匹配概率作為準(zhǔn)確率進(jìn)行評價.

2.3 實(shí)驗(yàn)過程和參數(shù)說明

本實(shí)驗(yàn)選取TCP協(xié)議視為已知協(xié)議，UDP、DNS、QQ協(xié)議等視為未知協(xié)議. 首先分別選取50 MB的TCP、UDP、DNS、QQ協(xié)議數(shù)據(jù)，每300個數(shù)據(jù)包為一組，并對所有數(shù)據(jù)進(jìn)行預(yù)處理和特征提取. 將TCP協(xié)議數(shù)據(jù)提取出的特征向量進(jìn)行分組，計算每一組的質(zhì)心. 分別選取UDP、DNS、QQ協(xié)議數(shù)據(jù)提取出特征向量各100組，輸入相似匹配模塊，與TCP協(xié)議各組質(zhì)心進(jìn)行相似匹配，選取與該輸入Jffreys距離最小的質(zhì)心，視為該組數(shù)據(jù)的匹配結(jié)果，并選擇匹配次數(shù)最多的質(zhì)心，作為該類協(xié)議該字段的匹配最終結(jié)果.

2.4 實(shí)驗(yàn)結(jié)果及分析

其中UDP相似匹配詳細(xì)結(jié)果如表2所示，從結(jié)果可以看出，UDP的字段1、3、7字段分別與TCP的1、1、11類字段相似，而從其字段含義也可以看出其語法相同，并且準(zhǔn)確率很高，在98%以上.

表2 UDP相似匹配結(jié)果

此外，UDP其他字段，比如兩個端口號的第二字節(jié)，分別匹配到了TCP的序列號的1、2字節(jié)，雖然從字段含義中看不到其聯(lián)系，但通過分析其語法，也可以得到其語法相似的結(jié)果，不過本文結(jié)果并未采用這類隱藏較深的結(jié)果.

鑒于篇幅原因，不將中間結(jié)果一一展示，實(shí)驗(yàn)結(jié)果如表 3所示. 經(jīng)過UDP、DNS、QQ等3種不同類型的協(xié)議測試，分別有3、4、3個字段與TCP中對應(yīng)字段有明顯相似關(guān)系. 而在這些相似語法字段的匹配中，平均準(zhǔn)確率均在97%以上，說明了本文方法的有效性. 此外，從結(jié)果看出，與TCP協(xié)議越相似的協(xié)議，如UDP協(xié)議，有著越高的算法準(zhǔn)確率.

表3 UDP、DNS、QQ匹配結(jié)果

本文選取了具有代表性的3類方法進(jìn)行比較，包括CUI所用的Discoverer[6]方法、Antonio Trifil[7]所用方法和應(yīng)凌云所用的Prama[9]方法進(jìn)行了對比分析，其比較結(jié)果如表 4所示. 與同樣基于流量跟蹤方法的Discoverer方法和Antonio方法比較來看，本文方法能夠分析出更多的特征，并且自動分析能力和時間性能都比較優(yōu)秀. 而與基于指令執(zhí)行的Prama方法比較來看，可以進(jìn)行實(shí)時、自動分析，并且分析范圍為相似特征，與Prama方法分析的行為特征各有優(yōu)劣，雖然在分析內(nèi)容方面比Prama方法分析出的語義信息略有遜色，但本文方法在分析出字段語法之后，可以通過參考相似字段的語義信息，進(jìn)行人工語義分析，一定程度地彌補(bǔ)該方法的不足.

表4 本文方法與Discoverer、Antonio及Prama方法對比分析

Tab.4 Comparison with Discoverer、 Antonio and Prama’s methods

方法分析條件分析手段分析范圍分析內(nèi)容分析時間本文方法流量跟蹤自動相似特征語法分析實(shí)時Discoverer流量跟蹤自動3類特征語法分析實(shí)時Antonio流量跟蹤半自動1類特征狀態(tài)分析略長Prama指令執(zhí)行人工行為特征語義分析較長

綜上所述，相比Discoverer方法、Antonio方法和Prama方法，網(wǎng)絡(luò)協(xié)議語法相似分析方法不需人工干預(yù)，能提高分析效率、減少限制條件、擴(kuò)大分析范圍，并能較為有效的分析出網(wǎng)絡(luò)協(xié)議語法特征.

3 結(jié) 論

本文提出了一種基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法，并建立了網(wǎng)絡(luò)協(xié)議語法相似分析模型.

通過實(shí)驗(yàn)確定了各項參數(shù)指標(biāo)，然后通過UDP、DNS、QQ等3種不同類型的語法分析實(shí)驗(yàn)，結(jié)果表明這3類協(xié)議報頭中，33%以上的字段都能在TCP協(xié)議中找到對應(yīng)的相似語法，而在這些相似語法字段的匹配中，平均準(zhǔn)確率均在96%以上，說明了本文方法的有效性.

與同類方法比，該方法不需人工干預(yù)，能提高分析效率、減少限制條件、擴(kuò)大分析范圍，并能較為有效地分析出網(wǎng)絡(luò)協(xié)議語法特征，有較好的實(shí)用性.

本文方法也存在一些缺點(diǎn)和不足. 首先該方法結(jié)果的準(zhǔn)確率，依賴于用于訓(xùn)練的已知協(xié)議的選取，不同于其他協(xié)議分析方法直接對目標(biāo)協(xié)議進(jìn)行分析. 其次本文所采用的特征，對于TCP、UDP、DNS等固定長度的協(xié)議有較好效果，但對于HTTP、XML等采用分隔符類的協(xié)議并不合適，對該類協(xié)議需要尋找一批新的特征，做進(jìn)一步的研究工作.

[1] Caballero J， Poosankam P， Kreibich C. Dispatcher: enabling active botnet infiltration using automatic protocol reverse engineering[C]∥Proceedings of the ACM Conference on Computer and Communications Security. [S.l.]: ACM, 2009:621-634.

[2] Comparetti P M， Wondracek G, Kruegel C. Prospex Protocol specification extraction[C]∥Proceedings of 2009 30th IEEE Symposium on Security and Privacy (SP). [S.l.]: IEEE, 2009:110-125.

[3] Brumley D， Caballero J， Liang Zhenkai. Towards automatic discovery of deviations in binaryimplementations with applications to error detection and fingerprint generation[C]∥16th USENIX Security Symposium.[S.l.]: USEMX Assaciation, 2007:213-228.

[4] Pan Fan， Wu Lifa， Du Youxiang， et al. Overviews on protocol reverse engineering[J]. Application Research of Computers, 2011,28(8):2801-2806.

[5] Beddoe M. Protocd information project[EB/OL]. [2004-01-02]. http://www.4tphi.net/～awalters/PI/PI.htrnl．

[6] Cui Weidong， Paxson V， Weaver N C. Discoverer: automatic protocol reverse engineering from network traces[C]∥16th USENIX Security Symposium. [S.l.]: USENIX, 2008.

[7] Jo?o Antunes， Nuno Neves， Paulo Verissimo. Reverse engineering of protocols from network traces[C]∥18th Working Conference on Reverse Engineering. [S.l.]: IEEE, 2011:169-178.

[8] 應(yīng)凌云，楊軼，馮登國，等.惡意軟件網(wǎng)絡(luò)協(xié)議的語法和行為語義分析方法[J].軟件學(xué)報，2011，22(7):1676-1689.

Ying Lingyun， Yang Yi， Feng Dengguo， et al. Syntax and behavior semantics analysis of network protocol of malware[J]. Journal of Software, 2011,22(7):1676-1689. (in Chinese)

(責(zé)任編輯：劉芳)

Analysis of the Network Protocol Syntax Based on Similarity Matching

GUO Liang， LUO Sen-lin， PAN Li-min

(Information System and Security & Countermeasures Experimental Center，Beijing Institute of Technology， Beijing 100081， China)

To solve the problems in analysis of the network protocol syntax, which are rely on human intervention, low efficiency and narrow scope, a method was proposed for analysis of network protocol syntax based on similarity matching. The main process of the method include collecting the raw packets by network sniffer, and then preprocessing the packets, using a variety of methods for 9 features extraction, establishing a network protocol syntax analysis model based on similarity matching method, to analyze the syntax feature of network protocol. Taking the TCP protocol as a known protocol, experiments were actualized with different types of protocols as UDP, DNS and QQ. The results show that in the three types of protocol header, more than 33% of the correct similar syntax fields can be found in TCP protocol, and the average accuracy rate was over 96%, the process needs not manual intervention, it can improve the analysis efficiency, reduce the constraints, expand the scope of the analysis, and analyze the network protocol syntax more effectively.

analysis of the network protocol syntax; protocol reverse; similarity matching

2014-03-24

北京理工大學(xué)科技創(chuàng)新計劃重大項目(2011CX01015)；國家“二四二”計劃項目(2005C48)

郭亮(1986—)，男，博士生，E-mail：liang4358@163.com.

潘麗敏(1968—)，女，碩士，實(shí)驗(yàn)師，E-mail：panlimin@bit.edu.cn.

TP 391

1001-0645(2016)05-0520-04

10.15918/j.tbit1001-0645.2016.05.015