亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網絡流量分析的二進制協(xié)議逆向方法

        2016-06-08 06:48:54陳佳瑩
        現代計算機 2016年13期
        關鍵詞:字段字節(jié)報文

        陳佳瑩

        (西南交通大學電氣工程學院,成都 610031)

        ?

        基于網絡流量分析的二進制協(xié)議逆向方法

        陳佳瑩

        (西南交通大學電氣工程學院,成都610031)

        摘要:

        關鍵詞:

        0 引言

        隨著以通信網絡技術為主導的新軍事革命的興起,信息網絡已迅速延伸到軍事領域的每一個角落,網絡對抗作為一種新的作戰(zhàn)方式登上舞臺[1-2]。在網絡對抗中,從截獲的通信流比特數據中識別出對方的協(xié)議類型,挖掘其協(xié)議規(guī)范是獲取對方網絡結構情況甚至于高層信息的基礎。現有的網絡安全檢測手段和協(xié)議識別方法都需要完整的協(xié)議規(guī)范作為先驗知識,所以,自動的未知協(xié)議逆向工程成為當今研究的熱點。

        現有的協(xié)議逆向方法大致分為兩類[3]:基于網絡流量分析的方法和基于執(zhí)行軌跡分析方法。前者依據報文字節(jié)取值的變化頻率和特征來提取協(xié)議報文格式。后者是在二進制代碼層跟蹤服務器程序處理報文各個字段所調用的不同指令,從而推導各個字段的語法語義。相對于執(zhí)行軌跡分析,網絡流量分析的實現與協(xié)議平臺無關,并且不需要二進制執(zhí)行信息,更為通用,也因此得到研究者的廣泛關注[4]。PI項目[5]最早提出基于網絡流量分析的協(xié)議逆向方法,該方法引入生物信息學中的漸進序列比對算法,有效地降低了大規(guī)模樣本序列比對的時間復雜度,但這種方法適用于各字段都是固定長度的報文,如果報文中存在可變長度的字段,比對結果會產生很大的誤差。Paxson[6]等人提出一種協(xié)議識別方案RolePlayer,該方法實現了對捕獲的數據流中的終端信息、長度域、Cookie等語義字段的定位,并通過關鍵字段的替換達到自動交互的效果。但這種方法沒有提取出報文格式,流量稍有變化就無法識別。此外,上述兩種方法都是針對于單一格式的數據流,不適用于網絡對抗中存在的混合著多種協(xié)議的數據流。

        基于上述問題,本文提出一種二進制協(xié)議逆向方法,該方法利用字節(jié)在網絡流中取值變化的規(guī)律,實現了不同類未知協(xié)議數據幀的分離和報文格式的域劃分。在此基礎上結合語義對報文進行字段定界,并通過多序列比對和迭代搜索挖掘變長域,達到提取報文格式的目的。

        1 系統(tǒng)框架

        基于網絡流量分析方法的基本思想是通過比對多個相同類型的報文來推導報文格式。首要解決的問題是如何將樣本集中的不同報文聚成不同的類,使得每一類中只包含一種類型的報文,才能確保后續(xù)協(xié)議逆向的準確度;其次是要考慮如何在確保字節(jié)對齊的基礎上比對同一字段在多個報文中的取值進行字段的定界從而獲取報文格式。

        因此,本文將協(xié)議逆向分成兩個階段,即數據幀分離階段和協(xié)議格式提取階段。首先抽取網絡流的字節(jié)取值特性進行關聯(lián)項的挖掘,建立關聯(lián)樹,遍歷關聯(lián)樹得到的關聯(lián)規(guī)則作為聚類中心達到幀分離的目的;然后對相同格式的報文序列進行字段定界以及可變域的序列比對,最后提取協(xié)議的格式包括固定域、長度域、目的域以及一些特定語義字段如地址、標識符等。圖1表示系統(tǒng)的整體框架與流程。

        圖1 系統(tǒng)框架與流程

        2 基于關聯(lián)樹的幀分離方法

        由OSI模型可知,網絡協(xié)議是一組不同層次上多種協(xié)議的組合,上層協(xié)議的格式一般通過下層協(xié)議中的格式標識字段來決定。這種網絡協(xié)議嚴格分層的特點為協(xié)議聚類提供了根本依據。此外,絕大多數的網絡協(xié)議都會在報文格式中定義若干個控制字段用來標識報文的類型和傳遞控制信息,這些字段通常是協(xié)議的各種命令和響應碼,如果以控制字段為基準,可以對相同類型的報文作進一步的比對得到更為精準的字段格式。無論是標識字段還是控制字段都會在樣本集中頻繁的出現[7],可以挖掘出來作為關鍵字,本文稱之為關聯(lián)項。

        將同一位置上的所有關聯(lián)項看作同一層,根據置信度把不同層次的關聯(lián)項聯(lián)系起來就形成一棵關聯(lián)樹,遍歷該關聯(lián)樹得到的每一條路徑就對應一條關聯(lián)規(guī)則。將關聯(lián)規(guī)則作為聚類中心,就可以把數據流中不同協(xié)議分離開。

        2.1關聯(lián)項的挖掘

        根據協(xié)議標識字段以及控制字段的取值較為固定的特點[9],以字節(jié)為單位對樣本中所有序列進行從左往右逐一掃描,若某位置上字節(jié)的取值種類不超過類型上限閾值,則將該位置上所有的字節(jié)取值作為關聯(lián)項候選項。

        本文使用文獻[7]中的頻繁串挖掘方法,實現僅對樣本集的序列掃描一次,即可得到任意長度模式序列的計數。挖掘出的頻繁特征由頻繁項及其在序列中的偏移量組成,第i個頻繁項表示為(fi,pi),其中pi表示該頻繁項的起始位置。假設樣本集Q共挖掘出n個頻繁項,按照起始位置從小到大的排列順序構成特征集F={f1,f2,…,fn}。

        為了確保后續(xù)協(xié)議逆向的準確性,必須對候選項進行篩選和合并操作。首先,篩選掉對應的序列條數少于最小類下限閾值的候選項;其次對于偏移量連續(xù)的候選項進行合并,減少后續(xù)建樹的時間復雜度。

        2.2關聯(lián)樹的建立

        為了更好的說明關聯(lián)樹建立的過程,若位置i上找出k個候選項,則定義該位置的特征向量為:

        這里假設總共在四個位置上挖掘到關聯(lián)項,對應的特征向量分別為:

        下面分三個步驟對于上述特征向量建立關聯(lián)樹:

        (1)將同一位置上所有關聯(lián)項看作同一層,分別計算相鄰兩層中所有關聯(lián)項之間的置信度,若置信度大于0,則將兩關聯(lián)項相連,結果如圖2所示。

        圖2 關聯(lián)樹初始化

        圖3 關聯(lián)樹化簡

        (3)對關聯(lián)樹進行遍歷得到最終的關聯(lián)規(guī)則,其中每條關聯(lián)規(guī)則都與一種協(xié)議格式相對應,但由于某種協(xié)議可能具有不同的狀態(tài),因此同一協(xié)議可能對應多條關聯(lián)規(guī)則。

        3 格式識別

        網絡協(xié)議報文是由若干個字段組成,其中字段為具有特定語義的最小不可分割的連續(xù)字節(jié)序列。根據各字段在網絡流中的取值變化情況,可以將其分成固定域與可變域兩類[10]。變長域作為可變域中的一種特定語義字段,其起始位置和內容長度在不同報文實例中均可能不同,容易證明,一旦可變域中包含了變長域,后續(xù)則不可能出現對齊的固定域。

        根據上述思想,提出一種基于域劃分的格式識別方法。方法以樣本集S為輸入,主要分為以下四個階段:

        (4)對于集合中每一個alterBlock2i調用函數lengthValidate()進行長度字段匹配,達到變長域的挖掘的目的。

        3.1字段定界

        根據2.1節(jié)中的統(tǒng)計結果,計算各對齊字節(jié)的取值變化率θi:

        其中Vi表示第i個字節(jié)取值的變化次數,Ni表示序列個數。

        考慮到同一字段中取值變化率相似的特點,將變化率差值不超過5%[11]的連續(xù)字節(jié)劃分為字段。此外可以通過特定語義字段的特性對劃分結果進行核實和校對,本文主要考慮以下特性:

        (1)請求報文和響應報文中的源地址和目的地址兩個字段是相互對調的;

        (2)在(1)的基礎上出現某連續(xù)字節(jié)在請求報文和響應報文中取值相同,但是分別在連續(xù)的請求報文和連續(xù)的響應報文中取值不重復,那么合并該字節(jié);

        (3)將序列兩兩相減取長度差值,若存在某連續(xù)字節(jié)(通常優(yōu)先取兩個字節(jié))的差值等于序列長度差值,那么合并該連續(xù)字節(jié)為長度字段。

        3.2變長域的挖掘

        變長域通常由長度字段和目的字段組成,首先解析出長度字段,然后就可以根據長度字段的取值內容進一步確定目的字段的范圍。

        長度字段搜索是一個內部迭代的過程,其核心思想是:從報文的首部開始假定字節(jié)(組)L為長度字段(一般為1~2個字節(jié)),根據字節(jié)L的取值截取相應長度的字節(jié)序列S作為目的字段,當滿足如下條件之一即可結束本次搜索:1)字節(jié)L的取值對應的長度超出了搜索范圍;2)序列S的后續(xù)字節(jié)個數小于默認長度,本文設置為2。每次搜索結果用長度向量(offset,count)的形式保存,其中offset表示首個長度字段的位置,count表示變長域中(L,S)組合的個數。最終迭代搜索之后得到一個長度向量集合。

        每一條序列報文都對應這樣一個向量集合,若集合存在交集,那么該交集就是最終識別的變長域中的長度字段。

        4 實驗與結果分析

        4.1數據集的獲取

        本文對四種常見二進制協(xié)議進行實驗,分別是ICMP、ARP、DNS、OICQ協(xié)議。將數據集分成兩部分,一部分作為訓練集,另外一部分作為測試集,其中訓練集只包含上述四種標準協(xié)議,測試集中另外包含未出現的自定義協(xié)議用來測試該方法對于未知協(xié)議的識別能力。在數據獲取的過程中,盡可能多的獲取相同格式報文的不同實例,保證樣本的多樣性,避免產生過多冗余的關聯(lián)項,從而提高后續(xù)格式提取的準確度。

        4.2聚類效果分析

        對測試集中的四種標準協(xié)議按照前面介紹的頻繁項發(fā)掘方法,設置合適的閾值構造關聯(lián)樹如圖4所示。遍歷上述關聯(lián)樹,得到的關聯(lián)規(guī)則與協(xié)議對應關系如下表1所示。

        由統(tǒng)計結果可以看出,以規(guī)則1,2為聚類中心的協(xié)議類型為DNS,以規(guī)則3為聚類中心的協(xié)議類型為OICQ,以規(guī)則4為聚類中心的協(xié)議類型為ICMP,以規(guī)則5,6為聚類中心的協(xié)議類型為ARP。在分離四種協(xié)議的基礎上根據DNS和ARP協(xié)議中的標識符進一步劃分了子類。說明隨著挖掘的關聯(lián)項層次越深,聚類的粒度越細,格式越精確。

        圖4 關聯(lián)樹示例

        表1 關聯(lián)規(guī)則與協(xié)議對應關系

        4.3格式識別效果分析

        為了對比結構識別的準確率,將本文方法和文獻[8]方法的識別結果相對比,其中標準協(xié)議的識別結果和Wireshark的解析結果進行對比,未知協(xié)議和預先定義的語法語義規(guī)則對比,統(tǒng)計字段邊界劃分正確的字段所占比率,如圖5所示。

        圖5 字段識別正確率對比

        由圖5中的對比數據可以看出,對于結構固定的ICMP協(xié)議兩個方法的識別準確率相差相對較小,而對于存在變長域的DNS協(xié)議和具有較長冗余負載數據的OICQ協(xié)議,本文方法的優(yōu)勢比較明顯,因為文獻[8]中的方法對字段的劃分必須通過多序列對比來判斷,而變長域和負載數據都會對序列比對的過程進行干擾,降低識別率。對于ARP協(xié)議,兩種方法的識別率都不高,文獻[8]方法的識別率更是接近于0,這是因為ARP協(xié)議產生的報文實例過于單一化,從字節(jié)對齊的方面考慮完全無法進行字段劃分,只有根據文中3.1節(jié)提到的語義特性才能對某些字段進行推斷。

        變長域由于其起始位置和內容長度在不同報文實例中均可能不同,在逆向解析中識別度較低。為提高變長域的識別率,本文做了如下技術處理:(1)結合域劃分和多序列對比對待測試報文序列進行處理,縮小可變域的搜索區(qū)域,同時減少搜索算法對于取值較小字節(jié)的敏感度;(2)在相同格式的多個報文實例中進行推斷結果的驗證,減小變長域的誤報率。將DNS作為實驗數據統(tǒng)計長度字段的識別率、誤識別率和搜索時間開銷,統(tǒng)計結果如表2所示。

        表2 識別率、誤識別率和搜索時間開銷比較

        由表2可以看出,利用域劃分和多序列比對算法對報文序列進行處理之后,通過縮小可變域的搜索區(qū)域大幅度減小了時間開銷,并在此基礎上提高了長度字段的識別率和降低誤識別率。說明本方法對于類似DNS這種變長域結構較集中的協(xié)議,長度字段搜索的效率和準確率都有大幅度提高。

        5 結語

        針對目前基于網絡流量分析方法只適用于較為單一數據幀格式的逆向解析以及在序列較長情況下對變長域的逆向準確率不高而且效率低下的問題。本文首先利用協(xié)議的層次結構通過挖掘關鍵字之間的關聯(lián)規(guī)則對不同格式的協(xié)議進行聚類;然后對于同一類中的序列進行格式提取,在字段定界過程中增加語義特性的判斷,在變長域挖掘之前對序列進行域劃分并截取,大幅度縮減比對序列的長度,在提高長度字段識別準確率的同時減小了算法的時間復雜度。在下一步的工作中,將研究網絡協(xié)議其他語義字段的逆向。

        參考文獻:

        [1]黃漢文.空間網絡對抗研究[J].航天電子對抗,2009,01:7-9+33.

        [2]張春瑞,劉淵,李芬,王開云.無線網絡對抗關鍵技術研究綜述[J].計算機工程與設計,2012,08:2906-2910+2975.

        [3]趙詠,姚秋林,張志斌,郭莉,方濱興. TPCAD:一種文本類多協(xié)議特征自動發(fā)現方法[J].通信學報,2009,S1:28-35.

        [4]黎敏,余順爭.抗噪的未知應用層協(xié)議報文格式最佳分段方法[J].軟件學報,2013,03:604-617.

        [5]BEDDOE M. Protocol Information Project[EB/OL].[2012-18]. http://www.4tphi.net/~awalters/PI/pi.pdf.

        [6]Weidong Cui,et al. Protocol-Independent Adaptive Replay of Application Dialog. In The 13th Annual Network and Distributed System Security Symposium(NDSS 2006.

        [7]金凌.面向比特流的未知幀頭識別技術研究[D].上海交通大學,2011.

        [8]Han J,Pei J,Yin Y,et al. Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach[J]. Data Mining & Knowledge Discovery,2004,8(1):53-87.

        [9]Cui W,Kannan J,Wang H J. Discoverer: Automatic Protocol Reverse Engineering from Network Traces[C]. In Proceedings of the 16th USENIX Security Symposium(Security'07. 2007.

        [10]黃笑言,陳性元,祝寧,唐慧林.基于字節(jié)熵矢量加權指紋的二進制協(xié)議識別[J].計算機應用研究,2015,02:493-497.

        [11]潘璠,洪征,杜有翔,吳禮發(fā).基于遞歸聚類的報文結構提取方法[J].四川大學學報(工程科學版),2012,06:137-142.

        Reverse Engineering for Binary Protocol Based on Network Traces

        CHEN Jia-ying
        (College of Electrical Engineer,Southwest Jiaotong University,Chengdu 610031)

        Abstract:

        Keywords:

        對未知網絡協(xié)議進行逆向解析在網絡對抗應用中具有重要意義。提出一種基于關聯(lián)樹構造的聚類方法,通過挖掘網絡協(xié)議不同層次上關鍵字之間的聯(lián)系構造關聯(lián)樹,將遍歷樹得到的關聯(lián)規(guī)則作為聚類的中心,從而達到對不同協(xié)議數據幀分離的效果;此外在字段定界過程中增加語義特性的判斷,在域劃分的基礎上利用多序列比對和迭代搜索實現變長域的挖掘。實驗表明,該方法在二進制協(xié)議聚類上效果顯著,同時提高字段識別準確度,在協(xié)議逆向領域具有較高應用價值。

        二進制協(xié)議;數據幀分離;關聯(lián)樹;協(xié)議逆向

        文章編號:1007-1423(2016)13-0011-05

        DOI:10.3969/j.issn.1007-1423.2016.13.003

        作者簡介:

        陳佳瑩(1991-),女,江西撫州人,研究生,研究方向為計算機網絡、協(xié)議逆向

        收稿日期:2016-01-07修稿日期:2016-04-25

        Reverse engineering for unknown network protocol has played an important role in the field of network countermeasure. Proposes a cluster method based on relevance-tree construction,first excavates the relationship between keywords in each layer of network protocol,then the relevance rules obtained by traversing the tree is used as the center of clustering and finally frames in different format was separated. In addition,protocol structure is extracted by identifying field boundaries and scanning variable region using multiple sequence alignment and iterative algorithm. Experiments show that the proposed method produces a remarkable effect in cluster and improves the accuracy of field identification,which is of important application value.

        Binary Protocol;Data Frame Separation;Relevance-Tree;Reverse Engineer

        猜你喜歡
        字段字節(jié)報文
        基于J1939 協(xié)議多包報文的時序研究及應用
        汽車電器(2022年9期)2022-11-07 02:16:24
        圖書館中文圖書編目外包數據質量控制分析
        No.8 字節(jié)跳動將推出獨立出口電商APP
        CTCS-2級報文數據管理需求分析和實現
        淺析反駁類報文要點
        中國外匯(2019年11期)2019-08-27 02:06:30
        No.10 “字節(jié)跳動手機”要來了?
        簡談MC7字節(jié)碼
        ATS與列車通信報文分析
        CNMARC304字段和314字段責任附注方式解析
        無正題名文獻著錄方法評述
        免费av一区二区三区无码| 国产成人精品视频网站| 亚洲av成人久久精品| 亚洲一区二区免费在线观看视频| 国产高跟黑色丝袜在线| 人人妻人人玩人人澡人人爽| 国产精品久久无码免费看 | 日本伦理美乳中文字幕| 国产精品第一二三区久久| 亚洲精品成人网线在线播放va| 久久精品无码鲁网中文电影 | 最新高清无码专区| 国产成人精品日本亚洲语音1| 国产伦一区二区三区久久| 欧美拍拍视频免费大全| 欧美极品少妇无套实战| 一本大道久久精品 东京热| 精品中文字幕久久久人妻| 少妇真人直播免费视频| 国产成人无码一区二区三区在线| 欧美日韩性高爱潮视频| 亚洲一二三四五中文字幕| 欧美大屁股xxxx高潮喷水| 精品国产v无码大片在线观看| 加勒比hezyo黑人专区| 亚洲美女又黄又爽在线观看| 麻豆密入视频在线观看| 日本免费播放一区二区| 国产精品无码dvd在线观看| 韩日美无码精品无码| 精品人妻一区二区三区蜜桃| 亚洲国产av一区二区四季| 色噜噜狠狠狠综合曰曰曰| 亚洲国产午夜精品乱码| 麻豆三级视频网站在线观看 | 精品自拍偷拍一区二区三区| 久久精品免费一区二区喷潮| 丁香五香天堂网| 国产精品女同久久免费观看| 自拍成人免费在线视频| 亚洲中文字幕成人无码|