亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)流統(tǒng)計數(shù)據(jù)的偽裝入侵檢測

        2014-09-29 10:31:44劉文怡王軼駿
        計算機(jī)工程 2014年7期
        關(guān)鍵詞:數(shù)據(jù)包分類器樣本

        劉文怡,薛 質(zhì),王軼駿

        (上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240)

        1 概述

        入侵者假冒或偽裝成合法用戶進(jìn)入操作系統(tǒng)的入侵行為稱為偽裝入侵(masquerade intrusion)[1]。未授權(quán)用戶(或稱為“偽裝攻擊者”)通常通過偽裝成合法用戶的手段進(jìn)入系統(tǒng)訪問關(guān)鍵數(shù)據(jù)或執(zhí)行其他非法操作。由于合法用戶的行為本身是發(fā)展變化的,且偽裝攻擊者可能嘗試模仿合法用戶的行為,這些不確定因素使得偽裝入侵檢測比傳統(tǒng)的網(wǎng)絡(luò)入侵檢測更復(fù)雜[2]。目前的偽裝攻擊檢測系統(tǒng)大多采用異常檢測技術(shù)——這種技術(shù)對合法用戶的正常行為特征進(jìn)行建模,通過被檢測用戶的實際行為特征與合法用戶的行為特征進(jìn)行比較,從而檢測入侵。可以看出,偽裝入侵檢測牽涉兩大關(guān)鍵技術(shù):用戶特征建模以及入侵檢測算法。近年來,學(xué)術(shù)界與工業(yè)界就這2個話題開展了廣泛研究。

        在用戶特征模型方面,早期的研究者大多利用Unix與Linux平臺用戶所鍵入的shell命令,如Schonlau等人通過展開Linux平臺的shell命令數(shù)據(jù)集對偽裝攻擊檢測方法進(jìn)行研究[3]。之后的學(xué)者則著眼于Windows系統(tǒng),Li等人與Garg等人分別將Windows系統(tǒng)的用戶進(jìn)程與用戶的鍵盤鼠標(biāo)作為建模對象[4-5]。更有學(xué)者則將目光轉(zhuǎn)向用戶的網(wǎng)絡(luò)行為,例如Strasburg等人提出將用戶的網(wǎng)絡(luò)服務(wù)器登錄信息與NetFlow記錄作為建模對象[6]。然而,可以發(fā)現(xiàn),以上特征模型牽涉用戶的敏感信息,采用以上方案必將帶來諸多隱私問題,為檢測系統(tǒng)的部署帶來局限性。

        在入侵檢測算法方面,Schonlau等人研究了基于統(tǒng)計理論的檢測方法,包括Uniqueness算法、貝葉斯單步算法等[3];Maxion等人對Schonlau的檢測方法進(jìn)行了改進(jìn),引入了貝葉斯分類算法[7]。Lane等人開展了基于機(jī)器學(xué)習(xí)的偽裝攻擊檢測研究,將加窗平滑后的相似度曲線作為檢測用戶異常學(xué)習(xí)的依據(jù)[8]。Kim等人提出利用支持向量機(jī)(Support Vector Machine,SVM)作為異常檢測算法[2],也有學(xué)者將免疫遺傳[9]、Markov鏈[10]、區(qū)間值2型模糊集[11]等理論應(yīng)用于偽裝入侵檢測系統(tǒng)。

        在現(xiàn)有工作基礎(chǔ)上,本文提出一種新的偽裝入侵攻擊檢測方法。該方法利用用戶的網(wǎng)絡(luò)流特征作為原始審計數(shù)據(jù),在不侵犯用戶隱私的前提下,采用AdaBoost與支持向量機(jī)結(jié)合的機(jī)器學(xué)習(xí)算法對審計數(shù)據(jù)進(jìn)行學(xué)習(xí)和預(yù)測。

        2 支持向量機(jī)和AdaBoost算法

        2.1 支持向量機(jī)

        支持向量機(jī)是一種適用于小樣本訓(xùn)練的大邊緣分類器。該算法的宗旨是尋找一個分類規(guī)則,使其能對未知類別的新樣本做盡可能正確的劃分。將支持向量機(jī)用于分類問題其實就是尋找一個最優(yōu)分類超平面,把此平面作為分類決策面,它不但可以將給定的輸入樣本正確地劃分為正常和異常兩類,而且使得被分成的兩類數(shù)據(jù)間的分類間隔盡可能大。當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時,SVM先通過非線性變換,將數(shù)據(jù)映射到一個高維的內(nèi)積空間,再在此高維的內(nèi)積空間上做線性分類,在新的特征空間上求取最優(yōu)分類超平面。這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)來實現(xiàn)的。不同形式的內(nèi)積核函數(shù)K,可生成不同形式的支持向量機(jī),在特征空間中對應(yīng)著不同的最優(yōu)分類超平面。常用的核函數(shù)主要有以下4種:

        核函數(shù)的作用是將數(shù)據(jù)特征映射到高維的特征空間。本文選擇的核函數(shù)為徑向基核函數(shù)(Radial Basis Function,RBF)。徑向基核函數(shù)有2個優(yōu)點:(1)它可以將數(shù)據(jù)特征映射到更高維的特征空間,而并不增加計算復(fù)雜度;(2)徑向基核函數(shù)只有一個參數(shù),降低了計算復(fù)雜度。

        2.2 AdaBoost算法

        AdaBoost是一種常用的學(xué)習(xí)算法,這個算法允許設(shè)計者不斷地加入新的分類器,直到達(dá)到某個足夠小的誤差率為止。在AdaBoost中,每個訓(xùn)練樣本都被賦予一個權(quán)重,代表它被某個分量分類器選入訓(xùn)練集的概率。若某個樣本點已經(jīng)被準(zhǔn)確地分類,則在構(gòu)造下一個訓(xùn)練集時,它被選中的概率就被降低;相反,若某個樣本點沒有被正確分類,則它的權(quán)重就將得到相應(yīng)的提高。通過以上方式,AdaBoost方法能夠著眼于那些較難分類的樣本上。其具體實現(xiàn)方法如下:最初令每個樣本的權(quán)重都相等;對于第k次迭代操作,根據(jù)這些權(quán)重來選取樣本點,進(jìn)而訓(xùn)練分類器Ck;然后根據(jù)這個分類器的分類結(jié)果,提高被它錯分的那些樣本點的權(quán)重,并降低可以被正確分類的樣本點的權(quán)重。經(jīng)過權(quán)重更新后的樣本被用來繼續(xù)訓(xùn)練下一個分類器Ck+1,整個訓(xùn)練過程如此反復(fù)進(jìn)行,直到誤差率達(dá)到可接受范圍。

        3 檢測方法設(shè)計與分析

        3.1 用戶特征模型

        本文基于網(wǎng)絡(luò)流統(tǒng)計數(shù)據(jù)進(jìn)行用戶特征建模,并利用此模型進(jìn)行偽裝入侵檢測。本文將研究重點放在TCP協(xié)議上,因此將網(wǎng)絡(luò)流(network flow)定義為用戶與某網(wǎng)絡(luò)服務(wù)器之間(方向不限)的一次完整TCP會話。每一條網(wǎng)絡(luò)流記錄包含了同一次TCP會話中的若干統(tǒng)計數(shù)據(jù)。網(wǎng)絡(luò)流統(tǒng)計數(shù)據(jù)通常應(yīng)用于網(wǎng)絡(luò)流類型檢測、網(wǎng)絡(luò)攻擊檢測(DDos,R2L等);而本文創(chuàng)新地將網(wǎng)絡(luò)流統(tǒng)計數(shù)據(jù)作為原始審計數(shù)據(jù)參與的機(jī)器學(xué)習(xí)的訓(xùn)練與判斷,用以檢測偽裝入侵攻擊。

        3.1.1 用戶特征列表

        常用的網(wǎng)絡(luò)流統(tǒng)計特征有上百種之多,在本文的檢測方法中,僅選取19種較有意義、較能反映用戶網(wǎng)絡(luò)使用習(xí)慣的特征。具體特征及描述見表1。

        表1 網(wǎng)絡(luò)流量特征

        對表1中的網(wǎng)絡(luò)流特征,注意以下問題:(1)每個網(wǎng)絡(luò)流特征都是針對一條網(wǎng)絡(luò)流而言。以maxWindow為例,該特征指某條特定的網(wǎng)絡(luò)流中出現(xiàn)的最大TCP窗口。(2)除網(wǎng)絡(luò)流持續(xù)時間外,所有統(tǒng)計數(shù)據(jù)含有從用戶端到服務(wù)器端的數(shù)據(jù)包統(tǒng)計數(shù)據(jù)和從服務(wù)器端到用戶端的數(shù)據(jù)包統(tǒng)計數(shù)據(jù)2個值,默認(rèn)序號為奇數(shù)的特征體現(xiàn)客戶端到服務(wù)器端的數(shù)據(jù)、序號為偶數(shù)的特征體現(xiàn)相反方向的數(shù)據(jù)。以noPackets為例,特征1指該網(wǎng)絡(luò)流中從客戶端到服務(wù)器端的數(shù)據(jù)包的總數(shù),特征2指相反方向的數(shù)據(jù)包總數(shù)。

        3.1.2 特征采集與預(yù)處理

        網(wǎng)絡(luò)流數(shù)據(jù)采集方案分為本地采集與集中采集2種。本地采集指在用戶操作系統(tǒng)中部署一個簡單的抓包工具,在現(xiàn)有工具中,tcpdump,tshark等都可以完成相應(yīng)工作,該方案適用于個人的或小型局域網(wǎng)的偽裝入侵檢測系統(tǒng);集中采集指在路由器或者其他網(wǎng)絡(luò)設(shè)備上部署抓包探針,對大量用戶的網(wǎng)絡(luò)流進(jìn)行集中采集,該方案適用于大型局域網(wǎng)(例如企業(yè)網(wǎng)絡(luò))以及域環(huán)境中的偽裝入侵檢測系統(tǒng)。用戶可結(jié)合自身的實際需求選擇適合的特征采集方案。

        使用TSTAT工具[12]對采集的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行處理,該工具可以高效地提煉出上百種網(wǎng)絡(luò)流統(tǒng)計數(shù)據(jù),利用腳本語言在這些數(shù)據(jù)中提取表1中列舉的網(wǎng)絡(luò)流特征,并將這些特征按照機(jī)器學(xué)習(xí)工具LIBSVM[13]所要求的格式排列。

        3.2 支持向量機(jī)與AdaBoost算法的結(jié)合

        本文提出的檢測算法AdaBoost-SVM參考文獻(xiàn)[14]所述方法,先使用SVM對一組數(shù)據(jù)進(jìn)行訓(xùn)練得到相應(yīng)弱分類器,再用AdaBoost算法對每個弱分類器進(jìn)行加權(quán)投票。具體的AdaBoost-SVM算法的設(shè)計流程如下:

        (1)在 Dt(i)下訓(xùn)練,使用SVM訓(xùn)練得到弱分類器:ht: X →{+1,-1};

        (2)計算弱分類器ht的錯誤率:

        (3)計算分類器ht的權(quán)重:

        (4)更新樣本點權(quán)重(Zt為歸一化因子):

        由于AdaBoost-SVM仍是一個二進(jìn)制分類器,即僅返回{+1,–1},對分類函數(shù)H(X)再進(jìn)行Sign運算,當(dāng)H(X)的值大于等于零時返回+1,其他情況返回–1。

        4 實驗與結(jié)果分析

        4.1 數(shù)據(jù)集

        為測試本文提出的偽裝入侵檢測方法的性能,對該方法進(jìn)行仿真實驗。實驗數(shù)據(jù)采用文獻(xiàn)[15]中的網(wǎng)絡(luò)抓包數(shù)據(jù)集6(Trace 6)。該數(shù)據(jù)集記錄2007年5月?2007年6月之間,某教育機(jī)構(gòu)中的132名用戶與以太網(wǎng)連接所產(chǎn)生的數(shù)據(jù)包。關(guān)于這個數(shù)據(jù)集還有以下說明:(1)所有用戶都使用固定IP地址,每個IP地址與一名特定用戶一一對應(yīng)。(2)出于隱私保護(hù)的目的,Barbosa等人對該抓包數(shù)據(jù)集經(jīng)過了匿名化處理,即該教育機(jī)構(gòu)網(wǎng)絡(luò)環(huán)境中的所有IP地址都被隨機(jī)映射到192.168.0.0/16(子網(wǎng)A)中的某個地址;此外,該抓包數(shù)據(jù)集僅含數(shù)據(jù)包報頭(header),不含負(fù)載(payload)。在實驗中,首先利用腳本語言將屬于子網(wǎng)A中任一IP地址的數(shù)據(jù)包分離出來(內(nèi)網(wǎng)),得到132個不同的PCAP文件,使用3.1.2節(jié)中所述的預(yù)處理方法對PCAP文件進(jìn)行預(yù)處理,得到屬于不同用戶的網(wǎng)絡(luò)流特征記錄。將IP地址為192.168.0.1的用戶命名為用戶1,并將其指定為目標(biāo)用戶;將隨機(jī)選擇的另外9個IP地址命名為用戶2~用戶10,并將其指定為偽裝入侵者。為了研究測試集大小對檢測性能的影響,分別構(gòu)建3組訓(xùn)練集TS1,TS2,TS3與1組測試集PS1,如表2所示。

        表2 訓(xùn)練集與測試集

        在進(jìn)行機(jī)器學(xué)習(xí)實驗之前,為了證明網(wǎng)絡(luò)流統(tǒng)計特征可以有效區(qū)分目標(biāo)用戶以及偽裝入侵用戶,先對數(shù)據(jù)集中用戶1與用戶2的特征記錄進(jìn)行概率分析。以“往返時延均值”特征為例,圖1給出了屬于用戶1與用戶2的累積分布函數(shù)(Cumulative Distribution Function,CDF);其中,對于用戶1,圖1還分別給出其在2天中的CDF。根據(jù)圖1所示結(jié)果,用戶1與用戶2的CDF相差甚遠(yuǎn),而用戶1與自身在不同日期的CDF卻十分接近,這表明“往返時延均值”特征可以較好地區(qū)分目標(biāo)用戶以及偽裝入侵用戶。

        圖1 往返時延均值的累積分布函數(shù)

        4.2 實驗測試

        本文采用檢測率(DetectionRate)、誤報率(FalsePositive)和準(zhǔn)確率(Accuracy)作為檢測性能的主要考核指標(biāo),其定義如式(1)、式(2)和式(3)所示:

        假設(shè)TP,TN,FP和FN分別表示真陽性、真陰性、假陽性及假陰性(陽性代表入侵者、陰性代表合法用戶)。根據(jù)以上定義可得:TP+FN即異常樣本總數(shù),TN+FP即正常樣本總數(shù),TP+FN+TN+FP即所有樣本總數(shù)。本文將分別討論不同測試集下對檢測結(jié)果的影響、SVM算法與AdaBoost-SVM算法的性能比較,最后將最終檢測結(jié)果與文獻(xiàn)所述的檢測結(jié)果進(jìn)行比較。

        (1)使用SVM和AdaBoost-SVM 2種算法分別訓(xùn)練3個測試集TS1,TS2和TS3,并用訓(xùn)練所得的預(yù)測模型對同一測試集PS1進(jìn)行預(yù)測;所得結(jié)果如表3所示。根據(jù)表3的實驗結(jié)果,增加測試集的大小可以顯著機(jī)器學(xué)習(xí)算法的性能;當(dāng)然,數(shù)據(jù)集的增大也會導(dǎo)致學(xué)習(xí)時間的變長,以訓(xùn)練集TS1和TS3為例,訓(xùn)練前者只需20 s左右,而訓(xùn)練后者需要100 s。鑒于分鐘級的訓(xùn)練時間在可接受的范圍之內(nèi),因此在本文涉及的實驗中,仍以TS3作為測試集。

        表3 測試集在不同算法下的檢測性能對比 %

        (2)將比較SVM與AdaBoost-SVM算法的性能。檢測系統(tǒng)的性能通常可用ROC(Receiver Operating Characteristic)曲線表示,反映在不同誤報率下算法所能達(dá)到的檢測率。SVM算法與AdaBoost-SVM算法的ROC曲線如圖2所示,請注意兩者的ROC曲線都是基于訓(xùn)練集TS3和測試集PS1。從表3及圖2可以看出:AdaBoost-SVM算法無論從檢測率、誤報率還是準(zhǔn)確率都優(yōu)于SVM算法,并且也未給檢測時間造成明顯增長。在整個機(jī)器學(xué)習(xí)過程中,AdaBoost-SVM算法的平均訓(xùn)練時長為分鐘級(假設(shè)使用記錄數(shù)為4000的訓(xùn)練集),但對每條網(wǎng)絡(luò)流記錄的平均檢測時間都在毫秒級。這也是由SVM本身的特點決定的。此外,本文提出的檢測方法的性能(檢測率97.5%、誤報率1.1%、準(zhǔn)確率94.0%)優(yōu)于文獻(xiàn)[6](檢測率60%、誤報率5%)、文獻(xiàn)[5](檢測率90%、誤報率5%)以及文獻(xiàn)[11](檢測率92%、誤報率7%)。

        圖2 算法ROC曲線

        5 結(jié)束語

        針對目前偽裝入侵檢測方法所采用的用戶特征存在觸犯隱私的問題,本文提出使用網(wǎng)絡(luò)流統(tǒng)計數(shù)據(jù)作為用戶特征,并結(jié)合AdaBoost與支持向量機(jī)對用戶特征進(jìn)行訓(xùn)練與預(yù)測。本文方法在一個真實的網(wǎng)絡(luò)抓包數(shù)據(jù)集上進(jìn)行實驗,得到了97.5%的系統(tǒng)檢測率與1.1%的誤報率,結(jié)果表明該方法較之前的方法具有更好的檢測性能。同時,該檢測方法無需獲取用戶的敏感信息,在最大程度上保護(hù)了用戶的隱私,且檢測速度快,適用于企業(yè)級網(wǎng)絡(luò)環(huán)境中的實時偽裝入侵檢測。在今后工作中,將結(jié)合用戶本地行為(如鼠標(biāo)移動、運行進(jìn)程等)與網(wǎng)絡(luò)行為,對用戶行為進(jìn)行混合建模,以期得到一個更全面、準(zhǔn)確、穩(wěn)定的偽裝入侵檢測系統(tǒng)。

        [1]田新廣,段洣毅.基于shell命令和多重行為模式挖掘的用戶偽裝攻擊檢測[J].計算機(jī)學(xué)報,2010,33(4):697-705.

        [2]Kim H S,Cha S D.Empirical Evaluation of SVM-based Masquerade Detection Using UNIX Commands[J].Computer and Security,2005,24(2):160-168.

        [3]Schonlau M,Mouchel W.Computer Intrusion:Detecting Masquerades[J].Statistical Science,2001,16(1):58-74.

        [4]Li Ling,Sui Song,Manikopoulos C N.Windows NT User Profiling for Masquerader Detection[C]//Proc.of International Conference on Networking Sense and Control.[S.l.]:IEEE Computer Society,2006:386-391.

        [5]Garg A,Rahalkar R,Upadhyaya S,et al.Profiling Users in GUI Based Systems for Masquerade Detection[C]//Proc.of Information Assurance Workshop.New York,USA:IEEE Computer Society,2006:48-54.

        [6]Strasburg C,Krishnan S,Dorman K,et al.Masquerade Detection in Network Environments[C]//Proc.of the 10th IEEE/IPSJ International Symposium on Applications and the Internet.Seoul,Korea:IEEE Computer Society,2010:38-44.

        [7]Maxion R A,Townsend T N.Masquerade Detection Augmented with Error Analysis[J].IEEE Transactions on Reliability,2004,53(1):124-147.

        [8]Lane T,Carla E B.An Empirical Study of Two Approaches to Sequence Learning for Anomaly Detection[J].Machine Learning,2003,51(1):73-107.

        [9]梁春林,彭凌西.基于免疫遺傳的偽裝入侵檢測[J].計算機(jī)工程與設(shè)計,2010,31(23):4968-4970,4975.

        [10]肖 喜,田新廣,翟起濱.基于shell命令和Markov鏈模型的用戶偽裝攻擊檢測[J].通信學(xué)報,2011,32(3):98-105.

        [11]曾劍平,郭東輝.基于區(qū)間值2型模糊集的偽裝入侵檢測算法[J].電子學(xué)報,2008,36(4):777-780.

        [12]Munafo M,Finamore A.TSTAT[EB/OL].(2012-04-02).http://tstat.tlc.polito.it/index.shtml.

        [13]Lin Chih-Jen.LIBSVM[EB/OL].(2002-06-23).http://www.csie.ntu.edu.tw/~cjlin/.

        [14]張曉龍,任 芳.支持向量機(jī)與AdaBoost的結(jié)合算法研究[J].計算機(jī)應(yīng)用研究,2009,26(1):77-78,100.

        [15]Sadre R,Aiko P.SimpleWeb/University of Twenty Traffic Traces Data Repository[EB/OL].(2010-04-29).http://traces.simpleweb.org/.

        猜你喜歡
        數(shù)據(jù)包分類器樣本
        用樣本估計總體復(fù)習(xí)點撥
        SmartSniff
        推動醫(yī)改的“直銷樣本”
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        隨機(jī)微分方程的樣本Lyapunov二次型估計
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        村企共贏的樣本
        基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計與實現(xiàn)
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        少妇一区二区三区久久| 欧美日韩国产在线观看免费| 在线视频青青草猎艳自拍69| 性感人妻av在线播放| 一本色道久久亚洲av红楼| 女人18片毛片60分钟| 久久99精品九九九久久婷婷| 亚洲成a人v欧美综合天堂麻豆 | 国产精品99久久免费| 无码伊人久久大杳蕉中文无码| 精品国产精品久久一区免费| 久久一道精品一区三区| 东京热久久综合久久88| 国产精品沙发午睡系列990531| 久久无码高潮喷水免费看| 国产三级三级三级看三级日本| 午夜视频一区二区三区四区| 精品亚洲a∨无码一区二区三区| 亚洲h在线播放在线观看h| 久久免费区一区二区三波多野在| 亚洲日本人妻中文字幕| 亚洲24小时免费视频| 波多野结衣av一区二区全免费观看 | 亚洲一道一本快点视频| 杨幂一区二区系列在线| 97久久国产亚洲精品超碰热| 亚洲精品无码av中文字幕| 亚洲av日韩av一卡二卡| 亚洲中文字幕国产剧情| 男女男精品视频网站免费看| 成年女人色毛片| 囯产精品无码va一区二区| 国产精品丝袜一区二区三区在线| 国产草逼视频免费观看| 亚洲精品v欧洲精品v日韩精品| 97人人超碰国产精品最新o| 国产一区二区在线观看我不卡 | 精品三级久久久久久久| 丝袜美腿亚洲综合在线播放| 人妻av中文字幕久久| 久久久无码中文字幕久...|