張蕓
(濱州技術(shù)學(xué)院, 濱州 256603)
對(duì)網(wǎng)絡(luò)通信異常行為識(shí)別方法的相異度分析
張蕓
(濱州技術(shù)學(xué)院, 濱州 256603)
為了對(duì)網(wǎng)絡(luò)通信異常行為進(jìn)行有效地識(shí)別,提出了一種基于相異度分析的識(shí)別方法,以該方法的數(shù)據(jù)基礎(chǔ)為Netflow網(wǎng)管數(shù)據(jù),并對(duì)具體的實(shí)現(xiàn)步驟進(jìn)行了設(shè)計(jì)。通過(guò)實(shí)驗(yàn)分析,證明了采用該識(shí)別方法能夠?qū)W(wǎng)絡(luò)中通信行為異常、突發(fā)流量異常以及異常網(wǎng)絡(luò)攻擊等表征現(xiàn)象進(jìn)行實(shí)時(shí)監(jiān)測(cè),并且取得了良好的效果,使網(wǎng)絡(luò)運(yùn)營(yíng)單位的服務(wù)質(zhì)量和網(wǎng)絡(luò)安全支撐服務(wù)能力取得了有效的提高。
相異度分析; 網(wǎng)絡(luò)通信異常; 識(shí)別
現(xiàn)階段,網(wǎng)絡(luò)安全技術(shù)已經(jīng)取得了突飛猛進(jìn)的發(fā)展,產(chǎn)生了一系列的安全措施,比如入侵防御系統(tǒng)、入侵檢測(cè)系統(tǒng)、防火墻等,然而網(wǎng)路防范和網(wǎng)路攻擊是共同發(fā)展的。在網(wǎng)絡(luò)安全事件發(fā)生之前,怎樣才能夠快速地、及時(shí)地發(fā)現(xiàn)網(wǎng)絡(luò)異常行為,已然成為了目前一個(gè)重要的研究課題[1]?;诖?,本文提出了基于相異度分析方法的網(wǎng)絡(luò)通信異常行為識(shí)別法,下面本文進(jìn)行進(jìn)一步分析。
1.1 基于地址的網(wǎng)絡(luò)通信行為的空間分析
1.1.1 地址相異度分析方法
NetFlow實(shí)際上就是一套網(wǎng)絡(luò)流量統(tǒng)計(jì)協(xié)議,路由器通過(guò)服務(wù)種類、協(xié)議類型、目的端口號(hào)、目的IP地址、源端口號(hào)、源IP地址和路由器輸入界面等這些控制信息來(lái)對(duì)NetFlow流進(jìn)行區(qū)分[2-3]。當(dāng)路由器無(wú)論何時(shí)接收到新的數(shù)據(jù)包的時(shí)候,路由器就對(duì)數(shù)據(jù)流中的這些控制信息進(jìn)行檢查,對(duì)此數(shù)據(jù)包是否已經(jīng)是任何已經(jīng)記錄的NetFlow流進(jìn)行判斷,如果不存在,那么將產(chǎn)生一條新的記錄;而在存在的情況下,那么將新收集的數(shù)據(jù)包相關(guān)信息整合到相應(yīng)的NetFlow流的記錄當(dāng)中去。
根據(jù)IPv4地址格式將網(wǎng)絡(luò)通信中的兩個(gè)地址進(jìn)行劃分,分析地址的相異度,同時(shí),以四元組的形式進(jìn)行表達(dá),兩個(gè)地址之間的實(shí)際差異并通過(guò)各個(gè)屬性值的差異進(jìn)行比對(duì)[4]。因?yàn)镮P地址屬于點(diǎn)十分制格式,并且每個(gè)隔點(diǎn)之間存在著差異,這就意味著地址類別是不同的,此外,高位數(shù)值的差異意味著網(wǎng)絡(luò)范圍的顯著差異,故而,我們可以抽象描述地址的相異度,同時(shí)展開(kāi)量化分析[5-6]。
1.1.2 基于地址的平均相異度分析
地址相異度的提出,為下一步進(jìn)行質(zhì)心分析提供了理論依據(jù)。如果,在某一時(shí)間片Δt內(nèi),一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)a同時(shí)和n各目的地址存在網(wǎng)絡(luò)通信行為,那么我們可以將目的地址的集合記為B,然后,通過(guò)相關(guān)計(jì)算公式,就得到了節(jié)點(diǎn)a和集合B的n個(gè)元素之間地址相異度,此時(shí),我們可以再將相異度標(biāo)記為一個(gè)新的集合C,那么,我們就能夠通過(guò)計(jì)算,得到節(jié)點(diǎn)a到所有n個(gè)目的地址的平均相異度[7-8]。
1.2 基于地址的網(wǎng)絡(luò)通信行為的時(shí)間分析
為了對(duì)相異度之間差異的表征進(jìn)行計(jì)算,然后,提出了偏移方差σ,主要指的是某一時(shí)間間隔Δti內(nèi),節(jié)點(diǎn)a和該時(shí)間間隔內(nèi)全部目的地址的平均相異度與整個(gè)時(shí)間系列T下的平均相異度之間的差距。
擴(kuò)展的Netflow數(shù)據(jù)采集系統(tǒng)的總體架構(gòu)如圖1所示。
圖1 系統(tǒng)整體架構(gòu)
該系統(tǒng)主要包含數(shù)據(jù)收集器和采集代理兩部分。本文采用Netflow數(shù)據(jù)作為訓(xùn)練集的數(shù)據(jù)來(lái)源,創(chuàng)建合理的訓(xùn)練集,然后通過(guò)協(xié)議生成法來(lái)進(jìn)行構(gòu)造。所謂的協(xié)議生成法指的是通過(guò)程序?qū)Ω鱾€(gè)協(xié)議的通訊模式進(jìn)行模擬,并利用流量記錄的方式,將制定行為的網(wǎng)絡(luò)流量特征保存下來(lái),這樣一來(lái)就構(gòu)建了已知的不同類別網(wǎng)絡(luò)行為的訓(xùn)練集合,在一定程度上以此種訓(xùn)練集能夠有效地降低誤報(bào)率。通過(guò)協(xié)議生成法對(duì)網(wǎng)絡(luò)通訊進(jìn)行模擬后,將由路由器生成的有關(guān)netflow數(shù)據(jù)收集起來(lái),這樣一來(lái)就實(shí)現(xiàn)了訓(xùn)練集的構(gòu)造。具體步驟如下所示:
(1) 對(duì)訓(xùn)練集數(shù)據(jù)中的時(shí)間信息和地址信息進(jìn)行提取和預(yù)處理。
(2) 將相關(guān)數(shù)據(jù)信息導(dǎo)入數(shù)據(jù)庫(kù),同時(shí)按照相關(guān)算法計(jì)算有關(guān)導(dǎo)出屬性。
(3) 選擇一個(gè)科學(xué)合理的時(shí)間長(zhǎng)度,并對(duì)各個(gè)源IP地址所對(duì)應(yīng)的各類數(shù)學(xué)參數(shù)的值進(jìn)行計(jì)算。
(4) 將全部時(shí)間長(zhǎng)度的數(shù)學(xué)參數(shù)進(jìn)行計(jì)算,并計(jì)算偏移方差的值。
(5) 建立各個(gè)源IP地址的基本對(duì)照集,同時(shí)供驗(yàn)證使用。
(6) 選取某一時(shí)間間隔的網(wǎng)絡(luò)數(shù)據(jù),分別代入模型,驗(yàn)證結(jié)果。
本文選取的實(shí)驗(yàn)數(shù)據(jù)為某個(gè)時(shí)間區(qū)間一臺(tái)網(wǎng)站服務(wù)器的NetFlow數(shù)據(jù),并對(duì)該時(shí)間區(qū)間內(nèi)的主機(jī)NetFlow數(shù)據(jù)在1h內(nèi)的訪問(wèn)信息進(jìn)行了解,在這個(gè)時(shí)間段內(nèi)IP地址通信對(duì)的IP地址和主機(jī)連接次數(shù)構(gòu)成信息。通過(guò)利用本文所提出的基于地址和時(shí)間相異度分析法,來(lái)比較和分析該網(wǎng)站的訪問(wèn)情況。通過(guò)實(shí)驗(yàn)我們得出了某主機(jī)近十天內(nèi)10-11點(diǎn)之間的地址差異度距離對(duì)照值,如表1所示。
表1 主機(jī)近十天內(nèi)10-11點(diǎn)之間的地址差異距離對(duì)照值
通過(guò)計(jì)算進(jìn)而就得到了該主機(jī)的地地址相異距離平均值,如表2所示:
由表1、表2 分析,我們得到某主機(jī)在某時(shí)刻內(nèi)地址差異分析圖,如圖2所示。
表2 主機(jī)10-11點(diǎn)之間的地址差異距離
圖2 地址差異分析圖
由圖2可知,在10:25-10:45之間的距離數(shù)值遠(yuǎn)遠(yuǎn)超過(guò)了差異度的可信 區(qū)間,同時(shí)和對(duì)照曲線存在著顯著區(qū)別,因此,我們就能夠判斷出該時(shí)間點(diǎn)內(nèi)的主機(jī)流量有異常,進(jìn)而推斷出此時(shí)間段的網(wǎng)絡(luò)行為存在異常。
針對(duì)網(wǎng)絡(luò)通信異常行為的識(shí)別,本文提出了基于相異度分析法,實(shí)現(xiàn)了互聯(lián)網(wǎng)運(yùn)營(yíng)單位支撐保障能力以及服務(wù)質(zhì)量的提升,然而,令人遺憾的是該方法仍然存在著諸多亟待解決的問(wèn)題,比如計(jì)算復(fù)雜、模型優(yōu)化等等,在未來(lái)的研究過(guò)程中需要進(jìn)一步地充實(shí)和完善。
[1] 荊濤沼,李俊. 基于相異度分析的網(wǎng)絡(luò)通信異常行為識(shí)別方法[J].微電子學(xué)與計(jì)算機(jī),2014,31(6):12-15.
[2] 肖宇,許煒,張晨,等.社交網(wǎng)絡(luò)中用戶區(qū)域影響力評(píng)估算法研究[J].微電子學(xué)與計(jì)算機(jī),2012,7(7);58-63.
[3] 郭小芳,李鋒,劉慶華.一種有效的多元時(shí)間序列相似性度量算法分析[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,37(1):56-59.
[4] 鄧冠男.聚類分析中的相似度研究[J].東北電力大學(xué)學(xué)報(bào),2013,33(02):156-161.
[5] 溫祥西,孟相如,馬志強(qiáng),張永春.小時(shí)問(wèn)尺度網(wǎng)絡(luò)流量混沌性分析及趨勢(shì)預(yù)測(cè)[J].電了學(xué)報(bào),2012, 40(8):1609-1616.
[6] 高波,張欽宇,梁永生,等.基于EMD及ARMA的白相似網(wǎng)絡(luò)流量預(yù)測(cè)[J].通信學(xué)報(bào),2011, Vol. 32, No.4: 47-56.
[7] 張賓,楊家海,吳建平.Internet流量模型分析與評(píng)述[J].軟件學(xué)報(bào),2011, 22(1): 115-131.
[8] 吳樺,龔儉,楊望.一種基于雙重Counter Bloom Filter的長(zhǎng)流識(shí)別算法[J].軟件學(xué)報(bào),2010,Vo1.21, No.5: 1115-1126.
[9] 曹軍威,萬(wàn)宇鑫,涂國(guó)煌,等.智能電網(wǎng)信息系統(tǒng)體系結(jié)構(gòu)研究[J].計(jì)算機(jī)學(xué)報(bào),2013, 36(1):143-167.
[10] Ye W, Cho K. Hybrid P2P traffic classification with heuristic rules and machine learning[J]. Soft Computing, 2014:1-13.
Analysis of the Abnormal Degree of Network Communication Distinguishing Behavior
Zhang Yun
(Binzhou Technical College, Shandong 256603, China)
In order to identify the abnormal behavior of network communication effectively, this paper proposes a recognition method based on dissimilarity analysis. The data base of the method is Netflow network management data, and the concrete implementation steps are designed. Then, through the experiment analysis and analysis, it is proved that this method can be used to monitor the phenomena such as abnormal communication behavior, sudden traffic anomaly and abnormal network attack in the network, and obtain good results, so that the network service unit's service quality and Network security support service capacity has been effectively improved.
dissimilarity analysis; network communication anomaly; recognition
張蕓(1980-),女,山東五蓮人,山東省濱州市技術(shù)學(xué)院,大學(xué)學(xué)歷,中級(jí)職稱,研究方向:網(wǎng)絡(luò)通信。
1007-757X(2017)08-0079-02
TP311
A
2017.01.28)