摘要: 高速網(wǎng)絡(luò)數(shù)據(jù)龐大且高維度,網(wǎng)絡(luò)入侵檢測系統(tǒng)要面對流量數(shù)據(jù)約簡的問題。如何有效地實(shí)現(xiàn)流量數(shù)據(jù)約簡是網(wǎng)絡(luò)入侵檢測系統(tǒng)需要研究的一個重要問題。文中首先介紹網(wǎng)絡(luò)入侵檢測中流量數(shù)據(jù)抽樣和特征降維基礎(chǔ);然后從網(wǎng)絡(luò)流量數(shù)據(jù)抽樣和網(wǎng)絡(luò)流量特征降維兩個方面總結(jié)了網(wǎng)絡(luò)流量數(shù)據(jù)約簡研究進(jìn)展;最后闡述了網(wǎng)絡(luò)入侵檢測中流量數(shù)據(jù)約簡研究的未來發(fā)展趨勢和面臨的挑戰(zhàn)。文中所研究的流量數(shù)據(jù)約簡為進(jìn)一步探索網(wǎng)絡(luò)流量測量和網(wǎng)絡(luò)空間安全提供參考和借鑒。
關(guān)鍵詞: 網(wǎng)絡(luò)入侵檢測; 流量數(shù)據(jù)約簡; 流量數(shù)據(jù)抽樣; 流量特征降維; 網(wǎng)絡(luò)安全; 發(fā)展趨勢
Abstract: The high?speed network data is huge and high?dimensional, so the traffic data reduction is of great concern to the network intrusion detection system. How to effectively implement the traffic data reduction is an important issue that needs to be studied for the network intrusion detection system. The traffic data sampling and feature dimension reduction basis in network intrusion detection are introduced. The research progress of network traffic data reduction is summarized in two aspects: network traffic data sampling and network traffic feature dimension reduction. The development trend of traffic data reduction research in the network intrusion detection and the challenges to it are described. The network intrusion detection researched in this paper? provides some references for further exploring network traffic measurement and network space security.
Keywords: network intrusion detection; traffic data reduction; traffic data sampling; traffic feature dimension reduction; network security; development trend
0? 引? 言
隨著通信技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)已滲透到各個社會領(lǐng)域,互聯(lián)網(wǎng)上的攻擊手段更加隱蔽、更加智能。在高速網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)入侵檢測過程需要獲取、處理和傳輸海量的網(wǎng)絡(luò)流量數(shù)據(jù),如何實(shí)現(xiàn)在線實(shí)時地異常入侵檢測是網(wǎng)絡(luò)安全監(jiān)控領(lǐng)域的一個熱點(diǎn)和難點(diǎn)。
網(wǎng)絡(luò)安全領(lǐng)域的分類問題由于數(shù)據(jù)量極其龐大且高維度,導(dǎo)致入侵檢測的分類器過于復(fù)雜,因此不少入侵模式并不能被準(zhǔn)確檢測到,且網(wǎng)絡(luò)入侵檢測效率較低,無法滿足高速網(wǎng)絡(luò)環(huán)境下大規(guī)模異常入侵檢測的實(shí)時性要求[1]。為解決上述問題,需要對網(wǎng)絡(luò)數(shù)據(jù)流量進(jìn)行實(shí)例抽樣約簡優(yōu)化和特征降維約簡優(yōu)化,從海量數(shù)據(jù)集中抽象出最相關(guān)的信息,降低復(fù)雜度以獲取更好的知識抽象[2]。減少攻擊檢測的存儲和計算壓力和提高攻擊檢測的檢測效率和精度。網(wǎng)絡(luò)流量數(shù)據(jù)約簡方法的好壞直接影響入侵檢測的結(jié)果[3]。如何有效地實(shí)現(xiàn)網(wǎng)絡(luò)流量數(shù)據(jù)約簡,以提高網(wǎng)絡(luò)入侵檢測系統(tǒng)的性能已成為許多研究的焦點(diǎn)。
1? 網(wǎng)絡(luò)入侵檢測中流量數(shù)據(jù)約簡
網(wǎng)絡(luò)入侵檢測通常包括四個步驟:數(shù)據(jù)抽樣、特征構(gòu)造、模型構(gòu)建和異常檢測[4]。數(shù)據(jù)約簡就是在盡可能保持原始數(shù)據(jù)完整性的前提下,最大限度地精簡數(shù)據(jù)量,去除冗余數(shù)據(jù),保留有價值數(shù)據(jù),縮小數(shù)據(jù)挖掘所需的數(shù)據(jù)集規(guī)模[5]。網(wǎng)絡(luò)入侵檢測中的流量數(shù)據(jù)約簡的常用方法包括流量數(shù)據(jù)抽樣和流量特征降維,分別通過網(wǎng)絡(luò)流量數(shù)據(jù)集中數(shù)據(jù)量的減少或維度的減少,來達(dá)到降低數(shù)據(jù)規(guī)模的目的。
1.1? 網(wǎng)絡(luò)流量數(shù)據(jù)抽樣
網(wǎng)絡(luò)流量數(shù)據(jù)抽樣是統(tǒng)計學(xué)方法在網(wǎng)絡(luò)流量測量領(lǐng)域的應(yīng)用。無論是主動測量還是被動測量, 隨著流量速率的增加, 分析全部的網(wǎng)絡(luò)流量分組已經(jīng)變得越來越困難,一種可行的解決辦法就是使用網(wǎng)絡(luò)流量抽樣技術(shù)。網(wǎng)絡(luò)流量抽樣是數(shù)據(jù)量縮減和保留原始數(shù)據(jù)細(xì)節(jié)的折衷。選擇合適的網(wǎng)絡(luò)流量抽樣方法可以減少工作量,并能在一定程度上反應(yīng)網(wǎng)絡(luò)的全局特征[6]。高速網(wǎng)絡(luò)入侵檢測中,按照合理的抽樣規(guī)則,通過從整體網(wǎng)絡(luò)流量中抽取部分有代表性的網(wǎng)絡(luò)流量數(shù)據(jù), 然后將抽取到的結(jié)果進(jìn)行科學(xué)合理的分析,推斷原始網(wǎng)絡(luò)流量數(shù)據(jù)的特征,以此來估計整個網(wǎng)絡(luò)的特性,掌握整個網(wǎng)絡(luò)的行為特征,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)攻擊[7]。因此,網(wǎng)絡(luò)入侵檢測中的流量數(shù)據(jù)抽樣是一種有效且值得研究的技術(shù)。
1.2? 網(wǎng)絡(luò)流量特征降維
特征是指一個對象的某方面性質(zhì)或特性,一個對象是由若干個特征來描述的。高速網(wǎng)絡(luò)中網(wǎng)絡(luò)流量數(shù)據(jù)可由成百上千個特征來刻畫,其中某些特征可能是不重要的,或不相關(guān)的, 或已經(jīng)包含在其他特征中, 甚至包含了錯誤的相互關(guān)系[8]。因此,需要對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行特征降維約簡優(yōu)化。網(wǎng)絡(luò)流量特征降維旨在減少網(wǎng)絡(luò)流量數(shù)據(jù)集的維度隨機(jī)變量的數(shù)量,有兩種眾所周知的方法,即網(wǎng)絡(luò)流量特征選擇和網(wǎng)絡(luò)流量特征提取。特征選擇通常是選出重要的特征的維度,并拋棄不重要的維度;而特征提取則是更廣泛意義上地把一個高維的向量映射為一個低維向量,得到的結(jié)果特征值已經(jīng)不一定是原始的值。特征選擇保留了訓(xùn)練樣本的原始物理意義,但是當(dāng)數(shù)據(jù)間相似的依賴性很強(qiáng)時,檢測冗余信息對計算要求非常高;特征提取將原始高維特征空間映射到新的低維特征空間,可以有效地去除冗余和不相關(guān)特征[9?10]。
5? 結(jié)? 語
網(wǎng)絡(luò)流量數(shù)據(jù)約簡在網(wǎng)絡(luò)入侵檢測中應(yīng)用非常廣泛且重要。本文對高速網(wǎng)絡(luò)環(huán)境下網(wǎng)絡(luò)入侵檢測中流量數(shù)據(jù)約簡的基本概念、研究進(jìn)展和發(fā)展趨勢進(jìn)行論述、總結(jié)和展望。面對新問題研究新方法,進(jìn)一步探索高速網(wǎng)絡(luò)入侵檢測中流量數(shù)據(jù)約簡的理論和技術(shù),對于網(wǎng)絡(luò)流量測量和網(wǎng)絡(luò)空間安全的研究和發(fā)展具有重要意義。
參考文獻(xiàn)
[1] 姜濱.基于特征選擇的網(wǎng)絡(luò)入侵檢測模型[J].現(xiàn)代電子技術(shù),2019,42(1):87?90.
[2] 胡志剛,李佳,鄭美光.云環(huán)境下面向負(fù)載均衡的數(shù)據(jù)密集型工作流的數(shù)據(jù)約簡策略[J].計算機(jī)應(yīng)用研究,2019,36(8): 2410?2414.
[3] 陳良臣,劉寶旭,高曙.網(wǎng)絡(luò)攻擊檢測中網(wǎng)絡(luò)流量數(shù)據(jù)抽樣技術(shù)研究[J].信息網(wǎng)絡(luò)安全,2019,19(8):22?28.
[4] WANG W, HE Y Z, LIU J Q, et al. Constructing important features from massive network traffic for lightweight intrusion detection [J]. IET information security, 2015, 9(6): 374?379.
[5] 杜嘉薇.網(wǎng)絡(luò)安全態(tài)勢感知:提取、理解和預(yù)測[M].北京:機(jī)械工業(yè)出版社,2019.
[6] 張忠琳.網(wǎng)絡(luò)質(zhì)量探測應(yīng)用的研究[D].北京:北京郵電大學(xué),2015.
[7] SU Liya, YAO Yepeng. Hierarchical clustering based network traffic data reduction for improving suspicious flow detection [C]// 12th IEEE International Conference on Big Data Science and Engineering. New York: IEEE, 2018: 1?3.
[8] 郭春.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2014.
[9] 曹杰.基于SVM的網(wǎng)絡(luò)流量特征降維與分類方法研究[D].長春:吉林大學(xué),2017.
[10] YAO Yepeng, SU Liya, LU Zhigang. DeepGFL: deep feature learning via graph for attack detection on flow?based network traffic [C]// MILCOM 2018?Military Communications Conference. Los Angeles: IEEE, 2018: 579?584.
[11] 董書琴,張斌.一種面向流量異常檢測的概率流抽樣方法[J].電子與信息學(xué)報,2019,41(6):1450?1457.
[12] 劉珍.互聯(lián)網(wǎng)流量分類中流量特征研究[J].計算機(jī)應(yīng)用研究,2017(1):8?14.
[13] DONGHWOON Kwon, HYUNJOO Kim, JINOH Kim, et al. A survey of deep learning?based network anomaly detection [J]. Cluster comput, 2019, 22(1): 949?961.
[14] ANUSHA K, SATHIYAMOORTHY E. Comparative study for feature selection algorithms in intrusion detection system [J]. Automatic control and computer sciences, 2016, 50(1): 1?9.
[15] 陳良臣,高曙,劉寶旭,等.網(wǎng)絡(luò)加密流量識別研究進(jìn)展及發(fā)展趨勢[J].信息網(wǎng)絡(luò)安全,2019,19(3):12?25.