陳良臣,高 曙,劉寶旭,陶明峰
(1.武漢理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,武漢 430063; 2.中國科學(xué)院信息工程研究所,北京 100049;3.中國勞動關(guān)系學(xué)院 應(yīng)用技術(shù)學(xué)院,北京 100048; 4.國網(wǎng)山東省電力公司 淄博供電公司,山東 淄博 255000)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及世界各國對網(wǎng)絡(luò)信息化進程的加速推進,網(wǎng)絡(luò)通信已滲透到各個領(lǐng)域,而互聯(lián)網(wǎng)上的攻擊手段也更隱蔽和智能,傳統(tǒng)補丁式的網(wǎng)絡(luò)安全解決方案無法完全解決日益暴露的安全問題[1]。針對網(wǎng)絡(luò)流量的異常檢測與監(jiān)控已成為目前安全工具研究的主要方向。
在高速網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)異常檢測過程需要獲取、處理和傳輸?shù)拇罅烤W(wǎng)絡(luò)流量數(shù)據(jù),可能由大量特征來描述,通常這些特征中含有許多無關(guān)特征和冗余特征,會提高異常檢測模型的復(fù)雜度,且各特征之間的相互干擾會導(dǎo)致檢測性能急劇下降。因此,在對海量高維網(wǎng)絡(luò)流量數(shù)據(jù)進行異常檢測建模之前,需要對數(shù)據(jù)進行特征降維約簡處理。攻擊數(shù)據(jù)集的特征質(zhì)量直接決定入侵檢測系統(tǒng)的檢測效率和穩(wěn)定性,因此,分析網(wǎng)絡(luò)流量以確定有助于識別攻擊的維數(shù)約簡方法至關(guān)重要。
針對基于網(wǎng)絡(luò)流量的網(wǎng)絡(luò)入侵異常檢測模型,很多學(xué)者從網(wǎng)絡(luò)流量特征選擇和網(wǎng)絡(luò)流量特征提取2個方面對維數(shù)約簡問題進行研究。本文總結(jié)網(wǎng)絡(luò)流量異常檢測中流量數(shù)據(jù)常用特征和流量數(shù)據(jù)維數(shù)約簡研究的最新進展,對網(wǎng)絡(luò)流量異常檢測中的網(wǎng)絡(luò)流量特征選擇方法和網(wǎng)絡(luò)流量特征提取方法進行歸納分類,并列舉常用算法、數(shù)據(jù)集和評價指標(biāo)。在此基礎(chǔ)上,闡述網(wǎng)絡(luò)流量異常檢測中維數(shù)約簡技術(shù)研究面臨的挑戰(zhàn),同時對未來發(fā)展方向進行展望。
網(wǎng)絡(luò)流量指的是單位時間內(nèi)網(wǎng)絡(luò)上傳輸?shù)男畔⒘?即2個終端之間擁有相同通信五元組信息(源IP地址、源端口、目的IP地址、目的端口和傳輸層協(xié)議)的連續(xù)數(shù)據(jù)包[2]。在基于網(wǎng)絡(luò)流量的異常檢測過程中,需要對原始網(wǎng)絡(luò)流量數(shù)據(jù)進行降維,從而有效提高異常檢測算法的泛化能力[3]。
入侵檢測技術(shù)可分為誤用檢測和異常檢測,其中異常檢測基于與正常活動的顯著偏差發(fā)現(xiàn)入侵[4]。網(wǎng)絡(luò)流量異常檢測就是分析從網(wǎng)絡(luò)中采集的各種數(shù)據(jù),挖掘結(jié)構(gòu)中復(fù)雜和潛在的關(guān)系,從而推斷出當(dāng)前網(wǎng)絡(luò)的安全狀況,發(fā)現(xiàn)不可預(yù)見的攻擊[5],其中主要包括兩方面:1)提取網(wǎng)絡(luò)流量數(shù)據(jù)中的關(guān)鍵信息作為異常檢測的數(shù)據(jù)源;2)提取關(guān)鍵信息中的異常行為進行檢測與識別[6]。通用的異常檢測方法往往并不適用于網(wǎng)絡(luò)流量。基于特征或行為、基于數(shù)理統(tǒng)計和基于流挖掘的網(wǎng)絡(luò)流量異常檢測方法已成為網(wǎng)絡(luò)流量異常檢測的主流和趨勢。
網(wǎng)絡(luò)流量異常檢測過程如圖1所示,可將其分為5個步驟,即網(wǎng)絡(luò)流量數(shù)據(jù)獲取、流量數(shù)據(jù)抽樣、流量維數(shù)約簡、異常檢測建模以及異常檢測結(jié)果與評估。
圖1 高速網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)流量異常檢測過程
維數(shù)約簡又稱為特征降維,網(wǎng)絡(luò)流量維數(shù)約簡一般包括網(wǎng)絡(luò)流量特征選擇和網(wǎng)絡(luò)流量特征提取2種方式,兩者都是為了從原始網(wǎng)絡(luò)流量特征中找出最有效的特征[7],針對高維災(zāi)難都可以達到降維的目的,但是兩者有所不同。網(wǎng)絡(luò)流量特征選擇是依據(jù)一定的規(guī)則從已有的網(wǎng)絡(luò)流量特征中選取出部分特征來表示原始網(wǎng)絡(luò)流量數(shù)據(jù),如圖2(a)所示。網(wǎng)絡(luò)流量特征選擇保留了訓(xùn)練樣本的原始物理意義,但是當(dāng)網(wǎng)絡(luò)流量數(shù)據(jù)間相似性很強時,檢測冗余信息對計算要求非常高。網(wǎng)絡(luò)流量特征提取則是按照一定的規(guī)則將原始網(wǎng)絡(luò)流量特征空間變換成一個維數(shù)更小的空間,是使用數(shù)學(xué)方法對某些特征進行融合產(chǎn)生了新的特征,新的特征只具有數(shù)學(xué)含義,難以找到其現(xiàn)實意義,如圖2(b)所示。網(wǎng)絡(luò)流量特征提取是在網(wǎng)絡(luò)流量特征選擇的基礎(chǔ)上對網(wǎng)絡(luò)流量數(shù)據(jù)集做進一步簡化,去除剩余特征的冗余值[8-9]。
圖2 網(wǎng)絡(luò)流量特征降維的2種方式
網(wǎng)絡(luò)流量維數(shù)約簡可以使網(wǎng)絡(luò)流量數(shù)據(jù)集更容易使用,減少數(shù)據(jù)存儲并降低算法的計算開銷,同時提高網(wǎng)絡(luò)異常檢測性能。為生成可靠的IDS模型,維數(shù)約簡被認(rèn)為是提高網(wǎng)絡(luò)異常檢測運算效率和發(fā)現(xiàn)數(shù)據(jù)模式的一項重要任務(wù)。
維數(shù)約簡算法中的“降維”,指的是降低特征矩陣中特征的數(shù)量。本節(jié)主要介紹網(wǎng)絡(luò)流量異常檢測中用到的特征歸類研究和維數(shù)約簡技術(shù)研究進展。
網(wǎng)絡(luò)流量異常檢測中用到的網(wǎng)絡(luò)流量特征大致可分為3類,即基于報文頭部、基于網(wǎng)絡(luò)流和基于連接圖的網(wǎng)絡(luò)流量特征[10],如圖3所示,其中,基于報文頭部的網(wǎng)絡(luò)流量特征一般包含IP地址、端口地址等;基于網(wǎng)絡(luò)流的網(wǎng)絡(luò)流量特征主要是使用與網(wǎng)絡(luò)流量相關(guān)的統(tǒng)計數(shù)據(jù)作為特征,即使用網(wǎng)絡(luò)流的統(tǒng)計特征來表示網(wǎng)絡(luò)流量,如包長、包到達間隔等,可進一步分為單流特征和多流特征;基于連接圖的網(wǎng)絡(luò)流量特征是圖特征與網(wǎng)絡(luò)流量特征相結(jié)合的網(wǎng)絡(luò)流量特征。
圖3 網(wǎng)絡(luò)流量異常檢測特征分類
網(wǎng)絡(luò)流可分為單向流和雙向流,網(wǎng)絡(luò)流量特征也可分為單流特征和雙流特征。單流特征即單個流的特征,只使用組成該網(wǎng)絡(luò)流的所有報文集合的統(tǒng)計特征作為該網(wǎng)絡(luò)流量的特征,通常包括包到達時間、報文大小、報文大小的均值/方差、網(wǎng)絡(luò)流所包含的數(shù)據(jù)報文數(shù)量等。多流特征是針對具有某些相同特性的多條網(wǎng)絡(luò)流量共同形成的一些統(tǒng)計特征,可在單流特征基礎(chǔ)上表示出更多流量相關(guān)的信息。在網(wǎng)絡(luò)流量異常檢測過程中提取多流特征,一般先選擇一個提取對象,如將主機地址作為對象的網(wǎng)絡(luò)流量,或?qū)⒕W(wǎng)絡(luò)段作為提取對象的網(wǎng)絡(luò)流量等[10]。
網(wǎng)絡(luò)流量異常檢測中的維數(shù)約簡技術(shù)研究分類如圖4所示。
圖4 網(wǎng)絡(luò)流量維數(shù)約簡技術(shù)分類
網(wǎng)絡(luò)流量維數(shù)約簡方法可分為網(wǎng)絡(luò)流量特征選擇方法和網(wǎng)絡(luò)流量特征提取方法。網(wǎng)絡(luò)流量特征提取維數(shù)約簡方法可分為監(jiān)督學(xué)習(xí)(Supervised)特征提取方法和無監(jiān)督學(xué)習(xí)(Unsupervised)特征提取方法。網(wǎng)絡(luò)流量特征選擇維數(shù)約簡方法可分為嵌入式(Embedded)特征選擇、過濾式(Filter)特征選擇和封裝式(Wrapper)特征選擇3種[11]。
網(wǎng)絡(luò)流量特征提取是通過功能映射,從原始網(wǎng)絡(luò)流量特征集中提取一組新特征,該方法能夠通過轉(zhuǎn)換獲取最小的新特征集[12]。
網(wǎng)絡(luò)流量特征提取方法包括有監(jiān)督特征學(xué)習(xí)方法和無監(jiān)督特征學(xué)習(xí)方法,其中有監(jiān)督學(xué)習(xí)方法包括監(jiān)督字典學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、多層感知機、線性判別分析等,無監(jiān)督學(xué)習(xí)方法包括無監(jiān)督字典學(xué)習(xí)、局部線性嵌入、等度量映射、主成分分析(Principal Component Analysis,PCA)、獨立成分分析、深度學(xué)習(xí)和各種形式的聚類算法等。
文獻[13]提出一種字典學(xué)習(xí)和稀疏特征結(jié)合的入侵檢測模型,該模型包含數(shù)據(jù)預(yù)處理、稀疏特征提取、入侵分類檢測和結(jié)果分析評估的完整數(shù)據(jù)處理流程。文獻[14]提出深度圖特征學(xué)習(xí)框架DeepGFL,在網(wǎng)絡(luò)安全的上下文中提取高階特征,從低階網(wǎng)絡(luò)流特征中導(dǎo)出高階網(wǎng)絡(luò)流特征,然后實現(xiàn)網(wǎng)絡(luò)攻擊檢測。文獻[3]提出一種嵌入二次特征選擇的主成分分析特征提取模型。文獻[15]通過PCA提取表示輸入變量變化的相互獨立潛在特征,采用基于MI特征選擇方法選擇與模型輸出最相關(guān)的潛在變量。
常用的無監(jiān)督維數(shù)約簡技術(shù)包括主成分分析、局部線性嵌入(Locally Linear Embedding,LLE)、等度規(guī)映射(ISOMAP)等降維算法;監(jiān)督維數(shù)約簡技術(shù)包括線性判別分析(Linear Discriminant Analysis,LDA)以及近年來比較受關(guān)注的度量學(xué)習(xí)。常用的網(wǎng)絡(luò)流量特征提取算法及其優(yōu)缺點和已有研究文獻如表1所示。
表1 常用網(wǎng)絡(luò)流量特征提取算法
網(wǎng)絡(luò)流量特征選擇是從原始網(wǎng)絡(luò)流量特征集中選擇出重要的特征,如何選擇特征子集以及度量特征的重要性是影響特征選擇結(jié)果的2個重要問題。網(wǎng)絡(luò)流量特征選擇的基本流程如圖5所示,其中主要包括4個環(huán)節(jié):生成特征子集,評估特征子集,終止條件判斷,驗證特征子集。
圖5 網(wǎng)絡(luò)流量特征選擇基本流程
在圖5中,原始網(wǎng)絡(luò)流量數(shù)據(jù)集需要按照一定的搜索策略生成一個備選網(wǎng)絡(luò)流量特征子集,根據(jù)某個評價準(zhǔn)則可判斷選出子集的優(yōu)劣,根據(jù)終止條件決定網(wǎng)絡(luò)流量特征選擇算法何時停止,保證算法的有窮性[9]。如果評估結(jié)果滿足終止條件則停止整個網(wǎng)絡(luò)流量特征選擇過程,否則重復(fù)生成網(wǎng)絡(luò)流量特征子集,循環(huán)整個過程。當(dāng)整個網(wǎng)絡(luò)流量特征選擇過程結(jié)束后,需要對所獲得的網(wǎng)絡(luò)流量特征子集進行驗證,以證明該網(wǎng)絡(luò)流量特征選擇方法的有效性[30]。
網(wǎng)絡(luò)流量特征選擇是指選擇最能代表原始網(wǎng)絡(luò)流量數(shù)據(jù)分布特性的最優(yōu)特征子集,根據(jù)特征子集評價標(biāo)準(zhǔn)和特征選擇形式又可以將網(wǎng)絡(luò)流量特征選擇方法分為3類:過濾式(Filter)特征選擇方法,封裝式(Wrapper)特征選擇方法和嵌入式(Embedded)特征選擇方法[31]。
1)過濾式特征選擇方法。按照發(fā)散性或相關(guān)性對各網(wǎng)絡(luò)流量特征進行評分,設(shè)定閾值,選擇特征。先對網(wǎng)絡(luò)流量數(shù)據(jù)進行特征選擇,然后再訓(xùn)練學(xué)習(xí)模型,特征選擇過程與后續(xù)學(xué)習(xí)模型無關(guān)。該方法優(yōu)點是速度快、通用性強,而且對過擬合問題有較高的魯棒性,缺點是特征評價結(jié)果有一定的偏差,且模型的組合特征選擇能力較差。
2)封裝式特征選擇方法。從網(wǎng)絡(luò)流量初始特征集中反復(fù)選擇特征子集,訓(xùn)練學(xué)習(xí)模型,根據(jù)學(xué)習(xí)模型的性能對選擇出的特征子集進行評價,直至選出最優(yōu)特征子集。該方法優(yōu)點是直接針對特定學(xué)習(xí)器進行優(yōu)化,考慮到特征之間的關(guān)聯(lián)性,可得到較高的分類精度,缺點是計算復(fù)雜度高、開銷大,并且通用性不強。
3)嵌入式特征選擇方法。使用機器學(xué)習(xí)算法和模型進行訓(xùn)練,得出網(wǎng)絡(luò)流量各數(shù)據(jù)特征的權(quán)重,根據(jù)權(quán)重大小順序選擇特征。該方法與Filter方法類似,但其通過機器學(xué)習(xí)算法和模型訓(xùn)練來確定網(wǎng)絡(luò)流量特征的優(yōu)劣,而且算法本身作為組成部分嵌入到學(xué)習(xí)算法中。最典型的嵌入式特征選擇算法是決策樹算法,包括ID3、C4.5和CART算法等。
過濾式和封裝式網(wǎng)絡(luò)流量特征選擇方法和分類算法可以與各種算法結(jié)合使用,網(wǎng)絡(luò)流量特征選擇過程與學(xué)習(xí)模型訓(xùn)練過程有明顯分別,而嵌入式網(wǎng)絡(luò)流量特征選擇是將特征選擇與學(xué)習(xí)模型訓(xùn)練過程融為一體,在學(xué)習(xí)模型訓(xùn)練過程中自動地進行特征選擇。其中,封裝式方法直接將學(xué)習(xí)器性能作為特征子集的評價標(biāo)準(zhǔn),搜尋特征子集的分類準(zhǔn)確性一般會優(yōu)于過濾式和嵌入式[32]。
搜索最優(yōu)網(wǎng)絡(luò)流量特征子集是網(wǎng)絡(luò)流量特征選擇過程中最關(guān)鍵和最具挑戰(zhàn)性的環(huán)節(jié)。基本搜索策略可根據(jù)網(wǎng)絡(luò)流量特征子集的形成過程分為3類:全局最優(yōu)搜索,隨機搜索,啟發(fā)式搜索。全局最優(yōu)搜索策略是在所有可能空間中尋找最優(yōu)子集,針對高維數(shù)據(jù),算法的時間復(fù)雜度非常高;隨機搜索策略使用隨機重采樣,根據(jù)迭代更新特征權(quán)重選擇重要特征訓(xùn)練分類器,利用模擬退火算法可以避免陷入局部最優(yōu)解的特性提高搜索性能;啟發(fā)式搜索策略包括前向選擇方法、后向選擇方法、序列前向浮動搜索算法等。啟發(fā)式搜索策略在選擇速度上高于前兩種搜索策略。一個具體的網(wǎng)絡(luò)流量特征子集搜索算法可能會采用2種或多種基本搜索策略,例如遺傳算法是一種隨機搜索算法,同時也是一種啟發(fā)式搜索算法。對于不同的搜索策略,網(wǎng)絡(luò)流量特征選擇方法又可被分為窮舉法、啟發(fā)式法、基于信息理論的方法、基于演化計算方法等[32]。
將過濾式網(wǎng)絡(luò)流量特征選擇方法應(yīng)用于回歸問題時,可使用互信息法;應(yīng)用于分類問題時,可使用卡方檢驗法、Relief方法、方差選擇法、相關(guān)系數(shù)法、互信息法等。封裝式網(wǎng)絡(luò)流量特征選擇方法包括LVW法、遞歸特征消除法、窮舉法、隨機法等。嵌入式網(wǎng)絡(luò)流量特征選擇方法包括正則化法、隨機森林、決策樹等。常用的網(wǎng)絡(luò)流量特征選擇算法及其優(yōu)缺點和已有研究文獻如表2所示。
表2 常用網(wǎng)絡(luò)流量特征選擇算法
由于隱私和知識產(chǎn)權(quán)等原因,用于網(wǎng)絡(luò)流量分析的相關(guān)數(shù)據(jù)集較少,很少有公開可用的數(shù)據(jù)集,且很少提供標(biāo)記信息。
由于網(wǎng)絡(luò)設(shè)備、流量配置和網(wǎng)絡(luò)攻擊的多樣性,任何網(wǎng)絡(luò)流量數(shù)據(jù)集的代表性都會被質(zhì)疑。因此,找到適的標(biāo)簽數(shù)據(jù)集是很困難的。許多已發(fā)表的網(wǎng)絡(luò)流量異常檢測和網(wǎng)絡(luò)流量維數(shù)約簡分析的文章仍在使用DARPA 98和KDD CUP 99。常用來研究網(wǎng)絡(luò)流量維數(shù)約簡算法使用的網(wǎng)絡(luò)流量數(shù)據(jù)集,以及針對該數(shù)據(jù)集的維數(shù)約簡方法和已有研究文獻如表3所示。
表3 網(wǎng)絡(luò)流量主要維數(shù)約簡算法
通常采用分類器準(zhǔn)確率(Overall Accuracy,OA)、特征壓縮率(Feature Compression Rate,FCR)以及運行時間作為網(wǎng)絡(luò)流量維數(shù)約簡算法性能的評價指標(biāo)。采用分類器準(zhǔn)確率評判網(wǎng)絡(luò)流量維數(shù)約簡算法效果的好壞,其值為正確樣本數(shù)與全部樣本數(shù)的比值。用特征壓縮率衡量網(wǎng)絡(luò)流量維數(shù)約簡算法對特征提取的效率,其值為選擇的特征數(shù)與全部特征數(shù)的比值。運行時間為每種網(wǎng)絡(luò)流量維數(shù)約簡方法所運行的時間,使用每種算法的運行時間來考察其運行速度。
當(dāng)前網(wǎng)絡(luò)流量異常檢測中的維數(shù)約簡技術(shù)已有相關(guān)研究,并取得了一定的研究成果,但仍然存在一些尚未解決和完善的問題:傳統(tǒng)的維數(shù)約簡方法無法保留訓(xùn)練樣本的原始意義,且對組合特征選擇能力較差;網(wǎng)絡(luò)流量多樣性和網(wǎng)絡(luò)流量數(shù)據(jù)的不平衡問題,以及復(fù)合攻擊的普及對網(wǎng)絡(luò)流量維數(shù)約簡提出的更高要求;網(wǎng)絡(luò)加密流量的快速增長需要研究如何從高速網(wǎng)絡(luò)流量中提取反映加密流量內(nèi)在規(guī)律的特征信息對應(yīng)的特征提取方法;目前缺乏維數(shù)約簡評價標(biāo)準(zhǔn);現(xiàn)有網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡方法不能正確反映移動無線網(wǎng)絡(luò)的性能;網(wǎng)絡(luò)流量的高動態(tài)性使得網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡方法不能滿足網(wǎng)絡(luò)攻擊檢測的在線實時性要求。上述不足都制約了網(wǎng)絡(luò)流量異常檢測中維數(shù)約簡技術(shù)的進一步發(fā)展。
基于現(xiàn)階段網(wǎng)絡(luò)流量異常檢測中維數(shù)約簡技術(shù)的研究現(xiàn)狀、網(wǎng)絡(luò)流量維數(shù)約簡所面臨的挑戰(zhàn)和未來研究方向主要概括以下方面:
1)在線實時網(wǎng)絡(luò)異常檢測中流量維數(shù)約簡技術(shù)研究。網(wǎng)絡(luò)特征建立在海量高速網(wǎng)絡(luò)流量數(shù)據(jù)上面,為實現(xiàn)實時在線網(wǎng)絡(luò)異常檢測,需要研究提高網(wǎng)絡(luò)流量在線時效性的維數(shù)約簡方法。如何將實時多變量維數(shù)約簡方法應(yīng)用到大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)中并對數(shù)據(jù)進行高效處理成為一大難題。
2)維數(shù)約簡后流量特征信息丟失問題研究。約簡后的網(wǎng)絡(luò)流量數(shù)據(jù)特征只是全部網(wǎng)絡(luò)流量數(shù)據(jù)特征的一小部分,一些信息會被丟失。在網(wǎng)絡(luò)流量異常檢測中,如何選擇維數(shù)約簡技術(shù)彌補網(wǎng)絡(luò)流量特征在約簡后的信息丟失,使其能有效地進行網(wǎng)絡(luò)流量異常檢測仍是難點。
3)移動互聯(lián)網(wǎng)應(yīng)用異常檢測中的網(wǎng)絡(luò)流量特征提取技術(shù)研究。隨著移動互聯(lián)網(wǎng)的普及和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,移動新應(yīng)用不斷出現(xiàn),攻擊者更青睞于移動互聯(lián)網(wǎng)應(yīng)用。如何提取網(wǎng)絡(luò)流量特征,細(xì)分和區(qū)別這些網(wǎng)絡(luò)應(yīng)用,對攻擊檢測非常重要。
4)網(wǎng)絡(luò)流量維數(shù)約簡評價標(biāo)準(zhǔn)研究。針對網(wǎng)絡(luò)流量進行有效降維后的特征子集難以確定,缺乏可用于網(wǎng)絡(luò)流量維數(shù)約簡的通用和普適的評價標(biāo)準(zhǔn)。
5)網(wǎng)絡(luò)加密流量的特征提取技術(shù)研究。目前缺乏可用于網(wǎng)絡(luò)加密流量異常檢測的公開標(biāo)記數(shù)據(jù)集,越來越多的網(wǎng)絡(luò)流量使用加密通信偽裝或隱藏明文流量特征,如何選擇待提取的候選特征集合,需對惡意軟件加密通信具有全面的知識積累。
6)各種網(wǎng)絡(luò)攻擊檢測場景中網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡技術(shù)與方法的普適性問題。目前很多網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡方法針對某個網(wǎng)絡(luò)攻擊檢測場景的應(yīng)用是最優(yōu)的,但是針對其他網(wǎng)絡(luò)攻擊檢測場景的應(yīng)用可能就不是最優(yōu)的。隨著針對網(wǎng)絡(luò)流量數(shù)據(jù)特征的研究不斷深入,未來需要設(shè)計普適的網(wǎng)絡(luò)流量維數(shù)約簡方法。
7)多種網(wǎng)絡(luò)流量維數(shù)約簡方法和技術(shù)相結(jié)合的維數(shù)約簡方法。將多種網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡方法和技術(shù)相結(jié)合,實現(xiàn)更高效的網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡和獲得更準(zhǔn)確的抽樣結(jié)果。在進行網(wǎng)絡(luò)流量維數(shù)約簡時,盡可能地減少對網(wǎng)絡(luò)的額外影響也是一個具有挑戰(zhàn)的研究課題。
網(wǎng)絡(luò)流量維數(shù)約簡能夠用于很多基于網(wǎng)絡(luò)流量的機器學(xué)習(xí)和數(shù)據(jù)挖掘場景,是網(wǎng)絡(luò)攻擊檢測中的重要分支。本文介紹網(wǎng)絡(luò)流量異常檢測和維數(shù)約簡原理,分別對2種流量維數(shù)約簡方式,即網(wǎng)絡(luò)流量特征選擇和網(wǎng)絡(luò)流量特征提取的現(xiàn)有算法進行歸納分類,描述算法特點并分析優(yōu)缺點。在此基礎(chǔ)上,給出目前網(wǎng)絡(luò)流量維數(shù)約簡研究常用的數(shù)據(jù)集和評價指標(biāo),展望網(wǎng)絡(luò)流量異常檢測中維數(shù)約簡技術(shù)發(fā)展方向,為研究和發(fā)展網(wǎng)絡(luò)空間安全技術(shù)提供借鑒。