楊 濤,葉西寧
(華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)
隨著網(wǎng)絡(luò)化的不斷發(fā)展,網(wǎng)絡(luò)安全變得越來越重要。目前以誤用檢測[1,2]和異常檢測[3-6]為代表的入侵檢測方法普遍存在檢測率低、誤報率高和特征提取率低等不足。為提高入侵檢測系統(tǒng)的性能,使其能夠利用不斷更新的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行自學(xué)習(xí),從而適應(yīng)新的網(wǎng)絡(luò)環(huán)境,基于機器學(xué)習(xí)的智能入侵檢測系統(tǒng)被提出。
集成分類器[7]是一種組合學(xué)習(xí)算法,相比單分類器具有更好的泛化能力和對失衡數(shù)據(jù)集的處理能力,因而成為入侵檢測算法的熱點研究方向。目前,基于集成學(xué)習(xí)的入侵檢測算法主要采用Adaboost和隨機森林兩種集成方式,但這兩種集成方式存在基分類器強度不足或集成多樣性受限問題。在文獻(xiàn)[8,9]中提出的基于Adaboost的入侵檢測算法,隨著集成規(guī)模的增加會產(chǎn)生大量壞的基分類器,從而使得集成性能下降;文獻(xiàn)[10-12]提出的基于隨機森林的入侵檢測算法隨著集成規(guī)模的增長會產(chǎn)生大量冗余基分類器,無法進(jìn)一步提升集成性能。
鑒于以上原因,本文提出SPCA-ERoF算法用于網(wǎng)絡(luò)入侵檢測。利用SPCA替換傳統(tǒng)旋轉(zhuǎn)森林中的PCA旋轉(zhuǎn)作用,提升旋轉(zhuǎn)后數(shù)據(jù)的可分性;利用增強型旋轉(zhuǎn)森林提升集成模型的多樣性和基分類器的強度,從而改善網(wǎng)絡(luò)入侵檢測算法的性能。并結(jié)合SMOTE采樣,降低數(shù)據(jù)的不平衡度,進(jìn)一步提升檢測算法的整體性能。
主成分分析[13](principal component analysis,PCA)是機器學(xué)習(xí)領(lǐng)域常見的一種特征提取方法,主要用于數(shù)據(jù)降維。PCA利用數(shù)據(jù)方差來表示數(shù)據(jù)信息量的分布,在保證原始數(shù)據(jù)信息盡可能少丟失的前提下,用盡可能少的特征維度來表示原始數(shù)據(jù)信息,從而降低數(shù)據(jù)維度,減少計算量。傳統(tǒng)的PCA是一種線性無監(jiān)督的變換方式,以總體樣本方差為目標(biāo)函數(shù),依次尋找方差最大的方向,進(jìn)而達(dá)到利用較少的特征維度就能近似表達(dá)原始樣本信息的目的。這種以整體樣本方差最大為目標(biāo)函數(shù)的思想,雖然能夠保證原始數(shù)據(jù)信息量盡可能少的丟失,但在分類問題上卻不一定是最好的處理方式。在分類問題中,希望在保證整體樣本方差最大的情況下,類內(nèi)方差盡量小,即希望同類之間具有較好的聚合度,異類之間具有較好的區(qū)分度。因此,本文基于傳統(tǒng)PCA,引入類內(nèi)方差懲罰項,使其綜合考慮整體樣本方差和類內(nèi)方差。由于改進(jìn)引入類別信息,故稱該算法為監(jiān)督型主成分分析(supervision principal component analysis,SPCA)。SPCA算法的具體構(gòu)造如下。
目標(biāo)函數(shù)為
(1)
求w使f(X) 最大,其中X為樣本集,Xmean為樣本均值,Xinner是由不同類別樣本經(jīng)類內(nèi)中心化處理后組合而成的類內(nèi)距離矩陣,w為使f(X) 取得最大的方向向量,即第一主成分,C為懲罰系數(shù)。由式(1)可知,要想f(X) 最大,則X-Xmean應(yīng)盡可能大,CXinner盡可能小。通過調(diào)整懲罰系數(shù)C可以改變Xinner對整體目標(biāo)函數(shù)的影響程度,即改變類內(nèi)聚合度對目標(biāo)函數(shù)的影響程度,從而找到最佳w。為保證整體數(shù)據(jù)信息盡可能少的丟失,整體方差最大依然是最終目標(biāo),故CXinner對f(X) 的影響不宜過大,懲罰系數(shù)C在[0,1]之間取值,當(dāng)C=0時SPCA即為傳統(tǒng)PCA。
下面以二分類問題為例,闡述Xinner的構(gòu)造方式。假設(shè)樣本集X為
(2)
樣本集X對應(yīng)的類標(biāo)為
y=(0,1,0,1)
(3)
根據(jù)類別將樣本集X劃分成兩個樣本子集Xy=0和Xy=1, 并進(jìn)行中心化處理。如式(4)、式(5)所示
(4)
(5)
按照原始樣本排序?qū)⑹?4)與式(5)進(jìn)行組合,構(gòu)造類內(nèi)距離矩陣Xinner
(6)
(7)
根據(jù)PCA的求解原理,求解協(xié)方差矩陣M的特征值 (λ1≥λ2≥…≥λM≥0) 和對應(yīng)的特征向量 (V1,V2,…,VM)。 特征值λi從大到小對應(yīng)的特征向量Vi即為SPCA下方差依次最大的方向。
集成學(xué)習(xí)一直是機器學(xué)習(xí)領(lǐng)域研究的熱點問題,其性能較其它分類器而言更為強大,常用的兩種集成方式是Bagging和Boosting。影響集成算法性能的兩個關(guān)鍵因素在于基分類器的強度和集成多樣性,而Bagging和Boosting這兩種集成方式均存在明顯的不足。Bagging和隨機森林雖能夠保證基分類器的強度,但集成的多樣性受限,其多樣性僅來源于樣本重采樣和決策樹節(jié)點劃分時的隨機特征選擇。Boosting中以Adaboost為代表的算法則是通過犧牲基分類器強度來獲取集成多樣性的。Adaboost中每一個新增的基分類器都過分關(guān)注錯分樣本,從而獲得豐富的多樣性,但使得基分類器性能較弱。
綜合考慮以上兩種集成方式的優(yōu)缺點,為保證在不犧牲基分類器性能的前提之下,引入更豐富的集成多樣性,文獻(xiàn)[14]提出一種新的集成方式——旋轉(zhuǎn)森林[14](rotation forest,RoF)。旋轉(zhuǎn)森林采用決策樹作為基分類器,利用決策樹對特征軸旋轉(zhuǎn)敏感度高,而其分類性能又基本不受影響的特點,將訓(xùn)練樣本通過旋轉(zhuǎn)矩陣旋轉(zhuǎn)至不同的特征空間,增加各基分類器訓(xùn)練樣本的差異性,從而使得集成多樣性更加豐富。旋轉(zhuǎn)森林的關(guān)鍵在于旋轉(zhuǎn)矩陣的構(gòu)建,為引入更豐富的多樣性,在構(gòu)建旋轉(zhuǎn)矩陣時,將數(shù)據(jù)特征集M分成K個不相交的特征子集,對每個特征子集進(jìn)行重采樣和PCA操作,獲取特征子集的主成分系數(shù)。由于類別差異性大的信息對應(yīng)的可能是小方差的成分,為保證其不會因方差小而被丟棄,在對每個子集進(jìn)行PCA時,保留所有的主成分。獲取到所有的主成分系數(shù)后,按照原始特征順序?qū)μ卣飨禂?shù)進(jìn)行重排,構(gòu)成旋轉(zhuǎn)矩陣,再利用旋轉(zhuǎn)矩陣對訓(xùn)練樣本進(jìn)行旋轉(zhuǎn),利用旋轉(zhuǎn)后的樣本訓(xùn)練基分類器。與隨機森林相比,旋轉(zhuǎn)森林由于在構(gòu)造每一個基分類器的旋轉(zhuǎn)矩陣時,特征集都是隨機劃分成K個不相交的子集,并且在對每個特征子集進(jìn)行主成分分析之前都進(jìn)行了重采樣,所以,每個基分類器的旋轉(zhuǎn)矩陣都不相同,最后得到的基分類器的訓(xùn)練樣本差異性相對隨機森林基分類器的訓(xùn)練樣本差異性更大(隨機森林的訓(xùn)練樣本差異性僅來源于重采樣),從而提高了集成多樣性。
基分類器強度是決定集成性能的關(guān)鍵因素之一,雖然旋轉(zhuǎn)森林的引入提升了集成檢測模型的集成多樣性,但基分類器依舊是弱分類器。而特征軸的旋轉(zhuǎn)雖不會很大程度上影響決策樹的分類性能,但還是存在基分類器性能降低的情況。因此,為取得更好的集成性能,本文用強分類器隨機森林替換決策樹作為旋轉(zhuǎn)森林的基分類器,構(gòu)建增強型旋轉(zhuǎn)森林(enhanced rotation forest,ERoF)。隨機森林是一種組合學(xué)習(xí)器,即使特征軸的旋轉(zhuǎn)降低了決策樹的分類性能,但組合而成的隨機森林的分類性能依然很高且比單分類器決策樹更好,故保證了在基分類器層面上,ERoF相對于RoF得到了增強。此外,雖然特征軸的旋轉(zhuǎn)對隨機森林的分類性能沒有影響,但其底層的決策樹受旋轉(zhuǎn)作用的影響,故依然可以利用旋轉(zhuǎn)引入多樣性。同時,利用隨機森林替換決策樹可以實現(xiàn)對旋轉(zhuǎn)后的數(shù)據(jù)再進(jìn)行一步重采樣作用,從而進(jìn)一步增加多樣性。圖1為傳統(tǒng)旋轉(zhuǎn)森林與增強型旋轉(zhuǎn)森林的對比,其中兩算法旋轉(zhuǎn)矩陣的不同將在2.2節(jié)介紹。
圖1 RoF與ERoF的比較
傳統(tǒng)旋轉(zhuǎn)森林所構(gòu)建的旋轉(zhuǎn)矩陣只能保證作為一種集成多樣性的產(chǎn)生方式,并不能保證旋轉(zhuǎn)后的數(shù)據(jù)具有更好的可分性。針對這個問題,為盡可能保證旋轉(zhuǎn)后數(shù)據(jù)具有較好的可分性,本文基于PCA基礎(chǔ)之上,提出SPCA算法,用SPCA替換PCA對特征子集進(jìn)行旋轉(zhuǎn),通過調(diào)整SPCA中的懲罰系數(shù)C尋找最佳分類效果的特征空間,將原始數(shù)據(jù)樣本旋轉(zhuǎn)至該特征空間中,得到最佳的分類結(jié)果。旋轉(zhuǎn)矩陣的具體構(gòu)造方法如下:
(1)訓(xùn)練數(shù)據(jù)集X=[x1,x2,…,xn]T為包含n個M維樣本的矩陣,Y=[y1,y2,…,yn]T是訓(xùn)練集所對應(yīng)的類標(biāo),其中yi∈{0,1,2,3,4}, 分別對應(yīng)正常訪問和4類攻擊方式。 D1RF,D2RF,…,DLRF為L個基分類器。
(4)對每個特征子集都進(jìn)行步驟(3)操作,得到所有特征的主成分系數(shù),存入系數(shù)矩陣Ri
(8)
(5)調(diào)整SPCA的懲罰系數(shù)C,不斷糾正系數(shù)矩陣Ri中的主成分系數(shù),尋找旋轉(zhuǎn)后數(shù)據(jù)可分性最好的特征空間。
按照原始特征順序?qū)ο禂?shù)矩陣進(jìn)行重排,得到最終的旋轉(zhuǎn)矩陣RiaC。 將XRiaC作為基分類器DiRF的訓(xùn)練樣本。重復(fù)以上步驟L次,獲取L個基分類器(隨機森林)即完成基于SPCA的增強型旋轉(zhuǎn)森林的構(gòu)造。
由于入侵方式的復(fù)雜化和多樣化,導(dǎo)致捕獲到的數(shù)據(jù)樣本存在分布嚴(yán)重失衡、樣本稀缺問題。大部分樣本為正常網(wǎng)絡(luò)連接數(shù)據(jù),部分入侵?jǐn)?shù)據(jù)樣本稀缺。傳統(tǒng)的機器學(xué)習(xí)算法大都以準(zhǔn)確率為目標(biāo),在面對分布嚴(yán)重失衡的數(shù)據(jù)集時往往更偏向于強勢類樣本,導(dǎo)致弱勢類樣本錯分率較高。而對于入侵檢測系統(tǒng)而言,更多的是希望系統(tǒng)對入侵行為具有很好的識別性。失衡樣本的處理一直以來都是機器學(xué)習(xí)領(lǐng)域所研究的重點問題,目前,解決這類問題的方案主要有兩個:①重構(gòu)數(shù)據(jù)集分布,降低不平衡程度;②設(shè)計或改進(jìn)學(xué)習(xí)算法,改變傳統(tǒng)方法在解決不平衡數(shù)據(jù)集分類問題時的缺陷[15]??紤]網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集中U2R類入侵樣本僅有52個,相對其它類別樣本實在太少,模型無法學(xué)習(xí)到足夠的該類樣本信息,故本文采用第一類非平衡處理方法,利用經(jīng)典的SMOTE過采樣算法對數(shù)據(jù)分布進(jìn)行重構(gòu),降低數(shù)據(jù)集的不平衡度。
訓(xùn)練部分:令X=[x1,x2,…,xn]T為訓(xùn)練樣本集,包含n個M維網(wǎng)絡(luò)連接樣本。
(2)對訓(xùn)練集X按特征子集進(jìn)行抽取,獲取K個由特征子集所表示的樣本子集Xi, 并對每個樣本子集Xi進(jìn)行重采樣,采集原始訓(xùn)練樣本數(shù)75%的樣本構(gòu)成新的訓(xùn)練樣本集X′i。
(3)對每個樣本子集X′i進(jìn)行SPCA分析,得到M個主成分系數(shù),存入矩陣Ri中。
(4)調(diào)整懲罰系數(shù)C,不斷糾正旋轉(zhuǎn)矩陣Ri中的主成分系數(shù)。
(5)按照原數(shù)據(jù)集特征順序?qū)仃嘡i進(jìn)行重排得到最終旋轉(zhuǎn)矩陣RiaC。
(6)對原始訓(xùn)練集X進(jìn)行過采樣降低數(shù)據(jù)不平衡度,得Xover。
(7)用XoverRiaC為訓(xùn)練樣本訓(xùn)練基分類器DiRF。
(8)重復(fù)進(jìn)行上述步驟L次得到L個基分類器。
測試部分:
(1)獲取第i個基分類器的旋轉(zhuǎn)矩陣RiaC, 對某個未知樣本進(jìn)行旋轉(zhuǎn),得xRiaC。
(2)獲取第i個基分類器,對xRiaC進(jìn)行預(yù)測,假設(shè)預(yù)測結(jié)果為yij,yij表示第i個分類器預(yù)測x為第j類樣本。
(3)重復(fù)進(jìn)行上述步驟L次,得L個預(yù)測結(jié)果,通過投票法確定樣本x的類別。
算法流程如圖2所示。
圖2 算法訓(xùn)練過程流程
SPCA是基于PCA基礎(chǔ)之上,為提升數(shù)據(jù)旋轉(zhuǎn)后的可分性而提出的一種監(jiān)督型主成分分析算法,其中懲罰系數(shù)C是算法中的一個超參數(shù)。針對不同的數(shù)據(jù)集分布,懲罰系數(shù)C的取值不同。為驗證SPCA的可行性,本文選用UCI機器學(xué)習(xí)數(shù)據(jù)庫的Breast-cancer、Digits、Iris、Ionosphere、Bupa(肝病)、Glass、Banknote、Dermatology、Cmc(避孕方法的選擇)、Poker-hand這10個數(shù)據(jù)集進(jìn)行驗證。表1為10個數(shù)據(jù)集的描述信息。
為保證實驗的可信度,所選的10個數(shù)據(jù)集同時包含二分類與多分類問題以及高維數(shù)據(jù)與低維數(shù)據(jù)問題。此外,考慮本實驗重在研究SPCA相對PCA旋轉(zhuǎn)作用的優(yōu)越性,因此,在實驗過程中保留所有主成分,只對數(shù)據(jù)做旋轉(zhuǎn)作用。表2為SPCA和PCA旋轉(zhuǎn)森林在10組數(shù)據(jù)集上的分類結(jié)果,結(jié)果為5倍交叉驗證取均值所得。每行加粗?jǐn)?shù)據(jù)為兩種方法中取得的最好結(jié)果,對比指標(biāo)為Accuracy。
由表2可知:10組數(shù)據(jù)集的SPCA與PCA旋轉(zhuǎn)森林的實驗結(jié)果中,有8組數(shù)據(jù)集在SPCA下通過調(diào)整懲罰系數(shù)C獲得了比PCA更好的結(jié)果,只有一組數(shù)據(jù)在PCA旋轉(zhuǎn)作用下獲得最好的分類效果。這說明,數(shù)據(jù)集方差最大的方向并不一定就是數(shù)據(jù)可分性最好的方向,類內(nèi)方差懲罰項的引入,能夠在一定程度上糾正最大方差方向,增加數(shù)據(jù)可分性。當(dāng)C=0時,SPCA即為PCA,實驗中超參數(shù)C可以通過網(wǎng)格搜索方式進(jìn)行確定。
表1 數(shù)據(jù)集描述
表2 SPCA/PCA旋轉(zhuǎn)森林實驗結(jié)果(Accuracy)
4.2.1 數(shù)據(jù)集
本次實驗采用UCI機器學(xué)習(xí)數(shù)據(jù)庫中10%的KDD-CUP99網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集。該數(shù)據(jù)集共有494 021條網(wǎng)絡(luò)連接數(shù)據(jù),包含Dos、Probing、U2R、R2L這4種入侵類和Normal正常類。由于數(shù)據(jù)集過于龐大,Normal和Dos兩類樣本中存在過多冗余樣本,故實驗時這兩類樣本只取10%用于實驗。表3為抽取前后各類樣本數(shù)據(jù)量。
表3 樣本分布
4.2.2 實驗數(shù)據(jù)預(yù)處理
網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的41維特征中包含標(biāo)稱型特征和連續(xù)型特征,標(biāo)稱型特征無法參與算法運算過程,故將其轉(zhuǎn)換成數(shù)值型特征。同時,為消除因特征的量綱不同所帶來取值上的差異,對連續(xù)型特征進(jìn)行標(biāo)準(zhǔn)化處理,使各特征之間數(shù)據(jù)具有可比性。
4.2.3 評價標(biāo)準(zhǔn)
對于入侵檢測算法而言,既需要考慮算法的檢測率,也需要考慮算法的誤報率。故實驗中需要考慮模型精確率P、召回率R和F1_Score這3個評價指標(biāo)。計算方法如式(9)~式(11)所示。精確率反映模型的誤報情況,P越大誤報率越低;召回率反映模型的檢測情況,召回率越高檢測率越高;F1_Score度量模型的綜合能力
(9)
(10)
(11)
上述公式中:TP(true positives)為真陽率,F(xiàn)P(false positives)為假陽率,TN(true negative)為真陰率,F(xiàn)N(false negative)為假陰率。
4.2.4 實驗結(jié)果分析
本文重在研究集成入侵檢測算法問題,首次將旋轉(zhuǎn)森林算法應(yīng)用到入侵檢測系統(tǒng)中,同時對其進(jìn)行改進(jìn),提出基于SPCA的增強型旋轉(zhuǎn)森林網(wǎng)絡(luò)入侵檢測算法(SPCA-ERoF)。為驗證該集成模型在入侵檢測中的優(yōu)越性,本文將與目前具有代表性的其它集成模型進(jìn)行對比,如隨機森林算法(random forest,RF)、SMOTE-RF算法、代價敏感隨機森林算法(cost-sensitive random forest,Cost-RF)、Adaboost算法[9]。實驗結(jié)果為10次實驗的平均值,對比結(jié)果見表4~表6。
表4 入侵檢測精確率
表5 入侵檢測召回率
表6 入侵檢測F1_Score
由表4~表6可知,由于Normal、Dos和Probing這3類樣本較多,5種檢測模型均能學(xué)習(xí)到較豐富的類別信息,故5種模型在這3類樣本上的檢測效果均表現(xiàn)良好。相反,對于U2R和R2L這兩類稀缺樣本而言,5種檢測模型的性能差異較為明顯,尤其是U2R攻擊。這符合檢測模型的建立目標(biāo),即檢測模型對新型攻擊亦能擁有較好的檢測率(新型攻擊往往樣本稀缺,甚至缺乏樣本)。因此,后面將從U2R類攻擊樣本的精確率、召回率和F1_Score這3項指標(biāo)對5種檢測模型進(jìn)行分析。
首先,由表6中模型綜合性能評價指標(biāo)F1_Score的實驗結(jié)果可知,本文所提出的基于SPCA的增強型旋轉(zhuǎn)森林網(wǎng)絡(luò)入侵檢測模型較其它集成檢測模型而言具有更好的檢測性能。該算法在正常類、Probing攻擊、U2R攻擊和R2L攻擊4類樣本上均取得最佳分類效果,分別為99.87%、99.89%、90.65%和99.04%,在Dos攻擊上的檢測效果僅次于RF檢測模型和SMOTE-RF檢測模型,僅相差0.01%。其次,結(jié)合表4和表5中RF、SMOTE-RF和Cost-RF這3個檢測模型在U2R攻擊上的精確率和召回率可知,SMOTE采樣對提升稀缺樣本的檢測性能具有十分重要的意義。SMOTE-RF模型比RF模型在U2R上的檢測率提升了20%,且依舊能保持較高的精確率;Cost-RF模型雖未進(jìn)行采樣操作就能在U2R攻擊上獲得100%的檢測率,但其誤報率太高,達(dá)到了54.55%。因此,為提升模型對稀缺樣本的綜合檢測性能,SMOTE采樣必不可少。最后,SMOTE-RF和SPCA-ERoF兩檢測模型在均進(jìn)行采樣前提下,SPCA-ERoF相比SMOTE-RF在U2R上的召回率 R提升了20%,綜合性能指標(biāo)F1_Score提升了12.87%,具有明顯提升效果。綜上所述,實驗結(jié)果表明了本文提出的SPCA-ERoF算法能有效提升入侵檢測系統(tǒng)性能。
4.2.5 實驗參數(shù)分析
在本文提出的模型中,影響結(jié)果的超參數(shù)較多,包括決策樹中各項參數(shù)、SMOTE采樣和SPCA懲罰系數(shù)C等。此處重在分析SMOTE采樣和懲罰系數(shù)C對檢測模型的影響,決策樹中各項參數(shù)可根據(jù)隨機森林入侵檢測模型的經(jīng)驗進(jìn)行設(shè)置。利用控制變量法分別分析兩參數(shù)對模型的影響。此外,本文提出的檢測模型在Normal、Dos、Probing和R2L這4類樣本上的綜合性能指標(biāo)F1_Score均能達(dá)到99%左右,且變化很小,故此處以U2R的F1_Score作為分析指標(biāo)。圖3為U2R的F1_Score在不同懲罰系數(shù)C下與SMOTE采樣量的關(guān)系圖。圖中每條折線為懲罰系數(shù)C固定,U2R的綜合性能指標(biāo)F1_Score與SMOTE采樣之間的關(guān)系;每一縱向上的6個不同顏色不同形狀的點為SMOTE采樣固定,U2R綜合性能指標(biāo)F1_Score與懲罰系數(shù)C之間的關(guān)系。
圖3 F1_Score與C的關(guān)系
由圖3可知:當(dāng)U2R的采樣小于200時,懲罰系數(shù)C對模型性能的影響較大,此時,當(dāng)C=0時SPCA即為傳統(tǒng)PCA,U2R的分類效果最差;當(dāng)采樣大于200時C對模型的影響變小,每一縱行的6個不同顏色不同形狀的點更加聚攏;當(dāng)采樣為200,懲罰系數(shù)C=0.8時,檢測算法取得最佳檢測性能,F(xiàn)1_Score=90.65%。此外,當(dāng)采樣小于200時,隨著采樣的增加,檢測算法性能整體呈上升趨勢且上升幅度較為明顯;當(dāng)采樣大于200時,檢測算法性能整體呈下降趨勢。通過分析可知,過采樣雖然能使檢測算法學(xué)習(xí)到更多該類樣本的信息,但隨著采樣量的增加,將會產(chǎn)生噪聲樣本,噪聲樣本的產(chǎn)生會使檢測算法整體性能下降,而且隨著采樣的增多,噪聲樣本也會越多,算法性能也會越差。
針對隨機森林和Adaboost兩種集成方式在入侵檢測應(yīng)用中存在的不足之處,本文將旋轉(zhuǎn)森林算法用于構(gòu)建入侵檢測系統(tǒng),提出了SPCA-ERoF算法。針對旋轉(zhuǎn)森林算法在PCA旋轉(zhuǎn)作用時無法保證數(shù)據(jù)在旋轉(zhuǎn)后的特征空間具有更好的可分性的問題,提出SPCA算法,提升旋轉(zhuǎn)數(shù)據(jù)可分性。為進(jìn)一步提升旋轉(zhuǎn)森林集成方式的整體性能,采用隨機森林作為基分類器對旋轉(zhuǎn)森林算法進(jìn)行增強,既可以利用決策樹的特性引入更豐富的集成多樣性,又可以提升基分類器的強度。實驗結(jié)果表明,與其它集成網(wǎng)絡(luò)入侵檢測算法的性能相比,基于SPCA-ERoF的網(wǎng)絡(luò)入侵檢測算法的性能具有明顯提升,該方法為后期集成入侵檢測算法的研究提供了一個新的方向。