亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向ICS不平衡數(shù)據(jù)的重疊區(qū)混合采樣方法

        2023-10-10 10:39:52顧兆軍周景賢
        關(guān)鍵詞:集上代價(jià)分類器

        高 冰,顧兆軍,周景賢,隋 翯

        1.中國(guó)民航大學(xué) 信息安全測(cè)評(píng)中心,天津 300300

        2.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300

        3.中國(guó)民航大學(xué) 航空工程學(xué)院,天津 300300

        工業(yè)控制系統(tǒng)(industrial control system,ⅠCS)是能源、交通、城市公用設(shè)施等國(guó)家關(guān)鍵基礎(chǔ)設(shè)施的重要組成部分[1-3]。信息技術(shù)與工業(yè)生產(chǎn)的深度融合,拓寬了ⅠCS 的發(fā)展空間[4],但融合發(fā)展的同時(shí)也帶來(lái)了復(fù)雜嚴(yán)峻的網(wǎng)絡(luò)安全威脅[5]。典型ⅠCS安全保障體系可分為防護(hù)、檢測(cè)、響應(yīng)和恢復(fù)四個(gè)層次[6],其中檢測(cè)尤為關(guān)鍵,其負(fù)責(zé)識(shí)別企圖破壞系統(tǒng)完整性、機(jī)密性以及可用性的行為,并為系統(tǒng)響應(yīng)提供了必要的反饋[7-8]。

        ⅠCS 數(shù)據(jù)大多存在著不平衡性,同時(shí)不平衡的ⅠCS數(shù)據(jù)普遍存在著類重疊現(xiàn)象。相關(guān)研究表明,數(shù)據(jù)的不平衡性并非是導(dǎo)致檢測(cè)困難的唯一因素,當(dāng)類別間的可分性較強(qiáng)且數(shù)據(jù)量足夠多時(shí),即使數(shù)據(jù)的不平衡程度很高,也并不需要太復(fù)雜的模式來(lái)區(qū)分各類樣本[9]。不平衡問(wèn)題在孤立狀態(tài)下可能不會(huì)造成分類器性能明顯下降,但當(dāng)不平衡數(shù)據(jù)中存在著較為嚴(yán)重的數(shù)據(jù)重疊時(shí),分類器的性能將受到很大影響[10-11]。

        針對(duì)不平衡數(shù)據(jù)的檢測(cè)問(wèn)題,目前常采用平衡數(shù)據(jù)類別或檢測(cè)數(shù)據(jù)重疊的策略[12]。

        在平衡數(shù)據(jù)類別的策略中,常采用過(guò)采樣、欠采樣或混合采樣方法。其中,Pan等人[13]提出了基于合成少數(shù)類過(guò)采樣(synthetic minority over-sampling technique,SMOTE)[14]的方法,通過(guò)線性插值合成不平衡數(shù)據(jù)中的少數(shù)類樣本使數(shù)據(jù)達(dá)到平衡狀態(tài)。該方法提高了分類器對(duì)異常數(shù)據(jù)的學(xué)習(xí)能力,緩解了隨機(jī)過(guò)采樣的過(guò)擬合問(wèn)題[15],提高了檢測(cè)性能。Agustianto 等人[16]提出了基于鄰域清洗規(guī)則NCL(neighborhood cleaning rule)的欠采樣方法,通過(guò)尋找某個(gè)樣本的k個(gè)近鄰,若該樣本類別與k個(gè)近鄰的類別不一致則刪除屬于多數(shù)類的樣本或近鄰。該方法能夠達(dá)到平衡樣本的目的,并與決策樹C4.5 分類算法結(jié)合達(dá)到了較高的準(zhǔn)確率。鄭建華等人[17]提出了一種級(jí)聯(lián)過(guò)采樣與欠采樣的混合采樣方法,通過(guò)利用高斯混合模型和SMOTE-Borderline1 進(jìn)行二次過(guò)采樣,并利用一次隨機(jī)欠采樣以平衡數(shù)據(jù),最后該方法以隨機(jī)森林為基分類器實(shí)現(xiàn)了較好的分類性能。上述方法均取得了一定的成效,但存在著一定的局限性,比如數(shù)據(jù)中噪聲樣本增加或所提方法對(duì)不同分類器的適配性較低等,而且沒(méi)有考慮到不平衡數(shù)據(jù)中存在的數(shù)據(jù)類別重疊問(wèn)題。

        在檢測(cè)數(shù)據(jù)重疊的策略中,常依據(jù)聚類或無(wú)監(jiān)督分類模型來(lái)檢測(cè)重疊并輔以欠采樣方法對(duì)重疊多數(shù)類樣本進(jìn)行處理。對(duì)此,Vuttipittayamongkol 等人[18]基于軟聚類算法提出了一種面向重疊的欠采樣框架OBU(overlap-based under-sampling),該方法依據(jù)軟聚類算法分配的樣本成員度確定潛在的重疊樣本,并將負(fù)類樣本從重疊樣本中剔除且無(wú)須平衡數(shù)據(jù)。Devi 等人[19]提出將多數(shù)類和少數(shù)類樣本分別送入一類支持向量機(jī)OCSVM(one-class support vector machine)中進(jìn)行檢測(cè),兩類樣本被檢測(cè)出的離群點(diǎn)即為二者的重疊數(shù)據(jù),同時(shí)選擇Tomek-link 欠采樣方法來(lái)消除重疊邊界的多數(shù)類樣本并平衡數(shù)據(jù)。Li 等人[20]提出先用少數(shù)類樣本訓(xùn)練異常檢測(cè)模型,然后將原始數(shù)據(jù)輸入模型中以排除少數(shù)類的異常值和大量的多數(shù)類樣本,剩余數(shù)據(jù)形成重疊子集,并運(yùn)用欠采樣方法剔除該子集中的多數(shù)類樣本,最后將重疊與非重疊子集合并以訓(xùn)練分類器。上述方法均不同程度上優(yōu)化了數(shù)據(jù)分布、改善了分類器的學(xué)習(xí)能力,相比于平衡數(shù)據(jù)類別的方法在處理不平衡數(shù)據(jù)上具有獨(dú)特優(yōu)勢(shì),但同時(shí)也存在著重疊識(shí)別率較低或沒(méi)有考慮到重疊數(shù)據(jù)中多數(shù)類樣本的數(shù)據(jù)清洗以及少數(shù)類樣本的采樣問(wèn)題等。

        本文針對(duì)ⅠCS異常檢測(cè)中存在的數(shù)據(jù)不平衡問(wèn)題,從類重疊的角度出發(fā),提出了一種面向重疊區(qū)域的混合采樣方法:OverlapRHS(overlap region with hybrid sampling)。該方法基于分而治之的思想,分別利用多數(shù)類樣本和少數(shù)類樣本訓(xùn)練支持向量數(shù)據(jù)描述SVDD(support vector data description)[21]以構(gòu)建重疊檢測(cè)模型,并在此基礎(chǔ)上合成重疊數(shù)據(jù)區(qū)域的少數(shù)類樣本,增強(qiáng)少數(shù)類樣本的數(shù)據(jù)特征,然后對(duì)該區(qū)域的多數(shù)類樣本進(jìn)行鄰域清洗以削弱分類器在訓(xùn)練時(shí)偏向于多數(shù)類樣本。本文通過(guò)將OverlapRHS 與支持向量機(jī)、邏輯回歸、k-近鄰、決策樹分類器進(jìn)行組合,在公開的3個(gè)ⅠCS數(shù)據(jù)集和1 個(gè)入侵檢測(cè)數(shù)據(jù)集上進(jìn)行了測(cè)試,并對(duì)比了其他4 種處理不平衡問(wèn)題的采樣方法。結(jié)果表明,OverlapRHS 在數(shù)據(jù)重疊檢測(cè)、混合采樣以及對(duì)分類器訓(xùn)練效果提升方面均展現(xiàn)出了有效性,分類器的檢測(cè)性能與泛化能力得到了顯著提升,并且該方法明顯優(yōu)于其他處理不平衡數(shù)據(jù)的采樣方法。

        1 OverlapRHS概述

        OverlapRHS分為兩個(gè)階段,如圖1所示。第一個(gè)階段是重疊區(qū)域檢測(cè)階段,第二個(gè)階段是重疊區(qū)域采樣階段。OverlapRHS 的具體實(shí)施流程如下:不平衡數(shù)據(jù)集以8∶2 的比例被劃分為訓(xùn)練集Xtrain和測(cè)試集Xtest,訓(xùn)練集Xtrain在經(jīng)過(guò)重疊區(qū)域檢測(cè)階段時(shí),首先依據(jù)其類標(biāo)簽將Xtrain劃分為多數(shù)類樣本集Xmajor和少數(shù)類樣本集Xminor,之后利用Xmajor和Xminor分別訓(xùn)練SVDDmajor和SVDDminor,由此得到兩個(gè)不同的決策函數(shù)Fmajor(xi)和Fminor(xi),然后計(jì)算訓(xùn)練集Xtrain中的所有樣本分別在兩個(gè)決策函數(shù)上的函數(shù)值,最后根據(jù)函數(shù)值以及相關(guān)預(yù)定規(guī)則判斷訓(xùn)練集Xtrain中樣本點(diǎn)的分布情況。

        圖1 OverlapRHS方法結(jié)構(gòu)圖Fig.1 Structure diagram of OverlapRHS method

        在重疊區(qū)域采樣階段中,重疊區(qū)域Roverlap由離群點(diǎn)xi-outlier和重疊點(diǎn)xi-overlap共同構(gòu)成,非重疊區(qū)域Rnon-overlap僅由非重疊點(diǎn)xi-inlier構(gòu)成。在重疊區(qū)域Roverlap內(nèi)加入離群點(diǎn)xi-outlier主要是考慮在后續(xù)采樣過(guò)程中可以生成多樣化的少數(shù)類樣本,以及在最大限度保留整體多數(shù)類信息的情況下剔除更多的多數(shù)類樣本。在確定重疊區(qū)域Roverlap之后,通過(guò)融合SMOTE合成少數(shù)類過(guò)采樣和NCL鄰域清洗規(guī)則以完成該區(qū)域內(nèi)的混合采樣工作,非重疊區(qū)域Rnon-overlap則不做采樣處理。最后將重疊區(qū)域Roverlap混合采樣之后的所有樣本與非重疊區(qū)域Rnon-overlap內(nèi)的所有樣本合并得到組合樣本訓(xùn)練集Xcombine,并用其訓(xùn)練分類器,最后使用測(cè)試集Xtest在訓(xùn)練好的分類器上進(jìn)行測(cè)試評(píng)估。下面將對(duì)OverlapRHS兩個(gè)階段的內(nèi)容作詳細(xì)闡述。

        1.1 重疊區(qū)域檢測(cè)階段

        重疊區(qū)域檢測(cè)階段結(jié)構(gòu)示意圖如圖2 所示。根據(jù)訓(xùn)練集Xtrain所劃分的多數(shù)類樣本集Xmajor和少數(shù)類樣本集Xminor分別在SVDDmajor和SVDDminor上構(gòu)建最小超球,并利用所得到的最小超球半徑Rmajor和Rminor設(shè)置相應(yīng)的決策函數(shù)Fmajor(xi)和Fminor(xi),最后依據(jù)重疊判斷規(guī)則對(duì)訓(xùn)練集Xtrain中樣本點(diǎn)的分布進(jìn)行劃分。

        圖2 重疊區(qū)域檢測(cè)階段結(jié)構(gòu)示意圖Fig.2 Structure schematic diagram of overlap region detection stage

        假定有數(shù)據(jù)集X={x1,x2,…,xn},為了構(gòu)造最小超球,同時(shí)為了更好地處理高維復(fù)雜數(shù)據(jù)的非線性映射問(wèn)題,本文采用徑向基函數(shù)核(radial basis function kernel,RBF核)作為高維特征空間映射函數(shù)K,將數(shù)據(jù)從原始空間Ok映射到特征空間Fk,并解決如(1)所示的優(yōu)化問(wèn)題:

        其中,R>0 是超球半徑,c∈Fk是超球球心,ξi≥0 是用于懲罰數(shù)據(jù)中噪聲的松弛變量,其目的是防止模型出現(xiàn)過(guò)擬合,C是平衡超球半徑和松弛變量的參數(shù)。

        上述優(yōu)化問(wèn)題的約束條件可通過(guò)拉格朗日乘子法納入優(yōu)化問(wèn)題(1)中,結(jié)果如公式(2)所示:

        其中,拉格朗日乘數(shù)αi、γi≥0。利用L分別對(duì)超球半徑R、超球球心c和松弛變量ξi求偏導(dǎo),并將偏導(dǎo)數(shù)設(shè)置為0,有:當(dāng)xi在Fmajor(xi)和Fminor(xi)上的決策函數(shù)值均大于或等于0,此時(shí)xi同時(shí)位于兩個(gè)超球的內(nèi)部或邊界上,那么該點(diǎn)被定義為重疊點(diǎn)xi-overlap;當(dāng)xi當(dāng)且僅當(dāng)在Fmajor(xi)或Fminor(xi)其中一個(gè)決策函數(shù)上的值小于0時(shí),此時(shí)xi僅位于一個(gè)超球內(nèi)部而位于另一個(gè)超球外部,那么該點(diǎn)被定義為非重疊點(diǎn)xi-inlier。

        將公式(3)中得出的結(jié)果重新納入公式(2)中,整理可得出最終的超球半徑計(jì)算公式為:

        1.2 重疊區(qū)域采樣階段

        其中,xv∈SV,SV為支持向量集合,當(dāng)xi滿足約束條件‖xi-c‖2=R2時(shí),有0<αi0的xi共同構(gòu)成了支持向量集合SV。由公式(4)可以得出,對(duì)于待檢測(cè)的樣本,其距超球球心的距離公式為:

        由公式(4)和公式(5),本文通過(guò)設(shè)定如公式(6)的決策函數(shù)來(lái)檢測(cè)樣本的分布情況:

        即,如果F(xt)>0 ,那么樣本xt位于超球內(nèi)部;如果F(xt)=0,那么樣本xt位于超球邊界上;如果F(xt)<0,則樣本xt位于超球外部。

        在SVDDmajor和SVDDminor均訓(xùn)練完畢之后,將訓(xùn)練集Xtrain中的所有樣本分別輸入至決策函數(shù)Fmajor(xi)和Fminor(xi)中,并根據(jù)Fmajor(xi)和Fminor(xi)所得出的決策函數(shù)值,判斷Xtrain中樣本點(diǎn)的分布情況,判斷規(guī)則如下:

        (1)if(Fmajor(xi)<0) and (Fminor(xi)<0):xi→outlier

        (2)if(Fmajor(xi)≥0) and (Fminor(xi)≥0):xi→overlap

        (3)if[(Fmajor(xi)<0) and (Fminor(xi)≥0)]or[(Fmajor(xi)≥0) and (Fminor(xi)<0)]:xi→inlier

        簡(jiǎn)述之,即有樣本點(diǎn)xi∈Xtrain,當(dāng)xi在Fmajor(xi)和Fminor(xi)上的決策函數(shù)值均小于0 時(shí),此時(shí)xi同時(shí)位于兩個(gè)超球外部,那么該點(diǎn)被定義為離群點(diǎn)xi-outlier;

        重疊區(qū)域采樣階段結(jié)構(gòu)示意圖如圖3 所示。首先利用SMOTE對(duì)所確定的重疊區(qū)域Roverlap內(nèi)的少數(shù)類樣本進(jìn)行線性插值過(guò)采樣,其目的是增大少數(shù)類樣本對(duì)分類器的可見性,同時(shí)避免大量的生成樣本嵌入至非重疊區(qū)域Rnon-overlap內(nèi)多數(shù)類樣本的數(shù)據(jù)空間中,以防止在樣本生成時(shí)加劇整體數(shù)據(jù)的類別重疊。在此基礎(chǔ)上,利用NCL對(duì)過(guò)采樣之后重疊區(qū)域Roverlap內(nèi)的多數(shù)類樣本進(jìn)行鄰域清洗,其目的是緩解整體數(shù)據(jù)的不平衡,降低數(shù)據(jù)重疊程度,削弱分類器偏向于多數(shù)類樣本的趨勢(shì),進(jìn)一步增大少數(shù)類樣本的可見性。下面將對(duì)重疊區(qū)域采樣階段的過(guò)采樣和欠采樣兩部分內(nèi)容作更進(jìn)一步的論述。

        圖3 重疊區(qū)域采樣階段結(jié)構(gòu)示意圖Fig.3 Structure schematic diagram of overlap region sampling stage

        1.2.1 過(guò)采樣部分

        在過(guò)采樣部分,利用SMOTE 對(duì)該區(qū)域內(nèi)的少數(shù)類樣本進(jìn)行過(guò)采樣,過(guò)程如下:

        首先依據(jù)歐式距離(euclidean distance,ED)計(jì)算出Roverlap區(qū)域內(nèi)每個(gè)少數(shù)類樣本xminor到此區(qū)域內(nèi)其他少數(shù)類樣本xminor-rest的距離,如公式(7)所示:

        之后依據(jù)式(7)所得到的結(jié)果,選取距離xminor最近的Kminor個(gè)近鄰,根據(jù)經(jīng)驗(yàn)與實(shí)驗(yàn)驗(yàn)證,文中Kminor設(shè)置為5。對(duì)于每個(gè)少數(shù)類樣本xminor,從其Kminor個(gè)近鄰中隨機(jī)選擇a個(gè)近鄰,對(duì)于選出的每一個(gè)近鄰xa,其與xminor以如下方式構(gòu)建新的少數(shù)類樣本:

        其中,Nrand為0 至1 間的隨機(jī)數(shù),Vdiffer為少數(shù)類樣本xminor與其近鄰xa差的絕對(duì)值,新的少數(shù)類樣本xminor-new則由xminor、Nrand和Vdiffer插值構(gòu)建。在處理完每一個(gè)少數(shù)類樣本之后,將構(gòu)建的所有新樣本xminor-new嵌入至重疊區(qū)域Roverlap內(nèi)。至此,過(guò)采樣部分完成。

        1.2.2 欠采樣部分

        在欠采樣部分,利用NCL 清理過(guò)采樣之后重疊區(qū)域Roverlap內(nèi)的部分多數(shù)類樣本,過(guò)程如下:

        同樣依據(jù)歐式距離計(jì)算出Roverlap區(qū)域內(nèi)每個(gè)多數(shù)類樣本xmajor到此區(qū)域內(nèi)其他多數(shù)類樣本xmajor-rest的距離,如公式(9)所示,并依據(jù)結(jié)果選取每個(gè)多數(shù)類樣本xmajor的Kmajor個(gè)最近鄰,為了避免多數(shù)類樣本信息丟失過(guò)度,經(jīng)驗(yàn)證,本文中Kmajor以4為宜。

        然后對(duì)于該區(qū)域內(nèi)的每個(gè)多數(shù)類樣本xmajor,以如下規(guī)則進(jìn)行領(lǐng)域清洗:

        其中,為xmajor的Kmajor個(gè)近鄰中多數(shù)類樣本的個(gè)數(shù),即如果xmajor的Kmajor個(gè)近鄰中有超過(guò)半數(shù)的樣本都不屬于多數(shù)類樣本,那么該樣本將被標(biāo)記為xmajor-del。在處理完Roverlap區(qū)域內(nèi)的全部多數(shù)類樣本之后,所有標(biāo)記為xmajor-del的多數(shù)類樣本將從該區(qū)域中剔除。至此,欠采樣部分完成。

        完成重疊區(qū)域Roverlap的混合采樣之后,將該區(qū)域內(nèi)的所有樣本與非重疊區(qū)域Rnon-overlap內(nèi)的所有樣本合并為組合樣本集Xcombine作為最終的訓(xùn)練集來(lái)訓(xùn)練分類器,如公式(10)所示,最后用測(cè)試集Xtest進(jìn)行測(cè)試。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)所用的3 個(gè)公開ⅠCS 數(shù)據(jù)集分別是:BHP(burst header packet)為光突發(fā)交換網(wǎng)絡(luò)中多控制分組存在洪泛攻擊的數(shù)據(jù)集[22];GP(gas pipeline)為天然氣管道傳感器數(shù)據(jù)集[23];Power 為電力輸電系統(tǒng)數(shù)據(jù)集[24]。同時(shí)使用1個(gè)入侵檢測(cè)數(shù)據(jù)集NSLKDD[25]作為實(shí)驗(yàn)對(duì)比。表1 所示為4 個(gè)數(shù)據(jù)集的基本信息:數(shù)據(jù)集名稱、數(shù)據(jù)量、特征維數(shù),多數(shù)類個(gè)數(shù),少數(shù)類個(gè)數(shù)和不平衡率Imb。Imb計(jì)算公式如下所示:

        表1 數(shù)據(jù)集基本信息Table 1 Basic information of datasets

        其中,Nmajor是多數(shù)類個(gè)數(shù),Nminor是少數(shù)類個(gè)數(shù),Imb值越大,表明數(shù)據(jù)不平衡程度越高。

        實(shí)驗(yàn)所用評(píng)估指標(biāo)有準(zhǔn)確率(accuracy,Acc)、精確率(precision,Pre)、召回率(recall,Rec)、F1 分?jǐn)?shù)(F1-score,F(xiàn)1)以及G-mean值。

        其中G-mean值是評(píng)估正類召回率和負(fù)類召回率的綜合指標(biāo),其求解公式如下所示:

        其中,TP表示被正確預(yù)測(cè)為正類的正樣本數(shù),F(xiàn)P表示被錯(cuò)誤預(yù)測(cè)為正類的負(fù)樣本數(shù),TN表示被正確預(yù)測(cè)為負(fù)類的負(fù)樣本數(shù),F(xiàn)N是被錯(cuò)誤預(yù)測(cè)為負(fù)類的正樣本數(shù)。

        實(shí)驗(yàn)所用對(duì)比采樣方法有:NearMiss 欠采樣方法、SMOTE 過(guò)采樣方法、ADASYN 自適應(yīng)抽樣方法,以及跳過(guò)重疊檢測(cè)階段直接利用SMOTE 與NCL 對(duì)數(shù)據(jù)集進(jìn)行重采樣的SMOTE-NCL方法。

        2.2 實(shí)驗(yàn)結(jié)果分析

        2.2.1 重疊檢測(cè)與混合采樣效果分析

        為了較為直觀地展示OverlapRHS的重疊檢測(cè)和混合采樣效果,本文以BHP數(shù)據(jù)集為例,采用t-SNE[26]數(shù)據(jù)降維方法對(duì)OverlapRHS各階段數(shù)據(jù)的大致分布情況進(jìn)行可視化分析。設(shè)定t-SNE嵌入空間維數(shù)為3,為了確保嵌入空間的全局穩(wěn)定性,嵌入初始化方法設(shè)為PCA[27];○代表多數(shù)類樣本,☆代表少數(shù)類樣本;顏色的深淺程度代表著樣本點(diǎn)的分布密度,顏色越深,說(shuō)明該區(qū)域的樣本密度越大,分布在該區(qū)域的相似樣本越多。圖4所示即為BHP數(shù)據(jù)集在OverlapRHS各階段的數(shù)據(jù)分布情況。

        圖4 BHP數(shù)據(jù)集在OverlapRHS各階段的數(shù)據(jù)分布情況Fig.4 Data distribution of BHP dataset at each stage of OverlapRHS

        圖4(a)為原訓(xùn)練集的數(shù)據(jù)分布,其中少數(shù)類樣本與多數(shù)類樣本存在較大程度的數(shù)據(jù)重疊,分類邊界模糊。圖4(b)為所檢測(cè)出來(lái)的重疊數(shù)據(jù)區(qū)域,該區(qū)域中大部分少數(shù)類分布于多數(shù)類樣本的數(shù)據(jù)空間中,不過(guò)也存在著小部分少數(shù)類和部分多數(shù)類樣本沒(méi)有重疊的情況,這是因?yàn)橹丿B區(qū)域是由離群點(diǎn)xi-outlier和重疊點(diǎn)xi-overlap共同構(gòu)成的,原因已在1.2節(jié)作出相關(guān)闡述。圖4(c)中,重疊區(qū)域少數(shù)類樣本在經(jīng)過(guò)采樣后,數(shù)據(jù)規(guī)模得到擴(kuò)充,多數(shù)類樣本在經(jīng)鄰域清洗后,與少數(shù)類樣本的重疊降低。圖4(d)中組合集相比于原訓(xùn)練集來(lái)說(shuō)重疊程度減輕,不平衡程度緩解,少數(shù)類樣本在數(shù)據(jù)得到增強(qiáng)的同時(shí)并沒(méi)有大規(guī)模地侵入到多數(shù)類樣本的數(shù)據(jù)空間中,且有較為明顯的分類邊界,分類器能更容易地學(xué)習(xí)到少數(shù)類樣本的特征分布,說(shuō)明OverlapRHS 在重疊檢測(cè)和混合采樣中具有有效性。

        為了考證不同采樣方法間的差異性,本文繼續(xù)以BHP數(shù)據(jù)集為基準(zhǔn),利用t-SNE對(duì)比OverlapRHS與NearMiss、SMOTE、ADASYN以及SMOTE-NCL的采樣效果。如圖5所示即為各方法對(duì)BHP數(shù)據(jù)集采樣后的數(shù)據(jù)分布情況。

        圖5 各方法在BHP數(shù)據(jù)集上采樣后的數(shù)據(jù)分布情況Fig.5 Data distribution of BHP dataset after sampling by each method

        圖5(a)為OverlapRHS對(duì)數(shù)據(jù)集重疊區(qū)域混合采樣后的數(shù)據(jù)分布,也即組合集的數(shù)據(jù)分布。在圖5(b)中,NearMiss 的目的是剔除數(shù)據(jù)集中的多數(shù)類樣本以達(dá)到類別平衡,但這會(huì)導(dǎo)致多數(shù)類樣本的代表性不足,有效信息丟失,分類器準(zhǔn)確性下降,而且沒(méi)有緩解重疊問(wèn)題。除NearMiss 外,圖5(c)、(d)、(e)中的SMOTE、ADASYN 和SMOTE-NCL 均不同程度地?cái)U(kuò)展了少數(shù)類樣本的數(shù)據(jù)規(guī)模,使少數(shù)類樣本與多數(shù)類樣本達(dá)到了平衡狀態(tài)。但從三者的數(shù)據(jù)分布來(lái)看,雖然它們的數(shù)據(jù)類別得以平衡,但生成的少數(shù)類樣本卻大量地嵌入到多數(shù)類樣本的數(shù)據(jù)空間中,加劇了數(shù)據(jù)集的重疊程度,并且大量的生成樣本對(duì)分類器的訓(xùn)練過(guò)程也存在著潛在的過(guò)擬合風(fēng)險(xiǎn)。

        表2 為4 個(gè)數(shù)據(jù)集經(jīng)OverlapRHS 處理前后的數(shù)據(jù)不平衡率對(duì)比。由表可知,各數(shù)據(jù)集在經(jīng)過(guò)OverlapRHS處理之后的不平衡率并沒(méi)有達(dá)到平衡狀態(tài),這說(shuō)明OverlapRHS與現(xiàn)有方法有所不同。OverlapRHS旨在檢測(cè)出重疊數(shù)據(jù),并在重疊數(shù)據(jù)區(qū)域內(nèi)進(jìn)行重采樣,這一點(diǎn)在圖4中得到驗(yàn)證,重采樣數(shù)據(jù)不會(huì)對(duì)非重疊數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)分布造成影響,并且能在一定程度上緩解整體數(shù)據(jù)的不平衡程度,而無(wú)須刻意謀求數(shù)據(jù)類別的最終平衡。

        表2 各數(shù)據(jù)集經(jīng)OverlapRHS處理前后的不平衡率Table 2 Ⅰmbalance rate of each dataset before and after OverlapRHS processing

        2.2.2 OverlapRHS對(duì)分類器性能提升效果分析

        為了檢驗(yàn)OverlapRHS 對(duì)分類器性能的提升效果,實(shí)驗(yàn)選取支持向量機(jī)、邏輯回歸、k-近鄰、決策樹分類器以及BHP、GP、Power、NSLKDD 數(shù)據(jù)集對(duì)其進(jìn)行測(cè)試,通過(guò)對(duì)比各分類器在數(shù)據(jù)集原始無(wú)采樣(origin)狀態(tài)和經(jīng)OverlapRHS處理后的狀態(tài)上的準(zhǔn)確率(Acc)、精確率(Pre)、召回率(Rec)和F1 分?jǐn)?shù)(F1)對(duì)其進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果如圖6~9所示。

        圖6 BHP數(shù)據(jù)集上OverlapRHS對(duì)各分類器的性能提升對(duì)比Fig.6 Performance improvement comparison of OverlapRHS on BHP dataset for each classifier

        如圖6是BHP數(shù)據(jù)集上OverlapRHS對(duì)各分類器的性能提升對(duì)比結(jié)果。由圖可知,支持向量機(jī)和邏輯回歸在OverlapRHS 上的各項(xiàng)指標(biāo)均有不同程度的提升,二者在OverlapRHS 上的準(zhǔn)確率分別為0.934 9 和0.952 6,精確率分別為0.948 7和0.937 1,召回率均達(dá)到了0.978 8,F(xiàn)1 分?jǐn)?shù)分別為0.772 6 和0.726 0。k-近鄰在Origin 和OverlapRHS 上的召回率均為1,但OverlapRHS 在保持召回率為1 的情況下,將k-近鄰的準(zhǔn)確率、精確率和F1分?jǐn)?shù)均提升到了1,體現(xiàn)了OverlapRHS 的不俗性能,有效檢測(cè)出了BHP 數(shù)據(jù)集的重疊數(shù)據(jù),再輔以混合采樣顯著提升了k-近鄰的檢測(cè)效果。最后,決策樹在Origin和OverlapRHS 上的各項(xiàng)指標(biāo)均為1,這一方面與BHP數(shù)據(jù)集的屬性有關(guān),其特征維數(shù)僅為19,維數(shù)越少,數(shù)據(jù)特征分布越簡(jiǎn)單,越易于分類器的學(xué)習(xí),其次,BHP數(shù)據(jù)集的數(shù)據(jù)量也比較小,數(shù)據(jù)量越小,數(shù)據(jù)中存在的噪聲數(shù)據(jù)就越少,從而對(duì)分類器性能影響越??;另一方面,決策樹是基于樹的分類器,自帶正則項(xiàng),能有效緩解過(guò)擬合問(wèn)題。

        如圖7 是GP 數(shù)據(jù)集上OverlapRHS 對(duì)各分類器的性能提升對(duì)比結(jié)果。從整體上來(lái)看,OverlapRHS 對(duì)支持向量機(jī)和邏輯回歸的性能提升比較有限,兩個(gè)分類器在Origin 和OverlapRHS 上的召回率達(dá)到了一致的0.974 7,除此之外,OverlapRHS在支持向量機(jī)和邏輯回歸的其余各項(xiàng)指標(biāo)上僅提升了約0.04%~0.13%不等。從圖中可以得知,k-近鄰在OverlapRHS 上的各項(xiàng)指標(biāo)均有不同程度的改善。對(duì)GP 數(shù)據(jù)集而言,OverlapRHS對(duì)決策樹的性能提升最為明顯,其將決策樹的各項(xiàng)分類指標(biāo)提升了約2.6%~3.8%,其中召回率達(dá)到了0.974 7。

        圖7 GP數(shù)據(jù)集上OverlapRHS對(duì)各分類器的性能提升對(duì)比Fig.7 Performance improvement comparison of OverlapRHS on GP dataset for each classifier

        如圖8 是Power 數(shù)據(jù)集上OverlapRHS 對(duì)各分類器的性能提升對(duì)比結(jié)果。首先需要說(shuō)明的是,Power數(shù)據(jù)集雖然僅有較少的5 570 條數(shù)據(jù),但是卻具有高達(dá)128維的數(shù)據(jù)特征維度,一般情況下,數(shù)據(jù)集特征維度越高,數(shù)據(jù)特征分布越復(fù)雜,復(fù)雜的數(shù)據(jù)特征分布會(huì)對(duì)分類器的性能造成嚴(yán)重影響。本文所采用的支持向量機(jī)(線性核)和邏輯回歸均是線性分類器,它們的分類決策面都是線性的,無(wú)法較好地?cái)M合復(fù)雜的數(shù)據(jù)特征分布,從而導(dǎo)致分類效果較差。從圖8(a)、(b)中可以很直觀地看出,支持向量機(jī)和邏輯回歸在Origin和OverlapRHS上的整體性能較低,特別是召回率和F1分?jǐn)?shù)。但是,OverlapRHS依然展現(xiàn)出了效果,Power數(shù)據(jù)集在經(jīng)過(guò)OverlapRHS處理之后,在支持向量機(jī)和邏輯回歸上的各項(xiàng)指標(biāo)均有提升,邏輯回歸相較于支持向量機(jī)提升稍大。在非線性分類器上,k-近鄰在OverlapRHS上的提升最為顯著,其中召回率提升了約24.6%,F(xiàn)1分?jǐn)?shù)提升了約15.7%,準(zhǔn)確率和精確率也分別有5.9%和5.5%的性能改善。對(duì)決策樹而言,其在OverlapRHS 上的精確率降低了約1%的性能,但在召回率上提升了約6.4%,準(zhǔn)確率以及綜合評(píng)價(jià)指標(biāo)F1 分?jǐn)?shù)都有所改觀,在異常檢測(cè)中,相較于精確率,召回率更加重要,較高的召回率能夠減少系統(tǒng)漏報(bào)率,防止檢測(cè)系統(tǒng)因遺漏攻擊導(dǎo)致重大損失。所以,OverlapRHS 僅以損失些許精確率為代價(jià),提升了召回率以及綜合性能,進(jìn)一步體現(xiàn)了OverlapRHS的優(yōu)勢(shì)。

        圖8 Power數(shù)據(jù)集上OverlapRHS對(duì)各分類器的性能提升對(duì)比Fig.8 Performance improvement comparison of OverlapRHS on Power dataset for each classifier

        如圖9是NSLKDD數(shù)據(jù)集上OverlapRHS對(duì)各分類器的性能提升對(duì)比結(jié)果。由圖可知,各分類器在Origin和OverlapRHS 上均達(dá)到了很高的召回率,這說(shuō)明各分類器存在著較低的漏報(bào)率,但同時(shí)也說(shuō)明NSLKDD 數(shù)據(jù)集中存在著大量具有相似特征分布的正類和負(fù)類樣本,也即是存在較高的類別重疊,從而導(dǎo)致分類器無(wú)法有效學(xué)習(xí)各類數(shù)據(jù)特征,在面對(duì)負(fù)類樣本時(shí)錯(cuò)誤地將其歸為正類,導(dǎo)致了高召回率、低精確率。前面提到,召回率對(duì)異常檢測(cè)很重要,但是并不意味著精確率不重要,精確率較低會(huì)導(dǎo)致系統(tǒng)的誤報(bào)率較高。從圖中可以直觀地看出,高召回率導(dǎo)致了各分類器存在著較低的精確率。但是NSLKDD 數(shù)據(jù)集在經(jīng)過(guò)OverlapRHS 的優(yōu)化之后,各分類器維持或略微提升了當(dāng)前的高召回率,并且將各分類器的精確率提升了約2.9%~6.9%,準(zhǔn)確率提升了約2.3%~6.1%,F(xiàn)1 分?jǐn)?shù)提升了約1.6%~3.7%??梢姡瑢?duì)于網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域的數(shù)據(jù)集,OverlapRHS依然展現(xiàn)出了不俗的數(shù)據(jù)優(yōu)化能力。

        圖9 NSLKDD數(shù)據(jù)集上OverlapRHS對(duì)各分類器的性能提升對(duì)比Fig.9 Performance improvement comparison of OverlapRHS on NSLKDD dataset for each classifier

        2.2.3 各采樣方法對(duì)比結(jié)果分析

        為了進(jìn)一步探索OverlapRHS相較于其他處理類不平衡問(wèn)題采樣方法的有效性,實(shí)驗(yàn)以G-mean值為基準(zhǔn),它是評(píng)估數(shù)據(jù)各類別召回率的綜合評(píng)價(jià)指標(biāo),并兼顧整體檢測(cè)效果,G-mean 值越大,表明分類器的性能越好、漏報(bào)率越低。通過(guò)在每個(gè)數(shù)據(jù)集上分別計(jì)算支持向量機(jī)、邏輯回歸、k-近鄰和決策樹分類器在NearMiss、SMOTE、ADASYN、SMOTE-NCL 以及OverlapRHS 方法上的G-mean 值,得到如圖10 所示的對(duì)比結(jié)果,圖中每個(gè)數(shù)據(jù)集為一個(gè)子圖,橫軸為不同的分類器,縱軸為各方法在每個(gè)分類器上的G-mean值。

        圖10 不同數(shù)據(jù)集下各分類器在不同方法上的G-mean值對(duì)比Fig.10 Comparison of G-mean values of each classifier on different methods under different datasets

        觀圖可知,在圖10(a)BHP 數(shù)據(jù)集中,OverlapRHS與其他4 種方法相比,在支持向量機(jī)上提高了約3.8%~10.9%。但在邏輯回歸上相比于SMOTE-NCL 并未改善,但較其他3種方法提高了約1.9%~8.3%。其中OverlapRHS 在K-近鄰上相比其他方法提升最為顯著,約14.0%~28.2%。在決策樹上,OverlapRHS 相較于SMOTE 和ADASYN 雖未改善,是因?yàn)樗鼈兊腉-mean值均為1,不過(guò)與NearMiss 和SMOTE-NCL 相比卻有約7.7%~17.0%的大幅提升,進(jìn)而說(shuō)明OverlapRHS 具有有效性。在圖10(b)GP數(shù)據(jù)集中,OverlapRHS與SMOTE、SMOTE-NCL在支持向量機(jī)和邏輯回歸上的G-mean值相差無(wú)幾,性能差距不大,不過(guò)與NearMiss和ADASYN相比,OverlapRHS 分別提升了兩個(gè)分類器約8.0%~14.5%和7.6%~14.5%的性能。OverlapRHS 在k-近鄰和決策樹上相比于4種對(duì)比方法均有改觀,其中在決策樹分類器上改進(jìn)較為可觀,相比各方法提升了約0.6%~24.6%。在圖10(c)Power數(shù)據(jù)集中,各方法在各分類器上的G-mean值難分伯仲。由于數(shù)據(jù)集存在的高維復(fù)雜分布特性,且G-mean值較為關(guān)注各類別數(shù)據(jù)的召回率,所以導(dǎo)致線性分類器的G-mean值較低。整體來(lái)看,雖然OverlapRHS結(jié)合各分類器在Power數(shù)據(jù)集上的G-mean值與其他方法相比改進(jìn)不太明顯,甚至在k-近鄰分類器上的G-mean 值略遜于NearMiss、SMOTE 和ADASYN,但在絕大多數(shù)情況下,OverlapRHS在復(fù)雜Power數(shù)據(jù)集上的表現(xiàn)依然略勝于其他方法。在圖10(d)NSLKDD數(shù)據(jù)集中,可以看出,各分類器結(jié)合OverlapRHS 的G-mean 值均在不同程度上優(yōu)于其他方法,相比于其他方法策略,在支持向量機(jī)上提升了約0.7%~10.5%,在邏輯回歸上提升了約5.2%~6.9%,在k-近鄰上提升了約1.8%~16.1%,在決策樹上提升了約3.9%~9.8%,進(jìn)一步展現(xiàn)了OverlapRHS的有效性與魯棒性。

        此外,從G-mean值角度考慮各分類器與OverlapRHS的搭配效果,縱觀全局,在4個(gè)數(shù)據(jù)集上,k-近鄰和決策樹是與OverlapRHS 結(jié)合最好的兩個(gè)分類器,二者整體的分類效果優(yōu)于支持向量機(jī)和邏輯回歸。這一方面與分類器特性有關(guān),k-近鄰和決策樹是非線性分類器,能很好地學(xué)習(xí)數(shù)據(jù)特征間的非線性關(guān)系;另一方面體現(xiàn)了OverlapRHS能夠很好地適應(yīng)具有不同屬性且特征分布較為復(fù)雜的數(shù)據(jù)集,并在不同數(shù)據(jù)集下展現(xiàn)了較之于其他采樣方法的良好效果。

        2.2.4 各采樣方法計(jì)算代價(jià)分析

        計(jì)算代價(jià)是所有采樣方法需要考慮的重要因素之一,為了驗(yàn)證OverlapRHS的計(jì)算代價(jià),本文從時(shí)間代價(jià)和空間代價(jià)兩個(gè)角度出發(fā),并以維數(shù)較高、數(shù)據(jù)特征分布較為復(fù)雜的Power 數(shù)據(jù)集和數(shù)據(jù)規(guī)模較大的NSLKDD數(shù)據(jù)集為基準(zhǔn),分析OverlapRHS 與NearMiss、SMOTE、ADASYN以及SMOTE-NCL方法之間的計(jì)算代價(jià)。

        實(shí)驗(yàn)所用運(yùn)行平臺(tái)統(tǒng)一為Ⅰntel Core i7-7700HQ處理器,16 GB 內(nèi)存。所得到的各采樣方法在Power 和NSLKDD 數(shù)據(jù)集上的時(shí)間代價(jià)和空間代價(jià)結(jié)果分別如表3、表4 所示。表3 中,STC(sampling time cost)表示采樣時(shí)間代價(jià),單位為秒(s)。表4 中,SMC(sampling memory cost)表示采樣空間代價(jià),單位為兆字節(jié)(MB)。

        表3 各采樣方法的采樣時(shí)間代價(jià)Table 3 Sampling time cost of each sampling method單位:s

        表4 各采樣方法的采樣空間代價(jià)Table 4 Sampling memory cost of each sampling method單位:MB

        觀察表3和表4可知,4種對(duì)比方法在兩個(gè)數(shù)據(jù)集上的計(jì)算代價(jià)表現(xiàn)具有一般規(guī)律,即在時(shí)間和空間代價(jià)上,NearMiss 欠采樣方法要低于其他3 種非欠采樣方法,且混合采樣方法的時(shí)間和空間代價(jià)最高。由于OverlapRHS 僅作用于重疊區(qū)域的數(shù)據(jù),所以在表3 中,其在Power 數(shù)據(jù)集上的時(shí)間代價(jià)相比于SMOTE-NCL要有所降低,甚至在NSLKDD 數(shù)據(jù)集上的表現(xiàn)要優(yōu)于耗時(shí)最低的NearMiss 方法;在表4 中,雖然OverlapRHS在Power數(shù)據(jù)集上的空間代價(jià)要高于其他方法,但在規(guī)模較大的NSLKDD 數(shù)據(jù)集上的空間代價(jià)卻略低于ADASYN和SMOTE-NCL方法。

        由上述分析可以得出,OverlapRHS 在采樣效率方面相比于其他部分方法有一定的提高。此外,從數(shù)據(jù)集屬性角度而言,數(shù)據(jù)特征分布的復(fù)雜與否以及數(shù)據(jù)規(guī)模的大小對(duì)于OverlapRHS的時(shí)間代價(jià)影響甚微;但OverlapRHS 空間代價(jià)的高低,相較于數(shù)據(jù)規(guī)模,更多地與數(shù)據(jù)特征分布的復(fù)雜程度有較大關(guān)系,即復(fù)雜的數(shù)據(jù)特征分布會(huì)加大OverlapRHS的空間占用。

        3 結(jié)束語(yǔ)

        本文針對(duì)工業(yè)控制系統(tǒng)異常檢測(cè)中存在的數(shù)據(jù)不平衡問(wèn)題,從類重疊角度出發(fā),利用支持向量數(shù)據(jù)描述構(gòu)建了重疊檢測(cè)模型,并在此基礎(chǔ)上提出了一種面向重疊區(qū)域的混合采樣方法:OverlapRHS。

        經(jīng)實(shí)驗(yàn)驗(yàn)證,本文所提之方法,能夠有效檢測(cè)出不平衡數(shù)據(jù)的重疊數(shù)據(jù),并通過(guò)對(duì)重疊數(shù)據(jù)區(qū)域施加混合采樣,增強(qiáng)了分類器的學(xué)習(xí)能力,使之在檢測(cè)精度、召回率等指標(biāo)上均得到了不同程度的提升,并且普遍優(yōu)于其他處理不平衡數(shù)據(jù)的采樣方法。未來(lái)的工作將研究如何運(yùn)用生成對(duì)抗網(wǎng)絡(luò)在重疊數(shù)據(jù)區(qū)域生成高質(zhì)量的少數(shù)類樣本,以防止插值采樣帶來(lái)的潛在過(guò)擬合風(fēng)險(xiǎn);以及針對(duì)特征分布較復(fù)雜的數(shù)據(jù)進(jìn)一步優(yōu)化方法結(jié)構(gòu),以緩解計(jì)算資源的占用。

        猜你喜歡
        集上代價(jià)分類器
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        愛的代價(jià)
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        復(fù)扇形指標(biāo)集上的分布混沌
        代價(jià)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        成熟的代價(jià)
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        精品自拍偷拍一区二区三区| 放荡的少妇2欧美版| 最近中文字幕国语免费| 中国凸偷窥xxxx自由视频| 欧美黑人乱大交| 精品久久久久一区二区国产| 国产一区二区三区视频大全| 国产成人亚洲综合二区| 国产精品白浆一区二区免费看| 性色av一二三天美传媒| 无码人妻人妻经典| 99蜜桃在线观看免费视频网站| 精品国产福利久久久| 国产精品亚洲精品日产久久久| 亚洲av中文字字幕乱码| 超级乱淫片国语对白免费视频| 亚洲sm另类一区二区三区| 亚洲精品久久久久久动漫| 久久精品无码一区二区三区不| 一区二区三区熟妇人妻18| 在线观看国产成人av天堂野外| 国产精品久久久久久福利| 97影院在线午夜| 亚洲AV无码久久精品国产老人| 日韩一区二区中文字幕| 亚洲国产性夜夜综合另类 | 亚洲人成精品久久熟女| 激情五月婷婷一区二区| 亚洲中文字幕久久精品无码a| 海角国精产品一区一区三区糖心| 久久频这里精品99香蕉| 五月停停开心中文字幕| 免费久久99精品国产| 少妇无码一区二区三区免费| 中文字幕乱码人妻无码久久麻豆| 少妇被日到高潮的视频| 日韩少妇人妻中文字幕| 先锋影音av最新资源| 亚洲人成18禁网站| 在线观看播放免费视频| 免费一区二区高清不卡av|