亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多視角層次聚類下的無線網(wǎng)絡(luò)入侵檢測算法

        2022-12-19 03:00:12董新玉趙旭升高新寶
        計算機與生活 2022年12期
        關(guān)鍵詞:基準(zhǔn)點余弦無線網(wǎng)絡(luò)

        董新玉,解 濱,3+,趙旭升,高新寶

        1.河北師范大學(xué) 計算機與網(wǎng)絡(luò)空間安全學(xué)院,石家莊 050024

        2.河北師范大學(xué) 河北省網(wǎng)絡(luò)與信息安全重點實驗室,石家莊 050024

        3.河北師范大學(xué) 供應(yīng)鏈大數(shù)據(jù)分析與數(shù)據(jù)安全河北省工程研究中心,石家莊 050024

        無線局域網(wǎng)技術(shù)和移動通信設(shè)備的迅猛發(fā)展使得WiFi 網(wǎng)絡(luò)環(huán)境逐漸普及并融入人們的生活,這同時也使得WiFi成為網(wǎng)絡(luò)攻擊的目標(biāo)?!安渚W(wǎng)”“無線釣魚”等無線網(wǎng)絡(luò)犯罪事件時有發(fā)生,引發(fā)了個人數(shù)據(jù)被泄露、篡改等信息安全隱患,甚至導(dǎo)致大的經(jīng)濟損失[1]。網(wǎng)絡(luò)攻擊行為的不斷演化和升級使得無線網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)安全問題愈發(fā)嚴(yán)峻,成為信息安全的新困局。

        網(wǎng)絡(luò)入侵檢測是目前應(yīng)用最廣泛也最有效的網(wǎng)絡(luò)安全主動防御方法,入侵檢測技術(shù)作為一種重要的動態(tài)安全技術(shù),很好地彌補了靜態(tài)安全技術(shù)的不足。入侵檢測技術(shù)主要分為兩類:誤用入侵檢測和異常入侵檢測[2]。誤用入侵檢測是指通過建立已知入侵行為特征數(shù)據(jù)庫,利用該數(shù)據(jù)庫對網(wǎng)絡(luò)中的數(shù)據(jù)流量進行實時監(jiān)控,以模式匹配的方式判斷網(wǎng)絡(luò)行為及其變種行為是否異常,當(dāng)數(shù)據(jù)流量特征與特征數(shù)據(jù)庫中的任何一條規(guī)則有交集,即可判定為入侵行為。誤用入侵檢測技術(shù)依賴于已知入侵行為特征庫,對于已知攻擊類型的入侵行為能夠快速準(zhǔn)確地檢測到并作出類別判斷,但是該技術(shù)無法檢測到未知攻擊類型的網(wǎng)絡(luò)入侵行為。異常入侵檢測技術(shù)恰好能解決這一問題,其通過建立正常行為特征數(shù)據(jù)庫來實現(xiàn)入侵檢測目的,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)行為特征不符合正常行為特征數(shù)據(jù)庫規(guī)則時,即判定該行為為網(wǎng)絡(luò)入侵行為。該技術(shù)可以檢測到未知攻擊類型的入侵行為,但是檢測過程中誤檢率和漏檢率較高。隨著網(wǎng)絡(luò)入侵行為的不斷多樣化和復(fù)雜化,基于異常檢測技術(shù)的網(wǎng)絡(luò)入侵檢測系統(tǒng)更能適應(yīng)多變的網(wǎng)絡(luò)環(huán)境,使之成為當(dāng)下較為流行的入侵檢測機制。

        基于有監(jiān)督異常檢測的網(wǎng)絡(luò)入侵檢測系統(tǒng),在實際應(yīng)用過程中需要通過對大量正常行為數(shù)據(jù)進行標(biāo)記,建立正常行為特征庫。但是,在現(xiàn)實網(wǎng)絡(luò)環(huán)境中想要獲取純凈準(zhǔn)確的正常行為數(shù)據(jù)集是很困難的,并且代價很大。為解決這個問題,人們提出了無監(jiān)督異常檢測方法[3],該方法不依賴于已標(biāo)記的數(shù)據(jù),不需要人工或者其他方法對訓(xùn)練數(shù)據(jù)集進行標(biāo)記和分類,大大提高了檢測系統(tǒng)的實用性。基于無監(jiān)督異常檢測的網(wǎng)絡(luò)入侵檢測算法遵循以下兩個假設(shè):(1)網(wǎng)絡(luò)數(shù)據(jù)集中正常行為數(shù)據(jù)量遠遠多于入侵行為數(shù)據(jù)量;(2)網(wǎng)絡(luò)數(shù)據(jù)集中正常行為數(shù)據(jù)特征與入侵行為數(shù)據(jù)特征之間存在較大差異。

        隨著無監(jiān)督異常檢測得到研究者關(guān)注,一系列卓有成效的數(shù)據(jù)挖掘和機器學(xué)習(xí)中的方法被應(yīng)用于無監(jiān)督異常檢測。如Jiang和Song等人[4]提出了一種新的無監(jiān)督聚類檢測方法(clustering-based method for unsupervised intrusion detection,CBUID),該方法在標(biāo)記簇時考慮了簇的偏離程度(deviation degree),并且在聚類時使用了INN(improved nearest neighbor)算法,該算法有效地提高了聚類的質(zhì)量。劉衛(wèi)國等人[5]提出了一種全部屬性聚類和特征屬性聚類相結(jié)合的無監(jiān)督異常檢測模型,該模型將數(shù)據(jù)集劃分為不同的服務(wù)集,然后對每個服務(wù)集數(shù)據(jù)包進行全部屬性聚類和部分相關(guān)屬性聚類,取其中訓(xùn)練性能較優(yōu)的方法建立對該服務(wù)的檢測模型。周亞建等人[6]提出了一種基于改進的CURE(clustering using representative)聚類算法的無監(jiān)督異常檢測方法。在保證原有CURE聚類算法性能不變的條件下,通過對其進行合理的改進獲得更加理想的簇,也為建立正常行為模型提供了更加純凈的正常行為數(shù)據(jù)。為減少由于異常值與正常值之間相互干擾而產(chǎn)生的漏報和誤報,吳金娥等人[7]提出用反向K近鄰算法對異常群數(shù)據(jù)進行反向過濾,將統(tǒng)計距離作為不同群數(shù)據(jù)間的相似性度量,算法有較高的異常檢測率和良好的穩(wěn)定性。

        目前,這些無監(jiān)督異常檢測方法所使用的聚類或K 近鄰算法在網(wǎng)絡(luò)實時狀況變更的情況下不能靈活控制聚類簇個數(shù)以適應(yīng)多變復(fù)雜的無線網(wǎng)絡(luò)環(huán)境[8]。并且,大多數(shù)算法采用歐式距離作為數(shù)據(jù)對象之間的相似性度量,而對于高維數(shù)據(jù),使用余弦距離來刻畫要比歐式距離更合適[9]。李飛江等人[10]提出的全粒度聚類算法采用余弦距離來刻畫數(shù)據(jù)對象間的相似性,得到了較歐式距離更為合理準(zhǔn)確的聚類結(jié)果。但是,該算法以將歐式空間網(wǎng)格化方式選取基準(zhǔn)點,一方面影響余弦距離測量的內(nèi)部基準(zhǔn)點偏多,另一方面在笛卡爾坐標(biāo)系下網(wǎng)格化選取的基準(zhǔn)點數(shù)量較為龐大,復(fù)雜度較高。

        本文提出一種以多視角方式選擇基準(zhǔn)點、結(jié)合層次聚類構(gòu)造無監(jiān)督無線網(wǎng)絡(luò)入侵檢測算法,在聚類過程中可通過調(diào)節(jié)層次聚類距離閾值來動態(tài)控制聚類簇個數(shù),更能適應(yīng)當(dāng)下多變復(fù)雜的無線網(wǎng)絡(luò)環(huán)境。同時,該算法引入多視角余弦距離作為層次聚類的距離度量方式,在衡量任意兩個數(shù)據(jù)對象之間相似性時綜合考慮各個視角下該數(shù)據(jù)對象間的相似性,使得數(shù)據(jù)對象之間的相似性度量更加合理和準(zhǔn)確,從而提高入侵檢測算法的檢測率,降低誤檢率。對于離群數(shù)據(jù)點和任意簇下的數(shù)據(jù)對象,這種相似性度量方式要明顯優(yōu)于基于傳統(tǒng)歐式距離的相似度量。本文實驗選用公開無線網(wǎng)絡(luò)數(shù)據(jù)集AWID,采用主成分分析法(principal component analysis,PCA)對實驗數(shù)據(jù)進行降維處理,在一定程度上減小了數(shù)據(jù)特征規(guī)模,提高了算法的性能。實驗結(jié)果表明,本文提出的基于多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測算法較傳統(tǒng)無線網(wǎng)絡(luò)入侵檢測算法在檢測率、誤檢率和發(fā)現(xiàn)未知攻擊類型等性能上均有顯著提升。

        1 基于多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測

        1.1 無線網(wǎng)絡(luò)入侵檢測過程概述

        無線網(wǎng)絡(luò)入侵檢測過程[11]主要包括以下幾個模塊:(1)WiFi網(wǎng)絡(luò)數(shù)據(jù)獲?。唬?)數(shù)據(jù)預(yù)處理;(3)分類器學(xué)習(xí);(4)構(gòu)建分類器;(5)無線網(wǎng)絡(luò)數(shù)據(jù)檢測;(6)響應(yīng)機制。其中,模塊(1)~(4)屬于入侵檢測學(xué)習(xí)階段,模塊(5)、模塊(6)屬于檢測階段?,F(xiàn)實網(wǎng)絡(luò)環(huán)境中一般通過無線網(wǎng)絡(luò)監(jiān)聽設(shè)備來獲取WiFi無線網(wǎng)絡(luò)數(shù)據(jù),獲取后的無線網(wǎng)絡(luò)數(shù)據(jù)經(jīng)過預(yù)處理進入到分類器學(xué)習(xí)模塊,通過訓(xùn)練大量無線網(wǎng)絡(luò)數(shù)據(jù)構(gòu)建能夠判斷網(wǎng)絡(luò)數(shù)據(jù)行為的分類器。無線網(wǎng)絡(luò)實時流量經(jīng)檢測模塊的分析判斷確定其行為類別,并適時啟動入侵檢測響應(yīng)機制。檢測過程如圖1所示。

        圖1 無線網(wǎng)絡(luò)入侵檢測過程示意圖Fig.1 Schematic diagram of wireless network intrusion detection process

        傳統(tǒng)的K-means聚類算法、KNN(K-nearest neighbor)分類算法等是構(gòu)建分類器經(jīng)典的算法。該類算法根據(jù)網(wǎng)絡(luò)數(shù)據(jù)行為的差異對數(shù)據(jù)集進行分類學(xué)習(xí),提取網(wǎng)絡(luò)數(shù)據(jù)行為特征,構(gòu)建數(shù)據(jù)分類器。數(shù)據(jù)分類器對任意實時網(wǎng)絡(luò)數(shù)據(jù)流量進行特征提取和行為判斷,從而實現(xiàn)對網(wǎng)絡(luò)環(huán)境的實時監(jiān)測功能。通常情況下,不同的檢測系統(tǒng)會根據(jù)網(wǎng)絡(luò)環(huán)境和網(wǎng)絡(luò)狀態(tài)的不同而設(shè)定合適的數(shù)據(jù)行為判定閾值。入侵檢測過程中,檢測系統(tǒng)會結(jié)合分類器分類情況和閾值的設(shè)定來輸出數(shù)據(jù)行為的最終判定結(jié)果。隨著無線網(wǎng)絡(luò)入侵行為的不斷多樣化和復(fù)雜化,固定分類數(shù)量的K-means和KNN算法已經(jīng)不能滿足入侵檢測系統(tǒng)的需要,在未知的無線網(wǎng)絡(luò)環(huán)境下,入侵檢測系統(tǒng)并不能提前獲得網(wǎng)絡(luò)數(shù)據(jù)行為的準(zhǔn)確類別數(shù),這一現(xiàn)象使得基于固定分類數(shù)量的K-means及KNN算法的數(shù)據(jù)分類器學(xué)習(xí)能力和分類性能大大降低。為降低固定分類個數(shù)K對分類器性能的影響,本文使用層次聚類算法構(gòu)建分類器。層次聚類算法相較Kmeans及KNN算法在構(gòu)建分類器過程中通過設(shè)置層次聚類距離閾值來靈活控制分類個數(shù),使得分類結(jié)果更能符合當(dāng)下無線網(wǎng)絡(luò)環(huán)境實況。

        1.2 層次聚類算法

        層次聚類的主要思想[12]是在不同層次對數(shù)據(jù)集進行劃分,分為“自底向上”的聚合策略和“自頂向下”的分拆策略兩種形式?!白缘紫蛏稀钡牟呗?,開始時把每一個原始數(shù)據(jù)看作一個單一的聚類簇,然后不斷聚合小的聚類簇成為大的聚類簇?!白皂斚蛳隆钡牟呗蚤_始把所有數(shù)據(jù)看作一個聚類簇,通過不斷分割大的聚類簇直到每一個單一的數(shù)據(jù)都被劃分。結(jié)合無線網(wǎng)絡(luò)數(shù)據(jù)集AWID 的數(shù)據(jù)特征,本文選用“自底向上”的層次聚類聚合策略,聚類終止條件是符合預(yù)設(shè)的距離閾值α或者達到預(yù)設(shè)的聚類簇個數(shù)k。層次聚類的關(guān)鍵是如何選擇聚類簇之間的距離和如何確定聚類閾值α。聚類過程中,每個聚類簇是一個數(shù)據(jù)樣本集合,計算聚類簇之間的距離時只需計算集合間的某種距離即可。如給定聚類簇Ci與Cj,可通過下面的式子來計算距離:

        聚類簇之間的最小距離:

        聚類簇之間的最大距離:

        聚類簇之間的平均距離:

        其中,|·|為集合的基數(shù)。

        平均距離作為聚類簇之間的距離度量方式,綜合衡量了聚類簇中所有數(shù)據(jù)對象對聚類簇之間距離的影響,更加適合對無線網(wǎng)絡(luò)數(shù)據(jù)集的分類,增加聚類算法的魯棒性。

        圖2為自底向上層次聚類示意圖,橫坐標(biāo)代表網(wǎng)絡(luò)數(shù)據(jù)集中的數(shù)據(jù)對象,編號為p1~p6,縱坐標(biāo)為聚類簇之間的距離,聚類過程如圖3所示。在層次聚類算法中,可根據(jù)提前設(shè)定好的距離閾值或者聚類簇個數(shù)終止聚類過程,得到相應(yīng)的聚類結(jié)果。例如,設(shè)定距離閾值為0.118時(如圖2虛線所示)可以得到如下所示的聚類結(jié)果:

        圖2 層次聚類示意圖Fig.2 Hierarchical clustering diagram

        圖3 層次聚類過程圖Fig.3 Hierarchical clustering process diagram

        1.3 多視角相似性度量

        層次聚類算法的最終目的是把給定的數(shù)據(jù)集進行分類,使得相似度高的數(shù)據(jù)對象在同一類中,差異較大的數(shù)據(jù)對象分布在距離較遠的類中。歐式距離是聚類算法中常用的樣本之間距離的度量方式,如式(4)所示,傳統(tǒng)的K-means 聚類方法就是通過極小化每個樣本到類中心的距離和來達到聚類的目的,表示為式(5),表1給出了本文需要用到的符號表達。

        表1 層次聚類符號表達Table 1 Hierarchical clustering symbol expression

        在樣本之間相似度量方法中,歐式距離側(cè)重于度量樣本之間屬性值的數(shù)值上的差異,余弦距離側(cè)重于維度間取值方向的一致性,主要度量維度之間的差異,不注重數(shù)值上的差異。對于維度較高的無線網(wǎng)絡(luò)數(shù)據(jù)來說,這兩種傳統(tǒng)的度量方式都存在局限性。本文將改進的余弦距離度量方式引入到無線網(wǎng)絡(luò)數(shù)據(jù)的層次聚類算法中,在多視角下衡量無線網(wǎng)絡(luò)數(shù)據(jù)對象之間的相似性,得到兩個數(shù)據(jù)對象之間更加合理、真實的相似度,從而使得聚類結(jié)果更加理想。

        基于余弦的距離可表示為:

        其中,cos(xi,xj)為數(shù)據(jù)xi和xj間的夾角余弦,用來衡量數(shù)據(jù)對象之間的相似度[10]。

        從式(6)可以看出,余弦距離可以看作以原點作為視角來觀測兩個對象的夾角,因此,余弦距離也可以表示為:

        式(7)的這種計算方法只把0 作為基準(zhǔn)點,兩個對象之間的夾角也只是從原點來看的夾角,如圖4(a)所示。但是對于同原點接近于一條直線的兩個數(shù)據(jù)對象來說,以原點為唯一基準(zhǔn)點的余弦距離度量就失去了效果,如圖4(b)所示。因此,采用多個視角進行余弦距離度量將有效解決這一問題。

        圖4 以原點為視角觀測數(shù)據(jù)間距離Fig.4 Measuring distance between data objects from origin view

        引入非原點的第三個點dh作為基準(zhǔn)點,數(shù)據(jù)xi和xj間的距離表示為:

        在度量兩個數(shù)據(jù)對象之間相似度的時候,從基準(zhǔn)點集合Sh中的每個點觀察兩個數(shù)據(jù)對象之間的夾角,也就是向量xi-dh和xj-dh之間的夾角。數(shù)據(jù)xi和xj間的距離可由多個基準(zhǔn)點觀察的余弦距離的平均值表示:

        其中,|Sh|為基準(zhǔn)點集Sh的基數(shù)。

        文獻[10]提出在全粒度下按照預(yù)設(shè)的取點步長在各個維度上依次選取基準(zhǔn)點的方法,得到了較為理想的聚類結(jié)果。但是,該算法的基準(zhǔn)點是通過空間網(wǎng)格點的方式選取的,使得基準(zhǔn)點數(shù)據(jù)量龐大,導(dǎo)致算法的時間復(fù)雜度較高,同時也增加了很多降低余弦距離判斷準(zhǔn)確性的干擾基準(zhǔn)點。為解決這一問題,本文采取多視角方法選取基準(zhǔn)點,有效減小基準(zhǔn)點集規(guī)模的同時,提高了聚類的準(zhǔn)確度。多視角選取基準(zhǔn)點的思想如下:

        設(shè)A為n維空間中單位超立方體的外接超球面上的點,O為球心,當(dāng)點A在單位超球面上按照球坐標(biāo)等角度步長選取時,則在笛卡爾坐標(biāo)系OX1X2…Xn中,點A的笛卡爾坐標(biāo)(X1,X2,…,Xn)計算如下:

        圖5 三維空間任意基準(zhǔn)點示意圖Fig.5 Schematic diagram of arbitrary datum point in three-dimensional space

        其中,n為空間維度,三維空間中n取值為3。由此可得,點A在空間直角坐標(biāo)系中的坐標(biāo)為(X,Y,Z)。

        例如,三維空間中,選定N=3 時,多視角方法得到的基準(zhǔn)點坐標(biāo)如表2所示,圖6為示意圖。

        表2 六個基準(zhǔn)點坐標(biāo)Table 2 Coordinates of 6 datum points

        圖6 三維空間基準(zhǔn)點集示意圖Fig.6 Schematic diagram of three-dimensional space datum point set

        在n維空間中,文獻[10]的全粒度方法選取基準(zhǔn)點的基準(zhǔn)點集規(guī)模為(N-1)n,本文的多視角方法選取基準(zhǔn)點的基準(zhǔn)點集規(guī)模為N(N-1)n-2。當(dāng)數(shù)據(jù)集維度增高時,基準(zhǔn)點集規(guī)模會越來越大,對算法性能的影響也會隨之變大,因此在高維數(shù)據(jù)集上減小基準(zhǔn)點集的規(guī)模對于算法性能的提高至關(guān)重要。當(dāng)N=3時,在不同維度下兩種方法選取基準(zhǔn)點個數(shù)對比結(jié)果如表3所示。

        表3 全粒度和多視角方法基準(zhǔn)點集規(guī)模比較Table 3 Comparison of datum set size between full granularity and multi-perspective methods

        基準(zhǔn)點集合Sh包含各個角度的數(shù)據(jù)對象,因此多視角下余弦距離能夠更合理地衡量兩個高維數(shù)據(jù)對象之間的相似度。本文將多視角余弦距離作為層次聚類的距離度量方式,應(yīng)用到無線網(wǎng)絡(luò)入侵檢測算法中,得到了更加準(zhǔn)確的檢測結(jié)果。但是,相較傳統(tǒng)歐式距離采用余弦距離度量方式計算高維數(shù)據(jù)對象之間距離,聚類算法的時間復(fù)雜度也明顯提高,保證了較高檢測率、較低誤檢率的同時在一定程度上影響了入侵檢測算法的檢測效率。因此,本文在預(yù)處理無線網(wǎng)絡(luò)數(shù)據(jù)集時采用主成分分析法對數(shù)據(jù)集進行降維處理,減小聚類算法時間復(fù)雜度對入侵檢測算法檢測效率的影響。

        1.4 主成分分析法對無線網(wǎng)絡(luò)數(shù)據(jù)降維

        在無線網(wǎng)絡(luò)數(shù)據(jù)分析問題的研究中,每一條網(wǎng)絡(luò)數(shù)據(jù)往往會涉及數(shù)十個甚至上百個屬性變量。屬性變量太多不但會增加檢測算法的時間復(fù)雜度,同時也會給合理分析檢測結(jié)果帶來困難[13]。一般來說,雖然網(wǎng)絡(luò)數(shù)據(jù)的每個屬性變量都提供了一定的信息,但其重要程度也就是貢獻度有所不同。而且,在多數(shù)情況下,網(wǎng)絡(luò)數(shù)據(jù)的各個屬性變量之間會存在一定的相關(guān)性,從而使得這些屬性變量所提供的信息在一定程度上有所重疊,并影響檢測結(jié)果的準(zhǔn)確度。因此,本文采取主成分分析法對這些屬性變量加以處理,用為數(shù)較少的變量代替原有的屬性變量,從而實現(xiàn)對無線網(wǎng)絡(luò)數(shù)據(jù)的降維。降維過程如下:

        在無線網(wǎng)絡(luò)數(shù)據(jù)集AWID(154個屬性)[14]中提取對于聚類結(jié)果有影響的77維屬性進行主成分分析法降維處理,得到的主成分方差貢獻率、主成分累計方差貢獻率如表4 所示。在用主成分分析法對無線網(wǎng)絡(luò)數(shù)據(jù)集進行降維時,可通過調(diào)整主成分累計方差貢獻率閾值R,選定合適數(shù)量的主成分。主成分數(shù)量的選擇直接影響對原有網(wǎng)絡(luò)數(shù)據(jù)的刻畫能力。選擇為數(shù)較少的主成分代替原有數(shù)據(jù)可能會出現(xiàn)聚類結(jié)果不佳、入侵檢測算法檢測性能大大下降的問題。選擇為數(shù)較多的主成分代替原有數(shù)據(jù)又無法實現(xiàn)降維的目的。因此,如何選擇合適數(shù)量的主成分來代替原有網(wǎng)絡(luò)數(shù)據(jù)需要根據(jù)具體算法和算法功能來決定,以達到在保證算法較高性能的基礎(chǔ)上最大限度實現(xiàn)數(shù)據(jù)降維的目的。經(jīng)多次實驗,本文選取降維后的前16 個屬性進行入侵檢測實驗,得到了最為理想的檢測結(jié)果。當(dāng)再增加屬性進行實驗時,時間復(fù)雜度逐步上升,但是入侵檢測結(jié)果并無明顯改變,y因此本文選用前16個屬性。

        表4 主成分分析法降維數(shù)據(jù)結(jié)果Table 4 Dimension reduction data results of principal component analysis 單位:%

        2 多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測算法

        輸入:包含n個數(shù)據(jù)對象的樣本集X={x1,x2,…,xn},多視角步長N,層次聚類閾值a,權(quán)值向量l=(l1,l2,…,lp)T。

        輸出:聚類結(jié)果集C。

        (1)通過權(quán)值向量l=(l1,l2,…,lp)T 降維數(shù)據(jù)集X={x1,x2,…,xn}中的所有數(shù)據(jù)對象。

        (2)將數(shù)據(jù)集X={x1,x2,…,xn}中每一個數(shù)據(jù)對象看作一個初始聚類簇,即構(gòu)建初始聚類簇U={U1,U2,…,Un},其中U1={x1},U2={x2},…,Un={xn}。

        (3)遍歷所有初始聚類簇中的數(shù)據(jù)對象xi,計算dist(xi,xj)(xi∈Ui,xj∈Uj,i≠j) 。當(dāng)?Mindist(xi,xj)(xi∈Ui,xj∈Uj,i≠j)<a時,更新聚類簇集為U={U1,U2,…,Un-1},其中,U1={x1},U2={x2},Ui={xi,xj},…,Un-1={xn}。否則,算法結(jié)束,重新輸入合理的層次聚類距離閾值a。

        (4)由多視角步長N確定基準(zhǔn)點集Sh={d1,d2,…,dh}。

        (5)遍歷聚類簇U={U1,U2,…,Un-1}中所有簇,當(dāng)?Mind(Ui,Uj) <a時,合并簇Ui、Uj。更新聚類簇U={U1,U2,…,Un-2},其中,

        否則,輸出聚類結(jié)果集U。

        (6)重復(fù)執(zhí)行步驟(5),輸出最終聚類結(jié)果集U。

        3 實驗與結(jié)果分析

        實驗環(huán)境為Windows 10操作系統(tǒng)、Intel i5 CPU、8 GB 內(nèi)存,實驗數(shù)據(jù)為無線網(wǎng)絡(luò)數(shù)據(jù)集AWID,在python3.7進行了如下對比實驗:

        (1)基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類(density-based spatial clustering of applications with noise,DBSCAN)的入侵檢測算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法對比實驗。

        (2)基于傳統(tǒng)歐式距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法對比實驗。

        (3)基于全粒度余弦距離層次聚類和多視角余弦距離層次聚類的網(wǎng)絡(luò)入侵檢測算法對比實驗。

        (4)采用基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類DBSCAN的入侵檢測算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法進行檢測未知攻擊類型的對比實驗。

        3.1 實驗數(shù)據(jù)集

        AWID 數(shù)據(jù)集來源于Kolias,是數(shù)據(jù)量最大也是最全面的真實WiFi網(wǎng)絡(luò)環(huán)境下采集的網(wǎng)絡(luò)攻擊數(shù)據(jù)集。按照攻擊類型級別,數(shù)據(jù)集被劃分為兩種數(shù)據(jù)子集:4種大攻擊類型的CLS數(shù)據(jù)集和16種子攻擊類型的ATK數(shù)據(jù)集。后者的16種子攻擊類型包含在前者的4種大攻擊類型當(dāng)中,如ATK數(shù)據(jù)集中的Caffe-Latte、Hirte、Honeypot 和EvilTwin 攻擊類型屬于CLS數(shù)據(jù)集中的偽裝攻擊類型。同時AWID 數(shù)據(jù)集包含完整數(shù)據(jù)集和精簡數(shù)據(jù)集兩個版本。本文使用精簡版本的CLS 數(shù)據(jù)集,數(shù)據(jù)集中數(shù)據(jù)類型分布情況如表5所示,數(shù)據(jù)集中的一條normal數(shù)據(jù)記錄為:

        表5 數(shù)據(jù)分布情況Table 5 Data distribution

        數(shù)據(jù)集預(yù)處理的過程包括數(shù)據(jù)完整化、數(shù)據(jù)合理化、字符型數(shù)據(jù)數(shù)值化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)屬性降維。

        (1)數(shù)據(jù)裁剪

        AWID數(shù)據(jù)集中,少數(shù)網(wǎng)絡(luò)數(shù)據(jù)的部分屬性處于缺失狀態(tài),為了保證算法結(jié)果的有效性,將屬性缺失率達到80%及以上的屬性予以刪除,其余處于缺失狀態(tài)的屬性位均以0進行填充。

        (2)數(shù)據(jù)選擇

        本文無線網(wǎng)絡(luò)數(shù)據(jù)集中正常行為記錄數(shù)量遠大于攻擊行為記錄數(shù)量,現(xiàn)實網(wǎng)絡(luò)環(huán)境中正常行為記錄和攻擊行為記錄比例確是如此。但是在構(gòu)建分類器也就是聚類過程中,不同數(shù)據(jù)類型數(shù)據(jù)量的比例失衡會直接導(dǎo)致聚類簇大小差異過大,影響了入侵檢測模型的效果。為此,本文選取1∶1的正常行為記錄和攻擊行為記錄作為訓(xùn)練數(shù)據(jù)集構(gòu)建分類器。為了充分驗證文中算法對不同攻擊類型數(shù)據(jù)行為的檢測性能,本文同樣選取1∶1的正常行為記錄和攻擊行為記錄作為測試數(shù)據(jù)集,盡可能包含較多攻擊類型的攻擊行為并且保證同一攻擊類型數(shù)據(jù)行為的數(shù)據(jù)量也較多。

        (3)字符型數(shù)據(jù)數(shù)值化

        將無線網(wǎng)絡(luò)數(shù)據(jù)集AWID 中的十六進制屬性值轉(zhuǎn)化為十進制屬性值,將數(shù)據(jù)集中MAC地址屬性轉(zhuǎn)化為其在整個數(shù)據(jù)集中出現(xiàn)的次數(shù),將字符形式的數(shù)據(jù)屬性值采用one-hot 編碼[15]方式進行數(shù)值化處理,經(jīng)由編碼方式處理后的字符型屬性變量能夠更合理地保留原有屬性對聚類結(jié)果的影響度。

        (4)數(shù)據(jù)屬性降維

        AWID 數(shù)據(jù)集中的無線網(wǎng)絡(luò)數(shù)據(jù)具有154 個屬性值,本文實驗前先將測試數(shù)據(jù)集中所有數(shù)據(jù)取值均相同的屬性刪除,并運用主成分分析法提取出貢獻率較大的屬性,實現(xiàn)對無線網(wǎng)絡(luò)數(shù)據(jù)的降維處理,一定程度上降低層次聚類算法的時間復(fù)雜度。

        (5)數(shù)據(jù)標(biāo)準(zhǔn)化

        數(shù)據(jù)集中不同屬性的值域不同,為了降低這種差別給檢測模型帶來的影響,需要對數(shù)據(jù)集中的數(shù)據(jù)進行z-score 標(biāo)準(zhǔn)化[16],使其符合正態(tài)分布。經(jīng)驗證,在分類和聚類算法中,若需要使用距離來度量相似性并使用PCA 技術(shù)進行降維時,z-score 標(biāo)準(zhǔn)化要優(yōu)于Min-max normalization。

        式中,yi表示xi標(biāo)準(zhǔn)化之后的數(shù)據(jù),xi表示第i個特征值,μ表示該特征的數(shù)據(jù)均值,σ表示該特征的數(shù)據(jù)標(biāo)準(zhǔn)差。

        3.2 實驗結(jié)果與分析

        本文采用檢測率ACC、誤檢率FAR、召回率Recall、F1 作為本文無線網(wǎng)絡(luò)入侵檢測算法的性能評價指標(biāo)。具體如下:

        (1)檢測率ACC,被正確判定類別的網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)總和的比值。檢測率越高,入侵檢測算法的性能越好。

        (2)誤檢率FAR,被錯誤判定為攻擊行為的正常行為數(shù)據(jù)量和正常行為數(shù)據(jù)總和的比值。在入侵檢測算法中,誤檢率越低,算法的檢測性能越好。

        (3)召回率Recall,被正確識別為網(wǎng)絡(luò)攻擊行為的數(shù)據(jù)量和攻擊行為總量的比值。召回率越高,代表入侵檢測算法檢測攻擊行為的能力越強。

        (4)F1,綜合考慮算法各項性能的指標(biāo)。F1 的值越大,代表入侵檢測算法的整體性能越好。

        其中,TN(true negative)表示把正常網(wǎng)絡(luò)數(shù)據(jù)行為正確識別為normal 的網(wǎng)絡(luò)數(shù)據(jù)行為數(shù)量;TP(true positive)表示把網(wǎng)絡(luò)攻擊行為正確判別為相應(yīng)攻擊類型的網(wǎng)絡(luò)數(shù)據(jù)數(shù)量;FN(false negative)表示把網(wǎng)絡(luò)攻擊行為錯誤識別為正常網(wǎng)絡(luò)數(shù)據(jù)行為的數(shù)據(jù)數(shù)量;FP(false positive)表示把正常數(shù)據(jù)行為錯誤判別為某種攻擊行為的網(wǎng)絡(luò)數(shù)據(jù)數(shù)量。

        表6和表7所示的H1~H10 和D1~D10 為本文實驗所使用的數(shù)據(jù)集,均為CLS 數(shù)據(jù)集的抽樣數(shù)據(jù)集。為避免入侵檢測算法在單一實驗數(shù)據(jù)集上測試帶來的實驗結(jié)果偶然性,本文在CLS 數(shù)據(jù)集中隨機抽取帶有不同攻擊行為類的大小不一的實驗數(shù)據(jù)集H1~H10、D1~D10 進行實驗。其中,數(shù)據(jù)集D1~D10的攻擊行為數(shù)據(jù)中均包含相應(yīng)類別數(shù)的若干條未知攻擊行為數(shù)據(jù)(由已知攻擊行為偽裝而成),用于入侵檢測算法檢測未知攻擊行為性能的對比實驗。

        表6 實驗1、實驗2和實驗3的測試數(shù)據(jù)集Table 6 Test dataset of experiment 1,2 and 3

        表7 實驗4的測試數(shù)據(jù)集Table 7 Test dataset of experiment 4

        3.2.1 對比實驗1

        采用基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類DBSCAN的入侵檢測算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法進行對比實驗。分別選用H1、H2、H3、H4、H5、H6、H7、H8、H9、H10 測試數(shù)據(jù)集進行10次對比實驗。實驗結(jié)果如圖7~圖10所示。

        圖8 實驗1 FAR 對比Fig.8 Comparison of FAR in experiment 1

        圖9 實驗1 Recall 對比Fig.9 Comparison of Recall in experiment 1

        圖10 實驗1 F1 對比Fig.10 Comparison of F1 in experiment 1

        3.2.2 對比實驗2

        采用基于傳統(tǒng)歐式距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法進行對比實驗。分別選用H1、H2、H3、H4、H5、H6、H7、H8、H9、H10 測試數(shù)據(jù)集進行10 次對比實驗。實驗結(jié)果如圖11~圖14所示。

        圖11 實驗2 ACC 對比Fig.11 Comparison of ACC in experiment 2

        圖12 實驗2 FAR 對比Fig.12 Comparison of FAR in experiment 2

        圖13 實驗2 Recall 對比Fig.13 Comparison of Recall in experiment 2

        圖14 實驗2 F1 對比Fig.14 Comparison of F1 in experiment 2

        3.2.3 對比實驗3

        基于全粒度余弦距離層次聚類和基于多視角余弦距離層次聚類的網(wǎng)絡(luò)入侵檢測算法進行對比實驗。分別選用H1、H2、H3、H4、H5、H6、H7、H8、H9、H10 測試數(shù)據(jù)集進行10次對比實驗。實驗結(jié)果如圖15~圖18所示。

        圖15 實驗3 ACC 對比Fig.15 Comparison of ACC in experiment 3

        圖16 實驗3 FAR 對比Fig.16 Comparison of FAR in experiment 3

        圖17 實驗3 Recall 對比Fig.17 Comparison of Recall in experiment 3

        圖18 實驗3 F1 對比Fig.18 Comparison of F1 in experiment 3

        3.2.4 對比實驗4

        采用基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類DBSCAN的入侵檢測算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法進行檢測未知攻擊類型的對比實驗。分別選用D1、D2、D3、D4、D5、D6、D7、D8、D9、D10 測試數(shù)據(jù)集進行10 次對比實驗。實驗結(jié)果如圖19所示。

        圖19 實驗4未知攻擊類型檢測率Fig.19 Detection rate of unknown attack type in experiment 4

        通過上述四種對比實驗,結(jié)果表明,相較基于傳統(tǒng)K-means 聚類、KNN 分類以及密度聚類DBSCAN的入侵檢測算法,本文提出的基于多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測算法在入侵檢測算法四項性能指標(biāo)ACC、FAR、Recall、F1 上均有明顯改善,并且在發(fā)現(xiàn)未知攻擊類型方面也有了很大提升。相較基于傳統(tǒng)歐式距離層次聚類的入侵檢測算法,基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測算法具有更高的ACC、Recall和F1 以及較低的FAR。通過主成分分析法降維后的無線網(wǎng)絡(luò)攻擊數(shù)據(jù)集AWID 能夠很好地代表原有屬性的特征,在實現(xiàn)了數(shù)據(jù)集降維、降低算法時間復(fù)雜度、提高算法檢測效率的同時保證了較高的ACC、Recall、F1 以及較低的FAR。

        4 結(jié)束語

        為提升基于聚類的無監(jiān)督無線網(wǎng)絡(luò)入侵檢測算法性能,本文構(gòu)建了在多視角層次聚類下的無線網(wǎng)絡(luò)入侵檢測算法,該算法引入多視角余弦距離作為層次聚類過程中數(shù)據(jù)對象間相似性度量方式,使得無線網(wǎng)絡(luò)數(shù)據(jù)的聚類結(jié)果更加合理,在一定程度上提高了入侵檢測算法的檢測率,降低了誤檢率。提出的多視角選取基準(zhǔn)點的方法雖較全粒度選取基準(zhǔn)點方法在基準(zhǔn)點集規(guī)模上有了明顯改善,不過隨著數(shù)據(jù)維度的增高,基準(zhǔn)點集規(guī)模依然會很大,影響入侵檢測算法的整體性能。下一步工作,將尋找更加合理有效的基準(zhǔn)點選取方式和實驗數(shù)據(jù)降維方式,進一步降低聚類算法的時間復(fù)雜度和提高入侵檢測算法的整體性能。

        猜你喜歡
        基準(zhǔn)點余弦無線網(wǎng)絡(luò)
        建筑日照設(shè)計中基準(zhǔn)點相關(guān)問題的探討
        華中建筑(2022年4期)2022-04-14 07:50:52
        地鐵隧道自由設(shè)站變形監(jiān)測基準(zhǔn)網(wǎng)穩(wěn)定性檢驗
        濾波器對無線網(wǎng)絡(luò)中干擾問題的作用探討
        兩個含余弦函數(shù)的三角母不等式及其推論
        無線網(wǎng)絡(luò)的中間人攻擊研究
        分數(shù)階余弦變換的卷積定理
        圖像壓縮感知在分數(shù)階Fourier域、分數(shù)階余弦域的性能比較
        TD-LTE無線網(wǎng)絡(luò)高層建筑覆蓋技術(shù)研究與應(yīng)用
        移動通信(2015年17期)2015-08-24 08:13:12
        離散余弦小波包變換及語音信號壓縮感知
        數(shù)說無線網(wǎng)絡(luò):覆蓋廣 流量大 均衡差
        通信世界(2012年36期)2012-07-16 08:51:46
        中文字幕亚洲精品第1页| 亚洲日韩国产欧美一区二区三区| 中国国语毛片免费观看视频| 精品国产香蕉伊思人在线又爽又黄| 天堂av在线一区二区| 亚洲国产精品婷婷久久| 热久久美女精品天天吊色| 丰满多毛少妇做爰视频| 18禁黄无遮挡免费网站| 丝袜美腿丝袜美腿丝袜美腿丝袜| 国产精品久久久久9999无码 | 日日摸夜夜添狠狠添欧美| 欧洲AV秘 无码一区二区三| 日韩女优视频网站一区二区三区| 国产综合精品| 日韩精品成人一区二区三区| 亚洲精品无人区一区二区三区| 中文字幕免费人成在线网站| 精品人妻午夜一区二区三区四区| 国产香蕉尹人在线视频播放| 亚洲天堂av免费在线| 精品精品久久宅男的天堂| 8av国产精品爽爽ⅴa在线观看| 中文岛国精品亚洲一区| 看一区二区日本视频免费| 日日摸天天碰中文字幕你懂的| 久久久精品久久日韩一区综合| 亚洲乱色视频在线观看| 国产精品白浆一区二区免费看| 久久精品欧美日韩精品| 欧美人与动zozo| 青青视频在线播放免费的| 一本一道vs无码中文字幕| 少妇的肉体k8经典| 色婷婷激情在线一区二区三区| 青青草免费手机视频在线观看| 亚洲日韩成人av无码网站| 中字亚洲国产精品一区二区| 日本视频在线播放一区二区| 99精品人妻无码专区在线视频区| 香蕉视频毛片|