亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)粗糙集屬性約簡結(jié)合K-means聚類的網(wǎng)絡(luò)入侵檢測方法

        2020-08-06 08:28:44
        計(jì)算機(jī)應(yīng)用 2020年7期
        關(guān)鍵詞:約簡聚類閾值

        王 磊

        (蘇州大學(xué)信息化建設(shè)與管理中心,江蘇蘇州215006)(*通信作者電子郵箱wanglei01005@163.com)

        0 引言

        網(wǎng)絡(luò)安全問題一直是全社會關(guān)注的焦點(diǎn),隨著網(wǎng)絡(luò)環(huán)境的日益復(fù)雜,包括防火墻、安全路由及數(shù)據(jù)加密等靜態(tài)網(wǎng)絡(luò)安全保護(hù)方法已很難滿足人們對于網(wǎng)絡(luò)安全性能的需求。

        入侵檢測系統(tǒng)(Intrusion Detection System,IDS)作為一種網(wǎng)絡(luò)安全主動防御技術(shù),能夠?qū)Ψ阑饓Φ葌鹘y(tǒng)安全保護(hù)體系起到輔助作用[1],通過監(jiān)控流經(jīng)某個(gè)節(jié)點(diǎn)的流量,實(shí)現(xiàn)對入侵行為的檢測,并生成報(bào)警信號發(fā)送至系統(tǒng)管理員,典型的IDS通常包括事件采集、事件分析和事件響應(yīng)三個(gè)核心環(huán)節(jié),其檢測方法主要可分為兩種類型:誤用IDS 和異常IDS。現(xiàn)有IDS均或多或少存在有效性低、適應(yīng)性不強(qiáng)、誤報(bào)率高以及可擴(kuò)展性不高等問題。其中:誤用IDS 根據(jù)已知攻擊和系統(tǒng)弱點(diǎn)的參數(shù)識別入侵,然而它無法識別新的或不熟悉的攻擊類型;異常IDS 則基于正常行為的參數(shù),并使用它們來識別任何與正常行為相差甚遠(yuǎn)的行為[2]。誤用入侵檢測的機(jī)制是訓(xùn)練現(xiàn)有的入侵模式,并將考慮用于檢查的數(shù)據(jù),與先前的模式相匹配,以識別入侵。IDS 一般掛接在所有所關(guān)注流量都必須流經(jīng)的鏈路上,而所關(guān)注流量則是指來自高危網(wǎng)絡(luò)區(qū)域的訪問數(shù)據(jù)和需要進(jìn)行統(tǒng)計(jì)、監(jiān)視的網(wǎng)絡(luò)報(bào)文數(shù)據(jù)。即無論是誤用IDS還是異常IDS,都離不開對數(shù)據(jù)的挖掘與處理。

        利用數(shù)據(jù)挖掘技術(shù)開發(fā)的IDS 通常具有檢測網(wǎng)絡(luò)入侵的優(yōu)異性能和泛化能力,從而使其具有高效的入侵檢測性能。然而,實(shí)現(xiàn)和安裝這種系統(tǒng)的過程是復(fù)雜的,系統(tǒng)的固有復(fù)雜性可以根據(jù)準(zhǔn)確性、能力和可用性的參數(shù),組織成單獨(dú)的問題集[3]。與使用數(shù)據(jù)挖掘技術(shù)構(gòu)建的IDS 相關(guān)聯(lián)的一個(gè)關(guān)鍵問題主要是基于異常檢測的那些技術(shù),與先前基于手工簽名的檢測技術(shù)相比,其誤報(bào)率更高[4]。因此,對于這些技術(shù)來說,審計(jì)數(shù)據(jù)的處理和在線入侵的檢測比較困難,并且需要大量的訓(xùn)練數(shù)據(jù)。文獻(xiàn)[5]提出了一種結(jié)合了統(tǒng)計(jì)技術(shù)和自組織映射來檢測網(wǎng)絡(luò)中異常的分類方法(Statistical Techniques and Self-organizing Maps,STSM),其中主成分分析(Principal Component Analysis,PCA)和Fisher判別比用于特征選擇和噪聲消除,概率自組織映射用于將網(wǎng)絡(luò)事務(wù)分類為正?;虍惓?。文獻(xiàn)[6]提出了一種結(jié)合數(shù)據(jù)挖掘方法的混合技術(shù)(Hybrid Technique that combines Data Mining Approaches,HT-DMA)。該方法中,K-means聚類算法用于減少與每個(gè)數(shù)據(jù)點(diǎn)相關(guān)聯(lián)屬性的數(shù)量,再將支持向量機(jī)(Support Vector Machine,SVM)的徑向基函數(shù)(Radial Basis Function,RBF)用于異常網(wǎng)絡(luò)入侵檢測。文獻(xiàn)[7]提出了基于距離和的SVM 混合學(xué)習(xí)(Distance Sum-based SVM,DSSVM)方法,用于建模有效的IDS。在DSSVM中,獲得基于每個(gè)數(shù)據(jù)樣本與數(shù)據(jù)集中的聚類中心特征維度之間的相關(guān)性的距離和,并將SVM用作分類器。

        然而現(xiàn)有方法需要大量的訓(xùn)練數(shù)據(jù),并且與系統(tǒng)的學(xué)習(xí)過程相關(guān)的復(fù)雜性很高。因此提出一種基于改進(jìn)粗糙集屬性約簡和K-means 聚類的網(wǎng)絡(luò)入侵檢測方法(Improved Rough Set Attribute Reduction and optimizedK-means Clustering Approach for Network Intrusion Detection,IRSAR-KCANID)。所提方法首先基于改進(jìn)模糊粗糙集屬性約簡對數(shù)據(jù)集進(jìn)行預(yù)處理,優(yōu)化異常的入侵檢測特征,然后利用改進(jìn)K-means 聚類算法進(jìn)行入侵檢測特征分析和入侵范圍估計(jì)閾值估計(jì),并對網(wǎng)絡(luò)特征進(jìn)行分類;再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度,形成特征關(guān)聯(lián)影響量(Feature Association Impact Scale,F(xiàn)AIS)表,完成對異常網(wǎng)絡(luò)入侵的快速準(zhǔn)確檢測。主要創(chuàng)新體現(xiàn)在以下幾個(gè)方面:

        1)現(xiàn)有方法在入侵檢測數(shù)據(jù)訓(xùn)練方面耗時(shí)較多,提出的方法利用改進(jìn)模糊粗糙集屬性約簡對數(shù)據(jù)集進(jìn)行了預(yù)處理,優(yōu)化異常的入侵檢測特征,避免了對大量數(shù)據(jù)的訓(xùn)練,縮短了入侵檢測時(shí)間;

        2)現(xiàn)有大多數(shù)入侵檢測方法僅僅是發(fā)現(xiàn)攻擊行為,沒有對攻擊進(jìn)行有效的分類,提出的方法在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,利用改進(jìn)K-means 聚類算法進(jìn)行入侵檢測特征分析和入侵范圍估計(jì)閾值估計(jì),并對網(wǎng)絡(luò)特征進(jìn)行分類。

        3)在聚類結(jié)果的基礎(chǔ)上,根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度形成關(guān)聯(lián)影響量表,從而完成對異常網(wǎng)絡(luò)入侵的檢測。

        特征相關(guān)性實(shí)驗(yàn)結(jié)果表明,特征優(yōu)化聚類后的最小化測量特征關(guān)聯(lián)影響量表能在保證最大預(yù)測精度的前提下,最小化入侵檢測過程的復(fù)雜度并縮短完成時(shí)間。

        1 基于改進(jìn)粗糙集屬性約簡的數(shù)據(jù)集預(yù)處理

        由于原始數(shù)據(jù)往往包含隱含信息[8-9],本文利用改進(jìn)粗糙集屬性約簡(Improved Rough Set Attribute Reduction,IRSAR)將這些隱含信息提取出來,在保留原始特征的同時(shí)更好地表現(xiàn)數(shù)據(jù)特征。將網(wǎng)絡(luò)連接記錄表示為四元組FS=(U,At,V,f),其中:U為整個(gè)網(wǎng)絡(luò)數(shù)據(jù)集;At是一個(gè)非空的有限屬性集,t表示屬性集數(shù)量;表示屬性a域 集合;f=U×At表示信息函數(shù)。

        由于傳統(tǒng)的粗糙集理論只能處理離散屬性集,無法很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)[10-11],因此引入模糊理論,利用模糊粗糙集的信息增益率對網(wǎng)絡(luò)連接數(shù)據(jù)特征進(jìn)行自動選取。

        將引入模糊理論的網(wǎng)絡(luò)連接記錄表示為FIS=(U,C∪D,V,f),設(shè)B?C,?a∈C-B,C為條件屬性集,B為約簡的屬性集,D為決策屬性集,屬性a的信息增益率為:

        其中,GainRatlo表示增益率,GainRatlo(a,B,D)可用于衡量屬性a的重要程度,可以通過每次選擇增益率最大的特征進(jìn)行屬性選取,最終獲得的屬性集即為約簡的本征屬性集。IRSAR 的數(shù)據(jù)集預(yù)處理主要步驟如下,其中輸入為數(shù)據(jù)集X、條件屬性集C、決策屬性集D,輸出為約簡的屬性集B:

        1)清空B集合,計(jì)算GainRatlo(a,B,D),并篩選其最大值;

        2)如 果 maxGainRatlo(a,B,D) >0,則B←B∪{a},返回1);

        3)集合B為屬性約簡后的屬性集合。

        模糊等價(jià)關(guān)系是模糊粗糙集的核心,假如給定非空有限數(shù)據(jù)集X,X上的模糊等價(jià)關(guān)系R可以用關(guān)系矩陣Mr表示為:

        其中rij∈[0,1]是xi與xj的關(guān)聯(lián)值;xi和xj分別表示不同數(shù)據(jù)在同一屬性上的值,xi,xj∈X,模糊等價(jià)關(guān)系需要滿足自反、對稱和傳遞性,能夠?qū)崿F(xiàn)信息增益率對網(wǎng)絡(luò)連接數(shù)據(jù)特征屬性集進(jìn)行自動篩選,以獲得約簡的本征屬性集,從而有效提高入侵檢測算法的穩(wěn)定性。相較于經(jīng)典粗糙集理論只能處理離散屬性集的短板,改進(jìn)粗糙集屬性能夠獲得保留原始特征辨別能力的屬性子集,能夠很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)。

        2 特征分析與影響尺度閾值估計(jì)方法

        2.1 K-means 聚類及其改進(jìn)

        K-means 聚類算法采用評價(jià)指標(biāo)來度量距離的相似性[12-13],其主要思想體現(xiàn)為以下三點(diǎn):

        1)在樣本數(shù)據(jù)中,樣本數(shù)量為k,且為任意設(shè)設(shè)定,設(shè)定的樣本代表一個(gè)簇的初始中心或者均值;

        2)數(shù)據(jù)樣本與每個(gè)聚類中心之間的距離通常用歐氏距離公式計(jì)算,每個(gè)數(shù)據(jù)樣本根據(jù)計(jì)算結(jié)果被分配到最近的類;

        3)調(diào)整聚類中心并對得到的新類進(jìn)行再次計(jì)算,聚類準(zhǔn)則函數(shù)收斂的條件是聚類中心不再變化,即可終止對樣本數(shù)據(jù)的聚類調(diào)整,從而結(jié)束算法。

        改進(jìn)K-means 算法則針對初值選取敏感問題,算法中簇心的初始位置在算法開始時(shí)通過臨時(shí)指定,再通過樣本數(shù)據(jù)各維度的最大值和最小值計(jì)算,結(jié)合多次迭代來選取最佳的簇心,期間采用隨機(jī)梯度下降的方法來取代批量梯度下降以防止K-means 算法陷入局部最優(yōu)。假定h(θ)為所需要擬合的函數(shù),J(θ)為損失函數(shù),其函數(shù)形式分別表示為:其中:m表示訓(xùn)練集的數(shù)量,θ表示多次迭代計(jì)算所需要求取的值,X和Y為數(shù)據(jù)集,i表示迭代計(jì)數(shù),t為損失因子,參數(shù)個(gè)數(shù)表示為j。當(dāng)求解出θ時(shí)最終要擬合的函數(shù)h(θ)的值也相應(yīng)求得。

        損失函數(shù)也可以改寫為:

        其中cost(θ,(xt,yi))可表示為:

        此處損失函數(shù)所對應(yīng)的辨識訓(xùn)練集中每個(gè)樣本數(shù)據(jù)的隸屬度,對于每個(gè)樣本數(shù)據(jù)的損失函數(shù),通過對θ求偏導(dǎo)可以求出相應(yīng)的梯度,其中θ可以根據(jù)以下公式更新:

        在計(jì)算過程中θ可以通過迭代計(jì)算不斷更新,但如果學(xué)習(xí)效率設(shè)置過高則可能導(dǎo)致振蕩現(xiàn)象。因此可以引進(jìn)學(xué)習(xí)率α進(jìn)行改進(jìn),若假設(shè)f(α)=h(xk+αdk),其中當(dāng)前樣本點(diǎn)設(shè)置為xk,搜索方向設(shè)置為dk,則可得隨機(jī)梯度下降過程所尋找的f(α)最小值為:

        對學(xué)習(xí)率的函數(shù)導(dǎo)數(shù)的分析:若α=0,則有

        下降方向dk可以選負(fù)梯度方向dk=-?h(xk),從而使f'(0) >0。假如找到的α足夠大,并且使得f'(a)>0,則一定存在某個(gè)α,使得f'(α*) >0,其中α*即為改進(jìn)設(shè)置的學(xué)習(xí)率。

        改進(jìn)K-means 聚類算法工作步驟如下,輸入k(簇?cái)?shù)),輸出標(biāo)記好的k個(gè)簇集合。

        1)手動設(shè)定k個(gè)臨時(shí)簇心;

        2)在樣本數(shù)據(jù)每個(gè)向量的維度以及各自維度最大值和最小值選取簇心;

        3)根據(jù)選取的樣本數(shù)據(jù)Xi找出距離它最近的簇心,并把簇心向Xi方向移動;

        4)每次移動數(shù)據(jù)項(xiàng)時(shí)都乘以學(xué)習(xí)率α,其變化趨勢隨迭代次數(shù)增加而不斷減??;

        5)返回步驟2);

        6)對簇心進(jìn)行更新;

        7)直到簇心位置固定不變;

        8)根據(jù)數(shù)量以及標(biāo)記判別該簇正常與否。

        改進(jìn)后的K-means 算法對于初值選取要求有所降低,相較于原始算法簇心的初始位置可以在算法開始時(shí)臨時(shí)指定,無需進(jìn)行繁瑣的初值整定;此外,改進(jìn)算法在穩(wěn)定性方面也有一定的提升,因?yàn)閷W(xué)習(xí)率α的設(shè)置改進(jìn),可以避免因?qū)W習(xí)效率設(shè)置過高而導(dǎo)致的振蕩現(xiàn)象。

        2.2 入侵檢測特征分析與特征關(guān)聯(lián)影響尺度閾值估計(jì)

        2.2.1 入侵檢測特征分析

        網(wǎng)絡(luò)事務(wù)集包含的42 個(gè)特征可以分為連續(xù)和分類的值,為了便于優(yōu)化,需要將所有最初字母及連續(xù)數(shù)值轉(zhuǎn)換為分類。預(yù)處理的一組網(wǎng)絡(luò)事務(wù)根據(jù)其標(biāo)簽進(jìn)行分區(qū),使得正常事務(wù)是一組,拒絕服務(wù)(Denial of Service,DoS)攻擊事務(wù)是另一組。

        將字母數(shù)字值表示為數(shù)值,并將聯(lián)系續(xù)值表示為分類值,其具體步驟如下:

        1)考慮具有字母數(shù)字值的每個(gè)要素,然后列出所有可能的唯一值,并使用從1開始的增量索引列出它們;

        2)用適當(dāng)?shù)乃饕鎿Q值;

        3)考慮具有連續(xù)值的每個(gè)要素,然后將它們劃分為一組具有最小值和最大值的范圍,以便事件在所有這些范圍內(nèi)均勻分布。

        考慮結(jié)果正常交易集(Normal Trade Set,NTS)中的每個(gè)特征值集合fiv(NTS) 及其覆蓋百分比為fiv={fi(v1,c1),fi(v2,c2),…,fi(vj,cj)},v,c為特征量,然后,可以按照以下步驟中的描述執(zhí)行每個(gè)攻擊A的特征優(yōu)化:

        1)考慮交易集ts(Ak)表示攻擊類型Ak(假設(shè)為DoS攻擊)。

        2)對于每個(gè)特征fi(Ak),將所有值視為集合fiv(Ak)。創(chuàng)建大小為的空集,并根據(jù)其覆蓋百分比填充中的值,使得表示的特征值集的大小。

        4)此過程應(yīng)適用于攻擊Ak的網(wǎng)絡(luò)事務(wù)中設(shè)置的所有特征值。

        5)找出fiv(Ak)和之間的典型相關(guān)性。如果得到的典型相關(guān)性小于給定閾值或零,那么特征fi(Ak)可以被認(rèn)為是評估入侵范圍規(guī)模的最佳值。

        根據(jù)上述步驟中說明的過程,可以識別特定攻擊Ak的最佳特征。

        2.2.2 特征關(guān)聯(lián)影響尺度閾值估計(jì)

        通過聚合A的每一行來找到特權(quán)權(quán)重(將形成表示特權(quán)權(quán)重v),再通過A和v之間的乘法找到樞軸權(quán)重:

        u=A×v(10)

        那么特征分類值fivj的尺度閾值fas可以通過如下公式計(jì)算:

        特征分類值fivj和fi'vj'之間的fas可以表示為:

        其中:tvsk表示k交易價(jià)值集,|STVS|表示事務(wù)值集的總數(shù)。

        另外,每個(gè)交易價(jià)值集tvsi的特征關(guān)聯(lián)影響量表fais和faist閾值可以分別表示為:

        其中:valj∈V表示特征差值。

        每個(gè)交易價(jià)值faist的標(biāo)準(zhǔn)差需要進(jìn)一步測量集合,以估計(jì)faist閾值的上下限和挑戰(zhàn)黑洞(Challenge Collapsar,CC)閾值范圍。其中,cc閾值是faist的一個(gè)臨界值;下限為cc平均值與cc 標(biāo)準(zhǔn)差之間的差值,上限為cc 平均值與cc 標(biāo)準(zhǔn)差之和。閾值設(shè)定的目的在于對以上三種范圍進(jìn)行閾值額定,與此對應(yīng)的范圍分別為不相關(guān)性、弱相似性和強(qiáng)相似性。發(fā)現(xiàn)的正常記錄總數(shù)為測試數(shù)據(jù)記錄的總和,估算標(biāo)準(zhǔn)偏差表示如下:

        faist系列可以探索范圍如下:

        faist范圍的下限是:

        faist范圍的上限是:

        當(dāng)且僅當(dāng)fais(nt)<faistl時(shí),網(wǎng)絡(luò)事務(wù)nt可以說是安全的。

        通過對網(wǎng)絡(luò)中不同標(biāo)注下數(shù)據(jù)進(jìn)行處理,結(jié)合模糊等價(jià)關(guān)系矩陣,可獲得輸入信號參數(shù)入侵特征閾值的參考指標(biāo)集如下:

        通過上式構(gòu)建Mg關(guān)聯(lián)模型,并通過不斷訓(xùn)練改變參數(shù)個(gè)數(shù)與入侵特征閾值,獲取異常度量關(guān)聯(lián)矩陣:

        其中m表示參數(shù)個(gè)數(shù),則有入侵檢測特征關(guān)聯(lián)影響閾值為:

        2.3 數(shù)據(jù)集特征相關(guān)性分析并聚類

        考慮兩個(gè)多維數(shù)據(jù)集X和Y,并且利用基于標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)的典型相關(guān)分析(Canonical Correlation Analysis,CCA),利用二階的自協(xié)方差和互協(xié)方差矩陣,建立數(shù)據(jù)集之間的線性關(guān)系。該技術(shù)基于兩個(gè)基礎(chǔ),每個(gè)基礎(chǔ)用于數(shù)據(jù)集X和Y,其中互相關(guān)矩陣變?yōu)閷蔷€,并且對角線的相關(guān)性最大化。

        研究用于實(shí)現(xiàn)規(guī)范相關(guān)的參數(shù),其中,X和Y應(yīng)該相等;然而,假設(shè)平均值為零,數(shù)據(jù)向量x∈X和y∈Y可以具有變化的尺寸。使用特征向量方程求解規(guī)范相關(guān)計(jì)算:

        這里,Cxx、Cxy、Cyy、Cyx均為交叉協(xié)方差矩陣,其中r2本征值是規(guī)范相關(guān)的平方,wx和wy是歸一化CCA 基矢量。方程的解等價(jià)于非零值,其數(shù)量等于x和y,表示考慮具有較小維數(shù)值的數(shù)據(jù)向量。當(dāng)時(shí),式(21)被轉(zhuǎn)換為:

        這些方程描述了交叉協(xié)方差矩陣Cxy的奇異值分解:

        這里U和V表示包括奇異向量ui和vi的正交平方矩陣。wx和wy表示傳遞規(guī)范相關(guān)性的基礎(chǔ)向量。矩陣U和V以及ui和vi的向量維度通常根據(jù)x和y數(shù)據(jù)向量的維度變化而變化。

        偽對角矩陣Q由對角矩陣D和附加零矩陣構(gòu)建,這將使得矩陣Q與x,y各維度兼容。如果Cxy具有滿秩,則非零奇異值基本上是非零規(guī)范相關(guān),其數(shù)量小于x和y數(shù)據(jù)矢量維度中的任何一個(gè)。

        3 特征關(guān)聯(lián)影響量表的入侵檢測

        測量特征關(guān)聯(lián)支持度量的方法是將給定訓(xùn)練集的網(wǎng)絡(luò)事務(wù)記錄和在這些網(wǎng)絡(luò)事務(wù)中使用的特征分類值視為兩個(gè)獨(dú)立集合,并進(jìn)一步構(gòu)建這兩者之間的雙工圖[14]。所提入侵檢測基于以下理想性假設(shè)和操作步驟實(shí)施。

        3.1 理想性假設(shè)

        特征{f1,f2,…,fn?fi={fiv1,fiv2,…,fivm}}是對特定攻擊Ak是最佳的分類值,通過應(yīng)用于網(wǎng)絡(luò)事務(wù)集T(Ak)的典型相關(guān)分析來選擇。這里T(Ak)是給定訓(xùn)練集的特定攻擊Ak的網(wǎng)絡(luò)事務(wù)記錄集,使 得 :T={t1,t2,…,tn?ti={val(f1),val(f2),…,val(fi),val(fi+1),…,val(fn)}}屬于每個(gè)網(wǎng)絡(luò)事務(wù)特征的分類值集合,稱為事務(wù)值集合tvs,并且將所有事務(wù)值集合稱為STVS。在上面的描述中,val(fi)可以被定義為val(fi)∈{fiv1,fiv2,…,fivm},此后,術(shù)語特征指的是特征的當(dāng)前分類值。當(dāng)且僅當(dāng)(val(fi),val(fj))∈tvsk時(shí),對于兩個(gè)特征val(fi)和val(fj),val(fi)與val(fj)連接。

        3.2 方法與步驟

        本文通過示例探索該過程,將STVS要素的發(fā)散向量表示為V={val1,val2,…,val8}。在 表1 和 圖2中,每個(gè)元素{val1,val2,…,val8}可以是fivj,使得{fivj?i∈[1,2,…,n] ∧j∈[1,2,…,m]}。

        在檢測valk的每個(gè)特征分類值fivj與網(wǎng)絡(luò)事務(wù)記錄的關(guān)聯(lián)過程中,需要在STVS和特征分類值之間建立雙工圖。

        形成雙重圖可認(rèn)為圖關(guān)系是二分的,并且在特征和事務(wù)值集之間形成邊。此圖中的每個(gè)關(guān)系都表示特征對網(wǎng)絡(luò)事務(wù)的作用[15]。當(dāng)且僅當(dāng)該特征f是tvs的一部分時(shí),交易值集合tvs和特征f之間的邊緣才存在可能,這可以表示為etvs←f?f∈tvs。

        表1 STVS和特征分類值之間關(guān)聯(lián)的二進(jìn)制表示Tab.1 Binary representation of correlation between STVS and feature classification value

        圖1 所示為加權(quán)無向圖,其中特征值作為特征值之間的頂點(diǎn)和邊。

        圖1 計(jì)數(shù)為8的分類值集示例加權(quán)圖Fig.1 Weighted graph example of classification value set with counting of 8

        任意兩個(gè)特征val(f1),val(f2)之間的邊將按如下方式加權(quán):

        在上面的等式中,ctvs表示事務(wù)計(jì)數(shù),其中包含兩個(gè)特征val(f1)、val(f2)。然后特征val(f1)、val(f2)之間的邊緣重量可以如下測量:

        在構(gòu)建加權(quán)圖的過程中,本文認(rèn)為當(dāng)且僅當(dāng)ctvs≥1時(shí),任何兩個(gè)特征之間存在邊際。

        在如圖2 所示的雙工圖中,虛線表示連接元素屬于雙工圖的相同級別,實(shí)線表示特征值和事務(wù)值集之間的關(guān)系。

        圖2 STVS和V之間的雙工圖Fig.2 Duplex diagram between STVS and V

        如果在tvs1中存在稱為val1的特征分類值fivj,則val1和tvs1之間的連接的權(quán)重將是val1與在加權(quán)中定義的tvs1的每個(gè)特征分類值{fivj?fivj∈tvs1}之間邊的權(quán)重的總和圖形[16]。

        此外,將形成矩陣A,表示交易值集和特征分類值之間的雙重圖的邊緣權(quán)重。然后獲得A',表示矩陣A的轉(zhuǎn)置[17]。

        將STVS視為數(shù)據(jù)庫,并將其描述為雙工圖而不會丟失信息。設(shè)STVS={tvs1,tvs2,…,tvs6}是事務(wù)值集的列表,V={val1,val2,…,val8}是相應(yīng)的特征集分類值。那么,顯然STVS相當(dāng)于雙工圖DG=(STVS,V,E)。其中,特征值分類值能夠跟隨通道業(yè)務(wù)變化而動態(tài)調(diào)整,從而達(dá)到辨識策略的修正,實(shí)現(xiàn)通信網(wǎng)絡(luò)入侵的在線監(jiān)測。

        這里,E={tvsi,vali):vali∈tvsi,tvsi∈STVS,vali∈V}。

        假設(shè)給定雙工圖的交易值集,作為樞軸并且特征分類值作為純特權(quán),則可以測量樞軸和特權(quán)值[18-19]。如果在交易值集合中存在特征分類值val1,那么val1和tvs1之間的連接的權(quán)重,將是val1與電視的每個(gè)特征分類值{vali?vali∈tvs1}之間的邊緣權(quán)重的總和。這些權(quán)重是邊緣權(quán)重,用加權(quán)圖(Weighted Graph,WG)表示。根據(jù)2.2 節(jié)所述入侵范圍估計(jì)方法,對特征關(guān)聯(lián)影響尺度閾值進(jìn)行估計(jì)。

        所提方法首先對數(shù)據(jù)集進(jìn)行預(yù)處理,優(yōu)化異常的入侵檢測特征,然后利用改進(jìn)K-means 聚類算法估計(jì)入侵范圍閾值并對網(wǎng)絡(luò)特征進(jìn)行最終分類;再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索特征關(guān)聯(lián)影響尺度,形成特征關(guān)聯(lián)影響量表,完成對異常網(wǎng)絡(luò)入侵的檢測。其具體流程如圖3所示。

        圖3 基于改進(jìn)K-means結(jié)合關(guān)聯(lián)影響尺度分析的入侵檢測方法流程Fig.3 Flowchart of intrusion detection method based on improved K-means and association impact scale analysis

        4 實(shí)驗(yàn)結(jié)果與分析

        入侵檢測評估程序生成的數(shù)據(jù)用于構(gòu)建原始KDD-99 數(shù)據(jù)集,包含接近4 900 000 個(gè)唯一連接向量,其中每個(gè)連接向量由41個(gè)特征組成,34個(gè)是連續(xù)特征,7個(gè)是離散的特征。此外,本文還利用CICIDS2017 通用數(shù)據(jù)集進(jìn)行了對比實(shí)驗(yàn),CICIDS2017 數(shù)據(jù)集是加拿大網(wǎng)絡(luò)安全研究所于2017 年開源的入侵檢測和入侵預(yù)防數(shù)據(jù)集,通過攻擊本地網(wǎng)絡(luò)來收集流量數(shù)據(jù),在一段時(shí)間內(nèi)收集正常流量和常見的攻擊流量,設(shè)計(jì)真實(shí)攻擊場景,具有一定的通用性和應(yīng)用性。在本文的實(shí)驗(yàn)中模擬的攻擊屬于下面描述的四種類型中的任何一種。

        1)DoS。DoS 攻擊是一種攻擊類型,攻擊者通過消耗計(jì)算機(jī)或內(nèi)存資源來阻止對有效用戶的訪問,從而使系統(tǒng)無法處理有效請求。DoS 攻擊的例子很多,如:teardrop、neptune、ping of death(pod)、mail bomb、back、smurf和land。

        2)用戶到根式攻擊(Users-to-Root attack,U2R)。根攻擊是一種攻擊類型,攻擊者可以訪問系統(tǒng)中的有效用戶賬戶,并根據(jù)現(xiàn)有的系統(tǒng)弱點(diǎn)獲取對系統(tǒng)根組件的訪問權(quán)限。有幾種類型的U2R攻擊,例如:負(fù)載模塊、緩沖區(qū)溢出、rootkit、purl。

        3)遠(yuǎn)程到本地攻擊(Remote-to-Local attack,R2L)。遠(yuǎn)程到本地攻擊是一種攻擊,其中沒有賬戶的攻擊者根據(jù)現(xiàn)有的計(jì)算機(jī)漏洞在本地訪問合法用戶賬戶。R2L 攻擊類型有:phf、warezmaster、warezclient、spy、imap、ftp_write、multihop 和guess_passwd。

        4)探測攻擊(Probing attack,PROBE)。探測攻擊是一種攻擊類型,攻擊者會避開安防系統(tǒng)收集網(wǎng)絡(luò)中計(jì)算機(jī)上的數(shù)據(jù)。PROBE 攻擊類型有:nmap、satan、ipsweep 和portsweep。在NSL-KDD數(shù)據(jù)集中,考慮的協(xié)議是TCP、UDP和ICMP。

        本實(shí)驗(yàn)基于Intel Core i5-5430M CPU @ 2.70 GB,4 GB RAM 計(jì)算機(jī)平臺,并在Linux 系統(tǒng)中采用C 程序?qū)?shù)據(jù)集進(jìn)行預(yù)處理操作,同時(shí)采用Java執(zhí)行數(shù)據(jù)分類和入侵檢測,采用粗糙集工具RSES(Rough Set Exploration System)。實(shí)驗(yàn)通過與文獻(xiàn)[5]和文獻(xiàn)[7]所提方法(即STSM 和DSSVM)進(jìn)行對比,從入侵檢測精度以及檢測完成時(shí)間等方面比較了所提入侵檢測方法的可行性和先進(jìn)性。同時(shí)在原始KDD-99 數(shù)據(jù)集實(shí)驗(yàn)基礎(chǔ)上,增加了CICIDS2017 通用數(shù)據(jù)集的對照實(shí)驗(yàn),以驗(yàn)證所提方法的普適性。其中,假設(shè)網(wǎng)絡(luò)中發(fā)生的真實(shí)的攻擊事件數(shù)量M,IDS漏報(bào)的事件數(shù)量為N,在基于原始KDD-99數(shù)據(jù)集的實(shí)驗(yàn)中,通過數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為54 675條,測試記錄24 533 條;基于CICIDS2017 通用數(shù)據(jù)集的實(shí)驗(yàn)中,通過數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為53 687 條,測試記錄23 645 條,實(shí)驗(yàn)數(shù)據(jù)分布類型和結(jié)果通過多次處理和測試得到。衡量系統(tǒng)性能最為重要的因素有檢測率(True Positive,TP)、誤報(bào)率(False Positive,F(xiàn)P)和漏報(bào)率(False Negative,F(xiàn)N)。異常網(wǎng)絡(luò)入侵檢測精度(Precision)是入侵檢測方法的主要度量指標(biāo),分析得出了入侵檢測的精確度度量方法:

        其中:TP為正確識別為入侵事件與所有入侵的事件數(shù)的比值,F(xiàn)P為錯誤識別為入侵事件與所有非入侵的事件數(shù)的比值,F(xiàn)N為存在漏報(bào)的事件數(shù)與所有非入侵的事件數(shù)的比值。

        實(shí)驗(yàn)將提出的方法與STSM 和DSSVM 在KDD-99 數(shù)據(jù)集上進(jìn)行了對比,其結(jié)果如圖4所示。

        圖4 KDD-99數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測精度的性能分析Fig.4 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on KDD-99 dataset

        從圖4中可以看出,提出的方法在閾值下限和臨界閾值附近對異常網(wǎng)絡(luò)入侵的檢測精度優(yōu)于STSM 和DSSVM 方法,其檢測精度均在97%以上,但在閾值上限處的精度則比另外兩種方法稍差。

        同時(shí),在同樣的實(shí)驗(yàn)條件下,將所提方法與STSM 和DSSVM在CICIDS2017數(shù)據(jù)集上也進(jìn)行對比,三者的閾值設(shè)定為各自在訓(xùn)練集重構(gòu)誤差的均值。

        由圖5 可知,在閾值下限附近所提方法對入侵檢測精度明顯優(yōu)于STSM 和DSSVM 方法,且在臨界閾值條件下也保持了較好的精度優(yōu)勢,在閾值上限條件下,三種方法大體相同,均在99%以上。

        圖5 CICIDS2017數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測精度的性能分析Fig.5 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on CICIDS2017 dataset

        在不同標(biāo)記下的不同場景典型相關(guān)性實(shí)驗(yàn)中,對時(shí)間復(fù)雜度進(jìn)行了實(shí)驗(yàn)分析,提出的方法實(shí)驗(yàn)結(jié)果如圖6所示。

        圖6 在不同的典型相關(guān)閾值下IRSAR-KCANID的入侵檢測完成時(shí)間Fig.6 Intrusion detection completion time of IRSAR-KCANID under different typical correlation thresholds

        由圖6可知,由于cc閾值存在變化,所需要的時(shí)間復(fù)雜度也是可縮放的。當(dāng)cc 閾值較小時(shí),所需要的完成時(shí)間較少,如cc 閾值為0.03時(shí),僅需2.209 s便可完成入侵檢測;隨著cc閾值逐漸增大,所需要的完成時(shí)間逐漸延長,當(dāng)cc 閾值接近0.047時(shí),完成時(shí)間趨于穩(wěn)定時(shí)間11.6 s左右。

        此外,實(shí)驗(yàn)將所提方法與STSM 與DSSVM 在不同數(shù)據(jù)集中的不同屬性數(shù)量下入侵檢測時(shí)間復(fù)雜度方面的對比,其實(shí)驗(yàn)結(jié)果如表2所示。

        如表2 所示,在不同數(shù)據(jù)集的同一屬性數(shù)量水平下,不同數(shù)據(jù)集對入侵檢測完成時(shí)間幾乎沒有影響。以KDD-99 為例,STSM 與DSSVM 方法比所提的IRSAR-KCANID 方法入侵檢測時(shí)間更長。當(dāng)屬性數(shù)量為90時(shí),STSM 與DSSVM 方法時(shí)間分別為0.115 s 和0.095 s,而提出的方法僅為0.06 s;當(dāng)屬性數(shù)量為250時(shí),STSM 與DSSVM 方法時(shí)間分別為0.945 s 和0.935 s,提出的方法為0.324 s,大約節(jié)省60%的網(wǎng)絡(luò)入侵檢測時(shí)間;在CICIDS2017 數(shù)據(jù)集中,當(dāng)屬性數(shù)量為70時(shí),STSM方法時(shí)間為0.077 s,DSSVM 與所提方法的時(shí)間為0.033 s;當(dāng)屬性數(shù)量為230時(shí),STSM 與DSSVM 方法時(shí)間分別為0.943 s和0.893 s,而所提方法所需時(shí)間僅為0.535 s,相比于較快的DSSVM 方法能節(jié)省大約0.0363 s 入侵檢測時(shí)間。由此可見,在不同的數(shù)據(jù)集中,入侵檢測方法在屬性數(shù)量越大時(shí),所需要的入侵檢測事例越多,所提方法相對于其他方法在不同數(shù)據(jù)集中對于入侵檢測所節(jié)約的時(shí)間成本越明顯。

        表2 不同屬性數(shù)量下入侵檢測完成時(shí)間對比 單位:sTab.2 Comparison of intrusion detection completion time complexity with different attribute numbers unit:s

        5 結(jié)語

        本文提出的IRSAR-KCANID 簡化了特征分析過程,使用基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),同時(shí)引入IRSAR 對數(shù)據(jù)集進(jìn)行預(yù)處理,采用改進(jìn)K-means 聚類方法對數(shù)據(jù)特征進(jìn)行聚類分析。實(shí)驗(yàn)結(jié)果表明,規(guī)范相關(guān)分析對于選擇用于訓(xùn)練的網(wǎng)絡(luò)事務(wù)的最優(yōu)屬性十分重要,提出的方法在特征相關(guān)聚類的基礎(chǔ)上,結(jié)合關(guān)聯(lián)影響尺度進(jìn)行入侵檢測,在保證最大化檢測精度的前提下,最小化了過程復(fù)雜性和完成時(shí)間;但在cc 閾值上限情況下,提出的方法檢測精度比其他方法略差,因此提出的方法在適用性方面還有待進(jìn)一步拓展。

        猜你喜歡
        約簡聚類閾值
        小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
        基于二進(jìn)制鏈表的粗糙集屬性約簡
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        實(shí)值多變量維數(shù)約簡:綜述
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        基于模糊貼近度的屬性約簡
        室內(nèi)表面平均氡析出率閾值探討
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        日出白浆视频在线播放| 国产精品综合色区av| 中文字幕 人妻熟女| 国模私拍福利一区二区| 国产黑色丝袜一区在线| 欧美日本道免费二区三区| 国产成人aa在线观看视频| 最新国产精品精品视频| 粗大挺进孕妇人妻在线| 高清国产亚洲精品自在久久| 亚洲激情综合中文字幕| 亚洲av日韩一区二区| 国产69久久精品成人看| 亚洲国产天堂久久综合网| 亚洲色丰满少妇高潮18p| 日本韩无专砖码高清| 五月丁香六月综合激情在线观看| 麻豆国产成人AV网| 亚洲一区二区三区国产精品视频| 大陆少妇一区二区三区| 日韩亚洲精品国产第二页| 成人无码α片在线观看不卡| 男人边吻奶边挵进去视频| 狼人国产精品亚洲| 国产精品久久久久亚洲| 国产精品一区二区黄色片| 男女射精视频在线观看网站| 午夜无码一区二区三区在线观看| 寂寞少妇做spa按摩无码| 国产一女三男3p免费视频 | 国产精品无码制服丝袜| 亚洲综合另类小说色区| 久久精品国产亚洲av蜜臀| 日韩精品一区二区三区毛片| 国产女主播在线免费观看| 男女做那个视频网站国产| 国产人妻鲁鲁一区二区| 98久9在线 | 免费| 久久精品国产91久久性色tv | 天天色天天操天天日天天射| 一本色道久久88综合日韩精品|