亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信息增益和粗糙集的入侵檢測方法

        2020-04-18 13:15:10任學臻
        計算機應用與軟件 2020年4期
        關鍵詞:實驗檢測信息

        任學臻 張 永

        (遼寧師范大學計算機與信息技術學院 遼寧 大連 116081)

        0 引 言

        隨著網(wǎng)絡的迅速發(fā)展,網(wǎng)絡環(huán)境都很依賴網(wǎng)絡信息的安全性。如果網(wǎng)絡環(huán)境不安全,會導致許多問題,諸如隱私泄露,資源盜用等,這將給人們的工作生活帶來許多的損失,因此提高互聯(lián)網(wǎng)的網(wǎng)絡信息安全是當務之急,網(wǎng)絡入侵檢測系統(tǒng)應運而生,它是維護網(wǎng)絡信息安全的有效手段。

        網(wǎng)絡入侵通常分為非法訪問信息、修改信息和破壞用戶系統(tǒng)[1]。而當下保護計算機使之不受到網(wǎng)絡攻擊的最安全的方法就是進行網(wǎng)絡入侵檢測。網(wǎng)絡入侵檢測分為誤用檢測和異常檢測兩種,誤用檢測對攻擊的突變無法較好地識別,只能去檢測已知攻擊,沒有實際應用價值;而異常檢測不需要先驗知識,雖然檢測率略低,但是可以檢測到一些全新的或者突變的入侵攻擊行為,已成為目前該領域的主要研究方向[2-3]。

        此外,入侵檢測的數(shù)據(jù)集太大,這些數(shù)據(jù)往往是高維的,每個屬性和屬性之間都有相關性和冗余性。這將對入侵檢測的效率產(chǎn)生很大影響,導致精度降低,因此大多數(shù)研究工作都對數(shù)據(jù)進行了預優(yōu)化。文獻[4]提出了一種使用深度神經(jīng)網(wǎng)絡(DNN)的新型入侵檢測系統(tǒng),構建DNN結構的參數(shù)用于概率的特征向量訓練,再利用深度置信網(wǎng)絡(DBN)的無監(jiān)督預訓練來初始化參數(shù),提高了檢測的精度。文獻[5]提出了一種基于改進量子粒子群算法(IQPSO)和改進差分算法(IDE)相融合的算法,將該算法應用于支持向量機的參數(shù)優(yōu)化,設計了對應網(wǎng)絡入侵檢測的算法和模型。文獻[6]提出了一種適應大樣本集的網(wǎng)絡入侵檢測算法,該算法分成離線和在線兩個階段,離線階段構建樣本集的聚簇索引,在線階段采用聚簇索引搜索得到最近鄰,再利用KNN算法對大樣本集分類。文獻[7]提出了基于改進的進化神經(jīng)網(wǎng)絡建立的混合入侵檢測模型,采用改進的進化神經(jīng)網(wǎng)絡作為檢測引擎,彌補了遺傳算法中實數(shù)編碼全局尋優(yōu)能力差的缺陷,進而提高了神經(jīng)網(wǎng)絡的分類能力。文獻[8]介紹了一種使用深度置信網(wǎng)絡(DBN)和概率神經(jīng)網(wǎng)絡(PNN)的入侵檢測方法,先利用DBN的非線性學習能力將高維數(shù)據(jù)轉(zhuǎn)化成低維數(shù)據(jù),再利用粒子群優(yōu)化算法優(yōu)化每層隱藏節(jié)點數(shù)量,最后使用PNN分類。

        本文提出一種信息增益和粗糙集相結合的屬性簡約算法,并將其應用到入侵檢測的特征提取階段[9]。該算法首先使用信息增益技術對數(shù)據(jù)進行第一次的簡約,簡單地刪除冗余屬性,然后再利用粗糙集理論(Rough Set Theory,RST)從數(shù)據(jù)中提取分明函數(shù),求得簡約后的屬性。該方法可以避免生成過多的分明矩陣,這樣不僅可以保證各屬性相互獨立且不會陷入局部最優(yōu)的情況,更好地避免數(shù)據(jù)中存在過多的冗余屬性,同時可有效減少信息損失,加快收斂速度。

        1 模型架構設計

        本文設計了一種將信息增益和粗糙集相結合的屬性簡約算法,并將其應用于基于隨機森林的網(wǎng)絡入侵檢測模型中,可以較好地檢測到系統(tǒng)中的每一類惡意入侵行為。該模型采用信息增益算法和粗糙集理論來進行屬性簡約,最后使用相應分類器進行分類,得出結果,檢測模型架構如圖1所示。

        圖1 入侵檢測系統(tǒng)架構

        主要模塊如下:

        (1) 預處理模塊。因為收集到的原始數(shù)據(jù)過于復雜,所以要對原始數(shù)據(jù)進行數(shù)字化和離散化的處理,然后再將離散化后的數(shù)據(jù)傳輸?shù)綄傩院喖s模塊。離散化主要是因為粗糙集不能處理連續(xù)的數(shù)據(jù)。本文采用數(shù)據(jù)歸一化來實現(xiàn)對數(shù)據(jù)的預處理,使數(shù)據(jù)和數(shù)據(jù)之間不會存在較大的差值,使所有數(shù)據(jù)的均值更接近于0。

        (2) 屬性簡約模塊。信息增益能通過統(tǒng)計每個屬性在每個類別中出現(xiàn)的個數(shù),計算每個屬性對每個類別的信息增益,簡單地篩選掉一些冗余屬性。粗糙集理論能處理不精確、非完整的信息,可以對大量、無規(guī)律的數(shù)據(jù)進行分析、推理,并能在過程中挖掘出潛在規(guī)則,對屬性進行簡約,得到最終的數(shù)據(jù)集。兩者結合后獲取最優(yōu)的數(shù)據(jù)子集。

        (3) 分析檢測模塊。分析檢測過程分為訓練階段和測試階段。在訓練階段,對隨機森林分類器進行參數(shù)尋優(yōu),找到最優(yōu)參數(shù),得到效率更高的分類器。在測試階段,對數(shù)據(jù)進行檢測,得到結果。

        2 算法設計

        2.1 熵與信息增益

        熵(Entropy)是信息論中的一個重要概念。熵代表能量在空間中的分布是否均勻,能量分布越不均勻,熵就越小,反之熵越大。Shannon最早將熵應用到信息處理研究中,提出了"信息熵”的概念。信息熵其實就是將信息量化,是衡量一個隨機變量取值的不確定性程度[10]。

        信息增益(Information Gain,IG)是信息論中的一個重要概念,被廣泛應用于機器學習領域。對于數(shù)據(jù)分類來說,信息增益是通過統(tǒng)計每個屬性在各個類別中是否出現(xiàn)的數(shù)量來計算該屬性對每個類別的信息增益。

        令向量X和Y分別表示樣本屬性(X1,X2,…,Xm)以及類別屬性(Y1,Y2,…,Yn)。對于給定的屬性X與相關聯(lián)的類別屬性Y之間的信息增益。相關公式如下:

        IG(Y,X)=H(Y)-H(Y|X)

        (1)

        (2)

        (3)

        式中:IG(Y,X)表示屬性X對類別Y的信息增益,H(Y)是Y的熵,H(Y|X)是條件熵。在本實驗中X為數(shù)據(jù)的特征項,而Y值表示類別。

        2.2 粗糙集理論

        粗糙集理論是Pawlak[11]最早提出的,這是一種應用在數(shù)學領域的方法。其具有強大的數(shù)據(jù)分析及推理能力,可以用來刪除冗余屬性,因此也廣泛應用于數(shù)據(jù)簡約、決策規(guī)則或知識提取等問題上。屬性約簡是粗糙集理論的核心問題之一。粗糙集的描述方法有兩種:一種是代數(shù)描述,一種是信息描述。粗糙集的代數(shù)描述是通過引入上近似集和下近似集來進行的[12]。

        粗糙集的信息描述則是假定一個信息系統(tǒng),可表示為一個四元組S=(U,A,V,f)。設U為論域,代表元素的非空有限集合;A為屬性集合,A=(C∪D),C稱為條件屬性集,D稱為決策屬性集;V=∪Va(a∈A)是信息系統(tǒng)中所有屬性值的集合,Va則是屬性a的值域;f:U×A→V是一個函數(shù),它為每個元素的每個屬性進行賦值,即?a∈A,x∈U,f(x,a)∈Va。

        2.3 IG和RST相結合的屬性簡約方法

        網(wǎng)絡入侵檢測數(shù)據(jù)過于龐大,其中冗余屬性過多會對分類產(chǎn)生影響,會耗費大量的時間和精力,不僅影響準確性,還會影響分類的有效性。而且,在使用粗糙集對數(shù)據(jù)進行屬性簡約時會產(chǎn)生分明矩陣,這必然會造成時間和空間上大量的開銷。因此,本文提出了信息增益和粗糙集相結合的屬性簡約算法,可以減少檢測系統(tǒng)時間復雜度,提高檢測效率。首先,通過信息增益技術,先將屬性中重要性較小的部分屬性刪除,即先求出網(wǎng)絡入侵數(shù)據(jù)中各個屬性的信息增益,此時需要設置一個閾值,將每一個屬性所求出的信息增益與閾值相比較,如果其信息增益大于最先設定的閾值,則保留該屬性。這里使用信息增益對入侵數(shù)據(jù)的屬性進行相關分析,可減小屬性簡約的復雜度。利用粗糙集理論進行特征選擇時,中間環(huán)節(jié)會產(chǎn)生分明矩陣,這會造成時間和空間上的大量開銷。

        在本文的算法中,信息增益先對數(shù)據(jù)集進行特征提取,構造屬性的分明函數(shù),中間沒有矩陣的生成,也避免了數(shù)組元素的存取,這樣就會節(jié)省很多時間和空間,提高了算法的效率。在該算法進行屬性簡約的過程中,首先計算網(wǎng)絡入侵數(shù)據(jù)集中每個屬性的信息增益,設置閾值T,如果屬性得到的信息增益大于閾值T,則保留該屬性,否則刪除該屬性。從而獲取刪除后的新的數(shù)據(jù)子集,然后再提取分明函數(shù)f(x)=(1,2,3,…,n),最后求得Λf(x)最小析取范式,得到屬性簡約。本文提出的屬性簡約算法描述如算法1所示。

        算法1IG-RST屬性簡約

        輸入:入侵檢測數(shù)據(jù)集S=(U,A,V,f),其中A=C∪D,C和D分別為條件屬性集和決策屬性集,信息增益閾值T。

        輸出:數(shù)據(jù)集S=(U,A,V,f)的屬性約簡f′。

        1.Pro=C;

        //這里C是條件屬性集

        2. For eacht∈Pro

        計算條件屬性t的信息增益IG(t)

        3. 把t∈C按IG(t)值從小到大排序,并記為{ti};

        //屬性個數(shù)為n,i=1,2,…,n

        4. Fori←1 ton

        5. IfIG(ti)

        6.Pro←Pro-{ti};

        //Pro中為信息增益處理后留下的屬性集

        7. End If

        8. End For

        9. 從Pro中提取分明函數(shù)f(k);

        //k為對象個數(shù),k=1,2,…,m

        10.f′=Λf(k);

        11. 輸出f′

        //f′為該決策表的屬性約簡

        2.4 隨機森林

        隨機森林[13]是由Leo Breiman提出的基于決策樹的一種集成學習算法,因不像別的集成由多種不同分類器構成,其集成的基分類器為決策樹,隨機森林因此得名。決策樹本身就是一種分類器,在各個領域里應用廣泛,決策樹進行分類時要進行剪枝處理,直到無法剪枝,則就建立好了一個決策樹分類器。

        隨機森林是一個集成學習模型,但它的基分類器都是決策樹,如圖2所示,當輸入網(wǎng)絡入侵檢測數(shù)據(jù)時,最終的分類結果是集成學習算法常規(guī)投票決定的。其基本原理是對參與分類的每一個決策樹分類器進行投票。因此,隨機森林分類器就出現(xiàn)了一個參數(shù)的設定,就是選擇決策樹分類器的多少。隨機森林在降噪處理上體現(xiàn)出了杰出的性能,異常值處理上具有不錯的容忍性,可以對高維數(shù)據(jù)分類有著較好的延展性和并行性,優(yōu)于其他集成分類器。

        圖2 隨機森林的算法圖解

        3 實驗結果與分析

        本實驗仿真環(huán)境為MATLAB 7.12.0(R2011a),內(nèi)存為4 GB,處理器為Intel(R)Core(TM) i3-4160 CPU 3.60 GHz,系統(tǒng)為Windows 7。本文實驗數(shù)據(jù)集采用美國Lincoln實驗室的KDD CUP 99數(shù)據(jù)集[14],該數(shù)據(jù)集包括了網(wǎng)絡中的5 209 460條入侵數(shù)據(jù),每條數(shù)據(jù)包括42個屬性。數(shù)據(jù)共分為5大類:Normal,DoS,Porbe,U2R,R2L,其中Normal為正常數(shù)據(jù),其他4種為攻擊數(shù)據(jù)。本文僅采用的KDD Cup 99的10%的訓練數(shù)據(jù)集進行實驗,其分布以及標識類型如表1所示。

        表1 KDDup99的10%入侵檢測數(shù)據(jù)集中的 五大攻擊的標識類型及分布

        如表1所示,Normal為1類,其余四種攻擊類型分別為2、3、4、5類。本文的評價標準為混淆矩陣、精度(Precision)、召回率(Recall)、虛報率(FPR)、準確率(Accuracy),其中混淆矩陣如表2所示,其他性能指標也可以通過混淆矩陣求得,公式詳見表3。

        表2 混淆矩陣

        表3 相關公式

        實驗先對數(shù)據(jù)進行離散化處理和歸一化處理,然后進行屬性簡約,最后利用隨機森林進行分類檢測。經(jīng)過對隨機森林分類器的參數(shù)k進行尋優(yōu)分析,實驗結果如圖3和圖4所示,本文選擇k=10為最終實驗參數(shù)。

        圖3 不同參數(shù)k下的準確率

        圖4 不同參數(shù)k下的隨機森林的運行時間

        在本文的實驗中,先利用信息增益將屬性簡約,設置閾值T=1.2,獲得子集,再利用粗糙集的可分明矩陣對子集進行簡約獲得最終的子集。子集簡約后得到如下12個特征:2,4,6,10,24,25,29,31,35,36,39,40。由于數(shù)據(jù)集中U2R和R2L數(shù)據(jù)較少,我們首先將數(shù)據(jù)分為少數(shù)類和多數(shù)類,再運用本文提出的算法進行驗證。結果表明,屬性12、23和32對少數(shù)類有一定的影響,因此實驗最終采用了15個特征:2,4,6,10,12,23,24,25,29,31,32,35,36,39,40。本實驗采用了十則交叉驗證的方法對數(shù)據(jù)集進行10次驗證,最后取10次交叉驗證的均值,求得最終結果,以保證實驗評估的準確性。

        首先,將本文提出的方法與傳統(tǒng)的隨機森林方法進行了實驗對比,結果如表4所示。由表4可知,本文提出的模型不僅對于準確率有所提高,而且召回率也有不錯的提升,尤其是對于少數(shù)類(U2R),召回率從原來的0.649增加到0.976。相對于傳統(tǒng)的隨機森林方法,本文提出的方法建立模型的時間更短。

        表4 性能對比表

        續(xù)表4

        由于本文實驗采用的是KDD CUP 99數(shù)據(jù)集的10%作為訓練數(shù)據(jù)集,少數(shù)類U2R占總體僅有0.01%,這可能會導致U2R召回率過低。

        為了解決數(shù)據(jù)集分布不平衡的問題,本文實驗使用了SMOTE過采樣算法來增加少數(shù)類,把少數(shù)類提高整數(shù)倍。本實驗將少數(shù)類U2R樣本增至9倍,達到468條,此時該數(shù)據(jù)集分布如表5所示,U2R占總體比例接近0.1%。此時,再次實驗表明,本文提出方法在U2R類的召回率達到了97.58%。由此可見,只要少數(shù)類所占總數(shù)比例稍微提高接近于0.1%時,召回率就會有明顯的改善。

        表5 改變數(shù)據(jù)后各類型數(shù)據(jù)的分布

        其次,為了進一步體現(xiàn)本文算法的優(yōu)越性,我們與文獻[15]和文獻[16]的實驗結果進行了對比,如圖5和圖6所示。

        圖5 不同算法的召回率比較

        圖6 不同算法的準確率比較

        由圖5和圖6可以看出,本文提出算法的召回率和準確率都持平或略優(yōu)于文獻[15]和文獻[16]的召回率和準確率。這表明本文方法可以緊跟當前的入侵檢測領域研究,也為當前網(wǎng)絡入侵檢測提供了一個新的方法和思路。

        4 結 語

        本文利用隨機森林分類器構建了一個有效的入侵檢測系統(tǒng)。對于原始數(shù)據(jù)集中冗余過多、數(shù)據(jù)集類別不平衡等問題進行了改善,實驗結果表明本文的方法節(jié)約了模型構建所需的時間,數(shù)據(jù)集中少數(shù)類(R2L和U2R)的召回率和精度也得到了較明顯的提升。本文只對于靜態(tài)已知的入侵數(shù)據(jù)進行了實驗,而現(xiàn)實中網(wǎng)絡入侵是實時未知的,下一步的研究計劃是將本文的方法與其他機器學習技術相結合來開發(fā)一個對于實時數(shù)據(jù)入侵的檢測系統(tǒng),在面對未知的數(shù)據(jù)流時,能夠?qū)ξ粗艉土鲃訑?shù)據(jù)達到自適應,這樣就可以有效地應用到當下的網(wǎng)絡環(huán)境中,來檢測出新的攻擊類別。

        猜你喜歡
        實驗檢測信息
        記一次有趣的實驗
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        做個怪怪長實驗
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        小波變換在PCB缺陷檢測中的應用
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        中文字幕精品久久久久人妻红杏1 丰满人妻妇伦又伦精品国产 | 日韩精品中文字幕第二页| 伊人久久大香线蕉av波多野结衣| 亚洲av无码av男人的天堂| 久草午夜视频| 国产精品一级黄色大片| 一级r片内射视频播放免费| 欧美日韩精品一区二区三区高清视频| 久久夜色撩人精品国产小说| 亚洲国产精一区二区三区性色| 亚洲熟女一区二区三区250p| 国产免费内射又粗又爽密桃视频| 欧美性受xxxx黑人xyx性爽| 亚洲免费无毛av一区二区三区| 麻豆国产精品一区二区三区| 亚洲av成人精品日韩在线播放| 亚洲精品国产成人AV| 国产小视频一区二区三区| 亚洲成人福利在线视频| 欧美精品v国产精品v日韩精品| 亚洲综合免费| 精品国模人妻视频网站| 日韩人妻中文无码一区二区| 在线永久免费观看黄网站| 国产日韩久久久久69影院| 精品少妇人妻av一区二区蜜桃 | 99re久久精品国产| 日韩极品视频在线观看免费| 亚洲欧美日韩精品中文乱码| 精品国模人妻视频网站| 欧美做受又硬又粗又大视频| 永久免费av无码网站性色av| 久久亚洲精品成人综合| 日韩中文字幕一区二区二区| 天堂无码人妻精品av一区| 亚洲小说图区综合在线| 亚洲国产高清一区av| 超碰97人人射妻| 少妇高潮喷水久久久影院| 亚洲一区二区三区综合网| 99视频在线精品免费观看6|