亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向不均衡數(shù)據(jù)的動態(tài)抽樣集成學(xué)習(xí)算法

        2019-06-17 09:30:06杜紅樂
        關(guān)鍵詞:分類實(shí)驗(yàn)

        張 燕 杜紅樂

        (商洛學(xué)院數(shù)學(xué)與計(jì)算機(jī)應(yīng)用學(xué)院 陜西 商洛 726000)

        0 引 言

        在日益復(fù)雜的網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)攻擊越來越多樣化、復(fù)雜化,新的攻擊手段層出不窮。網(wǎng)絡(luò)入侵檢測通過分析用戶行為來判斷用戶是否存在威脅,是網(wǎng)絡(luò)安全體系中的重要組成部分?;跀?shù)據(jù)的網(wǎng)絡(luò)入侵檢測常采用機(jī)器學(xué)習(xí)將攻擊檢測問題轉(zhuǎn)換為數(shù)據(jù)分類問題,然而,在實(shí)際中,收集攻擊行為數(shù)據(jù)并進(jìn)行正確標(biāo)注比較困難,代價(jià)也非常大。另外,新的攻擊方法日新月異,及時(shí)收集并標(biāo)注相應(yīng)的攻擊行為樣本難度很大,導(dǎo)致訓(xùn)練數(shù)據(jù)集中包含大量的正常行為數(shù)據(jù)和少量的攻擊行為數(shù)據(jù)。因此,網(wǎng)絡(luò)行為數(shù)據(jù)是不均衡數(shù)據(jù)。

        傳統(tǒng)分類算法在均衡數(shù)據(jù)集下有較好的分類性能,而實(shí)際應(yīng)用中的數(shù)據(jù)集多是不均衡的,面向不均衡數(shù)據(jù)分類的研究是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域當(dāng)前的熱點(diǎn)之一[1-13],對不均衡數(shù)據(jù)的解決方法主要集中在數(shù)據(jù)層面[1-4]和算法層面[5-13]。

        算法層面的方法則是提出新方法或者改進(jìn)已有算法,減少數(shù)據(jù)不均衡對分類性能的影響,主要包括代價(jià)敏感學(xué)習(xí)[3-4]、單類學(xué)習(xí)、集成學(xué)習(xí)[5-13]等。其中集成學(xué)習(xí)方法是通過迭代重采樣構(gòu)建多個(gè)弱分類器,然后再把弱分類器集成為強(qiáng)分類器,可以較好地提高分類器的分類性能,同時(shí)也是解決數(shù)據(jù)不均衡分類問題的方法[5-11]。文獻(xiàn)[5]中結(jié)合聚類算法對多數(shù)類樣本進(jìn)行欠采樣,獲得與少數(shù)類樣本數(shù)量相同的樣本,并與少數(shù)類樣本一起構(gòu)成訓(xùn)練集,采用Adaboost算法獲得最終分類器。文獻(xiàn)[6]利用抽樣概率進(jìn)行抽樣,通過迭代不斷修正抽樣概率,對于分類錯(cuò)誤的樣本加大抽樣概率,而分類正確的樣本減小抽樣概率,目的是爭取下輪迭代中能選中進(jìn)行學(xué)習(xí)。文獻(xiàn)[7-10]都是按照一定測量把數(shù)據(jù)集劃分為多個(gè)均衡的訓(xùn)練子集,生成多個(gè)基礎(chǔ)分類器,然后對多個(gè)分類器按照一定的規(guī)則進(jìn)行集成,獲得最終分類器,從而提高分類性能。該類方法中如何對多數(shù)類樣本進(jìn)行重取樣構(gòu)建平衡的訓(xùn)練子集,將對最終的分類器有較大的影響。而以上方法多是采用隨機(jī)抽取,并且每次抽取樣本的概率是相同且保持不變,這樣進(jìn)行抽樣無法區(qū)分樣本的重要性。在算法迭代過程中,樣本被錯(cuò)分,則表明樣本所包含的信息沒有被充分學(xué)習(xí),在下一輪迭代中應(yīng)該加大被學(xué)習(xí)的力度,而對正確分類的樣本說明模型中已經(jīng)包含該樣本的信息,下一輪迭代中應(yīng)該減小學(xué)習(xí),因此,采用動態(tài)的抽樣概率,區(qū)分在下一輪迭代中對樣本的重視程度。

        基于以上分析,本文提出一種基于動態(tài)抽樣概率的集成學(xué)習(xí)算法,并應(yīng)用到網(wǎng)絡(luò)入侵檢測中。該算法依據(jù)抽樣概率分布對多數(shù)類樣本進(jìn)行欠取樣,構(gòu)建多個(gè)均衡的訓(xùn)練子集;獲得對應(yīng)的子分類器,按照一定的參數(shù)計(jì)算分類效果,計(jì)算子分類器權(quán)值并獲得本輪循環(huán)的分類器;然后依據(jù)多輪循環(huán)所得分類器的分類效果更新多數(shù)類樣本的抽樣概率,進(jìn)入下一次迭代;最后對多輪循環(huán)所得分類器進(jìn)行集成獲得最終分類器。

        1 相關(guān)工作

        1.1 Boosting算法

        Boosting算法的基本思想是組合學(xué)習(xí),把多個(gè)預(yù)測精度不高的弱分類器提升到有高精度的強(qiáng)分類器,Boosting家族中最有代表性的是Adaboost算法,基本思想是:每次迭代更新樣本的權(quán)值,增加錯(cuò)分樣本的權(quán)重,減小正確分類樣本的權(quán)重。樣本被錯(cuò)分,表明樣本包含的信息未被學(xué)習(xí)或者學(xué)習(xí)不夠充分,因此在下輪迭代加大對錯(cuò)分樣本的學(xué)習(xí)。然而Adaboost算法中,在計(jì)算樣本權(quán)重時(shí),依據(jù)本輪循環(huán)所得分類器計(jì)算分類效果,而沒有考慮本次迭代之前所得分類器的分類情況。因此本文所提算法對樣本抽樣概率的更新綜合考慮本輪迭代之前所有分類器的分類效果,能夠更準(zhǔn)確地更新樣本的抽樣概率。

        在Adaboost算法中,每次迭代中都更新樣本的權(quán)重,目的是改變下次循環(huán)中對樣本的學(xué)習(xí)程度。而本文所提算法在每次迭代中更新樣本的抽樣概率,目的是改變樣本被抽中的概率,也改變在下次迭代中對各個(gè)樣本的學(xué)習(xí)程度。因此本文借鑒Adaboost算法中更新權(quán)重的思想,在每次迭代中更新多數(shù)類樣本的抽樣概率。

        EasyEnsemble算法可以解決不均衡數(shù)據(jù)問題,屬于欠采樣算法,是從多數(shù)類樣本中隨機(jī)抽取與少數(shù)類樣本數(shù)目相同的樣本,然后與少數(shù)類樣本一起構(gòu)成訓(xùn)練集,進(jìn)行多次抽取,獲得多個(gè)均衡的訓(xùn)練子集,并獲得多個(gè)基礎(chǔ)分類器,然后通過Bagging方法集成得到最終分類器。Balance Cascad算法則是每次訓(xùn)練Adaboost后都會丟棄已被正確分類的多數(shù)類樣本,經(jīng)過反復(fù)迭代,使得數(shù)據(jù)集逐漸平衡。

        EasyEnsemble算法在每次抽樣過程中,每個(gè)樣本被抽中的概率是相同的。而實(shí)際上,對于錯(cuò)分樣本需要加大學(xué)習(xí)力度,即需要加大樣本的抽樣概率。因此本文所提方法對抽取樣本是依據(jù)樣本的抽樣概率分布進(jìn)行抽取,每次迭代,對錯(cuò)分樣本加大抽樣概率,而對正確分類樣本減小抽樣概率,目的在于加大下輪循環(huán)中對錯(cuò)分樣本的學(xué)習(xí)。

        1.2 抽樣概率

        對多數(shù)類樣本按照概率pti進(jìn)行抽樣,抽樣概率的總和為:

        (1)

        因?yàn)槊總€(gè)樣本被抽中的概率為pti,即被抽中期望為E(pti),因此,對多數(shù)類樣本的抽樣期望值總和為:

        (2)

        在第一輪抽樣是,假設(shè)所有樣本有相同的抽樣概率,為了抽取與少數(shù)類樣本有相同數(shù)量的樣本,對多數(shù)類樣本的抽樣概率初始化為|T-|/|T+|。

        在每輪迭代過程中,依據(jù)分類器對樣本包含信息的學(xué)習(xí)程度修改多數(shù)類樣本的抽樣概率,對樣本包含信息的學(xué)習(xí)程度依據(jù)當(dāng)前分類器對數(shù)據(jù)集的測試結(jié)果來評價(jià)。被正確分類表示學(xué)習(xí)較充分,可以減小該樣本抽樣概率,否則表示學(xué)習(xí)不充分或者未被學(xué)習(xí),應(yīng)該加大該樣本的抽樣概率。由于少數(shù)類樣本數(shù)量較少,因此每個(gè)樣本都被抽中,即每個(gè)樣本的抽樣概率都為1。

        2 入侵檢測模型

        針對網(wǎng)絡(luò)行為數(shù)據(jù)不均衡的問題,本文提出基于抽樣概率分布的集成學(xué)習(xí)方法,提高對未知攻擊行為的識別能力。如圖1所示,該方法通過多次迭代獲得最終入侵檢測分類器,在每輪迭代中,依據(jù)多數(shù)類樣本的抽樣概率分布進(jìn)行抽樣,抽取與少數(shù)類數(shù)目相同的樣本,然后與少數(shù)類樣本合并,構(gòu)成均衡的訓(xùn)練子集。該過程經(jīng)過多次,得到num個(gè)均衡的訓(xùn)練子集。然后采用Adaboost算法訓(xùn)練每個(gè)子集,獲得num個(gè)子分類器,依據(jù)各子分類器的分類效果計(jì)算權(quán)值,加權(quán)集成獲得本輪迭代的分類器。最后對數(shù)據(jù)集進(jìn)行測試,依據(jù)測試的結(jié)果更新多數(shù)類樣本的抽樣概率,進(jìn)入下一輪迭代。

        圖1 入侵檢測模型構(gòu)建

        在抽樣環(huán)節(jié)依據(jù)樣本的抽樣概率對多數(shù)類樣本進(jìn)行抽樣,而不是EasyEnsemble算法中對多數(shù)類樣本的隨機(jī)抽樣,并且在每次迭代中更新多數(shù)類樣本的抽樣概率。在更新抽樣概率時(shí),依據(jù)本次迭代之前所得分類器的加權(quán)集成分類器的測試效果,而不是依據(jù)本輪循環(huán)所得分類器的測試結(jié)果,這樣更有助于最終的集成并獲得最終分類器。

        3 基于抽樣概率集成學(xué)習(xí)算法

        EasyEnsemble算法中對多數(shù)類樣本進(jìn)行隨機(jī)采樣,即平等地看待每個(gè)樣本,可以提高算法的泛化性能。但實(shí)際上每個(gè)樣本的重要性是不同的,即樣本包含的信息是不同的,常用解決方法是每次迭代更新樣本的抽樣概率。原因在于,如果樣本被錯(cuò)分則表明該樣本中包含的信息沒有被學(xué)習(xí)或者沒有被充分學(xué)習(xí),因此應(yīng)該加大該樣本被抽中的概率,而對正確分類的樣本則相反,應(yīng)減小樣本的抽樣概率。這個(gè)思想與Adaboost算法中更新樣本權(quán)值的思想是一致的。本文算法中采用同樣的思想更新樣本的抽樣概率,另外少數(shù)類樣本全部被選擇,則不需要改變抽樣概率。

        算法1SP-Adaboost算法

        輸入:數(shù)據(jù)集train_data={(xi,yi)},xi∈Rn,yi∈Y={-1,1},迭代次數(shù)K,子分類器數(shù)num。

        1. 把數(shù)據(jù)集劃分為多數(shù)類T+和少數(shù)類T-,|T+|和|T-|是兩類樣本數(shù)目。

        2. 初始化多數(shù)類樣本抽樣概率分布:probk-1(p11,p12,…,p1|T+|),p1i=|T-|/|T+|,i=1,2,…,|T+|。

        3. fork=1:K

        (1) 依據(jù)抽樣概率分布probk-1從多數(shù)類樣本中抽取|T-|個(gè)樣本,采用放回抽樣,抽取num次得到num個(gè)子集,與少數(shù)類樣本一起構(gòu)成訓(xùn)練子集:Bk1,Bk2,…,Bknum,其中,num=┌a×|T+|/|T-|┐ ,a為調(diào)控系數(shù);

        (2) 對每個(gè)子集用Adaboost進(jìn)行訓(xùn)練,獲得num個(gè)子分類器:fk1,fk2,…,fknum;

        (4) 更新多數(shù)類的抽樣概率分布:

        end fork

        probk+1(i)=probk(i)×exp(-ak)/Zk=

        probk(i)×exp(-0.5×ln((1-Ek)/Ek))/Zk=

        probk(i)×|T-|/(2(1-Ek))

        (3)

        -1,則:

        probk+1(i)=probk(i)×exp(ak)/Zk=

        probk(i)×exp(0.5×ln((1-Ek)/Ek))/Zk=

        probk(i)×|T-|/(2×Ek)

        樣本抽樣概率被更新過后,期望值仍然為|T-|。

        |T-|×(E(probk(i)/(2×(1-Ek))){yj×

        由Adaboost算法可知:

        因此,E(probk+1(i))=|T-|。

        4 實(shí)驗(yàn)分析

        本文分為兩部分,首先選擇7組來自UCI的數(shù)據(jù)集,Car Evaluation、TIC-TAC-Toe Endgame、Liver Disorders、Breast Cancer、Haberman’s Survival、Blood transfusion和Teaching Assistant Evaluation,驗(yàn)證所提算法的有效性,然后把所提算法應(yīng)用到網(wǎng)絡(luò)入侵檢測公共數(shù)據(jù)集KDDCUP,兩部分的實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)情況如表1和表2所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        序號數(shù)據(jù)集屬性多數(shù)類少數(shù)類比例1Car612103843.152Tic-Tac-To96263321.893liver72001451.384breast9201852.365haberman3225812.786blood45701783.207Teaching5102492.08

        表2 實(shí)KDDCUP數(shù)據(jù)集

        4.1 實(shí)驗(yàn)評價(jià)指標(biāo)

        分類器的分類性能多采用分類精度作為評價(jià)指標(biāo),而對于不均衡數(shù)據(jù),多關(guān)注少數(shù)類樣本的分類效果,分類準(zhǔn)確率不能準(zhǔn)確描述分類器的分類性能,針對不均衡數(shù)據(jù)分類的評價(jià)指標(biāo)多采用Recall、Precision、F-mean、G-mean、ROC曲線和AUC等,這些性能指標(biāo)是基于混淆矩陣來計(jì)算的,對于二分類問題的混淆矩陣如表3所示。

        表3 混淆矩陣

        依據(jù)混淆矩陣可以計(jì)算上面評價(jià)指標(biāo):

        (4)

        (5)

        (6)

        (7)

        式中:Recall表示正類的查全率,Precision表示正類的查準(zhǔn)率,F(xiàn)-mean同時(shí)考慮查全率和查準(zhǔn)率,只有當(dāng)兩個(gè)都大時(shí)F-mean的值才較大,可以較好地描述不均衡數(shù)據(jù)集下的分類性能,實(shí)驗(yàn)中F-mean的n取值為2;G-mean綜合考慮兩類的準(zhǔn)確率,任何一類準(zhǔn)確率較低時(shí),G-mean的值都會較小,因此能夠較好評價(jià)不均衡數(shù)據(jù)集下的分類性能。本文實(shí)驗(yàn)通過以上指標(biāo)及ROC曲線、AUC值來評價(jià)算法的性能。

        4.2 UCI數(shù)據(jù)實(shí)驗(yàn)結(jié)果

        本小節(jié)主要與Adaboost、Balance Cascad和EasyEnsemble算法進(jìn)行性能對比,由于本文算法及Balance Cascad和EasyEnsemble算法的結(jié)果都有一定的隨機(jī)性。所以,實(shí)驗(yàn)數(shù)據(jù)是經(jīng)過5次實(shí)驗(yàn),然后取平均值。另外,對各數(shù)據(jù)集采用一半作為訓(xùn)練集、一半作為測試集的式樣,具體的實(shí)驗(yàn)結(jié)果如表4所示。從實(shí)驗(yàn)結(jié)果可以看到,除了liver和Teaching數(shù)據(jù)集外,本文算法在其他實(shí)驗(yàn)結(jié)果的大部分指標(biāo)上均優(yōu)于其他算法。

        表4 算法性能對比1

        續(xù)表4

        4.3 KDDCUP數(shù)據(jù)集

        本小節(jié)仍然是與Adaboost、Balance Cascad和EasyEnsemble算法進(jìn)行性能對比,采用KDDCUP數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。由表2可以看到,在測試數(shù)據(jù)集中增加了部分在訓(xùn)練數(shù)據(jù)集中沒有出現(xiàn)的攻擊類型數(shù)據(jù),目的是為了驗(yàn)證對新攻擊行為的檢測情況,詳細(xì)數(shù)據(jù)如表5所示,仿真結(jié)果是5次實(shí)驗(yàn)結(jié)果的平均值。圖2是ROC曲線的對比結(jié)果,ROC曲線仍然是隨機(jī)的一次。

        表5 算法性能對比2

        圖2 KDDCUP的ROC曲線

        為了驗(yàn)證迭代次數(shù)對分類結(jié)果的影響,設(shè)計(jì)該部分實(shí)驗(yàn),該部分實(shí)驗(yàn)數(shù)據(jù)仍然是采用5次實(shí)驗(yàn),然后取平均值。如表6所示??梢钥闯?,進(jìn)行10次以上的迭代時(shí)實(shí)驗(yàn)結(jié)果差別很小,因此,為了減少算法時(shí)間,上面的實(shí)驗(yàn)數(shù)據(jù)均是采用10次迭代的實(shí)驗(yàn)結(jié)果。

        表6 迭代次數(shù)的影響

        為了驗(yàn)證調(diào)控系數(shù)對實(shí)驗(yàn)結(jié)果的影響,設(shè)計(jì)該部分實(shí)驗(yàn),該部分實(shí)驗(yàn)數(shù)據(jù)仍然是采用5次實(shí)驗(yàn),然后取平均值,詳細(xì)的實(shí)驗(yàn)結(jié)果如表7所示。實(shí)驗(yàn)結(jié)果顯示,調(diào)控系數(shù)為1.5時(shí),各項(xiàng)性能指標(biāo)比較均衡,因此上面實(shí)驗(yàn)所得數(shù)據(jù)均是在調(diào)控系數(shù)為1.5時(shí)的實(shí)驗(yàn)結(jié)果。

        表7 調(diào)控系數(shù)的影響

        5 結(jié) 語

        針對網(wǎng)絡(luò)行為數(shù)據(jù)不均衡的問題,本文提出一種基于動態(tài)抽樣概率的集成學(xué)習(xí)算法,該算法依據(jù)抽樣概率分布對多數(shù)類樣本進(jìn)行重采樣,相比隨機(jī)抽樣,能更準(zhǔn)確地加大對錯(cuò)分樣本的學(xué)習(xí)。在更新樣本抽樣概率時(shí),依據(jù)所得分類器的集成測試分類效果,而不是只依據(jù)本輪迭代所得分類器的分類效果。最后在兩種實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也驗(yàn)證本文算法的有效性。

        猜你喜歡
        分類實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        做個(gè)怪怪長實(shí)驗(yàn)
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        亚洲综合中文字幕综合| 欧美激情国产亚州一区二区| 三级黄色片一区二区三区| 亚洲无精品一区二区在线观看| 国产激情无码一区二区| 久久久久亚洲av无码专区导航| 91性视频| 丰满熟女人妻一区二区三区 | 久久久精品456亚洲影院| 亚洲自拍另类欧美综合| 手机在线免费av网址| 婷婷色国产精品视频二区| 农村欧美丰满熟妇xxxx| 最新国产在线精品91尤物| 女同av免费在线播放| 大陆老熟女自拍自偷露脸| 日韩精品区一区二区三vr| 人妻丰满多毛熟妇免费区| 日韩精品有码中文字幕| 国产精品视频亚洲二区| 18分钟处破好疼哭视频在线观看 | 日本精品无码一区二区三区久久久| 少妇高潮喷水正在播放| av一区二区不卡久久| 草逼动态图视频免费观看网站| 激情影院内射美女| 麻豆久久五月国产综合| 蜜桃av一区二区三区久久| 国产成人无码精品久久久免费| 亚洲精品综合欧美一区二区三区| 久久这里有精品国产电影网| 一本色道久久综合亚洲精品不| 国产放荡对白视频在线观看| 色偷偷88888欧美精品久久久 | 亚洲黄色免费网站| 久久久99精品国产片| 亚洲av成人片色在线观看| 久久久久99精品成人片试看| 无码啪啪人妻| 极品粉嫩小仙女高潮喷水操av| 国产一区二区内射最近更新|