亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于mRMR-RF特征選擇和XGBoost模型的釣魚網(wǎng)站檢測

        2020-09-09 03:15:38畢青松梁雪春陳舒期
        關(guān)鍵詞:冗余度特征選擇釣魚

        畢青松 梁雪春 陳舒期

        (南京工業(yè)大學(xué)電氣工程與控制科學(xué)學(xué)院 江蘇 南京 211816)

        0 引 言

        釣魚網(wǎng)站,作為一種偽裝成合法網(wǎng)站的虛假網(wǎng)站,是詐騙者通過合法網(wǎng)站的漏洞加入一些病毒代碼,通過用戶在網(wǎng)站輸入來竊取用戶的銀行卡、信用卡等賬號密碼以及其他私人信息資料[1]。詐騙者利用用戶好奇以及不設(shè)防的心理,將釣魚網(wǎng)站的界面做得與合法網(wǎng)站極其相似,用戶在瀏覽網(wǎng)站時如果不仔細(xì)觀察根本無法分辨出來,大大降低了用戶個人賬戶信息的安全保障,從而直接損失用戶的利益。根據(jù)我國反釣魚網(wǎng)站數(shù)據(jù)顯示,2019年4月該網(wǎng)站共處理釣魚網(wǎng)站2 414個,環(huán)比增長了66.5%,截至2019年4月,反釣魚網(wǎng)站處理的釣魚網(wǎng)站數(shù)量達(dá)到440 995個。

        目前釣魚網(wǎng)站檢測方法主要有黑白名單過濾技術(shù)[2-3]、釣魚網(wǎng)站URL地址分析[4-5]和提取網(wǎng)站相關(guān)特征來識別釣魚網(wǎng)站[6-7]。其中,提取網(wǎng)站相關(guān)特征來識別釣魚網(wǎng)站擁有更高的準(zhǔn)確率,但是識別效率低,且提取頁面特征較為復(fù)雜。

        針對上述檢測方法,眾多學(xué)者采用機(jī)器學(xué)習(xí)分類算法進(jìn)行分類檢測。比如,文獻(xiàn)[8]利用SVM算法分析釣魚網(wǎng)站URL地址進(jìn)行識別,但是該方法只對低維小樣本數(shù)據(jù)有較高的預(yù)測準(zhǔn)確率。文獻(xiàn)[9]采用K-means算法對URL特征進(jìn)行聚類處理,以達(dá)到預(yù)測的目的,但是該方法分類性能有限。文獻(xiàn)[10]提出基于K-means和SVM相結(jié)合算法來識別釣魚網(wǎng)站,該方法雖然提高了預(yù)測準(zhǔn)確率,但是其只針對低維小樣本數(shù)據(jù),對于高維數(shù)據(jù)的預(yù)測效果并不理想。

        針對上述問題,本文提出一種基于mRMR-RF特征選擇和XGBoost模型的釣魚網(wǎng)站檢測方法。在特征篩選階段,結(jié)合了過濾型算法泛化性能好、計(jì)算開銷小、效率高和裝箱型算法模型性能更好的優(yōu)點(diǎn)。先通過過濾型算法mRMR計(jì)算特征之間以及特征與類變量之間的互信息來對特征進(jìn)行排序,再通過裝箱型算法RF計(jì)算袋外數(shù)據(jù)誤差值對特征的重要性再次排序,測試不同的特征數(shù)對模型準(zhǔn)確率的影響來找到最佳的特征數(shù)k。綜合上述兩種特征篩選后的特征排名選出前k個特征得出最優(yōu)的特征子集,相比未篩選的特征集,最優(yōu)子集大大降低了無關(guān)冗余的特征,對釣魚網(wǎng)站預(yù)測準(zhǔn)確率有了明顯的提高[11]。在模型分類階段,采用分類準(zhǔn)確率更高的XGBoost集成學(xué)習(xí)算法作為分類模型,從而進(jìn)一步提高預(yù)測釣魚網(wǎng)站的準(zhǔn)確率。

        1 基礎(chǔ)理論

        1.1 互信息

        互信息常被用來對特征間的相關(guān)性進(jìn)行評價,是一種有效的信息度量方法。1994年,Battiti[12]第一次將互信息用于特征篩選,并將其定義為從n個原始特征中找出最相關(guān)的k個特征的過程。設(shè)X={x1,x2,…,xm}和Y={y1,y2,…,ym}為兩個離散隨機(jī)變量,p(x,y)是X和Y的聯(lián)合概率分布函數(shù),p(x)和p(y)分別是X和Y的邊緣概率分布函數(shù),則X和Y的互信息可以定義為:

        (1)

        直觀上,互信息度量兩個變量的共享信息,是其中一個變量對另一個變量提供信息的程度。例如,如果兩個變量X和Y相互獨(dú)立,并且變量X和Y互不提供信息,則它們之間的互信息為零。

        1.2 最大相關(guān)最小冗余(mRMR)算法

        mRMR算法是一種濾波式的特征選擇方法,它以不同的方式在相關(guān)性和冗余之間進(jìn)行權(quán)衡,并且以互信息作為計(jì)算準(zhǔn)則來衡量特征之間的冗余度以及特征與類變量之間的相關(guān)性,通過最大化特征與類變量的相關(guān)性以及最小化特征之間的冗余性來進(jìn)行特征選擇。

        最大相關(guān)性原則是指選擇那些與模型有著最大相關(guān)性的特征,相關(guān)性越大,則說明訓(xùn)練出的模型解決問題能力越強(qiáng)。最大相關(guān)性計(jì)算式表示為:

        (2)

        式中:xi為第i個特征;c={c1,c2,…,cL}為類別變量;L為類別總個數(shù);S為特征子集。

        由于特征之間相關(guān)性越大,冗余度就越高,為了降低特征之間的冗余度,讓每個特征都具有代表性,需要將冗余度降到最低,這就是最小冗余度原則。最小冗余度計(jì)算式表示為:

        (3)

        1.3 隨機(jī)森林

        隨機(jī)森林[13]是由多棵決策樹構(gòu)成的一種集成學(xué)習(xí)算法,并且每棵決策樹都被分配獨(dú)立的子空間,任其自由生長,最后采用簡單多數(shù)投票將投票次數(shù)最多的類別指定為最終的分類結(jié)果。

        步驟1用k組袋外數(shù)據(jù)(OOB data)分別計(jì)算每棵決策樹的誤差值,記為ErrOOB1,ErrOOB2,…,ErrOOBk。

        步驟2對k組袋外數(shù)據(jù)的第i個特征進(jìn)行隨機(jī)重排并保證其他特征不變,然后重新計(jì)算誤差值,記為Erri1,Erri2,…,Errik。

        步驟3特征重要性的計(jì)算公式如下:

        (4)

        步驟4基于重要性對特征進(jìn)行排序,根據(jù)得出的最佳特征數(shù)m選出前m個特征。

        2 mRMR-RF特征選擇方法在XGBoost中的應(yīng)用

        2.1 XGBoost算法

        XGBoost是由Chen等[16]在2016年提出的一種基于回歸樹的提升算法,是對GBDT算法的進(jìn)一步優(yōu)化。XGBoost算法將目標(biāo)函數(shù)在t=0處泰勒二階展開,并引入正則項(xiàng)來控制模型的復(fù)雜度,防止模型過擬合,這使得XGBoost相比GBDT算法,不僅能降低過擬合程度,還能減少計(jì)算量,使得求解模型最優(yōu)解更具有效率。XGBoost目標(biāo)函數(shù)定義為:

        (5)

        新生成的樹需要擬合上次預(yù)測的殘差,所以當(dāng)生成t棵樹后,將目標(biāo)函數(shù)改寫成:

        (6)

        (7)

        (8)

        定義Ij={i|q(xi)=j}為葉子節(jié)點(diǎn)j中的樣本集合,并將式(5)代入式(6),得到最終的目標(biāo)函數(shù):

        (9)

        (10)

        對應(yīng)的最優(yōu)目標(biāo)值:

        (11)

        2.2 釣魚網(wǎng)站檢測模型

        本文釣魚網(wǎng)站模型設(shè)計(jì)主要分為如下兩個部分:

        (1) 特征篩選:本文采用mRMR-RF算法從基分類器的特征重要度和相關(guān)性冗余度兩個方面進(jìn)行考慮,保證單個特征重要度的同時考慮特征和類別之間的相關(guān)性以及特征之間的冗余度,以篩選出最優(yōu)的特征子集。

        (2) 模型構(gòu)建:采用分類性能更好的XGBoost集成學(xué)習(xí)算法作為模型,可以進(jìn)一步提高釣魚網(wǎng)站預(yù)測的準(zhǔn)確率。

        該模型的檢測過程如圖1所示:首先從UCI數(shù)據(jù)集中選取釣魚網(wǎng)站數(shù)據(jù)并對該數(shù)據(jù)進(jìn)行基本的預(yù)處理;然后對該特征數(shù)據(jù)用mRMR算法和RF算法分別進(jìn)行特征篩選,綜合兩種算法特征排名根據(jù)試驗(yàn)得出的最好特征數(shù)得出最優(yōu)特征子集;最后將篩選的最優(yōu)特征子集的一部分作為訓(xùn)練集對XGBoost分類模型進(jìn)行訓(xùn)練,另一部分對訓(xùn)練好的分類器進(jìn)行預(yù)測。

        圖1 釣魚網(wǎng)站檢測模型

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)及說明

        本文采用UCI數(shù)據(jù)庫中的phishing數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析。該數(shù)據(jù)集由PhishTank檔案館、MillerSmiles檔案館以及谷歌搜索運(yùn)營商提供,共有11 055個實(shí)例,30個屬性特征,包括SSLfinal_State、URL_of_Anchor、having_Sub_Domain、web_traffic、Prefix_Suffix等主要特征。實(shí)驗(yàn)所用的數(shù)據(jù)信息如表1所示,其中釣魚網(wǎng)站占比44%,合法網(wǎng)站占比56%。實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)Windows 10,實(shí)驗(yàn)平臺為Spyder。

        表1 實(shí)驗(yàn)數(shù)據(jù)

        3.2 評價指標(biāo)

        為了衡量訓(xùn)練后的模型性能,本文采用ROC曲線、AUC值以及精確度對算法性能進(jìn)行評價。

        ROC曲線一般指接受者操作特征曲線,該曲線以負(fù)正類率(False Positive Rate,FPR)特異度為橫軸,以真正類率(TRUE Positive Rate,TPR)靈敏度為縱軸的各點(diǎn)的連線。FPR和TPR計(jì)算公式如下:

        (12)

        (13)

        精確度(accuracy)又叫準(zhǔn)確度,是用來衡量一個算法與理論值符合的程度,計(jì)算公式如下:

        (14)

        TP(TRUE Positive)為模型正確分類的正樣本;TN(TRUE Negative)為模型正確分類的負(fù)樣本;FP(FALSE Positive)為模型錯誤分類的負(fù)樣本;FN(TRUE Negative)為模型錯誤分類的正樣本。

        AUC(Area Under Curve)值為ROC曲線下的面積,介于0.1和1之間。ROC曲線越向左上方凸AUC值越大,代表模型性能越好。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        (1)實(shí)驗(yàn)一利用mRMR-RF算法進(jìn)行特征篩選。

        該實(shí)驗(yàn)先是通過mRMR算法對預(yù)處理后的數(shù)據(jù)進(jìn)行相關(guān)性和冗余性的度量,通過計(jì)算特征之間、特征與類變量之間的分布及互信息將各個特征進(jìn)行排序,得到每個特征的mRMR分值排名,特征具體排名如圖2所示。

        圖2 mRMR特征重要性排序圖

        接著利用RF算法OOB data計(jì)算誤差值并對特征進(jìn)行排序,得到如圖3所示的特征排序圖。

        圖3 RF特征重要性排序圖

        綜合以上兩種算法各特征的排名,得到最終特征排名如表2所示。

        表2 特征最終重要性排序

        續(xù)表2

        表2得出了最終的特征重要性排序表后需進(jìn)行特征篩選。因?yàn)樘卣鬟x取過多或過少都會影響模型的準(zhǔn)確率,所以為了找到合適的特征數(shù)量k,本文選取不同的k值進(jìn)行實(shí)驗(yàn),通過比較k值對模型AUC值的影響來選出最好的k值,實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 特征數(shù)對模型AUC值的影響

        通過圖4可以看出,特征數(shù)n選19時,AUC值達(dá)到最高,因此本文特征數(shù)k選取為19。根據(jù)表2可知,選取的特征為綜合排名前19名的特征,即SSLfinal_State特征一直到double_slash_redirecting特征。

        為了比較本文特征篩選算法的性能,本文從UCI數(shù)據(jù)集中隨機(jī)選擇一個個人信用風(fēng)險(xiǎn)評估數(shù)據(jù)集對不同特征選擇算法進(jìn)行實(shí)驗(yàn)對比,并且采用XGBoost算法對其進(jìn)行訓(xùn)練,10折交叉進(jìn)行驗(yàn)證。其中Acc表示精確度,AUC值為ROC曲線下的面積,介于0到1之間,用來衡量分類器的好壞。具體實(shí)驗(yàn)結(jié)果如表3所示。

        表3 不同特征選擇算法基于XGBoost模型實(shí)驗(yàn)結(jié)果比較

        從表3數(shù)據(jù)可知,本文采用的特征選擇算法mRMR_RF精確度達(dá)到了92.374%,AUC值達(dá)到了87.7,特征選取的維數(shù)為19。就精確度和AUC值而言,本文方法明顯優(yōu)于RF、GR、mRMR、CFS特征選擇算法,RF和GR在特征降維上表現(xiàn)較好,但是因?yàn)楹Y選特征過多導(dǎo)致原始信息不足,最終表現(xiàn)出精確度不夠。因此,本文提出的特征選擇算法在總體上是優(yōu)于RF、GR、mRMR、CFS算法的,這也驗(yàn)證了本文特征選擇的有效性。

        (2)實(shí)驗(yàn)二利用XGBoost模型進(jìn)行釣魚網(wǎng)站檢測。

        為了檢驗(yàn)本文提出的釣魚網(wǎng)站檢測方法是否有效,本文選取了隨機(jī)森林(RF)和支持向量機(jī)(SVM)兩種常見類型的分類模型與XGBoost模型進(jìn)行對比,對于特征選擇部分,均采用實(shí)驗(yàn)一提出的mRMR_RF算法。對以上3個模型進(jìn)行5次實(shí)驗(yàn)取其均值最后得出的數(shù)據(jù)如表4所示,其中TPR為真正類率,F(xiàn)PR為負(fù)正類率。由表4可知,本文方法的準(zhǔn)確率最高,達(dá)到90.25%,AUC值也最高,為0.87,真正類率達(dá)到91.35%,負(fù)正類率為10.06%??梢钥闯霰疚姆椒ǖ木C合性能優(yōu)于RF和SVM分類算法。

        表4 基于mRMR-RF特征選擇不同分類器實(shí)驗(yàn)結(jié)果

        為了更直觀地看出本文釣魚網(wǎng)站模型預(yù)測的能力,圖5給出了不同分類器的曲線,ROC曲線越往左上角凸說明AUC值越大,AUC值越大說明模型的分類效果越好,可以看出本文提出的基于mRMR-RF特征選擇和XGBoost的釣魚網(wǎng)站檢測方法效果最好。

        圖5 不同分類算法的ROC曲線圖

        4 結(jié) 語

        針對大量冗余不相關(guān)的數(shù)據(jù)導(dǎo)致釣魚網(wǎng)站檢測準(zhǔn)確率不夠,誤判率較高的問題,本文提出一種基于mRMR-RF特征選擇和XGBoost模型的釣魚網(wǎng)站檢測方法。通過結(jié)合mRMR算法和RF算法對特征進(jìn)行相關(guān)性和冗余度的篩選,利用極端梯度提升(XGBoost)算法構(gòu)建釣魚網(wǎng)站檢測模型。本文方法在特征選擇過程相比RF、GR、mRMR、CFS特征選擇算法精確度更高,AUC值也更大,在模型對釣魚網(wǎng)站檢測過程中,應(yīng)用mRMR-RF特征選擇的XGBoost模型相比SVM和RF在精確度和AUC值上具有一定優(yōu)勢。但是本文釣魚預(yù)測的準(zhǔn)確率還可以進(jìn)一步提高,如何找到最優(yōu)特征子集并找到契合該特征子集的模型,提高預(yù)測準(zhǔn)確率將是今后研究的方向。

        猜你喜歡
        冗余度特征選擇釣魚
        一種航天測控冗余跟蹤弧段處理方法
        上海航天(2024年1期)2024-03-08 02:52:28
        上海某基坑工程考慮冗余度的支撐體系設(shè)計(jì)
        山西建筑(2017年29期)2017-11-15 02:04:38
        橋梁設(shè)計(jì)的冗余度分析
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        釣魚
        橋梁設(shè)計(jì)的冗余度
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        第七章 去泥盆紀(jì)釣魚
        第七章 去泥盆紀(jì)釣魚
        第七章去泥盆紀(jì)釣魚
        久久久亚洲色| 久久久精品人妻一区二区三区游戏 | 豆国产95在线 | 亚洲| 亚洲AV小说在线观看| 亚洲av成熟国产精品一区二区| 精品无码av一区二区三区不卡| 无码ol丝袜高跟秘书在线观看| 亚洲欧美欧美一区二区三区| 国产不卡一区二区三区视频| 日本一区二区在线高清| 亚洲熟妇无码一区二区三区导航 | 4444亚洲人成无码网在线观看 | 午夜无码一区二区三区在线观看| 国产乱人视频在线播放| 老熟妇Av| 日韩av一区二区无卡| 一本无码中文字幕在线观| 131美女爱做视频| 97超级碰碰碰久久久观看| 久久久大少妇免费高潮特黄| 少妇愉情理伦片丰满丰满| 欧美大香线蕉线伊人久久| 久久精品视频中文字幕无码| 国产丝袜爆操在线观看| 粗大的内捧猛烈进出视频| 欧美极品第一页| 精品午夜中文字幕熟女| 亚洲2022国产成人精品无码区 | 无码丰满少妇2在线观看| 日产精品一区二区免费| 免费的小黄片在线观看视频| 国产成人亚洲综合色婷婷| 亚洲人成精品久久久久| 亚洲香蕉久久一区二区| 亚洲精品乱码久久久久蜜桃| 亚洲欧美日韩在线一区| 亚洲AⅤ乱码一区二区三区| 国产偷国产偷亚洲综合av| 免费中文熟妇在线影片| 91精品国产免费青青碰在线观看 | 国产毛片A啊久久久久|