亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于mRMR-RF特征選擇和XGBoost模型的釣魚網(wǎng)站檢測

2020-09-09 03:15:38畢青松梁雪春陳舒期

計(jì)算機(jī)應(yīng)用與軟件 2020年9期

畢青松梁雪春陳舒期

(南京工業(yè)大學(xué)電氣工程與控制科學(xué)學(xué)院江蘇南京 211816)

0 引言

釣魚網(wǎng)站，作為一種偽裝成合法網(wǎng)站的虛假網(wǎng)站，是詐騙者通過合法網(wǎng)站的漏洞加入一些病毒代碼，通過用戶在網(wǎng)站輸入來竊取用戶的銀行卡、信用卡等賬號密碼以及其他私人信息資料[1]。詐騙者利用用戶好奇以及不設(shè)防的心理，將釣魚網(wǎng)站的界面做得與合法網(wǎng)站極其相似，用戶在瀏覽網(wǎng)站時如果不仔細(xì)觀察根本無法分辨出來，大大降低了用戶個人賬戶信息的安全保障，從而直接損失用戶的利益。根據(jù)我國反釣魚網(wǎng)站數(shù)據(jù)顯示，2019年4月該網(wǎng)站共處理釣魚網(wǎng)站2 414個，環(huán)比增長了66.5%，截至2019年4月，反釣魚網(wǎng)站處理的釣魚網(wǎng)站數(shù)量達(dá)到440 995個。

目前釣魚網(wǎng)站檢測方法主要有黑白名單過濾技術(shù)[2-3]、釣魚網(wǎng)站URL地址分析[4-5]和提取網(wǎng)站相關(guān)特征來識別釣魚網(wǎng)站[6-7]。其中，提取網(wǎng)站相關(guān)特征來識別釣魚網(wǎng)站擁有更高的準(zhǔn)確率，但是識別效率低，且提取頁面特征較為復(fù)雜。

針對上述檢測方法，眾多學(xué)者采用機(jī)器學(xué)習(xí)分類算法進(jìn)行分類檢測。比如，文獻(xiàn)[8]利用SVM算法分析釣魚網(wǎng)站URL地址進(jìn)行識別，但是該方法只對低維小樣本數(shù)據(jù)有較高的預(yù)測準(zhǔn)確率。文獻(xiàn)[9]采用K-means算法對URL特征進(jìn)行聚類處理，以達(dá)到預(yù)測的目的，但是該方法分類性能有限。文獻(xiàn)[10]提出基于K-means和SVM相結(jié)合算法來識別釣魚網(wǎng)站，該方法雖然提高了預(yù)測準(zhǔn)確率，但是其只針對低維小樣本數(shù)據(jù)，對于高維數(shù)據(jù)的預(yù)測效果并不理想。

針對上述問題，本文提出一種基于mRMR-RF特征選擇和XGBoost模型的釣魚網(wǎng)站檢測方法。在特征篩選階段，結(jié)合了過濾型算法泛化性能好、計(jì)算開銷小、效率高和裝箱型算法模型性能更好的優(yōu)點(diǎn)。先通過過濾型算法mRMR計(jì)算特征之間以及特征與類變量之間的互信息來對特征進(jìn)行排序，再通過裝箱型算法RF計(jì)算袋外數(shù)據(jù)誤差值對特征的重要性再次排序，測試不同的特征數(shù)對模型準(zhǔn)確率的影響來找到最佳的特征數(shù)k。綜合上述兩種特征篩選后的特征排名選出前k個特征得出最優(yōu)的特征子集，相比未篩選的特征集，最優(yōu)子集大大降低了無關(guān)冗余的特征，對釣魚網(wǎng)站預(yù)測準(zhǔn)確率有了明顯的提高[11]。在模型分類階段，采用分類準(zhǔn)確率更高的XGBoost集成學(xué)習(xí)算法作為分類模型，從而進(jìn)一步提高預(yù)測釣魚網(wǎng)站的準(zhǔn)確率。

1 基礎(chǔ)理論

1.1 互信息

互信息常被用來對特征間的相關(guān)性進(jìn)行評價，是一種有效的信息度量方法。1994年，Battiti[12]第一次將互信息用于特征篩選，并將其定義為從n個原始特征中找出最相關(guān)的k個特征的過程。設(shè)X={x1,x2,…,xm}和Y={y1,y2,…,ym}為兩個離散隨機(jī)變量，p(x,y)是X和Y的聯(lián)合概率分布函數(shù)，p(x)和p(y)分別是X和Y的邊緣概率分布函數(shù)，則X和Y的互信息可以定義為：

(1)

直觀上，互信息度量兩個變量的共享信息，是其中一個變量對另一個變量提供信息的程度。例如，如果兩個變量X和Y相互獨(dú)立，并且變量X和Y互不提供信息，則它們之間的互信息為零。

1.2 最大相關(guān)最小冗余(mRMR)算法

mRMR算法是一種濾波式的特征選擇方法，它以不同的方式在相關(guān)性和冗余之間進(jìn)行權(quán)衡，并且以互信息作為計(jì)算準(zhǔn)則來衡量特征之間的冗余度以及特征與類變量之間的相關(guān)性，通過最大化特征與類變量的相關(guān)性以及最小化特征之間的冗余性來進(jìn)行特征選擇。

最大相關(guān)性原則是指選擇那些與模型有著最大相關(guān)性的特征，相關(guān)性越大，則說明訓(xùn)練出的模型解決問題能力越強(qiáng)。最大相關(guān)性計(jì)算式表示為：

(2)

式中：xi為第i個特征；c={c1,c2,…,cL}為類別變量；L為類別總個數(shù)；S為特征子集。

由于特征之間相關(guān)性越大，冗余度就越高，為了降低特征之間的冗余度，讓每個特征都具有代表性，需要將冗余度降到最低，這就是最小冗余度原則。最小冗余度計(jì)算式表示為：

(3)

1.3 隨機(jī)森林

隨機(jī)森林[13]是由多棵決策樹構(gòu)成的一種集成學(xué)習(xí)算法，并且每棵決策樹都被分配獨(dú)立的子空間，任其自由生長，最后采用簡單多數(shù)投票將投票次數(shù)最多的類別指定為最終的分類結(jié)果。

步驟1用k組袋外數(shù)據(jù)(OOB data)分別計(jì)算每棵決策樹的誤差值，記為ErrOOB1,ErrOOB2,…,ErrOOBk。

步驟2對k組袋外數(shù)據(jù)的第i個特征進(jìn)行隨機(jī)重排并保證其他特征不變，然后重新計(jì)算誤差值，記為Erri1,Erri2,…,Errik。

步驟3特征重要性的計(jì)算公式如下：

(4)

步驟4基于重要性對特征進(jìn)行排序，根據(jù)得出的最佳特征數(shù)m選出前m個特征。

2 mRMR-RF特征選擇方法在XGBoost中的應(yīng)用

2.1 XGBoost算法

XGBoost是由Chen等[16]在2016年提出的一種基于回歸樹的提升算法，是對GBDT算法的進(jìn)一步優(yōu)化。XGBoost算法將目標(biāo)函數(shù)在t=0處泰勒二階展開，并引入正則項(xiàng)來控制模型的復(fù)雜度，防止模型過擬合，這使得XGBoost相比GBDT算法，不僅能降低過擬合程度，還能減少計(jì)算量，使得求解模型最優(yōu)解更具有效率。XGBoost目標(biāo)函數(shù)定義為：

(5)

新生成的樹需要擬合上次預(yù)測的殘差，所以當(dāng)生成t棵樹后，將目標(biāo)函數(shù)改寫成：

(6)

(7)

(8)

定義Ij={i|q(xi)=j}為葉子節(jié)點(diǎn)j中的樣本集合，并將式(5)代入式(6)，得到最終的目標(biāo)函數(shù)：

(9)

(10)

對應(yīng)的最優(yōu)目標(biāo)值：

(11)

2.2 釣魚網(wǎng)站檢測模型

本文釣魚網(wǎng)站模型設(shè)計(jì)主要分為如下兩個部分：

(1) 特征篩選：本文采用mRMR-RF算法從基分類器的特征重要度和相關(guān)性冗余度兩個方面進(jìn)行考慮，保證單個特征重要度的同時考慮特征和類別之間的相關(guān)性以及特征之間的冗余度，以篩選出最優(yōu)的特征子集。

(2) 模型構(gòu)建：采用分類性能更好的XGBoost集成學(xué)習(xí)算法作為模型，可以進(jìn)一步提高釣魚網(wǎng)站預(yù)測的準(zhǔn)確率。

該模型的檢測過程如圖1所示：首先從UCI數(shù)據(jù)集中選取釣魚網(wǎng)站數(shù)據(jù)并對該數(shù)據(jù)進(jìn)行基本的預(yù)處理；然后對該特征數(shù)據(jù)用mRMR算法和RF算法分別進(jìn)行特征篩選，綜合兩種算法特征排名根據(jù)試驗(yàn)得出的最好特征數(shù)得出最優(yōu)特征子集；最后將篩選的最優(yōu)特征子集的一部分作為訓(xùn)練集對XGBoost分類模型進(jìn)行訓(xùn)練，另一部分對訓(xùn)練好的分類器進(jìn)行預(yù)測。

圖1 釣魚網(wǎng)站檢測模型

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)及說明

本文采用UCI數(shù)據(jù)庫中的phishing數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析。該數(shù)據(jù)集由PhishTank檔案館、MillerSmiles檔案館以及谷歌搜索運(yùn)營商提供，共有11 055個實(shí)例，30個屬性特征，包括SSLfinal_State、URL_of_Anchor、having_Sub_Domain、web_traffic、Prefix_Suffix等主要特征。實(shí)驗(yàn)所用的數(shù)據(jù)信息如表1所示，其中釣魚網(wǎng)站占比44%，合法網(wǎng)站占比56%。實(shí)驗(yàn)環(huán)境如下：操作系統(tǒng)Windows 10，實(shí)驗(yàn)平臺為Spyder。

表1 實(shí)驗(yàn)數(shù)據(jù)

3.2 評價指標(biāo)

為了衡量訓(xùn)練后的模型性能，本文采用ROC曲線、AUC值以及精確度對算法性能進(jìn)行評價。

ROC曲線一般指接受者操作特征曲線，該曲線以負(fù)正類率(False Positive Rate,FPR)特異度為橫軸，以真正類率(TRUE Positive Rate,TPR)靈敏度為縱軸的各點(diǎn)的連線。FPR和TPR計(jì)算公式如下：

(12)

(13)

精確度(accuracy)又叫準(zhǔn)確度，是用來衡量一個算法與理論值符合的程度，計(jì)算公式如下：

(14)

TP(TRUE Positive)為模型正確分類的正樣本；TN(TRUE Negative)為模型正確分類的負(fù)樣本；FP(FALSE Positive)為模型錯誤分類的負(fù)樣本；FN(TRUE Negative)為模型錯誤分類的正樣本。

AUC(Area Under Curve)值為ROC曲線下的面積，介于0.1和1之間。ROC曲線越向左上方凸AUC值越大，代表模型性能越好。

3.3 實(shí)驗(yàn)結(jié)果及分析

(1)實(shí)驗(yàn)一利用mRMR-RF算法進(jìn)行特征篩選。

該實(shí)驗(yàn)先是通過mRMR算法對預(yù)處理后的數(shù)據(jù)進(jìn)行相關(guān)性和冗余性的度量，通過計(jì)算特征之間、特征與類變量之間的分布及互信息將各個特征進(jìn)行排序，得到每個特征的mRMR分值排名，特征具體排名如圖2所示。

圖2 mRMR特征重要性排序圖

接著利用RF算法OOB data計(jì)算誤差值并對特征進(jìn)行排序，得到如圖3所示的特征排序圖。

圖3 RF特征重要性排序圖

綜合以上兩種算法各特征的排名，得到最終特征排名如表2所示。

表2 特征最終重要性排序

續(xù)表2

表2得出了最終的特征重要性排序表后需進(jìn)行特征篩選。因?yàn)樘卣鬟x取過多或過少都會影響模型的準(zhǔn)確率，所以為了找到合適的特征數(shù)量k，本文選取不同的k值進(jìn)行實(shí)驗(yàn)，通過比較k值對模型AUC值的影響來選出最好的k值，實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 特征數(shù)對模型AUC值的影響

通過圖4可以看出，特征數(shù)n選19時，AUC值達(dá)到最高，因此本文特征數(shù)k選取為19。根據(jù)表2可知，選取的特征為綜合排名前19名的特征，即SSLfinal_State特征一直到double_slash_redirecting特征。

為了比較本文特征篩選算法的性能，本文從UCI數(shù)據(jù)集中隨機(jī)選擇一個個人信用風(fēng)險(xiǎn)評估數(shù)據(jù)集對不同特征選擇算法進(jìn)行實(shí)驗(yàn)對比，并且采用XGBoost算法對其進(jìn)行訓(xùn)練，10折交叉進(jìn)行驗(yàn)證。其中Acc表示精確度，AUC值為ROC曲線下的面積，介于0到1之間，用來衡量分類器的好壞。具體實(shí)驗(yàn)結(jié)果如表3所示。

表3 不同特征選擇算法基于XGBoost模型實(shí)驗(yàn)結(jié)果比較

從表3數(shù)據(jù)可知，本文采用的特征選擇算法mRMR_RF精確度達(dá)到了92.374%，AUC值達(dá)到了87.7，特征選取的維數(shù)為19。就精確度和AUC值而言，本文方法明顯優(yōu)于RF、GR、mRMR、CFS特征選擇算法，RF和GR在特征降維上表現(xiàn)較好，但是因?yàn)楹Y選特征過多導(dǎo)致原始信息不足，最終表現(xiàn)出精確度不夠。因此，本文提出的特征選擇算法在總體上是優(yōu)于RF、GR、mRMR、CFS算法的，這也驗(yàn)證了本文特征選擇的有效性。

(2)實(shí)驗(yàn)二利用XGBoost模型進(jìn)行釣魚網(wǎng)站檢測。

為了檢驗(yàn)本文提出的釣魚網(wǎng)站檢測方法是否有效，本文選取了隨機(jī)森林(RF)和支持向量機(jī)(SVM)兩種常見類型的分類模型與XGBoost模型進(jìn)行對比，對于特征選擇部分，均采用實(shí)驗(yàn)一提出的mRMR_RF算法。對以上3個模型進(jìn)行5次實(shí)驗(yàn)取其均值最后得出的數(shù)據(jù)如表4所示，其中TPR為真正類率，F(xiàn)PR為負(fù)正類率。由表4可知，本文方法的準(zhǔn)確率最高，達(dá)到90.25%，AUC值也最高，為0.87，真正類率達(dá)到91.35%，負(fù)正類率為10.06%?？梢钥闯霰疚姆椒ǖ木C合性能優(yōu)于RF和SVM分類算法。

表4 基于mRMR-RF特征選擇不同分類器實(shí)驗(yàn)結(jié)果

為了更直觀地看出本文釣魚網(wǎng)站模型預(yù)測的能力，圖5給出了不同分類器的曲線，ROC曲線越往左上角凸說明AUC值越大，AUC值越大說明模型的分類效果越好，可以看出本文提出的基于mRMR-RF特征選擇和XGBoost的釣魚網(wǎng)站檢測方法效果最好。

圖5 不同分類算法的ROC曲線圖

4 結(jié) 語

針對大量冗余不相關(guān)的數(shù)據(jù)導(dǎo)致釣魚網(wǎng)站檢測準(zhǔn)確率不夠，誤判率較高的問題，本文提出一種基于mRMR-RF特征選擇和XGBoost模型的釣魚網(wǎng)站檢測方法。通過結(jié)合mRMR算法和RF算法對特征進(jìn)行相關(guān)性和冗余度的篩選，利用極端梯度提升(XGBoost)算法構(gòu)建釣魚網(wǎng)站檢測模型。本文方法在特征選擇過程相比RF、GR、mRMR、CFS特征選擇算法精確度更高，AUC值也更大，在模型對釣魚網(wǎng)站檢測過程中，應(yīng)用mRMR-RF特征選擇的XGBoost模型相比SVM和RF在精確度和AUC值上具有一定優(yōu)勢。但是本文釣魚預(yù)測的準(zhǔn)確率還可以進(jìn)一步提高，如何找到最優(yōu)特征子集并找到契合該特征子集的模型，提高預(yù)測準(zhǔn)確率將是今后研究的方向。