亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Stacking集成結(jié)構(gòu)的釣魚網(wǎng)站識別

        2023-06-09 08:57:38段金鳳張曉穎
        現(xiàn)代計算機(jī) 2023年7期
        關(guān)鍵詞:特征模型

        段金鳳,張曉穎

        (長春大學(xué)理學(xué)院,吉林 130022)

        0 引言

        網(wǎng)絡(luò)釣魚常常通過創(chuàng)建虛假網(wǎng)站來獲取用戶隱私信息,且存在更新速度快、周期較短等特點(diǎn)。如何及時高效地對釣魚網(wǎng)站進(jìn)行識別是當(dāng)今面臨比較棘手的問題。隨著機(jī)器學(xué)習(xí)深度學(xué)習(xí)算法的發(fā)展,國內(nèi)外研究人員利用其對網(wǎng)絡(luò)釣魚網(wǎng)站識別開展了許多研究。Aggarwal 等[1]提出使用Twitter 上特有特征結(jié)合UTL 特征來構(gòu)建釣魚網(wǎng)站識別模型,達(dá)到了92.52%的準(zhǔn)確性;Liew 等[2]提出了基于隨機(jī)森林算法的預(yù)警機(jī)制,在11個最佳特征上準(zhǔn)確率達(dá)到了94.75%;胡向東等[3]提出一種結(jié)合網(wǎng)頁敏感文本和logo圖像特征的檢測方法,其召回率為97%;周傳華等[4]提出了一種過濾式方法和封裝式方法混合特征選擇模型FSIGR,在特征降維和提高分類精確度方面均有很好的表現(xiàn);畢青松等[5]提出一種基于最大相關(guān)最小冗余和隨機(jī)森林相結(jié)合的特征選擇,并利用XGBoost 算法來構(gòu)建釣魚網(wǎng)站檢測模型,精確度達(dá)到90.25%,其AUC值為0.87。

        為了能更高效識別釣魚網(wǎng)站,本文提出一種基于Stacking 模型融合的釣魚網(wǎng)站識別方法,主要包含以下幾個方面:使用XGBoost算法篩選出最優(yōu)特征子集,在此基礎(chǔ)上選取RF、ET、XGBoost、LightGBM 作為Stacking 第一層基分類模型,最后利用GBDT 算法作為Stacking 第二層元分類模型,對釣魚網(wǎng)站進(jìn)行識別。該方法構(gòu)建基模型進(jìn)行特征學(xué)習(xí),提高釣魚網(wǎng)站識別準(zhǔn)確率。

        1 基礎(chǔ)理論

        1.1 XGBoost

        XGBoost 是一種集成樹模型,是GBDT 的改進(jìn)boosting 算法,具有訓(xùn)練速度快、預(yù)測精度高等優(yōu)點(diǎn)[6]。其簡單目標(biāo)函數(shù)如下:

        為了將目標(biāo)函數(shù)化簡,將常數(shù)項抽離出來,使用泰勒公式進(jìn)行近似展開,得到如下目標(biāo)函數(shù):

        其中:gi表示對?(t?1)的一階導(dǎo)數(shù);hi表示對?(t ?1)的二階導(dǎo)數(shù)。在式(3)中使用函數(shù)f(x) 來表示樹模型,模型的優(yōu)化求解本質(zhì)上是求解參數(shù),為了對模型優(yōu)化求解,需更進(jìn)一步對樹模型參數(shù)進(jìn)行優(yōu)化。定義樹的復(fù)雜度主要從每棵樹葉子節(jié)點(diǎn)數(shù)和葉子節(jié)點(diǎn)權(quán)重兩個方面,可得到Ω(ft)表達(dá)如下:

        其中:T表示葉子節(jié)點(diǎn)數(shù);wj表示第j個葉子節(jié)點(diǎn)的權(quán)重。將式(4)帶入目標(biāo)函數(shù)中,由于常數(shù)并不影響參數(shù)優(yōu)化,可得如下:

        為了使目標(biāo)函數(shù)最小,令其導(dǎo)數(shù)為0,解得每個葉子節(jié)點(diǎn)的最優(yōu)預(yù)測權(quán)重為

        代入式(5)目標(biāo)函數(shù),解得最小損失為

        XGBoost 利用了二階梯度對節(jié)點(diǎn)進(jìn)行劃分,相對于其他GBM 算法精度更高;利用局部近似算法對分裂節(jié)點(diǎn)的貪心算法優(yōu)化;在損失函數(shù)中加入L1/L2正則項,控制模型復(fù)雜度,提高了模型的魯棒性,提高并行計算能力。

        1.2 LightGBM

        LightGBM 是基于決策樹模型的Boosting 算法,由于GBDT尋找合適分割點(diǎn),需要遍歷所有數(shù)據(jù)去計算信息增益,對于大量數(shù)據(jù)而言,計算復(fù)雜度和時間急劇增加。LightGBM 提出針對此問題進(jìn)行優(yōu)化,采用了基于梯度單邊采樣(GOSS)和互斥特征合并(EFB)兩種方法[7]。

        基于梯度單邊采樣在梯度小的數(shù)據(jù)上進(jìn)行隨機(jī)采樣,保留梯度大的數(shù)據(jù),EFB 將許多互斥特征變成低維稠密,減少不必要特征計算,LightGBM 使用這兩種方法去平衡準(zhǔn)確率和效率,減少了計算和時間成本。

        1.3 隨機(jī)森林

        隨機(jī)森林(random forest, RF)是由很多決策樹分類模型組成的組合分類模型,是利用boot?strap 重抽樣方法從原始樣本中抽取多個樣本,對每個bootstrap 樣本進(jìn)行決策樹建模,然后組合多棵決策樹預(yù)測,通過投票得出最終預(yù)測結(jié)果。具有比較高的預(yù)測準(zhǔn)確率,對異常值和噪聲有很好的容忍度且不容易出現(xiàn)過擬合。

        1.4 極端隨機(jī)樹

        極端隨機(jī)樹(extremely randomized tree,ET)中每棵樹都使用所有訓(xùn)練樣本,隨機(jī)選擇分叉特征。與隨機(jī)森林算法類似,但是ET 采用隨機(jī)特征,分裂隨機(jī)減少了信息增益比或者基尼指數(shù)的計算過程,多棵決策樹組合在一起,也可以達(dá)到比較好的預(yù)測效果。

        1.5 梯度提升樹

        梯度提升樹(gradient boosting decision tree,GBDT)的基本思想是根據(jù)當(dāng)前模型損失函數(shù)的負(fù)梯度信息來訓(xùn)練新加入的弱分類器,然后將訓(xùn)練好的弱分類器以累加形式結(jié)合到現(xiàn)有模型中。采用決策樹作為弱分類具有比較好的解釋性和魯棒性,能夠自動發(fā)現(xiàn)特征間高階關(guān)系,并且不需要對數(shù)據(jù)進(jìn)行特殊預(yù)處理,既能處理連續(xù)值也能處理離散值。

        2 Stacking集成學(xué)習(xí)模型

        Stacking 集成算法是由Wolpert[8]在其論文Stacked Generalization 中所提出的,其實(shí)際上是一種串行結(jié)構(gòu)的多層學(xué)習(xí)系統(tǒng)。不同于Bagging和Boosting 集成算法,是分為兩層將不同基礎(chǔ)學(xué)習(xí)器組合起來進(jìn)行模型學(xué)習(xí)[9]。Stacking 先將原始數(shù)據(jù)K?折交叉驗(yàn)證法分成不交叉的K份,K?1份作為訓(xùn)練集,一份作為測試集;其次利用多種分類器作為第一層基分類模型,得出每個分類器預(yù)測的結(jié)果,每個分類器預(yù)測結(jié)果取K?折交叉驗(yàn)證的平均值“生成”一個新數(shù)據(jù)集;最后將新數(shù)據(jù)集作為第二層的輸入特征,使用第二層分類器進(jìn)行預(yù)測。Stacking算法如下:

        在文本中第一層基分類模型為隨機(jī)森林(RF)、極端隨機(jī)樹(ET)、XGBoost 和LightGBM 四種分類器,梯度提升決策樹(GBDT)作為Stacking 集成結(jié)構(gòu)的第二層,也就是對釣魚網(wǎng)站識別的最終分類器。

        圖1 Stacking集成學(xué)習(xí)框架

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)及說明

        本文實(shí)驗(yàn)數(shù)據(jù)來自于UCI 數(shù)據(jù)庫中的phish?ing 數(shù)據(jù)集,數(shù)據(jù)集總條數(shù)為11055,其中釣魚網(wǎng)站數(shù)據(jù)量為4898,占比約為44.4%;非釣魚網(wǎng)站為6157,占比約為55.6%??傆嫲?0 個屬性特征,包括URL_Length、Shortining_Service、SSLfinal_State、SFH等主要特征。實(shí)驗(yàn)環(huán)境如下:實(shí)驗(yàn)平臺為Pycharm;Python 版本為3.8.6;一些常用機(jī)器學(xué)習(xí)庫Pandas、Matplotlib、Sklearn等。

        3.2 評價指標(biāo)

        對于分類問題,模型評價指標(biāo)主要有準(zhǔn)確率(accuracy)、精準(zhǔn)度(precision)、召回率(recall)、F?score和ROC?AUC曲線。

        AUC 是ROC 曲線下的面積,統(tǒng)計意義為從所有正樣本中隨機(jī)抽取一個正樣本,從所有負(fù)樣本中隨機(jī)抽取一個負(fù)樣本,當(dāng)前score 使得正樣本排在負(fù)樣本前面的概率,取值在0.5 到1 之間,越靠近1表示模型性能越好。

        3.3 最優(yōu)特征集選取

        本文數(shù)據(jù)集有30 個屬性,將數(shù)據(jù)80%劃分為訓(xùn)練集,20%劃分為測試集。特征選取過多或過少都會影響到模型的精確度,使用XGBoost進(jìn)行特征篩選,圖2為精確度隨選擇特征重要性閾值和特征個數(shù)k變化的曲線,可知在特征重要性閾值為0.07,k為24時,模型精確度最高。圖3 為24 個重要特征排序結(jié)果。所以最終選取SSLfinal_State、URL_of_Anchor、Prefix_Suffix 等24個重要特征進(jìn)行建模。

        圖2 最優(yōu)特征集選取

        圖3 24個重要特征排序

        3.4 實(shí)驗(yàn)結(jié)果與分析

        為了檢驗(yàn)本文提出的釣魚網(wǎng)站識別模型是否有效,先利用篩選出的最優(yōu)特征集使用XG?Boost、LightGBM 等五種單一學(xué)習(xí)器對釣魚網(wǎng)站進(jìn)行識別預(yù)測。為了提高模型的魯棒性,本文采用Sklearn 庫中StratifiedKFold 對訓(xùn)練數(shù)據(jù)集進(jìn)行五折分層交叉驗(yàn)證,StratifiedKFold 可以讓每一折中都保持著原始數(shù)據(jù)中各個類別的比例關(guān)系,使得驗(yàn)證結(jié)果更加可信。同時使用Grid?SearchCV 對參數(shù)進(jìn)行調(diào)節(jié),提高模型預(yù)測能力,其網(wǎng)格搜索得到最優(yōu)參數(shù)。

        表1是不同分類器模型在最優(yōu)特征集上對釣魚網(wǎng)站識別的結(jié)果,使用XGBoost的準(zhǔn)確率可以達(dá)到96.89%,召回率為95.74%,其AUC 的值為0.9651;LightGBM 對釣魚網(wǎng)站識別的準(zhǔn)確率為97.21%,召回率、F1 指標(biāo)和AUC 的值都比XG?Boost 模型高;RF 和ET 的召回率都可以達(dá)到98%左右,但是F1 指標(biāo)和AUC 的值相對而言并不高。本文提出的Stacking集成模型準(zhǔn)確率達(dá)到了97.96%,召回率為96.24%,F(xiàn)1 指標(biāo)和AUC的值也比其余五個單一分類器高,可見使用Stacking 集成模型對釣魚網(wǎng)站進(jìn)行識別是非常有效的,而且綜合性能也比RF、ET、XGBoost 等單一學(xué)習(xí)器高,盡管它們的預(yù)測能力已經(jīng)比較高了。

        表1 不同分類模型實(shí)驗(yàn)結(jié)果

        為了能更直觀展示本文各個釣魚網(wǎng)站識別模型的預(yù)測能力,圖4 給出了XGBoost、RF、GBDT 和Stacking 集成模型的ROC 曲線以及AUC值,AUC 的值越靠近1 說明模型預(yù)測能力更好,由圖4 可知,使用Stacking 集成模型識別釣魚網(wǎng)站是最好的。

        圖4 不同分類器的ROC曲線

        4 結(jié)語

        隨著互聯(lián)網(wǎng)的快速發(fā)展,快速、有效地識別釣魚網(wǎng)站是非常有必要的。盡管已有文獻(xiàn)已經(jīng)從不同的角度進(jìn)行了研究,但大多研究僅是使用單一機(jī)器學(xué)習(xí)方法,且精確度不高。本文提出一種Stacking集成結(jié)構(gòu)的方法,將RF、ET、XGBoost 和LightGBM 四種不同集成決策樹模型預(yù)測結(jié)果進(jìn)行融合,然后基于GBDT模型進(jìn)行釣魚網(wǎng)站識別。此外本文在對釣魚網(wǎng)站進(jìn)行識別之前,利用XGBoost進(jìn)行特征篩選,去掉冗余特征,得到24 個重要特征組成最優(yōu)特征集。結(jié)果表明,Stacking 集成模型F1 指標(biāo)和AUC 值評價指標(biāo)都高于XGBoost、LightGBM 等五種單一算法??梢姳疚奶岢龅腟tacking集成模型對于釣魚網(wǎng)站的識別效果較好,但本文針對Stacking集成模型并沒有詳細(xì)調(diào)參,如何篩選最優(yōu)特征集和參數(shù)調(diào)節(jié)來提高預(yù)測準(zhǔn)確率是今后研究方向。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        91国产精品自拍在线观看| 毛片免费在线观看网址| 啪啪视频一区二区三区入囗| 青青草视频在线你懂的| 日韩一区二区av极品| 最新日本一道免费一区二区| 久久精品久久久久观看99水蜜桃 | 亚洲一区第二区三区四区| 色一情一乱一伦一视频免费看| 成人看片黄a免费看那个网址| 中文字幕亚洲精品第1页| 亚洲中文字幕一区高清在线| 熟女一区二区三区在线观看| 日韩成人无码| 婷婷综合另类小说色区| av香港经典三级级 在线| 国产最新一区二区三区天堂| 精品国模人妻视频网站| 色爱情人网站| 色狠狠av老熟女| 日韩精品久久久中文字幕人妻| 扒开女性毛茸茸的视频| av无码小缝喷白浆在线观看| 女人扒开下面无遮挡| 久久99精品久久久久九色 | 精品国产一区二区三区a| 在教室伦流澡到高潮hgl动漫 | 无码人妻少妇久久中文字幕蜜桃| 99精品电影一区二区免费看| 一区二区特别黄色大片| 婷婷丁香开心五月综合| 久久婷婷人人澡人人喊人人爽| 精品国产福利在线观看网址2022| 亚洲av一区二区网址| 妺妺窝人体色www在线| 国产精品免费久久久久影院仙踪林 | 欧美性猛交xxxx三人| 亚洲欧美日韩高清专区一区 | 人妻无码Aⅴ中文系列| 青青草视频网站免费看| 日本真人边吃奶边做爽动态图|