亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的網(wǎng)絡安全風險評估模型研究

        2019-12-10 05:48:46蔡元凱姚善化鄭曉亮
        關(guān)鍵詞:網(wǎng)絡安全模型

        蔡元凱,姚善化,鄭曉亮

        (安徽理工大學電氣與信息工程學院,安徽 淮南 232001)

        移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展帶來了海量的數(shù)據(jù),其中蘊含了許多重要的信息,因此網(wǎng)絡安全愈發(fā)重要。網(wǎng)絡安全主要包括通信網(wǎng)絡系統(tǒng)等在內(nèi)的所有系統(tǒng)相關(guān)的設(shè)備、數(shù)據(jù)、行為以及內(nèi)容安全[1]。網(wǎng)絡安全不僅關(guān)系到個人生活,還關(guān)系到社會穩(wěn)定以及國家的正常運轉(zhuǎn),例如2018年平昌冬奧會開幕式當天,通信網(wǎng)絡系統(tǒng)受到惡意攻擊,導致通信中斷,奧運會官網(wǎng)均陷入癱瘓。因此,人們對網(wǎng)絡安全愈發(fā)重視。

        網(wǎng)絡安全風險評估能科學地分析網(wǎng)絡風險,運用專業(yè)的工具及時發(fā)現(xiàn)網(wǎng)絡中的脆弱點,并采取相應的措施消除脆弱點減少風險[2]。文獻[3]利用貝葉斯網(wǎng)絡通過概率推理來對網(wǎng)絡安全狀況進行預測;文獻[4]則通過改進BP神經(jīng)網(wǎng)絡來進行風險評估;文獻[5]利用隱馬爾科夫方法來建立網(wǎng)絡安全評價模型,此外還有采用層次分析法[6],灰度理論[7],支持向量機[8],模糊推理[9]等來對風險進行預測。由于通信技術(shù)的迅速發(fā)展,數(shù)據(jù)量劇增,以上方法存在對海量數(shù)據(jù)處理效率低,計算速度慢,準確率差,而且過于依賴先驗知識,主觀性強,以及可解釋性不強、建模時間長等問題。

        集成學習是將樣本經(jīng)過若干個基學習器進行分析,然后將所有基學習器分析的結(jié)果集合起來作為最后的結(jié)果。比較典型的方法有隨機森林和梯度提升樹GBDT。隨機森林由許多相互獨立的隨機決策樹并行生成,因此對于高維數(shù)據(jù)具有良好的處理能力,并且能夠輸出特征的重要程度,但是當數(shù)據(jù)噪聲比較大時,易出現(xiàn)過擬合現(xiàn)象。GBDT是由基學習器串行生成,它能靈活處理各種非線性數(shù)據(jù)且具有較高的準確度,但由于難以并行訓練數(shù)據(jù),因此在面對一些高維稀疏的數(shù)據(jù)時,計算復雜度高且比較耗時。這兩種方法現(xiàn)已廣泛的用于流量預測[10]以及入侵檢測[11]等領(lǐng)域。

        1 XGBoost模型及應用

        XGBoost作為集成學習的一個方法,它的基本功能是用若干個弱分類器經(jīng)過迭代后預測一個新的分類隸屬度,樣本分類錯誤的分類器在下一步將獲得更高的權(quán)重,最后組成一個強分類器[12]。這些分類器的學習是以定義一個目標函數(shù)為基礎(chǔ)的,這個函數(shù)表示訓練損失和正則化,前者描述了模型預測的準確率,后者描述了模型的復雜度[13]。XGBoost的基學習器是分類和回歸樹,其核心原理就是不斷地對特征進行分裂,然后通過不斷添加樹的方式更新函數(shù)去擬合之前預測殘存的誤差,集成樹模型為

        (1)

        F={f(x)=wq(x)}(q∶Rm→T,w∈RT)

        (2)

        式中:wq(x)為葉子節(jié)點q的得分,F(xiàn)對應了所有K棵樹的集合,而f(x)為其中一棵樹。當訓練結(jié)束生成k棵樹后,對樣本分數(shù)的預測就是按照特征將每棵樹分數(shù)相加。定義目標函數(shù)為

        (3)

        (4)

        γ對葉子節(jié)點的數(shù)目進行控制,T表示葉節(jié)點的數(shù)目,w表示葉節(jié)點的得分。為了防止過擬合,需要較小的預測誤差以及較少的葉子節(jié)點,并且節(jié)點分數(shù)要合適。這時目標函數(shù)變?yōu)?/p>

        (5)

        式中:Ij為每個葉子節(jié)點j上樣本下標的集合。由于添加了兩個正則項,因此這里g是一階導數(shù),h是二階導數(shù),且

        Gj=∑i∈Ijgi,Hj=∑i∈Ijhi

        (6)

        最終公式(5)可化簡為

        (7)

        使wj導數(shù)為0求得最優(yōu)解代入(7)得

        (8)

        (9)

        其中第一項表示向左分枝得到的增益,第二項為向右分枝得到的增益,第三項表示當前節(jié)點不分裂時得到的增益,γ為代價值。XGBoost使用貪心算法遍歷所有特征的分割點,同時通過設(shè)置閾值來避免樹生長過深。傳統(tǒng)的梯度提升樹模型缺乏正則化因子,使得容易發(fā)生過擬合,而XGBoost通過提供一個正則化項來限制過擬合,從而克服了這個缺點,同時XGBoost為了達到較高的訓練速度而采用了并行化處理,因此,現(xiàn)已廣泛用于金融風控[14]、用戶行為預測[15]等領(lǐng)域。

        2 實驗分析

        (1) 實驗數(shù)據(jù)描述

        環(huán)境因素和人為因素對網(wǎng)絡系統(tǒng)的安全運行影響巨大,其中環(huán)境因素主要包括自然災害以及軟硬件故障等,人為因素主要包括惡意攻擊等行為和誤操作等非惡意行為。以網(wǎng)絡安全風險評估等級分類識別為背景,經(jīng)過對數(shù)據(jù)作預處理后,最終選取了如網(wǎng)絡攻擊等具有代表性的影響因素作為輸入特征,輸出標簽以極低、低、中、高、極高表示風險評估等級,并以1~5進行編號,取值越大,風險等級越高,具體數(shù)據(jù)描述見表1。

        表1 網(wǎng)絡安全風險評估數(shù)據(jù)描述

        (2) 模型構(gòu)建和參數(shù)調(diào)整

        將數(shù)據(jù)集加載入XGBoost工具包進行建模,其中70%為訓練集,剩下30%為測試集對模型進行訓練。XGBoost的常用參數(shù)主要分為通用參數(shù)、學習目標參數(shù)與booster參數(shù)。由于對網(wǎng)絡安全風險劃分等級屬于多分類問題,因此目標函數(shù)(objective)設(shè)置為‘multi:softmax’,類別數(shù)(num_class)設(shè)置為‘5’。

        對于分類模型性能的評價,其評價指標主要有以下幾種。

        精確率(Precision):它反映的是模型預測到某個類別的樣本實際中也屬于那個樣本所占的比率,定義如下

        (10)

        召回率(Recall):它反映的是樣本中能被模型正確分到所屬類別的比率,定義如下

        (11)

        F1值:是精確率和召回率的加權(quán)值,數(shù)值越大表明模型越準確,定義如下

        (12)

        式中:TP為將正樣本預測也為正的樣本數(shù),F(xiàn)P將負樣本預測為正的樣本數(shù),F(xiàn)N為為將正樣本預測為負的樣本數(shù)。

        (13)

        最大樹深(max_depth)是用來避免陷入過擬合。在其他參數(shù)確定的情況下,不斷調(diào)整學習率和最大樹深,當學習率為0.04,最大樹深為6時模型訓練效果最好,實驗結(jié)果如圖1所示。

        圖1 不同學習率和最大深度下性能指標對比

        (3) 實驗結(jié)果和討論

        用訓練完畢后的模型對測試樣本進行預測并輸出結(jié)果,即預測風險評估等級。得到表2的混淆矩陣,其中混淆矩陣對角線上的數(shù)字表示共有64個樣本被正確分配到所屬的類別,非對角線上的數(shù)字表示共有3個樣本未能被正確分類,模型分類準確率為95.52%,分類效果良好。

        表2 模型混淆矩陣

        圖2 特征重要度直方圖

        同時輸出特征重要性直方圖,由圖2可知,軟硬件故障、網(wǎng)絡攻擊以及物理環(huán)境對網(wǎng)絡系統(tǒng)的安全運行有很大影響,在日常的評估及維護工作中需要重點關(guān)注。

        為了比較不同模型之間的性能差異,采用隨機森林和梯度提升樹(GBDT)兩種模型作為對比。隨機森林的學習器只對部分特征進行隨機優(yōu)化,而且對于樣本的抽樣屬于有放回的,且訓練方式為并行,因為他們之間沒有關(guān)聯(lián)關(guān)系;而梯度提升樹的學習器之間存在關(guān)聯(lián)關(guān)系,所以其訓練方式只能是串行,集成方式為加權(quán)和,三種模型的性能比較結(jié)果如表3所示。

        表3 三種模型性能比較

        可以看出,XGBoost相比于GBDT,其運用二階導數(shù)對函數(shù)的近似殘值進行梯度下降,而GBDT只用了一階,所以精度更高。并且XGBoost可根據(jù)特征粒度進行并行計算,提高了計算速度,在實際工業(yè)界的應用中也進行了大量的優(yōu)化,因此擁有良好的泛化性和擴展性。

        3 總結(jié)

        傳統(tǒng)的風險評估方法面對當前復雜的網(wǎng)絡及海量數(shù)據(jù)存在主觀性強、效率低等問題,本文利用XGBoost準確度高、速度快、泛化性強等特點,以影響網(wǎng)絡安全運行相關(guān)因素為輸入構(gòu)建風險評估模型,實驗表明該模型能夠快速準確地對網(wǎng)絡運行狀況劃分等級,且比其他機器學習模型有更高的準確度,可以保障和支持網(wǎng)絡的平穩(wěn)運行。

        猜你喜歡
        網(wǎng)絡安全模型
        一半模型
        網(wǎng)絡安全知多少?
        工會博覽(2023年27期)2023-10-24 11:51:28
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        網(wǎng)絡安全
        網(wǎng)絡安全人才培養(yǎng)應“實戰(zhàn)化”
        上網(wǎng)時如何注意網(wǎng)絡安全?
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        我國擬制定網(wǎng)絡安全法
        聲屏世界(2015年7期)2015-02-28 15:20:13
        日韩毛片在线| 欧洲乱码伦视频免费| 国产精品视频免费播放| 五月天精品视频在线观看| 日韩人妻无码中文字幕一区| 少妇人妻无一区二区三区 | 国产精品亚洲最新地址| 亚洲视频在线一区二区| 成人爽a毛片在线视频| 国产 中文 制服丝袜 另类| 免费看男女啪啪的视频网站| 蜜桃18禁成人午夜免费网站| 少妇丰满大乳被男人揉捏视频| 亚洲成av人片天堂网九九| 热门精品一区二区三区| 在线视频观看国产色网| 色噜噜狠狠一区二区三区果冻| 亚洲制服无码一区二区三区| 国产精品第一区亚洲精品| 国产成人精品优优av| 久久精品国产亚洲av天| 美女把尿囗扒开让男人添| 欧美在线日韩| 日本一道高清在线一区二区| 无码熟妇人妻av在线网站 | 免费女同毛片在线不卡| 性色视频加勒比在线观看| 精品亚洲成在人线av无码| 亚洲日韩区在线电影| 国产成人综合久久大片| 日本少妇高潮喷水xxxxxxx| 岛国AV一区二区三区在线观看| 亚洲区福利视频免费看| 久久天堂精品一区二区三区四区| 成人免费一区二区三区| 亚洲高清有码在线观看| 亚洲成人一区二区三区不卡| 国产午夜精品一区二区| 在线播放国产女同闺蜜| 第九色区Aⅴ天堂| 东北熟妇露脸25分钟|