亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯優(yōu)化LightGBM的物聯(lián)網(wǎng)入侵檢測(cè)模型*

        2022-10-16 15:45:16劉俊澤湯艷君薛秋爽中國(guó)刑事警察學(xué)院
        警察技術(shù) 2022年5期
        關(guān)鍵詞:貝葉斯準(zhǔn)確率聯(lián)網(wǎng)

        劉俊澤 湯艷君 薛秋爽 中國(guó)刑事警察學(xué)院

        引言

        物聯(lián)網(wǎng)的蓬勃發(fā)展給日常生活與諸多領(lǐng)域帶來(lái)了許多便利。然而,由于物聯(lián)網(wǎng)尚處于脆弱的發(fā)展前期和安全攻擊事件的不斷發(fā)生,導(dǎo)致使用者的隱私和數(shù)據(jù)安全威脅日益增加。物聯(lián)網(wǎng)設(shè)備會(huì)產(chǎn)生大量流量數(shù)據(jù),建立高效精準(zhǔn)的入侵檢測(cè)模型對(duì)于保護(hù)這些隱私數(shù)據(jù)來(lái)說(shuō)至關(guān)重要。

        許多傳統(tǒng)機(jī)器學(xué)習(xí)方法,如支持向量機(jī)、K近鄰等被應(yīng)用于物聯(lián)網(wǎng)入侵檢測(cè)中。但支持向量機(jī)的分類性能受內(nèi)部參數(shù)影響大,K近鄰的分類效率低,單個(gè)弱分類器應(yīng)用于大規(guī)模訓(xùn)練樣本時(shí)計(jì)算速度慢,精度不夠高,不能滿足入侵檢測(cè)的實(shí)時(shí)性要求。集成學(xué)習(xí)的出現(xiàn)很好解決了單個(gè)弱分類器分類精度與速度的問(wèn)題,LightGBM是集成學(xué)習(xí)的一種,是梯度提升決策樹(shù)的高效實(shí)現(xiàn)。但其超參數(shù)有很多,不同的超參數(shù)組合會(huì)對(duì)最終模型的性能產(chǎn)生很大影響。因此應(yīng)用LightGBM算法時(shí)需考慮超參數(shù)的選取。

        本文提出基于貝葉斯優(yōu)化集成學(xué)習(xí)算法LightGBM的物聯(lián)網(wǎng)入侵檢測(cè)模型,根據(jù)貝葉斯優(yōu)化思想設(shè)計(jì)了超參數(shù)尋優(yōu)的過(guò)程,進(jìn)而實(shí)現(xiàn)LightGBM算法的優(yōu)化。對(duì)模型進(jìn)行訓(xùn)練測(cè)試后,得到的結(jié)果與其他機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,得出最終結(jié)論。

        一、基于貝葉斯優(yōu)化LightGBM的入侵檢測(cè)模型

        所提用于物聯(lián)網(wǎng)入侵檢測(cè)的貝葉斯優(yōu)化LightGBM模型如圖1所示,所用的數(shù)據(jù)集為真實(shí)物聯(lián)網(wǎng)入侵檢測(cè)數(shù)據(jù)集,物聯(lián)網(wǎng)網(wǎng)絡(luò)層的特征和攻擊類型與互聯(lián)網(wǎng)有一些差異,因此選擇物聯(lián)網(wǎng)真實(shí)數(shù)據(jù)集來(lái)訓(xùn)練模型,使其更能符合真實(shí)物聯(lián)網(wǎng)的需求。

        圖1 基于貝葉斯優(yōu)化LightGBM的物聯(lián)網(wǎng)入侵檢測(cè)模型

        由于LightGBM模型的參數(shù)眾多,且參數(shù)的選擇對(duì)模型性能的影響很大,因此需對(duì)LightGBM的參數(shù)尋優(yōu)。將預(yù)處理后的數(shù)據(jù)7:3分為訓(xùn)練與測(cè)試數(shù)據(jù),將訓(xùn)練數(shù)據(jù)輸入到參數(shù)尋優(yōu)模塊中,通過(guò)定義目標(biāo)函數(shù)、確定搜索空間、選擇搜索算法與保存最優(yōu)參數(shù)來(lái)獲得使訓(xùn)練集準(zhǔn)確率最優(yōu)的參數(shù),最后將最優(yōu)參數(shù)帶入測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,進(jìn)行十分類預(yù)測(cè),獲得預(yù)測(cè)正常流量和每種攻擊的精確率,進(jìn)而驗(yàn)證模型性能。下一節(jié)將對(duì)參數(shù)尋優(yōu)方法的每個(gè)步驟進(jìn)行詳細(xì)說(shuō)明。

        二、參數(shù)尋優(yōu)過(guò)程

        貝葉斯優(yōu)化(Bayesian)是基于歷史驗(yàn)證結(jié)果來(lái)決策模型下一次迭代參數(shù)的選擇,這個(gè)迭代過(guò)程遠(yuǎn)遠(yuǎn)低于隨機(jī)搜索的迭代次數(shù),這樣的好處是在保證建模時(shí)間短的同時(shí)更好的提升在測(cè)試集上的泛化性能,進(jìn)而提升模型穩(wěn)定性與準(zhǔn)確率。其核心思想是:構(gòu)建一個(gè)初始模型,然后根據(jù)后續(xù)的結(jié)果來(lái)進(jìn)行優(yōu)化。因?yàn)殡S著數(shù)據(jù)的積累,優(yōu)化函數(shù)會(huì)離真正的目標(biāo)函數(shù)越來(lái)越接近,從而得到最優(yōu)解。

        本文根據(jù)貝葉斯優(yōu)化思想設(shè)計(jì)了對(duì)LightGBM的超參數(shù)優(yōu)化過(guò)程,首先輸入初始超參數(shù),計(jì)算得出首輪目標(biāo)函數(shù)值后,訓(xùn)練并通過(guò)高斯搜索算法得出下一組超參數(shù)值,再次帶入計(jì)算目標(biāo)函數(shù)值。在設(shè)定的迭代次數(shù)內(nèi)通過(guò)多次迭代來(lái)實(shí)現(xiàn)對(duì)目標(biāo)函數(shù)最小值的搜索,定義的目標(biāo)函數(shù)需與訓(xùn)練集準(zhǔn)確率呈反比關(guān)系,因此迭代過(guò)程中目標(biāo)函數(shù)最小值的對(duì)應(yīng)參數(shù),即為最佳模型性能的超參數(shù)最優(yōu)解,將其帶入模型中進(jìn)行訓(xùn)練即可得到最優(yōu)模型。

        基于Hyperopt框架的貝葉斯優(yōu)化過(guò)程設(shè)計(jì)主要可分為四個(gè)部分:

        圖2 本文貝葉斯優(yōu)化流程圖

        ①定義目標(biāo)函數(shù):以超參數(shù)作為輸入,通過(guò)計(jì)算返回一個(gè)數(shù)值;

        ②確定搜索空間:給定的超參數(shù)搜索空間;

        ③選擇搜索算法:用來(lái)構(gòu)建下一次迭代參數(shù)值的方法;

        ④獲取最優(yōu)參數(shù):保存優(yōu)化過(guò)程中的最優(yōu)超參數(shù)。

        (一)定義目標(biāo)函數(shù)

        第一步先構(gòu)建一個(gè)以超參數(shù)作為輸入,輸出用于梯度下降的函數(shù)。由于在Hyperopt框架中的目標(biāo)函數(shù)必須返回一個(gè)需要減小的單數(shù)值,算法通過(guò)對(duì)該目標(biāo)值求最小值的過(guò)程,來(lái)實(shí)現(xiàn)參數(shù)優(yōu)化,當(dāng)目標(biāo)函數(shù)的值為最小值時(shí),此時(shí)的模型性能最好。在模型中引入了交叉熵?fù)p失函數(shù)作為參數(shù)尋優(yōu)的目標(biāo)函數(shù),交叉熵?fù)p失函數(shù)可以精確表現(xiàn)出在多分類中模型的性能指標(biāo),損失函數(shù)的值越低,則模型的性能越好,其公式如下:

        式中概率分布p為期望輸出,概率分布q為實(shí)際輸出,H(p,q)為交叉熵。

        目標(biāo)函數(shù)對(duì)于整個(gè)調(diào)參的結(jié)果有著舉足輕重的影響,其能否收斂到最小值關(guān)系到整個(gè)優(yōu)化過(guò)程是否得到最優(yōu)的模型參數(shù)。

        (二)確定搜索空間

        在Hyperopt中制定搜索空間與使用網(wǎng)格搜索(Grid Search)方式不同。在Hyperopt和其他貝葉斯優(yōu)化框架中,搜索空間不是預(yù)先規(guī)定好的列表,而是每個(gè)超參數(shù)的概率分布。對(duì)于每個(gè)超參數(shù),參數(shù)數(shù)量的上下限設(shè)置與網(wǎng)格搜索(Grid Search)并無(wú)區(qū)別,但參數(shù)的間隔不再設(shè)置,而是聲明每個(gè)超參數(shù)的概率。以學(xué)習(xí)率(Learning Rate)為例子,使用Log-Uniform空間定義學(xué)習(xí)率區(qū)間在0.001到0.5。Hyperopt能夠使得空間在0.001~0.05到0.01~0.5的數(shù)量概率一樣,使得其能有一樣的概率被選中,這對(duì)于搜索在分布上跨度較大的超參數(shù)提升很大。

        在Hyperopt中可以使用條件聲明來(lái)制定超參數(shù)間的依賴情況。主要對(duì)八個(gè)參數(shù)進(jìn)行搜索,以達(dá)到尋優(yōu)的目的,具體參數(shù)空間定義如表1所示。

        表1 搜索空間定義

        其中搜索空間定義方式有三種,分別為uniform、loguniform和choice。其中uniform表示變量在最小值和最大值之間均勻分布;log-uniform表示變量在exp(最小值)和exp(最大值)之間均勻分布;choice表示返回一個(gè)選項(xiàng),選項(xiàng)可以是列表或者嵌套的表達(dá)式。

        (三)選擇搜索算法

        根據(jù)模型選擇最佳的搜索算法,根據(jù)返回的目標(biāo)函數(shù)來(lái)選擇下一輪迭代的超參數(shù),在Hyperopt框架中支持三種搜索算法,分別是隨機(jī)搜索算法、模擬退火算法和高斯算法。選擇高斯算法作為搜索算法,其公式如下:

        其中∑為協(xié)方差矩陣, ∑ 為協(xié)方差矩陣的行列式,u為x的平均值。

        在LightGBM中不同的超參數(shù)組合會(huì)使模型的最終預(yù)測(cè)結(jié)果產(chǎn)生很大的變化。由于LightGBM模型具有的超參數(shù)較多,對(duì)模型進(jìn)行調(diào)參會(huì)對(duì)性能提升很大,需搜索出能使模型性能更佳的超參數(shù)。在整個(gè)模型運(yùn)行第一階段需要將初始參數(shù)輸入到模型中,在LightGBM中多分類與二分類的參數(shù)設(shè)置有所差異,由于目標(biāo)為十分類,具體的初始參數(shù)設(shè)置如表2所示。

        表2 模型參數(shù)設(shè)置

        將預(yù)處理好的數(shù)據(jù)集輸入模型后便開(kāi)始參數(shù)尋優(yōu),在參數(shù)尋優(yōu)的過(guò)程中,伴隨著迭代次數(shù)增加,貝葉斯算法會(huì)根據(jù)上一次的loss值來(lái)確定下次帶入的參數(shù),從而確定最優(yōu)參數(shù)值。圖3為訓(xùn)練集準(zhǔn)確率隨迭代次數(shù)的增加而變化值,可以看出,在迭代次數(shù)為22次時(shí),算法得到了最優(yōu)參數(shù),此時(shí)的訓(xùn)練集準(zhǔn)確率達(dá)到99.99%。之后準(zhǔn)確率一直在波動(dòng),直到50輪迭代終止。

        圖3 參數(shù)尋優(yōu)過(guò)程中的訓(xùn)練集準(zhǔn)確率

        圖4為訓(xùn)練集損失函數(shù)隨迭代次數(shù)的變化,在迭代次數(shù)為22輪時(shí),訓(xùn)練集loss降到了局部最低值,此時(shí)的訓(xùn)練集loss值為1.461。

        圖4 訓(xùn)練集loss隨迭代次數(shù)變化

        (四)保存最優(yōu)參數(shù)

        對(duì)LightGBM進(jìn)行超參數(shù)搜索后得到最優(yōu)參數(shù),模型記錄此時(shí)參數(shù),保存為最優(yōu)參數(shù)。Hyperopt內(nèi)部可以保存最終模型參數(shù),如首次效果不佳,可將首次獲得的優(yōu)化參數(shù)二次迭代到優(yōu)化模型中,第二次得出的最優(yōu)參數(shù)模型性能會(huì)大大提升,且在總輪數(shù)相同的條件下,分兩次迭代比單次迭代所耗用的時(shí)間更短。

        三、仿真分析

        (一)實(shí)驗(yàn)背景

        選取由新南威爾士大學(xué)實(shí)驗(yàn)室近期開(kāi)發(fā),專用于物聯(lián)網(wǎng)安全的數(shù)據(jù)集TON_IoT。TON_IoT是新一代物聯(lián)網(wǎng)(IoT)和工業(yè)4.0物聯(lián)網(wǎng)(IIoT)數(shù)據(jù)集,用于評(píng)估基于人工智能的不同網(wǎng)絡(luò)安全應(yīng)用的保真度和效率,即機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)算法。數(shù)據(jù)集可以從新南威爾士大學(xué)網(wǎng)站下載,選取數(shù)據(jù)集中的TON_IoT_Network來(lái)驗(yàn)證提出模型性能指標(biāo),以測(cè)試其在真實(shí)物聯(lián)網(wǎng)流量數(shù)據(jù)中的可靠性。

        TON_IoT_Network數(shù)據(jù)集中包含了44個(gè)網(wǎng)絡(luò)數(shù)據(jù)特征與10個(gè)數(shù)據(jù)類型標(biāo)簽,根據(jù)開(kāi)發(fā)者建議,刪除源和目標(biāo)的ip地址和端口相關(guān)特征后,有效特征有38個(gè),可分為六大類,分別是連接特征、統(tǒng)計(jì)特征、DNS特征、SSL特征、HTTP特征與違規(guī)特征,所有特征數(shù)據(jù)都是在真實(shí)的物聯(lián)網(wǎng)環(huán)境下獲取的,數(shù)據(jù)集從整個(gè)網(wǎng)絡(luò)數(shù)據(jù)集中選擇了461043條記錄,包括所有攻擊和正常事件。這些記錄可用于應(yīng)用多種的機(jī)器學(xué)習(xí)模型,且已經(jīng)平衡化處理,與原始數(shù)據(jù)集相比可以顯著提高模型訓(xùn)練后的性能。該數(shù)據(jù)集的標(biāo)簽共有十個(gè)類別,其中包含一個(gè)正常流量和九個(gè)攻擊類型,目標(biāo)是將數(shù)據(jù)集進(jìn)行十分類,使模型不僅能分辨出正常流量數(shù)據(jù)與攻擊流量數(shù)據(jù),而且還要分辨出每一類的攻擊類型。

        表3 TON_loT_Network標(biāo)簽統(tǒng)計(jì)

        (二)實(shí)驗(yàn)過(guò)程

        1. 訓(xùn)練與測(cè)試

        參數(shù)設(shè)置為優(yōu)化后的最優(yōu)參數(shù),如表4所示。

        表4 模型參數(shù)設(shè)置

        將最優(yōu)參數(shù)帶入至模型中進(jìn)行訓(xùn)練,LightGBM的訓(xùn)練過(guò)程可以解釋為梯度提升樹(shù),圖5表示了參數(shù)設(shè)置樹(shù)的數(shù)量為100時(shí),隨著樹(shù)的提升,訓(xùn)練集與測(cè)試集多分類的損失函數(shù)值的共同變化,且逐漸達(dá)到收斂過(guò)程。

        圖5 最優(yōu)參數(shù)L ightGBM的訓(xùn)練過(guò)程

        2. 特征重要性評(píng)估

        最后利用LightGBM模型對(duì)特征重要性進(jìn)行評(píng)估,為方便表述,在數(shù)據(jù)預(yù)處理階段需對(duì)特征進(jìn)行編號(hào),具體編號(hào)情況在上述特征表格中。圖6為根據(jù)LightGBM得到的最終特征貢獻(xiàn)度,可以看出特征0(流標(biāo)識(shí)符之間連接的時(shí)間戳)對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)最大,其余特征的影響度可以在圖中表示,后續(xù)可以根據(jù)特征結(jié)果再對(duì)特征進(jìn)行處理,以達(dá)到最優(yōu)結(jié)果。

        圖6 特征重要性評(píng)分

        (三)模型對(duì)比分析

        TON_IoT_Network為物聯(lián)網(wǎng)網(wǎng)絡(luò)層數(shù)據(jù)集,將數(shù)據(jù)集以7:3劃分為訓(xùn)練集與測(cè)試集。由于其是在真實(shí)物聯(lián)網(wǎng)環(huán)境中測(cè)得,使用該數(shù)據(jù)集更能顯示出模型在真實(shí)物聯(lián)網(wǎng)環(huán)境中的檢測(cè)性能。LightGBM參數(shù)較多,且不同參數(shù)會(huì)對(duì)模型造成不同影響,模型參數(shù)為貝葉斯優(yōu)化后搜索的最優(yōu)值,模型的參數(shù)設(shè)置如表4,其余未提到的為默認(rèn)值。

        將經(jīng)過(guò)預(yù)處理與特征處理的訓(xùn)練集和測(cè)試集數(shù)據(jù),輸入到多個(gè)機(jī)器學(xué)習(xí)模型訓(xùn)練,結(jié)果詳見(jiàn)表5。

        表5 多種機(jī)器學(xué)習(xí)算法在TON_loT_Network數(shù)據(jù)集上的指標(biāo)結(jié)果

        從表5中可以看到,當(dāng)輸入數(shù)據(jù)集為TON_IoT_Network時(shí),采用的貝葉斯+LightGBM模型在訓(xùn)練集和測(cè)試集上相對(duì)于其他模型的準(zhǔn)確率都要高,訓(xùn)練集多分類準(zhǔn)確率達(dá)到99.99%,測(cè)試集多分類準(zhǔn)確率達(dá)到99.97%,并且誤報(bào)率也能保持在相對(duì)較低水平。

        采用ROC-AUC曲線對(duì)貝葉斯+LightGBM模型進(jìn)行客觀評(píng)價(jià)。ROC曲線越靠近左上角(TPR=1,F(xiàn)PR=0),證明所采用的模型分類效果越理想,area表示每一類攻擊分類的AUC精度。從圖7中可以看出針對(duì)每一類的分類精度都較高,可以實(shí)現(xiàn)高精度的物聯(lián)網(wǎng)入侵檢測(cè)多分類預(yù)測(cè)。

        圖7 貝葉斯+L jghtGBM模型ROC-AUC曲線

        另外,對(duì)于物聯(lián)網(wǎng)入侵檢測(cè)模型來(lái)說(shuō),評(píng)價(jià)其性能指標(biāo)的重要因素還有檢測(cè)時(shí)間,檢測(cè)時(shí)間越短,異常的攻擊行為對(duì)設(shè)備的損失就越小。貝葉斯+LightGBM模型的訓(xùn)練時(shí)間只有7.322s,相對(duì)于其他模型訓(xùn)練時(shí)間為中上水平,而檢測(cè)時(shí)間是0.724s,相對(duì)于模型檢測(cè)時(shí)間與準(zhǔn)確率來(lái)說(shuō),其效率高了很多,尤其是與隨機(jī)森林相比較時(shí),能夠在保證準(zhǔn)確率與誤報(bào)率的同時(shí),明顯縮短檢測(cè)時(shí)間。綜合準(zhǔn)確率和檢測(cè)時(shí)間等指標(biāo),對(duì)于TON_IoT_Network數(shù)據(jù)集,基于貝葉斯優(yōu)化LightGBM構(gòu)建的入侵檢測(cè)模型表現(xiàn)是較好的。

        四、結(jié)語(yǔ)

        目前社會(huì)發(fā)展的智能化轉(zhuǎn)變?yōu)楣补ぷ鲙?lái)了前所未有的挑戰(zhàn),針對(duì)物聯(lián)網(wǎng)的入侵方式愈發(fā)多種多樣,與此同時(shí)物聯(lián)網(wǎng)安全的保護(hù)措施尚未健全,發(fā)展的速度遠(yuǎn)不及攻擊方式更新的速度,因此研究物聯(lián)網(wǎng)入侵檢測(cè)方法為物聯(lián)網(wǎng)安全提供保護(hù)、為公安相關(guān)工作提供便利是研究的出發(fā)點(diǎn)與落腳點(diǎn)。

        本文從物聯(lián)網(wǎng)入侵檢測(cè)模型構(gòu)建的角度,對(duì)LightGBM模型進(jìn)行了參數(shù)優(yōu)化,使其更適應(yīng)物聯(lián)網(wǎng)的攻擊環(huán)境,最終將提出的模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型相對(duì)比,提出的模型在測(cè)試時(shí)間與準(zhǔn)確率上都占優(yōu)勢(shì)。本文研究?jī)?nèi)容為物聯(lián)網(wǎng)設(shè)備的使用安全提供后盾,為用戶的隱私數(shù)據(jù)提供保障,為公安取證工作提供服務(wù),在物聯(lián)網(wǎng)入侵模型構(gòu)建的創(chuàng)新上具有一定意義。

        猜你喜歡
        貝葉斯準(zhǔn)確率聯(lián)網(wǎng)
        “身聯(lián)網(wǎng)”等五則
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        搶占物聯(lián)網(wǎng)
        通信世界(2018年27期)2018-10-16 09:02:56
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        可再生能源與物聯(lián)網(wǎng)
        風(fēng)能(2015年10期)2015-02-27 10:15:34
        日本少妇人妻xxxxx18| 一区在线视频免费播放| 全黄性性激高免费视频| 在线观看国产成人av片| 国内精品久久久久久久亚洲| 日韩亚洲国产中文字幕| 欧美性白人极品1819hd| 国产女主播喷水视频在线观看| 久久亚洲AV成人一二三区| av在线网站一区二区| 国产激情久久久久影院小草| 无码人妻精品丰满熟妇区| 无码一区久久久久久久绯色AV| 国产盗摄一区二区三区av| 蜜臀久久99精品久久久久久| 亚洲国产精品成人无码区| 午夜影视啪啪免费体验区入口| 少妇高潮精品正在线播放| 高潮毛片无遮挡高清视频播放| 女人色毛片女人色毛片18| 无码一区二区三区在| 99久久精品人妻少妇一| 内射欧美老妇wbb| 国产美女免费国产| 国产精品三级国产精品高| 国产麻花豆剧传媒精品mv在线| 婷婷色中文字幕综合在线| 三级全黄的视频在线观看| 日韩精品极品系列在线免费视频| 人妻 日韩 欧美 综合 制服| 日日人人爽人人爽人人片av| 91国语对白在线观看| 精品亚洲麻豆1区2区3区| 亚洲精品久久无码av片软件| 亚洲午夜无码久久久久软件| 穿着白丝啪啪的av网站| 亚洲色在线v中文字幕| 蜜桃在线播放免费一区二区三区| 国产老熟女伦老熟妇露脸| 狠狠躁夜夜躁人人躁婷婷视频| 中文字幕一区二区三区乱码不卡 |