亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于無(wú)監(jiān)督學(xué)習(xí)的智能電網(wǎng)入侵檢測(cè)①

        2022-09-20 04:11:00余亞聰張立武邱蘭馨秦中元
        關(guān)鍵詞:特征智能檢測(cè)

        李 洋, 余亞聰, 張立武, 邱蘭馨, 曹 委, 秦中元

        1(南瑞集團(tuán)有限公司(國(guó)網(wǎng)電力科學(xué)研究院有限公司), 南京 211106)

        2(東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院, 南京 211189)

        3(國(guó)網(wǎng)浙江省電力有限公司信息通信分公司, 杭州 310016)

        眾所周知, 電力是主要能源之一, 在工業(yè)和生活中發(fā)揮著不可替代的作用. 隨著信息和通信技術(shù)(information and communication technology, ICT)的最新進(jìn)展, 智能電網(wǎng)(smart grid, SG)提供了一個(gè)經(jīng)濟(jì)、高效、可持續(xù)的電力系統(tǒng), 已經(jīng)被廣泛引入. 智能電網(wǎng)生態(tài)系統(tǒng)通常由多個(gè)智能設(shè)備組成, 包括智能計(jì)量、收集和監(jiān)測(cè)系統(tǒng), 它們能夠產(chǎn)生大量通過(guò)互聯(lián)網(wǎng)進(jìn)行傳輸?shù)臄?shù)據(jù). 然而, 在許多物理網(wǎng)絡(luò)系統(tǒng)中(如智能電網(wǎng)),標(biāo)準(zhǔn)通信協(xié)議缺乏基本的安全措施, 如加密和認(rèn)證, 這使得工業(yè)網(wǎng)絡(luò)特別容易受到攻擊[1]. 2020年4月, 葡萄牙的一家跨國(guó)天然氣和電力能源公司受到Ragnar Locker勒索軟件的攻擊, 被索求巨額贖金. 同年6月, 巴西電力公司Light S.A.同樣被黑客勒索了巨額贖金.

        在當(dāng)今的智能電網(wǎng)系統(tǒng)中, 特別是在高級(jí)計(jì)量基礎(chǔ)設(shè)施(advanced metering infrastructure, AMI)中, 通常會(huì)收集和傳輸用戶的地理位置、身份表示和電力消耗. 一旦攻擊者破壞了智能電力終端, 如智能電表,用戶的私人信息將會(huì)面臨被泄露的風(fēng)險(xiǎn). 攻擊者可以根據(jù)用戶分時(shí)段的用電情況推斷出用戶的用電模式,從而推斷出用戶的出行習(xí)慣, 并在用戶不在家時(shí)實(shí)施入室盜竊. 所以先進(jìn)的入侵檢測(cè)安全架構(gòu)是智能電網(wǎng)的一個(gè)重要組成部分. 它不僅可以通過(guò)智能終端以規(guī)定的方式收集和分析用戶的電力數(shù)據(jù), 還能提供雙向的通信.

        目前, 智能電力系統(tǒng)主要由一系列承擔(dān)不同角色的智能嵌入式電力終端組成, 如配電終端單元、變壓器終端單元、饋線終端單元等. 這些智能嵌入式終端通過(guò)與智能電網(wǎng)的互動(dòng)傳輸電力信息, 使整個(gè)網(wǎng)絡(luò)更加智能化. 然而目前智能電力系統(tǒng)主要存在以下兩個(gè)問(wèn)題: (1) 電力信息復(fù)雜且數(shù)據(jù)量龐大, 常規(guī)的入侵檢測(cè)系統(tǒng)難以應(yīng)對(duì)如此繁重的計(jì)算壓力. (2) 在引入大量異構(gòu)電力智能終端設(shè)備的同時(shí), 這些設(shè)備本身也存在大量漏洞, 容易被攻擊者利用, 成為進(jìn)一步攻擊電網(wǎng)主站的跳板. 一旦電力智能終端被入侵, 整個(gè)電網(wǎng)將面臨被破壞的可能.

        為了解決智能終端被入侵的問(wèn)題, 近年來(lái)國(guó)內(nèi)外學(xué)者提出了許多研究方案. Hinton等人[2]提出了使用自編碼器來(lái)識(shí)別異常數(shù)據(jù), Zong等人[3]提出深度自編碼高斯混合模型用于無(wú)監(jiān)督的異常檢測(cè), 解決了單一高斯分布不能適應(yīng)復(fù)雜分布的問(wèn)題. 但他們只是根據(jù)重建誤差來(lái)檢測(cè)異常, 缺乏客觀性和可變性.

        本文對(duì)于智能電網(wǎng)的入侵檢測(cè)進(jìn)行了深入的研究,提出了區(qū)域式訓(xùn)練(block-training, BT)架構(gòu), 使智能終端的IDS適應(yīng)本地流量特征, 并通過(guò)合理分配計(jì)算資源, 進(jìn)一步分散計(jì)算中心的計(jì)算壓力. 此外, 還提出了基于交叉驗(yàn)證的遞歸特征消除的差分自編碼器算法(RFECV-VAE), 在特征選擇過(guò)程使用遞歸特征消除交叉驗(yàn)證法, 異常檢測(cè)采用差分自編碼器, 經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,該算法更適合于高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)集, 具有較高的準(zhǔn)確性和較少的檢測(cè)時(shí)間.

        本文的其余部分組織如下: 第2節(jié)概述了當(dāng)前領(lǐng)域內(nèi)的相關(guān)研究工作, 第3節(jié)介紹了本文的研究方法,包括BT架構(gòu)和RFECV-VAE算法, 第4節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析并且對(duì)模型屬性進(jìn)行相關(guān)評(píng)估, 第5節(jié)給出了本文的結(jié)論和對(duì)日后發(fā)展方向的思考.

        1 智能電網(wǎng)入侵檢測(cè)相關(guān)工作

        1.1 智能電網(wǎng)領(lǐng)域中的網(wǎng)絡(luò)安全威脅

        由于網(wǎng)絡(luò)威脅層出不窮, 關(guān)鍵基礎(chǔ)設(shè)施的網(wǎng)絡(luò)安全, 特別是智能電網(wǎng)安全越來(lái)越引起人們的重視.智能電網(wǎng)安全問(wèn)題可能來(lái)自許多方面, 如黑客攻擊、網(wǎng)絡(luò)犯罪和網(wǎng)絡(luò)戰(zhàn)爭(zhēng).

        Hahn[4]提出, 為了使攻擊對(duì)系統(tǒng)產(chǎn)生負(fù)面影響, 攻擊者不僅需要知道如何破壞電網(wǎng)的網(wǎng)絡(luò)元素, 還需要知道如何控制網(wǎng)絡(luò)元素來(lái)操縱物理系統(tǒng). 為了解決智能電網(wǎng)通信中存在的認(rèn)證問(wèn)題, Aghapour等人[5]提出通過(guò)使用基于知識(shí)、占有和生物識(shí)別的3個(gè)認(rèn)證因素來(lái)加強(qiáng)對(duì)用戶的身份認(rèn)證, 以達(dá)到防御偽裝攻擊的目的.

        1.2 入侵檢測(cè)算法研究

        近年來(lái), 在異常檢測(cè)領(lǐng)域提出了許多新方法.在本節(jié)中, 我們回顧并總結(jié)了近年來(lái)提出的入侵檢測(cè)算法.

        支持向量機(jī)(support vector machines, SVM)[6]是一種可以將n維空間數(shù)據(jù)進(jìn)行分類(lèi)的方法. Winter等人[7]提出了一種感應(yīng)式網(wǎng)絡(luò)IDS, 它使用OCSVM (one-class SVM)作用于網(wǎng)絡(luò)流量的識(shí)別并進(jìn)行分析. Wagner等人[8]提出了一種基于SVM的處理大量網(wǎng)絡(luò)流記錄的檢測(cè)方法.

        聚類(lèi)方法在檢測(cè)數(shù)據(jù)集的獨(dú)特性方面表現(xiàn)良Casas等人[9]提出了一種基于異常檢測(cè)的IDS, 它通過(guò)使用各種無(wú)監(jiān)督聚類(lèi)方法將網(wǎng)絡(luò)中的數(shù)據(jù)包隨機(jī)地收集成流, 以達(dá)到檢測(cè)網(wǎng)絡(luò)流異常的目的. Hosseinpour等人[10]提出了一種基于無(wú)監(jiān)督聚類(lèi)和人工免疫系統(tǒng)的分布式IDS, 取得了不錯(cuò)的檢測(cè)結(jié)果.

        決策樹(shù)(decision tree, DT)根據(jù)樹(shù)的每個(gè)節(jié)點(diǎn)的值建立規(guī)則, 并生成一個(gè)樹(shù)模型. Thaseen等人[11]討論了基于決策樹(shù)的各種算法在入侵檢測(cè)分類(lèi)中的效果和影響. Stevanovic等人[12]提出了一種有效的方法來(lái)檢測(cè)僵尸網(wǎng)絡(luò). 結(jié)果顯示, 在有監(jiān)督的機(jī)器學(xué)習(xí)方法中, 隨機(jī)森林(random forest, RF)方法表現(xiàn)最好. Zhou[13]提出, 異?,F(xiàn)象有兩個(gè)明顯的特征: 少和不同. 這兩個(gè)特點(diǎn)使得異常現(xiàn)象更容易受到一種叫做隔離的機(jī)制的影響. 所以他設(shè)計(jì)了一個(gè)可以有效構(gòu)建隔離實(shí)例的二叉樹(shù)結(jié)構(gòu), 稱(chēng)為隔離樹(shù)(iTree). 由于對(duì)隔離的敏感性, 離群點(diǎn)和正常點(diǎn)都分布在iTree的兩端, 較淺的點(diǎn)更可能是離群點(diǎn), 較深的點(diǎn)更可能是正常點(diǎn). Jiang等人[14]提出, 他們提出的PSO-XGBoost模型顯示出比其他替代模型更高的分類(lèi)精度.

        人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)的目標(biāo)是模擬人體的神經(jīng)網(wǎng)絡(luò). Song等人[15]提出了一個(gè)使用反向傳播神經(jīng)網(wǎng)絡(luò)分類(lèi)器和統(tǒng)計(jì)特征向量的異常檢測(cè)系統(tǒng). Siniosoglou等人[16]根據(jù)自編碼器和對(duì)抗生成網(wǎng)絡(luò), 提出了一種適用于智能電網(wǎng)的入侵檢測(cè)系統(tǒng),并且通過(guò)實(shí)驗(yàn)證明了該系統(tǒng)的有效性. Abuadlla等人[17]提出了一種IDS, 以檢測(cè)基于流量的數(shù)據(jù)中的一些特定的入侵行為. Vinayakumar等人[18]創(chuàng)建了一個(gè)高效的IDS, 基于深度神經(jīng)網(wǎng)絡(luò), 可以通過(guò)監(jiān)督學(xué)習(xí)方法識(shí)別突發(fā)的入侵行為. Mendon?a等人[19]提出了一種基于樹(shù)-卷積神經(jīng)網(wǎng)絡(luò)分層算法和軟根-符號(hào)激活函數(shù)的算法.該模型減少了生成模型的訓(xùn)練時(shí)間, 并被用于檢測(cè)DDoS、網(wǎng)絡(luò)攻擊. Andresini等人[20]提出了一種新穎的深度學(xué)習(xí)方法, 該方法使用卷積神經(jīng)網(wǎng)絡(luò), 為計(jì)算機(jī)網(wǎng)絡(luò)提供了一種有效的方法來(lái)分析網(wǎng)絡(luò)流量, 以區(qū)分惡意活動(dòng). Rajadurai等人[21]提出了結(jié)合多種機(jī)器學(xué)習(xí)算法的堆疊式集合學(xué)習(xí).

        1.3 差分自編碼器

        自編碼器(autoencoder, AE)是一種神經(jīng)網(wǎng)絡(luò)方法,基本上由一個(gè)編碼器和一個(gè)解碼器構(gòu)成, 它能夠以無(wú)監(jiān)督的方式將輸入向量重建為輸出向量[22]. Hinton等人[2]提出, 使用自編碼器可以降低高維數(shù)據(jù)的維度. Zong等人[3]提出了深度自動(dòng)編碼高斯混合模型, 用于無(wú)監(jiān)督的異常檢測(cè). Vincent等人[23]提出了一種具有更強(qiáng)的特征學(xué)習(xí)能力的基于去噪自編碼器的結(jié)構(gòu). Kingma等人[24]介紹了一種基于隨機(jī)變異推理和學(xué)習(xí)的算法, 在具有連續(xù)潛變量和后驗(yàn)分布的大數(shù)據(jù)集的情況下, 能有效地推斷和學(xué)習(xí)有向概率模型. An等人[25]提出了利用差分自編碼器中重建概率來(lái)檢測(cè)異常. Li等人[26]提出了基于隨機(jī)森林算法的自編碼器入侵檢測(cè)系統(tǒng), 該算法可以預(yù)測(cè)自編碼器的結(jié)果, 在檢測(cè)時(shí)間和檢測(cè)精度上表現(xiàn)更好.

        差分自編碼器是一種有向概率圖形模型, 其后驗(yàn)概率由神經(jīng)網(wǎng)絡(luò)逼近, 形成一種類(lèi)似于自動(dòng)編碼器的結(jié)構(gòu). VAE的結(jié)構(gòu)如圖1所示[25].

        圖1 差分自編碼器架構(gòu)

        圖1的左半部分是編碼過(guò)程, 右半部分是解碼過(guò)程. x是模型的原始輸入, z是模型的潛變量. qφ(z|x)是近似后驗(yàn). z是由采樣和輸入數(shù)據(jù)x的參數(shù)生成的, 它不僅包含x的信息, 而且滿足高斯分布, 便于后續(xù)梯度下降或其他優(yōu)化技術(shù)的應(yīng)用. pθ(x|z)代表在給定潛伏變量z時(shí), 數(shù)據(jù)x的可能性.是基于潛伏變量z產(chǎn)生的新樣本. 從訓(xùn)練好的VAE概率編碼器中提取大量樣本進(jìn)行測(cè)試, 在每次計(jì)算中, 輸入是編碼器的每個(gè)樣本, 輸出是概率解碼器根據(jù)算法輸出的均值和方差參數(shù).根據(jù)輸出的均值和方差, 可以計(jì)算出從分布中產(chǎn)生原始數(shù)據(jù)的概率. 異常判斷的標(biāo)準(zhǔn)是, 重建概率低于所劃定的閾值的數(shù)據(jù)點(diǎn)將被歸類(lèi)為異常點(diǎn). 重建概率和重建誤差在許多方面是不同的[25]. 重建概率閾值的決定是比較客觀、合法和容易獲得的.

        2 基于區(qū)域式訓(xùn)練架構(gòu)模型的智能電網(wǎng)入侵檢測(cè)模型

        智能電網(wǎng)信息系統(tǒng)由3個(gè)重要組成部分組成: 智能終端、數(shù)據(jù)中心和中央系統(tǒng).目前的智能電網(wǎng)系統(tǒng)存在兩個(gè)問(wèn)題: (1) 智能終端的計(jì)算資源分配不均, 導(dǎo)致有的區(qū)域沒(méi)有計(jì)算資源對(duì)細(xì)微的異常進(jìn)行識(shí)別, 而有的區(qū)域計(jì)算資源處于空閑狀態(tài). (2) 不同類(lèi)型和地區(qū)的終端受到的攻擊具有局域性. 為了解決這些問(wèn)題, 本文提出了基于區(qū)域式訓(xùn)練架構(gòu)模型的智能電網(wǎng)入侵檢測(cè)模型, 如圖2所示.

        圖2 區(qū)域式訓(xùn)練系統(tǒng)架構(gòu)模型

        如圖2所示, 我們?cè)谶壿嬌蠈⒕W(wǎng)絡(luò)分為電力網(wǎng)絡(luò)和通信網(wǎng)絡(luò). 電力網(wǎng)絡(luò)主要負(fù)責(zé)傳輸能量流, 而通信網(wǎng)絡(luò)則負(fù)責(zé)傳輸信息流. 該架構(gòu)中主要分為4層, 分別是電力物理層、電力設(shè)備層、電力網(wǎng)絡(luò)層和電力應(yīng)用層.下面對(duì)各層進(jìn)行介紹.

        2.1 電力物理層

        電力物理層涉及與發(fā)電、輸電和配電有關(guān)的物理層設(shè)施, 負(fù)責(zé)底層電力的生成、運(yùn)輸和分配等功能.

        2.2 電力設(shè)備層

        電力設(shè)備層包括各種電力終端, 如智能電表、配電終端單元、變壓器終端單元等. 電力采集模塊從電力網(wǎng)絡(luò)中采集電力信息, 經(jīng)處理器處理后, 電力信息通過(guò)通信模塊與通信網(wǎng)絡(luò)進(jìn)行交互. 我們將邏輯上相鄰的一些智能終端組合成一個(gè)區(qū)塊, 在一個(gè)區(qū)塊中, 擁有最高計(jì)算能力的終端將被選為區(qū)塊的領(lǐng)導(dǎo)者(leader),其他成員為追隨者(follower). Leader可以根據(jù)一段時(shí)間內(nèi)的實(shí)際流量來(lái)對(duì)區(qū)塊的入侵識(shí)別模型進(jìn)行訓(xùn)練,在訓(xùn)練完模型后, 它將參數(shù)推送給同一區(qū)塊的follower終端, follower終端根據(jù)leader發(fā)送的參數(shù)更新自己識(shí)別模型的參數(shù).如果leader超過(guò)一定的時(shí)間沒(méi)有發(fā)送更新的參數(shù), 可以認(rèn)為leader已經(jīng)失去了作為領(lǐng)導(dǎo)者的能力, 該區(qū)塊中將重新選舉出一個(gè)新的leader. 通過(guò)這種方式, 普通終端只參與異常的識(shí)別, 而不參與模型的訓(xùn)練, 這樣可以分?jǐn)倲?shù)據(jù)中心的計(jì)算壓力, 并且可以減少絕大多數(shù)的終端重復(fù)計(jì)算造成的計(jì)算資源浪費(fèi).

        2.3 電力網(wǎng)絡(luò)層

        電力網(wǎng)絡(luò)層由無(wú)線網(wǎng)絡(luò)、互聯(lián)網(wǎng)、電力專(zhuān)用網(wǎng)等組成. 電力網(wǎng)絡(luò)層負(fù)責(zé)電力設(shè)備和網(wǎng)絡(luò)層之間的信息流傳輸. 該層是網(wǎng)絡(luò)攻擊的主要目標(biāo), 攻擊者通過(guò)截取、竊聽(tīng)、篡改該層的信息報(bào)文進(jìn)行攻擊.

        2.4 電力應(yīng)用層

        電力應(yīng)用層主要包括電力數(shù)據(jù)中心和中央系統(tǒng)控制平臺(tái). 除了存儲(chǔ)所有的電力信息外, 該層還負(fù)責(zé)每個(gè)區(qū)塊的leader的選舉和管理. 為了保證數(shù)據(jù)中心的安全, 數(shù)據(jù)中心的IDS必須具有最高的安全級(jí)別. 因此,數(shù)據(jù)中心的IDS使用網(wǎng)絡(luò)中出現(xiàn)的所有信息流進(jìn)行訓(xùn)練以保證數(shù)據(jù)中心的安全.

        總而言之, 區(qū)塊訓(xùn)練和leader-follower模式不僅可以分散數(shù)據(jù)中心的計(jì)算壓力, 減少部分終端重復(fù)計(jì)算的資源浪費(fèi), 還可以使特定范圍內(nèi)的終端準(zhǔn)確地識(shí)別自己網(wǎng)段的異常情況.

        3 基于交叉驗(yàn)證的遞歸特征消除的差分自編碼器算法

        本文提出的RFECV-VAE算法分為訓(xùn)練和測(cè)試兩部分. 圖3是RFECV-VAE訓(xùn)練過(guò)程的流程圖, 圖4是測(cè)試過(guò)程流程圖. 在圖3中, 左邊部分展示了特征選擇過(guò)程, 右邊部分展示了訓(xùn)練過(guò)程. 訓(xùn)練的目的是通過(guò)對(duì)正常數(shù)據(jù)的訓(xùn)練, 獲得決定編碼和解碼結(jié)果的參數(shù)θ和Φ. 圖4中, 本算法將通過(guò)對(duì)計(jì)算出的測(cè)試數(shù)據(jù)的重建概率和設(shè)定的閾值進(jìn)行比較以檢測(cè)其是否為異常數(shù)據(jù). 該算法的實(shí)現(xiàn)步驟如下.

        圖3 RFECV-VAE算法訓(xùn)練流程圖

        圖4 RFECV-VAE算法訓(xùn)練流程圖

        3.1 預(yù)處理過(guò)程

        預(yù)處理包括以下步驟: 采樣、獨(dú)熱編碼、歸一化和特征選擇.

        (1) 采樣

        基準(zhǔn)數(shù)據(jù)集將被分為兩部分: 訓(xùn)練集和測(cè)試集. 由于基準(zhǔn)數(shù)據(jù)集中存在DDoS攻擊, 異常數(shù)據(jù)量遠(yuǎn)大于正常數(shù)據(jù)量, 所以有必要對(duì)數(shù)據(jù)集進(jìn)行抽樣.

        本文提出的算法是基于無(wú)監(jiān)督學(xué)習(xí)的. 因此, 訓(xùn)練模型只需要對(duì)正常數(shù)據(jù)集進(jìn)行訓(xùn)練, 以學(xué)習(xí)正常數(shù)據(jù)的特征. 為了驗(yàn)證模型識(shí)別異常的能力, 測(cè)試集中的異常數(shù)據(jù)量應(yīng)該與正常數(shù)據(jù)量相似.

        (2) 獨(dú)熱編碼

        每條數(shù)據(jù)的特征類(lèi)型分為數(shù)字特征和字符特征.為了使模型能夠?qū)W習(xí)字符特征, 我們對(duì)字符特征進(jìn)行一次獨(dú)熱編碼, 將其轉(zhuǎn)為數(shù)字特征, 使得字符特征之間的距離計(jì)算更加合理, 但會(huì)造成特征數(shù)量的增加.

        (3) 歸一化

        為了使數(shù)據(jù)更具可比性, 采用最大和最小歸一化方法, 使所有特征指標(biāo)在處理后處于同一數(shù)量級(jí), 以減少極端特征取值對(duì)準(zhǔn)確率的影響. 計(jì)算公式見(jiàn)式(1),其中, xmax表示該特征在所有樣本中的最大值, xmin表示該特征在所有樣本中的最小值, xnorm表示特征歸一化后取值, 取值范圍在0到1之間.

        3.2 特征選擇

        經(jīng)過(guò)獨(dú)熱編碼, 特征維度明顯增加. 為了降低模型學(xué)習(xí)的難度, 我們對(duì)數(shù)據(jù)進(jìn)行特征篩選, 選擇最能代表數(shù)據(jù)的特征. 這里我們使用遞歸特征消除交叉驗(yàn)證法.遞歸特征消除(recursive feature elimination, RFE)的主要思想是反復(fù)建立模型并選擇最好(或最差)的特征,然后把選擇的特征放在一邊, 最后對(duì)剩下的特征重復(fù)這個(gè)過(guò)程, 直到所有的特征都被遍歷. 這個(gè)過(guò)程中消除的順序就是特征的排序. 交叉驗(yàn)證(cross-validation,CV)的目的是為了對(duì)RFE的結(jié)果進(jìn)行驗(yàn)證, 具體的步驟如下: 首先, 根據(jù)在RFE階段確定的特征重要性, 依次選擇不同數(shù)量的特征. 之后對(duì)選定的特征集進(jìn)行交叉驗(yàn)證, 最后確定平均得分最高的特征集.

        3.3 VAE算法

        異常檢測(cè)任務(wù)是以無(wú)監(jiān)督的方式執(zhí)行的, 這意味著只有正常的數(shù)據(jù)樣本可以被用來(lái)訓(xùn)練VAE. 訓(xùn)練過(guò)程中, 概率解碼器gθ和編碼器 fφ分別對(duì)原始輸入變量空間和潛在變量空間的多向正態(tài)分布進(jìn)行參數(shù)化. 測(cè)試過(guò)程是通過(guò)從訓(xùn)練好的VAE模型, 對(duì)每個(gè)測(cè)試用例產(chǎn)生的平均值和方差參數(shù)來(lái)計(jì)算從分布中產(chǎn)生的原始數(shù)據(jù)的概率, 也稱(chēng)為重構(gòu)概率(reconstruction probability,RP), 重構(gòu)概率和預(yù)先設(shè)定的閾值進(jìn)行比較, 比較結(jié)果作為異常的判定準(zhǔn)則. 其中, 重構(gòu)概率計(jì)算方式是通過(guò)對(duì)Eqφ(z|x)[logpθ(x|z)]的Monte Carlo估計(jì).

        RP通過(guò)使用原始輸入變量分布參數(shù)的隨機(jī)潛在變量來(lái)計(jì)算的. 這基本上等同于從近似后驗(yàn)分布中提取的一些潛在變量產(chǎn)生數(shù)據(jù)的概率. 當(dāng)重建概率大于閾值時(shí), 代表該數(shù)據(jù)為異常數(shù)據(jù).

        4 實(shí)驗(yàn)分析

        4.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)環(huán)境包括硬件設(shè)備和軟件環(huán)境. 硬件設(shè)備方面, 我們采用了智能配電終端PDZ 932. 該終端集成了供電信息采集、存儲(chǔ)和傳輸、負(fù)荷控制、設(shè)備通信聯(lián)網(wǎng)和狀態(tài)監(jiān)測(cè)、決策和本地分析、協(xié)同計(jì)算和主站通信等功能. 模型的訓(xùn)練是在Core i7處理器和GTX1050Ti顯卡的計(jì)算機(jī)中進(jìn)行的. 軟件環(huán)境方面, 我們使用Python 3環(huán)境和TensorFlow庫(kù).

        4.2 數(shù)據(jù)準(zhǔn)備

        我們?cè)?021年4月和2021年6月期間從電力終端收集了大約300萬(wàn)條傳輸信息, 其中每一條都代表了電力終端和主站之間的一次通信. 由于電力終端的傳輸報(bào)文是基于TCP/IP協(xié)議, 我們對(duì)報(bào)文進(jìn)行分析和挖掘, 可以實(shí)現(xiàn)對(duì)電力網(wǎng)絡(luò)層的安全防護(hù). 在實(shí)際收集到的流量包中, 主要有以下4類(lèi)異常情況: 拒絕服務(wù)攻擊(DoS)、遠(yuǎn)程機(jī)器未授權(quán)認(rèn)證(R2L)、本地用戶未授權(quán)訪問(wèn)(U2R)和端口檢測(cè)(Probing).

        4.3 數(shù)據(jù)預(yù)處理

        首先, 需要對(duì)從電力終端采集的數(shù)據(jù)進(jìn)行重建, 以平衡正常樣本和異常樣本. 經(jīng)過(guò)數(shù)據(jù)采樣, 我們構(gòu)建了訓(xùn)練集和測(cè)試集, 數(shù)據(jù)結(jié)構(gòu)如表1所示.

        表1 訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的分布

        表1中, 正常數(shù)據(jù)按照7:3劃分, 70%的正常數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù), 另外30%作為測(cè)試機(jī)的正常數(shù)據(jù).攻擊數(shù)據(jù)共包含238 047條各種攻擊類(lèi)型的數(shù)據(jù). 由于該算法屬于無(wú)監(jiān)督學(xué)習(xí), 訓(xùn)練集不包括異常數(shù)據(jù), 模型只學(xué)習(xí)正常數(shù)據(jù)的特征. 測(cè)試集為了檢測(cè)不同類(lèi)型的異常, 設(shè)置正常數(shù)據(jù)和異常數(shù)據(jù)的比例在1:1左右.

        然后, 在獨(dú)熱編碼階段, 采樣數(shù)據(jù)的維度會(huì)增加,因?yàn)樽址?lèi)型的特征被替換成數(shù)字特征. 對(duì)于所收集的數(shù)據(jù)集, 字符類(lèi)型的特征是協(xié)議類(lèi)型(protocol type)、標(biāo)志(flag)和服務(wù)(service). 在獨(dú)熱編碼之后, 特征從41維變成118維.

        最后, 對(duì)所有的數(shù)字特征進(jìn)行歸一化, 使其取值全部處于同一范圍內(nèi).

        4.4 特征選擇

        本實(shí)驗(yàn)特征選擇階段選擇的模型是隨機(jī)森林, 評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率. 圖5顯示了模型準(zhǔn)確率與所選數(shù)據(jù)特征數(shù)量的變化.

        從圖5中可以看出, 當(dāng)選擇的特征數(shù)量達(dá)到16個(gè)左右時(shí), 準(zhǔn)確率達(dá)到了峰值. 繼續(xù)增加特征選擇的數(shù)量并不會(huì)明顯提高準(zhǔn)確率, 反而會(huì)增加維度, 不利于模型的訓(xùn)練. 因此, 我們選擇最適合本實(shí)驗(yàn)的特征, 對(duì)原始數(shù)據(jù)進(jìn)行處理. 最后所選特征為dst_host_count, dst_bytes,logged_in, count, srv_count, same_srv_rate, service_ecr_i, diff_srv_rate, dst_host_srv_count, dst_host_same_srv_rate, protocol_type_icmp, dst_host_diff_srv_rate, service_http, src_bytes, dst_host_rerror_rate,dst_host_same_src_port_rae.

        圖5 交叉驗(yàn)證得分和特征選擇數(shù)量的關(guān)系曲線圖

        4.5 參數(shù)設(shè)置

        為了避免單一抽樣的隨機(jī)性, 我們進(jìn)行了20輪實(shí)驗(yàn), 將每個(gè)實(shí)驗(yàn)的結(jié)果疊加, 取平均值作為最終結(jié)果.模型的具體參數(shù)設(shè)置見(jiàn)表2.

        表2 訓(xùn)練模型中參數(shù)的設(shè)置

        4.6 實(shí)驗(yàn)評(píng)估

        除了選擇準(zhǔn)確率和訓(xùn)練時(shí)間作為評(píng)價(jià)標(biāo)準(zhǔn), 我們另外選擇了ROC_AUC和F1_score作為額外的評(píng)價(jià)標(biāo)準(zhǔn). ROC是一條以真陽(yáng)性率(TPR)為縱坐標(biāo), 以假陽(yáng)性率(FPR)為橫坐標(biāo)的曲線. AUC則是ROC曲線下面積, AUC值越大, 則代表分類(lèi)效果越好. F1_score的作用是協(xié)調(diào)準(zhǔn)確性(Precision)和召回率(Recall).F1_score的計(jì)算公式如式(2):

        4.7 實(shí)驗(yàn)結(jié)果

        這里將實(shí)驗(yàn)結(jié)果分析分為兩部分. 一是參數(shù)設(shè)置對(duì)模型的影響, 二是相同條件下不同算法的結(jié)果比較.

        在實(shí)驗(yàn)1中, 我們研究了重構(gòu)概率閾值選擇和迭代次數(shù)對(duì)模型識(shí)別效果的影響. 我們以表2的參數(shù)設(shè)置為基準(zhǔn), 每次只改變其中一個(gè)參數(shù)變量. 重建概率從0.90開(kāi)始到0.99結(jié)束, 而迭代次數(shù)從1開(kāi)始到2 000次結(jié)束, 模型的準(zhǔn)確率、F1_score和ROC_AUC的變化見(jiàn)圖6和圖7.

        圖6 算法效率和概率判決閾值之間的關(guān)系

        圖7 算法效率和迭代次數(shù)之間的關(guān)系

        如圖6所示, 當(dāng)重建概率閾值增加時(shí), 模型識(shí)別異常的能力先增加后減少, 出現(xiàn)峰值時(shí), 判決閾值為0.93.這說(shuō)明, 當(dāng)重構(gòu)概率判決閾值為93%時(shí), 分類(lèi)效果最好, 當(dāng)閾值繼續(xù)增加時(shí), 并不會(huì)提升識(shí)別的效果, 反而會(huì)有所減弱, 原因是閾值提高時(shí), 會(huì)有更多的正常數(shù)據(jù)被判別為異常. 在圖7中, 隨著迭代次數(shù)的增加, 模型識(shí)別異常的能力總體呈現(xiàn)上升趨勢(shì). 但是, 當(dāng)?shù)螖?shù)達(dá)到一定數(shù)量時(shí), 模型參數(shù)已經(jīng)收斂, 識(shí)別效果并沒(méi)有明顯增加, 因此我們選擇迭代次數(shù)900輪作為最佳迭代次數(shù).

        在實(shí)驗(yàn)2中, 我們選擇了幾種經(jīng)典算法作為比較算法, 有深度自編碼器(deep autoencoder, DAE)[24], 深度自編碼器高斯混合模型(DAGMM)[2], 單類(lèi)支持向量機(jī)(OC-SVM)[7], 隔離森林(IF)[13], 差分自編碼器(VAE)[25]. 算法對(duì)比結(jié)果見(jiàn)表3.

        如表3中所示, RFECV-VAE模型不僅在準(zhǔn)確率、F1_score、ROC_AUC指標(biāo)下表現(xiàn)出最好的性能,同時(shí), 訓(xùn)練時(shí)間也優(yōu)于大多數(shù)算法. 綜上可得出, RFECVVAE算法不僅在異常識(shí)別準(zhǔn)確度方面表現(xiàn)優(yōu)異, 而且還降低了收斂時(shí)間, 以使得整個(gè)系統(tǒng)變得輕量, 非常適合智能電力網(wǎng)絡(luò)中高識(shí)別率和海量數(shù)據(jù)的要求.

        表3 不同算法的識(shí)別結(jié)果對(duì)比

        4.8 算法復(fù)雜度分析

        RFECV-VAE算法由兩部分組成, 分別是特征選擇RFECV部分和差分自編碼器VAE部分. 本節(jié)分析算法的復(fù)雜度.

        RFECV包括遞歸特征消除和交叉驗(yàn)證. 在遞歸特征消除部分, 算法會(huì)在所有特征中遍歷, 依次選擇刪除其中某一個(gè)特征, 并且重新構(gòu)造模型, 計(jì)算每個(gè)特征的重要性, 時(shí)間復(fù)雜度為O(n). 在交叉驗(yàn)證階段, 算法根據(jù)RFE階段得出的特征重要性排名, 依次選擇不同數(shù)目的特征進(jìn)行打分, 選出最適合的特征數(shù)目, 時(shí)間復(fù)雜度為O(n). 故RFECV算法的時(shí)間復(fù)雜度為O(n). 算法在整個(gè)過(guò)程中保存每個(gè)特征的重要性分?jǐn)?shù), 故空間復(fù)雜度為O(n).

        VAE部分的訓(xùn)練階段, 使用的樣本集為正常樣本數(shù)據(jù), 每次可以訓(xùn)練多個(gè)固定數(shù)目的樣本, 并反向更新參數(shù), 每個(gè)樣本只參與一次訓(xùn)練過(guò)程, 故VAE算法的時(shí)間復(fù)雜度為O(n), 空間復(fù)雜度為O(1).

        5 總結(jié)

        為了處理智能電網(wǎng)中的異常檢測(cè)任務(wù), 我們提出了一種智能電網(wǎng)IDS安全架構(gòu)(區(qū)域式訓(xùn)練模式)和一種新的無(wú)監(jiān)督算法(RFECV-VAE). 從宏觀的角度來(lái)看,區(qū)域式訓(xùn)練不僅分擔(dān)了數(shù)據(jù)中心的計(jì)算壓力, 而且使智能終端更適應(yīng)某一地區(qū)的流量特點(diǎn). 從個(gè)體角度來(lái)看, 新的無(wú)監(jiān)督算法顯示出比其他算法更好的性能, 并且優(yōu)化了訓(xùn)練時(shí)間, 使整個(gè)系統(tǒng)變得效率且輕量. 實(shí)驗(yàn)表明, 本文提出的安全架構(gòu)和檢測(cè)算法非常適用于智能電網(wǎng)的入侵檢測(cè)場(chǎng)景.

        猜你喜歡
        特征智能檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        抓住特征巧觀察
        91成人自拍在线观看| 久久免费视亚洲无码视频| 日本精品久久性大片日本| 手机在线免费观看av不卡网站| 亚洲av日韩综合一区久热| 丰满少妇在线观看网站| 欧美高h视频| 国产一区二区视频免费| 国产亚av手机在线观看| 粗了大了 整进去好爽视频 | av日本一区不卡亚洲午夜| 国产精品久色婷婷不卡| 中文字幕久久熟女蜜桃| 国产在线高清视频| 日韩人妻有码中文字幕| 国产成人精品一区二区20p| 精品久久欧美熟妇www| 久久亚洲AV成人一二三区| av免费在线播放一区二区| 男女18禁啪啪无遮挡激烈网站| 日日av拍夜夜添久久免费| 亚洲精品99久久久久久| 三级日本理论在线观看| 国产亚洲精品美女久久久| 亚洲男人天堂2019| 日韩精品极品在线观看视频| 一区二区三区高清在线观看视频| 国产乱码一二三区精品| 亚洲春色AV无码专区在线播放| 少妇特殊按摩高潮对白| 国产亚洲精品久久久久久国模美| 国产香蕉97碰碰视频va碰碰看| 无码国产精品一区二区免费式芒果| 国产在线91精品观看| 欧美俄罗斯40老熟妇| 国产艳妇av在线出轨| 永久免费看黄网站性色| 麻豆蜜桃av蜜臀av色欲av| 国产一区二区三区在线观看精品| 日韩精品成人一区二区在线观看| 少妇性俱乐部纵欲狂欢少妇|