亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于半監(jiān)督學(xué)習(xí)的工控網(wǎng)絡(luò)入侵檢測方法

        2018-01-29 01:42:16張松清劉智國
        關(guān)鍵詞:網(wǎng)絡(luò)流量工控樣本

        張松清,劉智國

        (中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京 100083)

        0 引言

        當(dāng)前,工控網(wǎng)絡(luò)重要性日益凸顯。隨著計算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,工業(yè)控制廣泛采用開放的工業(yè)通信協(xié)議、網(wǎng)絡(luò)設(shè)施和通用軟硬件,甚至與互聯(lián)網(wǎng)和企業(yè)管理信息系統(tǒng)交換數(shù)據(jù),針對工控網(wǎng)絡(luò)的攻擊也快速增多。工控領(lǐng)域的網(wǎng)絡(luò)威脅極大地危害工業(yè)控制的正常運(yùn)行,使得工業(yè)控制系統(tǒng)的脆弱性開始逐漸顯現(xiàn),針對工業(yè)控制系統(tǒng)的攻擊行為快速增長[1]。2010年爆發(fā)的“震網(wǎng)”病毒、2012年的“火焰”超級病毒以及2014年的Havex 病毒等專門針對工業(yè)控制系統(tǒng)的病毒給用戶造成了巨大的損失,同時也威脅到了國家安全。分析此后2015年發(fā)生的烏克蘭電力遭受攻擊事件,可以看出攻擊的成本在降低,而攻擊所帶來的影響在進(jìn)一步加重。2017年5月WannaCry勒索病毒席卷全球,影響到近百個國家上千家企業(yè)及公共組織。

        工業(yè)控制系統(tǒng)是為了完成各種實(shí)時控制功能而設(shè)計的,當(dāng)初并沒有考慮到安全防護(hù)方面的問題,通過網(wǎng)絡(luò)互聯(lián)使它們在網(wǎng)絡(luò)空間中暴露,無疑將給它們所控制的重要系統(tǒng)、關(guān)鍵基礎(chǔ)設(shè)施等帶來巨大的安全風(fēng)險和隱患。為了避免工控安全事件的發(fā)生,有效地對網(wǎng)絡(luò)攻擊進(jìn)行檢測及提前預(yù)防顯得至關(guān)重要。

        目前已經(jīng)有許多基于規(guī)則匹配的網(wǎng)絡(luò)入侵檢測方法[2],這類方法對已知的病毒、木馬等威脅的檢測效果明顯。目前基于智能學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測研究已成為趨勢,包括支持向量機(jī)(SVM)、樸素貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等。這些方法對有監(jiān)督分類問題效果明顯,而工控網(wǎng)絡(luò)流量數(shù)據(jù)已有大量標(biāo)記好的異常流量數(shù)據(jù)以及大量的無標(biāo)注流量,有監(jiān)督分類方法并不適合解決這一問題。本文提出一種基于半監(jiān)督機(jī)器學(xué)習(xí)的工控網(wǎng)絡(luò)入侵檢測方法,該方法的運(yùn)用能夠提高未知威脅的檢測能力。

        1 入侵檢測技術(shù)

        1.1 概述

        入侵檢測技術(shù)是一種主動的保障信息安全的技術(shù),可以有效彌補(bǔ)防火墻等傳統(tǒng)安全防護(hù)技術(shù)被動防御的缺陷,因此針對復(fù)雜的工控系統(tǒng)網(wǎng)絡(luò)攻擊,入侵檢測技術(shù)是有效發(fā)現(xiàn)和防御入侵的防護(hù)手段。

        入侵檢測技術(shù)包括特征檢測和異常檢測。特征檢測有較高的檢測準(zhǔn)確率,存在的問題是無法檢測未知的攻擊;異常檢測有較強(qiáng)的通用性,可以對未知攻擊進(jìn)行檢測,有比較廣闊的應(yīng)用前景,其主要缺陷是誤檢率較高。

        1.2 機(jī)器學(xué)習(xí)方法

        機(jī)器學(xué)習(xí)是人工智能的核心。當(dāng)前,已有大量基于機(jī)器學(xué)習(xí)的入侵檢測技術(shù)的研究,包括基于聚類分析、數(shù)據(jù)挖掘、行為統(tǒng)計、神經(jīng)網(wǎng)絡(luò)等技術(shù)的入侵檢測方法[3-4],然而這些技術(shù)存在處理速度慢、模型難以建立、誤報率高、純凈訓(xùn)練數(shù)據(jù)難以獲取等不足,無法滿足工控系統(tǒng)較高的實(shí)時性和可用性要求。

        研究基于機(jī)器學(xué)習(xí)的入侵檢測技術(shù)對建立智能化的高效入侵檢測模型,提高工控網(wǎng)絡(luò)異常行為檢測精度意義重大。本文針對工控系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn),提出一種基于半監(jiān)督機(jī)器學(xué)習(xí)[5-8]的入侵檢測方法,該方法可以提高網(wǎng)絡(luò)攻擊流量的檢測準(zhǔn)確率。

        2 基于半監(jiān)督學(xué)習(xí)的入侵檢測方法

        2.1 技術(shù)架構(gòu)

        該入侵檢測技術(shù)由四個主要的功能模塊組成,分別是網(wǎng)絡(luò)數(shù)據(jù)獲取、特征提取、模型訓(xùn)練以及網(wǎng)絡(luò)流量檢測,各主要模塊之間相對獨(dú)立,總體架構(gòu)如圖1所示。

        圖1 系統(tǒng)總體架構(gòu)圖

        2.2 模塊設(shè)計

        2.2.1網(wǎng)絡(luò)數(shù)據(jù)獲取

        使用機(jī)器學(xué)習(xí)訓(xùn)練模型時,需要利用正負(fù)樣本數(shù)據(jù)集。對于工控系統(tǒng)網(wǎng)絡(luò)入侵檢測,正樣本數(shù)據(jù)就是入侵的異常網(wǎng)絡(luò)流量,負(fù)樣本為正常網(wǎng)絡(luò)流量。

        對于正樣本數(shù)據(jù),即入侵的異常網(wǎng)絡(luò)數(shù)據(jù),目前已有一些機(jī)構(gòu)進(jìn)行了標(biāo)記,例如KDD99(MIT Lincoln實(shí)驗(yàn)室提供的1998 DARPA入侵檢測評估數(shù)據(jù)集)以及密西西比州立大學(xué)關(guān)鍵基礎(chǔ)設(shè)施保護(hù)中心于2014年提出的用于工控系統(tǒng)入侵檢測評估的數(shù)據(jù)集等。但很少有對正常流量的標(biāo)記,在實(shí)際網(wǎng)絡(luò)數(shù)據(jù)中,標(biāo)記樣本需要人工完成,耗時耗力,而未標(biāo)記樣本既容易獲取也非常充裕。

        2.2.2特征提取

        在某個時間周期內(nèi)對網(wǎng)絡(luò)流量進(jìn)行捕獲,這些網(wǎng)絡(luò)流量由多次的TCP網(wǎng)絡(luò)連接數(shù)據(jù)組成,每一次完整的TCP連接作為一次記錄,對每次記錄進(jìn)行分析,統(tǒng)一處理。特征提取方式參考KDD99數(shù)據(jù)集的提取方式,共計41個特征,如表1所示。

        表1 網(wǎng)絡(luò)數(shù)據(jù)特征提取

        這些特征中有的是數(shù)值型,有的是字符型,但是本文中的技術(shù)只能處理數(shù)值型的向量,因此,在模型訓(xùn)練之前需要先將輸入數(shù)據(jù)作數(shù)值化處理以及正規(guī)化處理。例如,協(xié)議類型(TCP、UDP以及ICMP)可以用1、2和3表示;每條記錄是否是攻擊流量用1和-1表示,1代表正常流量,而-1表示攻擊流量。

        2.2.3模型訓(xùn)練

        針對獲取到的網(wǎng)絡(luò)流量數(shù)據(jù)特點(diǎn),該技術(shù)采用半監(jiān)督分類的方式來訓(xùn)練模型。該方法結(jié)合了Rocchio以及LIBLINEAR[9]兩種技術(shù)。

        (1)

        其中,α和β是調(diào)整訓(xùn)練樣本相關(guān)與不相關(guān)性的影響參數(shù)。在分類中,對于每個測試集網(wǎng)絡(luò)流量數(shù)據(jù)td,使用余弦相似性的方法來計算td與每個原型向量的相似性,td與哪個原型向量更相似,就把該原型向量的類型賦給td。

        LIBLINEAR是由LIN C J博士設(shè)計和開發(fā)的,它是為線性分類問題而設(shè)計的。使用LIBLINEAR時,可以容易地處理百萬到千萬級別的數(shù)據(jù),這是因?yàn)長IBLINEAR本身就是設(shè)計用于解決較大規(guī)模樣本的模型訓(xùn)練。

        模型訓(xùn)練的思路是先使用Rocchio技術(shù)從大量的未標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)中挑選出可信賴的正常網(wǎng)絡(luò)數(shù)據(jù),然后再使用LIBLINEAR技術(shù)訓(xùn)練模型。該算法如圖2所示。

        圖2 半監(jiān)督分類方法流程圖

        本文設(shè)計了一種使用Rocchio技術(shù)來從未標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)(記為U)中提取可靠的負(fù)樣例數(shù)據(jù)(記為RN)的方法,其中正樣例數(shù)據(jù)記為P,算法的偽代碼如公式2所示。

        1. 將未標(biāo)記網(wǎng)絡(luò)流量數(shù)據(jù)U賦值成負(fù)類,正樣本網(wǎng)絡(luò)流量數(shù)據(jù)P賦值成正類

        (2)

        4. forU中的每條網(wǎng)絡(luò)流量d′ do

        6. RN←RN∪{d′}

        在基于正樣本的學(xué)習(xí)方法中,未標(biāo)記數(shù)據(jù)集U中的負(fù)樣本數(shù)據(jù)通常包含多種類型,在向量空間中,占有很大區(qū)域,而正樣本數(shù)據(jù)通常是同一類型的,覆蓋一個小得多的區(qū)域,如圖3所示。Rocchio是線性分類器,假設(shè)真的有一個決策面S能夠區(qū)分正負(fù)樣本,那么,由于Rocchio中的向量疊加原理,正原型向量會比負(fù)原型向量更接近決策面S,這種方式識別出的負(fù)樣本數(shù)據(jù)純度很高。

        圖3 Rocchio分類效果圖

        Rocchio學(xué)習(xí)到的模型通常比LIBLINEAR弱,而噪聲對LIBLINEAR技術(shù)影響較大。為了更好地分類,本文提出將Rocchio與LIBLINEAR結(jié)合。使用Rocchio從U中提取出RN后,再使用P和RN來運(yùn)行LIBLINEAR,最后生成一個分類效果較好的模型。

        2.2.4網(wǎng)絡(luò)入侵檢測

        通過機(jī)器學(xué)習(xí)算法獲得了檢測異常網(wǎng)絡(luò)流量的模型后,可以用來對未知網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行檢測。流量檢測流程如圖4所示。先對待檢測數(shù)據(jù)使用相同的特征提取過程,然后利用訓(xùn)練好的模型進(jìn)行檢測,從而識別出正常網(wǎng)絡(luò)流量和異常網(wǎng)絡(luò)流量。

        圖4 網(wǎng)絡(luò)流量檢測流程圖

        3 驗(yàn)證與分析

        3.1 實(shí)驗(yàn)結(jié)果

        本文采用KDD99數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),KDD99訓(xùn)練數(shù)據(jù)集包括494 021條記錄,測試集包括311 029條記錄。訓(xùn)練數(shù)據(jù)集中有22種攻擊類型,測試集中增加了14種新的攻擊類型。在測試檢測算法時,使用指標(biāo)precision和recall進(jìn)行評估,其定義為:

        (3)

        (4)

        檢測的結(jié)果precision和recall值越高,效果越好,但實(shí)際上這兩者并沒有必然的關(guān)系。在實(shí)際應(yīng)用中,兩者也是相互制約的,因此,需要新的指標(biāo)將二者結(jié)合,其中一個重要的指標(biāo)就是F-measure。公式如下:

        (5)

        如果precision和recall同等重要,β值設(shè)為1,這樣得到的結(jié)果稱為F1。如果β比1大,recall比precision更重要;如果β比1小,precision比recall更重要。在網(wǎng)絡(luò)入侵檢測的研究中,recall(不遺漏任何異常流量)比precision(沒有把正常流量識別成異常流量)是更重要的。沒有檢測出異常流量可能會導(dǎo)致網(wǎng)絡(luò)入侵,或者對系統(tǒng)安全留下了隱患。因此,本文同時選取F1、F2及F3進(jìn)行評估。

        實(shí)驗(yàn)中從KDD99的訓(xùn)練集中隨機(jī)選取10 000條異常網(wǎng)絡(luò)數(shù)據(jù)作為訓(xùn)練集的正樣本數(shù)據(jù)集,然后使用Rocchio方法從KDD99訓(xùn)練集中的剩余樣本中識別出10 000條正常數(shù)據(jù)作為負(fù)樣本數(shù)據(jù),再使用LIBLINEAR進(jìn)行模型訓(xùn)練。實(shí)驗(yàn)的測試集為從KDD99測試集中隨機(jī)選取的6 000個樣本,其中正樣本數(shù)據(jù)1 550個。實(shí)驗(yàn)結(jié)果如表2所示。

        表2 實(shí)驗(yàn)結(jié)果

        表1中的檢測結(jié)果依賴于各個環(huán)節(jié)的處理,技術(shù)實(shí)現(xiàn)時盡可能對各個部分進(jìn)行了優(yōu)化。

        3.2 實(shí)驗(yàn)對比及影響因素分析

        在本文的的半監(jiān)督分類方法中,只有正樣本數(shù)據(jù),沒有負(fù)樣本數(shù)據(jù)。有一種方法可以只利用一種類型的數(shù)據(jù)進(jìn)行模型訓(xùn)練,例如one-class SVM,實(shí)驗(yàn)發(fā)現(xiàn)使用one-class SVM方法,只用異常網(wǎng)絡(luò)流量數(shù)據(jù)訓(xùn)練模型時,檢測結(jié)果并不好,precision和recall值不足0.6。另外,Liu Bing等人實(shí)現(xiàn)了一種半監(jiān)督分類工具,并且提供二進(jìn)制文件下載[10]。該分類工具中包含S-EM和Roc-SVM兩種方法,實(shí)驗(yàn)發(fā)現(xiàn),S-EM檢測結(jié)果中絕大多數(shù)測試集數(shù)據(jù)被識別成正樣本數(shù)據(jù),而Roc-SVM則剛好相反,對于本實(shí)驗(yàn)來說,效果并不理想。

        本文中技術(shù)實(shí)現(xiàn)時包含很多環(huán)節(jié),許多因素會對檢測結(jié)果產(chǎn)生影響。其中一個因素是特征提取環(huán)節(jié),選取不同特征對模型訓(xùn)練會有很大影響;另外一個影響因素是測試數(shù)據(jù)的選取,算法對網(wǎng)絡(luò)異常流量檢測具有通用性,但是針對不同的數(shù)據(jù)集,還需對算法的處理細(xì)節(jié)進(jìn)行調(diào)整。

        4 結(jié)論

        工控系統(tǒng)的應(yīng)用已經(jīng)變得普及,工控網(wǎng)絡(luò)也逐漸與互聯(lián)網(wǎng)開始融合,使得工業(yè)控制系統(tǒng)的脆弱性正在逐漸顯現(xiàn)。本文針對工控網(wǎng)絡(luò)數(shù)據(jù)特點(diǎn),結(jié)合多種機(jī)器學(xué)習(xí)算法,設(shè)計了一種基于半監(jiān)督機(jī)器學(xué)習(xí)的入侵檢測技術(shù),使用該技術(shù)可以有效地檢測出工控系統(tǒng)網(wǎng)絡(luò)中的異常流量,從而及時發(fā)現(xiàn)和防御入侵攻擊。未來的網(wǎng)絡(luò)攻擊變種會更具欺騙性,關(guān)于準(zhǔn)確性這一問題還需要進(jìn)行更具創(chuàng)新性的研究和更多細(xì)致完善的工作。

        [1] 劉廣生, 張松清. 智能電網(wǎng)信息安全威脅及對策分析[J]. 微型機(jī)與應(yīng)用, 2017,36(5):8-10.

        [2] 程冬梅, 嚴(yán)彪, 文輝,等. 基于規(guī)則匹配的分布式工控入侵檢測系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 信息網(wǎng)絡(luò)安全, 2017(7):45-51.

        [3] 羅耀鋒. 面向工業(yè)控制系統(tǒng)的入侵檢測方法的研究與設(shè)計[D]. 杭州:浙江大學(xué), 2013.

        [4] 楊安, 孫利民, 王小山, 等. 工業(yè)控制系統(tǒng)入侵檢測技術(shù)綜述[J]. 計算機(jī)研究與發(fā)展, 2016, 53(9):2039-2054.

        [5] 劉建偉, 劉媛, 羅雄麟. 半監(jiān)督學(xué)習(xí)方法[J]. 計算機(jī)學(xué)報, 2015,38(8):1592-1617.

        [6] 牛罡, 羅愛寶, 商琳. 半監(jiān)督文本分類綜述[J]. 計算機(jī)科學(xué)與探索, 2011, 5(4):313-323.

        [7] 杜芳華. 基于半監(jiān)督學(xué)習(xí)的文本分類算法研究[D]. 北京:北京工業(yè)大學(xué), 2014.

        [8] 譚建平, 劉波, 肖燕珊. 基于半監(jiān)督的SVM遷移學(xué)習(xí)文本分類算法[J]. 無線互聯(lián)科技, 2016(4): 71-75.

        [9] Fan Rongen, Chang Kaiwei, HSIEH C J, et al. LIBLINEAR: a library for large iinear classification[J]. Journal of Machine Learning Research, 2010, 9(12):1871-1874.

        [10] Liu Bing, Li Xiaoli. LPU: learning from positive and unlabeled examples[EB/OL].(2003-07-10) https://www.cs.uic.edu/~liub/LPU/LPU-download.html.

        猜你喜歡
        網(wǎng)絡(luò)流量工控樣本
        基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法
        基于神經(jīng)網(wǎng)絡(luò)的P2P流量識別方法
        用樣本估計總體復(fù)習(xí)點(diǎn)撥
        推動醫(yī)改的“直銷樣本”
        AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計算
        工控速派 一個工控技術(shù)服務(wù)的江湖
        工控速浱 一個工控技術(shù)服務(wù)的江湖
        隨機(jī)微分方程的樣本Lyapunov二次型估計
        熱點(diǎn)追蹤 工控安全低調(diào)而不失重要
        基于攻擊圖的工控系統(tǒng)脆弱性量化方法
        亚洲a无码综合a国产av中文| 国产在线观看网址不卡一区 | 亚洲成人黄色av在线观看| 亚洲自拍偷拍色图综合| 国产精品无码v在线观看| 久久国产36精品色熟妇| 麻豆AV无码久久精品蜜桃久久| 91久久精品一区二区| 岛国av无码免费无禁网站| 又硬又粗又大一区二区三区视频| 91网红福利精品区一区二| 毛片成人18毛片免费看| 成人免费无遮挡在线播放| 国产女人18毛片水真多| 老肥熟女老女人野外免费区| 国产一区二区三区视频地址| 女人被弄到高潮的免费视频| 99热在线精品播放| 国产在线精彩自拍视频| 欧美拍拍视频免费大全| 色播久久人人爽人人爽人人片av| 亚洲女同成av人片在线观看| 日韩av在线手机免费观看| 成在线人av免费无码高潮喷水| 亚洲尺码电影av久久| 亚洲伊人久久综合精品| 人妻少妇不满足中文字幕| 九九久久精品无码专区| 国产小屁孩cao大人免费视频| 国产精品丝袜美女久久| 国产av国片精品jk制服| 国产精品-区区久久久狼| 加勒比东京热久久综合| 久久综网色亚洲美女亚洲av| 天天做天天爱天天爽综合网| 久久99久久99精品免观看不卡 | 中文字幕一区二区网站| 国产主播一区二区三区蜜桃| 亚洲综合久久精品无码色欲| 精品国产品欧美日产在线| 国产三级国产精品国产专播|