亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義向量與OCSVM的工控網(wǎng)絡(luò)異常行為識(shí)別①

        2018-07-18 06:07:26王佳楠李澤宇李喜旺
        關(guān)鍵詞:特征向量數(shù)據(jù)包語義

        王佳楠, 李澤宇, 李喜旺

        1(中國(guó)科學(xué)院 沈陽計(jì)算技術(shù)研究所, 沈陽 110168)

        2(中國(guó)科學(xué)院大學(xué), 北京 100049)

        3(國(guó)家電網(wǎng)公司 東北分部, 沈陽 110180)

        在工業(yè)生產(chǎn)領(lǐng)域向網(wǎng)絡(luò)化、信息化、自動(dòng)化、拓展化的發(fā)展過程中, 大量的網(wǎng)絡(luò)化控制設(shè)備和數(shù)據(jù)交換設(shè)施在提高工業(yè)生產(chǎn)效率的同時(shí), 使得獨(dú)立工業(yè)生產(chǎn)終端不再成為一個(gè)相對(duì)安全的數(shù)據(jù)孤島, 多元化的數(shù)據(jù)接入方式使得工業(yè)控制終端更加容易受到外界的攻擊威脅[1]. 工業(yè)控制終端功能化的設(shè)計(jì)目標(biāo), 使其在設(shè)計(jì)時(shí)未能考慮安全防護(hù)的需要, 有限的計(jì)算存儲(chǔ)資源也制約了安全防護(hù)措施的接入, 導(dǎo)致近年來以“震網(wǎng)”病毒為代表的工業(yè)網(wǎng)絡(luò)安全事件時(shí)有發(fā)生[2]. 大量0-day漏洞的利用以及愈發(fā)豐富的變種攻擊手段使得傳統(tǒng)的基于漏洞庫(kù)的安全防護(hù)策略暴露出更加多的局限性[3], 設(shè)計(jì)準(zhǔn)確高效且能夠應(yīng)對(duì)未知類型攻擊的安全防護(hù)策略正逐漸成為當(dāng)前研究關(guān)注的焦點(diǎn).

        現(xiàn)如今, 工業(yè)控制網(wǎng)絡(luò)行為有限、狀態(tài)有限的特性已逐漸成為工控網(wǎng)絡(luò)安全研究的切入點(diǎn), 基于通信數(shù)據(jù)包的深度解析結(jié)果實(shí)現(xiàn)行為提取、鏈路檢測(cè)的邊界防護(hù)手段也已成為一種新的安全實(shí)現(xiàn)策略[4]. 在提取每一個(gè)數(shù)據(jù)包對(duì)應(yīng)的操作將數(shù)據(jù)通信過程轉(zhuǎn)換為行為序列進(jìn)行建模分析時(shí), 通常需要有標(biāo)注的異常序列樣本, 以建立起識(shí)別異常行為的序列標(biāo)注問題模型[5], 但大量的有標(biāo)注異常樣本數(shù)據(jù)從實(shí)際生產(chǎn)環(huán)境中獲得存在一定的難度. 單類支持向量機(jī)(One Class Support Vector Machine, OCSVM)能夠僅使用單一類別樣本實(shí)現(xiàn)二分類模型的建立, 為基于實(shí)際生產(chǎn)環(huán)境中的正常行為樣本數(shù)據(jù)建立異常行為識(shí)別模型提供了有效的解決途徑[6], 但為保留序列的上下文特性, 克服序列長(zhǎng)短不一問題時(shí), 所構(gòu)造出的特征向量則會(huì)產(chǎn)生高維稀疏性問題.

        針對(duì)實(shí)際生產(chǎn)環(huán)境中異常類別樣本數(shù)據(jù)難以獲得以及構(gòu)建序列特征存在的高維稀疏性的問題. 本文采用了將語義向量模型[7]與單類支持向量機(jī)相結(jié)合的建模方式, 使用實(shí)際生產(chǎn)環(huán)境中的正常樣本數(shù)據(jù)基于OCSVM實(shí)現(xiàn)對(duì)異常行為識(shí)別模型的構(gòu)建. 通過語義向量模型將不同長(zhǎng)度的控制行為序列轉(zhuǎn)化為相同維度的特征向量, 保留序列中各控制行為間的上下文關(guān)系的同時(shí)滿足常見分類模型的建模需求. 最后, 通過仿真各種常見的攻擊方式構(gòu)造出多種類型的異常行為序列作為測(cè)試數(shù)據(jù)集, 用以驗(yàn)證所構(gòu)建的異常行為識(shí)別模型的準(zhǔn)確性.

        1 控制行為定義與異常識(shí)別定位

        本文以電力SCADA系統(tǒng)這一工業(yè)控制網(wǎng)絡(luò)的典型代表作為研究對(duì)象, 對(duì)其采用的IEC 104規(guī)約控制協(xié)議數(shù)據(jù)幀進(jìn)行深度包檢測(cè)結(jié)果定義控制操作. 使用時(shí)間窗劃分法獲得控制行為序列, 并以此作為分析識(shí)別的對(duì)象建立對(duì)異常行為序列識(shí)別模型, 實(shí)現(xiàn)出現(xiàn)異常控制行為時(shí)及時(shí)報(bào)警并定位異常位置.

        1.1 協(xié)議解析與操作定義

        IEC 104規(guī)約是基于TCP/IP網(wǎng)絡(luò)的遠(yuǎn)動(dòng)設(shè)備與系統(tǒng)的通信傳輸標(biāo)準(zhǔn), 該規(guī)約中報(bào)文幀格式包括定長(zhǎng)幀與變長(zhǎng)幀兩種. 每一幀均是一個(gè)應(yīng)用規(guī)約數(shù)據(jù)單元(Applying Protocol Data Unit, APDU). 變長(zhǎng)幀由應(yīng)用規(guī)約控制信息(Applying Protocol Control Information,APCI)和應(yīng)用服務(wù)數(shù)據(jù)單元(Application Service Data Unit, ASDU)組成[8]. APCI的長(zhǎng)度為6字節(jié), 定義了報(bào)文傳輸啟動(dòng)/停止以及傳輸連接監(jiān)視等控制信息, 控制報(bào)文的可靠傳輸. ASDU由數(shù)據(jù)單元標(biāo)識(shí)符和一個(gè)或多個(gè)信息對(duì)象所組成. 而定長(zhǎng)幀則只包含APCI部分,104規(guī)約的幀格式如圖1所示.

        圖1 104規(guī)約幀格式

        根據(jù)工業(yè)控制網(wǎng)絡(luò)行為有限、狀態(tài)有限的特性,對(duì)104規(guī)約數(shù)據(jù)包進(jìn)行深度包檢測(cè), 可以提取其對(duì)應(yīng)的控制操作集合其中m為控制操作類型數(shù). 對(duì)于以變長(zhǎng)幀形式傳輸遙測(cè)、遙信、遙控、遙調(diào)等信息的I格式報(bào)文[9], 其ASDU部分中定義的127種數(shù)據(jù)包類型標(biāo)識(shí)和47種傳輸原因, 則將每個(gè)類型的I格式幀對(duì)應(yīng)的控制操作分別記為a1~a5969.對(duì)于不含APCI的定長(zhǎng)幀格式傳輸?shù)腟格式報(bào)文和U格式報(bào)文, 根據(jù)圖2中所示的控制域格式可知, 僅用于提供報(bào)文序號(hào)確認(rèn)的S格式報(bào)文的控制操作被記為a5970, 用于完成6種傳輸規(guī)約控制的U格式報(bào)文的控制操作則被記為a5971~a5976.

        圖2 S格式與U格式報(bào)文控制域

        1.2 控制行為劃分

        在工業(yè)控制網(wǎng)絡(luò)中, 每個(gè)工業(yè)控制主機(jī)到相應(yīng)受控單元的生產(chǎn)業(yè)務(wù)可以抽象為一系列的控制操作序列.當(dāng)網(wǎng)絡(luò)遭受外界的惡意挾持攻擊時(shí), 產(chǎn)生的業(yè)務(wù)異常通常體現(xiàn)在控制操作序列的異常. 采用時(shí)間窗劃分將操作行為序列細(xì)分為描述控制行為的操作子序列sk,并將其作為異常控制行為的識(shí)別對(duì)象, 既能夠保留控制行為中包含原始操作, 也包含了行為中各具體操作的頻率特性.

        根據(jù)對(duì)通信數(shù)據(jù)包進(jìn)行深度包檢測(cè)提取到的源IP地址、目的IP地址、源端口、目的端口、控制行為類型的五元組信息: <SrcIP,DestIP,SrcPort,DestPort,ai>, 將屬于相同通信鏈路的數(shù)據(jù)包按照產(chǎn)生的先后順序劃分至同一行為序列中.

        為避免由于時(shí)間窗劃分對(duì)屬于同一控制行為的連續(xù)控制操作的誤分, 在以15 s為一個(gè)時(shí)間窗長(zhǎng)度劃分的基礎(chǔ)上, 采用圖3中所示的以5 s為一個(gè)增量單位的滑動(dòng)時(shí)間窗口機(jī)制, 完成對(duì)控制操作子序列的提取, 確保對(duì)控制行為的準(zhǔn)確描述.

        圖3 采用滑動(dòng)窗口的序列劃分

        1.3 異常行為識(shí)別的建模過程

        在工控網(wǎng)絡(luò)的通信協(xié)議中, 控制行為的發(fā)出與響應(yīng)過程有著較為嚴(yán)格約束, 一系列規(guī)范的控制操作組成了特定的控制行為. 結(jié)合各操作子序列sk中各相鄰控制操作間的上下文語義特性, 針對(duì)異常行為的序列識(shí)別建模分析需經(jīng)過圖4中所示的共計(jì)以下6個(gè)數(shù)據(jù)處理過程.

        1) 對(duì)所抓取的數(shù)據(jù)包進(jìn)行深度包檢測(cè), 提取包含通信鏈路與控制行為的五元組信息.

        2) 根據(jù)通信鏈路進(jìn)行數(shù)據(jù)混洗、合并, 按照時(shí)間窗劃分出控制操作序列.

        3) 將得到的控制行為序列進(jìn)行語義向量建模, 獲得序列的數(shù)值化、向量化表示.

        4) 使用正常生產(chǎn)環(huán)境中控制行為序列的向量化樣本數(shù)據(jù), 采用單分類算法構(gòu)建異常行為識(shí)別模型.

        5) 將由1)、2)步提取的未知行為類型的操作序列, 經(jīng)過語義向量模型轉(zhuǎn)換為數(shù)值向量, 輸入異常行為識(shí)別模型中獲得識(shí)別結(jié)果.

        6) 針對(duì)異常行為序列, 根據(jù)其對(duì)應(yīng)的時(shí)間窗分片信息、通信鏈路IP、通信鏈路端口號(hào)定位出現(xiàn)異常的時(shí)間、工作節(jié)點(diǎn)、業(yè)務(wù)應(yīng)用, 尋找異常原因.

        圖4 異常行為識(shí)別的建模分析過程

        2 序列特征提取與行為識(shí)別建模

        采用語義向量模型將各時(shí)間窗內(nèi)不同長(zhǎng)度的行為序列轉(zhuǎn)換為統(tǒng)一維度的向量化表達(dá)滿足異常序列識(shí)別的建模的需求. 基于單分類算法實(shí)現(xiàn)僅使用單類正樣本完成異常行為識(shí)別的建模, 克服實(shí)際生產(chǎn)環(huán)境中異常行為序列難以獲取的問題.

        2.1 采用語義向量數(shù)值化行為序列

        使用傳統(tǒng)方式對(duì)操作序列進(jìn)行向量化表達(dá)時(shí), 通常統(tǒng)計(jì)序列中各控制操作或指定連續(xù)操作所出現(xiàn)的次數(shù), 作為該序列的向量化表示[10]. 所獲得的數(shù)值向量無法涵蓋序列中相鄰操作的上下文語義關(guān)系, 在子操作類型較多時(shí)所得的向量還會(huì)產(chǎn)生高維稀疏性問題.

        為獲得對(duì)控制行為序列準(zhǔn)確的向量化表達(dá), 結(jié)合相鄰控制操作間的上下文語義特性, 使用CBOW模型和Skip-gram模型將各控制操作轉(zhuǎn)換為包含具體操作含義的、在指定維度空間上的數(shù)值化向量化表達(dá)[11].并在此基礎(chǔ)上, 構(gòu)建PV-DM和PV-DBOW模型, 將行為序列轉(zhuǎn)換為包含語義特性的向量化表達(dá).

        CBOW模型在給定序列中第t個(gè)操作前后c個(gè)操作的情況下預(yù)測(cè)第t個(gè)操作, 而Skip-gram模型則是給定第t個(gè)操作預(yù)測(cè)其前后c個(gè)操作[12]. 圖5為c=2時(shí)兩個(gè)模型的結(jié)構(gòu). 在CBOW模型中, 輸入層為操作wt前后c個(gè)操作對(duì)應(yīng)的數(shù)值向量, 而投影層向量Xw為這2c個(gè)向量的累加和, 輸出層為包含m個(gè)葉子節(jié)點(diǎn)的Huffman樹, 其中m為操作集合A中操作的總數(shù),Huffman樹的編碼則根據(jù)在整個(gè)訓(xùn)練集中各單詞所出現(xiàn)的頻率對(duì)應(yīng)的權(quán)值進(jìn)行構(gòu)建. 同理, Skip-gram模型的結(jié)構(gòu)與CBOW模型的結(jié)構(gòu)相似.

        圖5 CBOW與Skip-gram模型結(jié)構(gòu)

        兩個(gè)模型的訓(xùn)練目標(biāo)分別為對(duì)于每一個(gè)操作at使得的概率值最大化. 使用隨機(jī)梯度下降訓(xùn)練CBOW和Skip-gram兩個(gè)神經(jīng)網(wǎng)絡(luò)模型的中間層參數(shù)Xw直至收斂, 最終獲得各個(gè)操作最優(yōu)的向量化表達(dá).

        在對(duì)長(zhǎng)度各不相同的行為序列進(jìn)行向量化表達(dá)時(shí),考慮序列內(nèi)各操作具體含義的基礎(chǔ)上, 還需要考慮序列中各操作的頻率和操作之間的上下文關(guān)系. 在獲得各子操作向量化表達(dá)的基礎(chǔ)上, 采用相似的模型構(gòu)建和優(yōu)化手段, 構(gòu)建圖6中的PV-DM和PV-DBOW模型[13]. 模型中操作的向量化表達(dá)采用對(duì)CBOW模型和Skip-gram的訓(xùn)練優(yōu)化結(jié)果. 按照相同的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式, 最終使得的概率值最大化, 即可得到各個(gè)行為序列最優(yōu)的向量化表達(dá).

        使用所采集到的控制行為序列集合S作為訓(xùn)練數(shù)據(jù)集訓(xùn)練CBOW模型和Skip-gram模型獲得每個(gè)控制行為ai的向量化表達(dá), 并在此基礎(chǔ)上進(jìn)一步訓(xùn)練PVDM和PV-DBOW模型, 實(shí)現(xiàn)將行為序列轉(zhuǎn)化為數(shù)值化向量表達(dá). 將采集到控制行為序列集合S中的每一條行為序列si轉(zhuǎn)化為k維特征向量xi, 即可獲得用以構(gòu)建異常識(shí)別模型的訓(xùn)練數(shù)據(jù)集X, 其中k為語義向量模型中所指定的向量維度.

        圖6 PV-DM與PV-DBOW模型結(jié)構(gòu)

        2.2 基于OCSVM構(gòu)建異常識(shí)別模型

        在實(shí)際的生產(chǎn)環(huán)境中, 異常行為序列樣本的獲取存在一定難度. 基于已知的先驗(yàn)知識(shí)對(duì)異常控制行為進(jìn)行仿真, 僅能獲得有限的異常樣本. 廣泛應(yīng)用于異常識(shí)別的傳統(tǒng)支持向量機(jī)(Support Vector Machine,SVM)模型, 使用正負(fù)樣本分布不均衡的數(shù)據(jù)集訓(xùn)練模型時(shí)同樣會(huì)產(chǎn)生過擬合多數(shù)類樣本的問題.

        將SVM結(jié)合樹形層次結(jié)構(gòu)調(diào)整模型的訓(xùn)練過程,對(duì)多數(shù)樣本類數(shù)據(jù)進(jìn)行聚類獲得關(guān)鍵簇集[14], 用遠(yuǎn)離分類超平面簇的中心樣本代替簇內(nèi)樣本, 能夠消除多數(shù)類中非支持向量樣本引起的樣本不均衡性. 結(jié)合集成學(xué)習(xí)訓(xùn)練多個(gè)基分類器的策略, 可以進(jìn)一步提升算法的泛化能力[15], 使模型對(duì)少樣本類擁有同樣準(zhǔn)確性.工業(yè)控制網(wǎng)絡(luò)中, 異常行為沒有明確的界定范圍, 使用仿真異常樣本訓(xùn)練出的異常識(shí)別模型對(duì)未知攻擊類型的異常行為無法保證較低的漏報(bào)率. 因此, 采用單分類模型對(duì)正常樣本在特征空間中分布的建模思想, 實(shí)現(xiàn)對(duì)未知樣本是否屬于正常狀態(tài)的判斷.

        基于統(tǒng)計(jì)未知樣本點(diǎn)附近正常樣本點(diǎn)的數(shù)量[16],衡量未知樣本是否屬于目標(biāo)類別的單分類模型, 需要花費(fèi)大量的存儲(chǔ)計(jì)算開銷計(jì)算與已知類別樣本間的距離, 無法滿足高響應(yīng)速率的需求. 將行為序列轉(zhuǎn)為向量化表達(dá)后, 各維特征的取值在樣本空間中的分布未知,無法適用于基于目標(biāo)類型樣本空間中密度分布建模的單分類模型[17].

        支持向量描述方法(Support Vector Data Describe,SVDD)采用在高維特征空間尋找包圍所有目標(biāo)類別樣本點(diǎn)超球面的單分類模型思想, 采用與SVM相近的最小化樣本點(diǎn)到超球面間隔的思想, 尋找描述邊界超球面的支持向量. 在使用相同核函數(shù)的情況下與本文采用的OCSVM算法完全等價(jià)[18], 獲得目標(biāo)對(duì)偶問題和分類決策函數(shù)的進(jìn)一步簡(jiǎn)化形式.

        OCSVM的主要思想是將單分類問題等價(jià)為特殊的二分類問題, 即使用全部屬于同一類別的訓(xùn)練樣本,通過核函數(shù)將輸入空間映射到高維空間, 尋找最優(yōu)分類超平面, 將訓(xùn)練樣本點(diǎn)盡可能與原點(diǎn)分開[19]. 使用高維空間中的分類超平面函數(shù)判斷輸入樣本點(diǎn)是否屬于已知類別, 其對(duì)應(yīng)的二次優(yōu)化問題如下:

        最終獲得代表分類超平面的決策函數(shù)為:

        引入拉格朗日函數(shù)將上述二次規(guī)劃問題轉(zhuǎn)換為:

        對(duì) ω, ρ, ξi分別求偏導(dǎo)可得:

        其中, αi, βi分別為拉格朗日乘子. 并引入高斯核函數(shù):

        其中, g為高斯核函數(shù)參數(shù), 將公式(5)(6)代入式(4)中得到其對(duì)偶問題為:

        選取任一滿足0≤α*≤1/vl的α*, 計(jì)算出偏移量:

        滿足0≤α*≤1/vl的向量叫支持向量, 最終求得決策函數(shù)如公式(10)所示, 其中NSV為支持向量個(gè)數(shù).

        基于OCSVM實(shí)現(xiàn)對(duì)異常行為識(shí)別模型的建立過程中, 將從正常生產(chǎn)狀態(tài)下通過時(shí)間窗劃分抽取到的多條行為序列si作為訓(xùn)練數(shù)據(jù)集S, 采用所構(gòu)建的文本模型將其轉(zhuǎn)換為指定k維的特征向量xi, 基于訓(xùn)練樣本集X得到的OCSVM模型即可實(shí)現(xiàn)對(duì)所輸入的特征向量是否屬于正常類型的識(shí)別.

        對(duì)于未知類型的行為序列s′, 將其經(jīng)過語義模型轉(zhuǎn)為向量化表示后, 將所得的特征向量x′代入所訓(xùn)練模型的決策函數(shù)f(x)中, 輸出該特征向量所屬的類別,實(shí)現(xiàn)對(duì)異常行為序列的識(shí)別.

        3 仿真實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)環(huán)境與評(píng)估指標(biāo)

        本文采用的實(shí)驗(yàn)環(huán)境是由一臺(tái)采用IEC 104規(guī)約進(jìn)行通信的控制主機(jī)仿真器和一臺(tái)受控單元仿真器組成的業(yè)務(wù)控制系統(tǒng), 并向網(wǎng)絡(luò)中接入流量傳感器模塊對(duì)數(shù)據(jù)包中的操作行為進(jìn)行解析, 整理匯總出各條通信鏈路的行為序列.

        通過調(diào)整仿真器的工作模式和所仿真終端的類型用以模擬包括遙信、遙控、遙測(cè)、遙調(diào)等多種正常工作狀態(tài)下的控制行為, 收集共計(jì)16 000條的正常行為序列. 在劫持控制終端后, 針對(duì)受控單元的攻擊主要包括隨機(jī)操作、篡改行為、重復(fù)指令、顛倒業(yè)務(wù)、未知指令等多種方式. 因此, 在所采集的正常行為序列的基礎(chǔ)上通過隨機(jī)構(gòu)造、復(fù)制、裁剪、易序、偽造等手段,仿真以上5種攻擊類型的行為序列各200條, 獲得共計(jì)1000條異常行為序列.

        為驗(yàn)證語義向量模型結(jié)合OCSVM算法對(duì)異常行為序列識(shí)別的準(zhǔn)確性, 使用所獲得的15 000條正常行為序列作為訓(xùn)練數(shù)據(jù)集. 測(cè)試數(shù)據(jù)集則由正常行為序列和異常行為序列各1000條構(gòu)成, 并采用以下兩個(gè)指標(biāo)評(píng)估異常行為識(shí)別模型在測(cè)試數(shù)據(jù)集上的準(zhǔn)確性:

        準(zhǔn)確率: Precision=TP/(TP+FP)

        召回率: Recall=TP/(TP+FN)

        其中TP (True Positive)表示識(shí)別為異常序列中識(shí)別正確的數(shù)量, FP (False Positive)表示識(shí)別為異常序列中識(shí)別錯(cuò)誤的數(shù)量, FN (False Negative)則表示實(shí)際為異常行為序列但識(shí)別為正常的數(shù)量.

        3.2 識(shí)別準(zhǔn)確性分析

        基于規(guī)則的異常行為識(shí)別策略通常采用已知的非法行為構(gòu)建用以進(jìn)行異常模式匹配的操作子序列集合.結(jié)合實(shí)際業(yè)務(wù)中對(duì)非法行為操作的定義, 構(gòu)造出由423條非法子序列構(gòu)成的模式匹配集合, 作為與本文采用的異常行為識(shí)別算法的對(duì)照.

        為驗(yàn)證語義向量模型對(duì)異常行為識(shí)別的準(zhǔn)確性提升, 將基于操作和操作組合頻率統(tǒng)計(jì)的傳統(tǒng)行為序列的向量化方式作為對(duì)比. 同時(shí), 使用LDA話題模型對(duì)傳統(tǒng)方式提取的特征向量進(jìn)行降維[20], 將序列中各行為加權(quán)頻率轉(zhuǎn)化為在各個(gè)抽象“話題”上的分布權(quán)重,并采用OCSVM完成異常行為識(shí)別建模.

        其中, 語義向量模型中行為序列特征向量對(duì)應(yīng)的目標(biāo)維數(shù)K=50, LDA話題模型的目標(biāo)維數(shù)同樣為50,OCSVM算法模型參數(shù)分別取各自在訓(xùn)練數(shù)據(jù)集上的最優(yōu)參數(shù), 并按照所使用的三種向量化方式分別對(duì)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行向量化操作.

        將測(cè)試集正常樣本五等分, 與3.1節(jié)中5種攻擊類型的異常行為序列分別構(gòu)成5個(gè)測(cè)試子集. 分別由三種特征構(gòu)建方法所得特征向量訓(xùn)練的OCSVM模型與傳統(tǒng)異常模式匹配策略在各測(cè)試子集上的性能評(píng)估指標(biāo)分別如表1所示.

        表1 不同特征構(gòu)造方式下的異常識(shí)別準(zhǔn)確性(單位: %)

        傳統(tǒng)向量化方式所構(gòu)造的特征存在高維稀疏性,所得的向量中大部分特征維度的值為0, 將未進(jìn)行降維的特征向量用于訓(xùn)練所得到的異常識(shí)別模型的準(zhǔn)確性較低. 相較于傳統(tǒng)向量化方式結(jié)合LDA降維算法, 語義向量模型所構(gòu)造的特征向量在考慮時(shí)間序列中控制行為頻率特性的同時(shí), 保留了控制行為之間的上下文關(guān)系, 使模型準(zhǔn)確性進(jìn)一步提高.

        盡管基于規(guī)則的異常模式匹配策略對(duì)所識(shí)別出的異常行為有不錯(cuò)的準(zhǔn)確率, 但其根據(jù)先驗(yàn)知識(shí)的匹配檢測(cè)思路使其在測(cè)試數(shù)據(jù)集上的召回率較低, 即存在大量漏報(bào)的情況, 因此無法滿足實(shí)際應(yīng)用場(chǎng)景中對(duì)未知異常行為準(zhǔn)確識(shí)別的需要.

        從隨機(jī)操作、篡改行為、重復(fù)指令三個(gè)測(cè)試子集中各取100條異常樣本數(shù)據(jù)加入訓(xùn)練集, 采用樹形層次結(jié)構(gòu)與AdaBoost對(duì)傳統(tǒng)SVM模型進(jìn)行優(yōu)化作為與OCSVM模型的對(duì)比, 訓(xùn)練數(shù)據(jù)的向量化方式均采用語義向量模型. 由表2中結(jié)果可知傳統(tǒng)SVM模型的準(zhǔn)確性受正負(fù)樣本不均衡性的影響較大. 采用樹形層次結(jié)構(gòu)與AdaBoost優(yōu)化后的模型有效克服了正負(fù)樣本不均衡對(duì)模型訓(xùn)練的影響, 但在顛倒業(yè)務(wù)和未知指令兩個(gè)測(cè)試集上的準(zhǔn)確率較低并存在較為明顯的漏報(bào),無法滿足對(duì)未知攻擊類型異常行為的識(shí)別需要.

        表2 各類支持向量機(jī)異常識(shí)別的準(zhǔn)確性(單位: %)

        3.3 算法計(jì)算開銷比對(duì)

        模型構(gòu)建與識(shí)別的計(jì)算開銷是模型能否滿足實(shí)際應(yīng)用需要另一衡量標(biāo)準(zhǔn). 分別采用特征提取過程中向量化建模與行為序列向量化的耗時(shí)、OCSVM建模部分的迭代輪次與單位輪次迭代耗時(shí)及模型識(shí)別響應(yīng)耗時(shí)5個(gè)指標(biāo)對(duì)3.2節(jié)中三類模型的時(shí)間開銷進(jìn)行對(duì)比.分別對(duì)各模型進(jìn)行5次相同的建模計(jì)算與響應(yīng)過程,對(duì)各階段具體的耗時(shí)取平均其結(jié)果如表3所示.

        表3 各模型不同階段的計(jì)算開銷

        由實(shí)驗(yàn)結(jié)果可知, 盡管傳統(tǒng)方式在向量化建模和行為序列向量化過程中的耗時(shí)均較低, 但其構(gòu)建特征向量的高維稀疏性使模型訓(xùn)練過程中的單位迭代耗時(shí)和迭代收斂輪次均大于其他方式. 使用語義向量模型所得的特征向量訓(xùn)練時(shí)需要更少的迭代輪次使模型趨于收斂, 盡管特征提取時(shí)產(chǎn)生了一定的時(shí)間開銷, 但僅占總開銷的一小部分. 同時(shí), 所構(gòu)建的OCSVM模型對(duì)異常行為序列的響應(yīng)時(shí)間符合實(shí)際應(yīng)用的需要.

        4 結(jié)論與展望

        本文以電力SCADA系統(tǒng)中常用的IEC 104規(guī)約通信協(xié)議為例, 通過對(duì)數(shù)據(jù)包內(nèi)容進(jìn)行深度解析, 根據(jù)不同數(shù)據(jù)包所對(duì)應(yīng)的控制操作類型, 將生產(chǎn)業(yè)務(wù)過程抽象為控制行為序列進(jìn)行建模實(shí)現(xiàn)對(duì)異常行為序列的識(shí)別. 根據(jù)工控網(wǎng)絡(luò)協(xié)議的語義特性和數(shù)據(jù)包之間的上下文關(guān)系, 采用語義向量模型將各時(shí)間窗內(nèi)長(zhǎng)度不同的行為序列轉(zhuǎn)換為相同維度的特征向量. 基于OCSVM算法實(shí)現(xiàn)了在僅使用正常樣本的條件下對(duì)異常行為的識(shí)別實(shí)現(xiàn)準(zhǔn)確建模. 使用多種類型的行為序列驗(yàn)證了所構(gòu)造的模型對(duì)異常序列、未知序列的識(shí)別具備較高的準(zhǔn)確性. 下一步將對(duì)單分類模型在異常行為識(shí)別的可靠性和準(zhǔn)確性上進(jìn)行進(jìn)一步的優(yōu)化提升.

        猜你喜歡
        特征向量數(shù)據(jù)包語義
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        語言與語義
        SmartSniff
        一類特殊矩陣特征向量的求法
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
        視覺注意的數(shù)據(jù)包優(yōu)先級(jí)排序策略研究
        色伊人国产高清在线| 天天碰免费上传视频| 麻豆精品久久久久久久99蜜桃 | 日韩毛片无码永久免费看| 久久精品国产夜色| 国产高潮精品一区二区三区av| 亚洲天堂线上免费av| 91色区在线免费观看国产| 国产成人av综合色| 国产精品成人国产乱| 久久亚洲AV成人一二三区| 米奇亚洲国产精品思久久| 国产亚洲成人精品久久久| 国产成人午夜无码电影在线观看| 国产女合集小岁9三部| 麻豆成年视频在线观看| 日韩一区二区三区精品视频| 亚洲av中文无码乱人伦在线咪咕| 亚洲 欧美精品suv| 爆乳日韩尤物无码一区| 激情都市亚洲一区二区| 人妻饥渴偷公乱中文字幕| 国产精品嫩草影院AV| AV无码免费不卡在线观看| 91大神蜜桃视频在线观看| 国产成人av三级三级三级在线| 亚洲av男人的天堂一区| 亚洲午夜成人精品无码色欲 | 伊人色综合视频一区二区三区 | 国产精品久久久黄色片| 亚洲中文字幕无码中文字| 国产精品麻豆成人av电影艾秋| 国产av专区一区二区三区| 日本频道一区二区三区| 少妇性bbb搡bbb爽爽爽| 精品日韩国产欧美在线观看| 国产偷拍盗摄一区二区| 国产人成视频在线视频| 国产午夜三级一区二区三| 中文字幕偷拍亚洲九色| 日本激情网站中文字幕|