張 婭
(宜賓職業(yè)技術(shù)學(xué)院電子信息與人工智能學(xué)院,四川 宜賓 644003)
工業(yè)物聯(lián)網(wǎng)能夠?qū)⒏黝悅鞲衅魅谌牍I(yè)生產(chǎn)過程各個(gè)環(huán)節(jié),通過網(wǎng)絡(luò)將采集到的數(shù)據(jù)進(jìn)行匯總處理分析,然后生成各種控制指令下達(dá),從而大幅提高制造效率,改善產(chǎn)品質(zhì)量,降低成本和資源消耗。該領(lǐng)域集成了感知、監(jiān)控、通信、智能分析和自動(dòng)控制等技術(shù),實(shí)現(xiàn)傳統(tǒng)自動(dòng)制造到智能制造的新飛躍[1]。但是,依賴于網(wǎng)絡(luò)的工業(yè)物聯(lián)網(wǎng)在網(wǎng)絡(luò)安全方面面臨巨大的挑戰(zhàn),根據(jù)國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布的《2019年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢(shì)綜述》白皮書所述,我國現(xiàn)有工業(yè)物聯(lián)網(wǎng)設(shè)備中約有41%的系統(tǒng)存在高危漏洞。其中,電力、城市軌道交通等行業(yè)系統(tǒng)暴露的問題最為嚴(yán)重。因此,工業(yè)物聯(lián)網(wǎng)系統(tǒng)的網(wǎng)絡(luò)安全保障成為需要重點(diǎn)研究的問題。
工業(yè)物聯(lián)網(wǎng)的核心是不同層次的網(wǎng)絡(luò),包括傳感器網(wǎng)絡(luò)和工業(yè)現(xiàn)場(chǎng)總線網(wǎng)絡(luò)等;從連接方式來看,又可分為無線網(wǎng)絡(luò)和有線網(wǎng)絡(luò)兩大類[2]。各類網(wǎng)絡(luò)所采用的協(xié)議也有所不同,但這些網(wǎng)絡(luò)協(xié)議對(duì)傳統(tǒng)網(wǎng)絡(luò)協(xié)議普遍是兼容的,因此工業(yè)物聯(lián)網(wǎng)也極易遭受網(wǎng)絡(luò)攻擊。工業(yè)物聯(lián)網(wǎng)安全保障的主要研究方向集中在認(rèn)證加密、訪問權(quán)限和入侵模式識(shí)別等幾個(gè)方面[3],其中入侵模式識(shí)別是發(fā)現(xiàn)和阻斷網(wǎng)絡(luò)攻擊的首要方式,但由于工業(yè)物聯(lián)網(wǎng)的網(wǎng)絡(luò)構(gòu)成復(fù)雜,接入系統(tǒng)設(shè)備種類繁多,對(duì)入侵模式進(jìn)行有效識(shí)別是非常困難的[4]。
基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法先天具有優(yōu)秀的數(shù)據(jù)特征提取能力,近年來逐步應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,特別是在網(wǎng)絡(luò)入侵方面有成功的應(yīng)用[5,6]。但是,現(xiàn)有的深度學(xué)習(xí)方法在網(wǎng)絡(luò)訓(xùn)練時(shí)需要大量的先驗(yàn)數(shù)據(jù),這對(duì)訓(xùn)練數(shù)據(jù)集的準(zhǔn)備提出了很高的要求[7]。而且在實(shí)際運(yùn)行過程中,出現(xiàn)了新的攻擊模式時(shí),已經(jīng)部署的學(xué)習(xí)網(wǎng)絡(luò)很難成功識(shí)別。
本文針對(duì)這一問題,提出了一種基于無監(jiān)督學(xué)習(xí)的聚類學(xué)習(xí)網(wǎng)絡(luò),提取網(wǎng)絡(luò)攻擊數(shù)據(jù)的分布特征,對(duì)攻擊模式進(jìn)行聚類分析。該網(wǎng)絡(luò)利用變分自編碼器(Variational AutoEncoder,VAE)的聚類方法,能夠很好地適應(yīng)復(fù)雜的工業(yè)物聯(lián)網(wǎng)環(huán)境,對(duì)各類網(wǎng)絡(luò)攻擊的識(shí)別準(zhǔn)確率達(dá)到了96%以上。
對(duì)于獲得的網(wǎng)絡(luò)攻擊數(shù)據(jù),假設(shè)這些數(shù)據(jù)隱含更底層的參數(shù)特征(如日志信息中所含系數(shù)),而且這些參數(shù)都服從某些特定的分布,則被稱為隱變量(Latent Variable)。基于變分自編碼器的聚類方法主要工作是對(duì)數(shù)據(jù)點(diǎn)x的分布P(x)進(jìn)行建模,并通過分布模型來對(duì)數(shù)據(jù)進(jìn)行聚類[8,9]。
設(shè)數(shù)據(jù)為x,隱變量為z,則可以生成聯(lián)合分布模型:
給定一個(gè)數(shù)據(jù) ,要推斷出后驗(yàn)分布:
式中,L為變分下界:
L的表達(dá)形式也可寫為
本文所采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中的編碼網(wǎng)絡(luò)使用隱變量的近似后驗(yàn)概率,分布模型q(z|x) 采用高斯混合分布模型來近似,模型中的均值和方差等參數(shù)可以利用神經(jīng)網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)學(xué)習(xí)得到。然后根據(jù)估計(jì)的均值和方差,使用蒙特卡羅方法對(duì)隱變量z的分布進(jìn)行采樣,最后利用解碼器網(wǎng)絡(luò)生成預(yù)測(cè)數(shù)據(jù)。
圖1 聚類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
設(shè)隱變量z的近似概率分布由混合高斯分布描述,記為
式中,π為混合系數(shù)。z的真實(shí)后驗(yàn)概率分布也可用混合高斯分布描述,記為
式中,ω為混合系數(shù)。則公式(4)中的KL散度可近似為
因此,公式(5)表達(dá)的變分下界可以近似為
其中隱變量z的每個(gè)維度的變分下界可以記為
由此,可以使用隨機(jī)梯度下降方法訓(xùn)練模型,并且利用EM算法估計(jì)聚類結(jié)果。
由于隱變量z是輸入數(shù)據(jù)x的隱含特征表現(xiàn),因此可將z的概率分布模型作為x的聚類依據(jù),即z的聚類結(jié)果等同于x的聚類結(jié)果。記z的聚類概率為
為了測(cè)試本文所搭建的深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)攻擊類型的辨識(shí)效果,本文選取美國林肯實(shí)驗(yàn)室公布的標(biāo)準(zhǔn)數(shù)據(jù)集NSL-KDD作為實(shí)驗(yàn)數(shù)據(jù)集。NSL-KDD數(shù)據(jù)集模擬了真實(shí)環(huán)境中不同條件下的網(wǎng)絡(luò)攻擊數(shù)據(jù),數(shù)據(jù)特征提取由哥倫比亞大學(xué)完善,目前已成為網(wǎng)絡(luò)安全領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)集,本文從中選取的樣本數(shù)據(jù)如表1所示。
表1 樣本數(shù)據(jù)概況
本文所采用的實(shí)驗(yàn)平臺(tái)參數(shù)如表2所示。
表2 仿真平臺(tái)配置
為了測(cè)試本文設(shè)計(jì)的聚類深度學(xué)習(xí)網(wǎng)絡(luò)性能,本文除完成網(wǎng)絡(luò)自身測(cè)試外,還選擇了BP神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)對(duì)相同數(shù)據(jù)集的特征進(jìn)行了識(shí)別。文章分別統(tǒng)計(jì)了3種方法的識(shí)別準(zhǔn)確率和訓(xùn)練時(shí)間,結(jié)果如圖2和圖3所示。從圖2可以看出,本文設(shè)計(jì)的深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別率在96%以上,相對(duì)于BP神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)有大幅度的提高。
圖2 三種方法對(duì)網(wǎng)絡(luò)攻擊行為的聚類準(zhǔn)確率對(duì)比
從圖3可以看出,本文所提出的方法訓(xùn)練時(shí)間最少,僅為貝葉斯網(wǎng)絡(luò)的三分之一,BP神經(jīng)網(wǎng)絡(luò)的二分之一,這表明本文方法的收斂速度較快。這是因?yàn)榻?jīng)過實(shí)驗(yàn),本文在網(wǎng)絡(luò)訓(xùn)練前對(duì)混合高斯模型的先驗(yàn)均值進(jìn)行了初始化:首先,按標(biāo)準(zhǔn)高斯分布模型,使用K-means方法進(jìn)行聚類得出測(cè)試數(shù)據(jù)的的初始聚類中心點(diǎn);然后,估計(jì)出隱變量的先驗(yàn)的均值。這樣可以避免網(wǎng)絡(luò)的變分下界陷入局部最小,提高了收斂速度。
圖3 三種方法的訓(xùn)練時(shí)間對(duì)比
本文提出基于無監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)網(wǎng)絡(luò)用于對(duì)工業(yè)物聯(lián)網(wǎng)中的網(wǎng)絡(luò)攻擊類型進(jìn)行聚類分析,系用NSL-KDD標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)本文提出的方法進(jìn)行了驗(yàn)證,并與BP神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文提出的方法可以達(dá)到96%的準(zhǔn)確率,可以正確提取出網(wǎng)絡(luò)數(shù)據(jù)的深度特征,訓(xùn)練速度快。綜上所述,本文提出的深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)工業(yè)物聯(lián)網(wǎng)的攻擊檢測(cè)性能較好,為實(shí)際網(wǎng)絡(luò)系統(tǒng)的部署應(yīng)用打下了理論基礎(chǔ)?!?/p>