藍(lán)志威,袁 杰,2*,任志寬,3
(1. 中國(guó)社會(huì)科學(xué)院,北京 102445;2. 華南理工大學(xué),廣東 廣州 510640;3. 廣東省科學(xué)技術(shù)情報(bào)研究所,廣東 廣州 510033)
多源通信網(wǎng)絡(luò)以其傳輸速度快、分集度高等優(yōu)勢(shì)得到廣泛使用,已經(jīng)成為運(yùn)營(yíng)商新的重點(diǎn)業(yè)務(wù)。一些研發(fā)機(jī)構(gòu)通常使用入侵監(jiān)測(cè)系統(tǒng),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中可疑行為,同時(shí)采取一定措施,避免入侵行為進(jìn)一步發(fā)展。但是,大數(shù)據(jù)時(shí)代到來,使入侵監(jiān)測(cè)面對(duì)海量數(shù)據(jù)時(shí)力不從心,無法準(zhǔn)確高效的得出監(jiān)測(cè)結(jié)果。而數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域受到廣泛關(guān)注,它能對(duì)入侵監(jiān)測(cè)大數(shù)據(jù)做進(jìn)一步處理,提高入侵監(jiān)測(cè)性能等相關(guān)安全監(jiān)測(cè)指標(biāo)。
為此,相關(guān)領(lǐng)域?qū)W者研究數(shù)據(jù)挖掘在入侵監(jiān)測(cè)領(lǐng)域的應(yīng)用。文獻(xiàn)[1]提出基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法。該方法挖掘聚類效果較好,挖掘過程收斂性強(qiáng)。文獻(xiàn)[2]研究一種新的多層次數(shù)據(jù)挖掘改進(jìn)方法,為改進(jìn)挖掘效率低的弊端,在時(shí)間復(fù)雜度要求較低的情況下,采用XMASK方法對(duì)隨機(jī)擾動(dòng)方式改進(jìn),所需挖掘時(shí)間較短。文獻(xiàn)[3]對(duì)船舶數(shù)據(jù)庫(kù)管理系統(tǒng)中的入侵行為檢測(cè)研究現(xiàn)狀進(jìn)行分析,采用支持向量機(jī)對(duì)船舶數(shù)據(jù)庫(kù)管理系統(tǒng)中的入侵行為變化特點(diǎn)進(jìn)行刻畫,有效保證船舶數(shù)據(jù)庫(kù)系統(tǒng)的安全。
但上述挖掘方法隨著入侵形式多樣化,無法應(yīng)對(duì)多變的網(wǎng)絡(luò)環(huán)境,不能保證數(shù)據(jù)挖掘的完成度。為此,本文利用NoSQL方法對(duì)多源通信研發(fā)機(jī)構(gòu)入侵監(jiān)測(cè)大數(shù)據(jù)進(jìn)行挖掘。NoSQL表示一種結(jié)合物理分散邏輯實(shí)現(xiàn)數(shù)據(jù)規(guī)劃的分布式數(shù)據(jù)庫(kù),能有效提高挖掘方法的準(zhǔn)確性和完整度,同時(shí)具有靈活、實(shí)用價(jià)格低廉等優(yōu)勢(shì)。入侵監(jiān)測(cè)大數(shù)據(jù)具有復(fù)雜屬性,包括位置、方向和長(zhǎng)度。計(jì)算屬性之間關(guān)聯(lián)程度,將其作為數(shù)據(jù)挖掘依據(jù),再對(duì)不同屬性關(guān)聯(lián)程度進(jìn)行聚類,便可得到最終挖掘結(jié)果,成為本文方法的創(chuàng)新之處。
多源通信可以實(shí)現(xiàn)不同平臺(tái)之間的業(yè)務(wù)數(shù)據(jù)共享,使管理信息系統(tǒng)中的數(shù)據(jù)動(dòng)態(tài)反映到其它系統(tǒng)中去?,F(xiàn)有研發(fā)機(jī)構(gòu)研究的多源通信系統(tǒng)實(shí)現(xiàn)過程圖如圖1所示。
圖1 多源通信系統(tǒng)結(jié)構(gòu)圖
將整個(gè)通信過程分為以下四個(gè)不同層次:
1)數(shù)據(jù)庫(kù)之間通信:用來解決數(shù)據(jù)庫(kù)之間訪問問題;
2)訪問層次:完成系統(tǒng)與多源數(shù)據(jù)業(yè)務(wù)查詢;
3)邏輯層次:滿足對(duì)多源數(shù)據(jù)需求定義,實(shí)現(xiàn)數(shù)據(jù)交換;
4)通信層次:實(shí)現(xiàn)系統(tǒng)與數(shù)據(jù)庫(kù)之間互相訪問[4]。
多源通信研發(fā)機(jī)構(gòu)屬于新型研發(fā)機(jī)構(gòu),在組織架構(gòu)方面也與其它研究機(jī)構(gòu)存在差異,它屬于以傳統(tǒng)職能式為主的弱矩陣式組織架構(gòu)[5],示意圖如圖2所示。
圖2 多源通信研發(fā)機(jī)構(gòu)組織架構(gòu)
1)信息資產(chǎn)識(shí)別
信息安全風(fēng)險(xiǎn)為入侵風(fēng)險(xiǎn)評(píng)估的主要條件,是構(gòu)建信息安全管理的目標(biāo)。具體資產(chǎn)分類與名稱如表1所示。
表1 信息資產(chǎn)分類表
2)威脅識(shí)別
威脅是對(duì)組織與資產(chǎn)形成潛在破壞的可能因素,它屬于客觀存在的,且多數(shù)威脅無法完全消除。
表2 研發(fā)機(jī)構(gòu)信息威脅表
對(duì)研發(fā)機(jī)構(gòu)的各個(gè)方面風(fēng)險(xiǎn)進(jìn)行分析,有利于監(jiān)測(cè)入侵行為,全方面獲取監(jiān)測(cè)數(shù)據(jù)。
對(duì)入侵監(jiān)測(cè)大數(shù)據(jù)進(jìn)行挖掘之前,需要對(duì)入侵特征進(jìn)行提取[6],為數(shù)據(jù)降維提供依據(jù)。將獲取的痕跡信息轉(zhuǎn)換為頻域信號(hào)df,分析其頻譜特性,結(jié)合時(shí)間變換幅值將其轉(zhuǎn)換為隨頻譜變動(dòng)的功率。頻譜分析主要根據(jù)頻率中心fFC、均方根頻率fRMSF以及跟方差頻率fRVF,它們分別表示信號(hào)主頻方位、變化情況與功率譜集中性,表達(dá)式依次為
(1)
(2)
(3)
式中,S(f)代表功率譜。將獲取的痕跡信息變換為頻域信號(hào)的表示形式
ei=(fFC+fRMSF+fRVF)S(f)
(4)
本文利用核主元分析法實(shí)現(xiàn)入侵痕跡數(shù)據(jù)信號(hào)的特征提取。此方法核心思想為:通過非線性轉(zhuǎn)換方式將入侵行為的樣本痕跡數(shù)據(jù)從輸入空間引入到高維特征空間[7],再在此空間內(nèi)進(jìn)行頻域特征提取。
如果y表示n維痕跡信息矢量,{yi,i=1,2,…,N}則代表y的某個(gè)痕跡信息信號(hào)樣本集合,利用非線性H將樣本數(shù)據(jù)信號(hào)從空間Rn映射到高維特征空間Rt中,再對(duì)該空間進(jìn)行主成分分析。
(5)
式中特征值和特征向量的關(guān)聯(lián)性可表示為
λk=Cvk
(6)
式中,特征值λk≥0,vk(k=1,2,…,t)代表特征向量。
將式(5)與式(6)相結(jié)合,得到
(7)
假設(shè)與所有非零特征值λk對(duì)應(yīng)的特征向量vk位于{H(xi),i=1,2,…,N}所在的平面內(nèi),具有不都為零的系數(shù)[Ti,i=1,2,…,N],令
(8)
綜合分析式(6)~(8)能夠得出
(9)
如果N×N矩陣表示為如下形式
Kij=k(yi,yj)=〈H(yi),H(yj)〉
(10)
式中k(yi,yj)表示滿足要求的核函數(shù),對(duì)式(5)進(jìn)行簡(jiǎn)化處理為NλkK=K2,考慮到實(shí)際簡(jiǎn)化需求,則有
λk=KN
(11)
因此K的特性值和特征矢量分別表示為Nλk和Tk。對(duì)特征值從大到小進(jìn)行排序,若前m個(gè)特征值的和與所有特征值和的比值大于設(shè)定閾值,則主元數(shù)量為m。
為實(shí)現(xiàn)特征向量vk的歸一化,必須對(duì)T進(jìn)行規(guī)范化處理
(12)
因此能夠獲得入侵痕跡數(shù)據(jù)的信號(hào)樣本yi在Rm空間內(nèi)第k個(gè)主向量vk內(nèi)的投影,即為yi特征值
(13)
利用上述方法實(shí)現(xiàn)對(duì)入侵監(jiān)測(cè)數(shù)據(jù)的特征提取。
由于入侵監(jiān)測(cè)大數(shù)據(jù)中包含無用信息較多,因此要?jiǎng)h除對(duì)最終結(jié)果影響較小的屬性信息,將樣本從高維空間映射到低維空間中,本文在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測(cè)特征提取結(jié)果,實(shí)現(xiàn)大數(shù)據(jù)降維。
因入侵監(jiān)測(cè)是一個(gè)分類問題,所以采用一個(gè)分類方式將數(shù)據(jù)集合分成五類,其中包括一個(gè)正常類型Normal與四個(gè)入侵類型Prb,R21,Dos,U21,將質(zhì)心數(shù)量設(shè)置為5,降維過程如下:
步驟一:利用改進(jìn)的k-Means聚類方法獲取訓(xùn)練數(shù)據(jù)集合內(nèi)5簇的質(zhì)心c0,c1,…,c4。每個(gè)簇的原始質(zhì)心根據(jù)訓(xùn)練樣本已知類別獲得,同時(shí)進(jìn)行迭代運(yùn)算獲取質(zhì)心坐標(biāo),確保原始質(zhì)心不會(huì)太過集中,以免影響降維效果。
步驟二:獲取待降維數(shù)據(jù)集合中樣本和質(zhì)心ci(i=0,1,…,4)的空間關(guān)聯(lián)性。例如將45維的樣本和質(zhì)心ci通過向量形式引入到歐式距離[8]公式中
(14)
利用上述公式計(jì)算獲得樣本x到質(zhì)心ci的空間距離,將其當(dāng)作二者之間空間關(guān)聯(lián)程度,將di當(dāng)作x降維后的新樣本x′的第i維特性值。最后的降維樣本x′描述為初始樣本x與每個(gè)簇質(zhì)心的距離,即x′(d0,d1,…,d4)。
步驟三:重復(fù)步驟二,直至全部樣本降維成新的數(shù)據(jù)集合。
經(jīng)過上述步驟,將所有入侵監(jiān)測(cè)數(shù)據(jù)從初始的45維降至5維,完成所有降維過程。
為提高挖掘方法性能,需事先對(duì)挖掘工作進(jìn)行約束,約束內(nèi)容必須保證挖掘工作運(yùn)算量小,且效果強(qiáng)。
利用confidence(Q?W)代表特征集合Q中包含特征集合W的概率,confidence(W?Q)與上述意義相反,則在綜合入侵監(jiān)測(cè)大數(shù)據(jù)位置關(guān)聯(lián)度、方向關(guān)聯(lián)度、長(zhǎng)度關(guān)聯(lián)度三方面進(jìn)行入侵監(jiān)測(cè)挖掘。
1)位置關(guān)聯(lián)度挖掘
2)方向關(guān)聯(lián)度挖掘
方向關(guān)聯(lián)度挖掘表示大數(shù)據(jù)集合Q與W傳輸方向之間的角度(s1,s2),它的余弦值描述為
(15)
通過式(17)可知,入侵監(jiān)測(cè)大數(shù)據(jù)集合Q與W傳輸方向角度越大,cos(s1,s2)值越小。如果(s1,s2)的值大于180度,則cos(s1,s2)值為負(fù)。為減少位置關(guān)聯(lián)度挖掘結(jié)果對(duì)方向關(guān)聯(lián)度挖掘結(jié)果造成的影響,基于NoSQL分布式大數(shù)據(jù)挖掘方法利用[1-cos(s1,s2)]的正弦值描述法代替?zhèn)鹘y(tǒng)[1-cos2(s1,s2)]描述法,使方向關(guān)聯(lián)度被準(zhǔn)確挖掘。
sim(dist)=avg(|s1||s2|)[1-cos(s1,s2)]
(16)
3)長(zhǎng)度關(guān)聯(lián)度挖掘
長(zhǎng)度關(guān)聯(lián)度挖掘是對(duì)位置關(guān)聯(lián)度挖掘的異向思維計(jì)算,也是對(duì)其挖掘結(jié)果的加成預(yù)算,其核心是對(duì)兩個(gè)數(shù)據(jù)集合傳輸通道長(zhǎng)度計(jì)算的過程。因此挖掘結(jié)果可表示為
(17)
4)挖掘聚類
對(duì)降維后的入侵監(jiān)測(cè)數(shù)據(jù)利用式(15)、(16)與(17)結(jié)合給出的約束條件進(jìn)行聚類,獲取最終的挖掘結(jié)果。假設(shè)利用F代表挖掘頻率,則Fs即為挖掘聚類,也就是最終挖掘結(jié)果,表達(dá)式如下
(18)
式中,F(xiàn)j為大數(shù)據(jù)位置、方向與長(zhǎng)度屬性一起出現(xiàn)的概率,F(xiàn)max則為上述屬性關(guān)聯(lián)度的極大值,A與As分別是挖掘前、后樣本總數(shù)。
選取某個(gè)多源通信研發(fā)機(jī)構(gòu)的通信環(huán)境作為研究實(shí)驗(yàn)?zāi)繕?biāo),仿真環(huán)境為一臺(tái)PC機(jī),其配置是P4CPU2.40GHz,內(nèi)存與硬盤大小分別為256MB和80G。數(shù)據(jù)來源為KDNuggets (http:∥www.kdnuggets.com/datasets/index.html),從中隨機(jī)挑選包括23個(gè)研發(fā)機(jī)構(gòu)在內(nèi)的相關(guān)通信數(shù)據(jù),排除不適應(yīng)預(yù)分類的數(shù)據(jù)集,剩余20個(gè)數(shù)據(jù)集,以此為數(shù)據(jù)樣本,分別從挖掘時(shí)間與完整度兩方面對(duì)所提方法、文獻(xiàn)[1]、文獻(xiàn)[2]方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果分別如圖3所示。
圖3 不同方法挖掘所需時(shí)間對(duì)比圖
從圖3中能夠看出,在6次迭代過程中,所提方法最高一次挖掘時(shí)間為12秒,而文獻(xiàn)[1]與文獻(xiàn)[2]所需最高時(shí)間分別為15秒和18秒,文獻(xiàn)[3]最高所需時(shí)間為17.5秒,與其它方法相比挖掘效率具有明顯優(yōu)勢(shì)。因?yàn)樵摲椒▽?duì)入侵監(jiān)測(cè)大數(shù)據(jù)結(jié)合入侵特性進(jìn)行降維處理,去除冗余數(shù)據(jù),縮短數(shù)據(jù)挖掘時(shí)間。此外,三種方法挖掘完整度對(duì)比結(jié)果如圖4所示。
圖4 所提方法挖掘完整度
由圖4挖掘完整度結(jié)果可知,所提方法挖掘完整度在80%左右,其它三種方法的挖掘完整度都在80%以下。這是由于所提方法經(jīng)過全面的屬性分析,分別從大數(shù)據(jù)位置、方向與長(zhǎng)度三方面進(jìn)行挖掘,得到較為全面的挖掘結(jié)果。
1)為提高多源通信研發(fā)機(jī)構(gòu)研發(fā)數(shù)據(jù)的安全性,本文利用NoSQL挖掘方法從入侵監(jiān)測(cè)大數(shù)據(jù)的不同維度進(jìn)行挖掘,挖掘時(shí)間最高僅為11.5秒,能夠保持較好的挖掘效率。
2)在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測(cè)特征提取結(jié)果,進(jìn)行大數(shù)據(jù)降維,且在降維的同時(shí)能夠保證挖掘結(jié)果全面、完整度高,挖掘完整度在80%左右。具有較強(qiáng)實(shí)用性。
3)在今后研究工作中,將會(huì)繼續(xù)深入研究大數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用,使該方法稱為研發(fā)機(jī)構(gòu)信息安全的支撐技術(shù)之一。