亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多源通信研發(fā)機(jī)構(gòu)入侵監(jiān)測(cè)大數(shù)據(jù)挖掘方法

2021-11-18 04:09:10藍(lán)志威任志寬

計(jì)算機(jī)仿真 2021年1期

藍(lán)志威，袁杰，2*，任志寬，3

(1. 中國(guó)社會(huì)科學(xué)院，北京 102445；2. 華南理工大學(xué)，廣東廣州 510640；3. 廣東省科學(xué)技術(shù)情報(bào)研究所，廣東廣州 510033)

1 引言

多源通信網(wǎng)絡(luò)以其傳輸速度快、分集度高等優(yōu)勢(shì)得到廣泛使用，已經(jīng)成為運(yùn)營(yíng)商新的重點(diǎn)業(yè)務(wù)。一些研發(fā)機(jī)構(gòu)通常使用入侵監(jiān)測(cè)系統(tǒng)，及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中可疑行為，同時(shí)采取一定措施，避免入侵行為進(jìn)一步發(fā)展。但是，大數(shù)據(jù)時(shí)代到來，使入侵監(jiān)測(cè)面對(duì)海量數(shù)據(jù)時(shí)力不從心，無法準(zhǔn)確高效的得出監(jiān)測(cè)結(jié)果。而數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域受到廣泛關(guān)注，它能對(duì)入侵監(jiān)測(cè)大數(shù)據(jù)做進(jìn)一步處理，提高入侵監(jiān)測(cè)性能等相關(guān)安全監(jiān)測(cè)指標(biāo)。

為此，相關(guān)領(lǐng)域?qū)W者研究數(shù)據(jù)挖掘在入侵監(jiān)測(cè)領(lǐng)域的應(yīng)用。文獻(xiàn)[1]提出基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法。該方法挖掘聚類效果較好，挖掘過程收斂性強(qiáng)。文獻(xiàn)[2]研究一種新的多層次數(shù)據(jù)挖掘改進(jìn)方法，為改進(jìn)挖掘效率低的弊端，在時(shí)間復(fù)雜度要求較低的情況下，采用XMASK方法對(duì)隨機(jī)擾動(dòng)方式改進(jìn)，所需挖掘時(shí)間較短。文獻(xiàn)[3]對(duì)船舶數(shù)據(jù)庫(kù)管理系統(tǒng)中的入侵行為檢測(cè)研究現(xiàn)狀進(jìn)行分析，采用支持向量機(jī)對(duì)船舶數(shù)據(jù)庫(kù)管理系統(tǒng)中的入侵行為變化特點(diǎn)進(jìn)行刻畫，有效保證船舶數(shù)據(jù)庫(kù)系統(tǒng)的安全。

但上述挖掘方法隨著入侵形式多樣化，無法應(yīng)對(duì)多變的網(wǎng)絡(luò)環(huán)境，不能保證數(shù)據(jù)挖掘的完成度。為此，本文利用NoSQL方法對(duì)多源通信研發(fā)機(jī)構(gòu)入侵監(jiān)測(cè)大數(shù)據(jù)進(jìn)行挖掘。NoSQL表示一種結(jié)合物理分散邏輯實(shí)現(xiàn)數(shù)據(jù)規(guī)劃的分布式數(shù)據(jù)庫(kù)，能有效提高挖掘方法的準(zhǔn)確性和完整度，同時(shí)具有靈活、實(shí)用價(jià)格低廉等優(yōu)勢(shì)。入侵監(jiān)測(cè)大數(shù)據(jù)具有復(fù)雜屬性，包括位置、方向和長(zhǎng)度。計(jì)算屬性之間關(guān)聯(lián)程度，將其作為數(shù)據(jù)挖掘依據(jù)，再對(duì)不同屬性關(guān)聯(lián)程度進(jìn)行聚類，便可得到最終挖掘結(jié)果，成為本文方法的創(chuàng)新之處。

2 多源通信研發(fā)機(jī)構(gòu)入侵風(fēng)險(xiǎn)識(shí)別

2.1 多源通信研發(fā)機(jī)構(gòu)主要科研內(nèi)容

多源通信可以實(shí)現(xiàn)不同平臺(tái)之間的業(yè)務(wù)數(shù)據(jù)共享，使管理信息系統(tǒng)中的數(shù)據(jù)動(dòng)態(tài)反映到其它系統(tǒng)中去?，F(xiàn)有研發(fā)機(jī)構(gòu)研究的多源通信系統(tǒng)實(shí)現(xiàn)過程圖如圖1所示。

圖1 多源通信系統(tǒng)結(jié)構(gòu)圖

將整個(gè)通信過程分為以下四個(gè)不同層次：

1)數(shù)據(jù)庫(kù)之間通信：用來解決數(shù)據(jù)庫(kù)之間訪問問題；

2)訪問層次：完成系統(tǒng)與多源數(shù)據(jù)業(yè)務(wù)查詢；

3)邏輯層次：滿足對(duì)多源數(shù)據(jù)需求定義，實(shí)現(xiàn)數(shù)據(jù)交換；

4)通信層次：實(shí)現(xiàn)系統(tǒng)與數(shù)據(jù)庫(kù)之間互相訪問[4]。

2.2 研究機(jī)構(gòu)獨(dú)特性研究

多源通信研發(fā)機(jī)構(gòu)屬于新型研發(fā)機(jī)構(gòu)，在組織架構(gòu)方面也與其它研究機(jī)構(gòu)存在差異，它屬于以傳統(tǒng)職能式為主的弱矩陣式組織架構(gòu)[5]，示意圖如圖2所示。

圖2 多源通信研發(fā)機(jī)構(gòu)組織架構(gòu)

2.3 入侵風(fēng)險(xiǎn)識(shí)別

1)信息資產(chǎn)識(shí)別

信息安全風(fēng)險(xiǎn)為入侵風(fēng)險(xiǎn)評(píng)估的主要條件，是構(gòu)建信息安全管理的目標(biāo)。具體資產(chǎn)分類與名稱如表1所示。

表1 信息資產(chǎn)分類表

2)威脅識(shí)別

威脅是對(duì)組織與資產(chǎn)形成潛在破壞的可能因素，它屬于客觀存在的，且多數(shù)威脅無法完全消除。

表2 研發(fā)機(jī)構(gòu)信息威脅表

對(duì)研發(fā)機(jī)構(gòu)的各個(gè)方面風(fēng)險(xiǎn)進(jìn)行分析，有利于監(jiān)測(cè)入侵行為，全方面獲取監(jiān)測(cè)數(shù)據(jù)。

3 基于NoSQL分布式入侵監(jiān)測(cè)大數(shù)據(jù)挖掘

3.1 入侵?jǐn)?shù)據(jù)特征提取

對(duì)入侵監(jiān)測(cè)大數(shù)據(jù)進(jìn)行挖掘之前，需要對(duì)入侵特征進(jìn)行提取[6]，為數(shù)據(jù)降維提供依據(jù)。將獲取的痕跡信息轉(zhuǎn)換為頻域信號(hào)df，分析其頻譜特性，結(jié)合時(shí)間變換幅值將其轉(zhuǎn)換為隨頻譜變動(dòng)的功率。頻譜分析主要根據(jù)頻率中心fFC、均方根頻率fRMSF以及跟方差頻率fRVF，它們分別表示信號(hào)主頻方位、變化情況與功率譜集中性，表達(dá)式依次為

(1)

(2)

(3)

式中，S(f)代表功率譜。將獲取的痕跡信息變換為頻域信號(hào)的表示形式

ei=(fFC+fRMSF+fRVF)S(f)

(4)

本文利用核主元分析法實(shí)現(xiàn)入侵痕跡數(shù)據(jù)信號(hào)的特征提取。此方法核心思想為：通過非線性轉(zhuǎn)換方式將入侵行為的樣本痕跡數(shù)據(jù)從輸入空間引入到高維特征空間[7]，再在此空間內(nèi)進(jìn)行頻域特征提取。

如果y表示n維痕跡信息矢量，{yi，i=1，2，…，N}則代表y的某個(gè)痕跡信息信號(hào)樣本集合，利用非線性H將樣本數(shù)據(jù)信號(hào)從空間Rn映射到高維特征空間Rt中，再對(duì)該空間進(jìn)行主成分分析。

(5)

式中特征值和特征向量的關(guān)聯(lián)性可表示為

λk=Cvk

(6)

式中，特征值λk≥0，vk(k=1，2，…，t)代表特征向量。

將式(5)與式(6)相結(jié)合，得到

(7)

假設(shè)與所有非零特征值λk對(duì)應(yīng)的特征向量vk位于{H(xi)，i=1，2，…，N}所在的平面內(nèi)，具有不都為零的系數(shù)[Ti，i=1，2，…，N]，令

(8)

綜合分析式(6)～(8)能夠得出

(9)

如果N×N矩陣表示為如下形式

Kij=k(yi，yj)=〈H(yi)，H(yj)〉

(10)

式中k(yi，yj)表示滿足要求的核函數(shù)，對(duì)式(5)進(jìn)行簡(jiǎn)化處理為NλkK=K2，考慮到實(shí)際簡(jiǎn)化需求，則有

λk=KN

(11)

因此K的特性值和特征矢量分別表示為Nλk和Tk。對(duì)特征值從大到小進(jìn)行排序，若前m個(gè)特征值的和與所有特征值和的比值大于設(shè)定閾值，則主元數(shù)量為m。

為實(shí)現(xiàn)特征向量vk的歸一化，必須對(duì)T進(jìn)行規(guī)范化處理

(12)

因此能夠獲得入侵痕跡數(shù)據(jù)的信號(hào)樣本yi在Rm空間內(nèi)第k個(gè)主向量vk內(nèi)的投影，即為yi特征值

(13)

利用上述方法實(shí)現(xiàn)對(duì)入侵監(jiān)測(cè)數(shù)據(jù)的特征提取。

3.2 大數(shù)據(jù)降維

由于入侵監(jiān)測(cè)大數(shù)據(jù)中包含無用信息較多，因此要?jiǎng)h除對(duì)最終結(jié)果影響較小的屬性信息，將樣本從高維空間映射到低維空間中，本文在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測(cè)特征提取結(jié)果，實(shí)現(xiàn)大數(shù)據(jù)降維。

因入侵監(jiān)測(cè)是一個(gè)分類問題，所以采用一個(gè)分類方式將數(shù)據(jù)集合分成五類，其中包括一個(gè)正常類型Normal與四個(gè)入侵類型Prb，R21，Dos，U21，將質(zhì)心數(shù)量設(shè)置為5，降維過程如下：

步驟一：利用改進(jìn)的k-Means聚類方法獲取訓(xùn)練數(shù)據(jù)集合內(nèi)5簇的質(zhì)心c0，c1，…，c4。每個(gè)簇的原始質(zhì)心根據(jù)訓(xùn)練樣本已知類別獲得，同時(shí)進(jìn)行迭代運(yùn)算獲取質(zhì)心坐標(biāo)，確保原始質(zhì)心不會(huì)太過集中，以免影響降維效果。

步驟二：獲取待降維數(shù)據(jù)集合中樣本和質(zhì)心ci(i=0，1，…，4)的空間關(guān)聯(lián)性。例如將45維的樣本和質(zhì)心ci通過向量形式引入到歐式距離[8]公式中

(14)

利用上述公式計(jì)算獲得樣本x到質(zhì)心ci的空間距離，將其當(dāng)作二者之間空間關(guān)聯(lián)程度，將di當(dāng)作x降維后的新樣本x′的第i維特性值。最后的降維樣本x′描述為初始樣本x與每個(gè)簇質(zhì)心的距離，即x′(d0，d1，…，d4)。

步驟三：重復(fù)步驟二，直至全部樣本降維成新的數(shù)據(jù)集合。

經(jīng)過上述步驟，將所有入侵監(jiān)測(cè)數(shù)據(jù)從初始的45維降至5維，完成所有降維過程。

3.3 挖掘聚類

為提高挖掘方法性能，需事先對(duì)挖掘工作進(jìn)行約束，約束內(nèi)容必須保證挖掘工作運(yùn)算量小，且效果強(qiáng)。

利用confidence(Q?W)代表特征集合Q中包含特征集合W的概率，confidence(W?Q)與上述意義相反，則在綜合入侵監(jiān)測(cè)大數(shù)據(jù)位置關(guān)聯(lián)度、方向關(guān)聯(lián)度、長(zhǎng)度關(guān)聯(lián)度三方面進(jìn)行入侵監(jiān)測(cè)挖掘。

1)位置關(guān)聯(lián)度挖掘

2)方向關(guān)聯(lián)度挖掘

方向關(guān)聯(lián)度挖掘表示大數(shù)據(jù)集合Q與W傳輸方向之間的角度(s1，s2)，它的余弦值描述為

(15)

通過式(17)可知，入侵監(jiān)測(cè)大數(shù)據(jù)集合Q與W傳輸方向角度越大，cos(s1，s2)值越小。如果(s1，s2)的值大于180度，則cos(s1，s2)值為負(fù)。為減少位置關(guān)聯(lián)度挖掘結(jié)果對(duì)方向關(guān)聯(lián)度挖掘結(jié)果造成的影響，基于NoSQL分布式大數(shù)據(jù)挖掘方法利用[1-cos(s1，s2)]的正弦值描述法代替?zhèn)鹘y(tǒng)[1-cos2(s1，s2)]描述法，使方向關(guān)聯(lián)度被準(zhǔn)確挖掘。

sim(dist)=avg(|s1||s2|)[1-cos(s1，s2)]

(16)

3)長(zhǎng)度關(guān)聯(lián)度挖掘

長(zhǎng)度關(guān)聯(lián)度挖掘是對(duì)位置關(guān)聯(lián)度挖掘的異向思維計(jì)算，也是對(duì)其挖掘結(jié)果的加成預(yù)算，其核心是對(duì)兩個(gè)數(shù)據(jù)集合傳輸通道長(zhǎng)度計(jì)算的過程。因此挖掘結(jié)果可表示為

(17)

4)挖掘聚類

對(duì)降維后的入侵監(jiān)測(cè)數(shù)據(jù)利用式(15)、(16)與(17)結(jié)合給出的約束條件進(jìn)行聚類，獲取最終的挖掘結(jié)果。假設(shè)利用F代表挖掘頻率，則Fs即為挖掘聚類，也就是最終挖掘結(jié)果，表達(dá)式如下

(18)

式中，F(xiàn)j為大數(shù)據(jù)位置、方向與長(zhǎng)度屬性一起出現(xiàn)的概率，F(xiàn)max則為上述屬性關(guān)聯(lián)度的極大值，A與As分別是挖掘前、后樣本總數(shù)。

4 仿真數(shù)據(jù)分析與研究

選取某個(gè)多源通信研發(fā)機(jī)構(gòu)的通信環(huán)境作為研究實(shí)驗(yàn)?zāi)繕?biāo)，仿真環(huán)境為一臺(tái)PC機(jī)，其配置是P4CPU2.40GHz，內(nèi)存與硬盤大小分別為256MB和80G。數(shù)據(jù)來源為KDNuggets (http：∥www.kdnuggets.com/datasets/index.html)，從中隨機(jī)挑選包括23個(gè)研發(fā)機(jī)構(gòu)在內(nèi)的相關(guān)通信數(shù)據(jù)，排除不適應(yīng)預(yù)分類的數(shù)據(jù)集，剩余20個(gè)數(shù)據(jù)集，以此為數(shù)據(jù)樣本，分別從挖掘時(shí)間與完整度兩方面對(duì)所提方法、文獻(xiàn)[1]、文獻(xiàn)[2]方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果分別如圖3所示。

圖3 不同方法挖掘所需時(shí)間對(duì)比圖

從圖3中能夠看出，在6次迭代過程中，所提方法最高一次挖掘時(shí)間為12秒，而文獻(xiàn)[1]與文獻(xiàn)[2]所需最高時(shí)間分別為15秒和18秒，文獻(xiàn)[3]最高所需時(shí)間為17.5秒，與其它方法相比挖掘效率具有明顯優(yōu)勢(shì)。因?yàn)樵摲椒▽?duì)入侵監(jiān)測(cè)大數(shù)據(jù)結(jié)合入侵特性進(jìn)行降維處理，去除冗余數(shù)據(jù)，縮短數(shù)據(jù)挖掘時(shí)間。此外，三種方法挖掘完整度對(duì)比結(jié)果如圖4所示。

圖4 所提方法挖掘完整度

由圖4挖掘完整度結(jié)果可知，所提方法挖掘完整度在80%左右，其它三種方法的挖掘完整度都在80%以下。這是由于所提方法經(jīng)過全面的屬性分析，分別從大數(shù)據(jù)位置、方向與長(zhǎng)度三方面進(jìn)行挖掘，得到較為全面的挖掘結(jié)果。

5 結(jié)論

1)為提高多源通信研發(fā)機(jī)構(gòu)研發(fā)數(shù)據(jù)的安全性，本文利用NoSQL挖掘方法從入侵監(jiān)測(cè)大數(shù)據(jù)的不同維度進(jìn)行挖掘，挖掘時(shí)間最高僅為11.5秒，能夠保持較好的挖掘效率。

2)在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測(cè)特征提取結(jié)果，進(jìn)行大數(shù)據(jù)降維，且在降維的同時(shí)能夠保證挖掘結(jié)果全面、完整度高，挖掘完整度在80%左右。具有較強(qiáng)實(shí)用性。

3)在今后研究工作中，將會(huì)繼續(xù)深入研究大數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用，使該方法稱為研發(fā)機(jī)構(gòu)信息安全的支撐技術(shù)之一。