亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源通信研發(fā)機(jī)構(gòu)入侵監(jiān)測(cè)大數(shù)據(jù)挖掘方法

        2021-11-18 04:09:10藍(lán)志威任志寬
        計(jì)算機(jī)仿真 2021年1期
        關(guān)鍵詞:數(shù)據(jù)挖掘方法

        藍(lán)志威,袁 杰,2*,任志寬,3

        (1. 中國(guó)社會(huì)科學(xué)院,北京 102445;2. 華南理工大學(xué),廣東 廣州 510640;3. 廣東省科學(xué)技術(shù)情報(bào)研究所,廣東 廣州 510033)

        1 引言

        多源通信網(wǎng)絡(luò)以其傳輸速度快、分集度高等優(yōu)勢(shì)得到廣泛使用,已經(jīng)成為運(yùn)營(yíng)商新的重點(diǎn)業(yè)務(wù)。一些研發(fā)機(jī)構(gòu)通常使用入侵監(jiān)測(cè)系統(tǒng),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中可疑行為,同時(shí)采取一定措施,避免入侵行為進(jìn)一步發(fā)展。但是,大數(shù)據(jù)時(shí)代到來,使入侵監(jiān)測(cè)面對(duì)海量數(shù)據(jù)時(shí)力不從心,無法準(zhǔn)確高效的得出監(jiān)測(cè)結(jié)果。而數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域受到廣泛關(guān)注,它能對(duì)入侵監(jiān)測(cè)大數(shù)據(jù)做進(jìn)一步處理,提高入侵監(jiān)測(cè)性能等相關(guān)安全監(jiān)測(cè)指標(biāo)。

        為此,相關(guān)領(lǐng)域?qū)W者研究數(shù)據(jù)挖掘在入侵監(jiān)測(cè)領(lǐng)域的應(yīng)用。文獻(xiàn)[1]提出基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法。該方法挖掘聚類效果較好,挖掘過程收斂性強(qiáng)。文獻(xiàn)[2]研究一種新的多層次數(shù)據(jù)挖掘改進(jìn)方法,為改進(jìn)挖掘效率低的弊端,在時(shí)間復(fù)雜度要求較低的情況下,采用XMASK方法對(duì)隨機(jī)擾動(dòng)方式改進(jìn),所需挖掘時(shí)間較短。文獻(xiàn)[3]對(duì)船舶數(shù)據(jù)庫(kù)管理系統(tǒng)中的入侵行為檢測(cè)研究現(xiàn)狀進(jìn)行分析,采用支持向量機(jī)對(duì)船舶數(shù)據(jù)庫(kù)管理系統(tǒng)中的入侵行為變化特點(diǎn)進(jìn)行刻畫,有效保證船舶數(shù)據(jù)庫(kù)系統(tǒng)的安全。

        但上述挖掘方法隨著入侵形式多樣化,無法應(yīng)對(duì)多變的網(wǎng)絡(luò)環(huán)境,不能保證數(shù)據(jù)挖掘的完成度。為此,本文利用NoSQL方法對(duì)多源通信研發(fā)機(jī)構(gòu)入侵監(jiān)測(cè)大數(shù)據(jù)進(jìn)行挖掘。NoSQL表示一種結(jié)合物理分散邏輯實(shí)現(xiàn)數(shù)據(jù)規(guī)劃的分布式數(shù)據(jù)庫(kù),能有效提高挖掘方法的準(zhǔn)確性和完整度,同時(shí)具有靈活、實(shí)用價(jià)格低廉等優(yōu)勢(shì)。入侵監(jiān)測(cè)大數(shù)據(jù)具有復(fù)雜屬性,包括位置、方向和長(zhǎng)度。計(jì)算屬性之間關(guān)聯(lián)程度,將其作為數(shù)據(jù)挖掘依據(jù),再對(duì)不同屬性關(guān)聯(lián)程度進(jìn)行聚類,便可得到最終挖掘結(jié)果,成為本文方法的創(chuàng)新之處。

        2 多源通信研發(fā)機(jī)構(gòu)入侵風(fēng)險(xiǎn)識(shí)別

        2.1 多源通信研發(fā)機(jī)構(gòu)主要科研內(nèi)容

        多源通信可以實(shí)現(xiàn)不同平臺(tái)之間的業(yè)務(wù)數(shù)據(jù)共享,使管理信息系統(tǒng)中的數(shù)據(jù)動(dòng)態(tài)反映到其它系統(tǒng)中去?,F(xiàn)有研發(fā)機(jī)構(gòu)研究的多源通信系統(tǒng)實(shí)現(xiàn)過程圖如圖1所示。

        圖1 多源通信系統(tǒng)結(jié)構(gòu)圖

        將整個(gè)通信過程分為以下四個(gè)不同層次:

        1)數(shù)據(jù)庫(kù)之間通信:用來解決數(shù)據(jù)庫(kù)之間訪問問題;

        2)訪問層次:完成系統(tǒng)與多源數(shù)據(jù)業(yè)務(wù)查詢;

        3)邏輯層次:滿足對(duì)多源數(shù)據(jù)需求定義,實(shí)現(xiàn)數(shù)據(jù)交換;

        4)通信層次:實(shí)現(xiàn)系統(tǒng)與數(shù)據(jù)庫(kù)之間互相訪問[4]。

        2.2 研究機(jī)構(gòu)獨(dú)特性研究

        多源通信研發(fā)機(jī)構(gòu)屬于新型研發(fā)機(jī)構(gòu),在組織架構(gòu)方面也與其它研究機(jī)構(gòu)存在差異,它屬于以傳統(tǒng)職能式為主的弱矩陣式組織架構(gòu)[5],示意圖如圖2所示。

        圖2 多源通信研發(fā)機(jī)構(gòu)組織架構(gòu)

        2.3 入侵風(fēng)險(xiǎn)識(shí)別

        1)信息資產(chǎn)識(shí)別

        信息安全風(fēng)險(xiǎn)為入侵風(fēng)險(xiǎn)評(píng)估的主要條件,是構(gòu)建信息安全管理的目標(biāo)。具體資產(chǎn)分類與名稱如表1所示。

        表1 信息資產(chǎn)分類表

        2)威脅識(shí)別

        威脅是對(duì)組織與資產(chǎn)形成潛在破壞的可能因素,它屬于客觀存在的,且多數(shù)威脅無法完全消除。

        表2 研發(fā)機(jī)構(gòu)信息威脅表

        對(duì)研發(fā)機(jī)構(gòu)的各個(gè)方面風(fēng)險(xiǎn)進(jìn)行分析,有利于監(jiān)測(cè)入侵行為,全方面獲取監(jiān)測(cè)數(shù)據(jù)。

        3 基于NoSQL分布式入侵監(jiān)測(cè)大數(shù)據(jù)挖掘

        3.1 入侵?jǐn)?shù)據(jù)特征提取

        對(duì)入侵監(jiān)測(cè)大數(shù)據(jù)進(jìn)行挖掘之前,需要對(duì)入侵特征進(jìn)行提取[6],為數(shù)據(jù)降維提供依據(jù)。將獲取的痕跡信息轉(zhuǎn)換為頻域信號(hào)df,分析其頻譜特性,結(jié)合時(shí)間變換幅值將其轉(zhuǎn)換為隨頻譜變動(dòng)的功率。頻譜分析主要根據(jù)頻率中心fFC、均方根頻率fRMSF以及跟方差頻率fRVF,它們分別表示信號(hào)主頻方位、變化情況與功率譜集中性,表達(dá)式依次為

        (1)

        (2)

        (3)

        式中,S(f)代表功率譜。將獲取的痕跡信息變換為頻域信號(hào)的表示形式

        ei=(fFC+fRMSF+fRVF)S(f)

        (4)

        本文利用核主元分析法實(shí)現(xiàn)入侵痕跡數(shù)據(jù)信號(hào)的特征提取。此方法核心思想為:通過非線性轉(zhuǎn)換方式將入侵行為的樣本痕跡數(shù)據(jù)從輸入空間引入到高維特征空間[7],再在此空間內(nèi)進(jìn)行頻域特征提取。

        如果y表示n維痕跡信息矢量,{yi,i=1,2,…,N}則代表y的某個(gè)痕跡信息信號(hào)樣本集合,利用非線性H將樣本數(shù)據(jù)信號(hào)從空間Rn映射到高維特征空間Rt中,再對(duì)該空間進(jìn)行主成分分析。

        (5)

        式中特征值和特征向量的關(guān)聯(lián)性可表示為

        λk=Cvk

        (6)

        式中,特征值λk≥0,vk(k=1,2,…,t)代表特征向量。

        將式(5)與式(6)相結(jié)合,得到

        (7)

        假設(shè)與所有非零特征值λk對(duì)應(yīng)的特征向量vk位于{H(xi),i=1,2,…,N}所在的平面內(nèi),具有不都為零的系數(shù)[Ti,i=1,2,…,N],令

        (8)

        綜合分析式(6)~(8)能夠得出

        (9)

        如果N×N矩陣表示為如下形式

        Kij=k(yi,yj)=〈H(yi),H(yj)〉

        (10)

        式中k(yi,yj)表示滿足要求的核函數(shù),對(duì)式(5)進(jìn)行簡(jiǎn)化處理為NλkK=K2,考慮到實(shí)際簡(jiǎn)化需求,則有

        λk=KN

        (11)

        因此K的特性值和特征矢量分別表示為Nλk和Tk。對(duì)特征值從大到小進(jìn)行排序,若前m個(gè)特征值的和與所有特征值和的比值大于設(shè)定閾值,則主元數(shù)量為m。

        為實(shí)現(xiàn)特征向量vk的歸一化,必須對(duì)T進(jìn)行規(guī)范化處理

        (12)

        因此能夠獲得入侵痕跡數(shù)據(jù)的信號(hào)樣本yi在Rm空間內(nèi)第k個(gè)主向量vk內(nèi)的投影,即為yi特征值

        (13)

        利用上述方法實(shí)現(xiàn)對(duì)入侵監(jiān)測(cè)數(shù)據(jù)的特征提取。

        3.2 大數(shù)據(jù)降維

        由于入侵監(jiān)測(cè)大數(shù)據(jù)中包含無用信息較多,因此要?jiǎng)h除對(duì)最終結(jié)果影響較小的屬性信息,將樣本從高維空間映射到低維空間中,本文在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測(cè)特征提取結(jié)果,實(shí)現(xiàn)大數(shù)據(jù)降維。

        因入侵監(jiān)測(cè)是一個(gè)分類問題,所以采用一個(gè)分類方式將數(shù)據(jù)集合分成五類,其中包括一個(gè)正常類型Normal與四個(gè)入侵類型Prb,R21,Dos,U21,將質(zhì)心數(shù)量設(shè)置為5,降維過程如下:

        步驟一:利用改進(jìn)的k-Means聚類方法獲取訓(xùn)練數(shù)據(jù)集合內(nèi)5簇的質(zhì)心c0,c1,…,c4。每個(gè)簇的原始質(zhì)心根據(jù)訓(xùn)練樣本已知類別獲得,同時(shí)進(jìn)行迭代運(yùn)算獲取質(zhì)心坐標(biāo),確保原始質(zhì)心不會(huì)太過集中,以免影響降維效果。

        步驟二:獲取待降維數(shù)據(jù)集合中樣本和質(zhì)心ci(i=0,1,…,4)的空間關(guān)聯(lián)性。例如將45維的樣本和質(zhì)心ci通過向量形式引入到歐式距離[8]公式中

        (14)

        利用上述公式計(jì)算獲得樣本x到質(zhì)心ci的空間距離,將其當(dāng)作二者之間空間關(guān)聯(lián)程度,將di當(dāng)作x降維后的新樣本x′的第i維特性值。最后的降維樣本x′描述為初始樣本x與每個(gè)簇質(zhì)心的距離,即x′(d0,d1,…,d4)。

        步驟三:重復(fù)步驟二,直至全部樣本降維成新的數(shù)據(jù)集合。

        經(jīng)過上述步驟,將所有入侵監(jiān)測(cè)數(shù)據(jù)從初始的45維降至5維,完成所有降維過程。

        3.3 挖掘聚類

        為提高挖掘方法性能,需事先對(duì)挖掘工作進(jìn)行約束,約束內(nèi)容必須保證挖掘工作運(yùn)算量小,且效果強(qiáng)。

        利用confidence(Q?W)代表特征集合Q中包含特征集合W的概率,confidence(W?Q)與上述意義相反,則在綜合入侵監(jiān)測(cè)大數(shù)據(jù)位置關(guān)聯(lián)度、方向關(guān)聯(lián)度、長(zhǎng)度關(guān)聯(lián)度三方面進(jìn)行入侵監(jiān)測(cè)挖掘。

        1)位置關(guān)聯(lián)度挖掘

        2)方向關(guān)聯(lián)度挖掘

        方向關(guān)聯(lián)度挖掘表示大數(shù)據(jù)集合Q與W傳輸方向之間的角度(s1,s2),它的余弦值描述為

        (15)

        通過式(17)可知,入侵監(jiān)測(cè)大數(shù)據(jù)集合Q與W傳輸方向角度越大,cos(s1,s2)值越小。如果(s1,s2)的值大于180度,則cos(s1,s2)值為負(fù)。為減少位置關(guān)聯(lián)度挖掘結(jié)果對(duì)方向關(guān)聯(lián)度挖掘結(jié)果造成的影響,基于NoSQL分布式大數(shù)據(jù)挖掘方法利用[1-cos(s1,s2)]的正弦值描述法代替?zhèn)鹘y(tǒng)[1-cos2(s1,s2)]描述法,使方向關(guān)聯(lián)度被準(zhǔn)確挖掘。

        sim(dist)=avg(|s1||s2|)[1-cos(s1,s2)]

        (16)

        3)長(zhǎng)度關(guān)聯(lián)度挖掘

        長(zhǎng)度關(guān)聯(lián)度挖掘是對(duì)位置關(guān)聯(lián)度挖掘的異向思維計(jì)算,也是對(duì)其挖掘結(jié)果的加成預(yù)算,其核心是對(duì)兩個(gè)數(shù)據(jù)集合傳輸通道長(zhǎng)度計(jì)算的過程。因此挖掘結(jié)果可表示為

        (17)

        4)挖掘聚類

        對(duì)降維后的入侵監(jiān)測(cè)數(shù)據(jù)利用式(15)、(16)與(17)結(jié)合給出的約束條件進(jìn)行聚類,獲取最終的挖掘結(jié)果。假設(shè)利用F代表挖掘頻率,則Fs即為挖掘聚類,也就是最終挖掘結(jié)果,表達(dá)式如下

        (18)

        式中,F(xiàn)j為大數(shù)據(jù)位置、方向與長(zhǎng)度屬性一起出現(xiàn)的概率,F(xiàn)max則為上述屬性關(guān)聯(lián)度的極大值,A與As分別是挖掘前、后樣本總數(shù)。

        4 仿真數(shù)據(jù)分析與研究

        選取某個(gè)多源通信研發(fā)機(jī)構(gòu)的通信環(huán)境作為研究實(shí)驗(yàn)?zāi)繕?biāo),仿真環(huán)境為一臺(tái)PC機(jī),其配置是P4CPU2.40GHz,內(nèi)存與硬盤大小分別為256MB和80G。數(shù)據(jù)來源為KDNuggets (http:∥www.kdnuggets.com/datasets/index.html),從中隨機(jī)挑選包括23個(gè)研發(fā)機(jī)構(gòu)在內(nèi)的相關(guān)通信數(shù)據(jù),排除不適應(yīng)預(yù)分類的數(shù)據(jù)集,剩余20個(gè)數(shù)據(jù)集,以此為數(shù)據(jù)樣本,分別從挖掘時(shí)間與完整度兩方面對(duì)所提方法、文獻(xiàn)[1]、文獻(xiàn)[2]方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果分別如圖3所示。

        圖3 不同方法挖掘所需時(shí)間對(duì)比圖

        從圖3中能夠看出,在6次迭代過程中,所提方法最高一次挖掘時(shí)間為12秒,而文獻(xiàn)[1]與文獻(xiàn)[2]所需最高時(shí)間分別為15秒和18秒,文獻(xiàn)[3]最高所需時(shí)間為17.5秒,與其它方法相比挖掘效率具有明顯優(yōu)勢(shì)。因?yàn)樵摲椒▽?duì)入侵監(jiān)測(cè)大數(shù)據(jù)結(jié)合入侵特性進(jìn)行降維處理,去除冗余數(shù)據(jù),縮短數(shù)據(jù)挖掘時(shí)間。此外,三種方法挖掘完整度對(duì)比結(jié)果如圖4所示。

        圖4 所提方法挖掘完整度

        由圖4挖掘完整度結(jié)果可知,所提方法挖掘完整度在80%左右,其它三種方法的挖掘完整度都在80%以下。這是由于所提方法經(jīng)過全面的屬性分析,分別從大數(shù)據(jù)位置、方向與長(zhǎng)度三方面進(jìn)行挖掘,得到較為全面的挖掘結(jié)果。

        5 結(jié)論

        1)為提高多源通信研發(fā)機(jī)構(gòu)研發(fā)數(shù)據(jù)的安全性,本文利用NoSQL挖掘方法從入侵監(jiān)測(cè)大數(shù)據(jù)的不同維度進(jìn)行挖掘,挖掘時(shí)間最高僅為11.5秒,能夠保持較好的挖掘效率。

        2)在空間相關(guān)性基礎(chǔ)上結(jié)合上述入侵監(jiān)測(cè)特征提取結(jié)果,進(jìn)行大數(shù)據(jù)降維,且在降維的同時(shí)能夠保證挖掘結(jié)果全面、完整度高,挖掘完整度在80%左右。具有較強(qiáng)實(shí)用性。

        3)在今后研究工作中,將會(huì)繼續(xù)深入研究大數(shù)據(jù)挖掘在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用,使該方法稱為研發(fā)機(jī)構(gòu)信息安全的支撐技術(shù)之一。

        猜你喜歡
        數(shù)據(jù)挖掘方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        學(xué)習(xí)方法
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        亚洲国产精品第一区二区三区| 曰本大码熟中文字幕| 亚洲巨乳自拍在线视频| 人妻中出精品久久久一区二| 一区二区三区成人av| 在线免费观看一区二区| 国产一区二区精品久久| 国产内射XXXXX在线| 日韩av在线免费观看不卡| 级毛片内射视频| 国产尤物精品福利视频| 一本大道久久东京热无码av| 丰满人妻一区二区三区52| 无码熟妇人妻av在线网站| 伊人久久五月丁香综合中文亚洲 | 国产亚洲综合另类色专区| 亚州性无码不卡免费视频| 日本在线观看| 中国免费一级毛片| 在线观看国产视频午夜| 伊人久久大香线蕉av不卡| 日韩A∨精品久久久久| 永久免费在线观看蜜桃视频| 99久久超碰中文字幕伊人| 亚洲中文高清乱码av中文| 人妻中文字幕乱人伦在线| 亚洲av无码乱观看明星换脸va| 视频二区精品中文字幕| 国产精品大片一区二区三区四区| 亚洲国产成人片在线观看| 精品四虎免费观看国产高清| 一区二区黄色素人黄色| 欧洲乱码伦视频免费| 日韩av高清无码| 中国大陆一级毛片| 国内精品久久人妻互换| 性欧美丰满熟妇xxxx性久久久| a级毛片毛片免费观看久潮喷| 福利片免费 亚洲| 亚洲另类丰满熟妇乱xxxx| 国产一区二区三精品久久久无广告|