亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Spark環(huán)境下網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)技術(shù)

        2021-11-07 09:17:54林麗星
        關(guān)鍵詞:環(huán)境

        林麗星

        (閩西職業(yè)技術(shù)學(xué)院 信息與制造學(xué)院,福建 龍巖 364021)

        0 引言

        Spark集群環(huán)境使用內(nèi)部分布數(shù)據(jù)集,不僅具備常規(guī)的數(shù)據(jù)交互查詢功能,還對(duì)工作環(huán)境負(fù)載產(chǎn)生一定程度的優(yōu)化作用,因此Spark集群在眾多數(shù)據(jù)采集監(jiān)測(cè)領(lǐng)域得到廣泛應(yīng)用。隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)日益優(yōu)化,網(wǎng)絡(luò)安全形勢(shì)日益嚴(yán)峻,黑客企圖通過入侵等方式獲得私密的網(wǎng)絡(luò)數(shù)據(jù)信息[1]。因此,Spark環(huán)境下網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)問題亟待解決和優(yōu)化。Spark集群繼承了 Hadoop中Mapreduce的全部優(yōu)越性能,適用于數(shù)據(jù)挖掘算法的運(yùn)行。為此在Spark環(huán)境下布置了并行式的K-mean聚類模型以挖掘當(dāng)前數(shù)據(jù)是否存在危險(xiǎn)因素,進(jìn)而監(jiān)測(cè)網(wǎng)絡(luò)數(shù)據(jù)的安全性能。

        1 基于K-mean聚類算法的Spark環(huán)境網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)技術(shù)

        1.1 Spark環(huán)境下網(wǎng)絡(luò)數(shù)據(jù)采集

        Spark環(huán)境下網(wǎng)絡(luò)數(shù)據(jù)采集的結(jié)構(gòu)布局如圖1所示,主要包括Spark集群、無線網(wǎng)絡(luò)、Spark服務(wù)集群、數(shù)據(jù)采集單元等關(guān)鍵部分。其中,Spark集群由多個(gè)從節(jié)點(diǎn)、一個(gè)主節(jié)點(diǎn)構(gòu)成,均通過交換機(jī)與數(shù)據(jù)采集單元進(jìn)行指令傳達(dá)與信息交互[2];數(shù)據(jù)采集單元包括數(shù)個(gè)數(shù)據(jù)流量采集節(jié)點(diǎn),采集后的數(shù)據(jù)傳輸?shù)絊park服務(wù)集群進(jìn)行安全處理與存儲(chǔ),以網(wǎng)絡(luò)為介質(zhì)傳輸?shù)接脩舳艘怨?shù)據(jù)分析使用。

        Spark大數(shù)據(jù)集群環(huán)境下數(shù)據(jù)采集由采集單元部署的大量節(jié)點(diǎn)完成,是網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)的基礎(chǔ),數(shù)據(jù)流采集完畢將會(huì)進(jìn)行安全存儲(chǔ)以供安全監(jiān)測(cè)環(huán)節(jié)使用。Spark環(huán)境下采集的數(shù)據(jù)流包括結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)兩種,采集節(jié)點(diǎn)需要零散布局在復(fù)雜的網(wǎng)絡(luò)之中,通過并行化節(jié)點(diǎn)管理策略將分散的數(shù)據(jù)采集節(jié)點(diǎn)集中起來統(tǒng)一管理,以優(yōu)化網(wǎng)絡(luò)數(shù)據(jù)采集效果與效率。具體執(zhí)行方式如下:首先以大數(shù)據(jù)平臺(tái)為載體向各個(gè)數(shù)據(jù)采集節(jié)點(diǎn)發(fā)送獨(dú)立的執(zhí)行任務(wù),引入流量采集技術(shù)獲取網(wǎng)絡(luò)中完整的流量數(shù)據(jù);然后整合采集到的全部數(shù)據(jù)信息,統(tǒng)一進(jìn)行數(shù)據(jù)預(yù)處理,提高網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)的精準(zhǔn)度、降低數(shù)據(jù)監(jiān)測(cè)難度。

        圖1 Spark集群采集網(wǎng)絡(luò)數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)布局

        數(shù)據(jù)采集節(jié)點(diǎn)利用 Netsniff-ng抓包工具采集網(wǎng)絡(luò)數(shù)據(jù)包[3],其優(yōu)點(diǎn)是可以優(yōu)化網(wǎng)絡(luò)吞吐能力、降低計(jì)算機(jī)運(yùn)行環(huán)境的CPU開銷,減少對(duì)硬件軟件運(yùn)行環(huán)境的負(fù)載。

        1.2 Spark環(huán)境下網(wǎng)絡(luò)異常數(shù)據(jù)識(shí)別

        1.2.1 并行化聚類流程設(shè)計(jì)

        K-mean聚類算法是一種無監(jiān)督的學(xué)習(xí)過程,將海量數(shù)據(jù)中某些相似的數(shù)據(jù)成員進(jìn)行分類組織,獲取大數(shù)據(jù)的某些內(nèi)在結(jié)構(gòu)特質(zhì),利用K-mean聚類算法識(shí)別網(wǎng)絡(luò)數(shù)據(jù)中的異常因素功能,對(duì) Spark環(huán)境下網(wǎng)絡(luò)數(shù)據(jù)安全進(jìn)行準(zhǔn)確監(jiān)測(cè)。Spark集群環(huán)境中產(chǎn)生的數(shù)據(jù)規(guī)模龐大,為高效率完成數(shù)據(jù)安全監(jiān)測(cè)并及時(shí)發(fā)現(xiàn)異常因素,設(shè)計(jì)了K-mean聚類算法并行化執(zhí)行流程,能在有限時(shí)間內(nèi)完成更多的數(shù)據(jù)檢測(cè)任務(wù),具體執(zhí)行流程如圖2所示。

        圖2 K-mean聚類算法的并行化執(zhí)行流程圖

        分析圖2得知,布局在Spark環(huán)境下的網(wǎng)絡(luò)數(shù)據(jù)總量被劃分成無數(shù)個(gè)節(jié)點(diǎn)數(shù)據(jù),節(jié)點(diǎn)數(shù)據(jù)異常檢測(cè)任務(wù)一一指派給不同的K-mean聚類模型,在相同時(shí)間段內(nèi)各節(jié)點(diǎn)一同完成數(shù)據(jù)檢測(cè)任務(wù)[4];最后將并行式聚類結(jié)果進(jìn)行集中整合,得到海量網(wǎng)絡(luò)數(shù)據(jù)的安全監(jiān)測(cè)結(jié)果。

        1.2.2 基于K-mean聚類模型的網(wǎng)絡(luò)異常數(shù)據(jù)檢測(cè)

        K-mean聚類算法識(shí)別網(wǎng)絡(luò)異常數(shù)據(jù)的原理如下:1)采集原始網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行K均值聚類訓(xùn)練,生成異常數(shù)據(jù)檢測(cè)模型,模型檢測(cè)誤差符合實(shí)際檢測(cè)要求;2)將當(dāng)前Spark環(huán)境下采集的網(wǎng)絡(luò)數(shù)據(jù)作為模型的輸入樣本輸入到訓(xùn)練好的K-mean聚類模型中,即可生成預(yù)期的數(shù)據(jù)異常檢測(cè)結(jié)果,以此評(píng)估網(wǎng)絡(luò)數(shù)據(jù)的安全性。

        基于K-mean聚類算法的網(wǎng)絡(luò)數(shù)據(jù)異常識(shí)別過程需引入“信息熵”這一概念進(jìn)行輔助分析:首先對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量實(shí)施信息熵量化處理,然后在此基礎(chǔ)上使用K-mean聚類算法劃分?jǐn)?shù)據(jù)的類別,判別其屬于安全數(shù)據(jù)還是異常數(shù)據(jù)。

        信息熵自提出以來常用于隨機(jī)事件概率量化分析,公式(1)描述了信息熵量化的基本原理:

        (1)

        公式中,信息基元類別數(shù)量以及信息熵分別使用L、S表示,不同類別的概率描述為Gi。

        網(wǎng)絡(luò)數(shù)據(jù)具有大量的特征屬性,從時(shí)間與空間維度來講特征屬性排列復(fù)雜,所以將固定時(shí)間頻率下的網(wǎng)絡(luò)數(shù)據(jù)作為對(duì)象進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)特征數(shù)據(jù)統(tǒng)計(jì),減少數(shù)據(jù)特征統(tǒng)計(jì)的不確定性。為此設(shè)計(jì)如下信息熵統(tǒng)計(jì)策略[5]:1)以網(wǎng)絡(luò)數(shù)據(jù)中的L個(gè)數(shù)據(jù)包為單位進(jìn)行時(shí)間窗劃分,L個(gè)數(shù)據(jù)包定義為g,定義各窗口的數(shù)據(jù)包為“單位流”;2)由此一來,信息熵的統(tǒng)計(jì)可基于單位流的所有特征屬性進(jìn)行求取。

        定義單位時(shí)間內(nèi)網(wǎng)絡(luò)數(shù)據(jù)的特征屬性為Ri,λi為Ri取值的種類數(shù)量,采用nj表示特征屬性第j種取值在單位時(shí)間內(nèi)網(wǎng)絡(luò)數(shù)據(jù)流的數(shù)量,基于上述變量計(jì)算此刻數(shù)據(jù)的信息熵如公式(2)所示:

        (2)

        以上步驟完成了對(duì)網(wǎng)絡(luò)數(shù)據(jù)流信息熵的量化過程,隨后基于K-mean聚類算法進(jìn)行聚類分析構(gòu)建K-mean聚類模型。采集網(wǎng)絡(luò)數(shù)據(jù)作為類標(biāo)樣本,種類為k個(gè),即聚類算法的k值。每個(gè)類原始簇類中心即為該類全部樣本的均值?;诰徒峙湓瓌t完成樣本劃分工作,聚類質(zhì)量則通過全部對(duì)象與聚類中心誤差平方和θ進(jìn)行計(jì)算,樣本聚類質(zhì)量與θ成反比,即高質(zhì)量的聚類結(jié)果往往θ較小。采用公式(3)計(jì)算θ值:

        (3)

        聚類步驟中需要將k值加1,繼續(xù)執(zhí)行聚類操作選取新簇的中心。隨機(jī)在沒有進(jìn)行標(biāo)記的樣本數(shù)據(jù)中選擇一點(diǎn)命名為α,作為新簇中心,β也為樣本中的一點(diǎn),以α點(diǎn)、β點(diǎn)為依據(jù)可劃分出新的具有中心點(diǎn)的簇,即α點(diǎn)需將β點(diǎn)距離當(dāng)前簇較遠(yuǎn)的中心視為具有中心點(diǎn)的簇,β點(diǎn)與中心點(diǎn)的距離為縮小的趨勢(shì),此時(shí)距離計(jì)算方法如公式(4)所示,取該公式的最大值:

        (4)

        然后基于就近原則分配全部樣本并求取各個(gè)類的聚類質(zhì)量。當(dāng)k個(gè)簇聚類質(zhì)量大于k-1個(gè)簇的聚類質(zhì)量,將k值加1繼續(xù)執(zhí)行下面的操作;當(dāng)k個(gè)簇聚類質(zhì)量小于或等于k-1個(gè)簇的聚類質(zhì)量,將k值減1,執(zhí)行以下操作:判斷全部簇中是否存在孤立簇,孤立簇是只包含新增的簇中心點(diǎn)[6]。存在孤立簇時(shí)需刪除其中心點(diǎn)集以及沒有標(biāo)記的樣本,將k值減1,并從計(jì)算聚類中心誤差平方和步驟開始執(zhí)行后續(xù)操作;不存在孤立點(diǎn)時(shí),將新k值和原始聚類中心點(diǎn)作為算法的初始輸入,重復(fù)更新聚類中心,算法聚類中心合理收斂后終止計(jì)算。

        K-mean聚類算法成功收斂后即可得到訓(xùn)練完成的異常數(shù)據(jù)識(shí)別模型,將Spark環(huán)境中實(shí)時(shí)采集的網(wǎng)絡(luò)數(shù)據(jù)作為樣本輸入模型即可辨別數(shù)據(jù)是否存在異常,監(jiān)測(cè)其安全性。

        2 測(cè)試與分析

        借助Intellij IDEA環(huán)境搭建數(shù)據(jù)安全監(jiān)測(cè)實(shí)驗(yàn)平臺(tái),以驗(yàn)證提出的Spark環(huán)境中網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)的性能。實(shí)驗(yàn)平臺(tái)共設(shè)置6個(gè)服務(wù)器節(jié)點(diǎn),1臺(tái)為主節(jié)點(diǎn),其余為從節(jié)點(diǎn);單個(gè)節(jié)點(diǎn)內(nèi)存為16GB;實(shí)驗(yàn)使用的Hadoop版本、Spark版本分別為2.6.4和2.1.1。實(shí)驗(yàn)中引入基于特征統(tǒng)計(jì)的網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)方法、基于時(shí)間相關(guān)性的網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)方法作為對(duì)比,以檢驗(yàn)該方法的性能。

        在Spark環(huán)境中每隔20min采集一次數(shù)據(jù)作為測(cè)試樣本數(shù)據(jù),2小時(shí)內(nèi)共采集6個(gè)樣本數(shù)據(jù)集,統(tǒng)計(jì)3種方法在每個(gè)樣本數(shù)據(jù)上的安全監(jiān)測(cè)結(jié)果,計(jì)算其誤檢率如圖3所示。

        圖3 3種方法的誤檢率統(tǒng)計(jì)

        表1 3種算法安全監(jiān)測(cè)中CPU占用率統(tǒng)計(jì)/%

        結(jié)合圖3與表1數(shù)據(jù)分析3種方法進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)的性能,其中,本文方法無論在誤檢率還是CPU占用率方面均取得了優(yōu)異的測(cè)試成績,6次數(shù)據(jù)安全測(cè)試中誤檢率均保持在1%左右,而基于特征統(tǒng)計(jì)的網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)方法、基于時(shí)間相關(guān)性的網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)方法誤檢率均超過10%,最高分別達(dá)到18%和13.5%。Spark環(huán)境中網(wǎng)絡(luò)數(shù)據(jù)規(guī)模龐大,本文方法CPU占用率保持在8.9%~12.4%之間,相對(duì)穩(wěn)定;而基于特征統(tǒng)計(jì)的網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)方法、基于時(shí)間相關(guān)性的網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)方法均呈現(xiàn)CPU占用率過高且波動(dòng)較大特征,相比之下,本文方法對(duì)計(jì)算環(huán)境的負(fù)載依賴較小。

        3 結(jié)論

        提出一種適用于Spark環(huán)境的網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè)方法,該方法采用并行式計(jì)算策略布局K-mean聚類模型,模型挖掘網(wǎng)絡(luò)數(shù)據(jù)異常信息后其結(jié)果進(jìn)行統(tǒng)一整合。這種并行式K-mean聚類算法在同一時(shí)間段內(nèi)完成多個(gè)聚類任務(wù),能夠高效率挖掘數(shù)據(jù)異常情況、監(jiān)測(cè)數(shù)據(jù)的安全;該方法由于在數(shù)據(jù)采集階段使用了Netsniff-ng抓包工具,大幅度降低計(jì)算機(jī)運(yùn)行環(huán)境的CPU開銷,所以在實(shí)驗(yàn)分析取得了相對(duì)優(yōu)異的CPU占用率成績,總體而言對(duì)計(jì)算環(huán)境的負(fù)載依賴較小。

        猜你喜歡
        環(huán)境
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        不能改變環(huán)境,那就改變心境
        環(huán)境與保護(hù)
        環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        高等院校環(huán)境類公選課的實(shí)踐和探討
        掌握“三個(gè)三” 兜底環(huán)境信訪百分百
        我國環(huán)境會(huì)計(jì)初探
        中國商論(2016年33期)2016-03-01 01:59:38
        9丨精品国产高清自在线看| 99国产精品久久久蜜芽| 午夜不卡av免费| 亚洲综合五月天欧美| 亚洲精品国产第一区三区| 亚洲桃色视频在线观看一区| 国内精品视频在线播放不卡| 水蜜桃久久| 亚洲午夜精品国产一区二区三区| 亚洲av成人av三上悠亚| 午夜福利一区二区三区在线观看| 亚洲成a人片在线| 一区二区三区在线蜜桃| 免费的小黄片在线观看视频| 亚洲一区二区三区无码久久| 狠狠色狠狠色综合| 亚洲老女人区一区二视频| 国产手机在线观看一区二区三区| 免费看美女被靠的网站| 四虎成人在线| av在线网站一区二区| 青青草原综合久久大伊人精品| 亚洲av无码专区电影在线观看| 久久中文字幕久久久久| 国产精品美女主播一区二区| 疯狂做受xxxx高潮视频免费| 亚洲免费观看在线视频| 亚洲精品中文字幕乱码二区 | 99亚洲男女激情在线观看| 91亚洲国产成人aⅴ毛片大全| 日本一区二区高清视频| 亚洲va中文字幕无码一二三区| 色欲av亚洲一区无码少妇| 色窝窝手在线视频| 中文字幕第一页人妻丝袜| 亚洲а∨精品天堂在线| 国产精品毛片久久久久久l| 日韩有码在线免费视频| 女人色熟女乱| 欧美亚洲国产另类在线观看| 日本一区二区啪啪视频|