亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分類器聯(lián)合的分布式安全威脅檢測

        2015-08-18 10:40:14譚明強中國移動通信集團貴州有限公司貴陽550001
        電信工程技術與標準化 2015年12期
        關鍵詞:海量貝葉斯分類器

        譚明強(中國移動通信集團貴州有限公司,貴陽 550001)

        基于分類器聯(lián)合的分布式安全威脅檢測

        譚明強
        (中國移動通信集團貴州有限公司,貴陽 550001)

        本文對異常流量檢測技術和云計算技術的結合進行了相關研究,提出了一個基于云計算技術的網(wǎng)絡異常流量數(shù)據(jù)分類算法,該系統(tǒng)基于Hadoop技術框架實現(xiàn)了無監(jiān)督的模糊K-means分類算法和有監(jiān)督的樸素貝葉斯分類算法的并行計算,然后采用這兩個分類器對數(shù)據(jù)中心海量流量數(shù)據(jù)進行聯(lián)合檢測,基于的聯(lián)合分類算法在檢測準確率和處理速度上有極高的效率,可以實現(xiàn)對數(shù)據(jù)中心的海量網(wǎng)絡流量實時檢測,以及發(fā)現(xiàn)網(wǎng)絡安全威脅,保障業(yè)務健康穩(wěn)定運行。

        Hadoop;云安全;大數(shù)據(jù);異常流量;安全威脅

        1 大數(shù)據(jù)分布式安全技術框架與實現(xiàn)

        1.1框架說明

        本文提出了一種基于Mahout技術的分布式異常流量檢測技術,它基于模糊K-均值和樸素貝葉斯分類算法,使用檢測探針在海量網(wǎng)絡數(shù)據(jù)處理平臺的網(wǎng)絡出口位置對流量數(shù)據(jù)進行探測分析,實現(xiàn)對大型云計算平臺的網(wǎng)絡流量近實時異常檢測。分布式異常流量檢測技術使用檢測探針對上下行流量數(shù)據(jù)進行檢測,生成相應的流記錄,并將其存入該平臺的云存儲中。異常流量檢測技術對流量采用“流”的形式進行檢測。本文提出的異常流量檢測技術是一個適用于實際云計算環(huán)境的整套解決方案。同時,配合網(wǎng)絡硬件監(jiān)測設備,該系統(tǒng)可以適用于各大數(shù)據(jù)中心的異常流量近實時檢測。結合云存儲的相關技術,可以實現(xiàn)網(wǎng)絡流量的存儲及再分析。

        當前,基于大數(shù)據(jù)Hadoop的海量網(wǎng)絡數(shù)據(jù)處理平臺的安全防御體系是由一系列的安全服務構成,包括傳統(tǒng)的防火墻、IDS、流量控制、網(wǎng)關等安全設備,也包括本文介紹的異常流量檢測技術。通過與海量網(wǎng)絡數(shù)據(jù)處理平臺的需求緊密結合,云安全技術體系可以為其提供立體化全方位的安全保護,而基于云平臺提供的海量存儲能力和高性能計算能力,異常流量檢測技術能夠快速高效地檢測出各類網(wǎng)絡攻擊和網(wǎng)絡異常行為,達到快速可靠地保障云平臺安全的目的。

        1.2分類算法選擇和實現(xiàn)

        基于分類器聯(lián)合的分布式異常流量檢測技術基于大數(shù)據(jù)Hadoop的MapReduce運算機制,并作為海量網(wǎng)絡數(shù)據(jù)處理平臺的一個模塊,實現(xiàn)對云平臺網(wǎng)絡流量的檢測和異常流量的判定。算法的基本思想是利用歷史測量數(shù)據(jù)構建訓練模型,對新測量數(shù)據(jù)與模型進行匹配,利用串聯(lián)式多級判別算法來判定新測量數(shù)據(jù)是否是異常數(shù)據(jù)。圖1是本算法的整體流程圖。本文基于歷史流量數(shù)據(jù)構建模型并進行訓練,然后進行該模型對檢測到的流記錄進行判定分析。

        收稿日期:2015-11-16

        圖1 分類器聯(lián)合檢測算法流量

        1.2.1 模糊K-均值算法

        模糊K-均值算法是一種常用的聚類算法,其基本原理是通過從原始數(shù)據(jù)中提取出K組的模糊矩陣再計算出最開始的聚類中心向量矩陣。然后再通過特定的目標函數(shù),使用多次迭代的方法找到最合適的分組和中心,使得目標函數(shù)最小,并按照最大隸屬的原則進行分類。在處理大數(shù)據(jù)時,模糊K-均值算法具有較高的效率和伸縮性,適合本文中對海量網(wǎng)絡數(shù)據(jù)流的處理。

        1.2.2樸素貝葉斯分類

        樸素貝葉斯分類器需要假設用于分類的各個屬性值之間是條件獨立的。該假設條件如果成立,則樸素貝葉斯分類器具有優(yōu)于其它分類器的準確度。因此在本文,我們采用流量特征選擇算法從流統(tǒng)計特征指標中提取出合適的特征指標集合,保證選取的特征指標與類屬性既有較強的相關性,同時各個指標之間又不相關。

        1.2.3基于Mahout的并行分類算法

        Mahout是一個運行在Hadoop上的用于進行數(shù)據(jù)分析和機器學習的分布式軟件框架,它采用MapReduce機制實現(xiàn)了一系列可擴展的數(shù)據(jù)挖掘算法。本文對模糊K-均值和樸素貝葉斯分類算法進行實現(xiàn),改進后的基于Mahout的分類算法可以在MapReduce框架上的并行化運行,具體算法實現(xiàn)流程如下。

        (1)基于Mahout框架模塊K-均值算法實現(xiàn)流程。首先在提交作業(yè)時配置數(shù)據(jù)輸入信息,將需要分類數(shù)據(jù)轉換為量向數(shù)據(jù)并將數(shù)據(jù)進行分散化(計算中心點與向量數(shù)據(jù)之間的歐式距離)。在重新計算中心點向量時,將樣本數(shù)據(jù)重新分割到Map任務模塊,讓各個Map任務并行算出向量的累加和,然后當Reduce任務模塊開始運算后,讓Reduce任務對各個Map任務輸出的中間結果進行累加并計算出新的中心點,最后返回該算法運算結果。

        (2)基于Mahout框架模塊樸素貝葉斯分類實現(xiàn)流程。該算法同樣需要對樣本數(shù)據(jù)進行序列化的預處理,然后完成數(shù)據(jù)的訓練和分類運行。在進行數(shù)據(jù)的訓練時,該算法需要在訓練樣本數(shù)據(jù)中累加各個Y標志相對應的xj=k,算出P(xj=k|y=1),P(xj=k|y=0)和P(y)。然后在Mahout數(shù)據(jù)分析框架中配置該算法的Map運算任務,用于計算公式(1)~(4)最后由Reduce任務模塊對Map任務產(chǎn)生的中間結果進行累加獲取最后的運算結果。

        1.3分類器聯(lián)合判定算法

        本節(jié)對于基于分類器聯(lián)合判定算法進行詳細說明。首先描述了本文提取的原始網(wǎng)絡流記錄的特征指標值,然后利用特征選擇算法進行特征指標提取,從中選取較為有用的一些特征指標值,最后對本文提出的分類聯(lián)合算法進行描述。

        1.3.1流統(tǒng)計特征描述

        基于流統(tǒng)計特征的異常流量檢測方法適應海量網(wǎng)絡流量數(shù)據(jù)的檢測?;诹餍问降臋z測,并將云計算技術引入異常流量檢測系統(tǒng)中,不僅能克服模式匹配固有的缺點,更能提高系統(tǒng)檢測性能。

        1.3.2流統(tǒng)計特征提取

        本文根據(jù)上一節(jié)的分析選取合適的流統(tǒng)計特征指標來對海量網(wǎng)絡數(shù)據(jù)處理平臺的流量進行檢測,并基于Mahout技術對流量記錄進行快速分類,檢測其中的異常流量,提高海量網(wǎng)絡數(shù)據(jù)處理平臺的安全性。

        本文首先使用流統(tǒng)計特征指標選擇技術來找到上述特征指標中識別度最高的一組集合,然后再使用分類器對其進行學習訓練。流統(tǒng)計特征指標的選擇如圖2所示。

        圖2 特征指標選擇流程

        在本文我們使用CFS (Correlation-based FeatureSelector)算法來進行特征指標子集的選取。CFS算法的特征指標選取公式如公式(5)所示。其中Ms是采用CFS算法運算得到的特征指標子集s的值,n為該子集所包含的指標數(shù)量,rcf表示選取的指標與類的相關性的平均值,rff表示選取的指標之間的相關性的平均值。

        對于特征指標的相關性,本文可以采用Symmetrical Uncertainty方法進行計算。假設X和Y為特征指標,則Y的熵如公式(6)所示,在X條件下Y的熵如公式(7)所示。從公式中可以看出,指標X和Y相關性可以表示為X對Y的信息增益,定義如公式(8)所示。

        結合CFS算法和指標相關性計算,本文可以從流統(tǒng)計特征指標中提取出合適的特征指標集合,保證選取的特征指標與類屬性既有較強的相關性,同時選取的特征指標集合不存在冗余,又恰當?shù)胤从吵龇诸悓傩浴?/p>

        1.3.3聯(lián)合判定算法

        聯(lián)合判定算法采用計算當前流量統(tǒng)計樣本與歷史數(shù)據(jù)樣本臨近度的方式來進行分析,綜合了模糊K-均值和樸素貝葉斯分類構建的模型,具體包含兩部分,對歷史數(shù)據(jù)的離線學習和對流量數(shù)據(jù)的在線分類。同時,為了驗證聯(lián)合分類算法的準確性,我們在后續(xù)使用采集到的樣本流量數(shù)據(jù)進行實驗分析。綜合判定算法的流程圖如圖3所示。

        圖3 綜合判定算法流程圖

        計算該流量數(shù)據(jù)的統(tǒng)計信息,包括均值和均值標準偏差等。根據(jù)流量數(shù)據(jù)的統(tǒng)計信息對其進行預處理。

        基于Mahout實現(xiàn)模糊K-均值算法和樸素貝葉斯分類器同時對流量數(shù)據(jù)進行檢測;其中模塊K-均值算

        (表示第i個樣本對類別J的隸屬度,x為樣本值, K為聚類數(shù),b為參數(shù))計算出樣本中各個數(shù)據(jù)對于各個聚類中心的隸屬度函數(shù)值,并根據(jù)計算值,采用公式(m為各個聚類中心,b為控制模糊程度的一個常數(shù),值大于l)。更新各個聚類中心,重復迭代計算直到結果穩(wěn)定。模糊K-均值算法對流數(shù)據(jù)的異常系數(shù)的計算公式如公式(9)所示。其中,Ps為初始得到的該簇的異常系數(shù),F(xiàn)為需要判定的流量數(shù)據(jù)點)表示需要判定的流量數(shù)據(jù)點到k個簇中心點的歐式距離之和,di為F至該簇聚類中心的歐式距離。如果得到的異常系數(shù)Pf值小于0.5,則判定該數(shù)據(jù)點為正常數(shù)據(jù),否則為異常數(shù)據(jù)。而訓練后的樸素貝葉斯分類器通過對流量數(shù)據(jù)中各個流進行判定,根據(jù)先驗概率計算出其所屬類的后驗概率,判定流量是否為異常流量。

        綜合模糊K-均值和樸素貝葉斯分類器的異常流量檢測結果,我們對流量進行綜合判定。當模糊K-均值和樸素貝葉斯分類器的判定結果一致時,則該結果作為最終判定結果。若不一致,則采用KNN最近鄰原則來重新進行判定,從樣本流量數(shù)據(jù)中找出k個與等待最終判定的數(shù)據(jù)流特征指標最為接近的樣本數(shù)據(jù)流,使用公式(10)來進行相似度計算,根據(jù)與待判定數(shù)據(jù)最為相似的多數(shù)樣本流量類型來決定待判定流量的類型。

        2 實驗及分析

        2.1實驗環(huán)境

        基于Hadoop的海量網(wǎng)絡數(shù)據(jù)流處理平臺系統(tǒng)部署架構圖如圖4所示。

        表1是本文實驗中用到的6個數(shù)據(jù),數(shù)據(jù)中標記了流量的各維統(tǒng)計信息,如此大的真實網(wǎng)絡數(shù)據(jù)保證了本文研究的價值。

        2.2實驗方法及結果分析

        在本實驗中,本文對流量測試數(shù)據(jù)采用了多次十折交叉驗證的方法進行測試。我們將采集到的流量數(shù)據(jù)分成10份,每次使用其中的9份作為訓練樣本,剩余一份作為測試樣本,循環(huán)10次求均值。

        圖4 云計算異常流量檢測系統(tǒng)部署圖

        由于本文采用MapReduce技術實現(xiàn)分類器算法的分布式并行運算,因此本文的分類器在性能上有較大的提升,其性能隨著云計算集群計算能力的提升而不斷提高,所以本文主要關注點在與分類器的檢測準確率。在該分布式異常流量檢測系統(tǒng)中,準確率是該分類器檢測出正確的正常流量和異常流量數(shù)占全部樣本流量數(shù)的比率。異常流量檢測分類結果實例如表2所示。

        從表2中我們可以計算出分類器的準確率指標,即正確判定出的正常流量數(shù)和異常流量數(shù)占所有樣本流量總數(shù)的比率。同時,結合上述指標中的誤報率和漏報率,我們可以對單個模糊K-均值、單個樸素貝葉斯分類器,以及聯(lián)合分類器的異常流量檢測效果作對比分析。

        我們對樣本數(shù)據(jù)流使用3種分類算法分別進行訓練測試,樣本數(shù)據(jù)流A1、A2和A3是連續(xù)3天,每天從早8點到晚20點連續(xù)12 h采集的流量數(shù)據(jù),因此使用

        表1 實驗數(shù)據(jù)

        這3組數(shù)據(jù)作為一個組進行分析。異常流量的檢查效果可以用誤報率、漏報率和準確率來衡量。在保證越低的誤報率和漏報率的基礎上,我們希望能夠獲得盡可能高的檢測準確率。通過這3組數(shù)據(jù)的測試,從中我們可以看出分類器聯(lián)合的異常流量檢測效果優(yōu)于單一的模糊K均值和樸素貝葉斯分類器。分類器聯(lián)合檢測算法可以在判定過程中很好地降低對數(shù)據(jù)的誤判率,同時漏判率也有大幅度的降低。這表明本文提出的算法,可以有效地避免單一算法的缺陷,較為全面的對網(wǎng)絡流量進行異常檢測,具有很高的可行性。

        表2 流量檢測分類結果實例

        從A4和A5的實驗結果我們可以看出隨著數(shù)據(jù)量的增長,基于分類器聯(lián)合的分布式異常流量檢測算法的準確率略有下降。但是由于采用了多種分類算法的聯(lián)合判決,其檢測的準確率和穩(wěn)定性均優(yōu)于采用單一算法的檢測結果。此外,在實驗結果中模糊K-均值算法的準確率雖然均高于貝葉斯算法,但其誤判率也高于貝葉斯算法。因此本文提出的基于分類器聯(lián)合的異常流量檢測算法可以克服單一檢測算法的缺陷,通過聯(lián)合無監(jiān)督的模糊K一均值分類算法和有監(jiān)督的樸素貝葉斯分類算法,使得對于海量的網(wǎng)絡流量數(shù)據(jù)異常檢測結果更加準確,同時通過MapReduce技術來對分類算法進行實現(xiàn),可以極大地提高檢測速率,實現(xiàn)對云平臺的安全保障工作。

        3 小結

        海量網(wǎng)絡數(shù)據(jù)處理平臺中存儲著大量重要的移動互聯(lián)網(wǎng)流量數(shù)據(jù)。因此我們除了采用傳統(tǒng)的網(wǎng)絡安全設備來保障該平臺的安全外,還需要盡力提高其安全性。同時傳統(tǒng)的入侵檢測技術己經(jīng)無法滿足云計算環(huán)境下的海量數(shù)據(jù)流信息的安全防護。本文提出的應用于云計算平臺的異常流量檢測技術具有以下優(yōu)點。第一,基于MapReduce技術的異常流量檢測技術,通過采用分布式并行計算模式來對數(shù)據(jù)進行處理,可以實現(xiàn)對海量數(shù)據(jù)流的高效檢測,避免傳統(tǒng)入侵檢測技術的效率問題。第二,引入了特征選擇技術,從流量數(shù)據(jù)中提取有價值的流量分類數(shù)據(jù),為后續(xù)更加有效地檢測出異常流量提供幫助。第三,基于分類器聯(lián)合的檢測技術,模糊K-均值算法是無監(jiān)督的分類算法,樸素貝葉斯分類是有監(jiān)督的分類算法,通過結合有監(jiān)督和無監(jiān)督的分類算法,本文可以更為全面的對網(wǎng)絡異常流量進行檢測,以提高海量網(wǎng)絡數(shù)據(jù)處理平臺的安全性。

        Distributed security threat detection based on classifier combination

        TAN Ming-qiang
        (China Mobile Group Guizhou Co., Ltd., Guiyang 550001, China)

        It is necessary to carry out the research work of the data center cloud computing and virtualization of network security technology, to strengthen the information security capabilities of cloud computing environment, to prevent data centers being attacked by hackers, data theft and other risks. In this paper,we study the anomaly traffic detection technology and cloud computing technology, and propose a data classification algorithm based on cloud computing technology. The system is based on Hadoop technology, which is based on the unsupervised fuzzy K-means classification algorithm and Naive Bayesian's supervised classifi cation algorithm. Then the two classifi ers are used to detect the data center.

        Hadoop; cloud security; big data; abnormal fl ow; security threat

        TN918

        A

        1008-5599(2015)12-0021-05

        猜你喜歡
        海量貝葉斯分類器
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
        當代陜西(2019年14期)2019-08-26 09:42:00
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        貝葉斯公式及其應用
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        一個圖形所蘊含的“海量”巧題
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        少妇高潮无套内谢麻豆传| 亚洲国产精一区二区三区性色 | 国产欧美一区二区三区在线看| 理论片87福利理论电影| 亚洲嫩模高清在线视频| 亚洲五月天中文字幕第一页| 国产成人精品免费视频大全| 99视频偷拍视频一区二区三区| 日韩在线观看入口一二三四| a级毛片无码久久精品免费 | 国产欧美日本亚洲精品一4区| 日本一区二区三区一级片| 野花香社区在线视频观看播放| 思思久久96热在精品国产| 国产乱人伦偷精品视频免| 一区二区三区日本美女视频 | 欧美一级三级在线观看| 一区二区三区在线蜜桃| 男女18视频免费网站| 国产揄拍国产精品| jjzz日本护士| 中文字幕一区二区三区6| 中文字幕一区二区三区四区| 亚洲成a人片在线观看无码3d| 免费av片在线观看网站| 青青草针对华人超碰在线| 91精品国产综合久久久密臀九色 | 日韩中文字幕免费视频| 亚洲人成网站在线播放观看| 男女啪啪免费视频网址| 国产精品婷婷久久爽一下| 国产午夜精品一区二区三区不卡| 国产真实乱对白在线观看| 人妻精品久久一区二区三区| 人人妻人人狠人人爽| 久久精品re| 视频在线播放观看免费| 厨房人妻hd中文字幕| 精品国产v无码大片在线观看| 国产熟女自拍视频网站| 电驱蚊液可以插一晚上吗|