亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于互信息法的智能化運維系統(tǒng)入侵檢測Spark實現(xiàn)

        2022-03-23 02:47:38葛軍凱張秀峰史令彬徐海寧
        自動化儀表 2022年3期
        關鍵詞:特征檢測

        葛軍凱,李 震,張秀峰,史令彬,徐海寧,韓 磊

        (1.國網(wǎng)舟山供電公司,浙江 舟山 316000;2.哈爾濱工程大學機電工程學院,黑龍江 哈爾濱 150001)

        0 引言

        當前,網(wǎng)絡應用技術與數(shù)據(jù)傳輸技術都獲得了快速發(fā)展,人們逐漸進入大數(shù)據(jù)時代。尤其是隨著智能化運維系統(tǒng)的不斷推廣,產(chǎn)生了大量數(shù)據(jù),也因此形成了持續(xù)增加的數(shù)據(jù)維度。這就要求使用新的特征選擇方式來滿足高維度數(shù)據(jù)的需求[1-4]。現(xiàn)階段,已有學者采用特征選擇技術處理大規(guī)模數(shù)據(jù),不過依然還有一定缺陷需要克服。在處理高維數(shù)據(jù)時,還需進一步開發(fā)更加高效的分布式特征選擇技術[5-6]。

        入侵檢測是指對可能發(fā)生的未授權訪問數(shù)據(jù)、操作信息與系統(tǒng)運行錯誤、不可靠、無法使用情況進行檢測[7-8]。這屬于主動防御的模式。入侵檢測技正逐漸成為繼防火墻防御之后的又一項關鍵防御技術。該方法從計算機網(wǎng)絡關鍵節(jié)點進行參數(shù)收集,在保證網(wǎng)絡正常運行的條件下,判斷是否存在惡意攻擊的情況,以此達到保護網(wǎng)絡內部與外部環(huán)境的作用[9]。目前,已有許多研究人員針對大數(shù)據(jù)運行環(huán)境開發(fā)出了相應的機器學習庫。Spark在內存中具備較強的計算性能,可以實現(xiàn)快速迭代的作用。這使得建立在Spark平臺的開發(fā)算法被廣泛應用于業(yè)界。雖然可以通過Spark平臺實現(xiàn)機器學習算法與大數(shù)據(jù)分布處理相結合的技術,但將Spark與特征選擇算法進行結合的文獻報道則較少[10]。

        1 本文方法

        1.1 互信息算法

        信息度量是指接收方在信息發(fā)送時已獲得的信息數(shù)量,是通過預測學習的信息和分類輸出特征實施關聯(lián)來實現(xiàn)的?;バ畔?mutual information,MI)已成為信息論的一項重要信息度量,代表1個隨機變量所包含的關于另一變量的信息量。

        互信息計算式為:

        I(A|B)=H(A)-H(A|B)=

        (1)

        式中:A與B為2個隨機變量;p(a,b)為A與B組成的聯(lián)合概率分布;p(a)與p(b)依次對應a與b邊緣概率分布函數(shù);H為特征當前集合。

        MI可通過A、B、C這3個隨機變量表示:

        I(A,B|C)=H(A|C)-H(A|B,C)=

        (2)

        式中:C為第三個隨機變量;p(c)為C的邊緣概率分布函數(shù);p(a,c)、p(b,c)與p(a,b,c)為聯(lián)合概率分布。

        互信息特征選擇方法也屬于Filter方法,需根據(jù)定量指標選擇Filter特征。這使其成為一項相關性指標。通過評價此類特征相關性,可完成特征排序,同時選出相關性最大的要素。此外,對特征進行選擇時,也可以選擇更復雜的標準來實現(xiàn)特征排序,判斷其冗余度是否比另一特征更大。以下是以互信息標準進行判斷后丟棄的冗余特征。

        (3)

        式中:β為權重因子。

        將懲罰比例加入冗余,其比例由所選特征和候選特征共同決定。

        1.2 Spark實現(xiàn)

        所有輸入特征X和Y的相關性(即MI值)可以使用Spark計算框架中的broadcast功能計算。Spark實現(xiàn)計算相關性偽代碼如下。

        輸入:DcRDD 的元組[index,(block,vector)],設置特征的數(shù)量。

        輸出:所有特征的MI值。

        ①ycol←Dc.lookup(yind)。

        ②bycol←broadcast(ycol)廣播 Y的索引。

        ③counter←broadcast(getMaxByFeature(Dc)廣播。

        ④H←getHistograns(Dc,yind,bycol,null,null)得到直方圖。

        ⑤joint←getProportions(H,ni)計算聯(lián)合概率分布。

        ⑥marginal←getProportions(aggregateByRow(joint),ni)計算邊際概率。

        ⑦return(computeMutualInfo(H,yind,null)返回MI值。

        2 試驗設計及驗證分析

        UNSW-NB15數(shù)據(jù)集的單條記錄總共含有49個特征。各特征對應的屬性存在較大差異。由于特征數(shù)值變化較明顯,需對數(shù)據(jù)作歸一化處理,使不同維度特征值被限定在合適范圍內,從而確保小范圍特征不會被大范圍特征所“覆蓋”。

        基于支持向量機(support vector machine,SVM)算法的入侵檢測結果如表1所示。

        表1 基于SVM算法的入侵檢測結果Tab.1 Intrusion detection results based on SVM algorithm

        以Spark平臺進行試驗設計并完成測試。本試驗采用HDFS存儲數(shù)據(jù)集。為各個HDFS與Spark都設置一個主控制節(jié)點,以Hadoop的NameNode進行HDFS與DataNode控制。通過Spark主執(zhí)行器實現(xiàn)對從節(jié)點的控制功能。Spark選擇HDFS存儲文件數(shù)據(jù)。

        首先,把數(shù)據(jù)集分成訓練集與測試集共兩類。本試驗將數(shù)據(jù)集的70%作為訓練集,剩余30%作為測試集。然后,分別以主成分分析(principle component analysis,PCA)、MI算法在相同Spark平臺上開展測試,并比較本文設計的分布式互信息算法;同時,依次選擇不同類型的機器學習分類方法開展入侵檢測。最后,選擇具備高精度、誤報率低的評價方法對本試驗結果進行了評價。

        試驗以UNSW-NB15數(shù)據(jù)集作為測試對象。數(shù)據(jù)集總共包含了2 642 520條數(shù)據(jù),依次對8種攻擊參數(shù)實施檢測。基于Na?veBayes算法和決策樹算法的入侵檢測結果分別如表2與表3所示。

        參數(shù)精確度PCAMI檢測率PCAMI誤報率PCAMIExploits0.8480.9380.7960.8820.0690.046Fuzzers0.8860.9420.8540.8960.0130.072Reconnal0.6850.8460.8060.8790.0420.103Shellcode0.7420.8680.4430.6250.0260.051Dos0.9120.9410.6100.7150.0560.063Worms0.8410.9160.4250.4180.0690.038BackDoor0.8920.9590.8060.8530.0920.036Anaylsis0.9260.9270.9590.9740.0810.038

        表3 基于決策樹算法的入侵檢測結果Tab.3 Intrusion detection results based on decision tree algorithm

        對測試數(shù)據(jù)進行分析可知,相對于PCA算法,MI算法可以獲得更高的特征提取精度,提升了檢測率,降低了誤報率。因為Worms與Shellcode這2類攻擊占總體攻擊的比例很低,因此3種算法都表現(xiàn)出了對Worms與Shellcode的低檢測率。對于總體攻擊類型中占比最大的Generic類型,各算法都具備較高精確度與檢測率。通過比較3種算法可知,決策樹算法表現(xiàn)出了比其他2種算法更高的精確度。

        PCA和MI的運行時間對比如表4所示。由表4可知,雖然MI具備較高精度,但也因此消耗較長時間。這是由于在Spark計算框架內構建分布式模型時需使用大量map與partition操作,從而在大量數(shù)據(jù)下形成了高達近萬個分區(qū),需要消耗大量時間。

        表4 PCA和MI的運行時間對比Tab.4 Comparison of PCA and MI runtimes /min

        運行時間與數(shù)據(jù)量的關系如圖1所示。

        圖1 運行時間與數(shù)據(jù)量的關系Fig.1 Relationship between running time and data volume

        從圖1中可以看出,隨著數(shù)據(jù)量的增加,形成的運行時間消耗越多,尤其是在數(shù)據(jù)量30 MB之后增加明顯。這是因為較多的數(shù)據(jù)量會增加模型分析的難度,甚至影響汽化能力。

        3 結論

        本文選取UNSW-NB15數(shù)據(jù)集,以Spark平臺進行試驗設計并完成測試,通過Spark主執(zhí)行器實現(xiàn)對從節(jié)點的控制功能。相對于PCA算法,MI算法可以獲得更高的特征提取精度,檢測率也明顯提升,降低了誤報率。雖然MI算法具備較高精度,但也因此消耗較長時間。當數(shù)據(jù)量快速增加后,分布式模型表現(xiàn)出了更短的入侵檢測時間。

        猜你喜歡
        特征檢測
        抓住特征巧觀察
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        蜜臀av免费一区二区三区| 人妻少妇哀求别拔出来| 精品久久久久久久久午夜福利| 野花社区www高清视频| 欧美色图50p| 亚洲日本国产一区二区三区| 国产99一区二区三区四区| 欧洲熟妇色 欧美| 97视频在线播放| 久久国产精品av在线观看| 日本人妻免费在线播放| 国产午夜福利片| 国产高清无码91| 日本伦理美乳中文字幕| 日韩女同视频在线网站| ā片在线观看免费观看| 亚洲AV无码乱码1区久久| 日本一区二区三区激视频| 久久影院午夜理论片无码| 老色鬼永久精品网站| 日本香蕉久久一区二区视频 | 国产人妖av在线观看| 丰满少妇作爱视频免费观看 | 揄拍成人国产精品视频| 国产麻豆成人精品av| 色综合天天综合网国产成人网| 久久久午夜精品福利内容| 国产在线拍偷自拍偷精品| 人妻被公上司喝醉在线中文字幕| 无码av中文一区二区三区| 天码av无码一区二区三区四区 | 国产成人精品一区二三区在线观看| 欧美激欧美啪啪片| 亚洲aⅴ无码成人网站国产app| 香蕉久久夜色精品国产| 国产精品国三级国产a| 99国产精品人妻噜啊噜| 黄色网址国产| 91羞射短视频在线观看| 97精品人人妻人人| 蜜臀av免费一区二区三区|