孟 宇
(遼寧省錦州市大數(shù)據(jù)中心,遼寧 錦州 121000)
網(wǎng)絡(luò)的不安全性因素不斷增加,網(wǎng)絡(luò)非常規(guī)操作、其他人為原因以及網(wǎng)絡(luò)中的故障均會導致網(wǎng)絡(luò)異常數(shù)據(jù)出現(xiàn),對網(wǎng)絡(luò)服務(wù)造成嚴重威脅。針對網(wǎng)絡(luò)異常情況,研究人員設(shè)計了多種分析方法。其中,劉云朋等人利用貝葉斯分區(qū)數(shù)據(jù)挖掘方法進行網(wǎng)絡(luò)異常數(shù)據(jù)分析[1]。馮喬利用超球面支持向量機的分析方法進行網(wǎng)絡(luò)異常數(shù)據(jù)分析[2]。但以上方法存在網(wǎng)絡(luò)異常數(shù)據(jù)分析精準度較低的問題,而云計算技術(shù)是能夠在大量虛擬資源中進行大規(guī)模計算的技術(shù),分析效果較佳,能夠提高網(wǎng)絡(luò)服務(wù)質(zhì)量。因此,本文將云計算技術(shù)引進該領(lǐng)域,設(shè)計了基于云計算的通信網(wǎng)絡(luò)異常數(shù)據(jù)分析技術(shù)。
通信網(wǎng)絡(luò)運行數(shù)據(jù)較為復雜,本文在進行異常數(shù)據(jù)分析前,采集各類數(shù)據(jù)指標與異常運行數(shù)據(jù),在此基礎(chǔ)上分析網(wǎng)絡(luò)異常運行行為[3]。網(wǎng)絡(luò)運行數(shù)據(jù)集的特征維度較大,為了獲取網(wǎng)絡(luò)異常數(shù)據(jù)特征值,本文將網(wǎng)絡(luò)運行數(shù)據(jù)導入到云空間中,并計算出數(shù)據(jù)集的信息熵[4]。本文將數(shù)據(jù)集設(shè)定為S,在云空間內(nèi)得出S中任意2個數(shù)據(jù)的信息熵為
式中:Rij為i、j這2個數(shù)據(jù)的信息熵;Kij為數(shù)據(jù)i與數(shù)據(jù)j的相似度矩陣;Sij為數(shù)據(jù)集的數(shù)據(jù)特征;V為云空間中的網(wǎng)絡(luò)數(shù)據(jù)流量的平均信息熵;N為數(shù)據(jù)集S的特征權(quán)值[5]。為更好地反映網(wǎng)絡(luò)當前運行狀態(tài),本文在運行數(shù)據(jù)采集過程中,需要導入出盡可能多的代表網(wǎng)絡(luò)運行狀態(tài)數(shù)據(jù),如表1所示。
如表1所示,本文采集的網(wǎng)絡(luò)運行數(shù)據(jù)指標分別為 CPU_USR、CPU_kij、CPU_vgtf、CPU_mem、IO_Rk、IO_jdw、SEND_rate、Receive_rate以及SYS_hju等,在出現(xiàn)異常運行數(shù)據(jù)時,上述數(shù)據(jù)指標就會出現(xiàn)較大的運行波動[6]。當相關(guān)數(shù)據(jù)指標出現(xiàn)突然增大或突然減少的流量異常情況時,即可以判定為存在網(wǎng)絡(luò)異常運行行為。
表1 網(wǎng)絡(luò)運行數(shù)據(jù)
因此,本文將異常數(shù)據(jù)節(jié)點分析分為3個部分,分別為網(wǎng)絡(luò)效用計算、負載均衡計算、備份冗余計算等。在云空間中,數(shù)據(jù)集S中的運行數(shù)據(jù)存在較多的特征,每個特征對應(yīng)的特征向量不同,最大的特征根對應(yīng)的若干個特征向量,就是數(shù)據(jù)集S中的異常數(shù)據(jù)節(jié)點。異常節(jié)點的最大特征根確定公式為
式中:X(S)max為數(shù)據(jù)集S中異常節(jié)點的最大特征根;XV為V的特征向量;Vs為數(shù)據(jù)降維成分;Xs為較小的特征根成分。在X(S)max確定的過程中,從求取特征向量的角度考究,根據(jù)特征根的大小,排布出對應(yīng)的特征向量次序。當Vs>Xs時,對Vs進行處理,并丟棄Xs;當Vs<Xs時,Vs與Xs均被保留,根據(jù)最終數(shù)據(jù)偏離度大小,即可確定網(wǎng)絡(luò)數(shù)據(jù)的異常與否。數(shù)據(jù)偏離度大小計算公式為
式中:P為數(shù)據(jù)偏離度;δi為網(wǎng)絡(luò)異常節(jié)點的特征參數(shù);vi為主成分分析參數(shù);J為網(wǎng)絡(luò)均衡指數(shù);δxi、δxj為網(wǎng)絡(luò)異常節(jié)點的待定系數(shù);mt為通信網(wǎng)絡(luò)的局部異常分布變量。當P>0時,網(wǎng)絡(luò)異常節(jié)點較多,表示該節(jié)點可能會造成網(wǎng)絡(luò)中有用信息丟失問題,影響通信網(wǎng)絡(luò)的正常使用;當P<0時,網(wǎng)絡(luò)異常節(jié)點較少,數(shù)據(jù)量相應(yīng)增加,無法進行有針對性的數(shù)據(jù)分析;當P=0時,網(wǎng)絡(luò)異常節(jié)點數(shù)量為0,通信網(wǎng)絡(luò)處于正常運行狀態(tài),不會對網(wǎng)絡(luò)造成影響。
在分析出異常節(jié)點特征之后,還需要對上述方法進行優(yōu)化,為此構(gòu)建網(wǎng)絡(luò)異常數(shù)據(jù)分析云計算模型。將上文中導入的運行數(shù)據(jù)與異常節(jié)點特征,在云空間中轉(zhuǎn)換數(shù)據(jù),根據(jù)數(shù)據(jù)特征分析網(wǎng)絡(luò)運行狀態(tài)。本文對網(wǎng)絡(luò)異常數(shù)據(jù)分析的過程中,對通信網(wǎng)絡(luò)數(shù)據(jù)進行訓練與提取,并將異常數(shù)據(jù)的異常網(wǎng)絡(luò)行為偏離度進行閾值最大判定。本文假設(shè)偏離度P存在,并在云空間中處于固定參數(shù)。本文根據(jù)實際網(wǎng)絡(luò)環(huán)境,將運行數(shù)據(jù)與異常節(jié)點進行空間轉(zhuǎn)換,轉(zhuǎn)換公式為
式中:Xa為不同網(wǎng)絡(luò)異常數(shù)據(jù)節(jié)點采集到的數(shù)據(jù)矩陣;為數(shù)據(jù)指標樣本;Xa'為經(jīng)過轉(zhuǎn)換之后的異常數(shù)據(jù)矩陣;為統(tǒng)一格式的異常數(shù)據(jù)樣本。將得到的異常數(shù)據(jù)從式(6)轉(zhuǎn)換成式(7),再進行異常數(shù)據(jù)統(tǒng)一分析。由此得出異常數(shù)據(jù)云分析格式如圖1所示。
圖1 異常數(shù)據(jù)的云分析格式
圖1中,網(wǎng)絡(luò)數(shù)據(jù)流量連續(xù)無限,而云空間內(nèi)存卻比較有限,這就導致無法實時分析異常數(shù)據(jù)。本文構(gòu)建的異常數(shù)據(jù)分析模型,主要是針對有限的空間內(nèi)存,對有限的數(shù)據(jù)進行無限分析。分析模型在數(shù)據(jù)異常分析的過程中,利用窗口設(shè)定這一方式將異常數(shù)據(jù)節(jié)點設(shè)定成最早的時間點開始,到當前異常節(jié)點結(jié)束,平均每分鐘處理1次采集到的異常運行數(shù)據(jù)。由此構(gòu)建的網(wǎng)絡(luò)異常數(shù)據(jù)分析云計算模型表達式為
式中:Mk為異常數(shù)據(jù)分析模型表達式。當Mk降低時,表明異常數(shù)據(jù)已經(jīng)“老化”,模型對分析結(jié)果的貢獻隨之減少。本文通過網(wǎng)絡(luò)運行數(shù)據(jù)的云空間轉(zhuǎn)換、訓練異常分析模型、分析異常數(shù)據(jù)以及檢測數(shù)據(jù)異常等流程,減少網(wǎng)絡(luò)單一成分分析的不確定性,提升網(wǎng)絡(luò)異常數(shù)據(jù)分析精準度。
至此,完成基于云計算的通信網(wǎng)絡(luò)異常數(shù)據(jù)分析技術(shù)的設(shè)計。
本文利用云計算對網(wǎng)絡(luò)上行流量與下行流量進行分析,綜合判定網(wǎng)絡(luò)異常情況。上行流量、下行流量分析情況如圖2所示。
圖2 上下行流量圖
圖2可知:在40 s之前,下行流量處于波動狀態(tài);在38 s之前,上行流量處于波動狀態(tài)。在上行流量與下行流量處于波動狀態(tài)時,網(wǎng)絡(luò)數(shù)據(jù)被攻擊的速率均在1 000 kB/s,多數(shù)情況下均小于1 000 kB/s;在40 s之后,上行流量與下行流量均在某一范圍內(nèi)保持平穩(wěn),此時為網(wǎng)絡(luò)正常狀態(tài)。通過分析上行流量與下行流量的平穩(wěn)狀態(tài),能夠更快速地發(fā)現(xiàn)網(wǎng)絡(luò)異常狀態(tài),對異常網(wǎng)絡(luò)后續(xù)維護具有重要作用。
在上述實驗條件下,本文選取1 000~8 000 B等隨機數(shù)據(jù)量,分析其通信網(wǎng)絡(luò)異常數(shù)據(jù)分析精準度。具體實驗結(jié)果如表2所示。
如表2所示,本文隨機選取出1 000~8 000 B的數(shù)據(jù)量,每個通信數(shù)據(jù)的異常數(shù)據(jù)數(shù)量不同。文獻[1]方法的分析精準度在0.845~0.887的范圍內(nèi)變化。其中,數(shù)據(jù)量為5 000 B時,分析精準度低于0.850的合格指標。文獻[2]方法的分析精準度在0.852~0.902的范圍內(nèi)變化。相比于文獻[1]方法,文獻[2]方法的分析精準度更加穩(wěn)定,但是該方法受到數(shù)據(jù)量的限制,數(shù)據(jù)量越多,分析精準度越低。由此證明,文獻[1]方法、文獻[2]方法在通信網(wǎng)絡(luò)異常數(shù)據(jù)分析精準度方面,均存在不同程度的問題,導致異常數(shù)據(jù)分析效果隨之下降。而本文設(shè)計的通信網(wǎng)絡(luò)異常數(shù)據(jù)分析技術(shù)的分析精準度在0.995~1.000的范圍內(nèi)變化。其中,數(shù)據(jù)量為3000 B時,精準度達到了1.000的完美標準。并且該分析技術(shù)并不會受到數(shù)據(jù)量多少的干擾,能夠更準確地分析出通信網(wǎng)絡(luò)的異常情況,符合本文研究目的。
表2 實驗結(jié)果
本文利用云計算設(shè)計了通信網(wǎng)絡(luò)異常數(shù)據(jù)分析技術(shù)。從判定網(wǎng)絡(luò)異常運行行為、分析異常節(jié)點、構(gòu)建分析模型等方式對網(wǎng)絡(luò)異常數(shù)據(jù)進行分析。通過網(wǎng)絡(luò)異常數(shù)據(jù)節(jié)點的分析快速找出異常數(shù)據(jù),不僅減輕了通信網(wǎng)絡(luò)異常情況對適用人群的影響,還提高了網(wǎng)絡(luò)服務(wù)質(zhì)量,能夠為網(wǎng)絡(luò)的正常運行提供保障。