蘭瑞樂,唐 忠,劉曉紅
(1.南寧師范大學(xué)網(wǎng)絡(luò)信息中心,廣西南寧 530001;2.廣西醫(yī)科大學(xué)人文社會(huì)科學(xué)學(xué)院,廣西南寧 530021;3.廣西醫(yī)科大學(xué)信息中心,廣西南寧 530021)
在網(wǎng)絡(luò)信道內(nèi),受無線信道帶寬內(nèi)碼間干擾影響,易出現(xiàn)通信信道配置不均衡的問題[1],由此造成異常負(fù)載。為避免這一問題,需檢測(cè)網(wǎng)絡(luò)內(nèi)大數(shù)據(jù)異常負(fù)載,降低網(wǎng)絡(luò)干擾,提升網(wǎng)絡(luò)通信輸出的準(zhǔn)確性[2]。由此相關(guān)的大數(shù)據(jù)異常負(fù)載檢測(cè)方法成為網(wǎng)絡(luò)通信領(lǐng)域研究熱點(diǎn)[3]。
文獻(xiàn)[4]提出基于多窗口機(jī)制的高維大數(shù)據(jù)流連續(xù)異常點(diǎn)檢測(cè)方法。使用時(shí)間序列和滑動(dòng)窗口過濾高維在線監(jiān)視連續(xù)數(shù)據(jù)流,向過濾后的候選異常數(shù)據(jù)中添加時(shí)間和類型標(biāo)簽,并使用K-means聚類方法收集具有時(shí)間標(biāo)簽的候選異常數(shù)據(jù)集,獲取一組潛在的異常點(diǎn)。近似機(jī)制用于搜索正常點(diǎn)聚類的屬性以消除異常錯(cuò)誤判斷,局部密度機(jī)制用于對(duì)從第一次聚類檢測(cè)中獲得的異常點(diǎn)進(jìn)行分類,并再次準(zhǔn)確地排除可能的正常數(shù)據(jù)點(diǎn)。使用時(shí)間權(quán)重來計(jì)算多個(gè)滑動(dòng)窗口的檢測(cè)結(jié)果,以獲得最終的異常數(shù)據(jù)點(diǎn)集;文獻(xiàn)[5]提出CPU-GPU異構(gòu)數(shù)據(jù)分析系統(tǒng)上的負(fù)載均衡處理策略。使用流水線模型分解工作量,并基于流水線設(shè)計(jì)了一種負(fù)載均衡模型,以將工作量合理地分配給異構(gòu)處理器,從而減少了系統(tǒng)的總執(zhí)行時(shí)間。
作為一種有效的統(tǒng)計(jì)方法,高階統(tǒng)計(jì)特征可有效反映信號(hào)的非高斯性與非線性特征,因此在數(shù)據(jù)信息統(tǒng)計(jì)領(lǐng)域中被普遍使用。為提升大數(shù)據(jù)異常負(fù)載檢測(cè)的性能,提出基于高階統(tǒng)計(jì)特征的大數(shù)據(jù)異常負(fù)載檢測(cè)方法,并利用相關(guān)軟件進(jìn)行仿真測(cè)試,以此驗(yàn)證該方法的應(yīng)用性能。
大數(shù)據(jù)異常負(fù)載檢測(cè)的主要目的是判斷大數(shù)據(jù)負(fù)載狀態(tài)是否出現(xiàn)異常,大數(shù)據(jù)負(fù)載的狀態(tài)可通過特征集合表示。
利用一個(gè)特征矢量集合描述大數(shù)據(jù)負(fù)載的特征函數(shù),將其定義為正常子空間。利用Se?S表示大數(shù)據(jù)負(fù)載處于正常狀態(tài),利用Non_Se表示Se?S的補(bǔ)集,其計(jì)算公式如下
Non_Se=S-Se
(1)
通常情況下,可用特征函數(shù)定義Se或Non_Se集合
(2)
(3)
在大數(shù)據(jù)負(fù)載異常檢測(cè)實(shí)際應(yīng)用過程中,大數(shù)據(jù)負(fù)載分析過程通常會(huì)產(chǎn)生非高斯與非線性特征。利用高階統(tǒng)計(jì)特征描述大數(shù)據(jù)負(fù)載分析過程[6],能夠獲取偏離高斯特性的大數(shù)據(jù)負(fù)載信息特征,反映大數(shù)據(jù)負(fù)載信息的相位特性,為便于大數(shù)據(jù)負(fù)載信息產(chǎn)生過程的分析與理論,可以頻域信息取代時(shí)域信息,用于闡述大數(shù)據(jù)負(fù)載信息的其它特征[7]。三階累加矩的頻域類似于能量譜通過二階矩頻域表示,可通過雙譜表示,利用式(4)可描述雙譜定義:
W(f1,f2)=DD[c3(τ1,τ2)]
=E[X(f1)X(f2)X*(f1+f2)]
(4)
式(4)內(nèi),DD和X(f)分別表示雙傅里葉變換和時(shí)間序列x(t)的傅里葉變換,c3(τ1,τ2)表示雙能量譜。在點(diǎn)(W(f1,f2),f1,f2)的雙譜值檢測(cè)頻率f1和f2間的相關(guān)性,或檢測(cè)的頻率相關(guān)性受大數(shù)據(jù)負(fù)載產(chǎn)生系統(tǒng)內(nèi)非線性特征影響[8],基于此,利用雙譜值檢測(cè)可檢測(cè)大數(shù)據(jù)負(fù)載信息的非線性特征。雙譜估計(jì)依賴式(5)描述的二階譜屬性,可實(shí)現(xiàn)無偏差估計(jì):
var((f1,f2))∞P(f1)P(f2)P(f1+f2)
(5)
式(5)內(nèi),P(f)表示大數(shù)據(jù)負(fù)載信息在f處的能量??紤]大數(shù)據(jù)負(fù)載信息雙譜估計(jì)受雙頻直接影響,能量較高的雙頻處,估計(jì)值的偏差相對(duì)較高,相對(duì)的能量較低的雙頻處,估計(jì)值的偏差也較低,這表明雙譜估計(jì)結(jié)果存在明顯偏差。針對(duì)這一問題,可采用標(biāo)準(zhǔn)化處理過程對(duì)雙譜實(shí)施處理,降低檢測(cè)結(jié)果的偏差同大數(shù)據(jù)負(fù)載信息能量之間的相關(guān)性。以雙相關(guān)值描述標(biāo)準(zhǔn)化處理后的雙譜,其公式描述為
(6)
通過以上過程可獲取大數(shù)據(jù)負(fù)載中的高階統(tǒng)計(jì)特征,構(gòu)建高階統(tǒng)計(jì)特征集合F。
利用人工免疫理論,以高階統(tǒng)計(jì)特征為基礎(chǔ),構(gòu)建大數(shù)據(jù)異常負(fù)載檢測(cè)器,圖1所示為檢測(cè)器生成過程。
以高階統(tǒng)計(jì)特征集合F對(duì)正常大數(shù)據(jù)負(fù)載樣本編碼生成“自我”集合。不成熟檢測(cè)器是通過使用大數(shù)據(jù)負(fù)載樣本編碼,隨機(jī)生成過程和高親和力檢測(cè)器克隆突變后代而形成的。陰性選擇算法用于將“自身”集中的元素與未成熟檢測(cè)器一一匹配,如果降低匹配閾值,則可以通過免疫耐受將其轉(zhuǎn)換為成熟檢測(cè)器。成熟檢測(cè)器在檢測(cè)足夠大數(shù)據(jù)負(fù)載樣本的條件下可升級(jí)為記憶檢測(cè)器,利用記憶檢測(cè)器可有效進(jìn)行大數(shù)據(jù)異常負(fù)載檢測(cè)。
圖1 檢測(cè)器構(gòu)建過程
2.3.1 高階統(tǒng)計(jì)特征編碼
二進(jìn)制編碼與實(shí)值編碼是普遍使用的編碼形式,考慮實(shí)值編碼可有效降低編碼過程時(shí)間與空間復(fù)雜度,因此構(gòu)建檢測(cè)器時(shí)選取實(shí)值編碼方式提升編碼效率。用F={f1,f2,…fN}表示高階統(tǒng)計(jì)特征集合,利用其待檢測(cè)的大數(shù)據(jù)負(fù)載信息樣本實(shí)施編碼處理。
利用y表示大數(shù)據(jù)負(fù)載信息樣本,對(duì)其實(shí)施反匯編處理,利用n-gram模型獲取指令序列片段,用L表示。統(tǒng)計(jì)F內(nèi)各特征fi在L中出現(xiàn)的頻率,利用式(7)確定各特征的頻率TFf
(7)
式(7)內(nèi),Nf、K和k分別表示樣本y的匯編助記符序列內(nèi)特征f出現(xiàn)的次數(shù)、樣本y獲取的全部特征集合和集合K內(nèi)的特征。
將TFf作為編碼后實(shí)值特征向量V內(nèi)該維度的取值,通過計(jì)算獲取樣本y編碼后的特征Vy=(v1,v2,…,vN)。
2.3.2 檢測(cè)器成熟過程分析
檢測(cè)器成熟過程中所利用的陰性選擇算法擴(kuò)展了未成熟檢測(cè)器的開源,歸納其來源主要分為:更能代表異常狀態(tài)的大數(shù)據(jù)負(fù)載樣本信息提取的高階統(tǒng)計(jì)特征、用于擴(kuò)大檢測(cè)器非我空間搜索范圍的隨機(jī)生成、通過遺傳優(yōu)良基因變異出更優(yōu)后代的優(yōu)秀成熟檢測(cè)器克隆變異。
逐一匹配“自我”集合內(nèi)各元素與未成熟檢測(cè)器,將通過免疫耐受(同全部自我集合內(nèi)元素均未匹配成功)的未成熟檢測(cè)器作為成熟檢測(cè)器。利用式(8)表示檢測(cè)器d同“自我”元素m間的歐氏距離Ed(d,m)
(8)
在Ed(d,m)≤rd的條件下,“自我”元素m在檢測(cè)器d覆蓋的檢測(cè)范圍內(nèi),表示此未成熟檢測(cè)器與正常大數(shù)據(jù)負(fù)載樣本相匹配,此時(shí)可丟棄未成熟檢測(cè)器。
2.3.3 檢測(cè)器優(yōu)化
在大數(shù)據(jù)異常負(fù)載檢測(cè)器優(yōu)化過程中引入克隆選擇算法,以獲取更準(zhǔn)確的檢測(cè)結(jié)果。利用式(9)可確定給定檢測(cè)器d的親和度
q(d)=yq(d,G)
(9)
式(9)內(nèi),q(d,G)表示檢測(cè)器d同“非我”抗原集合G內(nèi)全部元素親和度之和。
(10)
(11)
選取q(d)值較大,也就是親和度較高的檢測(cè)器實(shí)施克隆與變異處理。針對(duì)檢測(cè)器d,可利用式(12)就按其克隆數(shù)量
N(d)=θ×q(d)
(12)
式(12)內(nèi),θ表示克隆系數(shù)。
變異操作采用非均一變異法,具體操作過程為
用d=(d1,d2,…,dN)表示待變異檢測(cè)器,用[maxd,mind]表示檢測(cè)器的di取值,由此通過計(jì)算可獲取變異后的取值d′i
(13)
其中:t和δ分別表示當(dāng)前凈化的代數(shù)和隨機(jī)變量,t值越大Δ(t,x)越接近0,δ取值為[0,1]。Δ(t,x)表示[0,x]內(nèi)符合非均勻分布的一個(gè)隨機(jī)數(shù),其計(jì)算公式如下
(14)
式(14)內(nèi),T、h和b分別表示最大凈化代數(shù)、[0,1]內(nèi)隨機(jī)分布的實(shí)數(shù),和隨機(jī)數(shù)對(duì)于凈化代數(shù)的依賴程度。
用Th表示成熟度閾值,對(duì)比檢測(cè)器親和度與Th,在前者大于后者的條件下,檢測(cè)器可不參與克隆與變異過程。
同時(shí)在檢測(cè)器構(gòu)建過程中引入記憶細(xì)胞機(jī)制,在整體生命周期內(nèi),如果檢測(cè)器能夠匹配足夠的抗原,則可轉(zhuǎn)換為記憶檢測(cè)器,相反則被淘汰。用Ci表示記憶細(xì)胞集合的容量上限值,利用最近最少原更替記憶細(xì)胞,將被替換的記憶細(xì)胞轉(zhuǎn)換為新生成熟檢測(cè)器。最終利用記憶檢測(cè)器實(shí)現(xiàn)大數(shù)據(jù)異常負(fù)載檢測(cè)。
為測(cè)試本文提出的基于高階統(tǒng)計(jì)特征的大數(shù)據(jù)異常負(fù)載檢測(cè)方法,以某區(qū)域光纖網(wǎng)絡(luò)為測(cè)試對(duì)象,進(jìn)行仿真測(cè)試并分析測(cè)試結(jié)果。采用Matlab實(shí)施大數(shù)據(jù)負(fù)載檢測(cè)方法設(shè)計(jì),利用Spss1.6統(tǒng)計(jì)軟件統(tǒng)計(jì)并分析大數(shù)據(jù)異常負(fù)載特征。仿真過程中相關(guān)參數(shù)設(shè)定如表1所示。
表1 仿真參數(shù)設(shè)定
基于以上設(shè)定的仿真環(huán)境與相關(guān)參數(shù),進(jìn)行研究對(duì)象大數(shù)據(jù)異常負(fù)載檢。圖2所示為待檢測(cè)的大數(shù)據(jù)負(fù)載樣本序列。
圖2 大數(shù)據(jù)負(fù)載樣本序列
以圖2中列出的樣本數(shù)據(jù)為基礎(chǔ),進(jìn)行異常負(fù)載檢測(cè),采用所提方法提取異常負(fù)載的統(tǒng)計(jì)特征,結(jié)構(gòu)譜分析方法,獲取研究對(duì)象大數(shù)據(jù)異常負(fù)載檢測(cè)輸出時(shí)序波形,結(jié)果如圖3所示。
圖3 異常負(fù)載檢測(cè)輸出時(shí)序波形
分析圖3得到,采用所提方法進(jìn)行研究對(duì)象大數(shù)據(jù)異常負(fù)載檢測(cè),輸出樣本序列具有較高的特征分辨能力,可有效抑制大數(shù)據(jù)負(fù)載樣本序列內(nèi)的重疊干擾,提升研究對(duì)象內(nèi)大數(shù)據(jù)傳輸?shù)臏?zhǔn)確性。
以文獻(xiàn)[4]方法、文獻(xiàn)[5]方法作為實(shí)驗(yàn)對(duì)比方法,利用仿真軟件對(duì)三種三不同檢測(cè)方法檢測(cè)性能進(jìn)行仿真,對(duì)比不同檢測(cè)方法的準(zhǔn)確率、耗費(fèi)流量等方面,結(jié)果如下。
3.2.1 檢測(cè)結(jié)果準(zhǔn)確率分析
為對(duì)比不同檢測(cè)方法的準(zhǔn)確率,采用所提方法與兩種對(duì)比方法實(shí)施異常負(fù)載檢測(cè),所得檢測(cè)結(jié)果的準(zhǔn)確率對(duì)比結(jié)果與研究對(duì)象輸出誤碼率對(duì)比結(jié)果分別如表2和表3所示。
表2 檢測(cè)結(jié)果準(zhǔn)確率對(duì)比
表3 輸出誤碼率對(duì)比
分析表2和表3得到的仿真結(jié)果可得,在研究對(duì)象內(nèi)干擾信噪比逐漸提升的條件下,不同檢測(cè)方法干擾強(qiáng)度降低,即不同方法對(duì)大數(shù)據(jù)異常負(fù)載檢測(cè)結(jié)果的準(zhǔn)確性呈整體上升狀態(tài)。當(dāng)研究對(duì)象內(nèi)干擾信噪比達(dá)到30時(shí),所提方法檢測(cè)結(jié)果的準(zhǔn)確率達(dá)到99.9%,顯著高于對(duì)比方法,且所提方法的輸出誤碼率與對(duì)比方法相比也顯著下降,由此可說明所提方法具有較高的檢測(cè)精度。
3.2.2 耗費(fèi)流量分析
對(duì)比所提方法與對(duì)比方法在進(jìn)行大數(shù)據(jù)異常負(fù)載檢測(cè)過程中,約定時(shí)間內(nèi),不同方法通過時(shí)間標(biāo)簽發(fā)送信號(hào)的掉線負(fù)載情況,仿真結(jié)果如圖4所示。
圖4 不同方法耗費(fèi)流量對(duì)比
分析圖4得到,不同檢測(cè)方法檢測(cè)過程中,檢測(cè)流量均表現(xiàn)出隨著待檢測(cè)負(fù)載提升而提升的狀態(tài)。對(duì)比之下可得,所提方法耗費(fèi)流量顯著低于對(duì)比方法。
3.2.3 性能對(duì)比
基于仿真結(jié)果,對(duì)所提方法與對(duì)比方法的優(yōu)勢(shì)與劣勢(shì)進(jìn)行定性分析,結(jié)果如表4所示。
分析表4可得,相較于其它兩種對(duì)比方法,所提方法能夠獲取偏離高斯特性的大數(shù)據(jù)負(fù)載信息特征,反映大數(shù)據(jù)負(fù)載信息的相位特性,可檢測(cè)并度量大數(shù)據(jù)負(fù)載時(shí)序信息的非線性特征,以此提升最終檢測(cè)結(jié)果的準(zhǔn)確性。
表4 定性分析結(jié)果
本文研究基于高階統(tǒng)計(jì)特征的大數(shù)據(jù)異常負(fù)載檢測(cè)方法,提取大數(shù)據(jù)負(fù)載信息中的高階統(tǒng)計(jì)特征,以此為基礎(chǔ),構(gòu)建大數(shù)據(jù)異常負(fù)載檢測(cè)器,利用記憶檢測(cè)器實(shí)現(xiàn)大數(shù)據(jù)異常負(fù)載檢測(cè)。仿真結(jié)果顯示該方法能夠準(zhǔn)確檢測(cè)大數(shù)據(jù)異常負(fù)載,表明該方法具有一定的應(yīng)用性。