李軍華,丁憲成
(1.江蘇理工學(xué)院,江蘇 常州 213001;2.常州大學(xué),江蘇 常州 213016)
將兩個沒有任何物理連接的計算機(jī),通過網(wǎng)絡(luò)的虛擬技術(shù)進(jìn)行連接,從而形成一種至少包含兩個部分的計算機(jī)網(wǎng)絡(luò),被稱為虛擬化網(wǎng)絡(luò),其中最常見的虛擬化網(wǎng)絡(luò),它們分別為:以協(xié)議模式所生成的虛擬化網(wǎng)絡(luò),例如:虛擬專用局域網(wǎng)業(yè)務(wù)(VirtualPrivateLanService,VPLS)、虛擬專用網(wǎng)絡(luò)(Virtual Private Network,VPN)與虛擬局域網(wǎng)(Virtual Local Area Network,VLAN);虛擬化設(shè)備,例如:在虛擬機(jī)監(jiān)視器(Virtual Machine Monitor,VMM)內(nèi)部連接虛擬機(jī)。
經(jīng)過互聯(lián)網(wǎng)的快速發(fā)展,虛擬化網(wǎng)絡(luò)也隨之產(chǎn)生變化,其不足點(diǎn)在于:一VLAN技術(shù)沒有辦法在云計算內(nèi)使用;二融合數(shù)據(jù)需要重新定位工作的范圍;三虛擬交換機(jī),為新的虛擬工作負(fù)載;四虛擬化網(wǎng)絡(luò)服務(wù)的蔓延。要想實(shí)現(xiàn)這些功能,必不可少地需要與大數(shù)據(jù)相結(jié)合,以大數(shù)據(jù)作為支撐,從而實(shí)現(xiàn)虛擬化網(wǎng)絡(luò)的發(fā)展。但是大數(shù)據(jù)的數(shù)據(jù)量龐大,其中不乏存在一些異常數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)運(yùn)行過程中出現(xiàn)錯誤,所以需要對這些數(shù)據(jù)進(jìn)行檢測、剔除。
文獻(xiàn)[1]構(gòu)建起始擬合數(shù)據(jù),通過B樣條曲線方法建立遞推模型,采用基于樣條平滑的方法計算判斷門限對于雙向檢驗(yàn)的結(jié)果,觀察數(shù)據(jù)是否存在異常,同時對滿足修復(fù)條件的數(shù)據(jù)實(shí)現(xiàn)擬合修復(fù),當(dāng)雙向檢驗(yàn)結(jié)果不同時,利用構(gòu)建的內(nèi)推模型,實(shí)現(xiàn)進(jìn)一步的檢驗(yàn)。文獻(xiàn)[2]采用長基線定位野值點(diǎn)法實(shí)現(xiàn)數(shù)據(jù)的修正,利用卡爾曼絕對值數(shù)據(jù)作為標(biāo)準(zhǔn),以此完成對數(shù)據(jù)的檢測,通過調(diào)整卡爾曼的濾波轉(zhuǎn)變成野值點(diǎn)的修正值,考慮到濾波模型實(shí)際應(yīng)用時不匹配的狀態(tài),會導(dǎo)致濾波前后數(shù)據(jù)信息的偏差比較大,因此,對不正常數(shù)據(jù)點(diǎn)進(jìn)行處理,完成數(shù)據(jù)剔除。
上述方法雖然能夠?qū)崿F(xiàn)數(shù)據(jù)剔除,不過剔除效果不夠理想,誤剔除數(shù)據(jù)較多,為此本文提出一種虛擬化網(wǎng)絡(luò)中的異常大數(shù)據(jù)剔除算法,通過事先對異常數(shù)據(jù)進(jìn)行挖掘、檢測,最后利用粒子群優(yōu)化以及支持向量機(jī)完成剔除,以此可以減少誤操作帶來的影響。
要想實(shí)現(xiàn)虛擬化網(wǎng)絡(luò)內(nèi)的異常大數(shù)據(jù)挖掘,需要對網(wǎng)絡(luò)中的異常大數(shù)據(jù)進(jìn)行類似度分析,通過分類決策樹C實(shí)現(xiàn)異常大數(shù)據(jù)的類似度分解[3]。再對異常大數(shù)據(jù)的混合屬性以及分類屬性進(jìn)行識別,構(gòu)建混合屬性的分類模型,同時,利用數(shù)據(jù)屬性的類似度進(jìn)行分析,求出模糊屬性集X的奇異值,具體公式為
X=UDVT
(1)
(2)
式中:psp(si,qj)代表冗余數(shù)據(jù)的概念集qj以及自身概念集si,即異常簇中的數(shù)據(jù)信息,其模型為[s,q]=[x(t),x(t+τ)],可以計算出模糊信息的閉頻繁項(xiàng),s表示取樣信息流x(t)的序列樣本,q代表延遲時間樣本,延遲序列是x(t+τ),I(Q,S)通過τ代表模糊決策函數(shù)的自變量[4]。
(3)
式中:d代表數(shù)據(jù)集中的類別標(biāo)簽,λ代表數(shù)據(jù)之間的原始類似度,h2代表簇與簇之間的距離,a2代表簇中心群。
通過大數(shù)據(jù)不同屬性處于不同聚類內(nèi)的差異性,從而識別異常數(shù)據(jù),具體獲得的精確概率密度函數(shù)公式為
(4)
式中:λS代表數(shù)據(jù)采集的類似度系數(shù),p2D代表簇內(nèi)的信息分布密度。具體異常大數(shù)據(jù)的相異度公式為:
(5)
式中:Dis(A)代表聚類過程擴(kuò)展的損失,Dis(B)代表屬性的數(shù)據(jù)集。
以虛擬化網(wǎng)絡(luò)異常大數(shù)據(jù)的類似度分析結(jié)果作為基礎(chǔ),提取分類特征以及數(shù)值特征[5]。如果X代表存在m個分類的異常大數(shù)據(jù)集,那么第i個數(shù)值的異常大數(shù)據(jù)y(k)以及分類訓(xùn)練的數(shù)據(jù)集φ(k),具體公式為
y(k)=s1(k)+n1(k),φ(k)=s2(k)+n2(k)
(6)
s1(k)=AAHej(Ωk+θH),s2(k)=AAHej(Ωk+θHB)
(7)
式中:AH,AHB以及θH、θHB分別代表函數(shù)H(z)與HB(z)相應(yīng)的幅值以及屬性特征量、p個元素的屬性值。將其與目標(biāo)方法的最小化進(jìn)行結(jié)合,實(shí)現(xiàn)尋優(yōu)條件,就可以獲得分類以及數(shù)值的特征集合,具體可以得到公式
RβX=U{E∈U/R|c(E,X)≤β}
(8)
RβX=U{E∈U/R|c(E,X)≤1-β}
(9)
相對于第i個分類的屬性兩個數(shù)據(jù)塊mi以及mj,利用分解數(shù)據(jù)的對象mi,j(1≤i≤n,1≤j≤k)即可實(shí)現(xiàn)混合特征,聚類特征系數(shù)能夠表示為{λi:1≤i≤S},而判別準(zhǔn)則能夠表示為{λj:1≤j≤L}。通過異常大數(shù)據(jù)的分類差異性,可以獲得訓(xùn)練函數(shù)f與dγ0之間的模糊概念集[6],具體公式為
(10)
采用關(guān)聯(lián)規(guī)則的分析法,融合異常大數(shù)據(jù)模糊集,求出異常大數(shù)據(jù)的自相關(guān)特征分塊函數(shù),可以得到具體公式為
(11)
(12)
Si=Sb+Sω
(13)
式中:p(ωi)代表離散區(qū)間內(nèi)的規(guī)則向量集,u=E(x)代表數(shù)據(jù)的離散區(qū)間數(shù)。
利用歸一化方法,對異常大數(shù)據(jù)的關(guān)聯(lián)規(guī)則模型X(t)進(jìn)行處理,獲得全新的聚類模態(tài)函數(shù),具體公式為
(14)
由于在異常數(shù)據(jù)挖掘過程中會將所有的異常數(shù)據(jù)挖掘出來,不管是無用的冗余數(shù)據(jù),還是有用數(shù)據(jù),都要對其進(jìn)行冗余處理。在進(jìn)行冗余過濾的過程中,通過測量數(shù)據(jù)間的接近度驗(yàn)證虛擬化網(wǎng)絡(luò)數(shù)據(jù),把網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)數(shù)據(jù)作為一個集合,同時利用模糊集合間的接近度,設(shè)定冗余數(shù)據(jù)的判定門限值,從而確認(rèn)網(wǎng)絡(luò)內(nèi)的冗余信息,并且進(jìn)行濾除[8]。步驟如下:
如果ai′表示虛擬化網(wǎng)絡(luò)中節(jié)點(diǎn)Wi′所測得的數(shù)據(jù),aj′表示虛擬化網(wǎng)絡(luò)中的節(jié)點(diǎn)Wj′所測得的數(shù)據(jù),ai′j′表示虛擬化網(wǎng)絡(luò)中的節(jié)點(diǎn)Wi′以及Wj′所測得的數(shù)據(jù)間接近程度。具體ai′j′的計算公式為
(15)
式中:μ代表一個閾值,該閾值為虛擬化網(wǎng)絡(luò)中傳感器的測量精度對大數(shù)據(jù)類似度的影響。
通過式(16)能夠構(gòu)建虛擬化網(wǎng)絡(luò)中的大數(shù)據(jù)接近度矩陣A′,具體公式為
(16)
式中:N表示矩陣的元素個數(shù)。
基于式(16)內(nèi)的A′第i′行元素,設(shè)置行間數(shù)據(jù)的類似度函數(shù)公式為
(17)
式中:Ki′數(shù)值越大,則說明第i′個虛擬化網(wǎng)絡(luò)中節(jié)點(diǎn)測得的異常數(shù)據(jù)與多數(shù)測得的數(shù)據(jù)類似度越接近,相反,第i′個虛擬化網(wǎng)絡(luò)中節(jié)點(diǎn)測得的異常數(shù)據(jù)與多數(shù)測得的數(shù)據(jù)類似度相差就越大[9]。
通過式(17)進(jìn)行結(jié)果計算,能夠獲得虛擬化網(wǎng)絡(luò)中所計算的冗余數(shù)據(jù),如果v表示門限值,把Ki′>v類似度數(shù)據(jù)確認(rèn)成被過濾掉的數(shù)據(jù),標(biāo)記成集合Q,若想將集合Q清除,那么具體公式為
(18)
式中:Ui′j′表示已將冗余數(shù)據(jù)清除之后的虛擬化網(wǎng)絡(luò)數(shù)據(jù)集合,G(κ)表示冗余數(shù)據(jù)的過濾器[10]。
通過式(18)的計算,能夠?qū)⑻摂M化網(wǎng)絡(luò)中的冗余大數(shù)據(jù)進(jìn)行清除,以此為異常大數(shù)據(jù)的剔除提供了基礎(chǔ)。
通過將冗余數(shù)據(jù)過濾之后,將其代入支持向量機(jī)以及粒子群優(yōu)化算法內(nèi),即可剔除異常的大數(shù)據(jù)。在具體實(shí)現(xiàn)的過程內(nèi),對粒子群原始化參數(shù)進(jìn)行設(shè)置,轉(zhuǎn)變成二維的模式,以此表示支持向量機(jī)數(shù)值,然后訓(xùn)練粒子,得到適應(yīng)度函數(shù)。即可得出粒子的最佳值以及全局?jǐn)?shù)據(jù),把二者相結(jié)合構(gòu)建數(shù)據(jù)庫,采用數(shù)據(jù)庫就可以對所有粒子進(jìn)行位置更新。以此對粒子的尋優(yōu)條件進(jìn)行判斷,觀察其能否滿足結(jié)束條件。如果結(jié)果是采用最佳粒子所構(gòu)建的虛擬化網(wǎng)絡(luò)中異常大數(shù)據(jù)檢測模型,那么即可檢測出異常大數(shù)據(jù),最后加入異常大數(shù)據(jù)的剔除窗口以及滑動窗口調(diào)整參數(shù)量,就能夠?qū)崿F(xiàn)異常大數(shù)據(jù)的剔除。
針對虛擬化網(wǎng)絡(luò)中的異常大數(shù)據(jù)規(guī)模確認(rèn)粒子群內(nèi)的粒子個數(shù),設(shè)置成m′,同時,設(shè)置粒子為二維模式,獲得支持向量機(jī)的參數(shù)γ和σ。
通過支持向量機(jī)實(shí)現(xiàn)所有粒子的訓(xùn)練,從而獲得粒子的適應(yīng)度函數(shù)公式為
(19)
式中:F″表示粒子適應(yīng)度的函數(shù),k(x,xi″)表示核函數(shù)。
通過計算式(19)能夠獲得適應(yīng)度的函數(shù),從而得到粒子全局最佳值以及個體最佳值。具體公式為
P″bestxi″=(P″xi″1,P″xi″2,…,P″xi″e)
(20)
gbestxi″=(bg1,bg2,…,bge)
(21)
式中:P″bestxi″表示粒子個體的最佳值。gbestxi″表示粒子全局的最佳值。把粒子個體的最佳值以及全局的最佳值進(jìn)行結(jié)合,從而建立數(shù)據(jù)庫。
采用以上數(shù)據(jù)更新所有粒子位置,具體公式為
x(t′+1)=(P″bestxi″·gbestxi″)±β·m′best
(22)
式中:x(t′+1)表示粒子的位置,β表示調(diào)節(jié)粒子的尋優(yōu)收斂速度,m′best表示粒子群的最佳中值。
在計算方法迭代至第t′次時,β的具體計算公式為
(23)
式中:t′max表示最大的迭代次數(shù)。
隨著迭代的次數(shù)增加,對尋優(yōu)的結(jié)束條件進(jìn)行判斷,在滿足時,能夠?qū)⒆罴蚜W幼鳛橹С窒蛄繖C(jī)的最佳參數(shù),建立最佳異常大數(shù)據(jù)的檢測模型,可以得到具體公式為
(24)
式中:y(x)表示異常大數(shù)據(jù)的檢測模型,采用此模型能夠把虛擬化網(wǎng)絡(luò)中的異常大數(shù)據(jù)檢測出來,γ′和σ′代表支持向量機(jī)最佳參數(shù),bestx表示最佳粒子。
通過計算式(24)的結(jié)果,能夠檢測出網(wǎng)絡(luò)中的異常大數(shù)據(jù),而具體的剔除方法公式為
(25)
為了驗(yàn)證本文方法的異常大數(shù)據(jù)剔除效果,將本文方法與文獻(xiàn)[1]、文獻(xiàn)[2]方法在同一實(shí)驗(yàn)環(huán)境下進(jìn)行對比,具體的實(shí)驗(yàn)環(huán)境為:主頻CPU是Inter Core2 Dou E7400 2.80GHz、8GB的內(nèi)存、帶寬4M、硬盤500GB以及Xeone5型的服務(wù)器。
選擇虛擬化網(wǎng)絡(luò)內(nèi)已知的大數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)條件,通過人為的方法添加10條異常數(shù)據(jù),構(gòu)成100000條。將所有的數(shù)據(jù)存儲于節(jié)點(diǎn)內(nèi),然后經(jīng)過多次實(shí)驗(yàn),以節(jié)點(diǎn)形式劃分為多個小組,觀察效果,具體結(jié)果如圖1所示:
圖1 異常大數(shù)據(jù)剔除結(jié)果對比
通過觀察圖1(a)能夠看出:異常大數(shù)據(jù)隱藏在虛擬化網(wǎng)絡(luò)內(nèi),非均勻地分布于各個區(qū)域中,用黑色標(biāo)記,以便于更好地觀察剔除效果。圖1(b)采用的是文獻(xiàn)[1]方法,該方法僅能夠?qū)ι倭慨惓?shù)據(jù)進(jìn)行剔除。文獻(xiàn)[2]方法剔除效果優(yōu)于文獻(xiàn)[1]方法,但是在實(shí)際應(yīng)用過程中,仍然很難滿足使用者的需求。而本文方法通過引入支持向量機(jī)以及粒子群優(yōu)化算法,能夠有效地剔除異常大數(shù)據(jù),網(wǎng)絡(luò)經(jīng)剔除處理后無黑色節(jié)點(diǎn),證明效果良好。
為了進(jìn)一步驗(yàn)證本文方法的有效性,以誤剔除率為實(shí)驗(yàn)指標(biāo),對比不同方法的剔除效果,結(jié)果如圖2所示。
圖2 誤剔除率對比
分析圖2可知,本文方法在虛擬化網(wǎng)絡(luò)異常大數(shù)據(jù)剔除中,誤剔除率明顯低于傳統(tǒng)方法。這是由于該方法通過決策樹模型分解異常大數(shù)據(jù)的數(shù)值屬性特征以及分類屬性特征,可以更有針對性地對數(shù)據(jù)進(jìn)行剔除,因此,降低了剔除過程中的誤差。
本文提出的虛擬化網(wǎng)絡(luò)中的異常大數(shù)據(jù)剔除算法,不僅能夠有效剔除異常大數(shù)據(jù),而且與其它方法對比誤剔除率較低,具有可應(yīng)用于虛擬化網(wǎng)絡(luò)中的現(xiàn)實(shí)價值。不過隨著網(wǎng)絡(luò)發(fā)展速度的日新月異,用戶量每天都在增加,同時數(shù)據(jù)量也在時刻地增加,所以,本文方法未來需要進(jìn)一步的更新、優(yōu)化,從而提升剔除的精度,加快剔除的時間,從而使其降低計算量,減少工作的時間。