冉 冉,胡 非,齊 俊,高 強,白 亮
(國網(wǎng)遼寧省電力有限公司信息通信分公司,遼寧 沈陽 110006)
很多云用戶通過云平臺實現(xiàn)計算、存儲等網(wǎng)絡行為,這種高度不間斷的動態(tài)特點使異常點的出現(xiàn)概率增加,因此研究人員開始對異常點檢測進行研究[1]。異常點通常是指一些與預期行為模式不一致的數(shù)據(jù)源,在不同的場景中,異常點通常又被稱為離群點或污染點。傳統(tǒng)的云平臺異常點檢測主要分為無監(jiān)督的異常點檢測方法、有監(jiān)督的異常點檢測方法、半監(jiān)督的異常點檢測方法等[2]。但是這3種方法都有一定的局限性,由單一數(shù)據(jù)源計算得到的檢測方法在后續(xù)的分析中會導致近似估值檢測的結(jié)果具備極大的不確定性,且整體檢測準確率較低,誤報率較高。因此本文提出了基于多特征融合的云平臺異常點檢測方法,在保證算法準確率的前提下提高了算法的計算速度,避免了算法結(jié)果的不確定性。
為進一步提高檢測準確率,對云平臺不同子系統(tǒng)的特征空間進行優(yōu)化。在訓練云平臺虛擬機學習時,需要兼顧檢測風險和檢測經(jīng)驗,同時輸出最小化的權值。
(1)
式中:β為輸出權值;i為訓練次數(shù);ξ為最小化的虛擬機學習訓練誤差[3];ξi=[ξi1,ξi2,ξi3,…,ξim]T為虛擬機的訓練誤差。
(2)
式中:β′為優(yōu)化后的輸出權值;ξ為優(yōu)化模型的虛擬機學習訓練誤差;F為樣本集中非線性組合特征求解。如此就能夠?qū)崿F(xiàn)不同子系統(tǒng)之間的特征自動融合。
基于構(gòu)建的子系統(tǒng)特征空間優(yōu)化模型,立足于對云平臺異常點的多元監(jiān)測,設計基于多特征融合的云平臺異常點檢測方法。
a.模型約束
完成云平臺網(wǎng)絡拓撲結(jié)構(gòu)的構(gòu)建后,就需要引入模型約束,分別使用不同的可視化表達將V1、V2、V3作為多特征融合的異常特征,并在實現(xiàn)多特征融合的前提下設置模型參數(shù)。該模型必須滿足云平臺網(wǎng)絡拓撲結(jié)構(gòu)的距離約束,以距離約束作為模型約束,進而實現(xiàn)樣本數(shù)據(jù)的特征融合,因此式(2)直接拓展為
(3)
式中:i為樣本空間數(shù)據(jù)集,且i=1,2,…,N;β″為模型約束后的輸出權值。在約束下,子系統(tǒng)中擴大特征樣本距離的元素值為
(4)
(5)
式中:N為樣本數(shù)據(jù)集的總量;i為數(shù)據(jù)集中傳輸數(shù)據(jù)的具體序號;hi為第i個傳輸數(shù)據(jù)與上列傳輸數(shù)據(jù)的距離[7]。同時依據(jù)拉格朗日定理[8]得到更新后的多特征融合系數(shù)為
(6)
式中:si為更新后的特征系數(shù)[9];N為樣本數(shù)據(jù)集;β?為數(shù)據(jù)更新后的多特征融合輸出權值;r為隱藏輸出權值系數(shù)。
b.檢測流程
由式(6)可以得到基于多特征融合的云平臺異常點檢測流程,如圖1所示。
由圖1可知,在計算云平臺異常點時,首先通過離線訓練的方式得到訓練精度,設置最大迭代次數(shù)為100,當?shù)螖?shù)大于100時,得到最終的訓練值;然后通過離線訓練得到組合系數(shù),針對當前訓練樣本進行特征融合;最后實現(xiàn)基于多特征融合的云平臺異常點檢測。
a.試驗準備工作
為驗證本方法優(yōu)于傳統(tǒng)方法,對基于多特征融合的云平臺異常點檢測方法與基于SOM算法的異常點檢測方法和基于時間序列的異常點檢測方法進行對比分析。試驗由OpenStack技術搭建真實的云平臺環(huán)境,由8臺計算機組成,其中1臺計算機為云平臺提供控制功能,其他7臺為云平臺提供計算功能。在整體的LAN環(huán)境下,設置7個計算節(jié)點用于檢測組件與進行應用服務,設計1個控制節(jié)點用于管理組件。
將管理節(jié)點生成器中的計算量全部用于模擬用戶的服務請求,使云服務器用于定向處理虛擬機的服務請求,再將8臺云平臺虛擬機的請求信息用于指向響應邏輯,使數(shù)據(jù)庫虛擬機專注于處理存儲數(shù)據(jù),可以隨時添加故障注入程序,以驗證基于多特征融合的云平臺異常點檢測方法。設置4個試驗的標準數(shù)據(jù)集,分別為Iris、Glass、Waveform、MLL。Iris是最小樣本集,只有250條樣本記錄;Waveform是最大樣本集,共有6000余條樣本記錄。這些樣本集用于機器學習算法的測試,驗證算法的有效性和確定性。為確保試驗結(jié)果的準確性,每個數(shù)據(jù)集進行3次試驗,最后計算數(shù)據(jù)結(jié)果的平均值。
b.試驗結(jié)果分析
通過Matlab軟件將數(shù)據(jù)結(jié)果進行對比分析,如表1所示。
表1 試驗結(jié)果對比
由表1可知,基于多特征融合的云平臺異常點檢測方法中,4個數(shù)據(jù)集的算法準確率平均值為97.7%;基于SOM算法的異常點檢測方法中,4個數(shù)據(jù)集的算法準確率平均值為95.1%;基于時間序列的異常點檢測方法中,4個數(shù)據(jù)集的算法準確率平均值只有94.1%。因此基于多特征融合的云平臺異常點檢測方法的準確率高于其他2種方法;由于數(shù)據(jù)量小的數(shù)據(jù)集計算速度快,因此在同樣的數(shù)據(jù)集下,基于多特征融合的云平臺異常點檢測速度快過其他2種方法。
在互聯(lián)網(wǎng)時代,云平臺因為其極具開放性的特點,不可避免地受到更多用戶的關注,也因此帶來巨大的流量。在頻繁的訪問下,為提高云平臺異常點檢測的準確率和計算速度,對基于多特征融合的云平臺異常點檢測方法進行研究,并通過試驗驗證方法的實用性,比其他傳統(tǒng)方法更為準確可靠,計算速度更快。