吳 銳,陳 靜
(安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,安徽 合肥 230051)
基于SVM的電信網(wǎng)絡(luò)異常點(diǎn)檢測(cè)技術(shù)的研究
吳 銳,陳 靜
(安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,安徽 合肥 230051)
隨著我國(guó)電信網(wǎng)絡(luò)的不斷發(fā)展,其服務(wù)也逐漸呈現(xiàn)出多樣化趨勢(shì),使得網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)類(lèi)型也日益復(fù)雜,同時(shí)流量規(guī)模較之以往有了大幅的提高.在此情況下,電信網(wǎng)絡(luò)運(yùn)營(yíng)維護(hù)方式必須予以加強(qiáng)和改進(jìn),由以往基于被動(dòng)統(tǒng)計(jì)的檢測(cè)方式轉(zhuǎn)變?yōu)橹鲃?dòng)針對(duì)具體性能指標(biāo)進(jìn)行監(jiān)測(cè)的模式,對(duì)網(wǎng)絡(luò)中出現(xiàn)的異常情況進(jìn)行快速的排查和解決.本文提出一種基于SVM技術(shù)和同點(diǎn)時(shí)間序列模型的網(wǎng)絡(luò)異常點(diǎn)動(dòng)態(tài)檢測(cè)機(jī)制,對(duì)電信網(wǎng)絡(luò)置信區(qū)間的異常點(diǎn)進(jìn)行實(shí)時(shí)化監(jiān)測(cè).通過(guò)仿真實(shí)驗(yàn)證明,該方法有效地提高了電信網(wǎng)絡(luò)異常點(diǎn)的識(shí)別速度,具有一定的推廣價(jià)值.
SVM;電信網(wǎng)絡(luò);異常點(diǎn);時(shí)間序列
隨著電信網(wǎng)絡(luò)規(guī)模的逐漸增大,目前廣泛使用的異常檢測(cè)手段主要是通過(guò)設(shè)置靜態(tài)閾值的方式來(lái)完成,當(dāng)流量在某一時(shí)間點(diǎn)超過(guò)閾值時(shí),系統(tǒng)根據(jù)監(jiān)測(cè)到信息發(fā)出警報(bào),但此種方法存在諸多的弊端,最大的問(wèn)題就在于只能對(duì)某一網(wǎng)絡(luò)區(qū)域的總流量進(jìn)行監(jiān)測(cè),而無(wú)法監(jiān)控某個(gè)具體的端口[1],這使得雖然大部分時(shí)間總流量是出于正常區(qū)域內(nèi)的,但用戶(hù)端的流量卻經(jīng)常性的出現(xiàn)異常波動(dòng),如有限范圍內(nèi)的病毒攻擊或廣播風(fēng)暴等,這對(duì)用戶(hù)體驗(yàn)度的影響是顯而易見(jiàn)的.
在流量異常的檢測(cè)領(lǐng)域,有不少研究人員發(fā)表了自己的研究成果.如Roy首次提出了流量正常范圍的概念,認(rèn)為流量規(guī)模無(wú)論是否出現(xiàn)突變,只要在某范圍之內(nèi),都可認(rèn)定為正常[2];Jun Jiang等人提出了將預(yù)測(cè)算法引入到流量監(jiān)測(cè)領(lǐng)域,通過(guò)某時(shí)間段內(nèi)的流量變換情況來(lái)預(yù)測(cè)下一刻網(wǎng)絡(luò)性能的變化趨勢(shì)[3];Amon Goldman等人從統(tǒng)計(jì)學(xué)方法入手,采用迭代統(tǒng)計(jì)機(jī)制來(lái)觀察某區(qū)域內(nèi)的流量波動(dòng),從而更準(zhǔn)確地調(diào)整閾值范圍[4];Matthew V Mahoney提出了預(yù)先過(guò)濾機(jī)制,并通過(guò)建立協(xié)議模型的方式輔助異常檢測(cè)[5].以上檢測(cè)方法基本屬于被動(dòng)調(diào)控方式,因此監(jiān)控策略的生效往往較為滯后,并不能及時(shí)有效的解決網(wǎng)絡(luò)流量中出現(xiàn)的異常情況,因此目前該領(lǐng)域內(nèi)的研究熱點(diǎn)就放到了主動(dòng)識(shí)別和事前監(jiān)控方法的研究方面,本文正是基于此趨勢(shì)展開(kāi)研究,提出了一種基于支持向量機(jī)(Support Vector Machine,SVM)的主動(dòng)性能監(jiān)測(cè)方法.
主動(dòng)性能監(jiān)控技術(shù)的檢測(cè)對(duì)象不再是某一區(qū)域內(nèi)的流量規(guī)模變化,而是通過(guò)分析異常點(diǎn)的方式來(lái)識(shí)別網(wǎng)絡(luò)中可能出現(xiàn)的故障.所謂的異常點(diǎn)指的是預(yù)設(shè)的一系列性能指標(biāo)中的某一點(diǎn)的波動(dòng)超出了正常范圍,異常點(diǎn)的出現(xiàn),基本上是由通信服務(wù)出現(xiàn)故障造成的,因此在第一時(shí)間內(nèi)對(duì)服務(wù)區(qū)域內(nèi)的異常點(diǎn)進(jìn)行檢測(cè)、定位和修復(fù)可有效地提高通信質(zhì)量,從而達(dá)到避免嚴(yán)重故障發(fā)生或縮短故障發(fā)生時(shí)間的目的.
在檢測(cè)異常點(diǎn)的過(guò)程中,通常會(huì)利用兩個(gè)指標(biāo),分別是基線(xiàn)和閾值,這也是目前最常用的檢測(cè)模式,但該模式存在一定的缺陷,例如無(wú)法對(duì)基線(xiàn)和閾值進(jìn)行實(shí)時(shí)化的動(dòng)態(tài)調(diào)整,使得這兩個(gè)參數(shù)與真實(shí)的網(wǎng)絡(luò)狀況相比存在一定的滯后,虛假報(bào)警或遺漏報(bào)警的情況很難避免[7].本文的優(yōu)化思路是引入SVM機(jī)制來(lái)對(duì)以時(shí)間序列為對(duì)象的網(wǎng)絡(luò)性能評(píng)價(jià)系統(tǒng)進(jìn)行改進(jìn),提高基線(xiàn)計(jì)算的精確性和實(shí)時(shí)性,并利用訓(xùn)練殘差來(lái)計(jì)算指標(biāo)值的置信區(qū)間,從而為閾值的設(shè)定提供了可靠的依據(jù).
支持向量機(jī)SVM是近年來(lái)發(fā)展較快的一種基于機(jī)器自適應(yīng)和自學(xué)習(xí)的智能型優(yōu)化算法,屬于統(tǒng)計(jì)分析、人工智能和自動(dòng)控制領(lǐng)域的交叉研究成果[8].該算法在高維數(shù)和非線(xiàn)性等復(fù)雜問(wèn)題的優(yōu)化與求解領(lǐng)域具有良好的應(yīng)用優(yōu)勢(shì),相較于其他同類(lèi)型的優(yōu)化算法,SVM通過(guò)對(duì)解群體的分類(lèi)與回歸,實(shí)現(xiàn)了更加突出的泛化性[6].從本質(zhì)上看,SVM研究的對(duì)象為二元分類(lèi)問(wèn)題,其算法基本原理描述如下:
計(jì)算得到的f(x)為+1時(shí),表示x歸類(lèi)為一類(lèi),f(x)為-1則表示x歸類(lèi)為二類(lèi),依據(jù)此規(guī)則就可對(duì)被控對(duì)象進(jìn)行主動(dòng)預(yù)測(cè),如判斷網(wǎng)絡(luò)性能是否出現(xiàn)異常.
如前文所述,本文提出同點(diǎn)時(shí)間序列數(shù)據(jù)模型,采樣的時(shí)間點(diǎn)不再是連續(xù)的,而是根據(jù)每天同一時(shí)刻,連續(xù)多日采樣,得出優(yōu)化算法所需的訓(xùn)練集,如式(2)所示:
根據(jù)實(shí)踐經(jīng)驗(yàn)可知,電信網(wǎng)絡(luò)異常事件一旦發(fā)生,其生命周期一般不會(huì)太短,往往要持續(xù)多個(gè)采樣周期,在采用連續(xù)時(shí)間序列模型時(shí)就會(huì)導(dǎo)致輸入向量中的異常點(diǎn)也往往也集中出現(xiàn),不利于整體的性能評(píng)價(jià);而同點(diǎn)時(shí)間序列的采樣點(diǎn)是呈分散狀的,這就大大降低了一個(gè)輸入向量同時(shí)包含多個(gè)異常點(diǎn)的可能性,從而提高了檢測(cè)工作的穩(wěn)定性和可靠性.
SVM算法中的核函數(shù)直接決定了算法預(yù)測(cè)的質(zhì)量高低,在選擇核函數(shù)時(shí),若無(wú)法得到可靠的先驗(yàn)知識(shí),則一般均會(huì)選擇高斯徑向基函數(shù)來(lái)作為SVM算法的核函數(shù),其原因就在于該函數(shù)具有很好的逼近能力,在線(xiàn)性于非線(xiàn)性系統(tǒng)中均表現(xiàn)良好[10].本文經(jīng)過(guò)綜合考慮,最終決定也選取該函數(shù)為SVM算法的核函數(shù),如式(4)所示:
圖 SVM參數(shù)精細(xì)尋優(yōu)結(jié)果
在選定過(guò)了核函數(shù)之后,就需要對(duì)其他參數(shù)組進(jìn)行預(yù)優(yōu)化,通過(guò)粗略尋優(yōu)來(lái)判斷最優(yōu)參數(shù)的估值,再在此估值附近進(jìn)行精細(xì)尋優(yōu),最終找到合適的c和γ.
觀察左圖可以發(fā)現(xiàn),c和γ精細(xì)尋優(yōu)結(jié)果的取值范圍明顯縮小,最終確定c=1.3272,γ=1,SVM對(duì)訓(xùn)練集的分類(lèi)準(zhǔn)確率也有了一定的提高,近似達(dá)到了95.6%.
在經(jīng)過(guò)上述的步驟后,SVM算法已確定了基線(xiàn)和最佳參數(shù),下一步工作就是利用訓(xùn)練殘差計(jì)算指標(biāo)值在監(jiān)控時(shí)間點(diǎn)上的置信區(qū)間.
根據(jù)式(5)就可根據(jù)選定的置信區(qū)間得到相應(yīng)的閾值波動(dòng)范圍,如若選定置信度為1-α=95%,查正態(tài)分布表得z0.05/2=1.96≈2,則指標(biāo)值在監(jiān)控時(shí)刻的波動(dòng)范圍為[f^(x)-2σ;f^(x)+2σ]若選置信度為 1-α=97%,則根據(jù) z0.03/2≈3,波動(dòng)范圍為[f^(x)-3σ;f^(x)+3σ].
本實(shí)驗(yàn)采用CPU負(fù)荷這一常用的性能指標(biāo)來(lái)模擬監(jiān)控實(shí)驗(yàn),數(shù)據(jù)來(lái)源為某電信網(wǎng)絡(luò)服務(wù)器的監(jiān)控記錄,采樣周期為3d,從2016年3月31日至4月2日,共288個(gè)采樣點(diǎn).通過(guò)觀察監(jiān)控記錄發(fā)現(xiàn)存在15個(gè)異常點(diǎn),而其中12個(gè)異常點(diǎn)為連續(xù)集中型,其余3個(gè)異常點(diǎn)為隨機(jī)型.前者的異常狀態(tài)表現(xiàn)為CPU負(fù)荷過(guò)低,說(shuō)明某一服務(wù)可能遭遇了意外中斷,并在較長(zhǎng)時(shí)間內(nèi)保持該中斷狀態(tài);3個(gè)隨機(jī)異常點(diǎn),表現(xiàn)為CPU負(fù)荷突變,短時(shí)間內(nèi)發(fā)生了大幅波動(dòng),說(shuō)明某服務(wù)出現(xiàn)了暫時(shí)的故障和停頓.就該樣本集分別采用基于連續(xù)時(shí)間序列和同點(diǎn)時(shí)間序列的SVM算法進(jìn)行預(yù)測(cè),并計(jì)算相關(guān)的基線(xiàn)和閾值,設(shè)容忍度為0,置信度為95%.
通過(guò)分析可以看出,連續(xù)時(shí)間序列模式下,SVM檢測(cè)機(jī)制的敏感度過(guò)高,對(duì)實(shí)際出現(xiàn)的異常點(diǎn)均能做出反應(yīng),但誤報(bào)警的情況很難避免,此外對(duì)于集中異常點(diǎn)的狀況表現(xiàn)不佳,容易出現(xiàn)漏報(bào).基于同點(diǎn)時(shí)間序列模式的SVM檢測(cè)機(jī)制可以很好地反應(yīng)電信網(wǎng)絡(luò)中出現(xiàn)的異常情況,特別是針對(duì)異常點(diǎn)集中出現(xiàn)的狀況,該機(jī)制下的檢測(cè)識(shí)別率遠(yuǎn)比其他算法可靠,表現(xiàn)出了良好的持續(xù)監(jiān)控能力.
隨著廣大用戶(hù)對(duì)網(wǎng)絡(luò)服務(wù)水平的需求不斷提高,電信運(yùn)營(yíng)維護(hù)的模式也必然要發(fā)生轉(zhuǎn)變,從以往的被動(dòng)統(tǒng)計(jì)方式逐步地朝著主動(dòng)監(jiān)控方向發(fā)展.本文提出了基于SVM優(yōu)化機(jī)制的電信網(wǎng)絡(luò)性能檢測(cè)機(jī)制,并在此基礎(chǔ)上設(shè)計(jì)了計(jì)算基線(xiàn)和閾值的方法,最后基于連續(xù)時(shí)間序列和同點(diǎn)時(shí)間序列分別建立了被控對(duì)象模型,通過(guò)仿真實(shí)驗(yàn)證實(shí)了同點(diǎn)時(shí)間序列下的SVM檢測(cè)機(jī)制能夠有效地對(duì)電信網(wǎng)絡(luò)運(yùn)營(yíng)過(guò)程中出現(xiàn)的異常點(diǎn)進(jìn)行實(shí)時(shí)化的監(jiān)測(cè).相信隨著智能算法領(lǐng)域的不斷發(fā)展,會(huì)出現(xiàn)更多的優(yōu)秀算法和機(jī)制,進(jìn)一步提高電信網(wǎng)絡(luò)的性能監(jiān)測(cè)水平,為用戶(hù)提供更高質(zhì)量的網(wǎng)絡(luò)通信服務(wù).
〔1〕于艷華,宋俊德.一種基于異常點(diǎn)檢測(cè)的電信網(wǎng)絡(luò)性能監(jiān)控策略[J].電子與信息學(xué)報(bào),2009,31(9):2220-2224.
〔2〕武優(yōu)西,郭磊,柴欣,等.基于優(yōu)化算法的核函數(shù)參數(shù)選擇的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,27(1):137-140.
〔3〕吳景龍,楊淑霞,劉承水.基于遺傳算法優(yōu)化參數(shù)的支持向量機(jī)短期負(fù)荷預(yù)測(cè)方法[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2009,40(1):180-184.
〔4〕Castro L N,Timmis J.An Artificial Immune Network for Multimodal Function Optimization[C]//Proceedings of IEEE Congress on Evolutionary Computation(CEC'02).Hawaii,U·S·A:2015:674-699.
〔5〕馮旭哲,羅飛路,楊俊.基于小波支持向量機(jī)的數(shù)字通信信號(hào)調(diào)制識(shí)別[J].電子測(cè)量與儀器學(xué)報(bào),2013,23(3):87-92.
〔6〕Erman J,Arlitt M,Mahanti A.Traffic classification using clustering algorithms[C].Proceedings of the 2011 SIGCOMM Workshop on Mining Network Data,Pisa,Italy,2013:281-286.
〔7〕Shi Zhi-wei and Han Min.Support vector echo-state machine for chaotic time-seriesprediction [J].IEEE Transactions on Neural Networks,2014,18(2):359-372.
〔8〕朱樹(shù)先,張仁杰.支持向量機(jī)核函數(shù)選擇對(duì)面部特征識(shí)別的作用[J].光學(xué)技術(shù),2013,34(6):902-904.
〔9〕馬維晏,李忠誠(chéng).基于流的網(wǎng)絡(luò)流量特征分析[J].小型微型計(jì)算機(jī)系統(tǒng),2009,9(10):54-58.
〔10〕Dias D M,Kish W,Mukherjee R,etal.A Scalable and Highly Available Web Servers.Proc.of 41st IEEE Computer Society Intl.Conf.(COMPCON 2014),2015-02:85-92.
〔11〕Sebastian E,Gregg R,Srikanth K.Leveraging user-session data to support web application testing[J].IEEE Transactions on Soft-ware Engineering,2005,31(3):66-67.
TN929.5
A
1673-260X(2017)11-0046-02
2017-08-11
2016年度安徽省級(jí)特色(品牌)專(zhuān)業(yè)課題(2016tszy018);2016年度安徽省大規(guī)模在線(xiàn)開(kāi)放課程(MOOC)示范項(xiàng)目(2016mooc072)
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2017年21期