滿都拉
(內(nèi)蒙古電力培訓(xùn)中心,內(nèi)蒙古 呼和浩特 010011)
隨著SDN技術(shù)的快速發(fā)展和應(yīng)用范圍的增加,采用SDN構(gòu)建的通信網(wǎng)越來越多。采用SDN技術(shù)可以實現(xiàn)數(shù)據(jù)控制和數(shù)據(jù)轉(zhuǎn)發(fā)功能的分離,并通過可編程技術(shù)極大地提升網(wǎng)絡(luò)建設(shè)和運營的效率[1]。SDN技術(shù)給網(wǎng)絡(luò)帶來資源利用率提升的同時,也給網(wǎng)絡(luò)故障管理帶來了新的挑戰(zhàn)[2]。為解決故障決策算法性能低的問題,Xia等[3]提出采用層次分析法提高網(wǎng)絡(luò)決策的準(zhǔn)確率。Xu等[4]提出采用K均值近鄰算法對網(wǎng)絡(luò)流量進行監(jiān)測,為維護人員提供決策依據(jù)。Gavrilut等[5]提出采用音視頻流和時間敏感流的聯(lián)合路由策略,提升網(wǎng)絡(luò)的服務(wù)質(zhì)量。Novaes等[6]提出采用長短期記憶對網(wǎng)絡(luò)流量進行預(yù)判,提高異常事件的預(yù)測準(zhǔn)確率。Novaes等[7]提出基于生成對抗網(wǎng)絡(luò)的網(wǎng)絡(luò)流量檢測機制,提升算法對網(wǎng)絡(luò)環(huán)境的適應(yīng)性。Borgiani等[8]提出采用網(wǎng)絡(luò)劃分的策略,解決大規(guī)模場景中終端監(jiān)測效率低的問題。
通過對已有研究分析可知,為提升網(wǎng)絡(luò)服務(wù)質(zhì)量,網(wǎng)絡(luò)故障管理領(lǐng)域已經(jīng)取得較多的研究成果。但是,隨著網(wǎng)絡(luò)攻擊數(shù)量和類型的增加,網(wǎng)絡(luò)故障管理領(lǐng)域存在的問題也逐漸增加。為解決網(wǎng)絡(luò)攻擊導(dǎo)致故障決策機制的安全性低、效率低的問題,本文提出了基于網(wǎng)絡(luò)特征的安全高效通信網(wǎng)故障決策機制。在性能分析環(huán)節(jié),驗證了本文提出的故障決策機制在故障管理決策機制的安全和效率兩個維度上具有較好的性能。
為了保證提出的故障決策機制符合網(wǎng)絡(luò)環(huán)境和適應(yīng)網(wǎng)絡(luò)運維需求,本文首先對SDN環(huán)境下的故障管理平臺進行構(gòu)建。根據(jù)網(wǎng)絡(luò)環(huán)境特點,本文構(gòu)建的故障管理平臺架構(gòu)如圖1所示。該架構(gòu)包括故障決策平臺、全局控制器、SDN控制器、轉(zhuǎn)發(fā)器4種類型的設(shè)備。其中,故障決策平臺的設(shè)計是本文的主要工作。因為故障決策平臺需要與全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型的設(shè)備進行對接,所以需要滿足特定的功能需要。詳細(xì)的功能需求在決策機制的設(shè)計過程中進行描述。故障決策平臺需要實現(xiàn)的功能包括故障預(yù)測、故障定位、故障恢復(fù)。首先,在故障預(yù)測方面,故障決策平臺通過對網(wǎng)絡(luò)運營數(shù)據(jù)的分析,實現(xiàn)故障預(yù)測。其次,在故障定位方面,故障決策平臺通過對告警數(shù)據(jù)分析,實現(xiàn)故障定位。最后,在故障恢復(fù)方面,故障決策平臺根據(jù)故障預(yù)測和故障定位結(jié)果,實現(xiàn)故障恢復(fù)。因為網(wǎng)絡(luò)具有分布式架構(gòu)的特點,故障決策使用算法的模型需要多方協(xié)作。
圖1 故障管理平臺架構(gòu)
基于故障管理平臺的架構(gòu),以保障故障決策機制的安全性和高效率為目標(biāo),本文設(shè)計了通信網(wǎng)故障決策機制,具體流程如圖2所示,主要包括創(chuàng)建安全的數(shù)據(jù)通信通道、監(jiān)測告警數(shù)據(jù)、監(jiān)測異常數(shù)據(jù)、啟動故障定位和故障預(yù)測機制、啟動故障恢復(fù)機制5個步驟。下面對各個步驟進行詳細(xì)描述。
圖2 故障決策機制的流程
故障管理是決定網(wǎng)絡(luò)服務(wù)質(zhì)量的關(guān)鍵工作,因此故障管理中涉及的數(shù)據(jù)安全是故障管理工作的前提和保障。為防止故障管理數(shù)據(jù)被篡改或偽造,本文采用安全通信密鑰的方式,為數(shù)據(jù)通信雙方創(chuàng)建安全的通信通道。
從故障管理平臺架構(gòu)可知,故障管理相關(guān)的重要管理組件包括故障決策平臺、全局控制器、SDN控制器3種類型設(shè)備。SDN控制可以獲得自身管轄域內(nèi)轉(zhuǎn)發(fā)器的設(shè)備特征;全局控制器可以對所有的SDN控制器運行數(shù)據(jù)進行監(jiān)測;故障決策平臺可以對全局控制器的運行數(shù)據(jù)進行監(jiān)測。為滿足故障管理對數(shù)據(jù)的安全要求,本文設(shè)計的安全數(shù)據(jù)通信密鑰包括故障決策平臺與全局控制器的通信密鑰、SDN控制器與故障決策平臺的通信密鑰。通信密鑰的創(chuàng)建和使用屬于成熟技術(shù),可以使用已有技術(shù)進行創(chuàng)建。由于SDN控制器與故障決策平臺的通信需要通過全局控制器進行轉(zhuǎn)發(fā),所以轉(zhuǎn)發(fā)過程采用VPN技術(shù)或隧道技術(shù)。
監(jiān)測告警數(shù)據(jù)包括全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型設(shè)備的告警數(shù)據(jù)。全局控制器和SDN控制器的告警數(shù)據(jù)由故障決策平臺進行監(jiān)測,數(shù)據(jù)通信使用安全通信密鑰加密。轉(zhuǎn)發(fā)器設(shè)備的告警數(shù)據(jù)由所在域的SDN控制器進行監(jiān)測。當(dāng)發(fā)現(xiàn)轉(zhuǎn)發(fā)器設(shè)備出現(xiàn)告警時,所在域的SDN控制器將告警數(shù)據(jù)提交給故障決策平臺進行分析。通過上述分析,故障決策平臺可以得到全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型設(shè)備的告警數(shù)據(jù),從而為故障定位提供安全和全面的運維數(shù)據(jù),為故障管理決策提供數(shù)據(jù)支撐。
監(jiān)測異常數(shù)據(jù)的過程與監(jiān)測告警數(shù)據(jù)的過程類似,主要區(qū)別是設(shè)備的異常數(shù)據(jù)獲取方式與告警數(shù)據(jù)獲取方式不同。告警數(shù)據(jù)可以通過網(wǎng)絡(luò)運維經(jīng)驗和設(shè)備數(shù)據(jù)轉(zhuǎn)發(fā)過程的閾值設(shè)置獲得,設(shè)備的異常數(shù)據(jù)需要根據(jù)不同的場景進行分析。為提升設(shè)備異常數(shù)據(jù)的利用價值,本文在下一節(jié)提出基于TOPSIS的算法對異常數(shù)據(jù)進行分析。
故障定位機制的主要功能是根據(jù)告警數(shù)據(jù)的關(guān)聯(lián)性分析,挖掘出產(chǎn)生告警的根本原因,從而確定發(fā)生故障的網(wǎng)絡(luò)設(shè)備或網(wǎng)絡(luò)鏈路位置。故障預(yù)測機制的主要功能是根據(jù)異常數(shù)據(jù)的深入分析,確定可能產(chǎn)生故障的設(shè)備或鏈路的位置。相對于故障定位機制,故障預(yù)測機制的難度較大。已有故障定位和故障預(yù)測研究成果較多,當(dāng)前的發(fā)展趨勢是基于人工智能技術(shù)對問題進行建模,其難點主要是相關(guān)數(shù)據(jù)收集比較困難。本文的故障決策機制架構(gòu)可以為人工智能算法提供安全可靠的網(wǎng)絡(luò)運維數(shù)據(jù),從而提升故障定位和故障預(yù)測機制的性能。
采用故障定位機制和故障預(yù)測機制可以定位疑似故障和潛在故障設(shè)備、鏈路資源。在故障決策平臺獲得這些信息后,可以通過故障恢復(fù)機制對相關(guān)設(shè)備進行恢復(fù),從而減小或避免故障設(shè)備對網(wǎng)絡(luò)性能的影響。為提升網(wǎng)絡(luò)服務(wù)質(zhì)量,通常將故障預(yù)測機制與資源備份機制進行融合,避免或降低潛在故障的發(fā)生對網(wǎng)絡(luò)服務(wù)質(zhì)量的負(fù)面影響。
從監(jiān)測異常數(shù)據(jù)步驟分析可知,異常數(shù)據(jù)的準(zhǔn)確性和全面性決定了故障預(yù)測結(jié)果的準(zhǔn)確性和及時性。為了提高異常數(shù)據(jù)監(jiān)測結(jié)果的性能,本節(jié)提出基于TOPSIS的異常數(shù)據(jù)分析方法。
異常數(shù)據(jù)需要從全局控制器、SDN控制器、轉(zhuǎn)發(fā)器3種類型設(shè)備獲取,在獲取異常數(shù)據(jù)時,需要解決獲取哪些類型的數(shù)據(jù)、什么時候獲取數(shù)據(jù)兩個關(guān)鍵問題。對于獲取哪些類型數(shù)據(jù)的問題,主要考慮數(shù)據(jù)是否可以反映網(wǎng)絡(luò)異常事件的發(fā)生;對于什么時候獲取數(shù)據(jù)的問題,主要考慮獲取數(shù)據(jù)的觸發(fā)條件,避免過多或者過少的獲取數(shù)據(jù)事件的發(fā)生;在獲取數(shù)據(jù)類型方面,基于網(wǎng)絡(luò)運維經(jīng)驗和故障預(yù)測機制的分析,本文以網(wǎng)絡(luò)節(jié)點為研究對象,將網(wǎng)絡(luò)節(jié)點的抗攻擊能力、轉(zhuǎn)發(fā)數(shù)據(jù)延遲、異步消息數(shù)量、異步消息間隔4個指標(biāo)作為采集數(shù)據(jù)的類型。
通過上述分析可知,網(wǎng)絡(luò)節(jié)點的抗攻擊能力、轉(zhuǎn)發(fā)數(shù)據(jù)延遲、異步消息數(shù)量、異步消息間隔4個指標(biāo)對網(wǎng)絡(luò)節(jié)點的異常識別都具有較好的參考價值。隨著運維經(jīng)驗的積累,能夠反映網(wǎng)絡(luò)節(jié)點異常的指標(biāo)數(shù)量和類型會逐漸增加。為了充分利用這些分析指標(biāo),需要采用科學(xué)有效的指標(biāo)分析機制,才能根據(jù)指標(biāo)的重要性對網(wǎng)絡(luò)節(jié)點的異常情況進行分析。
首先,將網(wǎng)絡(luò)節(jié)點和其包含的相關(guān)屬性構(gòu)建為屬性矩陣如公式(1)所示。其中,每個元素aij表示第i個網(wǎng)絡(luò)節(jié)點的第j個屬性的取值。對于每個網(wǎng)絡(luò)節(jié)點,本文包含4個屬性,所以j的取值為4個。
(1)
其次,由于每個屬性值的取值范圍不同、屬性表示的含義不同,不能對每個屬性值進行公平的分析。所以,需要使用公式(2)的方法,對每個屬性值進行歸一化處理,從而便于網(wǎng)絡(luò)節(jié)點的屬性值的重要性分析。
(2)
最后,根據(jù)網(wǎng)絡(luò)運維經(jīng)驗,給每個屬性值設(shè)置一個權(quán)重wl,可以對屬性值進行有效分析,如公式(3)所示。此時,每個節(jié)點是屬性取值之和越大,網(wǎng)絡(luò)節(jié)點發(fā)生異常的概率越大。但是,具體哪些節(jié)點屬于異常節(jié)點,缺少一個好的評價標(biāo)準(zhǔn)。通過對已有研究成果分析可知,TOPSIS方法是評價多指標(biāo)問題的常用方法,而且該方法分析的指標(biāo)維度較多。所以,本文采用TOPSIS方法對指標(biāo)的重要性進行分析。
(3)
TOPSIS方法通過公式(4)和公式(5)計算正理想點A+和負(fù)理想點A-的取值,并根據(jù)網(wǎng)絡(luò)節(jié)點屬性值與理想點的距離來判斷節(jié)點的異常情況。網(wǎng)絡(luò)節(jié)點屬性值與理想點的距離可以使用公式(6)進行計算。當(dāng)Ci的取值越大時,表明當(dāng)前網(wǎng)絡(luò)節(jié)點發(fā)生異常的可能性越高,需要快速反饋該節(jié)點的異常數(shù)據(jù)。
(4)
(5)
(6)
本文提出的基于網(wǎng)絡(luò)特征的安全高效通信網(wǎng)故障決策機制,主要解決網(wǎng)絡(luò)攻擊導(dǎo)致故障決策機制的安全性低、效率低的問題。所以,在性能分析時,從故障管理決策機制的安全和效率兩個維度進行分析。
在故障管理決策機制的安全性分析方面,從影響決策安全的因素進行分析。通過對已有研究分析可知,影響決策機制安全性的因素主要包括節(jié)點數(shù)據(jù)的安全性、數(shù)據(jù)通信的安全性。在節(jié)點數(shù)據(jù)的安全性方面,從異常數(shù)據(jù)、告警數(shù)據(jù)兩個維度進行分析,本文的異常數(shù)據(jù)采用TOPSIS方法進行評價和觸發(fā),具有較好的科學(xué)性和公平性,能夠保證數(shù)據(jù)的安全性;告警數(shù)據(jù)采用通用的網(wǎng)絡(luò)管理觸發(fā)機制,已經(jīng)過多年的實踐檢驗,可以保障告警數(shù)據(jù)的安全性。在數(shù)據(jù)通信的安全性方面,本文故障決策平臺、全局控制器、SDN控制器3種類型設(shè)備在傳輸異常數(shù)據(jù)和告警數(shù)據(jù)時,采用通信密鑰進行加密,可以有效解決通信鏈路攻擊帶來的數(shù)據(jù)篡改問題。
在故障管理決策機制的效率分析方面,主要從各個網(wǎng)絡(luò)節(jié)點效率、整體流程效率兩個維度分析。在各個網(wǎng)絡(luò)節(jié)點效率方面,本文的網(wǎng)絡(luò)節(jié)點包括故障決策平臺、全局控制器、SDN控制器、轉(zhuǎn)發(fā)器4種類型的設(shè)備。在故障決策平臺方面,作為數(shù)據(jù)匯聚和故障分析的主要設(shè)備,可以專注于故障管理的特長,不需要關(guān)心網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)采集過程。所以,故障決策平臺效率較高。對于全局控制器和SDN控制器,采用主從結(jié)構(gòu),可以顯著降低單點控制器導(dǎo)致的擁塞問題和單點故障問題,從而提升網(wǎng)絡(luò)節(jié)點控制的效率。對于轉(zhuǎn)發(fā)器,采用分域管理策略,每個轉(zhuǎn)發(fā)器可以時刻與其所屬的SDN控制器進行交互,顯著提升轉(zhuǎn)發(fā)器和域內(nèi)控制器的執(zhí)行效率。在機制整體流程效率分析方面,本文將故障預(yù)測、故障定位、故障恢復(fù)3個故障管理功能融合到一個故障管理決策平臺。該平臺可以充分共享告警數(shù)據(jù)、異常數(shù)據(jù)。這種整體流程設(shè)計有效解決了傳統(tǒng)機制中將故障預(yù)測、故障定位、故障恢復(fù)作為3個獨立系統(tǒng)進行設(shè)計所帶來的效率低下的問題。
綜上所述,本文的故障管理決策機制在故障管理決策機制的安全和效率兩個維度方面,有效解決了傳統(tǒng)故障管理機制存在的安全性低、效率低的問題,具有較好的應(yīng)用價值。
SDN技術(shù)給網(wǎng)絡(luò)帶來資源利用率提升的同時,也給網(wǎng)絡(luò)故障管理帶來了新的挑戰(zhàn)。為解決網(wǎng)絡(luò)攻擊導(dǎo)致故障決策機制的安全性低、效率低的問題,本文提出了基于網(wǎng)絡(luò)特征的安全高效通信網(wǎng)故障決策機制。根據(jù)網(wǎng)絡(luò)環(huán)境特點,本文構(gòu)建了故障管理平臺,并以保障故障決策機制的安全性和高效率為目標(biāo),設(shè)計了通信網(wǎng)故障決策機制。在性能分析環(huán)節(jié),驗證了本文提出的故障決策機制在故障管理決策機制的安全和效率方面具有較好的性能。在性能分析環(huán)節(jié)可知,故障決策機制的優(yōu)劣除了較好的決策平臺架構(gòu),還需要在故障定位、故障預(yù)測、故障恢復(fù)方面具有較好的算法。下一步工作中,將對已有的故障定位、故障預(yù)測、故障恢復(fù)算法進行調(diào)研和分析,從而提出不同場景下可選算法的建議和策略,進一步提升故障決策機制的應(yīng)用價值。