魏東紅,王其才,商 超
(中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050000)
任何一項(xiàng)新技術(shù)的發(fā)展都離不開需求的推動(dòng),傳統(tǒng)的運(yùn)維過程中,對(duì)網(wǎng)絡(luò)業(yè)務(wù)的開通需要運(yùn)維人員手動(dòng)進(jìn)行設(shè)備的配置。由于設(shè)備本身的多樣性以及設(shè)備配置參數(shù)、標(biāo)準(zhǔn)不統(tǒng)一,人工配置的方式耗時(shí)長(zhǎng)、命令復(fù)雜且容易出錯(cuò),而網(wǎng)絡(luò)業(yè)務(wù)更換往往會(huì)導(dǎo)致網(wǎng)絡(luò)存在不穩(wěn)定的狀況,使正常的網(wǎng)絡(luò)業(yè)務(wù)運(yùn)行出現(xiàn)問題,經(jīng)常出現(xiàn)回退至先前版本的情況。當(dāng)網(wǎng)絡(luò)發(fā)生故障時(shí),相關(guān)聯(lián)的告警激增,由于缺乏有效的故障診斷工具和方法,運(yùn)維人員往往需要通過經(jīng)驗(yàn)判斷故障的根源,然后進(jìn)行逐項(xiàng)排查確認(rèn),過程煩瑣且需要耗費(fèi)大量的精力,導(dǎo)致工作效率低下,運(yùn)維成本增加。因此,如何高效地進(jìn)行網(wǎng)絡(luò)業(yè)務(wù)配置和故障診斷是運(yùn)維領(lǐng)域亟須解決的關(guān)鍵問題。
自動(dòng)化運(yùn)維將運(yùn)維流程自動(dòng)化、智能化,盡可能降低人工成本,在實(shí)現(xiàn)方式上可依托以下技術(shù)手段。
SDN將對(duì)設(shè)備的控制和設(shè)備本身相分離,采用集中式的控制器管理整個(gè)網(wǎng)絡(luò),其通過流表對(duì)網(wǎng)絡(luò)的控制,實(shí)現(xiàn)對(duì)流量、轉(zhuǎn)發(fā)的細(xì)粒度控制,使網(wǎng)絡(luò)的調(diào)整更加靈活和高效。SDN對(duì)網(wǎng)絡(luò)的全局視圖和優(yōu)化也有著重要作用。另外,基于SDN可實(shí)現(xiàn)網(wǎng)絡(luò)業(yè)務(wù)路徑的自動(dòng)切換,當(dāng)發(fā)生故障時(shí),保障網(wǎng)絡(luò)業(yè)務(wù)運(yùn)行不受影響[1]。
NFV是未來網(wǎng)絡(luò)的發(fā)展方向,以軟件的形態(tài)定義物理的實(shí)體,在底層計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備的基礎(chǔ)上提供定制的虛擬網(wǎng)絡(luò)功能,通過網(wǎng)絡(luò)功能虛擬化管理和編排(MANO)對(duì)虛擬化功能進(jìn)行編排,對(duì)外提供統(tǒng)一的接口與SDN有著天然的互補(bǔ)特性。SDN和MANO相結(jié)合可以通過軟件的形式控制虛擬化網(wǎng)絡(luò)功能(VNF)之間的流量轉(zhuǎn)發(fā),高效地進(jìn)行流量調(diào)度[2]。
故障的準(zhǔn)確性、實(shí)時(shí)性對(duì)故障的診斷有著十分重要的作用,在SDN技術(shù)中,通過網(wǎng)絡(luò)編排的方式,控制器能夠獲取網(wǎng)絡(luò)的綜合視圖,降低故障發(fā)現(xiàn)和診斷的難度。同時(shí)可通過故障關(guān)聯(lián)分析,提取故障的特征,通過粗糙集理論獲取特征集構(gòu)成訓(xùn)練樣本,并將訓(xùn)練結(jié)果應(yīng)用于故障診斷,提高故障診斷的準(zhǔn)確率[3]。
在設(shè)備層面,通過對(duì)設(shè)備的監(jiān)測(cè),建立設(shè)備性能惡化與故障的決策模型,通過支持向量機(jī)、決策樹、神經(jīng)網(wǎng)絡(luò)等模型進(jìn)行故障決策。在網(wǎng)絡(luò)層面,對(duì)故障診斷的關(guān)聯(lián)數(shù)據(jù)和歷史故障進(jìn)行分析,挖掘故障關(guān)聯(lián)衍生規(guī)則,建立故障預(yù)測(cè)模型。當(dāng)判定故障條件滿足時(shí),對(duì)網(wǎng)絡(luò)預(yù)先告警并提示網(wǎng)絡(luò)優(yōu)化改進(jìn)。
自動(dòng)化運(yùn)維系統(tǒng)以提高運(yùn)維效率、減輕運(yùn)維人員負(fù)擔(dān)為目標(biāo),通過對(duì)網(wǎng)絡(luò)業(yè)務(wù)流的控制以及故障智能診斷、故障預(yù)測(cè)等技術(shù),降低故障發(fā)生概率以及故障處置時(shí)間,提高網(wǎng)絡(luò)運(yùn)行的可靠性。
在本系統(tǒng)設(shè)計(jì)中,將SDN與NFV相結(jié)合,共同向上層應(yīng)用提供服務(wù),NFV在標(biāo)準(zhǔn)硬件設(shè)備的基礎(chǔ)上虛擬網(wǎng)絡(luò)、轉(zhuǎn)發(fā)設(shè)備。對(duì)SDN層提供編排底層基礎(chǔ),運(yùn)維人員通過SDN控制器控制虛擬網(wǎng)絡(luò)功能的生成和網(wǎng)絡(luò)業(yè)務(wù)流的轉(zhuǎn)發(fā),并在此基礎(chǔ)之上獲取全網(wǎng)網(wǎng)絡(luò)視圖。網(wǎng)絡(luò)監(jiān)控通過各類成熟的監(jiān)視手段,全面地監(jiān)視機(jī)房環(huán)境、設(shè)備、流量和網(wǎng)絡(luò)通聯(lián),方便運(yùn)維人員掌握網(wǎng)絡(luò)容量、資源利用情況及各類告警故障。系統(tǒng)運(yùn)行過程中,運(yùn)維人員可通過經(jīng)驗(yàn)庫(kù)增加知識(shí)積累,故障預(yù)測(cè)功能對(duì)可能發(fā)生的故障進(jìn)行預(yù)警提示。發(fā)生故障時(shí),故障診斷功能及時(shí)、快速定位故障根源,輔助決策功能能夠按既定規(guī)則提示故障解決方案,供運(yùn)維人員選擇。系統(tǒng)數(shù)據(jù)交互如圖1所示。
圖1 自動(dòng)化運(yùn)維系統(tǒng)數(shù)據(jù)交互
系統(tǒng)數(shù)據(jù)是運(yùn)行的基礎(chǔ),網(wǎng)絡(luò)數(shù)據(jù)的采集貫穿運(yùn)維的全流程,目前此方面的技術(shù)相對(duì)比較成熟,能夠通過設(shè)備支持的協(xié)議如SNMP、IPFIX、SFlow、軟硬探針、設(shè)備日志、動(dòng)環(huán)系統(tǒng)接口等進(jìn)行數(shù)據(jù)采集。
狀態(tài)監(jiān)控是運(yùn)維的核心功能,也是一系列運(yùn)維功能的基礎(chǔ),沒有準(zhǔn)確的狀態(tài)顯示,就無法判斷當(dāng)前的網(wǎng)絡(luò)形勢(shì)。網(wǎng)絡(luò)監(jiān)控的主要指標(biāo)有:設(shè)備的運(yùn)行狀態(tài)、鏈路狀態(tài)、網(wǎng)絡(luò)設(shè)備的端口流量、設(shè)備的CPU、內(nèi)存、磁盤空間占用率、設(shè)備的故障、鏈路帶寬利用率等,對(duì)網(wǎng)絡(luò)業(yè)務(wù)的監(jiān)控十分重要。對(duì)于通過SDN配置的網(wǎng)絡(luò)業(yè)務(wù),可實(shí)時(shí)監(jiān)視網(wǎng)絡(luò)業(yè)務(wù)流,在具備動(dòng)環(huán)系統(tǒng)的情況下采集并展示機(jī)房溫濕度、機(jī)柜溫度、煙霧等指標(biāo),輔以各類趨勢(shì)變化曲線圖,在實(shí)時(shí)監(jiān)視的過程中評(píng)估網(wǎng)絡(luò)的穩(wěn)定性。
通過在系統(tǒng)中配置巡檢周期,系統(tǒng)后臺(tái)按時(shí)調(diào)度實(shí)現(xiàn)自動(dòng)巡檢。巡檢前,運(yùn)維人員配置巡檢項(xiàng)、設(shè)計(jì)巡檢單、告警閾值等信息,并與系統(tǒng)提供的監(jiān)視內(nèi)容相關(guān)聯(lián),系統(tǒng)進(jìn)行巡檢時(shí)將數(shù)據(jù)填入巡檢單,判斷是否到達(dá)告警閾值并對(duì)超閾值情況進(jìn)行告警。根據(jù)用戶制定的巡檢數(shù)據(jù)分析規(guī)則處理數(shù)據(jù)并對(duì)巡檢內(nèi)容在一定周期內(nèi)橫向?qū)Ρ确治?呈現(xiàn)數(shù)據(jù)指標(biāo)變化趨勢(shì),供運(yùn)維人員查看和參考。
網(wǎng)絡(luò)業(yè)務(wù)隨著時(shí)代的進(jìn)步,為方便人們的生活,承載的網(wǎng)絡(luò)業(yè)務(wù)也在不斷調(diào)整,通過SDN/NFV技術(shù)將線下的操作轉(zhuǎn)變?yōu)榫€上的配置,通過網(wǎng)絡(luò)編排器配置網(wǎng)絡(luò)業(yè)務(wù)參數(shù)、調(diào)整網(wǎng)絡(luò)業(yè)務(wù)占用資源直接控制網(wǎng)絡(luò),按照其特性分配和擴(kuò)容各類不同的網(wǎng)絡(luò)業(yè)務(wù)資源,提高網(wǎng)絡(luò)資源的使用效率。
NFV技術(shù)對(duì)底層硬件設(shè)備做適配處理,對(duì)上層SDN屏蔽了底層硬件的差異,提供統(tǒng)一的編排接口。SDN對(duì)虛擬的網(wǎng)絡(luò)設(shè)備功能進(jìn)行流表的編排控制,降低了SDN的難度,提升了編排的效率。對(duì)于通過SDN建立的網(wǎng)絡(luò)業(yè)務(wù)路徑流表,在網(wǎng)絡(luò)視圖中按需進(jìn)行圖形化展示。
在網(wǎng)絡(luò)業(yè)務(wù)流表編排的過程中,可設(shè)置主方案和備用方案。當(dāng)主方案由于網(wǎng)絡(luò)變化或人為原因無法實(shí)施時(shí),根據(jù)當(dāng)前網(wǎng)絡(luò)資源配置自動(dòng)切換至合適的備用方案,這個(gè)過程保障了網(wǎng)絡(luò)業(yè)務(wù)的持續(xù)性和穩(wěn)定性。
3.6.1 工具協(xié)助診斷
在故障發(fā)生時(shí),可借助外部的工具手段進(jìn)行故障的初步診斷,如測(cè)試終端通過與測(cè)試設(shè)備互聯(lián),調(diào)用測(cè)試設(shè)備接口對(duì)網(wǎng)絡(luò)和設(shè)備進(jìn)行自動(dòng)化測(cè)試。通過網(wǎng)絡(luò)故障測(cè)試工具測(cè)試,利用測(cè)試結(jié)果進(jìn)行網(wǎng)絡(luò)和設(shè)備故障的初步判斷和定位。
3.6.2 智能診斷
基于大數(shù)據(jù)平臺(tái)的故障診斷,在網(wǎng)絡(luò)運(yùn)行時(shí)間足夠長(zhǎng)、數(shù)據(jù)量足夠多的情況下,能夠在大多數(shù)情況下準(zhǔn)確推斷故障的源頭。在系統(tǒng)運(yùn)行前期,通過歷史故障數(shù)據(jù)建立故障模型,提取典型的特征向量,通過機(jī)器學(xué)習(xí)算法優(yōu)化故障特征關(guān)聯(lián)規(guī)則,增加判斷的準(zhǔn)確性。系統(tǒng)運(yùn)行中期,通過診斷運(yùn)維中的實(shí)際故障,對(duì)于不準(zhǔn)確的情況,將診斷結(jié)果和處理作為輸入,微調(diào)修正故障診斷模型,不斷提高診斷的準(zhǔn)確率。
對(duì)通過系統(tǒng)操作直接能夠解決的故障事件,系統(tǒng)自動(dòng)記錄運(yùn)維人員處理故障的相關(guān)操作、配置參數(shù),跟蹤故障發(fā)生至消除的全周期,并將處理過程轉(zhuǎn)化為經(jīng)驗(yàn)存儲(chǔ),以便運(yùn)維人員查詢。
在設(shè)備層面,通過采集設(shè)備自身內(nèi)存、CPU負(fù)載、磁盤占用量、設(shè)備級(jí)日志,建立與設(shè)備故障的關(guān)聯(lián)關(guān)系,當(dāng)設(shè)備性能滿足指標(biāo)時(shí),結(jié)合歷史故障數(shù)據(jù)的經(jīng)驗(yàn)規(guī)則預(yù)測(cè)故障的時(shí)間和類型。在網(wǎng)絡(luò)層面,對(duì)復(fù)雜故障利用智能診斷功能的故障關(guān)聯(lián)規(guī)則數(shù)據(jù)、當(dāng)時(shí)的網(wǎng)絡(luò)運(yùn)行情況以及對(duì)歷史故障關(guān)聯(lián)數(shù)據(jù)的挖掘結(jié)果,建立故障的時(shí)序衍生規(guī)則。在運(yùn)行過程中,通過機(jī)器學(xué)習(xí)算法優(yōu)化調(diào)整,結(jié)合故障發(fā)生時(shí)對(duì)網(wǎng)絡(luò)場(chǎng)景綜合判斷,進(jìn)行故障的預(yù)測(cè)。
當(dāng)網(wǎng)絡(luò)需要調(diào)整或發(fā)生故障時(shí),如何進(jìn)行處置十分關(guān)鍵。網(wǎng)絡(luò)調(diào)整需要評(píng)估網(wǎng)絡(luò)調(diào)整的風(fēng)險(xiǎn)和影響,網(wǎng)絡(luò)故障時(shí)需對(duì)故障的解決方案進(jìn)行決策,如何處置決定著故障的處理難度和風(fēng)險(xiǎn)。
3.9.1 網(wǎng)絡(luò)調(diào)整策略推薦
基于網(wǎng)絡(luò)業(yè)務(wù)所需資源、當(dāng)前所占資源、現(xiàn)有網(wǎng)絡(luò)業(yè)務(wù)分布、網(wǎng)絡(luò)業(yè)務(wù)沖突分析檢測(cè)等數(shù)據(jù)進(jìn)行綜合評(píng)判分析,依照資源利用效率高低的排序推薦網(wǎng)絡(luò)業(yè)務(wù)流表配置策略,同時(shí)提示調(diào)整策略的風(fēng)險(xiǎn)點(diǎn)。
3.9.2 故障處置策略推薦
基于以往的故障處置數(shù)據(jù)、當(dāng)前運(yùn)行網(wǎng)絡(luò)的業(yè)務(wù)、設(shè)備當(dāng)前性能等信息,推薦故障對(duì)應(yīng)的處置方式,同時(shí)提示處置步驟。
對(duì)以上兩種情況,運(yùn)維人員可進(jìn)行策略的對(duì)比,按照提示信息處理并選擇最優(yōu)策略,也可自行處置,將處置方式與故障關(guān)聯(lián)。
目前,自動(dòng)化運(yùn)維技術(shù)處于蓬勃發(fā)展的階段,還有諸多待解決的問題,本文將SDN/NFV技術(shù)應(yīng)用于自動(dòng)化運(yùn)維系統(tǒng),并提供了系統(tǒng)的初步設(shè)計(jì)。設(shè)計(jì)中網(wǎng)絡(luò)監(jiān)控是基礎(chǔ),是判斷決策的前提,網(wǎng)絡(luò)業(yè)務(wù)編排和故障診斷預(yù)測(cè)能夠提高運(yùn)維人員的保障效能,決策輔助能夠輔助運(yùn)維人員進(jìn)行網(wǎng)絡(luò)的優(yōu)化調(diào)整。自動(dòng)化運(yùn)維技術(shù)能夠有效提高運(yùn)維工作的效率,有著重要的意義。