王 洋
(中國(guó)移動(dòng)通信集團(tuán)山西有限公司網(wǎng)絡(luò)部網(wǎng)絡(luò)管理中心 太原 030009)
移動(dòng)信息通信網(wǎng)絡(luò)技術(shù)和移動(dòng)信息業(yè)務(wù)種類的專業(yè)化、復(fù)雜化、多樣化、快更新、細(xì)分工等發(fā)展特點(diǎn),要求網(wǎng)絡(luò)監(jiān)控工程師和設(shè)備維護(hù)工程師不僅具有豐富的維護(hù)經(jīng)驗(yàn),而且要具備較強(qiáng)的知識(shí)更新能力。信息通信網(wǎng)絡(luò)中任何設(shè)備/局部區(qū)域的性能降低/故障都將導(dǎo)致整個(gè)網(wǎng)絡(luò)服務(wù)能力受限。傳統(tǒng)網(wǎng)絡(luò)運(yùn)維模式存在重復(fù)承擔(dān)監(jiān)控任務(wù)、流程自動(dòng)化程度和信息智能化程度低、專家知識(shí)與經(jīng)驗(yàn)固化周期慢、網(wǎng)絡(luò)質(zhì)量評(píng)估智能化薄弱等問題[1]。因此,集中故障管理為保證網(wǎng)絡(luò)運(yùn)維可靠、高效運(yùn)行提供了重要的解決手段。
為了實(shí)現(xiàn)全網(wǎng)運(yùn)維的可視可控、可管理,通信網(wǎng)設(shè)備的全量可靠接入成為集中監(jiān)控的基礎(chǔ)資源。由于網(wǎng)絡(luò)拓?fù)渥陨泶嬖趯哟位卣?,各?jí)通信設(shè)備對(duì)于網(wǎng)絡(luò)整體效能的影響程度存在差異,因此,層次化管理為集中化監(jiān)控提供了一種網(wǎng)絡(luò)管理思路。根據(jù)經(jīng)典管理理論中的“管理幅度”(management span)理論,即:由于監(jiān)控工程師經(jīng)驗(yàn)精力、知識(shí)能力的限制,其管理幅度(寬度)有限;工程師數(shù)量配置與基本管理內(nèi)容和管理流程的影響因素有關(guān);基于管理幅度的組織規(guī)劃合理性直接影響層次化管理的效能[2]。
集中監(jiān)控管理幅度規(guī)劃應(yīng)考慮的一些影響因素如下。
·明確目標(biāo)與權(quán)限規(guī)劃:以網(wǎng)絡(luò)管理權(quán)責(zé)為基礎(chǔ),明確各自的目標(biāo)和任務(wù),降低各級(jí)主管在工作中的偏差糾正、職責(zé)劃分等所帶來的資源消耗。
·任務(wù)復(fù)雜度特征:負(fù)責(zé)復(fù)雜度較高的任務(wù)的網(wǎng)絡(luò)主管,建議其管轄的監(jiān)控人員數(shù)量有所降低(管理幅度應(yīng)相對(duì)較?。?/p>
·人員能力特征:對(duì)于具備較高網(wǎng)絡(luò)監(jiān)控、溝通協(xié)調(diào)、網(wǎng)絡(luò)管理能力的人員可逐步增加其工作量,擴(kuò)充其管理幅度,培養(yǎng)自主管理能力(管理幅度應(yīng)相對(duì)較大)。
·任務(wù)工作量特征:當(dāng)監(jiān)控任務(wù)協(xié)調(diào)程度較高(如IT系統(tǒng)功能需求描述與驗(yàn)證測(cè)試、一線維護(hù)人員問題溝通與協(xié)助處理等)時(shí),其管理幅度需減小。
·渠道流程成熟度:當(dāng)集中故障管理中的信息上報(bào)、溝通理解、核查處理、質(zhì)量評(píng)估等流程環(huán)節(jié)已經(jīng)具備規(guī)范化流程和手段時(shí),負(fù)責(zé)該項(xiàng)任務(wù)的故障管理人員的管理幅度可適當(dāng)擴(kuò)展,但仍需保留其原有任務(wù)內(nèi)容,以保證后續(xù)的完善和優(yōu)化。
扁平化的集中監(jiān)控并不是簡(jiǎn)單意義上的中間層網(wǎng)絡(luò)運(yùn)維人員數(shù)量減少,而是將其在網(wǎng)絡(luò)運(yùn)維環(huán)節(jié)中涉及的管理資源進(jìn)行整合,實(shí)現(xiàn)信息傳播加速和信息價(jià)值突顯,對(duì)于信息通信網(wǎng)絡(luò)管理由核心層向末梢層的業(yè)務(wù)全流程服務(wù)質(zhì)量感知,提高全網(wǎng)的管理質(zhì)量和掌控能力。層次化管理實(shí)現(xiàn)了權(quán)責(zé)分明,通過適當(dāng)?shù)墓芾矸群凸芾韺哟蝿澐?,可以提升網(wǎng)絡(luò)管理的運(yùn)營(yíng)效能。扁平化監(jiān)控與層次化管理不僅提高了網(wǎng)絡(luò)質(zhì)量管理的全程性和透明性,而且也增加了網(wǎng)絡(luò)監(jiān)控管理的風(fēng)險(xiǎn)性。通過建立網(wǎng)管系統(tǒng)冗余備份、細(xì)化賬號(hào)權(quán)限差異、規(guī)范賬號(hào)授權(quán)流程、授權(quán)與審核相分離、構(gòu)建網(wǎng)管失效應(yīng)急預(yù)案等系統(tǒng)手段和管理流程,可以進(jìn)一步提升網(wǎng)絡(luò)管理的風(fēng)險(xiǎn)防控能力。
集中故障管理是區(qū)域級(jí)網(wǎng)絡(luò)管理向全局級(jí)網(wǎng)絡(luò)管理的探索實(shí)踐,其涉及的內(nèi)容包含組織結(jié)構(gòu)、權(quán)責(zé)優(yōu)化、告警管理、故障管理、網(wǎng)管系統(tǒng)等多個(gè)方面,而故障流程管理是集中故障管理的核心和各環(huán)節(jié)的紐帶。從網(wǎng)絡(luò)告警、故障管理角度對(duì)集中故障管理進(jìn)行分析討論。告警管理、工單管理分別作為集中故障管理的“信源”和“信宿”,而“故障管理”作為管理流程成為兩端的融合“信道”,如圖1所示。
圖1 集中監(jiān)控模式下的故障管理環(huán)節(jié)
3.1.1 網(wǎng)絡(luò)設(shè)備告警獲取
網(wǎng)絡(luò)設(shè)備告警全量接入是集中故障管理的基礎(chǔ),網(wǎng)絡(luò)設(shè)備告警包括主動(dòng)上報(bào)類告警和被動(dòng)探測(cè)類告警,主動(dòng)上報(bào)類告警是將設(shè)備自身運(yùn)行狀態(tài)過程中產(chǎn)生的狀態(tài)告警(接口、板卡、模塊等)上傳至網(wǎng)管系統(tǒng);被動(dòng)探測(cè)類告警是由網(wǎng)管系統(tǒng)發(fā)送消息至網(wǎng)絡(luò)設(shè)備,根據(jù)網(wǎng)絡(luò)設(shè)備反饋信息判斷設(shè)備是否為正常的運(yùn)行狀態(tài)。
主動(dòng)上報(bào)類告警由設(shè)備廠商進(jìn)行告警含義定義,網(wǎng)絡(luò)設(shè)備廠商首先將網(wǎng)管(如OMC、OMCR等)上傳至綜合網(wǎng)管(如OSS),在此過程中新增設(shè)備特征信息(網(wǎng)元設(shè)備名稱、告警發(fā)生時(shí)間、端口速率等)和告警特征信息(如告警邏輯分類、設(shè)備影響情況、業(yè)務(wù)影響情況等),然后根據(jù)派單規(guī)則進(jìn)行故障工單派發(fā);被動(dòng)探測(cè)類告警通過告警標(biāo)準(zhǔn)化(設(shè)備特征信息)進(jìn)行規(guī)范化處理,后續(xù)流程與主動(dòng)上報(bào)類告警相同。
由于網(wǎng)管系統(tǒng)字段龐雜且數(shù)據(jù)量巨大,設(shè)備告警字段信息傳送與網(wǎng)管系統(tǒng)告警字段均預(yù)設(shè)解析協(xié)議,通常會(huì)對(duì)字段長(zhǎng)度進(jìn)行長(zhǎng)度限制,為了防止字段信息異常導(dǎo)致垃圾數(shù)據(jù)積累或者解析錯(cuò)誤,網(wǎng)管字段信息建議采用自動(dòng)匹配或者基于文本挖掘技術(shù)的關(guān)鍵字異常檢測(cè)預(yù)警;通信設(shè)備告警時(shí)間通常采用自身時(shí)鐘(設(shè)備首次配置設(shè)定時(shí)間,后續(xù)由含有晶振時(shí)鐘的板卡推算時(shí)間),當(dāng)自身時(shí)鐘出現(xiàn)異常時(shí)告警發(fā)生時(shí)間上傳將出現(xiàn)錯(cuò)誤,進(jìn)而導(dǎo)致工單派發(fā)異常,因此建議接入時(shí)間與全網(wǎng)設(shè)備時(shí)鐘規(guī)范同步;性能告警(如語(yǔ)音全程呼叫成功率、網(wǎng)絡(luò)分組丟失率等)作為反映網(wǎng)絡(luò)客戶服務(wù)質(zhì)量和客戶網(wǎng)絡(luò)感知的重要手段,必將逐步受到重視,性能告警的動(dòng)態(tài)閾值科學(xué)化、全局性、系統(tǒng)性設(shè)置與組合將成為性能管理的關(guān)鍵環(huán)節(jié)。
3.1.2 告警標(biāo)準(zhǔn)化管理
網(wǎng)絡(luò)設(shè)備告警源于不同設(shè)備廠商定義的告警信息,但其告警信息字段內(nèi)容存在明顯差異,而且其更關(guān)注設(shè)備運(yùn)行狀態(tài),對(duì)于設(shè)備服務(wù)質(zhì)量和全網(wǎng)性能影響缺乏精確的分析評(píng)價(jià)。因此,智能告警標(biāo)準(zhǔn)化管理顯得十分必要。告警標(biāo)準(zhǔn)化字段通常包括告警邏輯分類、告警邏輯子類、告警對(duì)設(shè)備的影響、告警對(duì)業(yè)務(wù)的影響等[3],由于設(shè)備軟件版本的更新升級(jí)將導(dǎo)致新告警產(chǎn)生,告警信息內(nèi)容將隨之剔除或者新增,然而對(duì)于已部署網(wǎng)管系統(tǒng)的標(biāo)準(zhǔn)化告警無法及時(shí)發(fā)現(xiàn)和更新,因此建立告警標(biāo)準(zhǔn)化專家管理系統(tǒng)(alarm standardized expert management system,ASEMS)將規(guī)范告警標(biāo)準(zhǔn)化流程,降低溝通與管理成本,如圖2所示。
ASEMS實(shí)現(xiàn)了告警標(biāo)準(zhǔn)化智能化、專家化梳理過程:設(shè)備告警通過網(wǎng)管系統(tǒng)內(nèi)嵌的告警標(biāo)準(zhǔn)化梳理表進(jìn)行告警信息關(guān)鍵字段自動(dòng)匹配,如果匹配成功則按照告警派單規(guī)則形成電子故障工單,如果未匹配成功則該告警信息進(jìn)入ASEMS;ASEMS將未匹配告警信息部分相關(guān)字段(如專業(yè)類型、設(shè)備類型等)自動(dòng)填充至告警標(biāo)準(zhǔn)化字段信息,將缺失的告警標(biāo)準(zhǔn)化信息推送至相應(yīng)專業(yè)的網(wǎng)絡(luò)設(shè)備廠商專家進(jìn)行信息補(bǔ)充,當(dāng)標(biāo)準(zhǔn)化信息字段全部補(bǔ)充完成后提交網(wǎng)絡(luò)維護(hù)專家,專家多數(shù)評(píng)審?fù)ㄟ^則納入告警標(biāo)準(zhǔn)化梳理表,反之填寫評(píng)審意見后退回網(wǎng)絡(luò)設(shè)備廠商專家重新修訂。
3.2.1 告警派單規(guī)則制定與分析
信息通信網(wǎng)絡(luò)不同專業(yè)、不同廠商、不同類型的告警種類和特征很多,全量告警直接形成故障工單不僅會(huì)帶來浩大的維護(hù)工作量,而且會(huì)隱藏關(guān)鍵故障源點(diǎn)。單條告警派單規(guī)則有兩種梳理方式:正向梳理,基于維護(hù)工程師檢驗(yàn)進(jìn)行全量告警,逐條篩選形成“白名單”方式的派單規(guī)則;反向梳理,由于通信設(shè)備組網(wǎng)方式、網(wǎng)絡(luò)設(shè)備軟件版本以及網(wǎng)絡(luò)環(huán)境差異等因素制約,全量告警并不會(huì)全部產(chǎn)生,按照“排除法”開啟全量告警全量派單,及時(shí)剔除不需要派單的告警,最終形成“黑名單”方式的派單規(guī)則。兩種梳理方式對(duì)比見表1。
表1 派單規(guī)則正向梳理與反向梳理對(duì)比
當(dāng)網(wǎng)絡(luò)中的設(shè)備發(fā)生故障時(shí),快速發(fā)現(xiàn)、排除故障是保證網(wǎng)絡(luò)安全、可靠運(yùn)行的關(guān)鍵,也是網(wǎng)絡(luò)運(yùn)維管理的首要任務(wù)。單一的故障也可能引發(fā)海量告警,大量的單條告警獨(dú)立派發(fā)故障工單不但增加了網(wǎng)管系統(tǒng)的開銷,而且掩蓋了故障的根源,非常不利于網(wǎng)絡(luò)運(yùn)維人員排查故障。通過對(duì)告警進(jìn)行合并和轉(zhuǎn)化,將多個(gè)告警合并成一條具有更多信息量的告警來代替多條告警[4],以協(xié)助網(wǎng)管人員分析故障信息、快速定位故障,即告警關(guān)聯(lián)與工單合并追加。
工單追加與合并主要涉及設(shè)備維護(hù)操作系統(tǒng)、網(wǎng)管監(jiān)控系統(tǒng)、故障工單系統(tǒng),該策略主要包括合并規(guī)則、時(shí)間點(diǎn)設(shè)置、工單呈現(xiàn)與回復(fù)、追加規(guī)則等,如圖3所示。
圖2 告警標(biāo)準(zhǔn)化專家管理系統(tǒng)
圖3 工單追加與合并策略
工單追加與合并策略過程如下。
(1)以告警關(guān)聯(lián)邏輯、設(shè)備鏈接拓?fù)?、地理維護(hù)區(qū)域?yàn)榛A(chǔ),形成工單合并邏輯。
(2)以特定時(shí)間周期T為粒度,根據(jù)告警歷時(shí)(告警消除時(shí)間與告警發(fā)生時(shí)間之差)形成消除告警量柱狀圖并擬合為曲線(如圖4所示),形成故障告警歷時(shí)數(shù)據(jù)分布,T1表示在消除告警量最大時(shí)所對(duì)應(yīng)的時(shí)間點(diǎn),T2為工單追加合并派發(fā)時(shí)間點(diǎn),T3表示告警工單派發(fā)最長(zhǎng)的時(shí)限點(diǎn),T2~T3為網(wǎng)管系統(tǒng)工單消息排隊(duì)的最長(zhǎng)時(shí)間。
(3)若合并后告警滿足派單時(shí)延要求則形成故障工單,當(dāng)故障工單包含告警未消除且該工單涉及關(guān)聯(lián)邏輯(告警關(guān)聯(lián)、拓?fù)潢P(guān)聯(lián)、區(qū)域關(guān)聯(lián))又發(fā)生新告警時(shí),追加至該工單;反之,生成新的故障工單。
為了進(jìn)一步評(píng)價(jià)和優(yōu)化派單規(guī)則質(zhì)量,通過建立告警數(shù)據(jù)庫(kù),對(duì)優(yōu)化調(diào)整后的單條派單規(guī)則、關(guān)聯(lián)規(guī)則、合單規(guī)則、追單規(guī)則等效果進(jìn)行分析評(píng)估,即信息通信網(wǎng)絡(luò)告警派單規(guī)則分析及評(píng)估功能方法,系統(tǒng)功能架構(gòu)如圖5所示。
該方法從網(wǎng)管系統(tǒng)負(fù)荷和維護(hù)人員故障工單處理工作量角度,對(duì)優(yōu)化前后的告警派單量進(jìn)行量化評(píng)估,結(jié)合網(wǎng)絡(luò)告警屬性和網(wǎng)絡(luò)服務(wù)質(zhì)量評(píng)估派單規(guī)則合理性,不僅為告警關(guān)聯(lián)規(guī)則和派單規(guī)則匹配度分析提供數(shù)據(jù)支持,而且為工單合并和工單追加方式提供了驗(yàn)證評(píng)估手段。
圖4 故障告警歷時(shí)數(shù)據(jù)分布實(shí)例
圖5 信息通信網(wǎng)絡(luò)告警派單規(guī)則分析及評(píng)估系統(tǒng)架構(gòu)
信息通信網(wǎng)絡(luò)告警派單規(guī)則分析及評(píng)估方法可對(duì)優(yōu)化后的派單規(guī)則及關(guān)聯(lián)規(guī)則的合理性和可靠性進(jìn)行事前分析,輔助網(wǎng)管系統(tǒng)發(fā)現(xiàn)問題,通過引入信息通信網(wǎng)絡(luò)告警派單規(guī)則分析及評(píng)估,實(shí)現(xiàn)告警到工單的可視、可控、可分析。對(duì)告警、工單進(jìn)行模擬分析后,結(jié)合維護(hù)需求選取科學(xué)合理的派單規(guī)則,可進(jìn)一步提升現(xiàn)網(wǎng)故障派單的及時(shí)性、準(zhǔn)確性,提高網(wǎng)絡(luò)的運(yùn)維管理水平。
3.2.2 故障工單預(yù)處理
對(duì)于無線、傳輸、數(shù)據(jù)等單專業(yè)而言,故障工單預(yù)處理是在形成故障工單后人工輸入或者系統(tǒng)自動(dòng)執(zhí)行相關(guān)操作命令(如功能模塊重啟、端口/板卡狀態(tài)查詢等);對(duì)于跨專業(yè)而言,故障工單預(yù)處理可實(shí)現(xiàn)跨專業(yè)的告警關(guān)聯(lián)和故障定位,以無線專業(yè)為例,當(dāng)無線設(shè)備網(wǎng)元出現(xiàn)故障告警時(shí),提取該告警網(wǎng)元的物理名稱和相應(yīng)物理位置信息,通過告警網(wǎng)元的名稱及物理位置信息關(guān)聯(lián)到該網(wǎng)元所在的傳輸鏈路、動(dòng)環(huán)機(jī)房,然后根據(jù)關(guān)聯(lián)網(wǎng)元的信息輸出相應(yīng)網(wǎng)元的全量告警信息,最后對(duì)各專業(yè)的告警信息進(jìn)行綜合分析和智能關(guān)聯(lián),并僅對(duì)故障點(diǎn)源頭專業(yè)派發(fā)故障工單。
由于通信設(shè)備上報(bào)告警信息存在大量英文字段且文字類告警可能對(duì)應(yīng)不同的告警描述,通??蓪⑾嚓P(guān)英文進(jìn)行直觀漢化描述并補(bǔ)充告警輔助字段信息(如告警詳情描述、告警預(yù)處理建議等)。另外,對(duì)于工單相關(guān)信息字段配置需避免內(nèi)容重復(fù)和文字歧義,最終達(dá)到工單所含內(nèi)容文字量最小化和信息價(jià)值量最大化的目的。
通過對(duì)各專業(yè)告警數(shù)據(jù)信息的關(guān)聯(lián)及智能分析,實(shí)現(xiàn)了故障準(zhǔn)確定位,同時(shí)對(duì)定位準(zhǔn)確性進(jìn)行了事前驗(yàn)證評(píng)估,可以實(shí)現(xiàn)對(duì)故障的精準(zhǔn)派單,支撐維護(hù)排障,縮短故障時(shí)長(zhǎng)。
3.2.3 故障工單直派
故障工單需直派一線末端維護(hù)班組,不僅簡(jiǎn)化故障信息傳遞的中間環(huán)節(jié),而且更有加強(qiáng)末端故障處理的掌控能力。為了協(xié)助一線維護(hù)人員更好地理解故障工單信息,以一線維護(hù)人員最密切的無線專業(yè)和傳輸專業(yè)為切入點(diǎn)開展告警故障工單的“三化”(漢化、簡(jiǎn)化、通俗化)質(zhì)量提升,依托故障工單形成告警信息重點(diǎn)字段(所屬EMS、網(wǎng)元名稱、基站號(hào)、小區(qū)站號(hào)、載頻號(hào)、CI號(hào)等)的有效傳遞,為基層維護(hù)人員的故障關(guān)鍵信息的辨識(shí)和重點(diǎn)理解提供便利。
3.3.1 渠道優(yōu)化與應(yīng)急預(yù)案
集中化故障管理實(shí)現(xiàn)了一線維護(hù)人員與核心網(wǎng)絡(luò)管理人員的直接溝通,同時(shí)也帶來了頻繁的資源成本,因此,建設(shè)高效可靠的信息渠道(網(wǎng)絡(luò)設(shè)備整體性能、板卡端口狀態(tài)查詢等)成為問題的關(guān)鍵。通過分析一線維護(hù)人員的工作習(xí)慣,為搭建手機(jī)掌上運(yùn)維、飛信機(jī)器人、微信溝通平臺(tái)、工程割接管控系統(tǒng)等提供了便捷的新工作模式和溝通方式。
為了防止區(qū)域維護(hù)人員對(duì)網(wǎng)絡(luò)運(yùn)行狀態(tài)存在“看不到、聽不清、摸不透”的問題,建議網(wǎng)絡(luò)運(yùn)行采用關(guān)鍵性能指標(biāo)實(shí)時(shí)報(bào)、網(wǎng)絡(luò)設(shè)備自助查詢、區(qū)域差異化“紅橙黃藍(lán)”應(yīng)急預(yù)案和信息發(fā)布等方式,從而為一線維護(hù)人員提供更加可靠和及時(shí)的網(wǎng)絡(luò)運(yùn)行資訊,提高基于網(wǎng)絡(luò)維護(hù)的網(wǎng)絡(luò)感知水平。
集中故障管理系統(tǒng)的運(yùn)行狀態(tài)直接影響著網(wǎng)絡(luò)管理的有效性,對(duì)于系統(tǒng)失效的情況需建立一整套完整的應(yīng)急預(yù)案,如數(shù)據(jù)庫(kù)負(fù)載均衡系統(tǒng)、二級(jí)監(jiān)控系統(tǒng)、地市自主應(yīng)急監(jiān)控系統(tǒng)等。
3.3.2 管理流程穿越與質(zhì)量管控
基于告警信息數(shù)據(jù)流、工單關(guān)鍵字段流、故障發(fā)布信息流、全業(yè)務(wù)質(zhì)量關(guān)鍵信息流[5]的鉆取分析,可實(shí)現(xiàn)集中化管理的事前風(fēng)險(xiǎn)評(píng)價(jià)、事中預(yù)警監(jiān)測(cè)、事后評(píng)估優(yōu)化,同時(shí)對(duì)于各系統(tǒng)環(huán)節(jié)匹配優(yōu)化、工單內(nèi)容質(zhì)量監(jiān)督、故障處理效能評(píng)價(jià)、網(wǎng)絡(luò)故障原因挖掘、代維/自維護(hù)流程規(guī)范等提供了豐富的信息資源。例如,通過告警標(biāo)準(zhǔn)化字段信息對(duì)各級(jí)別/各廠商/各專業(yè)的告警量/非工程告警量變化波動(dòng)分析、基于告警標(biāo)題的排名分布特征和異常類告警(超量網(wǎng)元、超長(zhǎng)告警、超頻告警等)的網(wǎng)絡(luò)“隱性故障”的顯性化;結(jié)合工單處理時(shí)長(zhǎng)對(duì)區(qū)域維護(hù)質(zhì)量進(jìn)行基礎(chǔ)評(píng)估;利用工單回復(fù)原因分類的故障分布情況等評(píng)估網(wǎng)絡(luò)故障原因,并為基于故障原因概率分布特征的告警工單派發(fā)提供數(shù)據(jù)支持。
集中監(jiān)控管理是集中故障管理的基礎(chǔ),構(gòu)建順暢的“告警發(fā)現(xiàn)—告警標(biāo)準(zhǔn)化—告警派單規(guī)則—工單質(zhì)量管理”工作流將直接助力集中故障管理工作的開展,而“渠道優(yōu)化與應(yīng)急預(yù)案”將為集中故障管理提供環(huán)節(jié)優(yōu)化和穩(wěn)固支持,“管理流程穿越與管控”提升為整體網(wǎng)絡(luò)監(jiān)控質(zhì)量、網(wǎng)絡(luò)排障質(zhì)量管理提出了可行的策略和手段。
集中故障管理不僅是一次流程制度的變革,而且是一項(xiàng)工程實(shí)踐的探索,其本身就是創(chuàng)新思路與新興技術(shù)的融合,是傳統(tǒng)方法向現(xiàn)代管理的轉(zhuǎn)變,如基于文本挖掘技術(shù)的工單回復(fù)質(zhì)量、網(wǎng)絡(luò)故障原因分析、基于移動(dòng)互聯(lián)網(wǎng)思想(價(jià)值多元性、價(jià)值時(shí)空性)的支撐系統(tǒng)優(yōu)化等。以集中故障管理中的大數(shù)據(jù)可視化技術(shù)、云技術(shù)與云應(yīng)用為例展開論述。
一個(gè)大型城市移動(dòng)用戶的位置更新信息量超過8萬條/min,移動(dòng)電話呼叫次數(shù)為300萬次/h,互聯(lián)網(wǎng)每天30億次點(diǎn)擊量將產(chǎn)生70~100 TB互聯(lián)網(wǎng)訪問量[6]。通過對(duì)信息通信網(wǎng)絡(luò)大數(shù)據(jù)的聯(lián)動(dòng)分析,可以實(shí)現(xiàn)信息通信流量趨勢(shì)的預(yù)測(cè)分析和波動(dòng)預(yù)警、網(wǎng)絡(luò)故障診斷定位加速、網(wǎng)絡(luò)故障恢復(fù)時(shí)長(zhǎng)降低、網(wǎng)絡(luò)潛在惡意攻擊預(yù)警、數(shù)據(jù)設(shè)備容量規(guī)劃、網(wǎng)絡(luò)系統(tǒng)非法入侵取證以及流量?jī)?nèi)容聚類等系統(tǒng)功能[7~9],使整體網(wǎng)絡(luò)管理方式由“業(yè)務(wù)分布規(guī)劃”驅(qū)動(dòng)向“數(shù)據(jù)價(jià)值策略”驅(qū)動(dòng)轉(zhuǎn)變。
以全專業(yè)全量告警信息大數(shù)據(jù)為基礎(chǔ),按照“專業(yè)內(nèi)分層、專業(yè)外分塊”的原則實(shí)現(xiàn)大數(shù)據(jù)可視化探索與實(shí)踐,即:專業(yè)內(nèi)告警分層,基于告警的設(shè)備歸屬、設(shè)備間拓?fù)潢P(guān)系,通過對(duì)專業(yè)內(nèi)告警進(jìn)行按級(jí)別或按業(yè)務(wù)影響情況的分類,對(duì)告警間關(guān)系進(jìn)行分層展示,通過可視化網(wǎng)絡(luò)圖形,找出專業(yè)內(nèi)的頻發(fā)告警或源頭告警;專業(yè)間告警關(guān)聯(lián),基于網(wǎng)元機(jī)房歸屬、地理位置、拓?fù)潢P(guān)系,通過復(fù)雜網(wǎng)絡(luò)方式展現(xiàn)告警跨專業(yè)關(guān)聯(lián)情況,展示專業(yè)間告警關(guān)聯(lián)點(diǎn),以關(guān)聯(lián)點(diǎn)入手反推出跨專業(yè)關(guān)聯(lián)告警,優(yōu)化派單規(guī)則,找準(zhǔn)預(yù)處理關(guān)鍵信息(如圖6(a)所示);基于網(wǎng)元地理位置信息,通過熱力圖方式展現(xiàn)區(qū)域內(nèi)網(wǎng)絡(luò)告警的渲染圖,并進(jìn)行區(qū)域內(nèi)網(wǎng)絡(luò)情況鉆取,以反映區(qū)域內(nèi)網(wǎng)絡(luò)運(yùn)行質(zhì)量(如圖6(b)所示)。
大數(shù)據(jù)可視化技術(shù)提供了一種更加直觀的數(shù)據(jù)呈現(xiàn)和網(wǎng)絡(luò)運(yùn)行質(zhì)量管理手段[10],大數(shù)據(jù)資源還可以在網(wǎng)絡(luò)維護(hù)質(zhì)量評(píng)估、網(wǎng)絡(luò)性能趨勢(shì)異常檢測(cè)、網(wǎng)絡(luò)運(yùn)行隱性故障預(yù)警等方面提供新的思路和方法。大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)為新時(shí)代環(huán)境下的網(wǎng)絡(luò)智能化管理提供了科學(xué)化的方法手段,而且注入了持續(xù)的發(fā)展動(dòng)力,開拓了全新的知識(shí)視角。
虛擬化技術(shù)是一種典型的云技術(shù)和云應(yīng)用,其實(shí)現(xiàn)了計(jì)算機(jī)硬件資源的抽象化,將硬件資源抽象為一系列的接口資源,隱藏屬性和操作之間的差異,并允許用一種通用的方式查看并維護(hù)資源。桌面虛擬化(desktop virtualization)將分立的用戶桌面環(huán)境與計(jì)算資源解耦合,把軟件操作系統(tǒng)、應(yīng)用執(zhí)行程序等涉及硬件資源的I/O封裝在一個(gè)虛擬機(jī)的文件中,服務(wù)器存放每個(gè)用戶的完整桌面環(huán)境,服務(wù)器虛擬化軟件可以讓多個(gè)虛擬機(jī)在一臺(tái)硬件服務(wù)器上運(yùn)行[11]。
瘦客戶機(jī)桌面虛擬化監(jiān)控終端的功能軟件部署和更新統(tǒng)一簡(jiǎn)潔,管理維護(hù)便捷,可以直接支持新功能需求;通過熱桌面技術(shù)可以自由移動(dòng)辦公位置且不需要重新啟動(dòng)操作系統(tǒng)和運(yùn)維系統(tǒng);由于監(jiān)控終端通常為24 h運(yùn)行狀態(tài),虛擬桌面方式較傳統(tǒng)PC方式節(jié)能約50%,且其散熱、噪音優(yōu)勢(shì)明顯。集成化程度較高的虛擬化桌面系統(tǒng)存在應(yīng)用型環(huán)節(jié),可能會(huì)影響到系統(tǒng)穩(wěn)定性,如防病毒軟件系統(tǒng)、Windows登錄身份驗(yàn)證系統(tǒng)等安全管理技術(shù)是否適用不同等級(jí)的監(jiān)控終端需求[12],相對(duì)獨(dú)立的虛擬化桌面系統(tǒng)殺毒功能定時(shí)策略是否可能給系統(tǒng)帶來突增負(fù)荷等。
圖6 大數(shù)據(jù)可視化技術(shù)
集中監(jiān)控模式下的故障管理是一項(xiàng)復(fù)雜的系統(tǒng)工程,其涉及網(wǎng)絡(luò)運(yùn)行維護(hù)管理全流程,網(wǎng)絡(luò)管理、網(wǎng)絡(luò)監(jiān)控、網(wǎng)絡(luò)維護(hù)和支撐系統(tǒng)均承擔(dān)著重要的環(huán)節(jié)樞紐作用,每股環(huán)節(jié)的“短板”都將影響整體故障管理效果和水平。管理流程源于工作實(shí)踐,傾聽自維人員和代維人員的需求,避免出現(xiàn)流程及其輔助系統(tǒng)的“用不慣、不好用、沒人用”的情況。關(guān)注客戶感知需求,樹立人性化管理意識(shí),強(qiáng)化內(nèi)部服務(wù)意識(shí),建立順暢的溝通機(jī)制和評(píng)價(jià)指標(biāo)體系,激勵(lì)一線問題發(fā)現(xiàn)與引導(dǎo)自主創(chuàng)新實(shí)踐。
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代背景下,瞬息萬變的業(yè)務(wù)市場(chǎng)和客戶需求給信息化企業(yè)帶來了“短、頻、快”的運(yùn)營(yíng)要求,網(wǎng)絡(luò)運(yùn)維管理也需要融入互聯(lián)網(wǎng)思想,讓“反應(yīng)迅速、專業(yè)專注、信息開放、價(jià)值平等、部門協(xié)作、資源分享”等互聯(lián)網(wǎng)品質(zhì)助力新型信息通信網(wǎng)絡(luò)運(yùn)維體制的轉(zhuǎn)型和發(fā)展。
1 呂雪峰,陳剛.電信企業(yè)網(wǎng)運(yùn)體制改革探索.通信企業(yè)管理,2014(2 ):64~66 Lv X G,Chen G.The structural reform exploration of telecommunication enterprise network maintenance.Enterprise Management,2014(2):64~66
2 施雪華,陳勇.大部制部門內(nèi)部協(xié)調(diào)的意義、困境與途徑.深圳大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2012,29(3):90~95 Shi X H,Chen Y.Significance,dilemmas and solutions:internal coordination in the super-ministry system.Journal of Shenzhen University(Humanities & Social Sciences),2012,29(3):90~95
3 黎娟.通信網(wǎng)網(wǎng)管支撐系統(tǒng)運(yùn)行質(zhì)量管控的研究與實(shí)現(xiàn).電信科學(xué),2013,29(12):139~144 Li J.Research and implementation on quality control of network management support system.Telecommunications Science,2013,29(12):139~144
4 鄭哲淵,劉淵.面向大規(guī)模告警數(shù)據(jù)的高性能信息篩選系統(tǒng).計(jì)算機(jī)工程與設(shè)計(jì),2014,35(2):435~439 Zheng Z Y,Liu Y.High performance information filtering system for large-scale alarm data.Computer Engineering and Design,2014,35(2):435~439
5 葉長(zhǎng)根.基于業(yè)務(wù)平臺(tái)綜合網(wǎng)管的全業(yè)務(wù)流程監(jiān)控設(shè)計(jì)思路和解決方案.電信技術(shù),2014(3):64~68 Ye C G.Design ideas and solutions of all business process monitoring based on integrated services management platform.Telecommunications Technology,2014(3):64~68
6 包劼.大數(shù)據(jù),大變化,大未來—大數(shù)據(jù)支撐驅(qū)動(dòng)電信運(yùn)營(yíng)商轉(zhuǎn)型發(fā)展.通信世界,2013(20):49~50 Bao J.Big data,big change,great future-telecom operators transformation development be driven by big data.Communications World,2013(20):49~50
7 Rijmenam M V.How telecom companies can improve their results with big data.http://www.bigdata-startups.com/how-t elecom-companies-can-improve-their-results-with-big-data/,2014
8 Ignasi P O,Pere B,Xenofontas D.FaRNet:fast recognition of high-dimensional patterns from big network traffic data.Computer Networks,2013,57(18):3897~3913
9 Liu J,Li T T,Cheng G,et al.Mining and modeling the dynamic patterns of service providers in cellular data network based on big data analysis.China Communications,2013,10(12):25~36
10 陳為,沈則潛,陶煜波等.數(shù)據(jù)可視化.北京:電子工業(yè)出版社,2013 Chen W,Shen Z Q,Tao Y B,et al.Data Visualization.Beijing:Publishing House of Electronics Industry of China,2013
11 雷璟.安全桌面虛擬化信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).電訊技術(shù),2014,54(5):637~643 Lei J.Information system design and implementation based on security desktop virtualization technology.Telecommunication Engineering,2014,54(5):637~643
12 Liao X J,Zhang M,Kong S Q.Experience of constructing virtual desktop.WIT Transactions on Information and Communication Technologies,2014(51):293~296