岑忠先
摘 要:集約化和高效化管理已經(jīng)成為當(dāng)下信息網(wǎng)絡(luò)管理的趨勢(shì),在這一過(guò)程中網(wǎng)絡(luò)故障管理具有一定難度,并且是管理重點(diǎn)。集中監(jiān)控是信息通信故障管理的主要方式,它通過(guò)告警、工單處理、渠道優(yōu)化等方式完成。大數(shù)據(jù)、云計(jì)算和虛擬化技術(shù)都是這一時(shí)期的主要技術(shù)之一?;诖?,將集中監(jiān)控下的信息通信網(wǎng)絡(luò)故障管理相關(guān)問(wèn)題進(jìn)行了分析。
關(guān)鍵詞:集中監(jiān)控管理;信息通信網(wǎng)絡(luò);告警管理;工單管理
中圖分類號(hào):TB
文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.19311/j.cnki.1672-3198.2017.16.105
集中故障管理是指將區(qū)域化管理逐漸轉(zhuǎn)化為互聯(lián)的全局管理。其主要內(nèi)容包括告警管理、工單管理和故障管理。其中告警管理是故障管理的信源,而工單管理則是故障管理的信宿,故障管理則將管理流程的兩端融合。具體技術(shù)探討如下。
1 告警管理
集中監(jiān)控模式下的告警管理主要過(guò)程包括告警獲取和標(biāo)準(zhǔn)化管理過(guò)程。
1.1 網(wǎng)絡(luò)設(shè)備告警獲取
設(shè)備的告警獲取是通過(guò)全量接入的方式來(lái)實(shí)現(xiàn)集中管理,分為主動(dòng)高警和被動(dòng)告警兩種。主動(dòng)告警將設(shè)備的運(yùn)行狀況上傳至管理系統(tǒng),而被動(dòng)告警則是由網(wǎng)絡(luò)管理系統(tǒng)發(fā)送消息至設(shè)備,通過(guò)信息反饋結(jié)果判斷其運(yùn)行穩(wěn)定性。主動(dòng)上報(bào)類告警通常是提前設(shè)計(jì)類,是由于生產(chǎn)廠家設(shè)定的告警級(jí)別和告警范圍,將網(wǎng)絡(luò)信息上傳于綜合網(wǎng)管,可以提供告警時(shí)間、發(fā)生頻率以及告警特征。被動(dòng)探測(cè)類告警的原理是告警標(biāo)準(zhǔn)化,也就是對(duì)設(shè)備的規(guī)劃和處理過(guò)程。網(wǎng)絡(luò)設(shè)備的告警系統(tǒng)具體復(fù)雜性,并且告警系統(tǒng)肩負(fù)著整個(gè)網(wǎng)絡(luò)的安全,因此在信息傳輸上和網(wǎng)絡(luò)告警字段上均采用解析協(xié)議的方式,并且要合理設(shè)置字段的長(zhǎng)度,選擇自動(dòng)網(wǎng)絡(luò)信息匹配原則,防止垃圾信息累積。設(shè)置通信設(shè)備告警時(shí)間并派發(fā)工單,為整個(gè)網(wǎng)絡(luò)故障的處理提供基礎(chǔ)。
1.2 告警標(biāo)準(zhǔn)化管理
不同生產(chǎn)廠家對(duì)于告警信息的設(shè)置不同,因此對(duì)于企業(yè)應(yīng)用而言,需定義標(biāo)準(zhǔn)化的告警管理。告警標(biāo)準(zhǔn)化字段是由告警邏輯分類、告警邏輯子類、告警產(chǎn)生的影響以及業(yè)務(wù)量組成,設(shè)備在運(yùn)行和更新過(guò)程中均會(huì)產(chǎn)生告警,但是如果網(wǎng)絡(luò)系統(tǒng)已經(jīng)部署,則告警很難發(fā)生。標(biāo)準(zhǔn)化的管理系統(tǒng)從系統(tǒng)的運(yùn)行需求出發(fā),致力于滿足智能化、高效化需求。自動(dòng)匹配告警信息關(guān)鍵字段,通過(guò)是否匹配成功來(lái)判斷故障工單的形成。檢查告警工單,是否存在工單缺失現(xiàn)象,并要求廠家給予補(bǔ)充,如未達(dá)到要求,則需填寫評(píng)審意見(jiàn)并退還給網(wǎng)絡(luò)設(shè)備廠商。
2 工單管理
告警類型會(huì)由于專業(yè)、生產(chǎn)廠家的不同而存在差異,全量告警則會(huì)導(dǎo)致工作量巨大,并且無(wú)法找到故障位置。因此工單管理是企業(yè)的重要項(xiàng)目之一,單條告警管理通??梢苑譃檎蚴崂砗头聪蚴崂?。也就是區(qū)分正常運(yùn)行軟件與存在問(wèn)題的軟件,列出“白名單”或“黑名單”,將不需要的告警單排除,兩組梳理方法應(yīng)用的環(huán)境不同,應(yīng)根據(jù)監(jiān)控現(xiàn)場(chǎng)的特點(diǎn)具體來(lái)定。具體為:以告警關(guān)聯(lián)邏輯、地理維護(hù)區(qū)域和設(shè)備鏈接拓?fù)錇榛A(chǔ),形成工單合并邏輯。通過(guò)告警時(shí)間圖確定告警周期和故障告警歷史分布。若合并后告警滿足派單時(shí)延要求則形成故障工單,當(dāng)故障工單已告警但未消的同時(shí),出現(xiàn)新的告警,則應(yīng)將該工單追加為新的故障工單,并且可以建立告警數(shù)據(jù)庫(kù),對(duì)數(shù)據(jù)進(jìn)行優(yōu)化與評(píng)價(jià),分別對(duì)相關(guān)的派單規(guī)則進(jìn)行分析評(píng)估,形成新的信息評(píng)估方法。
信息評(píng)估方法從故障工單的處理量和網(wǎng)絡(luò)系統(tǒng)承載的負(fù)荷兩個(gè)角度進(jìn)行分析,對(duì)優(yōu)化后的告警進(jìn)行評(píng)估,提供告警關(guān)聯(lián)數(shù)據(jù),使工單追加更加方便,也使問(wèn)題的發(fā)現(xiàn)和解決更加方便。在這一背景下,工單追加實(shí)現(xiàn)了可視化,并且分析能力增強(qiáng),告警工單模擬分析后,維護(hù)需求也將隨著派單規(guī)則及時(shí)準(zhǔn)確的維護(hù)網(wǎng)絡(luò)運(yùn)維管理能力。故障工單處理包括預(yù)處理和工單直派兩個(gè)過(guò)程。故障工單預(yù)處理主要應(yīng)用于無(wú)線傳輸設(shè)備,是在預(yù)處理后形成自動(dòng)執(zhí)行系統(tǒng)并下達(dá)相關(guān)命令,但是對(duì)于跨專業(yè)來(lái)說(shuō),主要以人工輸入的方式呈現(xiàn),可以實(shí)現(xiàn)故障的具體定位。以無(wú)線專業(yè)為例,對(duì)告警網(wǎng)元的物理名稱及相關(guān)的物理位置信息進(jìn)行提取。信息傳輸告警單元依次經(jīng)過(guò)傳輸鏈路、動(dòng)環(huán)機(jī)房,最后輸出全部的告警信息,并實(shí)施信息分析和處理,判斷故障點(diǎn)所在位置。集中監(jiān)控技術(shù)的優(yōu)勢(shì)在于可進(jìn)行中英文描述轉(zhuǎn)化,可以將告警信息中的大量因?yàn)樾畔⑥D(zhuǎn)化為漢語(yǔ)告警形式,使其更加清晰,輔助漢字的出現(xiàn)滿足了使用者的需求,使其更加清晰的解讀故障,分析故障原因,以免造成歧義或者內(nèi)容重復(fù)。最終使工單內(nèi)容文字量最小化,但故障判斷效率最大化,縮短故障診斷和處理時(shí)間。故障的準(zhǔn)確定位與信息通信系統(tǒng)而言是十分重要的,隨著我國(guó)移動(dòng)通信用戶的增多,這一問(wèn)題的解決更是迫在眉睫。通過(guò)對(duì)各專業(yè)告警數(shù)據(jù)信息的關(guān)聯(lián)及智能分析,實(shí)現(xiàn)了故障準(zhǔn)確定位同時(shí)對(duì)定位準(zhǔn)確性進(jìn)行了事前驗(yàn)證評(píng)估,可以實(shí)現(xiàn)對(duì)故障的精準(zhǔn)派單,支撐維護(hù)排障,縮短故障時(shí)長(zhǎng)。
3 故障管理
首先,建立集中監(jiān)控系統(tǒng)后,信息通信網(wǎng)絡(luò)故障應(yīng)建立渠道優(yōu)化路徑,并建立停工應(yīng)急預(yù)案,以便于盡早的解決故障問(wèn)題。所謂集中故障管理是指將所有信息同時(shí)處理,但是這明顯的增加了故障管理和處理成本,因此,有必要建立完善的信息渠道,包括網(wǎng)絡(luò)設(shè)備性能和板卡端口,實(shí)施狀態(tài)查詢的工作。一線維修人員的素質(zhì)對(duì)于故障管理而言是重要的,隨著科技的發(fā)展,可以搭建良好的溝通方式,對(duì)網(wǎng)絡(luò)運(yùn)行狀態(tài)要把握清晰,通過(guò)關(guān)鍵性指標(biāo)原則,建立自主查詢系統(tǒng)。并提供指標(biāo)實(shí)時(shí)報(bào)道,發(fā)布不同等級(jí)的預(yù)警信息,保證網(wǎng)絡(luò)運(yùn)行安全。提供最新的網(wǎng)絡(luò)運(yùn)行資訊,建立具有層次性的網(wǎng)絡(luò)維護(hù)體系,提供網(wǎng)絡(luò)維護(hù)相關(guān)方案,對(duì)出現(xiàn)故障或者失效的網(wǎng)站給予正確的解決措施,建立二級(jí)和三級(jí)監(jiān)控系統(tǒng),實(shí)現(xiàn)對(duì)應(yīng)急故障的處理。
其次:管理流程穿越與質(zhì)量管控。將告警數(shù)據(jù)信息流和工單主要字段流進(jìn)行公布并且要對(duì)故障的類型進(jìn)行區(qū)分,保證故障信息發(fā)布的鉆取分析,采取集中監(jiān)控制度可以對(duì)其進(jìn)行事前分析,以便于做好故障預(yù)警工作。對(duì)各個(gè)環(huán)境進(jìn)行優(yōu)化匹配,比如工單質(zhì)量的控制,再比如故障的處理效率評(píng)估,以及故障的誘因分析等。告警級(jí)別具有層次性,告警工作量是巨大的,在變化波動(dòng)的前提下,基于告警等級(jí)將故障進(jìn)行分類,并及時(shí)檢測(cè)隱性故障,分析故障分布情況。對(duì)故障分析原因提供數(shù)據(jù)支持,進(jìn)一步確定故障原因。而“渠道優(yōu)化與應(yīng)急預(yù)案”則使故障管理更加穩(wěn)固和高效,提高移動(dòng)通信網(wǎng)絡(luò)的整體監(jiān)控能力和網(wǎng)絡(luò)質(zhì)量。
4 總結(jié)
集中監(jiān)控下的信息通信網(wǎng)絡(luò)故障管理是移動(dòng)通信行業(yè)的重要任務(wù)之一,但這一過(guò)程度技術(shù)和設(shè)備都具有較高要求,并且這一過(guò)程應(yīng)貫穿始終。通過(guò)網(wǎng)絡(luò)監(jiān)控,進(jìn)而提高系統(tǒng)的運(yùn)行穩(wěn)定性。一旦出現(xiàn)故障,將會(huì)影響系統(tǒng)的整體運(yùn)行,因此其管理應(yīng)設(shè)計(jì)大網(wǎng)絡(luò)管理、監(jiān)控等各個(gè)環(huán)節(jié),我國(guó)的移動(dòng)通信網(wǎng)絡(luò)故障時(shí)有發(fā)生,通常會(huì)影響網(wǎng)絡(luò)運(yùn)行狀態(tài),導(dǎo)致網(wǎng)絡(luò)信號(hào)不佳甚至斷網(wǎng)。故障的監(jiān)控效率還需要進(jìn)一步提高,除了設(shè)備更新外,還需要進(jìn)一步的保證管理人員的素質(zhì)提高。本章雖然將重點(diǎn)放在故障管理技術(shù)的實(shí)施上,但是依然不能忽視管理人員的作用,要對(duì)管理和維修人員進(jìn)行培訓(xùn),使其掌握第一時(shí)間的故障處理意識(shí),在集中監(jiān)控下,信息通信網(wǎng)絡(luò)會(huì)第一時(shí)間預(yù)警,在不同的預(yù)警方式下,工作人員均須及時(shí)關(guān)注,查找故障位置,并進(jìn)行故障維修。總之,集中監(jiān)控下的信息通信網(wǎng)絡(luò)故障管理是一項(xiàng)長(zhǎng)期的、艱巨的任務(wù),需要進(jìn)一步的完善與提高。
參考文獻(xiàn)
[1]葉長(zhǎng)根.基于業(yè)務(wù)平臺(tái)綜合網(wǎng)管的全業(yè)務(wù)流程監(jiān)控設(shè)計(jì)思路和解決方案[J].電信技術(shù),2014,(3).
[2]呂雪峰,陳剛.電信企業(yè)網(wǎng)運(yùn)體制改革探索[J].通信企業(yè)管理,2014,(2).
[3]施雪華,陳勇.大部制部門內(nèi)部協(xié)調(diào)的意義、困境與途徑[J].深圳大學(xué)學(xué)報(bào),2012,(3).
[4]雷璟.安全桌面虛擬化信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電訊技術(shù),2014,(5).
[5]陳為,沈則潛,陶煜波等.數(shù)據(jù)可視化[J].電訊技術(shù),2013,(7).