[李忠諭 遲景升 李哲 盧斌]
網(wǎng)絡(luò)側(cè)故障與用戶側(cè)故障是不同的維護(hù)人員處理,網(wǎng)絡(luò)側(cè)故障是指局方設(shè)備、線路等影響大面積用戶業(yè)務(wù)的群障故障,由網(wǎng)絡(luò)工程師負(fù)責(zé)搶修;用戶側(cè)故障是用戶網(wǎng)絡(luò)影響單用戶的故障,由客戶工程師負(fù)責(zé)查障維修。現(xiàn)網(wǎng)發(fā)生群障故障,網(wǎng)管檢測(cè)到告警,通過告警觸發(fā)分析定位故障[1],進(jìn)而派發(fā)故障單進(jìn)行搶修,同時(shí)建立群障單,發(fā)起群障攔截[2],避免群障故障下單給客戶工程師。
互聯(lián)網(wǎng)時(shí)代下客戶感知備受重視,網(wǎng)絡(luò)運(yùn)營(yíng)與客戶服務(wù)割裂的現(xiàn)狀已不能滿足要求,需要構(gòu)建群障精細(xì)化管理體系,在群障建單、群障攔截、群障恢復(fù)等端到端環(huán)節(jié)串聯(lián)網(wǎng)絡(luò)群障與用戶的關(guān)聯(lián),實(shí)現(xiàn)群障信息透明、服務(wù)進(jìn)度透明,推動(dòng)群障快速搶修,提升客戶感知。
本文方案是當(dāng)發(fā)生群障故障時(shí),系統(tǒng)主動(dòng)通知所在區(qū)域受影響客戶,減少用戶申告;當(dāng)用戶申告故障時(shí),系統(tǒng)發(fā)起群障攔截,不再下裝維故障單到客戶工程師,減少客戶工程師無效工單;同時(shí)及時(shí)結(jié)合用戶申告情況向網(wǎng)絡(luò)側(cè)故障單進(jìn)行催修;在告警恢復(fù)后,系統(tǒng)主動(dòng)通知群障所在區(qū)域受影響客戶業(yè)務(wù)已恢復(fù)。整體方案設(shè)計(jì)示意圖如圖1所示,該方案實(shí)現(xiàn)群障故障全程信息透明,服務(wù)進(jìn)度透明。
圖1 群障管理示意圖
現(xiàn)網(wǎng)發(fā)生網(wǎng)絡(luò)側(cè)故障,網(wǎng)管自動(dòng)檢測(cè)到告警,一方面,該群障告警會(huì)派網(wǎng)絡(luò)側(cè)故障單到網(wǎng)絡(luò)工程師進(jìn)行搶修,根據(jù)群障影響范圍劃分故障等級(jí),不同等級(jí)的故障單會(huì)有不同的工單考核時(shí)限。另一方面,系統(tǒng)通過群障告警對(duì)象查詢受影響用戶,建立群障攔截用戶池,群障告警對(duì)象主要包括設(shè)備IP、設(shè)備IP+槽位、設(shè)備IP+端口、光路編碼等,網(wǎng)絡(luò)側(cè)故障是指二級(jí)分光器以上的故障,包括光路故障、OLT 級(jí)別故障以及MSE 級(jí)別故障(含板卡及端口故障)等,具體網(wǎng)絡(luò)側(cè)故障定義如表1 所示。對(duì)于屬于群障攔截用戶池的業(yè)務(wù),系統(tǒng)主動(dòng)通過短信/微信公眾號(hào)的形式推送消息告知用戶所在區(qū)域發(fā)生大面積網(wǎng)絡(luò)故障,并結(jié)合群障故障單考核時(shí)限告知用戶該群障預(yù)計(jì)修復(fù)時(shí)間。
表1 網(wǎng)絡(luò)側(cè)故障定義
(1)群障攔截
用戶業(yè)務(wù)不可用,會(huì)向運(yùn)營(yíng)商申告故障,系統(tǒng)接收到用戶申告,則即時(shí)查詢?cè)撚脩羰欠裨谌赫蠑r截用戶池中,判斷該用戶所在區(qū)域是否存在群障,如果在群障攔截池中,則系統(tǒng)查詢網(wǎng)絡(luò)側(cè)故障單搶修進(jìn)度信息,在用戶申告界面(IVR/微信公眾號(hào))向用戶播報(bào)群障搶修進(jìn)度并進(jìn)行攔截。
(2)群障催修
系統(tǒng)定期統(tǒng)計(jì)該群障攔截的用戶申告記錄,并自動(dòng)推送消息至群障故障單頁(yè)面,將該群障攔截情況及時(shí)同步給網(wǎng)絡(luò)工程師,實(shí)現(xiàn)網(wǎng)絡(luò)側(cè)故障催修效果。網(wǎng)絡(luò)工程師掌握用戶申告行為,按照群障攔截情況安排工單優(yōu)先級(jí)處理,結(jié)合實(shí)際影響面有針對(duì)性地開展工作。
現(xiàn)場(chǎng)修復(fù)群障,網(wǎng)管推送告警恢復(fù)信息,系統(tǒng)消除群障,該群障影響的客戶將移除出群障攔截用戶池。并分場(chǎng)景進(jìn)行處理。
(1)對(duì)于在群障期間未申告故障的沉默用戶,系統(tǒng)主動(dòng)推送群障修復(fù)消息給用戶,建議用戶重啟光貓后進(jìn)行測(cè)試業(yè)務(wù)。
(2)對(duì)于在群障期間申告過故障的用戶,系統(tǒng)認(rèn)為用戶ONU 未關(guān)電。因此群障恢復(fù)后,系統(tǒng)查詢ONU 狀態(tài),如果ONU 在線,則系統(tǒng)主動(dòng)推送群障修復(fù)消息給用戶;如果ONU 不在線,為避免存在用戶側(cè)故障需要用戶二次申告,系統(tǒng)直接派單給客戶工程師上門處理。
受到設(shè)備及網(wǎng)管性能的影響,要提升網(wǎng)管告警有效性[3,4],同時(shí)結(jié)合提升實(shí)際生產(chǎn)應(yīng)用效果的考慮,對(duì)嚴(yán)障精細(xì)化管理設(shè)置了補(bǔ)充原則。
(1)群障派單規(guī)則
因?yàn)榫W(wǎng)管告警存在瞬告誤告,如果告警即時(shí)派單會(huì)產(chǎn)生無效工單。所以系統(tǒng)設(shè)置延遲派單規(guī)則,對(duì)于延時(shí)一定時(shí)間還未自動(dòng)恢復(fù)的告警才派故障單到現(xiàn)場(chǎng)處理。同時(shí)考慮到盡量避免受群障影響的用戶申告下單到客戶工程師(客戶工程師無法處理群障),則系統(tǒng)會(huì)在接收到告警后即時(shí)發(fā)起群障攔截。那么若該群障攔截到用戶申告時(shí),而該告警由于處于延時(shí)規(guī)則而未派單,為了加快群障搶修,系統(tǒng)將立即觸發(fā)派出群障故障單,并將關(guān)聯(lián)告警整合到一張故障單派給現(xiàn)場(chǎng),提升維護(hù)效率。
(2)群障恢復(fù)規(guī)則
對(duì)于能正常通過告警進(jìn)行管理的群障,現(xiàn)場(chǎng)發(fā)生群障,網(wǎng)管產(chǎn)生告警,群障修復(fù),網(wǎng)管識(shí)別告警恢復(fù)。
現(xiàn)網(wǎng)存在一部分故障不能正常通過網(wǎng)管告警進(jìn)行管理,需要人工發(fā)現(xiàn)并手工建單,對(duì)于這部分群障,同樣建立群障攔截用戶池。系統(tǒng)將定時(shí)通過SNMP 的方式直連群障對(duì)象關(guān)聯(lián)的OLT 設(shè)備,進(jìn)行ONU 狀態(tài)的輪詢,結(jié)合資源拓?fù)湫畔⒉樵冊(cè)撊赫嫌绊懙腛NU,當(dāng)查詢到該群障下有ONU 在線,那么確定該群障恢復(fù)。
(3)故障單回單智能校驗(yàn)規(guī)則
為了確保群障故障單的故障修復(fù)效果,故障單在維護(hù)人員回單時(shí)自動(dòng)觸發(fā)系統(tǒng)校驗(yàn)群障修復(fù)情況。對(duì)于符合群障恢復(fù)規(guī)則的故障單,則系統(tǒng)判定校驗(yàn)通過,如果不符合群障恢復(fù)規(guī)則的故障單,系統(tǒng)判定校驗(yàn)不通過,需要網(wǎng)絡(luò)工程師進(jìn)一步排查。
本文方案是運(yùn)營(yíng)智慧化在群障管理方面的具體體現(xiàn),群障精細(xì)化管理體系應(yīng)用以來,通過群障服務(wù)透明化,月均主動(dòng)服務(wù)電信工程師/客戶30 萬次以上,減少用戶疑慮和抱怨,受群障影響的客戶報(bào)障量減少了60%,對(duì)壓降用戶申告率效果顯著,有效提升了用戶感知。對(duì)運(yùn)營(yíng)商而言,通過系統(tǒng)建立了群障場(chǎng)景下網(wǎng)絡(luò)側(cè)故障和用戶側(cè)申告的有效關(guān)聯(lián),是發(fā)揮跨域生產(chǎn)數(shù)據(jù)關(guān)聯(lián)應(yīng)用的典型案例。