周慶華 熊振斌 陳浩 中國(guó)電信股份有限公司江西分公司網(wǎng)絡(luò)運(yùn)行維護(hù)部 南昌市 330046
隨著“寬帶中國(guó)”、“全光城市”等戰(zhàn)略的實(shí)施,江西電信光寬帶用戶規(guī)模不斷擴(kuò)大,全省網(wǎng)管管理ONU數(shù)量接近650萬(wàn),每個(gè)月10000號(hào)的寬帶用戶申告量居高不下,希望通過(guò)運(yùn)維手段來(lái)降低寬帶用戶申告,減輕10000號(hào)座席話務(wù)壓力。同時(shí)隨著農(nóng)村寬帶用戶的規(guī)模發(fā)展,大量農(nóng)村寬帶用戶出現(xiàn)故障,第一報(bào)障渠道不是撥打10000號(hào)申告,而是找裝維工程師報(bào)障,導(dǎo)致大量故障工單循環(huán)在系統(tǒng)之外,障礙處理時(shí)限和質(zhì)量無(wú)法得到管控,較大影響用戶感知,因此急需一種先于客戶發(fā)現(xiàn)寬帶障礙的新方法來(lái)解決以上問(wèn)題,提升用戶感知。
通過(guò)PON網(wǎng)管系統(tǒng)輪巡ONU狀態(tài),自動(dòng)識(shí)別出掉電、斷纖狀態(tài),并自動(dòng)過(guò)濾掉由于OLT、板卡、PON口或者一二級(jí)分光器故障引起的ONU故障,精準(zhǔn)定位出故障點(diǎn)。
圖1 用戶故障精準(zhǔn)診斷全流程示意圖
(1)輪詢采集全網(wǎng)所有FTTH ONU,找出所有斷電、斷纖故障;
(2)針對(duì)OLT故障、OLT pon板卡故障、PON口故障,找出符合條件的ONU;
(3)針對(duì)GIS系統(tǒng)的ODN數(shù)據(jù)進(jìn)行ODN分析,過(guò)濾一、二級(jí)分光故障;
(4)在派單前進(jìn)行批量端到端(PON網(wǎng)管部分)診斷測(cè)試,找到外線故障ONU;
(5)針對(duì)ODN進(jìn)行分析,排除二級(jí)OBD斷纖故障告警(有3個(gè)以上的ONU斷纖);
(6)通過(guò)Webservice接口派單給10000號(hào)、裝維工程師。
(1)全網(wǎng)FTTH ONU狀態(tài)輪詢采集
FTTH ONU狀態(tài)輪詢采集模塊獨(dú)立封裝、部署及運(yùn)行,高頻度狀態(tài)輪詢,確保ONU狀態(tài)采集實(shí)時(shí)性及準(zhǔn)確性。
(2)基于數(shù)據(jù)倉(cāng)庫(kù)模式的告警管道過(guò)濾
系統(tǒng)輪詢?nèi)W(wǎng)OLT獲取ONU狀態(tài)信息,并實(shí)時(shí)更新MySQL數(shù)據(jù)庫(kù)中ONU狀態(tài)值,數(shù)據(jù)處理模塊建立數(shù)據(jù)模型,根據(jù)特定算法定期查詢OLT、板卡、PON口是否存在故障,通過(guò)數(shù)據(jù)管道算法進(jìn)行告警過(guò)濾,過(guò)濾掉片障影響的ONU。
(3)高并發(fā)端到端實(shí)時(shí)故障診斷測(cè)試
通過(guò)批量測(cè)試模塊實(shí)時(shí)批量測(cè)試驗(yàn)證,與OLT上的ONU狀態(tài)信息進(jìn)行比對(duì),將二次驗(yàn)證的數(shù)據(jù)進(jìn)行存儲(chǔ)并派單。
(4)基于一級(jí)、二級(jí)分光器ODN診斷分析
根據(jù)分光器下O N U是否在線智能判斷分光器故障,自動(dòng)過(guò)濾ODN分光器故障數(shù)據(jù)。
(5)48小時(shí)告警池自動(dòng)維護(hù)
系統(tǒng)具備告警自動(dòng)清理功能,故障在一定時(shí)限內(nèi)無(wú)需二次派單,對(duì)于不在告警池內(nèi)的告警進(jìn)行增量派單。
打通PON網(wǎng)管與綜合告警系統(tǒng)、綜合資源系統(tǒng)、ITMS平臺(tái)、10000號(hào)、CRM等多個(gè)系統(tǒng)接口,將用戶信息、資源信息、終端信息、設(shè)備信息、用戶申告情況匯集進(jìn)行大數(shù)據(jù)建模分析,建立用戶資源樹(shù),實(shí)現(xiàn)全流程端到端診斷。
圖2 改造前的系統(tǒng)采集架構(gòu)
改造前的PON網(wǎng)管采集架構(gòu)是基于AMQP協(xié)議的消息引擎和獨(dú)立的Nodes集群結(jié)構(gòu),狀態(tài)輪巡集成在性能采集模塊monet、設(shè)備發(fā)現(xiàn)模塊disco當(dāng)中,輪詢的進(jìn)程數(shù)據(jù)通道是與monet采集進(jìn)程綁定在一起,沒(méi)有校驗(yàn)機(jī)制,往往會(huì)因?yàn)樾阅軘?shù)據(jù)采集導(dǎo)致?tīng)顟B(tài)入庫(kù)超時(shí)等情況。為此,我們改造采集系統(tǒng)架構(gòu),將輪巡ONU狀態(tài)模塊獨(dú)立,同時(shí)增加校驗(yàn)機(jī)制,實(shí)現(xiàn)ONU狀態(tài)輪巡獨(dú)立運(yùn)行,準(zhǔn)確進(jìn)行ONU狀態(tài)的輪詢。下圖為改造后的系統(tǒng)架構(gòu),藍(lán)色部分為ONU狀態(tài)輪巡模塊,獨(dú)立部署在新的云服務(wù)器上,作為獨(dú)立進(jìn)程運(yùn)行,輪詢采集ONU狀態(tài)信息。
圖3 改造后架構(gòu)
(1)過(guò)濾有源告警
用戶ONU離線有可能是由于上層的片障導(dǎo)致的,比如OLT離線了,OLT PON板故障,PON口LOS告警等。系統(tǒng)輪巡全網(wǎng)OLT獲取ONU狀態(tài)信息,并實(shí)時(shí)更新MySQL數(shù)據(jù)庫(kù)中ONU的狀態(tài)值,數(shù)據(jù)處理模塊根據(jù)特定算法,定期查詢OLT、板卡、PON口是否存在故障,通過(guò)后臺(tái)數(shù)據(jù)管道算法進(jìn)行告警過(guò)濾,過(guò)濾掉片障影響的ONU。
(2)過(guò)濾ODN故障
圖4 ODN診斷測(cè)試
根據(jù)ONU狀態(tài)建立ODN診斷測(cè)試分析模型,同步GIS系統(tǒng)一、二級(jí)分光器的資源信息,針對(duì)同一個(gè)二級(jí)分光器下只要有ONU在線,則該二級(jí)分光器正常;同一PON口下只要有ONU在線,則該一級(jí)分光器正常。將ODN分光器故障數(shù)據(jù)和正常ONU掉電數(shù)據(jù)進(jìn)行過(guò)濾,僅保留正常情況下的ONU斷纖告警。
(3)過(guò)濾二級(jí)OBD故障
由于GIS資源數(shù)據(jù)準(zhǔn)確性在80%左右,網(wǎng)管無(wú)法根據(jù)GIS資源準(zhǔn)確找到二級(jí)OBD下的光貓數(shù)據(jù),無(wú)法根據(jù)光貓狀態(tài)準(zhǔn)確判斷二級(jí)OBD是否存在故障,只能給出疑似故障,網(wǎng)管先過(guò)濾出PON口下所有斷纖的光貓數(shù)據(jù),再根據(jù)光貓最后一次離線時(shí)間進(jìn)行過(guò)濾(將離線時(shí)間超過(guò)48小時(shí)的數(shù)據(jù)過(guò)濾),如果存在兩個(gè)同一時(shí)間離線的光貓,則判斷該P(yáng)ON口下存在疑似二級(jí)OBD故障,帶出該P(yáng)ON口下所有的二級(jí)OBD信息并標(biāo)注疑似故障的二級(jí)OBD及帶出光貓LOID信息,方便運(yùn)維人員處理故障。
先于客戶發(fā)現(xiàn)寬帶故障方法經(jīng)過(guò)景德鎮(zhèn)樂(lè)平縣試點(diǎn)后逐步推廣至全省,在用戶發(fā)現(xiàn)故障撥打10000號(hào)申告前派單給裝維工程師處理,降低了10000號(hào)話務(wù)坐席的話務(wù)壓力,減少了話務(wù)人員、話務(wù)設(shè)備的投入,實(shí)施效果明顯。根據(jù)統(tǒng)計(jì),全省推廣之后先于客戶發(fā)現(xiàn)故障派單量達(dá)到了每天3000張,用戶撥打10000號(hào)并派裝維的工單明顯下降,派申告量下降35.6%,皮線故障原因占比由11.6%下降至4.32%。
近兩年江西正在規(guī)模推進(jìn)秀美鄉(xiāng)村建設(shè)、城鄉(xiāng)改造、創(chuàng)文創(chuàng)衛(wèi)等政府主導(dǎo)的工程,先于客戶發(fā)現(xiàn)寬帶故障方法在應(yīng)對(duì)新常態(tài)的突發(fā)性市政施工導(dǎo)致通信中斷積累了經(jīng)驗(yàn),為探索降低用戶申告,實(shí)現(xiàn)智慧運(yùn)維提供了新思路,對(duì)于兄弟省份而言,具有可實(shí)施性和一定的參考實(shí)用價(jià)值。