[李忠諭 遲景升 李哲]
現(xiàn)網(wǎng)發(fā)生網(wǎng)絡(luò)故障時,通過系統(tǒng)結(jié)合網(wǎng)管告警和資源拓撲信息進行故障定位檢測,進而實施故障搶修,是當前運營商的主要的網(wǎng)絡(luò)運維方式。但是受設(shè)備或網(wǎng)管能力等原因影響,存在網(wǎng)管告警不完整的情況,表現(xiàn)為現(xiàn)網(wǎng)發(fā)生了故障,但是并沒有產(chǎn)生對應(yīng)的網(wǎng)管告警。這部分不能通過告警觸發(fā)檢測出來的故障,仍然需要依靠用戶申告業(yè)務(wù)故障后再進行人工排查和定位故障點,這不能滿足當前智慧化運維的要求。
本文通過應(yīng)用用戶申告工單觸發(fā)進行光接入網(wǎng)故障分析,能夠快速自動定位故障段落,作為一種通過告警觸發(fā)進行故障分析的補充手段,實現(xiàn)系統(tǒng)檢測光接入網(wǎng)故障的全面覆蓋。
本方法通過用戶申告工單觸發(fā)系統(tǒng)流程,根據(jù)預設(shè)的故障分析流程,結(jié)合網(wǎng)管和資源信息定位故障段落,實現(xiàn)系統(tǒng)對光接入網(wǎng)故障的主動檢測。
系統(tǒng)首先接收用戶申告工單,提取工單中的業(yè)務(wù)接入號,查詢到接入號關(guān)聯(lián)的終端信息,進而查詢網(wǎng)管上此終端所屬PON 口下的網(wǎng)管信息,獲取關(guān)聯(lián)ONU的運行狀態(tài)和離線時間,再結(jié)合資源網(wǎng)絡(luò)拓撲信息,通過故障分析邏輯實現(xiàn)故障段落定位,整體方案框架如圖1 所示。
圖1 故障分析方案框架
2.2.1 通過用戶申告工單關(guān)聯(lián)終端設(shè)備
當用戶發(fā)現(xiàn)業(yè)務(wù)不可用時,可以通過撥打10000 號或微信公眾號等渠道進行故障申告,工單處理系統(tǒng)將生成相應(yīng)的申告工單,申告工單信息包括故障現(xiàn)象、故障業(yè)務(wù)接入號等(其中工單中故障現(xiàn)象為規(guī)范化的描述,比如網(wǎng)絡(luò)不可用、網(wǎng)速慢、頻繁掉線等)。系統(tǒng)采用JDBC的方式,接收工單處理系統(tǒng)的用戶申告工單信息,提取故障現(xiàn)象為“網(wǎng)絡(luò)不可用”的工單,按工單信息中的業(yè)務(wù)接入號查詢到對應(yīng)的終端設(shè)備,以此終端設(shè)備定義為申告設(shè)備,從而實現(xiàn)了從用戶申告轉(zhuǎn)變?yōu)榻K端告警行為。
2.2.2 查看申告設(shè)備同PON 口網(wǎng)管信息
以該用戶申告業(yè)務(wù)接入號查詢的終端為申告設(shè)備ONU,系統(tǒng)查詢網(wǎng)管上同PON 口下的所有ONU的運行狀態(tài),獲取到所有終端的當前狀態(tài)以及最后一次離線時間(LASTOFFTIME)。終端的運行狀態(tài)主要分為三類,分別是UP 狀態(tài)、LOS 狀態(tài)和POWEROFF 狀態(tài)等,網(wǎng)管上ONU的最后一次離線時間記錄的是ONU 最后一次從在線狀態(tài)轉(zhuǎn)變?yōu)榉窃诰€狀態(tài)的時間,包括ONU 最后一次從UP 狀態(tài)轉(zhuǎn)變?yōu)長OS 狀態(tài)的時間,或者ONU 最后一次從UP 狀態(tài)轉(zhuǎn)變?yōu)镻OWEROFF 狀態(tài)的時間。本文所述的ONU 離線時間,即是指該ONU的最后一次離線時間(LASTOFFTIME)。
2.2.3 結(jié)合資源拓撲信息進行分析
根據(jù)PON 網(wǎng)絡(luò)分光結(jié)構(gòu),上聯(lián)光路終端會引起下聯(lián)所有在線ONU 同時離線,因此,當某條上聯(lián)光路下掛的所有在線ONU 同時離線時,可以認為是上聯(lián)光路發(fā)生了故障[1,2]。
結(jié)合資源拓撲進行故障定位,以PON 網(wǎng)絡(luò)二級分光為例,輸出主光路斷(PON 口至一級OBD 段落故障)、分支光路斷(一級OBD 至二級OBD 段落故障)、皮纖斷(二級OBD 至ONU 段落故障)。為了提高故障定位準確率,針對申告設(shè)備進行光接入網(wǎng)故障分析,系統(tǒng)定義了4 個原則。
(1)同時離線定義:考慮到時延、系統(tǒng)交互影響等原因,以申告設(shè)備的離線時間作為故障分析基準時間點T0,認為在故障分析時間點前后10 分鐘時間段(記為T0±10)基準時間段。在基準時間段內(nèi)離線的ONU 屬于與申告設(shè)備同時離線。本文描述的同時離線,均是指在T0±10 分鐘時間段內(nèi)離線。
(2)上聯(lián)故障排除原則:現(xiàn)網(wǎng)發(fā)生上聯(lián)光路故障會導致該光路下掛所有ONU 立刻離線,如果故障發(fā)生后,上聯(lián)光路下掛的設(shè)備存在在線的、在T0±10 分鐘后離線的ONU(比如,有個設(shè)備離線了,但是它是在T0的30分鐘后離線的,那么造成申告設(shè)備離線的故障與這個設(shè)備離線的原因并不相同,申告設(shè)備離線的時候,這個設(shè)備是在線的。間接也可以證明,申告設(shè)備離線的原因并不是上聯(lián)光路引起的),那么排除上聯(lián)光路是造成申告設(shè)備通信故障的原因。
(3)向下判定故障原則:發(fā)生上聯(lián)光路故障,下掛所有對象都將離線,且多個對象是屬于同時離線的,如果在故障時間段只有一個對象離線,系統(tǒng)認定是下聯(lián)線路發(fā)生故障,并不是上聯(lián)光路故障。對于分支光路是所有下掛ONU 都離線,且多個ONU 同時離線;對于主光路是所有二級OBD 下掛的ONU 都離線,且多個二級OBD的ONU 同時離線(即是說需要同時離線的ONU 分布在多個二級OBD 上,才認為多個二級OBD 共用的主光路故障)。
(4)掉電影響原則:受終端性能影響,部分ONU不具備上報掉電能力(表現(xiàn)為網(wǎng)管無法識別ONU 是否發(fā)生了掉電),為了提高故障檢測準確率,系統(tǒng)規(guī)定在故障發(fā)生時間段內(nèi),只要同PON 口下有掉電狀態(tài)的ONU,則認為本次故障是由于市電停電或者用戶關(guān)電等因素引起。
那么判斷故障段落的規(guī)則是:
(l)主光路斷:申告設(shè)備所在PON 口下掛所有ONU均離線,且沒有在T0+10 分鐘后離線的ONU,且在故障發(fā)生時有多個ONU 同時離線(系統(tǒng)采用至少2 個ONU同時離線,理論上同時離線的ONU 越多,故障判定就越準確),且同時離線的ONU 分布在多個OBD 上,判定為主光路斷。
(2)分支光路斷:申告設(shè)備所在二級OBD 下所有ONU 均離線,且沒有在T0+10 分鐘后離線的ONU,且在故障發(fā)生時有多個ONU 同時離線,但是在同一PON 口存在ONU 在線或T0+10 分鐘后離線的ONU,判定為分支光路斷。
(3)皮纖斷:故障發(fā)生時,有且只有申告設(shè)備離線,判定為皮纖斷。
(4)ONU 掉電:在申告設(shè)備離線同時,同PON 口下有ONU 發(fā)生掉電。
那么以申告設(shè)備觸發(fā)故障分析流程,對每個申告設(shè)備輸出對應(yīng)的故障結(jié)論,分析流程示意圖如圖2 所示。
圖2 故障分析流程示意圖
需要說明的是,當現(xiàn)網(wǎng)發(fā)生故障,如果系統(tǒng)通過網(wǎng)管告警實現(xiàn)了主動檢測到群障故障(群障故障是指比如主光路斷、分支光路斷等會影響多個用戶業(yè)務(wù)使用的故障),將直接主動派出故障單給現(xiàn)場搶修,同時會發(fā)起群障攔截[3],對于該群障影響的用戶申告進行攔截,不會再下申告工單,也不需要進入本文所述故障檢測流程,不至于產(chǎn)生重復故障單。當現(xiàn)網(wǎng)發(fā)生故障,由于網(wǎng)管告警丟失等其他原因?qū)е孪到y(tǒng)沒主動檢測到故障時,在首個受影響的用戶申告業(yè)務(wù)不可用故障后,系統(tǒng)經(jīng)過本文方法分析檢測到光接入網(wǎng)故障段落,輸出是主光路斷、分支光路斷等群障故障,或皮纖斷、ONU 掉電等單用戶故障,系統(tǒng)會即時發(fā)起故障搶修單或上門檢測單。對于檢測到的群障故障,系統(tǒng)也會同時發(fā)起群障攔截,當該群障影響的其他用戶再申告業(yè)務(wù)不可用故障時,將會被系統(tǒng)檢測到業(yè)務(wù)所在區(qū)域存在群障,而不需要再次進入故障分析流程。
電信運營商依靠網(wǎng)管告警觸發(fā)故障檢測,因為存在告警不完整的原因,僅僅能夠?qū)F(xiàn)網(wǎng)70%的光接入網(wǎng)故障主動檢測并派單搶修,依舊有30%的故障需要人工上門排查分析。本文方法上線后,運營商實現(xiàn)了系統(tǒng)主動檢測100%的光接入網(wǎng)故障,全面推進落地網(wǎng)絡(luò)運營主動維護模式,全面提升了光接入網(wǎng)監(jiān)控和維護支撐能力。
運營商通常管理的OLT 設(shè)備達到幾萬臺,如果通過升級設(shè)備或網(wǎng)管能力來保障告警上報能力,進而提升光接入網(wǎng)故障的主動分析檢測能力,將是一個浩大的投資。而本文所述方法,可以在現(xiàn)有軟硬件能力的基礎(chǔ)上,通過生產(chǎn)流程的數(shù)據(jù)應(yīng)用,即可實現(xiàn)系統(tǒng)主動檢測故障的全面覆蓋。