李堯輝,霍龍浩,何境宇
(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,廣州 510623)
通信網(wǎng)絡(luò)迅猛發(fā)展及網(wǎng)絡(luò)規(guī)模日益擴(kuò)大,使大量通信網(wǎng)元每天產(chǎn)生海量告警信息;同時(shí),在電信行業(yè)網(wǎng)絡(luò)管理集中化趨勢(shì)下[1,2],大量告警監(jiān)控任務(wù)集中在少量監(jiān)控人員上。因此,對(duì)從海量告警中快速定位、處理故障的手段和能力提出了更高的要求,特別是通信網(wǎng)絡(luò)底層無線、傳輸設(shè)備量大以及告警量較上層設(shè)備多,手段與能力的提升更顯得尤為迫切。
目前,主要通過告警關(guān)聯(lián)[3,4,5]、智能預(yù)處理[6]等手段實(shí)現(xiàn)海量告警的壓縮和智能化處理,協(xié)助定位故障。文獻(xiàn)[7]提出一種無線故障原因預(yù)處理方法,基站退服時(shí)通過關(guān)聯(lián)分析各類告警,根據(jù)停電、傳輸設(shè)備、傳輸線路等原因按優(yōu)先級(jí)預(yù)處理對(duì)故障進(jìn)行智能定位。文獻(xiàn)[8]中提出一種引起大面積基站退服的傳輸故障定位方法及裝置,針對(duì)大面積基站退服場(chǎng)景,通過找出傳輸故障引起的退服基站,分析其與承載這些基站的傳輸電路、傳輸光路的對(duì)應(yīng)關(guān)系,從而定位故障光路信息??偟膩碚f,這些方法通過告警關(guān)聯(lián)等預(yù)處理手段,提升傳輸故障、退服、大面積退服等典型故障場(chǎng)景的定位效率。但這些方法一般側(cè)重關(guān)聯(lián)規(guī)則挖掘或針對(duì)某一特定場(chǎng)景故障定位,并不通用批量退服、批量脫管或停電等無線、傳輸故障場(chǎng)景定位及故障影響面分析;而且基于傳輸電路、傳輸光路與退服基站的對(duì)應(yīng)關(guān)系需要有傳輸電路中間段每一跳路由的群路口信息才能實(shí)現(xiàn),而現(xiàn)網(wǎng)電路資源信息往往只有首末兩端支路口信息沒有完備中間段路由群口信息,因此實(shí)現(xiàn)難度較大。
本文提出一種基于子網(wǎng)拓?fù)涞臒o線、傳輸故障分析方法,該方法對(duì)無線、傳輸告警流關(guān)聯(lián)傳輸子網(wǎng),并對(duì)告警流進(jìn)行以同一傳輸子網(wǎng)為單位的渲染分析定位,并提出基于樹圖回溯法的業(yè)務(wù)影響面分析,從而提高無線、傳輸故障定位效率,增強(qiáng)故障影響面掌控能力及資源調(diào)度能力。
基于子網(wǎng)拓?fù)涞臒o線、傳輸故障分析方法主要步驟如下:第一,獲取現(xiàn)網(wǎng)退服、市電、LOS等無線、傳輸特定告警流;第二,對(duì)獲取的告警流匹配傳輸子網(wǎng),得到每個(gè)告警網(wǎng)元關(guān)聯(lián)的傳輸子網(wǎng);第三,對(duì)告警流進(jìn)行子網(wǎng)拓?fù)滗秩痉治龆ㄎ还收宵c(diǎn),即以傳輸子網(wǎng)為單位渲染呈現(xiàn)無線、傳輸告警流;最后,基于樹圖回溯法分析故障的業(yè)務(wù)影響范圍。具體的分析流程圖如圖1所示。
圖1 基于子網(wǎng)拓故障分析方法
其中,獲取特定告警流指獲取指定時(shí)間段內(nèi)、指定區(qū)域、指定設(shè)備、指定類別的告警流。一般在告警監(jiān)控、故障分析的場(chǎng)景下,指定區(qū)域是某個(gè)地市或者地區(qū);指定設(shè)備可以是一個(gè)或多個(gè)基站或傳輸設(shè)備,實(shí)際應(yīng)用場(chǎng)景也可不指定設(shè)備;指定類別即指定無線、傳輸?shù)闹匾婢悇e,重要無線告警類別一般包括退服告警、網(wǎng)元斷鏈告警、S1斷鏈告警、市電告警、低壓告警等,重要傳輸告警類別一般包括網(wǎng)元脫管告警、LOS告警等。獲取特定告警流最終目的是從監(jiān)控的告警出發(fā),通過上述各維度選出數(shù)量異常的告警流或與當(dāng)前故障最為相關(guān)的特定告警流用作后續(xù)的分析。
獲取特定告警流后可以根據(jù)不同類別告警流通過不同方法獲取對(duì)應(yīng)的傳輸子網(wǎng),具體如圖2所示。對(duì)于傳輸專業(yè)脫管告警、LOS告警等告警可通過告警上報(bào)的傳輸網(wǎng)元所屬傳輸子網(wǎng)直接得到關(guān)聯(lián)的傳輸子網(wǎng)。對(duì)于無線專業(yè)指定告警、退服告警、網(wǎng)元斷鏈告警、S1斷鏈告警可通過基站及端口獲取電路編號(hào),通過電路編號(hào)進(jìn)而獲取電路首末兩端傳輸網(wǎng)元,通過首末兩端傳輸網(wǎng)元所屬傳輸子網(wǎng)得到關(guān)聯(lián)的傳輸子網(wǎng);市電、低壓告警可通過基站所屬機(jī)房信息獲取所在機(jī)房,進(jìn)而獲取同機(jī)房傳輸網(wǎng)元,從該傳輸網(wǎng)元所屬傳輸子網(wǎng)得到關(guān)聯(lián)的傳輸子網(wǎng)。
圖2 告警獲取相關(guān)傳輸子網(wǎng)流程圖
獲取特定告警流、關(guān)聯(lián)傳輸子網(wǎng)后,便可定位告警最為集中的一個(gè)或多個(gè)傳輸子網(wǎng),進(jìn)而進(jìn)行子網(wǎng)拓?fù)滗秩痉治?、定位故障點(diǎn)。每次選取一個(gè)傳輸子網(wǎng)進(jìn)行渲染分析,通過多次選擇實(shí)現(xiàn)多個(gè)子網(wǎng)分析。先通過資源信息呈現(xiàn)所選取子網(wǎng)傳輸拓?fù)?,拓?fù)溆稍撟泳W(wǎng)各個(gè)傳輸網(wǎng)元鏈接形成,并呈現(xiàn)該子網(wǎng)中環(huán)路下帶子環(huán)(呈現(xiàn)子環(huán)下帶網(wǎng)元個(gè)數(shù)),如圖3所示。根據(jù)告警流關(guān)聯(lián)的傳輸網(wǎng)元信息(告警流關(guān)聯(lián)傳輸子網(wǎng)過程均會(huì)關(guān)聯(lián)對(duì)應(yīng)傳輸網(wǎng)元),將告警渲染到子網(wǎng)拓?fù)渖希ㄟ^不同顏色渲染代表不同類別告警。對(duì)選定的傳輸子網(wǎng)分無線、傳輸兩個(gè)圖層進(jìn)行渲染分別對(duì)應(yīng)兩個(gè)專業(yè)的故障,無線圖層渲染無線告警、傳輸圖層渲染傳輸告警及動(dòng)環(huán)告警。當(dāng)一個(gè)網(wǎng)元有多個(gè)告警時(shí),可渲染優(yōu)先級(jí)較高的告警,按告警的重要程度可將優(yōu)先級(jí)進(jìn)行如下設(shè)置,無線圖層退服告警>網(wǎng)元斷鏈告警>S1斷鏈告警>低壓告警>市電告警,傳輸圖層脫管告警>LOS告警>低壓告警>市電告警。另外,可在拓?fù)湎路搅谐鰝鬏斪泳W(wǎng)的所有指定告警流告警信息,點(diǎn)擊傳輸子網(wǎng)的某個(gè)傳輸網(wǎng)元時(shí)可列出渲染在該圖層該網(wǎng)元的網(wǎng)元信息及告警信息。由此可較為清晰呈現(xiàn)子網(wǎng)拓?fù)涞母婢闆r便于發(fā)現(xiàn)故障點(diǎn),對(duì)于無線退服、網(wǎng)元斷鏈、S1斷鏈告警,可以聯(lián)動(dòng)市電、低壓告警以及傳輸告警在拓?fù)涞姆植嘉恢茫ㄎ皇须?、傳輸或設(shè)備等原因造成的退服或斷鏈;無線或傳輸市電、低壓告警以及傳輸?shù)腖OS、脫管告警,可通過其在拓?fù)涞奈恢门袛鄻I(yè)務(wù)影響面。
圖3 子網(wǎng)拓?fù)滗秩痉治鍪疽鈭D
根據(jù)上述子網(wǎng)拓?fù)滗秩痉治觯奢^為直觀對(duì)批量告警的故障點(diǎn)進(jìn)行定位,并根據(jù)渲染的子網(wǎng)拓?fù)涠ㄐ耘袛鄻I(yè)務(wù)影響的范圍。在此基礎(chǔ)上,能通過樹圖回溯法進(jìn)一步定量判斷故障業(yè)務(wù)影響范圍。先建立告警網(wǎng)元列表,將獲取指定告警流關(guān)聯(lián)的傳輸網(wǎng)元放入告警網(wǎng)元列表;同時(shí)建立業(yè)務(wù)影響網(wǎng)元列表用以儲(chǔ)存業(yè)務(wù)可能受影響的傳輸網(wǎng)元。業(yè)務(wù)影響網(wǎng)元列表建立時(shí)為空,通過以下方法找出業(yè)務(wù)受影響的傳輸網(wǎng)元放入列表:從告警網(wǎng)元列表中選取一個(gè)告警網(wǎng)元,并同時(shí)將其從告警網(wǎng)元列表剔除,判斷該告警網(wǎng)元是否在業(yè)務(wù)影響網(wǎng)元列表內(nèi)若是則重新選擇(首次判斷時(shí)業(yè)務(wù)影響網(wǎng)元列表為空可直接進(jìn)行后續(xù)判斷);若不在則判斷其是否在拓?fù)涞膯捂溕稀⒒蚴欠癍h(huán)路上唯一告警網(wǎng)元,若是上述兩種情況之一則將該網(wǎng)元及其下掛網(wǎng)元列入業(yè)務(wù)影響網(wǎng)元列表后重新選擇告警網(wǎng)元,若告警網(wǎng)元是環(huán)路上非唯一告警網(wǎng)元?jiǎng)t進(jìn)一步通過樹圖回溯法找出業(yè)務(wù)影響網(wǎng)元列入業(yè)務(wù)影響網(wǎng)元列表,重復(fù)上述步驟直至告警網(wǎng)元列表為空。最后對(duì)業(yè)務(wù)影響網(wǎng)元列表中網(wǎng)元去重,得到可能受影響的所有傳輸網(wǎng)元,進(jìn)而關(guān)聯(lián)出下帶的可能受影響的無線網(wǎng)元等數(shù)目。
其中通過樹圖回溯法找出環(huán)路非唯一告警網(wǎng)元的業(yè)務(wù)影響網(wǎng)元,如圖4所示。具體以故障網(wǎng)元為根節(jié)點(diǎn)NE,與其相鄰網(wǎng)元作為第1層子節(jié)點(diǎn),查找并構(gòu)建第1層子節(jié)點(diǎn)集{子節(jié)點(diǎn)網(wǎng)元1,子節(jié)點(diǎn)網(wǎng)元2,…,子節(jié)點(diǎn)網(wǎng)元N},遍歷第1層子節(jié)點(diǎn)集并以第1層子節(jié)點(diǎn)的相鄰網(wǎng)元(剔除上一層節(jié)點(diǎn))構(gòu)建第2層子節(jié)點(diǎn)集{子節(jié)點(diǎn)網(wǎng)元1.1,子節(jié)點(diǎn)網(wǎng)元1.2,…,子節(jié)點(diǎn)網(wǎng)元N.N},如此循環(huán),形成樹狀拓?fù)?。樹狀拓?fù)涞拿恳粭l分支以子網(wǎng)上聯(lián)傳輸網(wǎng)元(連接該子網(wǎng)與上一層級(jí)子網(wǎng)的傳輸網(wǎng)元)終結(jié)或以子節(jié)點(diǎn)除上層網(wǎng)元外沒有其它相鄰網(wǎng)元終止。構(gòu)建樹圖后,從某一最底層葉子節(jié)點(diǎn)回溯找到第一個(gè)帶告警的傳輸網(wǎng)元(此處指帶告警傳輸網(wǎng)元而非在告警網(wǎng)元列表內(nèi)的網(wǎng)元,部分帶告警傳輸網(wǎng)元可能在尋找影響網(wǎng)元過程中被剔除出告警網(wǎng)元列表中),第一個(gè)帶告警的傳輸網(wǎng)元到根節(jié)點(diǎn)間的所有傳輸網(wǎng)元為業(yè)務(wù)影響網(wǎng)元列入業(yè)務(wù)影響網(wǎng)元列表中。若某一支路只有根節(jié)點(diǎn)一個(gè)網(wǎng)元為告警網(wǎng)元,當(dāng)終止節(jié)點(diǎn)為上聯(lián)網(wǎng)元?jiǎng)t該支路只有根節(jié)點(diǎn)列入業(yè)務(wù)影響網(wǎng)元列表,當(dāng)終止節(jié)點(diǎn)為普通傳輸網(wǎng)元?jiǎng)t整條支路網(wǎng)元列入業(yè)務(wù)影響網(wǎng)元列表。遍歷所有最底層葉子節(jié)點(diǎn)找出該環(huán)路所有影響網(wǎng)元。圖4樹圖回溯法中,若環(huán)路中有套環(huán)情況,需將所套子環(huán)解成單鏈避免進(jìn)入死循環(huán),即當(dāng)檢測(cè)到某兩條支路有兩個(gè)相同網(wǎng)元(根節(jié)點(diǎn)外)時(shí),則將兩條支路合并成一條支路,合并支路的網(wǎng)元取兩條支路的并集。
圖4 樹圖回溯法判定環(huán)路業(yè)務(wù)影響面
對(duì)樹圖回溯法找環(huán)路非唯一告警網(wǎng)元的業(yè)務(wù)影響網(wǎng)元舉例如圖5所示。環(huán)路有A-J10個(gè)傳輸網(wǎng)元,其中A和F為告警網(wǎng)元,D為上聯(lián)傳輸網(wǎng)元。以故障網(wǎng)元A為根節(jié)點(diǎn),第1層網(wǎng)元為子節(jié)點(diǎn)B、H;第2層為G、C;第3層為F、I、D,其中D為上聯(lián)傳輸網(wǎng)元故該支路終止;第4層為J、E,J無其它相鄰網(wǎng)元該支路終止;第5層為D,D為上聯(lián)傳輸網(wǎng)元故該支路終止。形成樹狀拓?fù)浜?,從各支路的底層?jié)點(diǎn)(D、J、D)往上回溯,A-H-G-I-J只有根節(jié)點(diǎn)為告警網(wǎng)元且終止節(jié)點(diǎn)為普通節(jié)點(diǎn)故全部列入受影響網(wǎng)元列表,A-B-C-D只有根節(jié)點(diǎn)為告警網(wǎng)元且終止節(jié)點(diǎn)為上聯(lián)傳輸網(wǎng)元?jiǎng)t只有A列入受影響網(wǎng)元列表,A-H-G-F-E-D回溯第一個(gè)告警網(wǎng)元為F故A-H-G-F列入受影響網(wǎng)元列表,受影響網(wǎng)元列表去重后又A、H、G、F、I、J 6個(gè)網(wǎng)元。
通過上述方法可定量得出故障可能影響的傳輸網(wǎng)元數(shù)目以及下帶的基站數(shù)目,并根據(jù)具體受影響網(wǎng)元列表中的網(wǎng)元重要程度調(diào)度資源優(yōu)先恢復(fù)重要網(wǎng)元。
本文針對(duì)底層無線、傳輸網(wǎng)絡(luò)告警量大及故障難以定位的問題,提出一種基于子網(wǎng)拓?fù)涞墓收戏治龇椒?,該方法可以通過獲取指定告警流,對(duì)告警流匹配傳輸子網(wǎng)進(jìn)行渲染分析故障定位,在子網(wǎng)渲染分析的基礎(chǔ)上進(jìn)一步通過樹圖回溯法定量分析業(yè)務(wù)影響范圍。根據(jù)實(shí)際應(yīng)用測(cè)試,對(duì)2017年1-2月兩起批量退服故障進(jìn)行分析,有效協(xié)助監(jiān)控人員10min內(nèi)定位故障傳輸子環(huán),支撐業(yè)務(wù)影響面分析。該方法能有效提高故障定位效率、分析故障業(yè)務(wù)影響范圍,根據(jù)業(yè)務(wù)影響范圍進(jìn)行資源調(diào)度,提升監(jiān)控及故障處理能力。該方法不局限某一種的特定告警而覆蓋無線、傳輸重要告警,而且依賴簡(jiǎn)單的資源信息達(dá)到挖掘告警共性的效果,有較好的推廣意義。
圖5 環(huán)路非唯一告警網(wǎng)元案例
[1] 矯秀梅. 推進(jìn)集中故障管理提升網(wǎng)絡(luò)生產(chǎn)效率[J]. 科技與創(chuàng)新, 2014,20:137-138.
[2] 李永強(qiáng), 張瑞. 面向用戶感知的集中化性能管理模式探索與實(shí)踐[J]. 移動(dòng)通信, 2016,40(14)34-37.
[3] 趙振東, 黃楠, 李紫涵. SDH系統(tǒng)網(wǎng)路故障的告警關(guān)聯(lián)分析[J],2012,33(236):63-66.
[4] 徐前方, 闞建杰, 李永春. 一種具有時(shí)序特征的告警關(guān)聯(lián)規(guī)則挖掘算法[J],2007,24(3):23-26.
[5] 張永華. 基于大數(shù)據(jù)技術(shù)的電信網(wǎng)絡(luò)告警關(guān)聯(lián)分析設(shè)計(jì)與實(shí)現(xiàn)[J], 2016,29(4):18-23.
[6] 張滿盧, 卓君, 馮劍明. 傳輸告警自動(dòng)預(yù)處理方法研究[J],2014,9:102-104.
[7] 柴宗弘, 韓建友, 馬英香. 一種無線網(wǎng)絡(luò)故障原因預(yù)處理方法及無線網(wǎng)絡(luò)故障工單派發(fā)系統(tǒng): 104270779[P]. 2015-01-07.
[8] 魏麗紅, 聶宇田, 王歆波. 一種引起大面積基站退服的傳輸故障定位方法及裝置: 104254095[P]. 2014-12-31.