中國移動通信集團(tuán)江蘇有限公司南京分公司 周 雋
當(dāng)前服務(wù)質(zhì)量優(yōu)化工作,往往依賴于用戶投訴或故障觸發(fā),業(yè)務(wù)相關(guān)的薄弱環(huán)節(jié)難發(fā)現(xiàn)、難預(yù)知。因此,迫切需要建立一套從“服務(wù)性能監(jiān)視”到“服務(wù)瓶頸發(fā)現(xiàn)”到“主動干預(yù)調(diào)整”的依賴流程驅(qū)動的自激勵模式,使得事后維護(hù)向事前維護(hù)轉(zhuǎn)變,補(bǔ)救性維護(hù)向預(yù)防性維護(hù)轉(zhuǎn)變。
重點滿足互聯(lián)網(wǎng)運維中如下幾個方面的需求:
1)建立全面、科學(xué)的寬帶運營維護(hù)評估體系,實現(xiàn)服務(wù)質(zhì)量可視化;
2)提供基于拓?fù)涔芾淼脑O(shè)備和鏈路管理手段,實現(xiàn)對網(wǎng)元運行狀態(tài)和故障的實時監(jiān)控;
3)建立預(yù)判告警手段,實現(xiàn)對潛在故障點和薄弱環(huán)節(jié)的前發(fā)現(xiàn)、提前改進(jìn),并能通過郵件、短信等方式進(jìn)行告警通知。
4)支持全面應(yīng)用環(huán)節(jié)監(jiān)控管理,提供DNS(域名系統(tǒng))用戶掉線、認(rèn)證性能等寬帶業(yè)務(wù)及應(yīng)用相關(guān)性能數(shù)據(jù),并進(jìn)行統(tǒng)計分析;
5)采用客戶端排障與網(wǎng)絡(luò)故障排查相結(jié)合的方式,提供直觀快速的故障排查手段,建立用戶維度上網(wǎng)接入設(shè)備的級聯(lián)模型,實現(xiàn)故障點的快速定位;
6)系統(tǒng)自動對用戶賬號與IP地址動態(tài)匹配關(guān)聯(lián),實現(xiàn)從用戶維度對用戶行為及網(wǎng)服務(wù)質(zhì)量的監(jiān)控管理。
系統(tǒng)采用指標(biāo)集中監(jiān)測、資源級聯(lián)發(fā)現(xiàn)及主動仿真測試相結(jié)合的方式,將用戶感知與網(wǎng)絡(luò)質(zhì)量數(shù)據(jù)從用戶維度加以關(guān)聯(lián)分析和展現(xiàn)。系統(tǒng)結(jié)構(gòu)如圖1所示。
系統(tǒng)功能包括數(shù)據(jù)采集處理、接入質(zhì)量分析、傳輸質(zhì)量分析、用戶感知分析、寬帶認(rèn)證分析、流量分析、DNS性能分析、綜合告警管理、智能排障處理、統(tǒng)一資源管理、實時監(jiān)控、系統(tǒng)管理等功能模塊,見圖2。
2.2.1 數(shù)據(jù)采集處理
數(shù)據(jù)采集是所有服務(wù)質(zhì)量監(jiān)控與網(wǎng)絡(luò)管理的前提。數(shù)據(jù)采集主要包括數(shù)據(jù)的收集、數(shù)據(jù)整理和數(shù)據(jù)預(yù)處理(如過濾、對照、豐富等)。為了保證數(shù)據(jù)采集的完整性,系統(tǒng)提供對數(shù)據(jù)采集結(jié)果的瀏覽和手動啟動采集的能力,即通過定制采集的周期和時間,實現(xiàn)對日常數(shù)據(jù)的自動采集,當(dāng)由于異常情況引起采集失敗的時候,通過啟動手動數(shù)據(jù)采集進(jìn)行數(shù)據(jù)補(bǔ)采。同時,對采集到的性能數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)聚合、統(tǒng)計等處理工作,并靈活定義告警門限,及時生成告警信息;對采集到的用戶流量數(shù)據(jù)通過與RADUIS數(shù)據(jù)的比對處理,形成用戶賬號與IP流量對象的邏輯關(guān)聯(lián)。
2.2.2 接入質(zhì)量分析
系統(tǒng)定期自動獲取本地網(wǎng)異常掉線用戶的相關(guān)信息,提供接入質(zhì)量相關(guān)的掉線匯總統(tǒng)計、掉線類型統(tǒng)計、用戶掉線排行、BAS掉線排行。
2.2.3 傳輸質(zhì)量測試分析
對用戶來說,鏈路質(zhì)量的好壞直接關(guān)系到整個網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)馁|(zhì)量,同時也會直接影響為客戶提供服務(wù)的質(zhì)量。系統(tǒng)提供了完善傳輸性能測試工具,并通過圖表的方式,對所關(guān)注的各鏈路性能進(jìn)行分析。系統(tǒng)可靈活定制測試任務(wù)計劃,對各考核路徑的丟包率、延時指標(biāo)進(jìn)行統(tǒng)計。
2.2.4 用戶感知分析
鑒于互聯(lián)網(wǎng)業(yè)務(wù)日趨多樣、用戶行為復(fù)雜等特點,用傳統(tǒng)的網(wǎng)絡(luò)質(zhì)量評估方式很難有效反映客戶感知。系統(tǒng)通過仿真探針與客戶端方式實現(xiàn)網(wǎng)頁訪問、在線視頻、網(wǎng)絡(luò)游戲等主流業(yè)務(wù)端到端的服務(wù)質(zhì)量評估,從而指導(dǎo)維護(hù)優(yōu)化工作,改善網(wǎng)絡(luò)客戶感知,降低網(wǎng)絡(luò)客戶投訴。
2.2.5 寬帶認(rèn)證分析
系統(tǒng)實時采集RADIUS(遠(yuǎn)程用戶撥號認(rèn)證系統(tǒng))計費和認(rèn)證消息數(shù)據(jù),提供在線用戶分析、RADIUS性能分析、掉線原因分析、多端口用戶分析、用戶認(rèn)證記錄查詢等功能。
2.2.6 流量與性能分析
系統(tǒng)對路由器、BAS、OLT、ONU的端口流量及性能指標(biāo)進(jìn)行周期性采集分析,提供全環(huán)節(jié)的監(jiān)控保障。同時,通過自動采集配置帶寬,實現(xiàn)端口占比及突變預(yù)警。
2.2.7 DNS性能分析
系統(tǒng)實時采集用戶的DNS報文分析,提供指定DNS服務(wù)器性能分析。
提供指定周期內(nèi),不同DNS服務(wù)器、各時段分布的壓力分析。統(tǒng)計數(shù)據(jù)項包括:請求總包數(shù)、回包數(shù)、成功解析包數(shù)、平均響應(yīng)時長、響應(yīng)成功率、解析成功率。
提供指定周期內(nèi),不同DNS服務(wù)器解析失敗原因分類分析,提供失敗數(shù)、失敗率統(tǒng)計。
2.2.8 綜合告警臺
綜合預(yù)警臺通過主動檢測關(guān)鍵服務(wù)指標(biāo)、集中展現(xiàn)最新“預(yù)警信息”。運維人員可根據(jù)預(yù)警級別進(jìn)行確認(rèn)和優(yōu)化處理。
告警信息包括:BAS在線人數(shù)告警、接口流量告警、RADIUS告警、DNS服務(wù)告警、鏈路質(zhì)量告警、設(shè)備故障告警等。
提供依據(jù)事件分類配置不同報警規(guī)則的設(shè)置頁面,報警信息將按照事件分類與通知規(guī)則的對應(yīng)關(guān)系通過短信、E-mail兩種方式及時通知到管理員。
2.2.9 智能排障處理
通過自動建立“用戶上網(wǎng)設(shè)備級聯(lián)模型”,從“寬帶賬號”維度整合設(shè)備告警、流量擁塞、認(rèn)證失敗、異常掉線、網(wǎng)絡(luò)性能,方便運維人員快速定位故障。代維及客服人員可以Web終端方式登錄,通過簡單操作實現(xiàn)報障提前診斷與預(yù)處理,簡化后續(xù)流程。
2.2.10 統(tǒng)一資源管理
鑒于傳統(tǒng)資源臺賬人工維護(hù)的工作量壓力與準(zhǔn)確性差異,資源管理重點實現(xiàn)PON(無源光網(wǎng)絡(luò))資源的自動登記管理,根本解決手工維護(hù)信息問題。系統(tǒng)功能包括:設(shè)備信息管理、鏈路維護(hù)管理、鏈路群維護(hù)管理、區(qū)域信息管理、設(shè)備級聯(lián)關(guān)系查詢、設(shè)備資源占用率統(tǒng)計等功能。
2.2.11 系統(tǒng)管理
系統(tǒng)管理提供用戶權(quán)限管理、日志管理、參數(shù)管理等功能。
系統(tǒng)中各種基礎(chǔ)數(shù)據(jù)的獲取,主要通過協(xié)議適配器、測試管理工具、寬帶客戶端、應(yīng)用接口這4種方式進(jìn)行采集。
1)協(xié)議適配器:由分布式數(shù)據(jù)采集網(wǎng)關(guān)(GW)和適配器模塊組成,支持?jǐn)?shù)據(jù)的分布式采集、前置預(yù)處理、歸一化處理功能。提供基于通用設(shè)施(如線程池、數(shù)據(jù)庫連接池,任務(wù)隊列、消息緩存和過濾機(jī)制等)的各種協(xié)議采集,如SNMP(簡單網(wǎng)絡(luò)管理協(xié)議)、NetFlow(一種數(shù)據(jù)交換方式)/NetStream(提供報文統(tǒng)計功能)、RADUIS、NAT(網(wǎng)絡(luò)地址轉(zhuǎn)換)、DNS、Syslog(系統(tǒng)操作日志)等,同時協(xié)議適配器可基于新的數(shù)據(jù)采集要求進(jìn)行靈活的協(xié)議擴(kuò)充。
2)測試管理框架:實現(xiàn)基于分布式測試服務(wù)器的主動測試管理,完成測試任務(wù)的統(tǒng)一下發(fā),測試結(jié)果數(shù)據(jù)的集中處理。主要功能包括統(tǒng)一任務(wù)管理器、服務(wù)通信模塊、多線程探測探針。探測探針可集中于核心服務(wù)器,也可根據(jù)測試需要靈活部署在網(wǎng)絡(luò)出口、接入層等網(wǎng)絡(luò)位置,實現(xiàn)對用戶端、網(wǎng)內(nèi)核心節(jié)點、網(wǎng)外目標(biāo)網(wǎng)站的雙向測試。
3)寬帶客戶端:寬帶撥號客戶端軟件在提供PPPoE(以太網(wǎng)上的點對點協(xié)議)撥號功能的同時,實現(xiàn)用戶自助的故障診斷功能。同時,客戶端內(nèi)置了應(yīng)用性能監(jiān)視引擎,可對關(guān)鍵網(wǎng)絡(luò)業(yè)務(wù)進(jìn)行服務(wù)感知測試,并將測試結(jié)果上傳給服務(wù)器,供服務(wù)器質(zhì)量分析和排障使用。服務(wù)感知測試內(nèi)容包括:網(wǎng)絡(luò)端到端性能、電子信函、文件傳輸、Web網(wǎng)頁傳輸?shù)取?/p>
4)應(yīng)用接口:系統(tǒng)一方面可以通過SOAP(簡單對象訪問協(xié)議)、API(應(yīng)用程序接口)、文件等接口方式實與第三方EMS(網(wǎng)元管理系統(tǒng))和NMS(網(wǎng)絡(luò)管理系統(tǒng))的數(shù)據(jù)獲取,如:客戶業(yè)務(wù)資料庫、客戶業(yè)務(wù)受理單等。同時系統(tǒng)也可以為其他管理系統(tǒng)提供不同層次開放標(biāo)準(zhǔn)的接口,最大限度地充分利用本系統(tǒng)的管理數(shù)據(jù)。互聯(lián)網(wǎng)質(zhì)量數(shù)據(jù)獲取見圖3。
完成在基礎(chǔ)數(shù)據(jù)抽象和聚合處理,形成基礎(chǔ)的數(shù)據(jù)源。主要包括數(shù)據(jù)處理引擎和專題分析插件兩部分。
1)數(shù)據(jù)處理引擎:對采集到的數(shù)據(jù)進(jìn)行抽象和對象化處理,并根據(jù)數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)聚合、對比關(guān)聯(lián)等處理,為保證數(shù)據(jù)處理效率,該部分工作在內(nèi)存中處理完成。系統(tǒng)采用內(nèi)存數(shù)據(jù)庫和高效緩沖池等技術(shù),實現(xiàn)大數(shù)據(jù)量的分析處理。
2)專題分析插件:主要基于專題數(shù)據(jù)源的數(shù)據(jù)處理,如實現(xiàn)多層次數(shù)據(jù)收斂,以及基于歷史數(shù)據(jù)和閥值控制的自動觸發(fā)等。包括接入質(zhì)量分析、寬帶認(rèn)證性能分析、網(wǎng)絡(luò)傳輸質(zhì)量分析、用戶感知性能、用戶流量分析、端口流量分析、DNS專題分析、NAT專題分析等插件。
PON設(shè)備的MIB(管理信息庫)消息中可提供ONU端口和MAC(媒體接入控制)的對應(yīng)關(guān)系,而系統(tǒng)同時監(jiān)聽用戶上網(wǎng)的RADIUS報文消息,系統(tǒng)通過MIB消息和RADIUS報文的動態(tài)匹配,可獲取用戶上網(wǎng)級聯(lián)設(shè)備信息。該方式優(yōu)點是信息采集并發(fā)獲取,信息獲取效率高。
主要應(yīng)用于用戶報障的快速處理,運維人員可通過輸入賬號進(jìn)行相關(guān)快捷查詢。系統(tǒng)可集中顯示用戶上網(wǎng)相關(guān)節(jié)設(shè)備狀態(tài),展現(xiàn)用戶最后認(rèn)證失敗原因、最后下線原因、級聯(lián)設(shè)備及端口信息、用戶上網(wǎng)記錄、用戶客戶端測試結(jié)果、用戶歷史故障等信息,根據(jù)系統(tǒng)給出的相關(guān)信息,方便維護(hù)人員快速定位故障并響應(yīng)處理。故障級聯(lián)見圖4。
1)從用戶的角度提升服務(wù):通過對異常掉線、用戶端口性能、寬帶認(rèn)證性能、網(wǎng)絡(luò)傳輸狀態(tài)、用戶感知性能等指標(biāo)的統(tǒng)計分析,可以建立對應(yīng)的質(zhì)量指標(biāo)考核體系和優(yōu)化辦法,從而實現(xiàn)對寬帶服務(wù)質(zhì)量的閉環(huán)管理;
2)從經(jīng)營的高度管理用戶:系統(tǒng)可以提供對每個用戶的網(wǎng)內(nèi)網(wǎng)外流量統(tǒng)計分析,進(jìn)而實現(xiàn)每個用戶流量成本的計算,為用戶評估和差異管理提供決策依據(jù);
3)從端口的粒度細(xì)化運維:通過對ONU端口與用戶賬號的動態(tài)關(guān)聯(lián)處理,可實現(xiàn)從用戶角度對每個指標(biāo)的查詢統(tǒng)計,對用戶投訴與故障便于分析管理。
系統(tǒng)的應(yīng)用重點對互聯(lián)網(wǎng)運維中如下幾個方面工作產(chǎn)生了較好的提升作用:
1)薄弱環(huán)節(jié)提前發(fā)現(xiàn),建立提前預(yù)警以及集中整改機(jī)制,有效降低萬投比(每月每萬收費用戶中的投訴數(shù)量);
2)提升接入層資源的精細(xì)化管理,提高設(shè)備利用率,為新增采購提供指導(dǎo);
3)駐地網(wǎng)裝機(jī)質(zhì)量第一時間自動分析,可在業(yè)務(wù)正式開通前完成不達(dá)標(biāo)整改。