牟克璠(中國移動通信集團甘肅有限公司,甘肅蘭州 730070)
互聯(lián)網(wǎng)電視是運營商數(shù)字家庭市場戰(zhàn)略的基礎業(yè)務,相對于其他視頻業(yè)務和基礎網(wǎng)絡業(yè)務,電視用戶對于業(yè)務體驗質(zhì)量的敏感性更高,對網(wǎng)絡質(zhì)量的容忍度更低,使質(zhì)量保障難度更大。由于流程長、碼率高、并發(fā)量大,互聯(lián)網(wǎng)電視業(yè)務遠未達到高品質(zhì)要求,質(zhì)量保障和優(yōu)化面臨較大挑戰(zhàn)。
受國家政策影響,互聯(lián)網(wǎng)電視逐漸過渡到IPTV業(yè)務,直播業(yè)務采用組播承載,業(yè)務信令及點播業(yè)務用單播承載。組播對網(wǎng)絡的要求很高,丟包大于0.03%或時延大于40 ms 就會產(chǎn)生花屏,對用戶體驗造成影響,而現(xiàn)網(wǎng)大部分網(wǎng)管系統(tǒng)配置的告警預警閾值不足以觸發(fā)如此細微的問題。
本方案的主要思路是基于軟硬探針結合、聚類告警和自動化工具?,F(xiàn)網(wǎng)機頂盒出廠就集成軟探針APK,軟探針會采集所有用戶的收視行為,通過關聯(lián)數(shù)據(jù)的聚類分析,產(chǎn)生預告警信息預判。硬探針拉流部署二次驗證預告警信息,進行故障定位定界,最終生成告警工單,派發(fā)維護人員。智能告警監(jiān)控是主動發(fā)現(xiàn)故障、保障業(yè)務質(zhì)量的重要手段,建立電視業(yè)務的匯聚告警體系,可以幫助運維人員更快速、敏銳地發(fā)現(xiàn)故障點,提升故障處理時效,保障用戶感知體驗,提高運營商互聯(lián)網(wǎng)電視業(yè)務的用戶滿意度。
軟探針內(nèi)置在用戶機頂盒中,硬探針分別部署在地(市)CR、CDN 側節(jié)目視頻源入流和出流,具體如圖1所示。
圖1 軟硬探針部署圖
軟探針從底層播放器、網(wǎng)絡口和系統(tǒng)采集數(shù)據(jù),進行預處理后,根據(jù)觸發(fā)上報的條件向軟探針監(jiān)測平臺上報數(shù)據(jù)。
目前軟探針與監(jiān)測平臺的接口如圖2 所示,具體功能如表1所示。
表1 軟探針與監(jiān)測平臺的接口
圖2 軟探針與監(jiān)測平臺接口框圖
軟探針采集功能如下。
a)感知采集、行為分析、運營分析。
b)共性聚合、故障預警。
c)單用戶診斷、投訴處理、提供可視化工具。
硬探針采集功能如下。
a)全省層面、整個地(市)高實時性監(jiān)控。
b)補充軟探針能力:解碼、調(diào)度等。
c)主要用于分段排障定位、割接測試。
數(shù)據(jù)采集層主要通過各種方式(系統(tǒng)接口、監(jiān)測設備、網(wǎng)絡探針等)獲取質(zhì)量監(jiān)控能力層所需要的數(shù)據(jù),實現(xiàn)對數(shù)據(jù)模型、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量的統(tǒng)一管理,同時實現(xiàn)數(shù)據(jù)的對象化,面向上層能力層模塊提供面向對象的數(shù)據(jù)訪問能力。
數(shù)據(jù)采集層的數(shù)據(jù)主要來源于以下幾個系統(tǒng)。
資管系統(tǒng):寬帶用戶相關的網(wǎng)絡拓撲信息,包括用戶關聯(lián)的PON 口、OLT、交換機、BRAS 等網(wǎng)元關聯(lián)信息。
DHCP 系統(tǒng):包括用戶IP 地址獲取、上下線行為、Option 82字段。
機頂盒軟探針:終端側采集的收視行為、KPI 和KQI相關指標(見圖2)。
網(wǎng)絡硬探針:內(nèi)容源、EPG、CDN、網(wǎng)絡鏈路等端到端組成環(huán)節(jié)的撥測性能數(shù)據(jù)。
CDN:中心/邊緣節(jié)點的調(diào)度服務器、流服務器日志、業(yè)務話單日志、用戶調(diào)度信息。
網(wǎng)管/OMC:CMNET、城域網(wǎng)、接入網(wǎng)等設備的性能數(shù)據(jù)指標及告警信息。
可視化運維系統(tǒng):可實現(xiàn)從機頂盒-ONU-OLTBRAS-CR-BR-平臺IPTV 全路徑、端口級的業(yè)務故障定位。
系統(tǒng)能力層主要包含質(zhì)量監(jiān)控、質(zhì)差告警、故障定位、拉流探針撥測、報表支撐等模塊,對數(shù)據(jù)共享層獲取的數(shù)據(jù)進行與業(yè)務緊密相關的數(shù)據(jù)處理,封裝成業(yè)務能力,并以微服務的形式供上層應用層調(diào)用,系統(tǒng)基礎能力包括以下幾方面。
質(zhì)量監(jiān)控能力:包括業(yè)務量和業(yè)務質(zhì)量監(jiān)控,輸出互聯(lián)網(wǎng)電視在線用戶數(shù)、收視用戶數(shù)點播直播收視情況、網(wǎng)絡性能指標、業(yè)務質(zhì)量指標、業(yè)務質(zhì)量告警等數(shù)據(jù)。
質(zhì)差告警能力:根據(jù)質(zhì)量監(jiān)控指標輸出地(市)、區(qū)縣、CDN、BRAS、OLT 等維度的質(zhì)量告警,告警可包括在線用戶數(shù)突變、業(yè)務質(zhì)量劣化、錯誤碼激增、網(wǎng)絡性能劣化等信息。
故障定位能力:可通過對不同時間、地區(qū)、EPG、CDN 節(jié)點、BRAS、OLT、PON 口等多維度的匯聚分析,結合關聯(lián)節(jié)點的相關KPI 指標,判定業(yè)務劣化發(fā)生的時間、影響范圍、定界根因,輸出質(zhì)差分析定界能力。
報表支撐能力:可輸出不同時間、區(qū)域維度的基礎性能指標報表,可輸出針對機頂盒、EPG、CDN、BRAS、OLT、直播碼率、質(zhì)差小區(qū)的專項質(zhì)量分析報表。
該保障系統(tǒng)可以匯聚出地理、網(wǎng)絡、業(yè)務、終端4個維度的分級質(zhì)量數(shù)據(jù)進行統(tǒng)計分析,結合各地(市)BRAS、CR 及業(yè)務中心出入流部署的硬件探針的測試結果,提高聚類告警準確性、實時性。
主動監(jiān)控能力采用“硬探針+軟探針聚類”方式,按網(wǎng)絡架構分為播控平臺、業(yè)務平臺及CDN、承載網(wǎng)、接入網(wǎng)、終端等5個層次實現(xiàn)端到端故障監(jiān)控。
硬探針部署全量頻道拉流數(shù)據(jù),根據(jù)監(jiān)測到的不同頻道質(zhì)量對應不同鏈路質(zhì)量。
該可視化保障系統(tǒng)實現(xiàn)從機頂盒-ONU-OLTBRAS-CR-BR-平臺IPTV 全路徑、端口級的業(yè)務故障定位。對接CMNET 獲取三層網(wǎng)絡組播路由表,獲取機頂盒到IPTV 平臺的端到端全路徑?;跈C頂盒軟探針+硬探針獲取精確到鏈路級、端口級拓撲路徑發(fā)現(xiàn)及質(zhì)量呈現(xiàn),解決組播流多鏈路中需要大量人工排查問題,極大提高故障定位效率。基于SQM 聚類查詢自動輸出全路徑鏈路級、端口級質(zhì)量、告警數(shù)據(jù)。
該系統(tǒng)上線以來,互聯(lián)網(wǎng)電視監(jiān)測機制更加完善,故障定位定界有了手段,視頻服務質(zhì)量進一步提升,通過規(guī)范互聯(lián)網(wǎng)電視端到端環(huán)節(jié),明確職責,完善制度,將牌照方與終端納入管控,建立了有效的電視運維管理體系,積極賦能一線?;ヂ?lián)網(wǎng)電視業(yè)務問題平均處理時長降低約30%,用戶投訴較之前下降47%,用戶滿意度提升13%,增值業(yè)務訂購提升19%。
本文介紹了基于軟硬探針相結合的IPTV 可視化運維保障方案,首次提出基于軟硬探針相結合的保障系統(tǒng),此系統(tǒng)極大提高了保障效率,有效支撐維護人員對故障定位定界。