(中國移動通信集團浙江有限公司湖州分公司,湖州 313000)
粒度可調的數(shù)據(jù)業(yè)務預警監(jiān)控手段
季靚
(中國移動通信集團浙江有限公司湖州分公司,湖州 313000)
隨著用戶對數(shù)據(jù)業(yè)務的依賴性逐漸超過了話音業(yè)務,以往的性能預警監(jiān)控手段已無法滿足當前的需要,造成從問題發(fā)現(xiàn)到問題處理的歷時過久,這已成為影響用戶感知的難題。通過部署GB接口信令跟蹤平臺,并設置短時無流量小區(qū)統(tǒng)計的功能,可以高效地實現(xiàn)數(shù)據(jù)業(yè)務預警監(jiān)控。該方法的時間粒度可根據(jù)需要自行調整,從而在數(shù)據(jù)業(yè)務時代滿足了網(wǎng)絡運營維護的需求。
數(shù)據(jù)業(yè)務;預警監(jiān)控;時間粒度
在日常運維中發(fā)現(xiàn),阿爾卡特朗訊的GSM無線設備具有若干缺陷,但設備商未對這些性能缺陷推出有效的補丁,使得因設備缺陷引發(fā)的投訴無法得到徹底根治。例如小區(qū)及PCU偶發(fā)性能吊死,導致無法上網(wǎng)并引發(fā)用戶投訴。雖然阿爾卡特朗訊在軟件升版工程中提供了個別補丁,但未能根治該問題。
目前,阿爾卡特朗訊無線網(wǎng)絡設備(BSC及MFS)主要的性能分析軟件工具是設備商提供的ARP(Analyzer for Radio Performance),其統(tǒng)計周期為1 h。但是受限于硬件設計和數(shù)據(jù)采集的瓶頸,某時段的性能報告通常要到下個時段的半點才能獲取。在可能的運維場景中,從基站發(fā)生故障到問題發(fā)現(xiàn)的耗時短則0.5 h、長則1.5 h。而在此期間無流量隱性故障已經(jīng)給用戶造成了惡劣的感知、甚至引發(fā)了批量投訴。隨著全網(wǎng)流量的激增,該問題日漸突出,引發(fā)的投訴量呈逐月遞增趨勢。
因此,在設備商未能提供有效解決方案的前提下,如何有效縮短基站無流量的隱性故障從發(fā)生到發(fā)現(xiàn)的時長,是關系到運營商如何去提升用戶感知和增強網(wǎng)絡維護水平的新問題,需要新的思路來加以解決。
湖州移動在2011年底部署了GB接口的信令跟蹤平臺,并具備了一定的GPRS業(yè)務端到端分析能力。根據(jù)上述問題的需要,可以在該系統(tǒng)架構上衍生出一項時間粒度可調的數(shù)據(jù)業(yè)務預警監(jiān)控功能,從而縮短無流量故障從發(fā)生到發(fā)現(xiàn)的時長。
如圖1所示,為部署的GB接口信令跟蹤平臺及網(wǎng)元結構的示意圖。數(shù)據(jù)采集服務器可以進一步加載無流量預警監(jiān)控的識別功能,軟件功能設計思路即從GB口實時采集全網(wǎng)基站的數(shù)據(jù)業(yè)務性能,以流量為例;服務器定期對不同時段采集的流量大小做比對;自動發(fā)現(xiàn)數(shù)據(jù)業(yè)務性能隱患,識別新增無流量小區(qū)后輸出至維護人員。該方案可以協(xié)助網(wǎng)絡性能分析人員有效定位無流量異常小區(qū),及早發(fā)現(xiàn)PCU設備軟件吊死等設備缺陷的發(fā)生。這也是跟蹤平臺部署之后的應用創(chuàng)新點之一。
圖1 GB接口信令跟蹤平臺架構示意圖
可以根據(jù)維護的需求,來自定義該功能的時間粒度,定制的監(jiān)控手段可以實現(xiàn)15 min~1 h不等的時間顆粒度。以湖州移動的設置方案為例,對全網(wǎng)設置了最小時間顆粒度僅15 min間隔的小區(qū)無流量預警方案,這一時間間隔遠遠低于阿爾卡特朗訊方案的1.5 h的時間粒度,從而幫助維護人員快速發(fā)現(xiàn)問題。以圖2為例,在效果最顯著的情況下,發(fā)現(xiàn)問題的時間間隔從1.5 h縮短為0.25 h,最佳的效果可以縮短83%。
圖2 方案應用的典型情況示意圖
小區(qū)無流量告警模塊還可以同時運用在以下工作場景,以滿足各地實際需求,實現(xiàn)個性化的應用。
(1) 新基站開站場景:將新開通站點納入性能監(jiān)控的對象范圍,在開站后查詢扇區(qū)短時無流量異常情況,可以迅速發(fā)現(xiàn)是否存在問題。山區(qū)等用戶數(shù)量稀少的地區(qū)不適用該場景。
(2) 高承載規(guī)模網(wǎng)元(如BSC、MFS)的工程割接場景:將實施割接的網(wǎng)元所轄的基站扇區(qū)納入性能監(jiān)控的對象范圍,在割接完成后查詢短時無流量異常情況,可以迅速發(fā)現(xiàn)是否存在問題。夜間用戶行為習慣的變化應考慮對輸出結果做適當校準。
(3) 小區(qū)故障處理的效果驗證場景:故障小區(qū)實施排障解決方案后,查詢短時流量情況,即可大致判斷排障方案是否有效果。
(4) 小區(qū)休眠、數(shù)據(jù)業(yè)務假死等隱性故障的發(fā)現(xiàn)場景,是前述的主要應用方向。
可以發(fā)現(xiàn),順利實施該預警監(jiān)控手段要求兩個關鍵點:GB接口流量數(shù)據(jù)的高效采集與比對,該項工作由信令跟蹤平臺硬件結合加載的軟件模塊共同完成;后臺分析人員跟進輸出的報表做進一步分析和修復操作,剔除常規(guī)無流量小區(qū)、對剩余的有異常無流量小區(qū)做GPRS重置復位等修復性操作,該項工作由專業(yè)組完成,根據(jù)人員配備、工作量與需求緊迫性來靈活掌控。
目前湖州移動實行15 min粒度的無流量小區(qū)預警,每15 min以報表方式自動輸出結果供分析判斷,也可根據(jù)實際情況或需求的變化,將時間粒度自定義調整為30 min或20 min。預警模塊的輸出報表如表1所示。
表1 預警模塊的輸出報表
以短時無流量的扇區(qū)12 712和30 142為例,10:30性能預警功能提示為短時無流量小區(qū),經(jīng)分析不屬于山區(qū)等常規(guī)無流量小區(qū)后,分析人員對以上2個小區(qū)做GRPS初始化操作、重置了扇區(qū)的GPRS數(shù)據(jù)業(yè)務功能。在下個時段的15 min粒度報告里,這2個小區(qū)因為產(chǎn)生了2G數(shù)據(jù)流量,而不再呈現(xiàn)于10:45輸出的報表中。以上設備性能隱患得到了快速的排查。
該預警監(jiān)控手段對地市公司提升生產(chǎn)效益有明顯的幫助。WAP投訴數(shù)量對比情況如圖3所示。
(1)可以提早發(fā)現(xiàn)問題、縮短業(yè)務退服時長。該方法自啟用后,經(jīng)過運行與完善,數(shù)據(jù)網(wǎng)故障的處理效率得到了一定提升,每周能發(fā)現(xiàn)約120站次的小區(qū)GPRS性能吊死情況,其中一半頻次發(fā)生在凌晨至早上8點之間,對用戶感知的影響不大;另一半頻次發(fā)生在工作時間及晚忙時,通過運用該手段,故障小區(qū)的數(shù)據(jù)業(yè)務退服累計時長可以縮短60 h/周以上。
(2)可以提早發(fā)現(xiàn)故障隱患、避免形成批量投訴。通過統(tǒng)計本地的GPRS投訴量,可以發(fā)現(xiàn)該預警監(jiān)控手段成效明顯。在GPRS流量每年同比大幅增長70%的背景下,該預警監(jiān)控功能在啟用后當月的GPRS投訴量即環(huán)比下降了45%,隨后各月的同比下降幅度在22%~60%不等。借助該預警監(jiān)控手段,為投訴總量的改善貢獻了60例/月,從而有效提升了用戶感知。
該預警監(jiān)控手段對壓縮運維成本、提升經(jīng)濟效益也有一定的幫助。該預警監(jiān)控手段依托于信令跟蹤平臺,利舊了原有的服務器硬件,由后臺數(shù)據(jù)業(yè)務性能分析人員掌握和使用,實現(xiàn)了“零投資”和“零成本”。而它能夠減少60例/月的投訴量,使原本緊缺的投訴現(xiàn)場處理人員花更多時間精力投入到DT/CQT等主動性測試當中,相當于節(jié)約了0.5個人力與車輛資源。
圖3 WAP投訴數(shù)量對比情況
該數(shù)據(jù)業(yè)務預警監(jiān)控手段,可以有效發(fā)現(xiàn)休眠小區(qū)和無流量異常小區(qū)。目前的設備話務統(tǒng)計報告的輸出時間間隔過長、無法滿足實時預警監(jiān)控的需求,而該方案可以有效縮短從問題發(fā)生到問題發(fā)現(xiàn)的時延,來快速恢復數(shù)據(jù)業(yè)務,改善用戶感知并減少投訴數(shù)量。在效果最顯著的情況下,發(fā)現(xiàn)問題的時間間隔從1.5 h縮短為0.25 h,縮短了83%。
大數(shù)據(jù)時代,數(shù)據(jù)業(yè)務對運營商收入的貢獻比重日益增加,該方案能夠幫助網(wǎng)絡運維效率進一步提升。
[1] 韋薇,張揚. 信令監(jiān)測系統(tǒng)架構規(guī)范的演進[J]. 電信工程技術與標準化, 2011(4).
[2] 張揚. 信令監(jiān)測系統(tǒng)存在的問題以及優(yōu)化方案[J]. 電信工程技術與標準化, 2012(10).
Dynamic method for monitoring general data service
JI Liang
(China Mobile Group Zhejiang Co., Ltd. Huzhou Branch, Huzhou 313000, China)
There is one obvious defect of the conventional monitoring method for GPRS, its interval is too long for early warning. Since data service is growing more and more important than voice service, it’s urgent to cut short the interval for early warning GPRS failure. By deploying GB interface signaling platform, it’s feasible to collect statistics of abnormal data traff c. And the interval for collecting statistics is dynamic and adjustable. In this way the capacity for network maintaining would be improved.
data service; monitoring method; time interval
TN915
B
1008-5599(2014)10-0065-03
2014-08-16