趙 蕾
(中國聯(lián)合網(wǎng)絡通信有限公司山東分公司 濟南 250002)
近年來,諸如北京奧運、上海世博以及汶川地震、舟曲泥石流等重大社會事件和災害屢次考驗著整個社會的公共安全體系和社會保障能力,當這些事件發(fā)生時,通信的應急保障就成為社會保障系統(tǒng)最為關鍵的環(huán)節(jié)之一,其目前已經(jīng)納入國家專項應急保障工作建設規(guī)劃。
針對這些重大事件,通信運營商不僅要在平時滿足公共的通信需求,而且需要能在這些緊急事件發(fā)生時,提供應急通信的保障能力和相應的支撐手段。為此,各運營商制定了“紅橙黃藍”應急通信保障工作預案,以利于在特定場景下的應急通信保障工作的開展。但就目前情況來看,整個應急過程缺乏行之有效的IT手段來支撐,不利于在各種場景下應急通信保障工作的順利進行,所以急需建設一個完善的、符合需求的應急通信保障系統(tǒng)。
各地的應急保障IT支撐系統(tǒng)尚未建立,原則上應能應對應急保障管理工作的全面考驗,在確保人員安全、財產損失最小化的基礎上,要符合國家相關法律法規(guī),總體上還應遵循以下建設原則。
(1)統(tǒng)一領導、分級負責原則
各省公司設置總體指揮小組,根據(jù)事件響應級別,由省公司對各分公司的應急通信保障各項工作統(tǒng)一指揮,對外宣傳部門要與政府部門保持密切聯(lián)系,做好對外宣傳等工作。
(2)快速反應原則
建立應急通信保障的快速反應機制,在確保一定的人力、物力、財力儲備的基礎上,確保在發(fā)現(xiàn)、報告、指揮、處置等各項環(huán)節(jié)的快速反應和緊密銜接。
(3)常備不懈原則
應急保障相關部門要對突發(fā)事件有應急預案方面的準備和思想上的準備,抓好應急通信保障的演練工作,做到常備不懈,平戰(zhàn)結合。在保障過程中,要合理調整設備配備,充分利用現(xiàn)有資源。
(4)網(wǎng)絡能力最大化原則
在網(wǎng)絡資源向需要優(yōu)先保障重點區(qū)域如黨政軍用戶傾斜的同時,要最大限度地發(fā)揮網(wǎng)絡能力,為廣大客戶提供服務。
通信運營商的應急通信保障系統(tǒng)應根據(jù)本地區(qū)網(wǎng)絡特點、管理基礎、地形地貌、人員配備等因素進行綜合考慮,遵循統(tǒng)一規(guī)劃、分步實施和能力累進的建設原則,以重點區(qū)域和各種應急場景為核心,循序漸進地提升應急通信保障系統(tǒng)在處理各種應急場景和應急事件上的能力。
在總體目標上,應急通信保障系統(tǒng)不但要能監(jiān)控各網(wǎng)元的重大告警、性能指標、信令數(shù)據(jù)、投訴數(shù)據(jù)和客戶感知等相關數(shù)據(jù),還要做到重點客戶、指定區(qū)域的網(wǎng)絡質量異常情況監(jiān)控,業(yè)務量和負荷的過載預警,預測等功能。做到在特定監(jiān)控場景監(jiān)控事件和突發(fā)事件發(fā)生時,可以對故障進行定位,對影響范圍和影響程度進行分析,對應急保障資源進行有效地調度和管理,形成規(guī)范、高效的應急通信保障處理能力,確保應急通信保障工作有序、高效地實施。
億陽應急通信保障系統(tǒng)整體解決方案參照國際通行的標準和最新的設計理念,整體上遵循以下原則。
標準化原則:整個系統(tǒng)是一個面向全專業(yè)網(wǎng)絡的實時系統(tǒng),系統(tǒng)在設計時遵循了TMF的NGOSS、ITU的TMN相關規(guī)范,滿足數(shù)據(jù)模型的標準化和接口的標準化要求。
組件通用原則:系統(tǒng)采用了國際上最為先進的SOA(面向服務架構)的設計方法,運用中間件技術,實現(xiàn)了業(yè)務分層和功能服務模塊化的分布式體系結構,用以保證系統(tǒng)的易用性、可維護性和通用性。
分層設計原則:系統(tǒng)采用了底層數(shù)據(jù)采集、中間層數(shù)據(jù)處理和上層應用展現(xiàn)的分層設計原則,各層執(zhí)行相應的功能,便于管理和標準化,而且能滿足靈活擴展要求。
整個方案系統(tǒng)從總體分為3層,如圖1所示。
4.2.1 接入適配層
目前各專業(yè)網(wǎng)元設備均有專業(yè)網(wǎng)管系統(tǒng)支撐,接入層主要完成從專業(yè)網(wǎng)管如話務網(wǎng)管、數(shù)據(jù)網(wǎng)管、傳輸網(wǎng)管、動環(huán)網(wǎng)管等相關系統(tǒng)接入數(shù)據(jù),從各系統(tǒng)接入相關的配置數(shù)據(jù)、告警數(shù)據(jù)和性能數(shù)據(jù)。同時系統(tǒng)需要的數(shù)據(jù)還有相應的應急保障預案、應急保障物資、應急處理人員等與應急保障相關的人、財、物等信息,以及與各網(wǎng)元配套的重大節(jié)假日應急保障流程、可預知事件應急流程和突發(fā)事件應急流程等管理方案。
4.2.2 處理層
告警處理:完成應急事件所定義的網(wǎng)元告警信息的過濾、壓縮、格式化和關聯(lián)分析處理。
預處理服務:對不觸發(fā)應急通信保障工作的設備告警進行過濾分揀調度,執(zhí)行相關的系列預處理指令等。
性能處理:完成應急場景定義的性能指標門限設置、KPI的計算、門限判斷、入庫和性能告警的處理等。
消息分發(fā):一方面提供消息服務總線,對上層應用提供訂閱分發(fā)。另一方面,在緊急事件發(fā)生時,根據(jù)應急預案的相關責任人,將故障發(fā)生信息和故障恢復信息及時通知給相關的各級管理人員和應急通信保障人員。
圖1 整體解決方案
4.2.3 應用層
(1)負荷預測
根據(jù)應急場景或應急事件定義區(qū)域,對相關的核心網(wǎng)元、無線網(wǎng)元或數(shù)據(jù)網(wǎng)元等在可預知重大事件發(fā)生時,對網(wǎng)絡負荷進行預測,并輸出預測報告。具體預測內容包括以下方面。
①核心網(wǎng)全網(wǎng)話務預測
網(wǎng)內預測:包括局向話務量預測、信令鏈路負荷預測、MSS/MGW/HLR的CPU負荷預測。
網(wǎng)間預測:中繼群話務量、信令鏈路負荷預測。
資源類預測分析:MGW的TC、錄音編解碼器負荷預測等。
②無線網(wǎng)話務預測
·重點小區(qū)級無線話務量分布預測;
·BSC級別無線話務量預測。
③數(shù)據(jù)網(wǎng)話務預測
·全網(wǎng)短消息總量預測;
·SMSC負荷預測;
·信令鏈路負荷預測。
(2)告警故障定位
具體涵蓋能力包括:專業(yè)內故障定位能力、跨專業(yè)故障定位能力以及傳輸故障、基站退服和大面積斷站分析情況分析。
(3)性能指標監(jiān)控
具體可包括以下幾個指標的監(jiān)控。
· 核心網(wǎng)性能指標 :CPU負荷、中繼群、局向話務量、信令鏈路負荷和接通率等。
·無線網(wǎng)性能指標 :小區(qū)話務量、接通率、一次尋呼成功率、切換成功率、掉話率、擁塞率、每信道話務量和PDCH復用等。
· 數(shù)據(jù)網(wǎng)性能指標:CPU負荷、數(shù)據(jù)流量、SMS總數(shù)量和信令鏈路負荷等。
·客戶感知指標:單向通話和GPRS下載速率等。
(4)物資管理
可根據(jù)各專業(yè)網(wǎng)絡所需應急資源,提供應急切換方案制定、基于GIS的應急通信車實時調度、基于GIS的油機車調度、基于GIS的設備光纜路由調度和備用通道的預配置、與調通、備品備件和備用光纜和備用儀器儀表等管理。
(5)預案管理
對應急預案的流程、應急事件處理方案和其關聯(lián)信息進行管理。
(6)人員管理
對各網(wǎng)元相關應急場景所關聯(lián)的應急保障人員信息進行管理。
(7)通信保障門戶
查看重點定義場景的告警、性能和場景定義各種事件的信息。
信息發(fā)布:根據(jù)應急預案與相關應急事件信息的關聯(lián)規(guī)則,將應急信息進行及時、準確的發(fā)布。
方案以場景為核心,以應急場景為核心的應急保障是指在某些特定的時間段、對某些特定的地理區(qū)域的網(wǎng)絡設備或網(wǎng)絡質量影響度較高的系統(tǒng)指標進行重點監(jiān)控,據(jù)此決定執(zhí)行不同的應急保障預案和應急措施,以保證網(wǎng)絡安全、平穩(wěn)地運行。
應急保障平臺緊緊圍繞場景進行展開,系統(tǒng)將場景分為4類。
· 日常監(jiān)控場景:重點監(jiān)控網(wǎng)絡異常、業(yè)務量變化、網(wǎng)絡負荷變化、設備運行產生的告警及性能趨勢。
· 節(jié)假日監(jiān)控場景:主要指的是“春節(jié)”、“十一”等節(jié)假日的網(wǎng)絡異常、業(yè)務量變化、網(wǎng)絡負荷變化、設備告警及性能趨勢變化等。
·可預知事件保障場景:主要指大型文娛、體育、經(jīng)貿等社會活動;人大、政協(xié)會議;熱點區(qū)域:高校、CBD、旅游區(qū)、黨政軍機關所在地的保障等。
·突發(fā)事件保障場景:指的是自然災害:洪水、雪災、地震、泥石流等造成的網(wǎng)絡故障以及光纜中斷、話務負荷突增等重大網(wǎng)絡故障。
系統(tǒng)可根據(jù)實際需求,任意組合監(jiān)控時間、監(jiān)控地點、監(jiān)控對象和監(jiān)控指標等場景元素,對所轄區(qū)域的網(wǎng)絡網(wǎng)元進行靈活的場景定義,如圖2所示。重點故障定位如圖3所示。
針對節(jié)假日以及可預知事件的保障場景,需要事先預測網(wǎng)元的負荷情況,系統(tǒng)根據(jù)預測結果和網(wǎng)元狀況,給出網(wǎng)絡網(wǎng)元調整報告,以便及時發(fā)現(xiàn)網(wǎng)絡存在的隱患問題,這樣在可預知事件或節(jié)假日之前進行及時地網(wǎng)絡調整和相應的備品、備件準備等預備工作。
網(wǎng)絡負荷的預測分為核心網(wǎng)負荷預測、無線網(wǎng)負荷預測、數(shù)據(jù)網(wǎng)負荷預測以及傳輸網(wǎng)的負荷預測,系統(tǒng)提供的數(shù)據(jù)挖掘功能和可定義預測算法,使系統(tǒng)可以隨著使用時間的推移而積累的歷史數(shù)據(jù)具有逐漸準確的預測能力。
圖2 某場景的監(jiān)控
圖3 重大故障定位
圖4 某區(qū)域中秋節(jié)BSC負荷預測結果
由于網(wǎng)絡的不斷變化,系統(tǒng)的數(shù)據(jù)挖掘功能會隨著新網(wǎng)元的加入或網(wǎng)元的移除而自動調整網(wǎng)絡拓撲數(shù)據(jù),并記錄網(wǎng)絡的日常負荷與歷史節(jié)假日的高峰沖擊。根據(jù)調整因子(增長或下降)、歷史數(shù)據(jù)和以及近期網(wǎng)絡的日常運營負荷情況出具預測報告和關鍵點的重點布控建議,以便及時調整網(wǎng)絡和進行負荷分擔處理。
可定義預測算法為億陽自主知識產權,基于多年的OSS建設經(jīng)驗,算法挖掘多年積累的網(wǎng)絡運營數(shù)據(jù),根據(jù)網(wǎng)絡及網(wǎng)元性質、歷史事件的非正常數(shù)據(jù)沖擊等,進行逐步地自修整和迭代處理,在數(shù)據(jù)預測方面經(jīng)過了多年的驗證和檢驗,時效性較強。某區(qū)域中秋節(jié)BSC負荷預測結果如圖4所示,TCH預測結果如圖5所示。圖6是某區(qū)域系統(tǒng)跟蹤除夕夜短信的情況。
圖5 某區(qū)域中秋節(jié)TCH預測結果
圖6 某區(qū)域系統(tǒng)跟蹤除夕夜短信的情況
應急預案是應急通信保障的規(guī)范型文檔,文檔中規(guī)定了某些場景下發(fā)生應急事件時所應采取的具體措施。
億陽應急保障方案的應急預案活性管理有兩層的含義。
首先是應急保障系統(tǒng)所涉及的應急預案并非僅僅有靜態(tài)的文本文檔,而且還是一組與系統(tǒng)現(xiàn)狀相關聯(lián)的動態(tài)的信息組合,當某網(wǎng)元被定義為監(jiān)控場景所監(jiān)控的網(wǎng)元后,在設置相應的性能門限和告警信息門限后,系統(tǒng)在監(jiān)控各項指標的同時,也關聯(lián)著應急預案的進程,如果某項指標觸發(fā)門限后,系統(tǒng)便自動提醒應急預案中規(guī)定所處理的內容和所應采取的措施。做到應急預案知識和解決辦法的主動推送,實現(xiàn)真正意義上的預案按需行進和信息的按需展示。
應急預案的活性管理的第二層含義是,應急預案也作為網(wǎng)絡場景的監(jiān)視者,根據(jù)其全程的過程定義和活動監(jiān)測點所關聯(lián)的告警或性能指標,監(jiān)控網(wǎng)絡故障的發(fā)生和故障恢復情況,可展示故障的處理進程或故障恢復狀況,從而達到更高的智能性,極大減輕人力工作。
通過預案活性管理的兩個層面(如圖7所示),將應急預案與網(wǎng)元的動態(tài)過程進行了綁定激活處理,同時也將預案自身的運動過程也進行了系統(tǒng)的動態(tài)支撐。針對應急保障特定需求,達到了很好的支撐效果。
應急通信保障系統(tǒng)的多元關聯(lián)性是使得系統(tǒng)組合為一個有機、互動整體的最重要的一環(huán)。應急保障系統(tǒng)的關聯(lián)性是多方位的,主要有以下幾方面。
(1)場景、網(wǎng)元及應急預案的關聯(lián)
應急保障場景在縱向關聯(lián)著所需監(jiān)控的網(wǎng)元的告警、性能和負荷等監(jiān)控元素,橫向關聯(lián)著應急預案的處理流程。
圖7 預案活性管理的二重性
(2)應急預案與應急保障所需人、財、物信息關聯(lián)
應急預案的處理過程與應急保障物資的調度和應急處理相關人員信息相關聯(lián),在應急事件發(fā)生時,可在第一時間將信息發(fā)布給相關人員,并告知其相應場景的應急物資的庫存狀況。
(3)積累、預測與報告相關聯(lián)
應急場景網(wǎng)元的歷史數(shù)據(jù)積累分析、應急場景網(wǎng)元的增刪狀況和日常業(yè)務量的多元關聯(lián),使得數(shù)據(jù)預測的結果更加接近真實發(fā)生的業(yè)務量。
應急通信保障系統(tǒng)的建設是一個龐雜的系統(tǒng)工程,系統(tǒng)全部功能不可能一蹴而就地建成,需要運營商根據(jù)各地具體情況進行規(guī)劃建設,以功能遞進的方式進行逐步建設,需要注意以下幾方面。
(1)系統(tǒng)建設與管理制度應配套出臺
運營商在建設應急保障系統(tǒng)時,應出臺與之配套的IT系統(tǒng)使用和建設規(guī)程以及系統(tǒng)維護辦法,只有充分調動使用人員和維護人員的主動性和積極性,責任落實到人,才能保障在建設系統(tǒng)時數(shù)據(jù)的準確,系統(tǒng)維護數(shù)據(jù)的及時可靠性,同時也可保障應急保障物資變動后可以及時地在系統(tǒng)中反映。
(2)應急預案關聯(lián)性應小心設置和及時變動
在系統(tǒng)實際使用過程中,應急預案的管理是個龐雜的工作,不但關系到具體的應急預案的文檔內容,而且關系到應急預案處理流程中各個監(jiān)控點的設置,監(jiān)控告警和性能指標監(jiān)控集合的設置,當流程復雜時,定義的過程也相對復雜,如果定義不當,在應急保障事件發(fā)生時,系統(tǒng)會發(fā)布虛假的應急處理措施或通知給錯誤的應急保障人員,反而在一定程度上阻礙了應急處理措施的及時采取。
(3)定期性的演練
“平時多流汗,戰(zhàn)時少流血”,應急保障系統(tǒng)建成后,需要定期進行應急保障演練,一方面加強相關人員的認識來提高系統(tǒng)使用的熟練程度,另外一方面也可以發(fā)現(xiàn)系統(tǒng)在定義和建設方面存在的錯誤。
本文全面介紹了應急通信保障系統(tǒng)一體化解決方案,整個系統(tǒng)圍繞應急保障預案和應急場景,以話務預測、告警監(jiān)控,性能預測、資源調度、預案自動執(zhí)行和信息發(fā)布為手段,打造了一個滿足可預知事件和突發(fā)事件的應急保障平臺,使運營商可以在日常工作中及時發(fā)現(xiàn)故障隱患,迅速配置網(wǎng)絡資源,并能自動匹配預案,為資源調度、指揮決策和迅速恢復網(wǎng)絡運行,提供了強有力的運營支撐解決方案。