趙 蕾
(中國聯(lián)合網(wǎng)絡(luò)通信有限公司山東分公司 濟南 250002)
近年來,諸如北京奧運、上海世博以及汶川地震、舟曲泥石流等重大社會事件和災(zāi)害屢次考驗著整個社會的公共安全體系和社會保障能力,當這些事件發(fā)生時,通信的應(yīng)急保障就成為社會保障系統(tǒng)最為關(guān)鍵的環(huán)節(jié)之一,其目前已經(jīng)納入國家專項應(yīng)急保障工作建設(shè)規(guī)劃。
針對這些重大事件,通信運營商不僅要在平時滿足公共的通信需求,而且需要能在這些緊急事件發(fā)生時,提供應(yīng)急通信的保障能力和相應(yīng)的支撐手段。為此,各運營商制定了“紅橙黃藍”應(yīng)急通信保障工作預(yù)案,以利于在特定場景下的應(yīng)急通信保障工作的開展。但就目前情況來看,整個應(yīng)急過程缺乏行之有效的IT手段來支撐,不利于在各種場景下應(yīng)急通信保障工作的順利進行,所以急需建設(shè)一個完善的、符合需求的應(yīng)急通信保障系統(tǒng)。
各地的應(yīng)急保障IT支撐系統(tǒng)尚未建立,原則上應(yīng)能應(yīng)對應(yīng)急保障管理工作的全面考驗,在確保人員安全、財產(chǎn)損失最小化的基礎(chǔ)上,要符合國家相關(guān)法律法規(guī),總體上還應(yīng)遵循以下建設(shè)原則。
(1)統(tǒng)一領(lǐng)導(dǎo)、分級負責原則
各省公司設(shè)置總體指揮小組,根據(jù)事件響應(yīng)級別,由省公司對各分公司的應(yīng)急通信保障各項工作統(tǒng)一指揮,對外宣傳部門要與政府部門保持密切聯(lián)系,做好對外宣傳等工作。
(2)快速反應(yīng)原則
建立應(yīng)急通信保障的快速反應(yīng)機制,在確保一定的人力、物力、財力儲備的基礎(chǔ)上,確保在發(fā)現(xiàn)、報告、指揮、處置等各項環(huán)節(jié)的快速反應(yīng)和緊密銜接。
(3)常備不懈原則
應(yīng)急保障相關(guān)部門要對突發(fā)事件有應(yīng)急預(yù)案方面的準備和思想上的準備,抓好應(yīng)急通信保障的演練工作,做到常備不懈,平戰(zhàn)結(jié)合。在保障過程中,要合理調(diào)整設(shè)備配備,充分利用現(xiàn)有資源。
(4)網(wǎng)絡(luò)能力最大化原則
在網(wǎng)絡(luò)資源向需要優(yōu)先保障重點區(qū)域如黨政軍用戶傾斜的同時,要最大限度地發(fā)揮網(wǎng)絡(luò)能力,為廣大客戶提供服務(wù)。
通信運營商的應(yīng)急通信保障系統(tǒng)應(yīng)根據(jù)本地區(qū)網(wǎng)絡(luò)特點、管理基礎(chǔ)、地形地貌、人員配備等因素進行綜合考慮,遵循統(tǒng)一規(guī)劃、分步實施和能力累進的建設(shè)原則,以重點區(qū)域和各種應(yīng)急場景為核心,循序漸進地提升應(yīng)急通信保障系統(tǒng)在處理各種應(yīng)急場景和應(yīng)急事件上的能力。
在總體目標上,應(yīng)急通信保障系統(tǒng)不但要能監(jiān)控各網(wǎng)元的重大告警、性能指標、信令數(shù)據(jù)、投訴數(shù)據(jù)和客戶感知等相關(guān)數(shù)據(jù),還要做到重點客戶、指定區(qū)域的網(wǎng)絡(luò)質(zhì)量異常情況監(jiān)控,業(yè)務(wù)量和負荷的過載預(yù)警,預(yù)測等功能。做到在特定監(jiān)控場景監(jiān)控事件和突發(fā)事件發(fā)生時,可以對故障進行定位,對影響范圍和影響程度進行分析,對應(yīng)急保障資源進行有效地調(diào)度和管理,形成規(guī)范、高效的應(yīng)急通信保障處理能力,確保應(yīng)急通信保障工作有序、高效地實施。
億陽應(yīng)急通信保障系統(tǒng)整體解決方案參照國際通行的標準和最新的設(shè)計理念,整體上遵循以下原則。
標準化原則:整個系統(tǒng)是一個面向全專業(yè)網(wǎng)絡(luò)的實時系統(tǒng),系統(tǒng)在設(shè)計時遵循了TMF的NGOSS、ITU的TMN相關(guān)規(guī)范,滿足數(shù)據(jù)模型的標準化和接口的標準化要求。
組件通用原則:系統(tǒng)采用了國際上最為先進的SOA(面向服務(wù)架構(gòu))的設(shè)計方法,運用中間件技術(shù),實現(xiàn)了業(yè)務(wù)分層和功能服務(wù)模塊化的分布式體系結(jié)構(gòu),用以保證系統(tǒng)的易用性、可維護性和通用性。
分層設(shè)計原則:系統(tǒng)采用了底層數(shù)據(jù)采集、中間層數(shù)據(jù)處理和上層應(yīng)用展現(xiàn)的分層設(shè)計原則,各層執(zhí)行相應(yīng)的功能,便于管理和標準化,而且能滿足靈活擴展要求。
整個方案系統(tǒng)從總體分為3層,如圖1所示。
4.2.1 接入適配層
目前各專業(yè)網(wǎng)元設(shè)備均有專業(yè)網(wǎng)管系統(tǒng)支撐,接入層主要完成從專業(yè)網(wǎng)管如話務(wù)網(wǎng)管、數(shù)據(jù)網(wǎng)管、傳輸網(wǎng)管、動環(huán)網(wǎng)管等相關(guān)系統(tǒng)接入數(shù)據(jù),從各系統(tǒng)接入相關(guān)的配置數(shù)據(jù)、告警數(shù)據(jù)和性能數(shù)據(jù)。同時系統(tǒng)需要的數(shù)據(jù)還有相應(yīng)的應(yīng)急保障預(yù)案、應(yīng)急保障物資、應(yīng)急處理人員等與應(yīng)急保障相關(guān)的人、財、物等信息,以及與各網(wǎng)元配套的重大節(jié)假日應(yīng)急保障流程、可預(yù)知事件應(yīng)急流程和突發(fā)事件應(yīng)急流程等管理方案。
4.2.2 處理層
告警處理:完成應(yīng)急事件所定義的網(wǎng)元告警信息的過濾、壓縮、格式化和關(guān)聯(lián)分析處理。
預(yù)處理服務(wù):對不觸發(fā)應(yīng)急通信保障工作的設(shè)備告警進行過濾分揀調(diào)度,執(zhí)行相關(guān)的系列預(yù)處理指令等。
性能處理:完成應(yīng)急場景定義的性能指標門限設(shè)置、KPI的計算、門限判斷、入庫和性能告警的處理等。
消息分發(fā):一方面提供消息服務(wù)總線,對上層應(yīng)用提供訂閱分發(fā)。另一方面,在緊急事件發(fā)生時,根據(jù)應(yīng)急預(yù)案的相關(guān)責任人,將故障發(fā)生信息和故障恢復(fù)信息及時通知給相關(guān)的各級管理人員和應(yīng)急通信保障人員。
圖1 整體解決方案
4.2.3 應(yīng)用層
(1)負荷預(yù)測
根據(jù)應(yīng)急場景或應(yīng)急事件定義區(qū)域,對相關(guān)的核心網(wǎng)元、無線網(wǎng)元或數(shù)據(jù)網(wǎng)元等在可預(yù)知重大事件發(fā)生時,對網(wǎng)絡(luò)負荷進行預(yù)測,并輸出預(yù)測報告。具體預(yù)測內(nèi)容包括以下方面。
①核心網(wǎng)全網(wǎng)話務(wù)預(yù)測
網(wǎng)內(nèi)預(yù)測:包括局向話務(wù)量預(yù)測、信令鏈路負荷預(yù)測、MSS/MGW/HLR的CPU負荷預(yù)測。
網(wǎng)間預(yù)測:中繼群話務(wù)量、信令鏈路負荷預(yù)測。
資源類預(yù)測分析:MGW的TC、錄音編解碼器負荷預(yù)測等。
②無線網(wǎng)話務(wù)預(yù)測
·重點小區(qū)級無線話務(wù)量分布預(yù)測;
·BSC級別無線話務(wù)量預(yù)測。
③數(shù)據(jù)網(wǎng)話務(wù)預(yù)測
·全網(wǎng)短消息總量預(yù)測;
·SMSC負荷預(yù)測;
·信令鏈路負荷預(yù)測。
(2)告警故障定位
具體涵蓋能力包括:專業(yè)內(nèi)故障定位能力、跨專業(yè)故障定位能力以及傳輸故障、基站退服和大面積斷站分析情況分析。
(3)性能指標監(jiān)控
具體可包括以下幾個指標的監(jiān)控。
· 核心網(wǎng)性能指標 :CPU負荷、中繼群、局向話務(wù)量、信令鏈路負荷和接通率等。
·無線網(wǎng)性能指標 :小區(qū)話務(wù)量、接通率、一次尋呼成功率、切換成功率、掉話率、擁塞率、每信道話務(wù)量和PDCH復(fù)用等。
· 數(shù)據(jù)網(wǎng)性能指標:CPU負荷、數(shù)據(jù)流量、SMS總數(shù)量和信令鏈路負荷等。
·客戶感知指標:單向通話和GPRS下載速率等。
(4)物資管理
可根據(jù)各專業(yè)網(wǎng)絡(luò)所需應(yīng)急資源,提供應(yīng)急切換方案制定、基于GIS的應(yīng)急通信車實時調(diào)度、基于GIS的油機車調(diào)度、基于GIS的設(shè)備光纜路由調(diào)度和備用通道的預(yù)配置、與調(diào)通、備品備件和備用光纜和備用儀器儀表等管理。
(5)預(yù)案管理
對應(yīng)急預(yù)案的流程、應(yīng)急事件處理方案和其關(guān)聯(lián)信息進行管理。
(6)人員管理
對各網(wǎng)元相關(guān)應(yīng)急場景所關(guān)聯(lián)的應(yīng)急保障人員信息進行管理。
(7)通信保障門戶
查看重點定義場景的告警、性能和場景定義各種事件的信息。
信息發(fā)布:根據(jù)應(yīng)急預(yù)案與相關(guān)應(yīng)急事件信息的關(guān)聯(lián)規(guī)則,將應(yīng)急信息進行及時、準確的發(fā)布。
方案以場景為核心,以應(yīng)急場景為核心的應(yīng)急保障是指在某些特定的時間段、對某些特定的地理區(qū)域的網(wǎng)絡(luò)設(shè)備或網(wǎng)絡(luò)質(zhì)量影響度較高的系統(tǒng)指標進行重點監(jiān)控,據(jù)此決定執(zhí)行不同的應(yīng)急保障預(yù)案和應(yīng)急措施,以保證網(wǎng)絡(luò)安全、平穩(wěn)地運行。
應(yīng)急保障平臺緊緊圍繞場景進行展開,系統(tǒng)將場景分為4類。
· 日常監(jiān)控場景:重點監(jiān)控網(wǎng)絡(luò)異常、業(yè)務(wù)量變化、網(wǎng)絡(luò)負荷變化、設(shè)備運行產(chǎn)生的告警及性能趨勢。
· 節(jié)假日監(jiān)控場景:主要指的是“春節(jié)”、“十一”等節(jié)假日的網(wǎng)絡(luò)異常、業(yè)務(wù)量變化、網(wǎng)絡(luò)負荷變化、設(shè)備告警及性能趨勢變化等。
·可預(yù)知事件保障場景:主要指大型文娛、體育、經(jīng)貿(mào)等社會活動;人大、政協(xié)會議;熱點區(qū)域:高校、CBD、旅游區(qū)、黨政軍機關(guān)所在地的保障等。
·突發(fā)事件保障場景:指的是自然災(zāi)害:洪水、雪災(zāi)、地震、泥石流等造成的網(wǎng)絡(luò)故障以及光纜中斷、話務(wù)負荷突增等重大網(wǎng)絡(luò)故障。
系統(tǒng)可根據(jù)實際需求,任意組合監(jiān)控時間、監(jiān)控地點、監(jiān)控對象和監(jiān)控指標等場景元素,對所轄區(qū)域的網(wǎng)絡(luò)網(wǎng)元進行靈活的場景定義,如圖2所示。重點故障定位如圖3所示。
針對節(jié)假日以及可預(yù)知事件的保障場景,需要事先預(yù)測網(wǎng)元的負荷情況,系統(tǒng)根據(jù)預(yù)測結(jié)果和網(wǎng)元狀況,給出網(wǎng)絡(luò)網(wǎng)元調(diào)整報告,以便及時發(fā)現(xiàn)網(wǎng)絡(luò)存在的隱患問題,這樣在可預(yù)知事件或節(jié)假日之前進行及時地網(wǎng)絡(luò)調(diào)整和相應(yīng)的備品、備件準備等預(yù)備工作。
網(wǎng)絡(luò)負荷的預(yù)測分為核心網(wǎng)負荷預(yù)測、無線網(wǎng)負荷預(yù)測、數(shù)據(jù)網(wǎng)負荷預(yù)測以及傳輸網(wǎng)的負荷預(yù)測,系統(tǒng)提供的數(shù)據(jù)挖掘功能和可定義預(yù)測算法,使系統(tǒng)可以隨著使用時間的推移而積累的歷史數(shù)據(jù)具有逐漸準確的預(yù)測能力。
圖2 某場景的監(jiān)控
圖3 重大故障定位
圖4 某區(qū)域中秋節(jié)BSC負荷預(yù)測結(jié)果
由于網(wǎng)絡(luò)的不斷變化,系統(tǒng)的數(shù)據(jù)挖掘功能會隨著新網(wǎng)元的加入或網(wǎng)元的移除而自動調(diào)整網(wǎng)絡(luò)拓撲數(shù)據(jù),并記錄網(wǎng)絡(luò)的日常負荷與歷史節(jié)假日的高峰沖擊。根據(jù)調(diào)整因子(增長或下降)、歷史數(shù)據(jù)和以及近期網(wǎng)絡(luò)的日常運營負荷情況出具預(yù)測報告和關(guān)鍵點的重點布控建議,以便及時調(diào)整網(wǎng)絡(luò)和進行負荷分擔處理。
可定義預(yù)測算法為億陽自主知識產(chǎn)權(quán),基于多年的OSS建設(shè)經(jīng)驗,算法挖掘多年積累的網(wǎng)絡(luò)運營數(shù)據(jù),根據(jù)網(wǎng)絡(luò)及網(wǎng)元性質(zhì)、歷史事件的非正常數(shù)據(jù)沖擊等,進行逐步地自修整和迭代處理,在數(shù)據(jù)預(yù)測方面經(jīng)過了多年的驗證和檢驗,時效性較強。某區(qū)域中秋節(jié)BSC負荷預(yù)測結(jié)果如圖4所示,TCH預(yù)測結(jié)果如圖5所示。圖6是某區(qū)域系統(tǒng)跟蹤除夕夜短信的情況。
圖5 某區(qū)域中秋節(jié)TCH預(yù)測結(jié)果
圖6 某區(qū)域系統(tǒng)跟蹤除夕夜短信的情況
應(yīng)急預(yù)案是應(yīng)急通信保障的規(guī)范型文檔,文檔中規(guī)定了某些場景下發(fā)生應(yīng)急事件時所應(yīng)采取的具體措施。
億陽應(yīng)急保障方案的應(yīng)急預(yù)案活性管理有兩層的含義。
首先是應(yīng)急保障系統(tǒng)所涉及的應(yīng)急預(yù)案并非僅僅有靜態(tài)的文本文檔,而且還是一組與系統(tǒng)現(xiàn)狀相關(guān)聯(lián)的動態(tài)的信息組合,當某網(wǎng)元被定義為監(jiān)控場景所監(jiān)控的網(wǎng)元后,在設(shè)置相應(yīng)的性能門限和告警信息門限后,系統(tǒng)在監(jiān)控各項指標的同時,也關(guān)聯(lián)著應(yīng)急預(yù)案的進程,如果某項指標觸發(fā)門限后,系統(tǒng)便自動提醒應(yīng)急預(yù)案中規(guī)定所處理的內(nèi)容和所應(yīng)采取的措施。做到應(yīng)急預(yù)案知識和解決辦法的主動推送,實現(xiàn)真正意義上的預(yù)案按需行進和信息的按需展示。
應(yīng)急預(yù)案的活性管理的第二層含義是,應(yīng)急預(yù)案也作為網(wǎng)絡(luò)場景的監(jiān)視者,根據(jù)其全程的過程定義和活動監(jiān)測點所關(guān)聯(lián)的告警或性能指標,監(jiān)控網(wǎng)絡(luò)故障的發(fā)生和故障恢復(fù)情況,可展示故障的處理進程或故障恢復(fù)狀況,從而達到更高的智能性,極大減輕人力工作。
通過預(yù)案活性管理的兩個層面(如圖7所示),將應(yīng)急預(yù)案與網(wǎng)元的動態(tài)過程進行了綁定激活處理,同時也將預(yù)案自身的運動過程也進行了系統(tǒng)的動態(tài)支撐。針對應(yīng)急保障特定需求,達到了很好的支撐效果。
應(yīng)急通信保障系統(tǒng)的多元關(guān)聯(lián)性是使得系統(tǒng)組合為一個有機、互動整體的最重要的一環(huán)。應(yīng)急保障系統(tǒng)的關(guān)聯(lián)性是多方位的,主要有以下幾方面。
(1)場景、網(wǎng)元及應(yīng)急預(yù)案的關(guān)聯(lián)
應(yīng)急保障場景在縱向關(guān)聯(lián)著所需監(jiān)控的網(wǎng)元的告警、性能和負荷等監(jiān)控元素,橫向關(guān)聯(lián)著應(yīng)急預(yù)案的處理流程。
圖7 預(yù)案活性管理的二重性
(2)應(yīng)急預(yù)案與應(yīng)急保障所需人、財、物信息關(guān)聯(lián)
應(yīng)急預(yù)案的處理過程與應(yīng)急保障物資的調(diào)度和應(yīng)急處理相關(guān)人員信息相關(guān)聯(lián),在應(yīng)急事件發(fā)生時,可在第一時間將信息發(fā)布給相關(guān)人員,并告知其相應(yīng)場景的應(yīng)急物資的庫存狀況。
(3)積累、預(yù)測與報告相關(guān)聯(lián)
應(yīng)急場景網(wǎng)元的歷史數(shù)據(jù)積累分析、應(yīng)急場景網(wǎng)元的增刪狀況和日常業(yè)務(wù)量的多元關(guān)聯(lián),使得數(shù)據(jù)預(yù)測的結(jié)果更加接近真實發(fā)生的業(yè)務(wù)量。
應(yīng)急通信保障系統(tǒng)的建設(shè)是一個龐雜的系統(tǒng)工程,系統(tǒng)全部功能不可能一蹴而就地建成,需要運營商根據(jù)各地具體情況進行規(guī)劃建設(shè),以功能遞進的方式進行逐步建設(shè),需要注意以下幾方面。
(1)系統(tǒng)建設(shè)與管理制度應(yīng)配套出臺
運營商在建設(shè)應(yīng)急保障系統(tǒng)時,應(yīng)出臺與之配套的IT系統(tǒng)使用和建設(shè)規(guī)程以及系統(tǒng)維護辦法,只有充分調(diào)動使用人員和維護人員的主動性和積極性,責任落實到人,才能保障在建設(shè)系統(tǒng)時數(shù)據(jù)的準確,系統(tǒng)維護數(shù)據(jù)的及時可靠性,同時也可保障應(yīng)急保障物資變動后可以及時地在系統(tǒng)中反映。
(2)應(yīng)急預(yù)案關(guān)聯(lián)性應(yīng)小心設(shè)置和及時變動
在系統(tǒng)實際使用過程中,應(yīng)急預(yù)案的管理是個龐雜的工作,不但關(guān)系到具體的應(yīng)急預(yù)案的文檔內(nèi)容,而且關(guān)系到應(yīng)急預(yù)案處理流程中各個監(jiān)控點的設(shè)置,監(jiān)控告警和性能指標監(jiān)控集合的設(shè)置,當流程復(fù)雜時,定義的過程也相對復(fù)雜,如果定義不當,在應(yīng)急保障事件發(fā)生時,系統(tǒng)會發(fā)布虛假的應(yīng)急處理措施或通知給錯誤的應(yīng)急保障人員,反而在一定程度上阻礙了應(yīng)急處理措施的及時采取。
(3)定期性的演練
“平時多流汗,戰(zhàn)時少流血”,應(yīng)急保障系統(tǒng)建成后,需要定期進行應(yīng)急保障演練,一方面加強相關(guān)人員的認識來提高系統(tǒng)使用的熟練程度,另外一方面也可以發(fā)現(xiàn)系統(tǒng)在定義和建設(shè)方面存在的錯誤。
本文全面介紹了應(yīng)急通信保障系統(tǒng)一體化解決方案,整個系統(tǒng)圍繞應(yīng)急保障預(yù)案和應(yīng)急場景,以話務(wù)預(yù)測、告警監(jiān)控,性能預(yù)測、資源調(diào)度、預(yù)案自動執(zhí)行和信息發(fā)布為手段,打造了一個滿足可預(yù)知事件和突發(fā)事件的應(yīng)急保障平臺,使運營商可以在日常工作中及時發(fā)現(xiàn)故障隱患,迅速配置網(wǎng)絡(luò)資源,并能自動匹配預(yù)案,為資源調(diào)度、指揮決策和迅速恢復(fù)網(wǎng)絡(luò)運行,提供了強有力的運營支撐解決方案。