【摘 要】隨著網(wǎng)絡(luò)和業(yè)務(wù)的快速發(fā)展,電信市場競爭的日趨激烈,原有的專業(yè)維護系統(tǒng)和分散維護方式已經(jīng)不能滿足市場需求,運維工作正在由“面向設(shè)備、面向網(wǎng)絡(luò)”轉(zhuǎn)變?yōu)椤懊嫦驑I(yè)務(wù)、面向客戶”。實現(xiàn)全網(wǎng)全專業(yè)的告警監(jiān)控、派單和呈現(xiàn)。
【關(guān)鍵詞】綜合網(wǎng)管 專業(yè)網(wǎng)管 綜合監(jiān)控
一、前言
綜合監(jiān)控系統(tǒng)是建設(shè)在各專業(yè)網(wǎng)管系統(tǒng)基礎(chǔ)之上,將各專業(yè)網(wǎng)管進行橫向打通,重點解決在一個平臺上實現(xiàn)對全專業(yè)集中監(jiān)控與關(guān)聯(lián)分析,并通過與EOMS(Electric Operation Maintenance System,電子運維系統(tǒng))工單模塊一點對接,實現(xiàn)故障處理的集中派單和集中處理。嘗試以客戶或業(yè)務(wù)的視角監(jiān)控網(wǎng)絡(luò)的運行狀況,實現(xiàn)對網(wǎng)元、網(wǎng)絡(luò)和部分集客業(yè)務(wù)的集中管理、集中維護和集中監(jiān)控,提高維護效率,提升維護水平。本文通過對運營商現(xiàn)有OSS(Operation support system,運營支撐系統(tǒng))的部署現(xiàn)狀分析及未來綜合監(jiān)控在運營商的應用進行探討。
二、系統(tǒng)部署現(xiàn)狀
目前主流運營商建設(shè)的主要綜合網(wǎng)管與專業(yè)網(wǎng)管有:移動綜合網(wǎng)管、傳輸綜合網(wǎng)管、接入綜合網(wǎng)管、固網(wǎng)交換網(wǎng)管、互聯(lián)網(wǎng)綜合網(wǎng)管及動環(huán)等其他專業(yè)網(wǎng)管。各專業(yè)綜合網(wǎng)管及專業(yè)網(wǎng)管的主要實現(xiàn)功能有:故障管理、性能管理、業(yè)務(wù)管理、資源管理、拓撲管理、報表管理、系統(tǒng)管理等。
對現(xiàn)有的網(wǎng)絡(luò)維護情況進行分析,目前網(wǎng)絡(luò)系統(tǒng)存在的主要問題:
(一)搭積木的建設(shè)模式,缺乏系統(tǒng)性規(guī)劃。
(二)無統(tǒng)一的性能監(jiān)控平臺,各專業(yè)的性能指標監(jiān)控只能由本專業(yè)的網(wǎng)管系統(tǒng)實現(xiàn),無法實現(xiàn)集中的網(wǎng)絡(luò)運行質(zhì)量的監(jiān)控。
(三)多種網(wǎng)絡(luò)技術(shù)同時運營,網(wǎng)元數(shù)目較多,告警數(shù)量龐大,缺乏有效和統(tǒng)一的處理機制。
(四)故障派單模式分散,無法實現(xiàn)統(tǒng)一集中派單,派單量大從而導致運維人員工作量大、效率低。
(五)專業(yè)網(wǎng)管眾多,數(shù)據(jù)難以共享形成信息孤島,無法實現(xiàn)端到端的業(yè)務(wù)監(jiān)控、場景監(jiān)控?,F(xiàn)有網(wǎng)絡(luò)監(jiān)控均由各專業(yè)的綜合網(wǎng)管或廠家網(wǎng)管實現(xiàn),導致網(wǎng)管系統(tǒng)眾多、監(jiān)控終端分散的現(xiàn)象,以其中某地市為例,目前移動網(wǎng)管監(jiān)控終端達135臺,系統(tǒng)60余套。網(wǎng)絡(luò)管理人員在日常工作中不得不同時面向眾多網(wǎng)管系統(tǒng),需要重復學習和適應不同廠家的維護界面,且各專業(yè)的監(jiān)控系統(tǒng)功能單一,無法滿足網(wǎng)絡(luò)管理和業(yè)務(wù)支撐需求。
三、綜合監(jiān)控系統(tǒng)
(一)綜合監(jiān)控優(yōu)勢
綜合監(jiān)控系統(tǒng)的優(yōu)勢體現(xiàn)在與:
1.強大穩(wěn)定的信息采集功能:針對不同的數(shù)據(jù)源,可提供多種數(shù)據(jù)采集方式;
2.強大的事件處理功能:采用實時數(shù)據(jù)總線的方式和高速事件處理算法,每秒鐘能夠處理50條以上告警事件,通過事件的過濾、合并、重組、字段豐富等可以形成準確的告警信息,通過故障風暴處理保證事件處理高效穩(wěn)定運行,滿足大型網(wǎng)絡(luò)的實時告警監(jiān)視的需要;
3.故障信息的快速實時響應:采用實時數(shù)據(jù)總線的方式和高速時間處理算法,快速有效地發(fā)現(xiàn)故障,同時通過物理設(shè)備和邏輯數(shù)據(jù)的簡單關(guān)聯(lián)、客戶和業(yè)務(wù)之間的簡單關(guān)聯(lián)處理,進一步加快了故障處理的進程,保障故障定位的準確性;
4. 多樣化、多層次的故障視圖定制能力:系統(tǒng)提供告警視圖定制的功能,可以根據(jù)需要定制特定的總覽和告警鳥瞰視圖,可以定制需要顯示的告警詳細信息,告警集定制功能更能提高告警監(jiān)視的效率;
5. 告警自動觸發(fā)能力:可以通過告警觸發(fā)網(wǎng)關(guān)實現(xiàn)向其他網(wǎng)管系統(tǒng)主動傳送告警數(shù)據(jù),如觸發(fā)告警業(yè)務(wù)處理流程系統(tǒng),還可以實現(xiàn)告警自動前轉(zhuǎn)功能,如電子郵件,短消息等;
6. 系統(tǒng)自我管理能力:系統(tǒng)提供對網(wǎng)管系統(tǒng)的關(guān)鍵進程的監(jiān)視能力,可以實時監(jiān)視各進程的運行狀態(tài);
7. 系統(tǒng)擴展性好,數(shù)據(jù)采集平臺和數(shù)據(jù)總線可以實現(xiàn)數(shù)據(jù)采集和事件處理器的靈活擴展,對專業(yè)采集器接口的支持,可以方便的接入新的網(wǎng)元和專業(yè)網(wǎng)管系統(tǒng);系統(tǒng)提供了與其他資源、性能等系統(tǒng)的接口,可以方便靈活與其他產(chǎn)品集成。
(二)綜合監(jiān)控技術(shù)架構(gòu)
綜合監(jiān)控系統(tǒng)的系統(tǒng)功能架構(gòu)如圖1所示:
1. 應用層
應用層是在核心服務(wù)層的基礎(chǔ)上實現(xiàn)告警監(jiān)控、性能監(jiān)控、場景監(jiān)控、集客監(jiān)控、智能預處理、網(wǎng)管自身管理、安全管理等功能。網(wǎng)管系統(tǒng)對用戶提供的界面形式,提供應用程序和Web瀏覽方式等,實現(xiàn)業(yè)務(wù)的展現(xiàn)、配置管理和應用服務(wù)。具體業(yè)務(wù)功能包括:
(1)業(yè)務(wù)呈現(xiàn):告警監(jiān)控、性能監(jiān)控、場景監(jiān)控、實時KPI、跨專業(yè)關(guān)聯(lián)、專題監(jiān)控、資源管理、家客集客等;
(2)配置管理:告警處理規(guī)則定制、綜合告警查詢統(tǒng)計、關(guān)聯(lián)參數(shù)配置、智能預處理管理、KPI基線配置;
(3)應用服務(wù):告警前傳服務(wù)、告警關(guān)聯(lián)查詢、預處理服務(wù)、派單服務(wù)、告警關(guān)聯(lián)分析服務(wù)、端到端分析服務(wù)、報表服務(wù)、拓撲服務(wù)、GIS服務(wù)。
2. 業(yè)務(wù)處理層
業(yè)務(wù)處理層是數(shù)據(jù)處理層完成數(shù)據(jù)的格式標準化,以及在時間、地域、網(wǎng)元等各種維度上的數(shù)據(jù)匯總工作,為上層應用提供不同維度和粒度的預處理數(shù)據(jù),并實現(xiàn)網(wǎng)絡(luò)告警的定位、重定義、告警屏蔽等工作。
在設(shè)計方法上,本系統(tǒng)實現(xiàn)數(shù)據(jù)結(jié)構(gòu)規(guī)范化的設(shè)計理念,使原始數(shù)據(jù)通過數(shù)據(jù)采集層進入系統(tǒng)之后,數(shù)據(jù)處理層對這些原始數(shù)據(jù)進行歸納整理,為上層的服務(wù)層提供支持,主要包括下列幾類數(shù)據(jù)處理:
(1)配置數(shù)據(jù)處理
配置信息歸一化:配置數(shù)據(jù)采集到綜合監(jiān)控系統(tǒng)之后,參照中國移動規(guī)定的標準配置資源模型進行歸一化、數(shù)據(jù)結(jié)構(gòu)規(guī)范化,使得數(shù)據(jù)應用層的相關(guān)應用能夠方便地使用這些數(shù)據(jù),也為系統(tǒng)擴展打下穩(wěn)固的基礎(chǔ)。
配置數(shù)據(jù)存儲:綜合監(jiān)控系統(tǒng)能夠?qū)⒉煌N配置數(shù)據(jù)轉(zhuǎn)換成以上描述的歸一化標準數(shù)據(jù)格式并存儲到相應的數(shù)據(jù)庫中,為性能監(jiān)控、告警監(jiān)控、場景監(jiān)控等應用提供數(shù)據(jù)支持,同時也為后續(xù)二次開發(fā)或其他的后處理提供標準的存儲接口。
(2)告警數(shù)據(jù)處理
綜合監(jiān)控系統(tǒng)將采集層采集到的原始告警數(shù)據(jù)經(jīng)過告警數(shù)據(jù)處理層處理,提供標準化數(shù)據(jù)服務(wù),告警處理包括告警標準化、告警清除、告警確認、告警數(shù)據(jù)的備份和刪除等處理功能。
(3)性能數(shù)據(jù)處理
性能數(shù)據(jù)采集到綜合監(jiān)控系統(tǒng)之后,進行性能數(shù)據(jù)歸一化處理,設(shè)置性能告警閾值,進行性能數(shù)據(jù)匯總、存儲等操作處理。
整體架構(gòu)采用插件式開發(fā)的設(shè)計理念,為應用層應用提供相應的服務(wù)支持,主要包括資源模型、消息分發(fā)、任務(wù)調(diào)度、數(shù)據(jù)引擎、統(tǒng)一鑒權(quán)等核心服務(wù)模塊。
3. 采集適配層
采集適配層主要完成網(wǎng)元接入?yún)f(xié)議轉(zhuǎn)換、接入服務(wù)、數(shù)據(jù)采集、主動檢測和采集任務(wù)調(diào)度等功能,采集直接從專業(yè)綜合網(wǎng)管系統(tǒng)或者通過直連設(shè)備廠家的網(wǎng)管系統(tǒng)等其它私有接口的方式,完成網(wǎng)絡(luò)的配置、性能、告警數(shù)據(jù)采集和網(wǎng)元操作維護的本地接口管理。支持接口方式包括:Corba、Socket、FTP、JDB、Telnet/SSH直連網(wǎng)元、Q3、SNMP、Trap等等。數(shù)據(jù)采集層的主要功能包括:數(shù)據(jù)采集分析,包括數(shù)據(jù)采集、預處理、分類處理、 告警綜合處理、性能綜合處理、配置綜合處理等;操作通道管理,向下層網(wǎng)元下達指令,提取指令執(zhí)行結(jié)果,對結(jié)果進行分析等。
4. 接口層
接口層負責接入網(wǎng)綜合網(wǎng)管系統(tǒng)與其它OSS系統(tǒng)進行信息的交互,主要接口包括與資源管理系統(tǒng)、電子運維網(wǎng)管系統(tǒng)、客戶網(wǎng)管系統(tǒng)、認證鑒權(quán)系統(tǒng)的接口和移動網(wǎng)管系統(tǒng)的接口。 網(wǎng)管系統(tǒng)還應預留并提供多種接口方式,以滿足未來軟件系統(tǒng)的接入需要。
四、綜合監(jiān)控在運營商的應用部署探討
(一)綜合監(jiān)控系統(tǒng)網(wǎng)絡(luò)建設(shè)方案
綜合監(jiān)控系統(tǒng)建議采用省中心集中部署方式,主要設(shè)備有應用服務(wù)器(HA熱備),數(shù)據(jù)庫服務(wù)器(HA熱備)、WEB服務(wù)器與接口服務(wù)器、采集服務(wù)器、磁盤陣列、SAN光纖交換機(熱備)、防火墻(熱備); 1套Oracle 11g數(shù)據(jù)庫軟件,服務(wù)器分工情況:
數(shù)據(jù)庫服務(wù)器負責數(shù)據(jù)存儲功能和提供數(shù)據(jù)服務(wù);
應用服務(wù)器負責系統(tǒng)中層分析處理程序的運行計算;
WEB服務(wù)器負責對系統(tǒng)上層應用展現(xiàn)等提供服務(wù);
接口服務(wù)器負責對外部橫向系統(tǒng)間接口程序運行;
采集服務(wù)器負責南向接口的專業(yè)網(wǎng)管和直連設(shè)備的采集程序運行。綜合監(jiān)控系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示:
1.網(wǎng)絡(luò)安全
綜合監(jiān)控系統(tǒng)在網(wǎng)絡(luò)組網(wǎng)上使用三層交換機,實現(xiàn)系統(tǒng)內(nèi)所有主機的網(wǎng)絡(luò)連接,同時該交換機還擔負著通過運營商專用網(wǎng)絡(luò)與其他專業(yè)網(wǎng)管通信的任務(wù),在與專用網(wǎng)絡(luò)互聯(lián)端口上應用ACL訪問列表,關(guān)閉除系統(tǒng)接口交互外的所有TCP/UDP端口。
在核心交換機相應端口上,通過配置ACL訪問列表,只允許WEB服務(wù)器與系統(tǒng)服務(wù)器、數(shù)據(jù)庫服務(wù)器進行訪問和通信,其余的IP地址全部過濾不允許訪問系統(tǒng)服務(wù)器,以確保系統(tǒng)服務(wù)器的安全性。
2.服務(wù)安全
綜合監(jiān)控系統(tǒng)兩臺數(shù)據(jù)庫服務(wù)器之間配置高可靠性軟件,利用磁盤陣列進行文件和數(shù)據(jù)的鏡像,同時利用HA技術(shù)完成對主備服務(wù)器運行狀態(tài)的檢測,當發(fā)現(xiàn)主服務(wù)器服務(wù)停止或死機時,完成主備服務(wù)器進程和服務(wù)的實時切換,保證系統(tǒng)不間斷運行。
(二)綜合監(jiān)控數(shù)據(jù)采集建設(shè)方案
目前綜合監(jiān)控系統(tǒng)的數(shù)據(jù)采集方式主要有以下三種:
1. 方案一(見下圖)
綜合監(jiān)控系統(tǒng)直接對接各專業(yè)綜合網(wǎng)管,采集配置、告警、性能和資源等數(shù)據(jù),對于還沒有建設(shè)綜合網(wǎng)管的專業(yè),綜合監(jiān)控系統(tǒng)采集平臺可預留接口,等該專業(yè)建設(shè)了綜合網(wǎng)管后,再對接其綜合網(wǎng)管。
2. 方案二(見下圖)
綜合監(jiān)控系統(tǒng)繞過各專業(yè)綜合網(wǎng)管系統(tǒng),直接對接各專業(yè)網(wǎng)管,采集配置、告警、性能和資源數(shù)據(jù)。
3. 方案三(見下圖)
對于各專業(yè)的綜合網(wǎng)管,如果其告警消息的完整性、實時性滿足生產(chǎn)要求,則綜合監(jiān)控系統(tǒng)直接對接其綜合網(wǎng)管;如果其綜合網(wǎng)管不能滿足生產(chǎn)要求,則綜合監(jiān)控系統(tǒng)對接專業(yè)網(wǎng)管;對于沒有建設(shè)綜合網(wǎng)管的專業(yè),綜合監(jiān)控系統(tǒng)對接其專業(yè)網(wǎng)管。
4. 綜合監(jiān)控數(shù)據(jù)采集建設(shè)方案對比
根據(jù)上述三種建設(shè)方案,對建設(shè)方案進行對比分析,分析結(jié)果如下表:
綜合上述三種方案對比分析,建議采用方案三進行接口對接。一方面從系統(tǒng)實施效果分析方案三能有效支撐生產(chǎn)要求;另一方面從系統(tǒng)建設(shè)周期與難易程度分析方案三均滿足系統(tǒng)建設(shè)的管控要求;最后是從系統(tǒng)建設(shè)的投資成本及對組織架構(gòu)影響與維護管理成本分析方案三符合公司的發(fā)展需求與應用推廣。
五、結(jié)論
本文簡要的描述了現(xiàn)有主流運營商的綜合網(wǎng)管與專業(yè)網(wǎng)管系統(tǒng)現(xiàn)狀,針對現(xiàn)有網(wǎng)管系統(tǒng)的現(xiàn)狀分析其存在的問題,闡述了網(wǎng)管系統(tǒng)綜合化的必然趨勢,并分析了告警系統(tǒng)的業(yè)務(wù)需求。根據(jù)現(xiàn)有網(wǎng)管系統(tǒng)現(xiàn)狀分析未來綜合網(wǎng)管系統(tǒng)的建設(shè)模式,包含網(wǎng)絡(luò)組網(wǎng)模式及底層數(shù)據(jù)采集模式的比較分析。
參考文獻:
[1]王桂梅.綜合網(wǎng)絡(luò)管理實時告警系統(tǒng)的設(shè)計與實現(xiàn).網(wǎng)絡(luò)與通信,2007:27-28頁
[2]龔樹峰.電信綜合集中告警系統(tǒng).電信快報.2005:9-13頁
[3]http://wenku.baidu.com/view/5087c7d380eb6294dd8
86c90.html百度文庫,2010-09-25
作者簡介:
嚴海濤,女,工程師,畢業(yè)于解放軍信息工程大學,主要從事數(shù)據(jù)及信息化項目咨詢和設(shè)計工作。
呂美嫦,女,助理工程師,畢業(yè)于山東理工大學,主要從事數(shù)據(jù)及信息化項目咨詢和設(shè)計工作。
王 猛,男,助理工程師,畢業(yè)于西安電子科技大學,主要從事數(shù)據(jù)通信項目咨詢和設(shè)計工作。