如何保證業(yè)務支撐系統(tǒng)安全可靠地運行?如何保證為客戶提供優(yōu)質的服務?這是電信行業(yè)IT運維部門人員常常在考慮的問題。在不久的將來,基于智能監(jiān)控方式支撐電信企業(yè)運維的方案,可以讓他們更輕松地解決問題。
■ 中國聯合網絡通信有限公司唐暉
隨著計算機和通信技術的發(fā)展,通信用戶數成倍增加。為改善電信公司管理、完善業(yè)務,運維支撐系統(tǒng)應運而生,并且得到了長足發(fā)展。運維支撐系統(tǒng)包括客戶服務系統(tǒng)、業(yè)務經營系統(tǒng)、計費系統(tǒng)、營賬系統(tǒng)等。對電信的IT運維部門來說,如何保證其業(yè)務支撐系統(tǒng)安全可靠地運行,如何保證為客戶提供優(yōu)質的服務,是他們面臨的全新挑戰(zhàn)。本文將針對電信運營企業(yè)業(yè)務支撐部門面臨的諸多運維問題,提出基于智能監(jiān)控方式來支撐電信運營企業(yè)業(yè)務系統(tǒng)運維的建議。
智能監(jiān)控系統(tǒng)包括網管系統(tǒng)通信、告警、事件管理、性能管理等多個子系統(tǒng)。智能監(jiān)控將日常通過人工手工方式執(zhí)行的運行維護工作借助計算機技術通過電子化方式加以實現。我們通常把智能監(jiān)控系統(tǒng)分為監(jiān)控代理層、數據處理層和展現層三個層次。其基本工作原理是:通過監(jiān)控代理層將各業(yè)務平臺資源的指標信息傳到數據處理層,通過對數據進行處理,形成所需要的性能信息、事件信息、告警信息,再通過展現層進行配置和展示。
四大關鍵技術
智能監(jiān)控方式采用了多種先進技術,具體如下:
Agent采集技術
數據采集是智能監(jiān)控系統(tǒng)能夠實現其監(jiān)控功能的前提。智能監(jiān)控系統(tǒng)是依靠Agent來實現數據采集功能的。Agent中的采集插件是完成采集功能的主要模塊。綜合監(jiān)控平臺提供了多種采集插件,包括命令行采集插件、SNMP采集插件、JMX采集插件、JDBC采集插件、NetFlow插件以及Syslog插件等。對平臺類資源還內嵌了豐富的采集命令,采集命令可以是使用任何語言編寫的操作系統(tǒng)級外部命令,擴展容易,對于今后的系統(tǒng)二次開發(fā)提供了便利條件。
事件壓制技術
事件管理能夠接受包括SNMP Trap服務器、Syslog服務器以及系統(tǒng)內置的事件檢測引擎檢測到的事件,并按照統(tǒng)一的標準格式化事件信息,通過事件壓制規(guī)則壓制不同來源的相同事件。例如,SNMP Trap服務器報告了某路由的某端口宕事件,Syslog服務器也報告了同樣的事件,則這兩個事件將壓制為同一事件。
事件自動關聯技術
由于在實際環(huán)境中,很多事件之間存在關聯關系,如因果關系、觸發(fā)關系、影響關系等,同時由于很多被管對象之間存在父子關系,因此,可以通過建立合理的事件相關性模型和被監(jiān)管對象的父子關系,以及面向應用過程的分析流圖,判斷已發(fā)生事件間的相關性,實現故障源識別和準確的故障定位。
資源可用性評估技術
IT資源的可用性狀態(tài)可以分為5級:正常、警告、次要故障、主要故障、嚴重故障。資源管理可用性狀態(tài)管理就是計算資源當前可用性狀態(tài)處于哪一級別。按照資源結構樹的概念,子資源的可用性狀態(tài)將按照某種傳遞規(guī)則逐層向上傳遞,直到根節(jié)點。
資源可用性狀態(tài)管理,幫助運維管理組織實現了一種自上而下的監(jiān)控方法,真正實現所謂分層管理。不同級別的管理者,可以關心不同層次的資源,高級管理者只用關心高層父資源的可用性狀態(tài),而一般管理人員則需要關心子資源的可用性狀態(tài),以便定位故障根源。
由下到上的監(jiān)控層次
由圖1可以看到,智能監(jiān)控系統(tǒng)是由Agent、Center Server、IE展現三個層次組成的。Agent通過SNMP、平臺管理接口、自定義的應用軟件接口規(guī)范及第三方產品的各種接口、協(xié)議等采集應用軟件、主機、數據庫、網絡、中間件、存儲、備份等監(jiān)控數據,并對監(jiān)控系統(tǒng)進行處理。Agent處理數據,處理后的數據傳給Center Server,并通過統(tǒng)一數據模型進行數據分類、存儲,同時展現界面能通過IE等瀏覽器去查看、配置相應的指標。整個數據處理過程都是通過系統(tǒng)的內部通信引擎進行信息交換的。
由圖2可以看到,最底層是要監(jiān)控的對象,每個監(jiān)控對象部署命令服務器或開通相應的接口協(xié)議。上一層是代理Agent,Agent可部署在獨立的一臺或多臺主機上,具體需要部署多少臺主機,則需要根據監(jiān)控對象的數量來確定。代理上一層是服務中心,服務中心包括應用服務器和數據庫服務器,服務器可做雙機。如果需要出報表,還需要提供一臺報表服務器,同時告警服務中心可以通過一臺告警服務器進行語音報警。最上一層需要配置多臺終端,用于維護人員查看系統(tǒng)情況。
將復雜問題簡單化
先進的設計理念。本方案基于ITIL理論等IT服務管理的先進理念設計而成,符合當前先進的IT服務管理標準。
完善的知識儲備。本方案通過引入IT資源結構樹以及IT資源相關有向圖的概念,將IT系統(tǒng)的物理組成結構以及邏輯關系全部映射到系統(tǒng)中,并且可以通過直觀的各種圖示來了解和監(jiān)控IT系統(tǒng)。
從下至上的監(jiān)控手段。從監(jiān)控IT資源的子資源的運行狀態(tài)開始來監(jiān)控IT資源本身的運行狀態(tài)。這種監(jiān)控手段有利于IT資源的故障定位。
從上至下的管理方法。方案通過提供業(yè)務視圖,建立業(yè)務與IT資源之間的映射關系,從而使管理人員可以從業(yè)務的角度來監(jiān)控IT資源對業(yè)務的影響,幫助快速恢復業(yè)務,提高IT系統(tǒng)對業(yè)務的貢獻度。
故障發(fā)現的主動性。系統(tǒng)通過Manager/Agent技術,對對象資源進行自動監(jiān)視,一旦資源特征發(fā)生變化,將立即通過事件檢測引擎監(jiān)測事件發(fā)生。
告警的及時準確性。當系統(tǒng)檢測到事件發(fā)生后,經過相應的壓制與根源分析處理,系統(tǒng)將通過手機短信以及電話語音等方式及時準確地通知相關的運維管理人員。這種通知機制還可以通過告警規(guī)則的定義實現提升、延遲告警等。
一鍵式配置特色。在對監(jiān)控資源進行監(jiān)控配置時,可以通過預先設定的配置模板,實現一鍵式配置功能,極大地方便用戶的使用。
可配置性。本方案具有展示方式、事件類別、事件產生規(guī)則、告警及系統(tǒng)用戶和權限的可配置性。
開放性。采用系統(tǒng)分層設計思想,在層與層之間,都提供了開放的API接口,其通信協(xié)議建立在開放的XML基礎上,使系統(tǒng)具有良好的開放性。
可擴展性。數據庫的設計采用了橫表變縱表模式,滿足當增加一個監(jiān)控對象或監(jiān)控指標時,數據庫結構不需做任何修改。
被管理對象資源消耗可控制性。系統(tǒng)采用了監(jiān)控代理技術,在需要被管理的資源系統(tǒng)上,安裝一個監(jiān)控代理,監(jiān)控代理負責監(jiān)管被監(jiān)管對象的屬性及其運行特征,其自身具備一定智能功能,可以過濾掉很多無關緊要的數據,從而減輕對網絡傳輸資源的占用。
可維護性。方案建議采用將復雜問題分成若干簡單問題的分層設計思想,層與層之間耦合關聯,增加系統(tǒng)的可維護性。
在不久的將來,基于智能監(jiān)控方式支撐電信運營企業(yè)業(yè)務系統(tǒng)運維的方案將逐步取代傳統(tǒng)人工維護方式。我們有理由相信,隨著智能監(jiān)控技術不斷發(fā)展和完善,基于智能監(jiān)控方式的電信運營企業(yè)運行維護系統(tǒng)必將在新一代電信運行維護系統(tǒng)中得到廣泛應用。