姜濤
【摘 要】隨著IT業(yè)務的不斷發(fā)展,弱電工程對于網絡數(shù)據(jù)量的需求大幅提升。使得IT基礎架構的管理建設在弱電工程中占據(jù)越來越重要的位置。本項研究基于從業(yè)務視角管理IT出發(fā),探尋弱電工程中IT子系統(tǒng)管理的拓展與延伸,為IT子系統(tǒng)的管理探索一種全新的視角。
【關鍵詞】IT基礎架構;IT業(yè)務;IT綜合管理
1 弱電工程中IT基礎架構管理的現(xiàn)狀
隨著弱電工程信息化的發(fā)展,人們對IT系統(tǒng)的安全運行要求越來越高。IT系統(tǒng)的平穩(wěn)運行關系到弱電工程各個子系統(tǒng)的正常運行。為此,IT系統(tǒng)維護所需要的人員也越來越多,技術水平要求也越來越高。這就需要對IT環(huán)境和運行情況進行監(jiān)控,將故障解決在萌芽之中。
當前弱電行業(yè)在IT子系統(tǒng)管理主要存在以下的難點:
(1)無法從業(yè)務角度發(fā)現(xiàn)IT業(yè)務的問題
由于IT業(yè)務的運行依賴于諸多IT資源,當業(yè)務出現(xiàn)異常后的逐一排查增加了處理時間和業(yè)務中斷造成的損失,降低了運維效率。
(2)缺少統(tǒng)一的報表及分析工具
目前數(shù)據(jù)統(tǒng)計依賴手動的方式,無法實現(xiàn)自動匯聚、抽取、分析數(shù)據(jù)。用戶無法通過報表進行決策分析,管理決策沒有數(shù)據(jù)依據(jù)。
(3)缺乏有效的IT資產管理手段
面對眾多的IT硬件資產,無法準確、有效的進行資產的配置項變更管理。
2 建立IT綜合管理平臺的探索
通過建立IT綜合業(yè)務監(jiān)控管理平臺,用ITIL理論及實踐來指導、規(guī)范和提升弱電工程IT子系統(tǒng)信息化水平,為其建立高效IT監(jiān)控與靈活服務管理平臺,形成一套規(guī)范的管理體系,解決實際運行維護問題,實現(xiàn)精細化管理,降低運營成本和操作風險,提高工作效率和服務品質。
3 構建基于業(yè)務視角的綜合管理平臺
3.1 邏輯架構設計
IT綜合管理平臺的邏輯架構設計可分為如下四層:
數(shù)據(jù)采集層:由各種協(xié)議適配器構成,向上層提供統(tǒng)一的接口訪問管理協(xié)議棧,獲取管理信息,并在初始發(fā)現(xiàn)時作為驅動模塊構建信息模型。
數(shù)據(jù)匯聚層:統(tǒng)一描述底層數(shù)據(jù),組織管理信息庫。使得各個業(yè)務模塊面對統(tǒng)一的數(shù)據(jù)模型,方便對資源進行權限管理,使得面向事務的并發(fā)管理成為可能。
數(shù)據(jù)處理層:專注實現(xiàn)管理業(yè)務,不關心底層差異協(xié)議。響應前臺應用的請求,完成數(shù)據(jù)查詢,處理等功能。
數(shù)據(jù)展現(xiàn)層:從數(shù)據(jù)處理層得到數(shù)據(jù)在前臺界面顯示。
利用分布式總線實現(xiàn)各邏輯層之間的通信。模塊通過內部定義數(shù)據(jù)接口,進行交互式操作。
3.2 技術架構設計
IT綜合監(jiān)控管理平臺的技術架構擁有以下幾方面的特性:
(1)符合信息行業(yè)標準和規(guī)范,采用層次化、模塊化的設計,各模塊采用松耦合設計,可部署于不同的服務器上;
(2)選用的產品或工具平臺均是業(yè)界成熟、穩(wěn)定、主流的,對監(jiān)控對象的影響達到最?。?/p>
(3)監(jiān)控指標、策略均可通過配置界面進行增加和調整,無需修改源程序;
(4)按照統(tǒng)一工作平臺現(xiàn)有集成規(guī)范與統(tǒng)一工作平臺進行集成,按照運維管理系統(tǒng)的集成規(guī)范與其他子系統(tǒng)進行整合集成;
(5)用戶界面采用B/S架構,支持通用的瀏覽器,集成接口良好,支持通用標準,支持向大型監(jiān)控顯示屏輸出顯示;
(6)支持國際標準協(xié)議,如HTTP、JMX、SNMP、JDBC、Telnet、WMI等。
3.3 平臺集成設計
管理邊界應為網絡內的所有IT網元元素,通過標準的監(jiān)控協(xié)議及數(shù)據(jù)接口監(jiān)控業(yè)務系統(tǒng)信息。與其他系統(tǒng)平臺的數(shù)據(jù)交互將通過數(shù)據(jù)接口及Web Service 的方式實現(xiàn),監(jiān)控系統(tǒng)在管理邊界上以主動推送事件為主。
3.4 平臺功能設計
3.4.1 業(yè)務健康分析指數(shù)的建立
以關鍵業(yè)務為中心,提供圖形化工具,根據(jù)實際環(huán)境,定義個性化模型,從業(yè)務角度對被監(jiān)測資源進行關聯(lián)、重組,建立業(yè)務內部關系模型圖,幫助管理者搭建業(yè)務卡片視圖,準確判斷業(yè)務健康度、繁忙度、層級和告警等內容,客觀評估業(yè)務運行水平,為管理者提供準確、有價值的管理信息。管理者宏觀可掌握業(yè)務整體運行狀況,微觀可查詢底層資源運行狀況,提高故障定位準確性,保障業(yè)務穩(wěn)定運行。
3.4.1.1 構建IT健康指數(shù)
該指數(shù)通過關鍵業(yè)務系統(tǒng)、關鍵資源的參數(shù)計算得來,包括業(yè)務的連續(xù)運行時間、故障恢復時間、告警信息、健康度、繁忙度等信息。綜合反應整體IT運維狀態(tài),構建管理視角,快速定位環(huán)境弱點。
3.4.1.2 關鍵業(yè)務的健康度管理
指標由IT資源實時采集而得,包含業(yè)務系統(tǒng)可用性和性能狀態(tài)指標,記錄每天不同時間段的健康度指標,形成平均值,通過K線圖顯示
業(yè)務健康度監(jiān)控指標項包含有:
(1)IT資源的連通性
(2)URL服務的狀態(tài)、響應時間、響應結果正確性
(3)數(shù)據(jù)庫的狀態(tài)、響應時間、響應結果正確性
3.4.1.3 關鍵業(yè)務監(jiān)控
使用360度雷達掃描視圖,及時發(fā)現(xiàn)并了解關鍵業(yè)務的薄弱環(huán)節(jié)、運行狀況,并同步顯示到業(yè)務健康分析視圖之上,方便管理人員了解業(yè)務狀況,提前預知故障,及時采取措施。
3.4.1.4 關鍵業(yè)務建模
通過點擊進入告警控制臺,實時呈現(xiàn)所有的網絡、系統(tǒng)、應用、安全等告警信息,包含告警的時間、告警源、告警次數(shù)、告警類型、告警描述等,支持運維知識庫的創(chuàng)建和修改。并支持直接通過告警信息關聯(lián)到IT資源的詳細信息監(jiān)測頁面。
3.4.1.5 關鍵業(yè)務的繁忙度
綜合管理平臺可以就業(yè)務繁忙程度進行建模管理,提供相應監(jiān)控指標,支持查看歷史性繁忙度數(shù)據(jù)、對繁忙度指標進行權重比調整。endprint
3.4.1.6 關鍵業(yè)務的SLA指標建立
對業(yè)務系統(tǒng)的SLA指標進行考核需要重點考慮各資源間的權重比關系,通過選擇重要資源,用權重比計算方式,計算業(yè)務系統(tǒng)的健康度和繁忙度等指標。
3.4.2 綜合資源管理
弱電工程有大量資源,因此平臺要自動發(fā)現(xiàn)全網網絡設備,其次發(fā)現(xiàn)網絡中的安全設備,服務器,應用軟件及機房環(huán)境等,并能自動計算出設備之間的線路連接關系。通過網絡拓撲,提供準確數(shù)據(jù),完成網絡管理。
3.4.2.1 資源的自動發(fā)現(xiàn)
平臺應全面支持SNMP 協(xié)議,能根據(jù)網絡規(guī)模、協(xié)議應用情況,有針對性的配置發(fā)現(xiàn)協(xié)議、并發(fā)進程、管理域和區(qū)域、屏蔽設備和網段等參數(shù)信息。
通過向導式拓撲資源發(fā)現(xiàn)功能,使用戶能夠快速了解平臺自動發(fā)現(xiàn)的各類設備的統(tǒng)計信息,實時觀測進程,掌握發(fā)現(xiàn)情況,減少管理復雜程度。
3.4.2.2 網絡故障監(jiān)控
平臺應根據(jù)預先設定的參數(shù),跟蹤網絡拓撲的變化,當網絡發(fā)生故障或拓撲發(fā)生變化時可迅速通過前臺拓撲反映,可展現(xiàn)設備故障、鏈路故障、網絡協(xié)議故障事件等。通過節(jié)點告警將故障進行展現(xiàn),顯示在統(tǒng)一告警控制臺中。根據(jù)報警事件的重要級別、優(yōu)先級等信息,可以直觀、快速地了解報警事件的緊要性。可設定報警過濾器和排列順序,重點關注重要的網絡報警事件。系統(tǒng)支持通過聲音、郵件、短信等方式提示及時告警,為用戶發(fā)現(xiàn)和處理事件提供數(shù)據(jù)信息支持。
3.4.2.3 網絡資源性能監(jiān)控
平臺實時監(jiān)測網絡設備、服務器的端口流量、丟包率、Ping延時、CPU利用率等運行參數(shù),超過預設閥值時能在拓撲圖上據(jù)定義閥值以不同顏色、粗細顯示線路運行狀態(tài),當鏈路出現(xiàn)異常自動告警。并提供歷史數(shù)據(jù)統(tǒng)計分析。
3.4.2.4 主機操作系統(tǒng)管理
平臺可實現(xiàn)對Windows、IBM AIX、Linux、等各種操作系統(tǒng)的主機的關鍵資源的自動監(jiān)控,幫助管理員及時發(fā)現(xiàn)故障和故障隱患。
3.4.2.5 應用監(jiān)控管理
系統(tǒng)能監(jiān)控Oracle、SQL Server、J2EE、JBOSS、Mysql、DB2等應用,按照屬性分為數(shù)據(jù)庫工作狀態(tài)、表空間的利用情況、數(shù)據(jù)文件和數(shù)據(jù)設備的讀寫命中率等??芍苯邮褂孟嚓P的監(jiān)控參數(shù)和項目,也可支持自定義。
3.4.2.6 機房動力環(huán)境
平臺能集動力環(huán)境設備監(jiān)控、安防報警系統(tǒng)、網絡監(jiān)控系統(tǒng)于統(tǒng)一的平臺??蓪崿F(xiàn)安防報警、供配電、UPS、空調、溫濕度監(jiān)測等子系統(tǒng)的統(tǒng)一監(jiān)控,提高系統(tǒng)可靠性,減輕用戶工作負擔。
3.4.3 故障及告警事件處理
平臺在事件發(fā)生時通過事件過濾、壓縮和根因分析等方式幫助管理人員定位故障,向相關人員發(fā)送報警,及時處理問題,提高工作效率。建立綜合告警通知機制,例如短信、郵件、移動終端、桌面即時通訊工具等;
4 構建綜合監(jiān)控管理平臺的顯示意義
4.1 管理效益分析
從管理效益分析:
(1)減少系統(tǒng)事故發(fā)生,降低事故造成的影響和損失。
(2)通過管理工具及時獲悉資源狀態(tài),處理潛在問題,提高工作效益。
(3)建立IT資源與業(yè)務的關系,提升項目的影響度。
(4)通過IT服務管理保障體系的建立實施,規(guī)范和評估第三方維護公司的工作質量。
4.2 經濟效益分析
從經濟效益分析:
(1)全面、及時發(fā)現(xiàn)問題,針對信息系統(tǒng)具體情況,制定相關解決方案,保證系統(tǒng)平穩(wěn)運行,減少投資成本。
(2)使運維人員的時間和精力放在解決技術問題上,利用知識庫降低人員變動風險,減少聘請專業(yè)人員開支。
(3)降低事故發(fā)生的次數(shù)、減少不利影響帶來的損失,提高系統(tǒng)可用性、可靠性、運行效率,帶來間接的經濟效益。
【參考文獻】
[1](荷)博恩.基于ITIL的IT服務管理基礎篇.北京,清華大學出版社,2007.
[2](南非)布魯克斯.IT服務管理指標.北京,清華大學出版社,2008.
[3]黎連業(yè).智能建筑弱電工程設計與實施.北京,中國電力出版社,2006.endprint