摘 要:伴隨著信息化技術飛速發(fā)展的同時,作為重要業(yè)務的支撐基礎,IT基礎設施規(guī)模亦日益強大與復雜,這給信息系統(tǒng)的安全、故障定位、信息監(jiān)控帶來了新的挑戰(zhàn),增加了運維管理的難度。本論文對IT設備數(shù)據(jù)處理技術介紹以及IT服務設備數(shù)據(jù)處理設計和系統(tǒng)的測試與分析做了描述并進行了總結與展望。
關鍵詞:運維;監(jiān)控;數(shù)據(jù)處理
中圖分類號:TP315
1 緒論
1.1 課題的來源及研究背景
伴隨著信息化技術飛速發(fā)展的同時,作為重要業(yè)務的支撐基礎,IT基礎設施規(guī)模亦日益強大與復雜,這給信息系統(tǒng)的安全、故障定位、信息監(jiān)控帶來了新的挑戰(zhàn),增加了運維管理的難度。經(jīng)過近幾年的IT管理發(fā)展,目前市場上已初步具備對主機、網(wǎng)絡設備、數(shù)據(jù)庫和業(yè)務系統(tǒng)進行監(jiān)視管理的能力。但由于監(jiān)控工具眾多而分散,缺乏統(tǒng)一的監(jiān)控數(shù)據(jù)展示及集中管理平臺,導致目前的監(jiān)控手段并沒有很好地在運維流程中發(fā)揮更大的作用。同時對于不同的IT服務設備產(chǎn)生的告警和性能信息的處理也進一步出現(xiàn)在運維管理工作的議程上,IT服務設備數(shù)據(jù)的復雜性和多樣性為企業(yè)IT運維管理工作的提出了新的難題,鑒于此,策劃并啟動了本研究課題,提高對IT服務設備數(shù)據(jù)處理能力的突破,以切實有效地提高IT管理及業(yè)務服務能力,確保信息系統(tǒng)的安全穩(wěn)定運行,最終得以有力支撐企業(yè)管理模式改革和創(chuàng)先需求。
1.2 國內(nèi)外研究現(xiàn)狀
目前,在國內(nèi)外,根據(jù)各企業(yè)的IT服務設備數(shù)據(jù)特點和技術難點,各個行業(yè)都已經(jīng)開始著手于IT服務設備數(shù)據(jù)處理技術的研究,以解決IT服務設備故障定位問題。但是,較為成熟的IT服務設備數(shù)據(jù)處理模型還沒有完全定型。
1.3課題研究意義和研究內(nèi)容
通過對課題的研究背景的研究,IT服務設備數(shù)據(jù)主要包含這些設備的性能數(shù)據(jù)和告警數(shù)據(jù),將這些復雜的告警數(shù)據(jù)通過數(shù)據(jù)處理規(guī)則和模型進行規(guī)范化處理,對設備問題的定位能起到快速、準確的目的。為信息系統(tǒng)的安全運行,運維管理水平的提高,起到?jīng)Q定性的作用。本文正是以這樣的目的為初衷,研究將IT服務設備數(shù)據(jù)處理技術與系統(tǒng)建設結合起來,通過分析IT服務設備數(shù)據(jù)的特點,提出將復雜的IT服務設備數(shù)據(jù)處理技術應用到企業(yè)業(yè)務系統(tǒng)中,對企業(yè)的運維管理進行輔助處理,提高企業(yè)IT設備故障處理的效率,以及降低企業(yè)運維管理的難度。
本文分析了某公司IT設備數(shù)據(jù)處理技術的模型和規(guī)則,闡述了IT服務設備數(shù)據(jù)在企業(yè)運維管理中問題定位能力所起到的作用,同時闡述了數(shù)據(jù)在系統(tǒng)中的效果。通過對IT服務設備數(shù)據(jù)的分析處理,能夠及時獲取最準確的故障定位信息。
1.4 論文組織結構
本論文圍繞IT服務設備數(shù)據(jù)處理技術進行研究分析,目的在于對復雜的IT服務設備性能和告警數(shù)據(jù)進行處理分析,以提高IT設備故障定位的能力,起到提高整個IT運維服務水平的作用。論文一共分為五章,各章節(jié)的內(nèi)容安排大致如下:
第一章:對課題的背景和國內(nèi)外研究現(xiàn)狀進行調研分析,結合相應的環(huán)境背景提出課題并分析課題研究的意義,在第一章中,我們還對論文的整個架構進行一個簡單的介紹。
第二章:在第二章中,主要是對IT服務設備數(shù)據(jù)處理技術相關的一些概念的進行簡單的介紹說明。
第三章:詳細介紹IT服務設備數(shù)據(jù)處理設計架構,模塊設計,業(yè)務處理規(guī)則設計思路等內(nèi)容。
第四章:對系統(tǒng)進行測試和性能分析,并對測試結果進行了分析和總結。
第五章:對整篇論文和實驗進行總結,提出論文中存在的不足,提出課題研究中還存在的問題等。
1.5 本章小結
本章中主要是對本文要進行研究的課題IT服務設備數(shù)據(jù)處理技術進行一些預先的調研工作,比如對課題的來源,課題研究背景,國內(nèi)外對復雜事件處理技術的研究狀況等。
2 IT設備數(shù)據(jù)處理技術介紹
2.1 IT服務設備
本論文中提到的IT服務設備數(shù)據(jù)主要是指:
(1)主機設備,包含小型機、PC服務器、VM、LPAR等;
(2)軟件實例,包含操作系統(tǒng)類、數(shù)據(jù)庫類、中間件類、用軟件類等;
(3)網(wǎng)絡安全設備,包含交換機設備、路由器設備、漏洞掃描設備、審計設備、入侵檢測設備、VPN、防火墻設備、負載均衡等;
(4)存儲設備,包含磁盤陣列、帶庫、光纖交換機等;
(5)環(huán)境設備,包含UPS、空調、機柜、配電柜等;
(6)業(yè)務服務類,包含基礎的業(yè)務系統(tǒng)等。
2.2 IT服務設備數(shù)據(jù)
本論文中提到的IT服務設備數(shù)據(jù)主要是2.1章節(jié)中所提到的設備在運行狀態(tài)中的性能數(shù)據(jù)和告警數(shù)據(jù),這些數(shù)據(jù)是通過不同的監(jiān)控工具獲取,各自獨立的存在,數(shù)據(jù)之間沒有進行有效關聯(lián),對IT服務設備的故障排查、問題定位。
2.3 IT服務設備數(shù)據(jù)處理所涉及技術
2.3.1 列表法
列表法是記錄和處理實驗數(shù)據(jù)的基本方法,也是其它實驗數(shù)據(jù)處理方法的基礎。將實驗數(shù)據(jù)列成適當?shù)谋砀瘢梢郧宄胤从吵鲇嘘P物理量之間的一一對應關系,既有助于及時發(fā)現(xiàn)和檢查實驗中存在的問題,判斷測量結果的合理性;又有助于分析實驗結果,找出有關物理量之間存在的規(guī)律性。一個好的數(shù)據(jù)表可以提高數(shù)據(jù)處理的效率,減少或避免錯誤,所以一定要養(yǎng)成列表記錄和處理數(shù)據(jù)的習慣。
2.3.2 作圖法
利用實驗數(shù)據(jù),將實驗中物理量之間的函數(shù)關系用幾何圖線表示出來,這種方法稱為作圖法。作圖法是一種被廣泛用來處理實驗數(shù)據(jù)的方法,它不僅能簡明、直觀、形象地顯示物理量之間的關系,而且有助于我們研究物理量之間的變化規(guī)律,找出定量的函數(shù)關系或得到所求的參量。同時,所作的圖線對測量數(shù)據(jù)起到取平均的作用,從而減小隨機誤差的影響。此外,還可以作出儀器的校正曲線,幫助發(fā)現(xiàn)實驗中的某些測量錯誤等。因此,作圖法不僅是一個數(shù)據(jù)處理方法,而且是實驗方法中不可分割的部分。
2.3.3 逐乘法
逐差法是物理實驗中處理數(shù)據(jù)常用的一種方法。凡是自變量作等量變化,而引起應變量也作等量變化時,便可采用逐差法求出應變量的平均變化值。逐差法計算簡便,特別是在檢查數(shù)據(jù)時,可隨測隨檢,及時發(fā)現(xiàn)差錯和數(shù)據(jù)規(guī)律。更重要的是可充分地利用已測到的所有數(shù)據(jù),并具有對數(shù)據(jù)取平均的效果。還可繞過一些具有定值的求知量,而求出所需要的實驗結果,可減小系統(tǒng)誤差和擴大測量范圍。
2.3.4 最下二乘法
把實驗的結果畫成圖表固然可以表示出物理規(guī)律,但是圖表的表示往往不如用函數(shù)表示來得明確和方便,所以我們希望從實驗的數(shù)據(jù)求經(jīng)驗方程,也稱為方程的回歸問題,變量之間的相關函數(shù)關系稱為回歸方程。
2.4 本章小結
在第二章中,主要是對IT服務設備數(shù)據(jù)處理技術相關的一些概念的進行簡單的介紹說明。
3 IT服務設備數(shù)據(jù)處理設計
3.1 IT服務設備性能數(shù)據(jù)處理設計
3.1.1 IT服務設備性能數(shù)據(jù)處理架構設計
3.1.2 IT服務設備性能數(shù)據(jù)處理規(guī)則
(1)性能數(shù)據(jù)-輪詢采集
3.2.2 IT服務設備告警數(shù)據(jù)處理規(guī)則
(1)告警數(shù)據(jù)-級別映射
1)監(jiān)控管理系統(tǒng)分四個級別:嚴重、重要、一般、提醒;
2)分別收集整理底層監(jiān)控工具的告警級別;
3)在系統(tǒng)的告警級別映射模塊中,搭建系統(tǒng)與底層工具的級別映射關系;
4)此環(huán)節(jié)為獲取原始告警信息后的第一個業(yè)務處理環(huán)節(jié)。
(2)告警數(shù)據(jù)-過濾
1)系統(tǒng)支持對對象或對象組的過濾,比如單獨針對小型機或針對小型機、pc機一起定制過濾;
2)支持對IP、周期、級別、類型、業(yè)務系統(tǒng)、采集工具等的過濾;
3)支持對關鍵字的過濾;
4)支持對不同維度的交集或并集的聯(lián)合過濾;
(3)告警數(shù)據(jù)-次數(shù)過濾
1)鑒于底層采集工具中,次數(shù)過濾的算法參差不齊,初步確定在本系統(tǒng)中搭建一層次數(shù)過濾機制。原工具自身包含算法的,設定為不啟用。
2)系統(tǒng)提供告警次數(shù)過濾的配置功能,一旦設定了次數(shù),需要同類型的告警連續(xù)達到此數(shù)字,才將告警拋出,否則將丟棄。
(4)告警數(shù)據(jù)-壓縮
(5)告警數(shù)據(jù)-關聯(lián)
策略1:對象指標關聯(lián)
系統(tǒng)提供源指標和目標指標的配置功能,如在某時間段內(nèi),A對象的A1指標和B對象的B1指標均產(chǎn)生告警信息,而兩指標又存在關聯(lián)關系,則報出A1指標告警,同時在告警內(nèi)容中反映B1指標受關聯(lián)的提示。
策略2:類型指標關聯(lián)
在對象指標關聯(lián)的基礎上,提供根據(jù)主機或業(yè)務系統(tǒng)泛化功能,即:A對象所屬類型中的A1指標對同屬一臺主機或同屬一個業(yè)務系統(tǒng)內(nèi)的B對象所屬類型中B1指標存在關聯(lián)關系。
(6)告警數(shù)據(jù)-處理
3.4 本章小結
本章詳細介紹IT服務設備數(shù)據(jù)處理設計架構,模塊設計,業(yè)務處理規(guī)則設計思路等內(nèi)容,主要包括以下內(nèi)容:(1)性能數(shù)據(jù)-輪詢采集處理;(2)性能數(shù)據(jù)-數(shù)據(jù)量折算;(3)性能數(shù)據(jù)-歸檔存儲方案處理;(4)告警數(shù)據(jù)-級別映射;(5)告警數(shù)據(jù)-過濾、壓縮;(6)告警數(shù)據(jù)-關聯(lián);(7)告警數(shù)據(jù)-處理與清除。
通過上述的方法和步驟,對IT服務設備的性能數(shù)據(jù)與告警數(shù)據(jù)的從收集到分析處理建立了一套行之有效的規(guī)則,保證了IT服務設備數(shù)據(jù)的及時性和準確性,為企業(yè)IT運維管理的有效開展提供了強有力的數(shù)據(jù)支持。
4 基于系統(tǒng)的測試與分析
4.1 系統(tǒng)測試分析
通過對性能和告警數(shù)據(jù)的處理分析,能夠快速定位IT服務設備的告警信息,在業(yè)務拓撲圖上也能明細定位設備問題。
4.2 本章小結
本章主要介紹了IT服務設備數(shù)據(jù)處理技術在系統(tǒng)建設實現(xiàn)中的應用,通過業(yè)務關聯(lián)分析,能夠快速定位IT服務設備故障,提高運維工作效率,提升整個運維管理水平。
5 總結與展望
經(jīng)過系統(tǒng)的運行和測試,使用IT服務設備數(shù)據(jù)處理技術在IT運維管理上對問題定位起到?jīng)Q定性作用,同時提高了整個運維工作效率,提升了運維管理水平,為企業(yè)的信息化管理水平起到了促進的作用。
但是由于IT服務設備的復雜性,底層監(jiān)控工具的多樣性,目前IT服務設備數(shù)據(jù)處理技術的公用性和通用性還存在著一定的缺陷,該技術需要進一步的提升和優(yōu)化。
展望,本文主要分析和論述了IT服務設備的性能數(shù)據(jù)和告警數(shù)據(jù)的處理,后續(xù)也可以考慮對IT服務設備的屬性數(shù)據(jù)進行管理和分析,充分考慮數(shù)據(jù)與性能數(shù)據(jù)、告警數(shù)據(jù)的技術處理,為IT運維管理水平的提高起到積極的促進作用。
參考文獻:
[1]薛尤貴.基于PCIM的告警分析處理方法[J].電信工程技術與標準化,2011(7).
作者簡介:趙旭(1987.08-),女,黑龍江人,研究方向:軟件開發(fā)與運維。
作者單位:廣州供電局有限公司,廣州 510000