沈麗菁等
摘 要: 隨著集中式數(shù)據(jù)中心的建設(shè),國家電網(wǎng)公司越來越多的業(yè)務(wù)系統(tǒng)會(huì)向數(shù)據(jù)中心集中部署模式遷移,這些業(yè)務(wù)系統(tǒng)存在諸多差異,如業(yè)務(wù)方向不同、技術(shù)路線不一等,而數(shù)據(jù)中心運(yùn)維工作對(duì)于各業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控的要求日益強(qiáng)烈。為了解決這一問題,在此旨在通過研究SNMP協(xié)議的標(biāo)準(zhǔn)及實(shí)現(xiàn)方法,建立完善的監(jiān)控模式、統(tǒng)一的監(jiān)控指標(biāo)集與科學(xué)的告警機(jī)制,最終實(shí)現(xiàn)基于SNMP的業(yè)務(wù)指標(biāo)監(jiān)控系統(tǒng),對(duì)于提高集中部署業(yè)務(wù)系統(tǒng)的使用水平和運(yùn)維人員的效率,降低管理成本具有重要的意義。
關(guān)鍵詞: 集中部署業(yè)務(wù)系統(tǒng); SNMP; 關(guān)聯(lián)監(jiān)控; 告警
中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)12?0150?04
0 引 言
在國家電網(wǎng)公司初步建成集中式數(shù)據(jù)中心的背景下,針對(duì)公司各已建和在建應(yīng)用系統(tǒng)逐步向集中部署模式遷移的現(xiàn)狀,亟需對(duì)新環(huán)境下集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控技術(shù)進(jìn)行研究?,F(xiàn)有的監(jiān)控方式存在監(jiān)控架構(gòu)異構(gòu)、監(jiān)控模式不完善、監(jiān)控指標(biāo)與評(píng)價(jià)體系不一致等問題,難以適應(yīng)集中部署業(yè)務(wù)系統(tǒng)對(duì)監(jiān)控的需求。集中部署的業(yè)務(wù)系統(tǒng)用戶規(guī)模大,各類業(yè)務(wù)應(yīng)用的特點(diǎn)明顯,實(shí)現(xiàn)的技術(shù)路線區(qū)別較大,這些特有的復(fù)雜度、差異度、專業(yè)度將為統(tǒng)一監(jiān)控的實(shí)現(xiàn)帶來極大的挑戰(zhàn)。統(tǒng)一監(jiān)控的關(guān)鍵在于建立完善的監(jiān)控模式、統(tǒng)一的業(yè)務(wù)系統(tǒng)指標(biāo)集與自下而上的告警機(jī)制,保障公司信息化建設(shè)平穩(wěn)、有序、規(guī)范的向集中部署模式轉(zhuǎn)變,確保業(yè)務(wù)系統(tǒng)安全穩(wěn)定運(yùn)行。
1 研究思路
1.1 監(jiān)控模式
對(duì)集中部署業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控以監(jiān)控系統(tǒng)業(yè)務(wù)運(yùn)行為主線,并對(duì)支撐其的中間件、數(shù)據(jù)庫、網(wǎng)絡(luò)、虛擬資源、主機(jī)、機(jī)房環(huán)境等資源進(jìn)行監(jiān)控。主要以圖形拓?fù)浞绞竭M(jìn)行信息展示,并提供實(shí)時(shí)查詢與統(tǒng)一告警。
業(yè)務(wù)運(yùn)行監(jiān)控包括對(duì)集中部署業(yè)務(wù)系統(tǒng)業(yè)務(wù)指標(biāo)的實(shí)時(shí)收集和業(yè)務(wù)流程的檢測(cè)。業(yè)務(wù)流程的檢測(cè)分為主動(dòng)探測(cè)和被動(dòng)抓包兩種方式。即對(duì)集中部署業(yè)務(wù)系統(tǒng)進(jìn)行虛擬用戶的主動(dòng)模擬業(yè)務(wù)探測(cè);對(duì)業(yè)務(wù)系統(tǒng)的通道通過鏡像等方式被動(dòng)收集數(shù)據(jù)包進(jìn)行分析,來判斷業(yè)務(wù)流的正常。
資源監(jiān)控是監(jiān)控與集中部署業(yè)務(wù)系統(tǒng)相關(guān)聯(lián)的中間件、數(shù)據(jù)庫、服務(wù)器、網(wǎng)絡(luò)設(shè)備等資源。對(duì)這些IT基礎(chǔ)資源進(jìn)行獨(dú)立的監(jiān)控,當(dāng)某一層出現(xiàn)問題時(shí),其上一次層肯定是要受到關(guān)聯(lián),原因的判斷主要根據(jù)告警發(fā)生的先后順序,來判斷故障源頭。如當(dāng)數(shù)據(jù)庫鏈接超過閾值時(shí),其會(huì)占用大量內(nèi)存,使內(nèi)存占用率超過安全閾值。進(jìn)而使業(yè)務(wù)系統(tǒng)響應(yīng)速度變慢,直至癱瘓。
圖1 監(jiān)控層級(jí)圖
通過對(duì)業(yè)務(wù)運(yùn)行監(jiān)控與資源監(jiān)控的深入分析與挖掘,梳理出能夠全面反映集中部署業(yè)務(wù)系統(tǒng)運(yùn)行狀況的監(jiān)控指標(biāo),建立統(tǒng)一的指標(biāo)集與對(duì)應(yīng)的評(píng)價(jià)體系,從而實(shí)現(xiàn)對(duì)集中部署業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控。
1.2 技術(shù)路線
本文通過對(duì)集中部署業(yè)務(wù)系統(tǒng)進(jìn)行基于SNMP標(biāo)準(zhǔn)協(xié)議監(jiān)控的研究,為集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控技術(shù)路線打下基礎(chǔ)。
簡單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP),由一系列協(xié)議組和規(guī)范組成,包含一個(gè)應(yīng)用層協(xié)議(Application Layer Protocol)、數(shù)據(jù)庫模型(Database Schema)和一組資源對(duì)象。該協(xié)議能夠支持網(wǎng)絡(luò)管理系統(tǒng),用以監(jiān)測(cè)連接到網(wǎng)絡(luò)上的軟硬件平臺(tái)。
基于SNMP實(shí)現(xiàn)的網(wǎng)絡(luò)管理系統(tǒng)一般由以下幾個(gè)部分組成:管理基站(SNMP Manager),管理代理(SNMP Agent),管理信息庫(Management Information Base,MIB)和管理協(xié)議。管理基站作為管理端,是運(yùn)維人員進(jìn)行網(wǎng)絡(luò)管理的用戶接口,它具有向被管對(duì)象發(fā)送操作指令以及接收被管對(duì)象反饋信息的作用;管理代理(Management Agent)有兩種方式,一種是網(wǎng)絡(luò)設(shè)備,如主機(jī),網(wǎng)橋,路由器和集線器等;一種是軟件服務(wù),如Net?SNMP等。這些設(shè)備或服務(wù)上的管理代理(Management Agent)都能夠接收來自管理端發(fā)送的指令信息,并且這些代理的狀態(tài)也能夠被管理基站監(jiān)視。管理代理(Management Agent)響應(yīng)管理端的指令并進(jìn)行相應(yīng)的操作,也可以在沒有請(qǐng)求的情況下向管理端發(fā)送信息;MIB是所有被管理對(duì)象的數(shù)據(jù)庫,代表網(wǎng)絡(luò)中所有可以管理的資源,如設(shè)備、服務(wù)等。每個(gè)MIB對(duì)象對(duì)應(yīng)一個(gè)數(shù)據(jù)變量,每個(gè)數(shù)據(jù)變量則代表被管對(duì)象的某一個(gè)方面的信息,如主機(jī)內(nèi)存占用率、CPU使用率等;管理協(xié)議,即SNMP。它的基本功能是:取得(Get),設(shè)置(Set)和代理者主動(dòng)向管理站通報(bào)重要事件(Trap)。
本文所述的對(duì)于集中部署業(yè)務(wù)系統(tǒng)SNMP的監(jiān)控系統(tǒng)中,監(jiān)控系統(tǒng)本身(包含其所在設(shè)備)具有向管理代理收發(fā)指令信息的功能,相當(dāng)于管理基站。圍繞各集中部署業(yè)務(wù)系統(tǒng),有許多被管對(duì)象需要被監(jiān)控,包括數(shù)據(jù)庫、中間件等軟件,還有主機(jī)、路由器、交換機(jī)等硬件,每個(gè)被管對(duì)象的信息以層次的方式組合,最終分解成數(shù)據(jù)變量固化于管理信息庫中,管理信息庫為每個(gè)對(duì)象定義對(duì)象標(biāo)識(shí)符(OID)作為惟一標(biāo)識(shí)。每個(gè)被管對(duì)象上都運(yùn)行著管理代理(SNMP Agent),作為與管理端通信的媒介。本文設(shè)計(jì)的管理代理實(shí)際上是一種SNMP服務(wù),它不直接部署在業(yè)務(wù)系統(tǒng),即被管對(duì)象上,也不是業(yè)務(wù)系統(tǒng)的一個(gè)組件。這個(gè)服務(wù)只負(fù)責(zé)維護(hù)業(yè)務(wù)系統(tǒng)所有指標(biāo)數(shù)據(jù)的OID、獲取方式,這種獲取方式可能是一個(gè)數(shù)據(jù)庫查詢SQL或者一個(gè)可以調(diào)用的API接口等,以及處理來自客戶端的SNMP請(qǐng)求。
2 指標(biāo)模型
集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控的基礎(chǔ)和關(guān)鍵是集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控指標(biāo)集。要實(shí)現(xiàn)對(duì)不同業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控,首要任務(wù)是建立相對(duì)統(tǒng)一的指標(biāo)集,并在指標(biāo)集的基礎(chǔ)上建立科學(xué)的評(píng)價(jià)體系,最終通過評(píng)價(jià)體系掌握各集中部署業(yè)務(wù)系統(tǒng)的真實(shí)情況,實(shí)現(xiàn)統(tǒng)一監(jiān)控。
指標(biāo)集的建立首先根據(jù)集中部署業(yè)務(wù)系統(tǒng)的實(shí)際情況,參照國網(wǎng)前期的運(yùn)維經(jīng)驗(yàn)與現(xiàn)實(shí)需要,開發(fā)出能夠準(zhǔn)確、充分地反映集中部署業(yè)務(wù)系統(tǒng)情況的指標(biāo),再參考國內(nèi)外成熟系統(tǒng)的先進(jìn)案例完善提升,形成業(yè)務(wù)系統(tǒng)運(yùn)行指標(biāo)與應(yīng)用指標(biāo)兩大類型指標(biāo)的指標(biāo)集。
業(yè)務(wù)系統(tǒng)運(yùn)行指標(biāo)主要反映系統(tǒng)本身的運(yùn)行狀況及關(guān)聯(lián)資源如服務(wù)器、數(shù)據(jù)庫、中間件等的狀態(tài),(視運(yùn)維工作需要擴(kuò)展)如表1所示。
業(yè)務(wù)系統(tǒng)應(yīng)用指標(biāo)主要反映集中部署業(yè)務(wù)系統(tǒng)業(yè)務(wù)水平情況,由于不同的業(yè)務(wù)系統(tǒng)有著各自特有的核心業(yè)務(wù)邏輯和業(yè)務(wù)流程,所以應(yīng)用指標(biāo)也不相同,以國家電網(wǎng)公司集中部署業(yè)務(wù)系統(tǒng)電子商務(wù)平臺(tái)為例,其應(yīng)用指標(biāo)(視運(yùn)維工作需要擴(kuò)展)如表2所示。
之后本文針對(duì)指標(biāo)集建立了一套評(píng)價(jià)體系,為運(yùn)行指標(biāo)模塊和應(yīng)用指標(biāo)模塊分別賦予權(quán)重(可配置),根據(jù)業(yè)務(wù)系統(tǒng)的實(shí)際情況,指標(biāo)集中的每個(gè)指標(biāo)參照評(píng)價(jià)標(biāo)準(zhǔn)會(huì)得到相應(yīng)的分?jǐn)?shù)(滿分10分),最后匯總出一個(gè)總分,這個(gè)總分即為反映該集中部署業(yè)務(wù)系統(tǒng)總體情況的重要依據(jù)之一。
3 MIB設(shè)計(jì)
要實(shí)現(xiàn)基于SNMP對(duì)集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控,首先需要完成MIB的定義,將集中部署業(yè)務(wù)系統(tǒng)需要監(jiān)控的對(duì)象信息以變量的形式固化到管理信息庫中,才能被管理代理識(shí)別并被管理端訪問。
根據(jù)管理信息庫的對(duì)象命名樹結(jié)構(gòu),企業(yè)的管理信息庫對(duì)象為:
對(duì)象標(biāo)識(shí)符(OID):.iso.ide_org.dod.internet.private.enterprises
MIB節(jié)點(diǎn):.1.3.6.1.4.1
將國家國家電網(wǎng)公司的私有管理信息庫(Management Information Base,MIB)的根節(jié)點(diǎn)定義在企業(yè)管理信息庫對(duì)象下:
對(duì)象標(biāo)識(shí)符(OID):.iso.ide_org.dod.internet.private.enterprises.sg
MIB節(jié)點(diǎn):.1.3.6.1.4.1.****(基于安全性的考慮,本文采用*代替實(shí)際節(jié)點(diǎn)值)
在此根節(jié)點(diǎn)下擴(kuò)展所有集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控信息,形成國家電網(wǎng)公司集中部署業(yè)務(wù)系統(tǒng)監(jiān)控的樹形結(jié)構(gòu)。
首先根據(jù)國家電網(wǎng)公司的業(yè)務(wù)分類定義業(yè)務(wù)節(jié)點(diǎn),再在此業(yè)務(wù)節(jié)點(diǎn)下定義監(jiān)控節(jié)點(diǎn),形成對(duì)于業(yè)務(wù)監(jiān)控的根節(jié)點(diǎn):
業(yè)務(wù)節(jié)點(diǎn)
對(duì)象標(biāo)識(shí)符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus
MIB節(jié)點(diǎn):.1.3.6.1.4.1.****.1
監(jiān)控節(jié)點(diǎn)
對(duì)象標(biāo)識(shí)符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus.kpi
MIB節(jié)點(diǎn):.1.3.6.1.4.1.****.1.1
對(duì)于集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控,按照其所屬的業(yè)務(wù)分類,在業(yè)務(wù)監(jiān)控根節(jié)點(diǎn)下分層定義,以國家電網(wǎng)公司物資管理業(yè)務(wù)為例:
對(duì)象標(biāo)識(shí)符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus.kpi.mat.elc
MIB節(jié)點(diǎn):.1.3.6.1.4.1.****.1.1.1.1
其中:節(jié)點(diǎn).mat代表物資管理業(yè)務(wù);節(jié)點(diǎn).elc代表物資管理業(yè)務(wù)下的電子商務(wù)平臺(tái)(系統(tǒng))。
電子商務(wù)平臺(tái)的運(yùn)行指標(biāo)與應(yīng)用指標(biāo)就定義在系統(tǒng)節(jié)點(diǎn)的葉節(jié)點(diǎn)上,以電子商務(wù)平臺(tái)的運(yùn)行指標(biāo)“健康運(yùn)行時(shí)長”為例,其節(jié)點(diǎn)定義如下:
對(duì)象標(biāo)識(shí)符(OID):.iso.ide_org.dod.internet.private.enterprises.sg.bus.kpi.mat.elc.run
MIB節(jié)點(diǎn):.1.3.6.1.4.1.****.1.1.1.1.1
至此,就完成了集中部署業(yè)務(wù)系統(tǒng)監(jiān)控指標(biāo)在管理信息庫中的定義,而且該管理信息庫易維護(hù),方便其他業(yè)務(wù)系統(tǒng)及監(jiān)控指標(biāo)的擴(kuò)展。
4 SNMP Agent設(shè)計(jì)
5 告警設(shè)計(jì)
科學(xué)、完備的告警機(jī)制可以為運(yùn)維人員日常工作提供規(guī)范、有效的告警信息,輔助運(yùn)維人員進(jìn)行故障判斷,縮短故障解決時(shí)間,減輕運(yùn)維壓力與被動(dòng)性,為信息運(yùn)維提供有力技術(shù)支撐。告警設(shè)計(jì)的關(guān)鍵在于建立告警模型,本文通過對(duì)集中部署業(yè)務(wù)系統(tǒng)及其相關(guān)聯(lián)IT資源的梳理,根據(jù)IT資源的層級(jí)架構(gòu)(見圖1的監(jiān)控層級(jí)圖)建立集中部署業(yè)務(wù)系統(tǒng)層級(jí)告警模型,自下而上分為動(dòng)力環(huán)境告警層、硬件/網(wǎng)絡(luò)(包括虛擬環(huán)境)告警層、軟件/服務(wù)告警層、業(yè)務(wù)系統(tǒng)告警層,以拓?fù)湫问浇蛹?jí)關(guān)系,故障發(fā)生時(shí),系統(tǒng)按時(shí)間順序發(fā)出告警。引入智能判斷機(jī)制,根據(jù)告警級(jí)別、告警層級(jí)對(duì)故障進(jìn)行智能判斷,并生成關(guān)聯(lián)分析報(bào)告,供運(yùn)維人員分析參考。
一般的告警機(jī)制屬于“事后告警”,告警發(fā)出時(shí),故障已經(jīng)發(fā)生,失去防患于未然的意義。對(duì)于集中部署業(yè)務(wù)系統(tǒng)的告警設(shè)計(jì),除常規(guī)的告警設(shè)計(jì)外,更加側(cè)重于對(duì)于故障的預(yù)防,加入預(yù)警的設(shè)計(jì)。預(yù)警設(shè)計(jì)的關(guān)鍵在于指標(biāo)閾值的估算,閾值越精確,預(yù)警的價(jià)值也越大。本文基于國家電網(wǎng)公司多年的歷史性能數(shù)據(jù),根據(jù)平均值計(jì)算出資源性能指標(biāo)數(shù)據(jù)的趨勢(shì)曲線,當(dāng)趨勢(shì)指標(biāo)數(shù)據(jù)超出閾值時(shí),即存在發(fā)生告警的可能。提供靈活配置告警類別、嚴(yán)重級(jí)別、告警閾值的告警規(guī)則,系統(tǒng)依據(jù)用戶配置的告警規(guī)則提供包括短信、郵件、語音等多種方式的告警服務(wù)功能,通過告警管理降低管理被動(dòng)性,逐步實(shí)現(xiàn)無人值守的運(yùn)維管理。
6 結(jié) 語
本文從國家電網(wǎng)公司集中部署業(yè)務(wù)系統(tǒng)的監(jiān)控需求出發(fā),開展對(duì)集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控技術(shù)的研究。首先根據(jù)業(yè)務(wù)系統(tǒng)的實(shí)際情況,梳理出能夠全面反映業(yè)務(wù)系統(tǒng)運(yùn)行狀況的監(jiān)控指標(biāo),建立統(tǒng)一的指標(biāo)集與評(píng)分體系;然后采用基于SNMP協(xié)議的管理代理方式完成MIB與SNMP Agent設(shè)計(jì),實(shí)現(xiàn)業(yè)務(wù)指標(biāo)的固化;之后通過告警模型的設(shè)計(jì)支撐業(yè)務(wù)系統(tǒng)的運(yùn)維管理;最終克服傳統(tǒng)監(jiān)控方式存在的不足,實(shí)現(xiàn)了對(duì)集中部署業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控。目前,本文所述的統(tǒng)一監(jiān)控技術(shù)已應(yīng)用于國家電網(wǎng)公司集中式數(shù)據(jù)中心,對(duì)于已遷移的集中部署業(yè)務(wù)系統(tǒng)已實(shí)現(xiàn)指標(biāo)集的固化,評(píng)價(jià)模型也已用于日??己?,對(duì)于集中部署業(yè)務(wù)系統(tǒng)的統(tǒng)一監(jiān)控已初見成效。隨著更多的業(yè)務(wù)系統(tǒng)完成遷移,對(duì)于集中部署業(yè)務(wù)系統(tǒng)統(tǒng)一監(jiān)控的研究成果將對(duì)提高運(yùn)維人員的效率,提升集中部署業(yè)務(wù)系統(tǒng)的實(shí)用化水平與應(yīng)用水平,降低管理成本發(fā)揮越來越重要的作用。
參考文獻(xiàn)
[1] 葛君偉.云計(jì)算環(huán)境下的資源監(jiān)測(cè)模型研究[J].計(jì)算機(jī)工程,2011(11):31?33.
[2] 魏鋼,趙杰.基于SNMP的集群服務(wù)器狀態(tài)監(jiān)視系統(tǒng)設(shè)計(jì)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2011(1):25?28.
[3] 張彤,吳世榮.基于SNMP計(jì)算機(jī)網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(1):88?91
[4] 張登銀,陳瑋,任勛益,等.基于SNMP的MIB庫轉(zhuǎn)化成C文件的實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(9):6?9.
[5] 朱平堯.基于SNMP協(xié)議的CMTS/CM綜合網(wǎng)管系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中國有線電視,2011(z1):6?15.
[6] 魏煜欣,李強(qiáng).一種基于SNMP網(wǎng)絡(luò)性能管理數(shù)據(jù)的采集方法[J].計(jì)算機(jī)工程與應(yīng)用,2011(2):105?107.