王立平 何 榮
富陽市供電局經(jīng)過多年的信息化建設(shè),已有多個信息系統(tǒng)在使用,所采用的服務(wù)器和信息系統(tǒng)日益復(fù)雜。由于對現(xiàn)有的系統(tǒng)缺乏有效的管理手段,對計算機資源分布和性能分布缺乏有效的監(jiān)控手段,對系統(tǒng)故障和效率下降缺乏預(yù)警、分析工具。因此,需要建設(shè)一套服務(wù)器綜合管理系統(tǒng)來提高基礎(chǔ)設(shè)施的可靠性、利用率和安全性等,減少混合網(wǎng)絡(luò)管理環(huán)境下的運營成本。同時,系統(tǒng)還能為信息化的長期發(fā)展規(guī)劃提供必要的依據(jù),在建設(shè)基礎(chǔ)設(shè)施的同時,提供規(guī)劃和實現(xiàn)信息協(xié)調(diào)和資源管理,實現(xiàn)高效的系統(tǒng)管理,從而獲得可靠的信息支持。
一、管理系統(tǒng)功能需求
實現(xiàn)所轄的主機設(shè)備、服務(wù)器的監(jiān)控管理;
實現(xiàn)告警信息的定制、獲取、處理和統(tǒng)計功能;
實現(xiàn)對信息網(wǎng)上所有服務(wù)器設(shè)備的性能數(shù)據(jù)的采集和統(tǒng)計功能;
根據(jù)監(jiān)測到的性能原始數(shù)據(jù),對信息系統(tǒng)運行狀況,運行趨勢等進行分析;
提供靈活的報表定制功能,針對需求定制開發(fā)報表。
二、管理系統(tǒng)的設(shè)計與建設(shè)
富陽市供電局已經(jīng)部署了北塔的IT綜合管理系統(tǒng)的網(wǎng)管模塊,為了保證管理平臺的統(tǒng)一,通過在北塔IT綜合管理系統(tǒng)中,增加主機、數(shù)據(jù)庫管理等功能模塊,實現(xiàn)了服務(wù)器綜合管理。
1.系統(tǒng)部署
(1)主機設(shè)備管理使用SNMP協(xié)議,開放只讀權(quán)限,并使用不同的字符串。在服務(wù)端進行設(shè)置,實現(xiàn)服務(wù)器拓撲圖。
(2)對每個數(shù)據(jù)庫服務(wù)器建立管理用戶,開放最小權(quán)限,僅能查詢對應(yīng)的視圖與表,以免管理用戶權(quán)限過大。在服務(wù)器端將每個數(shù)據(jù)庫服務(wù)添加到應(yīng)用服務(wù)中進行管理。
(3)通過對服務(wù)告警類進行定義,可以對所有設(shè)備的CPU、內(nèi)存、應(yīng)用服務(wù)、數(shù)據(jù)庫重要參數(shù)等信息定義閥值,設(shè)置規(guī)則,在系統(tǒng)中進行告警。
(4)通過報表設(shè)置,定義如設(shè)備負載、告警事件、服務(wù)報表等,按類別在不同的時間段生成報表,可生成EXCEL或HTML格式,便于分析總結(jié)。
2.系統(tǒng)實現(xiàn)的主要功能
(1)進程狀態(tài)分析
服務(wù)器進程控制對整個服務(wù)器的運行至關(guān)重要,會影響到其操作系統(tǒng)的正常運行和關(guān)鍵服務(wù)的正常運行,所以實時掌握服務(wù)器的所有進程運行情況是很有必要的。
管理系統(tǒng)每分鐘從服務(wù)器上獲取最新的進程運行數(shù)據(jù),提供各進程的運行趨勢分析圖,包括進程的CPU占用趨勢圖、物理內(nèi)存利用率趨勢圖等,方便管理人員查看各進程一段時間以來的運行情況。
(2)文件系統(tǒng)分析
文件系統(tǒng)分析主要提供服務(wù)器上各文件系統(tǒng)的空間大小和使用情況(已用空間、剩余空間、利用率)以及文件系統(tǒng)的名稱、類型等基本信息。
管理人員可以指定系統(tǒng)的刷新間隔,以一定的頻率自動從服務(wù)器上讀取文件系統(tǒng)信息和參數(shù),便于服務(wù)器文件系統(tǒng)的狀態(tài)監(jiān)視和處理。
(3)CPU/內(nèi)存利用率分析
管理系統(tǒng)收集服務(wù)器的CPU/內(nèi)存利用率的性能狀態(tài),并與預(yù)設(shè)的CPU/內(nèi)存利用率閾值進行比較和處理,以便及時處理系統(tǒng)的資源分配出現(xiàn)的不正常,避免可能遭到病毒攻擊或可能的有非法服務(wù)在活動。
(4)硬盤性能分析
管理系統(tǒng)可以收集磁盤性能I/O狀態(tài)信息。幫助用戶分析磁盤讀取的繁忙程度,由于磁盤I/O信息是影響系統(tǒng)性能的常見因素,進而得到對優(yōu)化整個系統(tǒng)性能的參考指標。
(5)服務(wù)器日志查詢、分析
管理系統(tǒng)可以采用syslog、WMI、telnet、ssh的方式來讀取所監(jiān)控服務(wù)器的日志,并可按分鐘、小時、日等方式對日志進行查詢與分析。
(6)數(shù)據(jù)庫管理
信息系統(tǒng)的運行離不開數(shù)據(jù)庫,通過管理系統(tǒng),將數(shù)據(jù)庫加入管理中,可以實現(xiàn)oracle數(shù)據(jù)庫的會話、表空間、SGA、PGA等參數(shù)以及其他各類型數(shù)據(jù)庫各項參數(shù)的監(jiān)控。
三、系統(tǒng)建設(shè)和應(yīng)用的幾點思考
1.服務(wù)器管理系統(tǒng)實施前,均是通過手工方式對各臺設(shè)備進行管理,需要對每臺設(shè)備進行查看,出現(xiàn)問題時,并不能第一時間發(fā)現(xiàn),而且記錄的數(shù)據(jù)有限,每臺設(shè)備的硬件資源使用情況不能做到一目了然,對設(shè)備運行分析沒有準確的數(shù)據(jù)支撐。通過服務(wù)器管理系統(tǒng)的實施,管理人員不需要每臺設(shè)備進行巡視,就能獲取設(shè)備與系統(tǒng)的實時運行情況。
2.對網(wǎng)絡(luò)設(shè)備、主機、應(yīng)用系統(tǒng)在內(nèi)的跨廠家、跨平臺的統(tǒng)一管理;網(wǎng)絡(luò)產(chǎn)品管理、服務(wù)器管理、應(yīng)用服務(wù)管理等進行監(jiān)控;提供了較快速的故障告警信息、被監(jiān)視設(shè)備的故障日志等信息;能對這些系統(tǒng)提供的數(shù)據(jù)進行整理和分析,為系統(tǒng)運維以及信息基礎(chǔ)設(shè)施方面的規(guī)劃提供有力幫助。
3.信息系統(tǒng)是不斷發(fā)展的,網(wǎng)點的數(shù)量也在不斷增加。因此,在系統(tǒng)管理的范圍上將最終提供涵蓋從系統(tǒng)基礎(chǔ)設(shè)施到業(yè)務(wù)系統(tǒng)的全面的管理功能。這就需要所設(shè)計的系統(tǒng)具有從橫向(管理系統(tǒng)向多個業(yè)務(wù)系統(tǒng)擴展)和縱向(管理功能的增加)兩個方面的可擴展能力。
(作者單位:浙江省富陽市供電局)