羅奕,陳粵
摘 要: 銀行為了在發(fā)生異常時(shí)能及時(shí)處理,往往會通過監(jiān)控系統(tǒng)來實(shí)現(xiàn)對硬件、網(wǎng)絡(luò)、應(yīng)用系統(tǒng)等的監(jiān)控和報(bào)警。Nagios是一個(gè)開源且免費(fèi)的計(jì)算機(jī)及網(wǎng)絡(luò)系統(tǒng)監(jiān)控軟件,運(yùn)行在Linux平臺上,能通過各種插件和SNMP協(xié)議,對設(shè)備、網(wǎng)絡(luò)及各種應(yīng)用系統(tǒng)進(jìn)行狀態(tài)監(jiān)控。介紹了Nagios的工作原理和功能,以及在平安銀行成都分行的應(yīng)用情況。具體應(yīng)用實(shí)踐表明,利用Nagios構(gòu)建集中監(jiān)控系統(tǒng)效果非常顯著,為銀行的生產(chǎn)運(yùn)維提供了有效的監(jiān)控報(bào)警平臺。
關(guān)鍵詞: Nagios; 集中監(jiān)控; SNMP; 報(bào)警
中圖分類號:TP319 文獻(xiàn)標(biāo)志碼:B 文章編號:1006-8228(2013)06-30-04
Construction and application of Nagios-based centralized monitoring system in banks
Luo Yi1, Chen Yue2
(1. Medical information engineering college,Chengdu University of Traditional Chinese Medicine, Chengdu, Sichuan 610075, China;
2. Ping An Bank Chengdu Branch)
Abstract: In order to deal with unexpected abnormal events in time, monitor or alert of devices, networks or applications are realized usually through monitoring systems in banks. Nagios is a free and open-source software running on Linux to monitor computer or networks status. It detects the devices, networks, and applications states by many plug-ins or SNMP protocol. Nagios working principle and primary functions are introduced in this paper, and the actual cases of Ping An Bank Chengdu Branch are analyzed. The practical examples show that constructing centralized monitoring system by using Nagios has good effects and is efficient for bank daily working tasks supporting.
Key words: Nagios; centralized monitoring; SNMP; fault alerting
0 引言
銀行科技部的管理人員最擔(dān)心在不知情的情況下發(fā)生異常突發(fā)事件,比如機(jī)房供電異常、設(shè)備硬件故障、應(yīng)用進(jìn)程終止、網(wǎng)絡(luò)通訊中斷等等,而且某些故障發(fā)生后,科技人員不能第一時(shí)間發(fā)現(xiàn)故障,直到出現(xiàn)明顯不良影響,才發(fā)現(xiàn)問題,采取補(bǔ)救措施,特別是遇到節(jié)假日,這種風(fēng)險(xiǎn)就更大。要使系統(tǒng)能正常穩(wěn)定運(yùn)行,管理員就必須時(shí)刻關(guān)注各個(gè)系統(tǒng)的硬件狀況、服務(wù)進(jìn)程、網(wǎng)絡(luò)是否正常、CPU、內(nèi)存使用率是否過高、數(shù)據(jù)庫可用空間、UPS負(fù)載是否合理等等。如果在沒有自動監(jiān)控工具的幫助下,這些日常必須的檢查工作就需要由人工去做,這樣不僅效率低下,消耗大量的人力資源,而且容易發(fā)生漏查、錯(cuò)查現(xiàn)象。
為改變這種被動局面,銀行往往會引進(jìn)一些監(jiān)控系統(tǒng)來實(shí)現(xiàn)自動監(jiān)控功能,用計(jì)算機(jī)來代替人工進(jìn)行日常檢查,并在一定的條件下自動報(bào)警。目前市場上的網(wǎng)管系統(tǒng)、環(huán)境監(jiān)控系統(tǒng)、服務(wù)管理系統(tǒng)等產(chǎn)品都有這些功能,但是,這些產(chǎn)品往往功能單一,比如,網(wǎng)管系統(tǒng)就只監(jiān)控網(wǎng)絡(luò)狀態(tài),環(huán)境監(jiān)控就只對機(jī)房環(huán)境做出響應(yīng),服務(wù)管理系統(tǒng)只對進(jìn)程實(shí)施監(jiān)控。需要同時(shí)部署多個(gè)系統(tǒng)才能比較全面地實(shí)現(xiàn)監(jiān)控功能,這么多監(jiān)控系統(tǒng)不僅價(jià)格不菲,而且給后期運(yùn)維帶來不便。能否用一種監(jiān)控系統(tǒng),就能實(shí)現(xiàn)多種軟硬件平臺、多種業(yè)務(wù)系統(tǒng)的集中監(jiān)控報(bào)警功能呢?這是銀行真正需要的系統(tǒng)。
經(jīng)過不懈地尋找與部署,試用各種不同的監(jiān)控軟件,終于找到了一個(gè)符合銀行上述要求的監(jiān)控軟件——Nagios。通過一年多的實(shí)踐使用,利用Nagios構(gòu)建的監(jiān)控系統(tǒng)效果非常顯著,為銀行的生產(chǎn)運(yùn)維管理提供了有效監(jiān)控報(bào)警平臺。
1 Nagios簡介
Nagios是一個(gè)監(jiān)視系統(tǒng)運(yùn)行狀態(tài)和網(wǎng)絡(luò)信息的系統(tǒng),它是一種開源且免費(fèi)的管理工具,運(yùn)行在Linux/Unix平臺之上,能監(jiān)視指定的本地或遠(yuǎn)程主機(jī)以及服務(wù),提供郵件報(bào)警功能以及Web界面,方便系統(tǒng)管理人員查看網(wǎng)絡(luò)狀態(tài),各種系統(tǒng)問題,以及事件日志等等。2009年,Nagios被InfoWorld評為最佳開源軟件,同時(shí)也是該年度SourceForge社區(qū)的系統(tǒng)管理工具最佳選擇。2010年的LinuxCon會上又被選為最受歡迎的IT運(yùn)維工具。Nagios已被很多世界知名企業(yè)用于監(jiān)控管理,包括AOL、DHL、AT&T、歐萊雅、德州儀器、時(shí)代華納有線、Yahoo等。
Nagios由一個(gè)主程序(Nagios)、一個(gè)插件程序(Nagios-
plugins)和四個(gè)可選的擴(kuò)展應(yīng)用(NRPE、NSCA、NSClient++和NDOUtils)組成[1],如圖1所示。
圖1 Nagios架構(gòu)圖
Nagios和Nagios-plugins是服務(wù)器端的必須組件。在四個(gè)主要擴(kuò)展應(yīng)用中,NRPE和NSClient++分別被部署到被監(jiān)控的Linux/Unix和Windows主機(jī)上以實(shí)現(xiàn)Nagios服務(wù)器對被監(jiān)控主機(jī)資源的檢測;NSCA用來讓被監(jiān)控的Linux/Unix主機(jī)主動將資源信息發(fā)送給Nagios服務(wù)器;NDOUtils用來將Nagios的各種事件信息存入數(shù)據(jù)庫,以實(shí)現(xiàn)對這些數(shù)據(jù)的快速檢索和處理。
Nagios系統(tǒng)具有很好的擴(kuò)展性,它本身并沒有檢測功能,它所有的檢測都是通過它的各種開源插件來實(shí)現(xiàn)的(比如NRPE和NSClient++),所以,我們也可以按照自己的需要來開發(fā)和使用各種檢測功能的插件。從圖1中我們還可以發(fā)現(xiàn)一個(gè)很關(guān)鍵的地方,那就是Nagios對SNMP協(xié)議的支持,這意味著可以實(shí)現(xiàn)對所有支持SNMP協(xié)議的主機(jī)或者設(shè)備的監(jiān)控,只需要知道監(jiān)控目標(biāo)的OID值即可。
以Linux目標(biāo)機(jī)器的監(jiān)控為例說明Nagios的工作原理:在Nagios服務(wù)器上對每一臺被監(jiān)控主機(jī)的各種資源對象進(jìn)行閥值定義,比如CPU、內(nèi)存、磁盤的占用率、進(jìn)程狀態(tài)、數(shù)據(jù)庫表空間大小等等,并指定該監(jiān)控對象的責(zé)任人和郵件地址。在被監(jiān)控主機(jī)上運(yùn)行一個(gè)NRPE后臺進(jìn)程,Nagios服務(wù)器定期向被監(jiān)控主機(jī)的NRPE進(jìn)程發(fā)出指令,要求NRPE進(jìn)程執(zhí)行對各種資源對象的查詢腳本,并將查詢結(jié)果返回給Nagios服務(wù)器。Nagios服務(wù)器根據(jù)預(yù)先定義好的監(jiān)控閥值對結(jié)果進(jìn)行檢查,一旦發(fā)現(xiàn)超出閥值,則立即向管理人員發(fā)送報(bào)警郵件,其監(jiān)控原理如圖2所示。
圖2 Nagios監(jiān)控Linux/Unix主機(jī)原理圖
2 Nagios的主要功能
⑴ 監(jiān)視各種服務(wù)狀態(tài) (SMTP、 POP3、 HTTP、 PING、數(shù)據(jù)庫等);
⑵ 監(jiān)視主機(jī)資源 (CPU、內(nèi)存、磁盤、UPS負(fù)載、進(jìn)程、端口等);
⑶ 簡單的插件設(shè)計(jì),使用戶可以自行擴(kuò)展Nagios的監(jiān)控功能;
⑷ 監(jiān)控的對象發(fā)生故障,自動發(fā)送報(bào)警郵件;
⑸ 支持各種操作系統(tǒng),包括Windows、Linux、UnixWare、SUN、AIX等;
⑹ 可以通過Web方式直觀的查看當(dāng)前各種監(jiān)控對象的狀態(tài)。
3 平安銀行成都分行的集中監(jiān)控應(yīng)用
平安銀行成都分行(以下簡稱分行)目前已利用Nagios系統(tǒng)對行內(nèi)核心服務(wù)器、應(yīng)用系統(tǒng)、網(wǎng)絡(luò)設(shè)備和通訊線路、UPS供電等分行IT設(shè)備和應(yīng)用的集中監(jiān)控管理,共計(jì)83臺設(shè)備、413個(gè)服務(wù)狀態(tài)。包括支付系統(tǒng)、驗(yàn)印系統(tǒng)、支票影像系統(tǒng)、代理服務(wù)器、郵件系統(tǒng)、OA系統(tǒng)、客戶經(jīng)理考核系統(tǒng)、各種網(wǎng)絡(luò)設(shè)備、UPS設(shè)備等,系統(tǒng)的監(jiān)控對象主要包括磁盤空間大小、內(nèi)存使用率、CPU使用率、服務(wù)進(jìn)程、數(shù)據(jù)庫表空間等等。所有這些監(jiān)控目標(biāo)都可通過一個(gè)Web頁面進(jìn)行集中檢查,當(dāng)主機(jī)或者服務(wù)狀態(tài)異常時(shí)會用黃色或者紅色顯示,讓人一目了然。如圖3所示。
圖3 Nagios集中監(jiān)控頁面(局部)
3.1 利用PushMail或者QQ郵箱實(shí)現(xiàn)免費(fèi)短信報(bào)警
Nagios本身支持通過短信貓或者電話語音卡一類的硬件設(shè)備來發(fā)送短信或者語音報(bào)警,但安裝硬件和配置比較復(fù)雜,而且還增加了投入。分行通過實(shí)踐和摸索,利用分行自建的郵件服務(wù)器和各大通訊運(yùn)營商推出的免費(fèi)PushMail功能,在不用增加硬件和復(fù)雜配置的情況下成功實(shí)現(xiàn)了免費(fèi)短信報(bào)警功能。其原理是:在Nagios服務(wù)器上將報(bào)警通知設(shè)置為管理人員的手機(jī)郵箱地址[2],比如130*****231@wo.com.cn,然后在聯(lián)通的Email郵箱中啟用免費(fèi)的PushMail功能,這樣,一旦該郵箱收到郵件,都將以短信方式將該郵件主題發(fā)送到手機(jī)上從而實(shí)現(xiàn)了短信報(bào)警功能。
另外,還有一種更快捷、更全面的微信通知方式。原理和PushMail基本一致,將報(bào)警信息發(fā)往管理人員的QQ郵箱中,比如359***653@qq.com,再通過微信自動接收QQ郵箱內(nèi)容。隨著智能手機(jī)和3G無線通訊網(wǎng)絡(luò)的普及,這種方式更為有效。
3.2 對核心生產(chǎn)應(yīng)用系統(tǒng)的集中監(jiān)控
3.2.1 利用NRPE擴(kuò)展應(yīng)用監(jiān)控Linux/Unix主機(jī)
以分行現(xiàn)代化支付系統(tǒng)業(yè)務(wù)為例,利用NRPE插件[3]實(shí)現(xiàn)了對支付系統(tǒng)的網(wǎng)絡(luò)狀態(tài)、登錄用戶數(shù)量、root空間、mbfe空間、depsmbfe空間、Sybase空間、大小額支付系統(tǒng)進(jìn)程狀態(tài)都進(jìn)行了監(jiān)控,如圖4所示。
圖4 現(xiàn)代化支付系統(tǒng)監(jiān)控服務(wù)
3.2.2 利用NSClient++擴(kuò)展應(yīng)用監(jiān)控Windows主機(jī)
如圖5所示,以分行柜面驗(yàn)印系統(tǒng)業(yè)務(wù)為例,實(shí)現(xiàn)了對驗(yàn)印系統(tǒng)的CPU、內(nèi)存、磁盤空間利用率、SQL Server數(shù)據(jù)庫狀態(tài)以及多個(gè)驗(yàn)印服務(wù)進(jìn)程的監(jiān)控。
圖5 驗(yàn)印系統(tǒng)監(jiān)控服務(wù)
3.3 對網(wǎng)絡(luò)設(shè)備和通訊線路狀態(tài)的集中監(jiān)控
3.3.1 利用SNMP和Rping實(shí)現(xiàn)對網(wǎng)絡(luò)設(shè)備和通訊線路狀態(tài)的監(jiān)控
Nagios對SNMP協(xié)議的支持非常完美,所以,我們可以通過在網(wǎng)絡(luò)設(shè)備上啟用SNMP只讀通訊字符串的功能,來實(shí)現(xiàn)對網(wǎng)絡(luò)設(shè)備狀態(tài)的監(jiān)控[4],同時(shí),還可以利用端口狀態(tài)來監(jiān)控通訊線路。但隨著MSTP線路的引進(jìn),雖然線路端口狀態(tài)UP,但實(shí)際線路不可用的情況也隨之產(chǎn)生,在這種情況下,分行利用同事編寫的Rping插件程序[5]來對通訊線路進(jìn)行進(jìn)一步的測試,以確保線路的真實(shí)可用性。如圖6所示,實(shí)現(xiàn)了對外聯(lián)路由器的監(jiān)控,包括路由器存活測試、CPU利用率、與人行、銀監(jiān)局、銀聯(lián)、公積金中心、德陽銀行等外聯(lián)通訊線路的監(jiān)控。
圖6 外聯(lián)路由器監(jiān)控服務(wù)
3.3.2 利用SNMP實(shí)現(xiàn)對Juniper核心防火墻的監(jiān)控
為加強(qiáng)網(wǎng)絡(luò)安全,分行部署了多臺Juniper防火墻,其MIB庫是未公開的,所以,分行積極與設(shè)備廠商溝通、協(xié)商,說明目的,最終得到廠商的認(rèn)可,提供了該型號設(shè)備的MIB庫,然后再利用Nagios對SNMP協(xié)議的支持,實(shí)現(xiàn)了對會話數(shù)量、CPU、內(nèi)存利用率等防火墻關(guān)鍵狀態(tài)的監(jiān)控,如圖7所示。
圖7 核心防火墻監(jiān)控服務(wù)
3.4 對機(jī)房UPS設(shè)備的集中監(jiān)控
3.4.1 對分行中心機(jī)房精密配電機(jī)柜輸入/輸出狀態(tài)的監(jiān)控
持續(xù)穩(wěn)定的供電保障是所有系統(tǒng)正常運(yùn)行的基礎(chǔ),分行中心機(jī)房的供電狀態(tài)監(jiān)控非常重要。分行中心機(jī)房供電系統(tǒng)采用精密配電機(jī)柜集中控制所有輸入輸出電路,該機(jī)柜本身支持SNMP協(xié)議,所以,利用廠家提供的私有MIB庫,實(shí)現(xiàn)了對機(jī)房供電系統(tǒng)的監(jiān)控,包括:市電三相輸入電壓、頻率、零相電流,以及每一臺UPS設(shè)備的輸入/輸出電流,如圖8所示。
圖8 精密配電機(jī)柜監(jiān)控服務(wù)
3.4.2 對支行UPS設(shè)備的監(jiān)控
在Nagios系統(tǒng)上線前,支行網(wǎng)點(diǎn)發(fā)生電力故障時(shí),科技部只有在接到網(wǎng)點(diǎn)人工報(bào)警電話后才能得知發(fā)生了電力故障,所以,對網(wǎng)點(diǎn)供電狀態(tài)實(shí)施集中監(jiān)控是非常必要的。為此,分行與UPS設(shè)備供應(yīng)商通過深入交流、溝通以及現(xiàn)場勘查,在對費(fèi)用、功能、穩(wěn)定性等多種因素的綜合考慮后,2012年分行對所有網(wǎng)點(diǎn)UPS進(jìn)行了升級改造,給所有UPS設(shè)備增加了監(jiān)控模塊,最終實(shí)現(xiàn)了對網(wǎng)點(diǎn)UPS的集中監(jiān)控。圖9是金牛支行的UPS設(shè)備監(jiān)控對象,包括UPS環(huán)境溫濕度、電力輸入狀態(tài)、負(fù)載等數(shù)據(jù)。
圖9 網(wǎng)點(diǎn)UPS監(jiān)控服務(wù)
3.5 對設(shè)備硬件狀態(tài)的監(jiān)控
幾乎所有的應(yīng)用系統(tǒng)都是基于硬件平臺運(yùn)行的,現(xiàn)在硬件平臺大多具有冗余功能,不會因?yàn)閱吸c(diǎn)故障而崩潰。比如存儲系統(tǒng)不會因?yàn)橐粔K硬盤損壞而丟失數(shù)據(jù);服務(wù)器不會因?yàn)橐桓鶅?nèi)存條故障而宕機(jī);刀箱不會因?yàn)橐粋€(gè)電源故障而停止運(yùn)行。但是,這種冗余功能在一定程度上又造成了硬件故障的隱蔽性,在未出現(xiàn)嚴(yán)重后果前,管理人員容易被正常的服務(wù)狀態(tài)所迷惑,不能及時(shí)發(fā)現(xiàn)單點(diǎn)和修復(fù)故障。所以,為了實(shí)現(xiàn)對服務(wù)器硬件狀態(tài)的有效監(jiān)控,我們盡量選用支持SNMP進(jìn)行硬件狀態(tài)監(jiān)控的設(shè)備,通過Nagios監(jiān)控,確保能在第一時(shí)間發(fā)現(xiàn)和處理故障。如圖10所示,該圖是分行IBM刀箱的硬件狀態(tài)監(jiān)控圖[6],在該刀箱上運(yùn)行著驗(yàn)印、票據(jù)、郵件、OA、小前置等等生產(chǎn)系統(tǒng),其硬件健康狀態(tài)的重要性不言而喻。
圖10 分行刀箱服務(wù)器硬件狀態(tài)監(jiān)控
4 典型成功案例
4.1 銀聯(lián)主線路故障報(bào)警處理
2012年3月30日10:07,分行網(wǎng)絡(luò)管理員收到銀聯(lián)主線路通訊中斷的報(bào)警短信,立即向中國電信報(bào)障,請求故障處理,并進(jìn)入分行機(jī)房核實(shí)情況和配合維修人員。經(jīng)維修人員現(xiàn)場檢查,確定故障原因是線路尾端BNC接頭老化所致,更換線路接頭后故障排除,主線路恢復(fù)正常,及時(shí)消除了銀聯(lián)業(yè)務(wù)單線路運(yùn)行的風(fēng)險(xiǎn)隱患。
4.2 上聯(lián)總行電信線路延遲異常處理
2012年8月17日9:53,分行網(wǎng)絡(luò)管理員收到上聯(lián)總行電信線路延遲大于200ms的報(bào)警短信,立即登錄上聯(lián)路由器,發(fā)現(xiàn)故障線路因數(shù)據(jù)流量大導(dǎo)致帶寬耗盡,網(wǎng)絡(luò)延遲大,經(jīng)分析發(fā)現(xiàn)是由于許多員工登錄總行電子學(xué)習(xí)平臺參與課程學(xué)習(xí),產(chǎn)生大量下載流量所致,為保障營業(yè)時(shí)間業(yè)務(wù)的順暢,立即上報(bào)總行網(wǎng)管人員,在營業(yè)時(shí)間內(nèi)關(guān)閉電子學(xué)習(xí)平臺,恢復(fù)了正常的網(wǎng)絡(luò)傳輸速度,及時(shí)避免了全分行業(yè)務(wù)系統(tǒng)響應(yīng)緩慢情況的發(fā)生。
4.3 現(xiàn)代支付系統(tǒng)異常處理
2012年9月7日20:36,分行應(yīng)用系統(tǒng)管理員收到現(xiàn)代化支付系統(tǒng)MBFE進(jìn)程異常的報(bào)警短信,立即趕赴分行中心機(jī)房,發(fā)現(xiàn)行內(nèi)大額支付系統(tǒng)進(jìn)程異常中止,重新啟動大額支付系統(tǒng)進(jìn)程后恢復(fù)正常。因事發(fā)當(dāng)時(shí)為非營業(yè)時(shí)間,并且發(fā)現(xiàn)和處理及時(shí),未對分行支付業(yè)務(wù)造成不良影響。
4.4 天府支行UPS負(fù)載異常處理
2012年12月28日9:15,分行UPS管理員收到天府支行UPS負(fù)載達(dá)到80%以上的報(bào)警短信,立即電話聯(lián)系網(wǎng)點(diǎn)員工核實(shí)情況,未發(fā)現(xiàn)明顯異常,幾分鐘后再次收到短信通知負(fù)載恢復(fù)正常,報(bào)警解除,但沒過幾分鐘又再次收到負(fù)載異常報(bào)警。初步懷疑該網(wǎng)點(diǎn)UPS電源插座接入了大功率用電設(shè)備,立即趕赴現(xiàn)場,經(jīng)檢查,該網(wǎng)點(diǎn)理財(cái)柜臺柜員因天氣寒冷,在使用電加熱器取暖時(shí)誤將插頭接入了UPS電源插座,導(dǎo)致UPS負(fù)載異常。立即對該員工予以批評并再次強(qiáng)調(diào)UPS電源使用規(guī)定。成功消除了該網(wǎng)點(diǎn)UPS設(shè)備因過載而停機(jī)的風(fēng)險(xiǎn)隱患。
4.5 雙楠支行UPS輸入異常處理
2012年7月8日周日10:22,分行UPS管理員收到報(bào)警短信,雙楠支行UPS市電輸入異常,立即電話聯(lián)系網(wǎng)點(diǎn)員工核實(shí)是否發(fā)生停電或者跳閘現(xiàn)象?但該員工反映市電、開關(guān)狀態(tài)均正常,UPS設(shè)備也無報(bào)警音。初步懷疑Nagios或者UPS監(jiān)控模塊誤報(bào),為弄清楚情況,管理員趕赴現(xiàn)場進(jìn)行核實(shí),發(fā)現(xiàn)該網(wǎng)點(diǎn)市電正常,但UPS輸入開關(guān)已跳閘,UPS處于逆變輸出狀態(tài),電池電壓已降到192V,因UPS設(shè)備型號原因,該臺UPS設(shè)備未產(chǎn)生聲音報(bào)警,導(dǎo)致網(wǎng)點(diǎn)員工檢查疏忽,未能正確匯報(bào)情況。合上UPS市電輸入開關(guān)后,恢復(fù)對UPS設(shè)備的供電,故障排除。如果不是Nagios的正確檢測及管理人員的一絲不茍,該網(wǎng)點(diǎn)員工的疏忽就將導(dǎo)致一場因UPS長期處于逆變輸出狀態(tài),最終電池電量耗盡,網(wǎng)點(diǎn)供電終止的嚴(yán)重運(yùn)營事故。
4.6 第五刀片服務(wù)器硬盤故障處理
2012年4月6日5:58,應(yīng)用管理員收到刀箱異常的報(bào)警短信,立即趕赴中心機(jī)房查看,發(fā)現(xiàn)刀箱和第五刀片服務(wù)器同時(shí)亮橘黃色故障燈,登錄刀箱控制臺查看日志進(jìn)一步核實(shí),發(fā)現(xiàn)第五刀片第1槽位硬盤故障,上班后立即與廠家聯(lián)系,趕赴現(xiàn)場及時(shí)更換了故障硬盤,消除了分行OA系統(tǒng)單盤運(yùn)行的隱患。
4.7 郵件服務(wù)器磁盤空間不足異常處理
2012年7月18日22:19,應(yīng)用系統(tǒng)管理員收到分行郵件服務(wù)器磁盤空間達(dá)到閥值的報(bào)警短信,立即趕赴分行機(jī)房登錄郵件服務(wù)器進(jìn)行處理,發(fā)現(xiàn)因過期日志和數(shù)據(jù)文件過多,導(dǎo)致已用磁盤空間達(dá)到閥值,管理員進(jìn)行清理后確保了磁盤空間的充足,及時(shí)消除了因磁盤空間不足導(dǎo)致分行郵件系統(tǒng)故障的隱患。
5 結(jié)束語
綜上所述,利用Nagios來構(gòu)建集中監(jiān)控系統(tǒng)是可行的,并且是非常有效的,在實(shí)踐中已經(jīng)得到各級單位的認(rèn)可和贊同。隨著時(shí)間的推移,Nagios的功能和穩(wěn)定性將日臻完善,使用Nagios來構(gòu)建集中監(jiān)控系統(tǒng)的用戶也會越來越多。
參考文獻(xiàn):
[1] Nagios Plugin Development Team.Nagios Plugins.http://
nagiosplugins.org/,2011-1-18.
[2] sery. 開源監(jiān)控利器nagios實(shí)戰(zhàn). http://sery.blog.51cto.com/
10037/139281,2009-3-16.
[3] 21wmd. Linux開源監(jiān)控平臺Nagios(NRPE的安裝配置). http://
21wmd.blog.51cto.com/206183/207616,2009-9-28.
[4] Cisco. How to Collect CPU Utilization on Cisco IOS Devices Using
SNMP. http://www.cisco.com/en/US/tech/tk648/tk362/
technologies_tech_note09186a0080094a94.shtml,2005-10-26.
[5] javavsnet. Nagios 簡介及其二次開發(fā). http://blog.chinaunix.net/
uid-8257165-id-3037487.html,2011-12-08.
[6] NetSeek. check_snmp一些常用服務(wù)的OID. http://bbs.linuxtone.
org/thread-6315-1-1.html,2010-5-18.