黎其宇 陳俊士
民航中南空管局通信網(wǎng)絡(luò)中心 廣東 廣州 510000
系統(tǒng)集中監(jiān)控平臺底層采用Zabbix技術(shù),WEB端為自定義UI,運(yùn)維人員可自由集成VMWare虛擬化、硬件服務(wù)器、存儲、操作系統(tǒng)、軟件應(yīng)用、數(shù)據(jù)庫、數(shù)據(jù)流以及網(wǎng)絡(luò)設(shè)備端口的狀態(tài),并形成統(tǒng)一監(jiān)控標(biāo)準(zhǔn),可全方位覆蓋系統(tǒng)的實(shí)時(shí)監(jiān)控,減少監(jiān)控“盲區(qū)”,提升故障定位和處理效率。
集中監(jiān)控平臺UI集成了各項(xiàng)監(jiān)控功能,提供統(tǒng)一的監(jiān)控界面、告警列表、Top指標(biāo)及拓?fù)浯髨D,亦提供不同風(fēng)格監(jiān)控首頁和自定義模塊。大幅提高了技術(shù)保障人員對系統(tǒng)監(jiān)控維護(hù)的便利性。
網(wǎng)絡(luò)監(jiān)控模塊主要是對終端、服務(wù)器、虛擬化平臺、網(wǎng)絡(luò)設(shè)備、防火墻等所有網(wǎng)絡(luò)進(jìn)行監(jiān)控。對網(wǎng)絡(luò)狀態(tài)監(jiān)控具有秒級響應(yīng)速度,只需為設(shè)備配置ip即可監(jiān)控系統(tǒng)內(nèi)服務(wù)器、終端的網(wǎng)絡(luò)狀況。針對交換機(jī)、防火墻類網(wǎng)絡(luò)設(shè)備,本模塊還提供了端口級別的監(jiān)控,可即時(shí)監(jiān)控到每一個(gè)端口上業(yè)務(wù)的實(shí)時(shí)性,實(shí)時(shí)顯示當(dāng)前設(shè)備健康、流量TOP5指標(biāo),并根據(jù)閥值進(jìn)行告警提示。
具體監(jiān)控指標(biāo)包括端口流量,端口狀態(tài),連通性等:
a、提供網(wǎng)絡(luò)設(shè)備監(jiān)控功能,針對運(yùn)行狀態(tài)、CPU使用率、內(nèi)存使用率、端口發(fā)送和接收總流量、端口發(fā)送和接收速率、端口發(fā)送和接收丟包率。
b、提供端口發(fā)送和接收速率、端口發(fā)送和接收丟包率、流量TOP5指標(biāo)。
c、支持網(wǎng)絡(luò)設(shè)備包括交換機(jī)、防火墻、負(fù)載均衡等,支持思科、華為等品牌,
通過腳本方式支持對端口的手動啟用和關(guān)閉功能。
e、可以對接Cisco IPSLA或者H3C的NQA等同類型協(xié)議,獲取監(jiān)控線路的延時(shí)、抖動等數(shù)據(jù),也可以使用RPING(Remote Ping)的方式,實(shí)現(xiàn)關(guān)鍵線路和運(yùn)營商線路的監(jiān)控。
主機(jī)監(jiān)控模塊可根據(jù)標(biāo)準(zhǔn)制定的監(jiān)控模板和告警閾值,對物理服務(wù)器、存儲、虛擬機(jī)、終端或通用硬件設(shè)備的健康狀況、內(nèi)存、CPU、硬盤、網(wǎng)卡等主要硬件設(shè)備進(jìn)行實(shí)時(shí)監(jiān)控,同時(shí)提供系統(tǒng)關(guān)鍵進(jìn)程、存儲空間、網(wǎng)絡(luò)流量、關(guān)鍵日志等指標(biāo)監(jiān)控及告警功能。避免設(shè)備硬件或系統(tǒng)問題影響業(yè)務(wù)運(yùn)行。
具體監(jiān)控指標(biāo)如下:
a、提供主機(jī)監(jiān)控功能,針對運(yùn)行狀態(tài)、CPU使用率、內(nèi)存使用率、磁盤使用率、磁盤總量和使用量、網(wǎng)卡發(fā)送和接收速率進(jìn)行監(jiān)控。
b、提供主機(jī)所運(yùn)行的服務(wù)自動發(fā)現(xiàn)和狀態(tài)監(jiān)控功能。
c、支 持 windows、Red-hat Linux、Cent OS、FreeBSD 等 主 機(jī) 操 作系統(tǒng)。
d、主機(jī)監(jiān)控支持 SNMP、WMI、IPMI、AGENT、SMI-S的方式進(jìn)行監(jiān)控。
e、監(jiān)控對象主要有網(wǎng)絡(luò)安全設(shè)備、服務(wù)器 、存儲設(shè)備、虛擬化、云平臺等。
虛擬化監(jiān)控管理實(shí)現(xiàn)對虛擬化環(huán)境中各IT資源的運(yùn)行狀況檢測、性能分析、報(bào)表管理、告警管理等功能內(nèi)容,提供詳細(xì)的資源對象配置數(shù)據(jù)、狀態(tài)數(shù)據(jù)、性能數(shù)據(jù)集中顯示;支持對VMware、vSphere、Hyper-V、華為FusionCloud、Nutanix、深信服等虛擬化環(huán)境的拓?fù)涑尸F(xiàn)以及自動拓?fù)涓?從而為云資源的管控人員提供日常運(yùn)行維護(hù)的技術(shù)支撐。目前集中監(jiān)控平臺對VMware提供的監(jiān)控主要有Vcenter管理平臺、VMware ESXI、Vmware虛擬機(jī)、VMware Datastore幾個(gè)方面。
虛擬化監(jiān)控管理的主要功能內(nèi)容包括以下幾個(gè)方面:
a、虛擬化資源管理:實(shí)現(xiàn)虛擬化資源的配置屬性等以各類對象作為基本的IT資源的管理;
b、運(yùn)行狀態(tài)與故障管理:發(fā)現(xiàn)性能瓶頸,準(zhǔn)確定位故障,提供性能優(yōu)化保證業(yè)務(wù)服務(wù)水平的相關(guān)分析結(jié)果。提供告警與性能的關(guān)聯(lián)展示,提供告警處理參考建議的新建、查詢等關(guān)聯(lián)分析;
c、性能監(jiān)控及數(shù)據(jù)報(bào)告:提供準(zhǔn)實(shí)時(shí)的性能監(jiān)控展示、相關(guān)排名分析及歷史數(shù)據(jù)報(bào)告等;
d、資源關(guān)系可視化監(jiān)控展現(xiàn):梳理建立虛擬化資源對象間關(guān)系模型,從業(yè)務(wù)視角整體監(jiān)控展現(xiàn)虛擬資源的使用情況及狀態(tài)。
數(shù)據(jù)庫監(jiān)控主要用于監(jiān)控服務(wù)器數(shù)據(jù)庫運(yùn)行情況。包括數(shù)據(jù)庫引擎監(jiān)控、數(shù)據(jù)庫文件監(jiān)控,監(jiān)控目前環(huán)境中的Oracle、MySQL、SQL Server等常見數(shù)據(jù)庫,狀態(tài)、使用量、數(shù)據(jù)庫實(shí)例、數(shù)據(jù)庫對象、BUFFER狀況、死鎖信息、數(shù)據(jù)庫文件等狀態(tài)信息,根據(jù)設(shè)定的閾值來判斷各指標(biāo)是否處于正常運(yùn)行狀態(tài),并提供時(shí)間段變化趨勢圖表供用戶查看。
數(shù)據(jù)庫主要的監(jiān)控指標(biāo)有:
a、提供數(shù)據(jù)庫監(jiān)控功能,針對數(shù)據(jù)庫服務(wù)狀態(tài)、數(shù)據(jù)庫死鎖數(shù)、數(shù)據(jù)BUFFER命中率、數(shù)據(jù)庫作業(yè)數(shù)、數(shù)據(jù)庫用戶連接數(shù)、數(shù)據(jù)庫文件大小、數(shù)據(jù)庫文件啟動事務(wù)數(shù)、查詢狀態(tài)和發(fā)送狀態(tài)等信息監(jiān)控。
b、支持監(jiān)控 PostgreSQL、SQL Server、Oracle、Oracle Rac、Sybase、MySQL、DB2、HANA等數(shù)據(jù)庫。
c、支持?jǐn)?shù)據(jù)庫自定義監(jiān)控指標(biāo),如:高可用狀態(tài)、特定字段指標(biāo)、日志等。
應(yīng)用監(jiān)控主要監(jiān)控系統(tǒng)的后臺軟件程序、服務(wù)、接口、終端程序等運(yùn)行情況。系統(tǒng)實(shí)時(shí)接收程序運(yùn)行中發(fā)送的狀態(tài)信息,根據(jù)程序狀態(tài)數(shù)據(jù)來判斷程序是否處于正常運(yùn)行狀態(tài)。本模塊還可針對服務(wù)運(yùn)行狀態(tài)、重要虛擬機(jī)分布情況、log、文件版本等進(jìn)行監(jiān)控。
主要監(jiān)控指標(biāo)如下:
a、通過定期探尋應(yīng)用的服務(wù)、Log、流量等判斷應(yīng)用服務(wù)的運(yùn)行狀態(tài)。服務(wù)出現(xiàn)運(yùn)行故障時(shí),維護(hù)人員可以及時(shí)知道,并快速采取措施;
b、定期檢測丟包率、最大時(shí)延、最小時(shí)延、平均時(shí)延等對應(yīng)指標(biāo),預(yù)防應(yīng)用服務(wù)發(fā)生的故障,實(shí)現(xiàn)主動式的監(jiān)控管;
c、模擬用戶行為訪問應(yīng)用服務(wù),根據(jù)用戶設(shè)置的閾值產(chǎn)生告警,可以及時(shí)排除故障,保障應(yīng)用服務(wù)的穩(wěn)定運(yùn)行
通過使用集中監(jiān)控平臺作為監(jiān)控工具,可以為機(jī)房運(yùn)維人員提供一個(gè)機(jī)房的整體監(jiān)控,同時(shí)也可以為我們技術(shù)支持提供不同信息系統(tǒng)運(yùn)行狀況的總覽,有利于我們?nèi)粘9ぷ鞯恼归_。隨著集中監(jiān)控平臺的不斷完善,未來可以在更多業(yè)務(wù)上使用。