李大瑋 王璐 劉鵬
【摘要】? ? 隨著血站業(yè)務(wù)的不斷發(fā)展,信息化水平不斷提高,血站網(wǎng)絡(luò)拓撲和血站管理信息系統(tǒng)越來越復(fù)雜,傳統(tǒng)的人工運維巡檢方式由于故障發(fā)現(xiàn)滯后性已經(jīng)難以滿足血站業(yè)務(wù)發(fā)展對于系統(tǒng)穩(wěn)定性和可靠性的需求。青島市中心血站基于多年運維管理經(jīng)驗,基于Zabbix開源平臺配合二次開發(fā)建立了自動化運維監(jiān)控平臺,整合并關(guān)聯(lián)所有報警事件,實現(xiàn)了對全網(wǎng)的一體化監(jiān)控,并通過企業(yè)微信實時推送重要告警信息,有效提升運維效率。
【關(guān)鍵詞】? ? Zabbix? ? 運維? ? 監(jiān)控? ? 血站? ? 報警
一、背景分析
隨著血站業(yè)務(wù)的快速發(fā)展,支撐業(yè)務(wù)的血站網(wǎng)絡(luò)拓撲和血站管理信息系統(tǒng)越來越復(fù)雜。信息管理部門擔(dān)負著對IT基礎(chǔ)設(shè)施運維的重要使命,核心任務(wù)是保障采供血業(yè)務(wù)的正常運行,并提高軟硬件環(huán)境的交付質(zhì)量。血站業(yè)務(wù)的特殊性對業(yè)務(wù)系統(tǒng)的實時性要求高,但IT運維人員在監(jiān)控機制、服務(wù)理念等幾個方面,仍然存在不少問題,加之人員匱乏、缺少運維監(jiān)控機制等,這些都有可能影響采供血業(yè)務(wù)的穩(wěn)定運行。
二、血站IT運維現(xiàn)狀
青島市中心血站現(xiàn)有物理服務(wù)器18臺,實際運行服務(wù)器數(shù)量42臺(含虛擬機),安全產(chǎn)品14臺,各類網(wǎng)絡(luò)設(shè)備40余臺,業(yè)務(wù)系統(tǒng)及各類支撐系統(tǒng)22個,有業(yè)務(wù)網(wǎng)、省市兩級衛(wèi)生健康專網(wǎng)、獻血車移動互聯(lián)VPDN、互聯(lián)網(wǎng)、虛擬化環(huán)境等,網(wǎng)絡(luò)環(huán)境極為復(fù)雜。雖然實施了一些網(wǎng)絡(luò)管理軟件,但是缺乏有效的手段和工具對系統(tǒng)運行情況進行監(jiān)督和預(yù)警,同時無法提供服務(wù)及應(yīng)用層面的故障信息,也無法提供及時準(zhǔn)確的信息預(yù)警。很多情況下,只能等到事件已經(jīng)發(fā)生并已造成業(yè)務(wù)影響時才能發(fā)現(xiàn)并著手處理,延誤了隱患的最佳處理時間,同時也使運維工作處于被動的狀態(tài)。
為解決目前IT運維的困境,青島市中心血站基于開源監(jiān)控軟件Zabbix并配合二次開發(fā),建立了血站自動化運維監(jiān)控平臺,整合企業(yè)微信實現(xiàn)報警信息實時推送,實現(xiàn)對服務(wù)器、網(wǎng)絡(luò)及安全設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫、應(yīng)用狀態(tài)以及關(guān)鍵進程進行報警推送,取得了較好的成效。
三、基于Zabbix的自動化運維管理平臺
3.1 Zabbix簡介
Zabbix是一個基于Web界面的提供分布式系統(tǒng)監(jiān)視以及網(wǎng)絡(luò)監(jiān)視功能的企業(yè)級的開源解決方案。能監(jiān)視各種網(wǎng)絡(luò)參數(shù),保證服務(wù)器系統(tǒng)的安全運營;并提供靈活的通知機制以讓系統(tǒng)管理員快速定位并解決存在的各種問題。Zabbix主要有ZabbixServer和ZabbixAgent組成,除此之外還支持基于ZabbixProxy的擴展(Zabbix體系結(jié)構(gòu)見圖1)。Zabbix支持基于Agent,SNMP,IPMI等多種形式實現(xiàn)對服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、數(shù)據(jù)庫、Web應(yīng)用乃至系統(tǒng)進程的監(jiān)控,可以靈活設(shè)置監(jiān)控閾值,Zabbix提供了強大的二次開發(fā)能力,用戶可以根據(jù)自己的需要靈活設(shè)置監(jiān)控項目。Zabbix還提供了第三方報警平臺的對接,支持通過郵件、短信以及釘釘、企業(yè)微信等第三方應(yīng)用的關(guān)聯(lián)報警。
3.2 Zabbix相比商業(yè)監(jiān)控系統(tǒng)的優(yōu)勢
同傳統(tǒng)商業(yè)監(jiān)控系統(tǒng)相比,Zabbix具有以下顯著優(yōu)勢:
1.商業(yè)監(jiān)控軟件,產(chǎn)品費用和維護成本高,存在license限制,Zabbix是一款完全開源的監(jiān)控軟件,可以從網(wǎng)絡(luò)自行下載,沒有l(wèi)icense限制。
2.商業(yè)監(jiān)控軟件原生無法監(jiān)控各種新型應(yīng)用組件,需要廠家重新定制,使用和維護難度高,Zabbix提供了大量的通用模板提供了對于設(shè)備的支持,官方提供了模板銀行供使用者下載,對于個性化的需求,可以根據(jù)使用者需求自行定制模板。
3.商業(yè)軟件原廠的技術(shù)支持力度會因為原廠戰(zhàn)略轉(zhuǎn)型等原因越來越弱,Zabbix作為一款開源軟件,網(wǎng)上有大量的使用分享可供參考。
綜合上述原因,經(jīng)過長期的調(diào)研和測試,青島市中心血站決定采用Zabbix開源監(jiān)控系統(tǒng)來構(gòu)建新一代運維監(jiān)控平臺。
3.3 自動化運維監(jiān)控系統(tǒng)設(shè)計
基于Zabbix監(jiān)控系統(tǒng)的特點和血站工作實際,我們采用了ZabbixServer-Agent模式實現(xiàn)了對網(wǎng)絡(luò)的全面監(jiān)控,具體功能實現(xiàn)如下:
1.網(wǎng)絡(luò)監(jiān)控:對于交換機、路由器、防火墻等網(wǎng)絡(luò)設(shè)備,主要采用SNMP協(xié)議進行監(jiān)控,主要監(jiān)控其可用性、流量、CPU內(nèi)存使用率等。對于核心交換機、匯聚交換機、防火墻、路由器等核心網(wǎng)絡(luò)設(shè)備監(jiān)控期端口狀態(tài)和流量,對于接入層交換機由于終端運行狀態(tài)差異性較大,不再監(jiān)控其端口狀態(tài)。
2.服務(wù)器監(jiān)控:對于服務(wù)器監(jiān)控,我們主要采用了Agent方式進行監(jiān)控,在每臺服務(wù)器部署ZabbixAgent實現(xiàn)對服務(wù)器信息的采集,監(jiān)控項包括CPU負載、磁盤空間、網(wǎng)絡(luò)流量、內(nèi)存使用情況等系統(tǒng)正常運行的基本指標(biāo)。
3. Web應(yīng)用監(jiān)控:對于Web應(yīng)用監(jiān)控只要采用http連接方式監(jiān)控其狀態(tài),監(jiān)控項包括程序啟動時間、網(wǎng)站訪問速度、是否可用、服務(wù)狀態(tài)等。
4.數(shù)據(jù)庫監(jiān)控:針對數(shù)據(jù)庫的監(jiān)控我們主要采用了使用腳本監(jiān)控的方式。通過自行編制腳本實現(xiàn)對數(shù)據(jù)庫的查詢,實現(xiàn)對數(shù)據(jù)庫可用性、狀態(tài)鎖、表空間使用情況的狀態(tài)監(jiān)控。
5.個性化監(jiān)控:Zabbix為我們提供了強大的二次開發(fā)能力,我們可以根據(jù)自己實際工作需要定制監(jiān)控項目,滿足工作需求。青島市中心血站目前使用的業(yè)務(wù)系統(tǒng)為唐山啟奧科技股份有限公司開發(fā)的ShinowV9.5系統(tǒng),該系統(tǒng)提供了一個任務(wù)計劃服務(wù)運行每天的定時任務(wù),一旦該服務(wù)停止定時任務(wù)將無法執(zhí)行,通過Zabbix的個性化定制,實現(xiàn)了對該服務(wù)運行狀態(tài)的監(jiān)控,一旦服務(wù)退出可立即觸發(fā)報警。除此之外,還通過個性化定制實現(xiàn)了對96606服務(wù)熱線主服務(wù)進程、國家衛(wèi)健委采供血信息采集軟件的實時監(jiān)控,確保96606服務(wù)熱線的平穩(wěn)運行和國家衛(wèi)健委采供血信息日報的按時上報。
6.實時報警推送:設(shè)置觸發(fā)器,通過腳本直接調(diào)用企業(yè)微信API,將報警信息實時推送給相關(guān)人員,并按照各人分工不同實現(xiàn)差異化推送。
四、應(yīng)用效果
目前自動化運維監(jiān)控系統(tǒng)已接入服務(wù)器42臺,網(wǎng)絡(luò)及安全設(shè)備51臺,支持SNMP協(xié)議的網(wǎng)絡(luò)設(shè)備55臺,監(jiān)控操作系統(tǒng)42臺,數(shù)據(jù)庫7個,Web應(yīng)用10余個,總監(jiān)控項達17801項,取得了較為理想的應(yīng)用效果。系統(tǒng)整合并關(guān)聯(lián)所有事件,將機房環(huán)境、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫、應(yīng)用系統(tǒng)都納入了IT運行監(jiān)控體系,及時推送報警信息,幫助運維人員跟蹤并響應(yīng)報警事件(圖2報警事件示例),避免其影響業(yè)務(wù)的正常運轉(zhuǎn)。
五、結(jié)束語
Zabbix是一種可以對各種數(shù)據(jù)中心監(jiān)控對象進行狀態(tài)數(shù)據(jù)收集的監(jiān)控平臺,實現(xiàn)了對機房環(huán)境、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫、應(yīng)用系統(tǒng)等內(nèi)容的統(tǒng)一監(jiān)控和管理,具有分布式、自動化、全方位監(jiān)控的特點,讓運維人員能夠快速定位并解決系統(tǒng)問題,降低運維的難度和風(fēng)險,提升IT運維服務(wù)質(zhì)量和效率,為血站提供效率高、低成本的自動化運維監(jiān)控平臺。Zabbix也存在圖形界面比較簡單可視化程度差,報表功能薄弱等缺點,今后工作中還需不斷完善,建設(shè)更加全面、高效、智能、高度可視化的自動化運維平臺。
參? 考? 文? 獻
[1]程雪松.基于Zabbix的醫(yī)院自動化運維監(jiān)控平臺的設(shè)計與應(yīng)用[J].福建電腦,2018,34(9):126-127.
[2]劉遠超,李樹彬.基于Zabbix和微信企業(yè)號實現(xiàn)網(wǎng)絡(luò)監(jiān)控的研究[J],山東科學(xué),2017,30(4):124-130
[3]龍煒.自動化運維工具在企業(yè)信息系統(tǒng)管理中的應(yīng)用[J].微型機與應(yīng)用,2017,36(5):102-104
[4]肖海琴.Zabbix性能監(jiān)控軟件在高性能集群上的應(yīng)用[J].中國管理信息化,2017,20(3):139
[5]郭曉慧,李潤知,張茜,等.基于Zabbix的分布式服務(wù)器監(jiān)控應(yīng)用研究[J].通信學(xué)報,2013(S2):94-98.
[6]楊磊.基于Zabbix的云監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2017.
[7]吳兆松.Zabbix企業(yè)級分布式監(jiān)控系統(tǒng)[M].北京:電子工業(yè)出版社,2014.
[8]劉思堯.基于ZABBIX的自動化巡檢系統(tǒng)的研究與實現(xiàn)[J].電力信息與通信技術(shù),2014(12):111-115.
[9]周萌,林國策,楊厚云.CentOS下ZABBIX的配置與使用[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2015(1):90-94.
[10]王紹成,史磊.公安網(wǎng)絡(luò)智能巡檢系統(tǒng)的研究與思考[J].科技展望,2016(10):302.
[11]周昊.利用Zabbix和企業(yè)微信實現(xiàn)公安監(jiān)控網(wǎng)絡(luò)的自動化運維.中國有線電視,2017(11):1324-1325