張晨霞
摘 要:云計(jì)算基于其計(jì)算能力、儲(chǔ)存能力一直以來(lái)得到廣大企業(yè)的追捧與應(yīng)用。而在應(yīng)用的過(guò)程中,對(duì)于數(shù)據(jù)的穩(wěn)定性有著極高的要求,要求云計(jì)算服務(wù)商在提供相關(guān)服務(wù)的同時(shí)能夠具備較強(qiáng)的穩(wěn)定性與安全性。因此,加強(qiáng)云計(jì)算平臺(tái)健康與故障預(yù)警成為云計(jì)算服務(wù)商必須重視的問題。本文從云計(jì)算平臺(tái)監(jiān)控工具軟件結(jié)構(gòu)入手,對(duì)狀態(tài)監(jiān)控與故障告警系統(tǒng)進(jìn)行了分析。
關(guān)鍵詞:云計(jì)算平臺(tái);監(jiān)控技術(shù);應(yīng)用
一、云計(jì)算平臺(tái)監(jiān)控結(jié)構(gòu)概述
計(jì)算平臺(tái)的服務(wù)與節(jié)點(diǎn)性能以及存活狀態(tài)有著密切關(guān)系,如果沒有平臺(tái)狀態(tài)監(jiān)控與故障告警等等功能,那么一旦發(fā)生故障,相關(guān)工作人員就無(wú)法及時(shí)發(fā)展故障以及明確故障原因,從而難以及時(shí)恢復(fù)平臺(tái)計(jì)算能力。 作為目前成熟的監(jiān)控工具能夠管控集群節(jié)點(diǎn)性能,但是繁雜的監(jiān)控指標(biāo)又會(huì)讓用戶眼花繚亂; 等等是一個(gè)核心框架,而監(jiān)控任務(wù)必須要有相關(guān)的插件支持才可以完成,意味著工具自身與平臺(tái)的耦合度比較低。
為了能夠達(dá)到云計(jì)算平臺(tái)對(duì)于集群運(yùn)行狀態(tài)與硬件性能的監(jiān)控需求,本文提出云計(jì)算平臺(tái)監(jiān)控工具軟件結(jié)構(gòu)模型,從而提升云計(jì)算監(jiān)控的有效性與實(shí)效性(見圖1):
二、云計(jì)算平臺(tái)監(jiān)控與故障報(bào)警系統(tǒng)分析
云計(jì)算平臺(tái)監(jiān)控結(jié)構(gòu)模型主要包括數(shù)據(jù)采集、處理、分析、儲(chǔ)存、異常警告以及可視化現(xiàn)實(shí)等等基本模塊。云計(jì)算平臺(tái)監(jiān)控與故障報(bào)警系統(tǒng)運(yùn)行流程具體如下:
(一)數(shù)據(jù)采集與數(shù)據(jù)處理
通常來(lái)講,對(duì)性能指標(biāo)進(jìn)行采集,實(shí)則就是對(duì)系統(tǒng)文件進(jìn)行讀取,同時(shí)還要對(duì)指標(biāo)數(shù)據(jù)進(jìn)行計(jì)算、上報(bào)等等。本文所提出的云計(jì)算平臺(tái)監(jiān)控方案。在采集數(shù)據(jù)方面主要是定時(shí)從平臺(tái)系統(tǒng)文件 中,對(duì)系統(tǒng)硬件性能指標(biāo)的原始性數(shù)據(jù)進(jìn)行讀取,然后按照對(duì)應(yīng)的計(jì)算方法計(jì)算目標(biāo)指標(biāo)的數(shù)據(jù)。為了能夠確保數(shù)據(jù)能夠及時(shí)上報(bào)與收集,方案中提到了 ,在對(duì)數(shù)據(jù)處理插件進(jìn)行設(shè)計(jì)時(shí),則可以利用 的指標(biāo)擴(kuò)展能力。而插件一般由 的語(yǔ)言來(lái)實(shí)現(xiàn)。需要注意的是,在插件中還要實(shí)現(xiàn)指標(biāo)信息的定義、指標(biāo)清除、指標(biāo)初始化以及指標(biāo)計(jì)算、處理等等功能。
(二)數(shù)據(jù)存儲(chǔ)
傳統(tǒng)的監(jiān)控工具在存儲(chǔ)時(shí),主要對(duì)監(jiān)控指標(biāo)數(shù)據(jù)采用文件的形式實(shí)現(xiàn)存儲(chǔ),而這種形式不利于展示與使用。因此,為了能夠?qū)崿F(xiàn)可視化,數(shù)據(jù)存儲(chǔ)方式需要進(jìn)行改進(jìn)。本文認(rèn)為將指標(biāo)數(shù)據(jù)存儲(chǔ)到 表當(dāng)中,同時(shí)還應(yīng)當(dāng)應(yīng)用到定時(shí)任務(wù)與觸發(fā)器事件。在數(shù)據(jù)庫(kù)之中構(gòu)建指標(biāo)數(shù)據(jù)歷史存儲(chǔ)表(見表1):
表1中監(jiān)控節(jié)點(diǎn)則代表了該記錄是平臺(tái)上哪一個(gè)節(jié)點(diǎn),其性能值主要包括此時(shí)的狀態(tài)值以及兩個(gè)閾值,對(duì)閾值進(jìn)行記錄主要是方便之后能夠?qū)厔?shì)展示進(jìn)行標(biāo)記,不用再對(duì)配置文件進(jìn)行遍歷,主要:正常、告警以及嚴(yán)重告警三種狀態(tài)。與 中的數(shù)據(jù)進(jìn)行結(jié)合可以對(duì)操作流程進(jìn)行更新,在當(dāng)數(shù)據(jù)庫(kù)表中的狀態(tài)數(shù)據(jù)在更新時(shí),觸發(fā)器事件完成此次數(shù)據(jù)更新的過(guò)程中便會(huì)觸發(fā)一次插入數(shù)據(jù)庫(kù)表這一操作,即將監(jiān)控指標(biāo)的歷史數(shù)據(jù)保存下來(lái)?;诒O(jiān)控具有實(shí)時(shí)性,更新速度快的特點(diǎn),很容易產(chǎn)生大量的歷史數(shù)據(jù),所以又需要通過(guò)觸發(fā)定時(shí)任務(wù)功能將歷史數(shù)據(jù)刪除。例如,每天可以可以執(zhí)行一次定時(shí)任務(wù),將一個(gè)月之前的數(shù)據(jù)數(shù)據(jù),同時(shí)保留最近一個(gè)月的歷史數(shù)據(jù)。
(三)數(shù)據(jù)分析與異常告警
數(shù)據(jù)分析的功能是對(duì)指標(biāo)進(jìn)行分析,看其是否正常;異常告警則是指標(biāo)數(shù)據(jù)出現(xiàn)異常時(shí),給出告警提示。在數(shù)據(jù)分析的過(guò)程中,需要給每一個(gè)指標(biāo)設(shè)置亞健康狀態(tài)與故障狀態(tài)兩個(gè)閾值。通常來(lái)講,CPU利用率如果保持在0-75%之間,代表著任務(wù)運(yùn)行正常;如果長(zhǎng)時(shí)間處于90%以上,那么任務(wù)運(yùn)行會(huì)將逐漸緩慢。所以,針對(duì)CPU利用率可以設(shè)置對(duì)應(yīng)的閾值,即75%與90%。
以單核處理器為例,如果CPU負(fù)載維持在0.70較為穩(wěn)定;一旦達(dá)到1.0則表示CPU滿載;如果已經(jīng)超過(guò)1.0的話,則會(huì)出現(xiàn)等待。依此類推,多核處理器負(fù)載的兩個(gè)閾值則可以設(shè)置為0.70×CPU內(nèi)核數(shù)、1.0×CPU內(nèi)核數(shù)。因?yàn)椴煌?wù)器配置不同,為了滿足其要求,閾值不能設(shè)置為固定值,通常采用百分比機(jī)制,這樣即使集群內(nèi)節(jié)點(diǎn)的配置不同,而監(jiān)控配置閾值都不需要進(jìn)行修改。另外,磁盤的IO往往與磁盤種類有密切關(guān)系,磁盤不同其讀寫速率的極限自然也不同,例如,7200轉(zhuǎn)臺(tái)式機(jī)硬盤讀寫速率大約在130-190MB之間,所以磁盤讀速率對(duì)應(yīng)的兩個(gè)閾值可以設(shè)置為100M/S與130M/S,而寫速率對(duì)應(yīng)的兩個(gè)閾值則設(shè)置為50M/S與65M/S。通過(guò)相關(guān)實(shí)踐證明,當(dāng)內(nèi)存使用率低于88%時(shí),系統(tǒng)通常不會(huì)有卡頓情況出現(xiàn);一旦超過(guò)90%,而卡頓情況就會(huì)嚴(yán)重。所以,對(duì)應(yīng)的內(nèi)存使用率閾值設(shè)置為88%與90%。將以上故障告警閾值匯總(見表2):
同時(shí),還要將故障告警與 軟件結(jié)合,對(duì)監(jiān)控插件進(jìn)行自定義設(shè)置,同時(shí)設(shè)置好監(jiān)控指標(biāo)閾值。一旦指標(biāo)數(shù)據(jù)超過(guò)閾值時(shí),則及時(shí)發(fā)出警告。
(四)可視化
實(shí)時(shí)指標(biāo)數(shù)據(jù)與歷史數(shù)據(jù)趨勢(shì)是可視化的兩部分。相關(guān)人員可以通過(guò)監(jiān)控系統(tǒng)查看指標(biāo)數(shù)據(jù)的數(shù)據(jù)與狀態(tài),一旦發(fā)現(xiàn)故障,要及時(shí)對(duì)云計(jì)算平臺(tái)進(jìn)行修復(fù)。歷史數(shù)據(jù)趨勢(shì)變化能夠幫助相關(guān)人員進(jìn)一步了解指標(biāo)的變化趨勢(shì),從而分析故障發(fā)生的原因。
三、結(jié)語(yǔ)
綜上所述,本文主要結(jié)合云計(jì)算平臺(tái)監(jiān)控結(jié)構(gòu)模型,進(jìn)一步提出了云計(jì)算平臺(tái)監(jiān)控系統(tǒng)實(shí)現(xiàn)的具體方案。該監(jiān)控系統(tǒng)能夠?qū)π阅苓M(jìn)行監(jiān)控,及時(shí)發(fā)出告警,同時(shí)可以實(shí)現(xiàn)可視化展示,能夠達(dá)到云計(jì)算平臺(tái)監(jiān)控軟件的基本需求。同時(shí),基于云計(jì)算的發(fā)展其需求也會(huì)改變,所以還需要進(jìn)一步研究以達(dá)到逐步完善的目標(biāo),進(jìn)而提升云計(jì)算平臺(tái)運(yùn)行的穩(wěn)定性。
參考文獻(xiàn):
[1]康文龍,王廣楨,蒲志新,叢佩超.基于云計(jì)算平臺(tái)的圖像識(shí)別技術(shù)研究[J/OL].傳感器與微系統(tǒng),2018(06):30-32+35.
[2]王猛,譚躍生.云計(jì)算平臺(tái)網(wǎng)絡(luò)公共資源應(yīng)急調(diào)度仿真研究[J].計(jì)算機(jī)仿真,2018,35(02):371-374+405.
[3]王俊童.云計(jì)算平臺(tái)與傳統(tǒng)服務(wù)平臺(tái)的區(qū)別[J].電子技術(shù)與軟件工程,2018(01):150.