在IT運維領域,有兩個被無數(shù)次提起的詞,一個是“救火隊員”,一個是與之對應的“主動運維”。兩個詞匯前后呼應,旨在說明IT部門為了擺脫前者匆忙、低效的形象,用盡洪荒之力,以求避免IT系統(tǒng)故障。但是,作為國內(nèi)領先的IT運維管理解決方案提供商,北塔軟件在為很多客戶提供運維服務時卻發(fā)現(xiàn),“主動運維”真正實現(xiàn)起來困難重重。這是因為,在主動運維落地時存在的兩大難題:經(jīng)驗、能力。
在IT管理中,有兩個詞經(jīng)常被混淆在一起用,這就是閾值和閥值。其實,“閥值”這個詞最早是沒有的,后來咬文嚼字工作組通過統(tǒng)計全國人民使用詞語的習慣,發(fā)現(xiàn)了閥值這個詞。但規(guī)范來講,“閾值”才是主動運維中的正宗血脈。那么,我們?yōu)楹我o緊抓住它呢?
在被動運維中,業(yè)務部門一般最先發(fā)現(xiàn)故障現(xiàn)象,而主動式IT運維服務則可以很好地采取預防手段進行監(jiān)控管理。為此,IT部門需要針對每個系統(tǒng)建立閾值報警體系,通過“基準線”觀察每個系統(tǒng)可用性、流暢度、安全性的指標,低于或超過閾值,說明系統(tǒng)無法達到最低要求,則對該系統(tǒng)進行報警提示。
閾值的定義很容易理解,但在運維工具中如何設定就是一道難題了,這需要“經(jīng)驗”。北塔軟件表示:閾值的設定要依據(jù)歷史數(shù)據(jù),但一些維護人員往往是依靠運維經(jīng)驗和行業(yè)慣例來設定,無法按照系統(tǒng)的運行變化特性及時地進行智能調(diào)整,也沒有持續(xù)改進和優(yōu)化的有效方法來改變現(xiàn)狀。鑒于以上難題,北塔BTSO2.5在保留實時閾值告警的基礎上,更著重于對歷史數(shù)據(jù)進行深入挖掘,系統(tǒng)從用戶業(yè)務環(huán)境中自主學習和生成風險閾值,這項特性可以幫助管理員解決閾值固化的問題,進而實現(xiàn)自動化的主動運維方式。
建立和實施信息系統(tǒng)的主動式運維管理平臺,需要對運維規(guī)則進行反復的調(diào)整。因此,如果說“自主學習”是主動運維的第一步,接下來就需要實現(xiàn)“智能運維”,這也是從“人治”到“法治”的門檻。
傳統(tǒng)的主動運維思路以事件為核心,側重對故障的定位,但不負責解決,這就無法擺脫“人治”的束縛。而BTSO提出的主動運維不僅以數(shù)據(jù)為核心,根據(jù)用戶所屬行業(yè)自動定義正常閾值,還能將運維規(guī)則自動導入,指引用戶按照規(guī)則處理IT預警信息,直接讓用戶步入中等運維水平。
以高負載主機為例,當管理對象加入系統(tǒng)后,BTSO自動啟動各類主機性能監(jiān)控,當個別主機出現(xiàn)高負載的表象后,系統(tǒng)不僅可以過濾偶發(fā)的CPU沖高現(xiàn)象,還能橫向擴展分析,結合歷史數(shù)據(jù)自動判斷,告之用戶這個偶發(fā)現(xiàn)象是否有關聯(lián)、是否影響了業(yè)務系統(tǒng)的整體健康。如果被確定為長期高負載主機,系統(tǒng)將提出優(yōu)化處理步驟。
不僅是CPU,管理員最擔心的內(nèi)存泄露,BTSO也能從增長趨勢的角度,智能分析出這些表像背后的根源,利用72小時或更長時期的分析報告,或是系統(tǒng)將根據(jù)用戶需求自動做出24小時的“進程級”內(nèi)存泄露定位,展現(xiàn)有可能溢出的進程名稱和消耗,更主動地消除故障隱患。另外,網(wǎng)絡擁堵、數(shù)據(jù)庫指標異常波動等,這些很難在短時間處理、必須依靠技術高手處理的問題,BTSO都提供了智能處理的內(nèi)置規(guī)則,在用戶無需掌握深奧理論的情況下,首先解決實際問題。并且,這些正確處理的步驟會被一一記錄,在企業(yè)內(nèi)部形成運維知識體系的傳承。
在IT運維領域中,“主動運維”刻不容緩。這就如人生病一樣,很多疾病都會造成身體上多處特征的不良反應,但生活中多數(shù)人都不在意身體不適癥狀,因此導致很多疾病錯過了最佳的治療時機。當然,主動運維理念的發(fā)展方向也將迎來改變,智慧運維不僅需要“開刀治病”,更應解決運維經(jīng)驗、個人能力等問題,指引業(yè)務系統(tǒng)“強身健體”。
上海北塔軟件股份有限公司
地址:上海市宜山路700號科創(chuàng)動力3號樓3層
技術支持熱線:400-820-7719
傳真:021-60740399
網(wǎng)址:www.betasoft.com.cn