1.管理活動(dòng)包括協(xié)商可以性目標(biāo),其中有:收集衡量架構(gòu)、應(yīng)用與數(shù)據(jù),監(jiān)控、分析、報(bào)告,以及規(guī)劃與改進(jìn)。
2.平均故障間隔時(shí)間(MTBF):測(cè)量服務(wù)失敗的頻率。較舊的服務(wù)通常很少會(huì)失敗,所以MTBF 較高。
3.恢復(fù)服務(wù)的平均時(shí)間(MTRS):測(cè)量故障后服務(wù)恢復(fù)的速度。已優(yōu)化的服務(wù)可以快速地恢復(fù),所以MTRS 較小。
4.測(cè)量維度:包括用戶中斷的分鐘數(shù)、丟失的交易數(shù)量、業(yè)務(wù)價(jià)值的損失、用戶的滿意度。
5.可作為風(fēng)險(xiǎn)管理的一部分,并設(shè)置站點(diǎn)可靠性工程師(SRE)。
簡(jiǎn)單而言,可用性管理的目標(biāo)是兩個(gè)方面:
1.在事故發(fā)生前,保證業(yè)務(wù)服務(wù)和系統(tǒng)架構(gòu)的穩(wěn)定性;在事故發(fā)生后,盡量減少中斷所持續(xù)的時(shí)間以及此類事故的發(fā)生頻率。
因此,我們需要對(duì)業(yè)務(wù)服務(wù)和IT 環(huán)境事先做到充分了解,其中包括四個(gè)維度:
(1)應(yīng)用架構(gòu)的復(fù)雜程度。
(2)各個(gè)組件在其他組件故障時(shí)的魯棒性。
(3)團(tuán)隊(duì)的故障響應(yīng)能力。
(4)各種SLA(Service Level Agreement,組 織與客戶間服務(wù)的協(xié)議)、OLA(Operational Level Agreement,組織內(nèi)部IT 與其他部門間的協(xié)議)、以及UC(Unpinning Contract,組織與外部供應(yīng)商的支撐合同)的落實(shí)情況。
2.在管理效果上,主要體現(xiàn)在如下三個(gè)特性的落實(shí)上。
(1)可靠性(Reliability)。
在正常狀態(tài)下,我們應(yīng)該保障IT 系統(tǒng)的平穩(wěn)運(yùn)行和服務(wù)組件的按時(shí)交付。值得一提的是,對(duì)于那些經(jīng)歷了較長(zhǎng)時(shí)間,如:超過(guò)7 秒鐘才能打開某個(gè)網(wǎng)頁(yè)的服務(wù)來(lái)說(shuō),我們可直接視為服務(wù)已不可用了。另外,小到某個(gè)組件,大至整體業(yè)務(wù),也需要有一定的容錯(cuò)性與自愈恢復(fù)能力(Resilience),以實(shí)現(xiàn)在極端情況下的業(yè)務(wù)不間斷能力。
(2)可維護(hù)性(Maintainability)。
IT 系統(tǒng)乃至服務(wù)組件平時(shí)是否易于維護(hù)和獲悉狀態(tài)。通常我們可以采取如下兩種途徑:
被動(dòng):如采用持續(xù)的自動(dòng)化監(jiān)測(cè)手段,來(lái)進(jìn)行評(píng)估與分析,以及根據(jù)既定的事故管理流程與記錄,來(lái)推斷故障的根本原因。
主動(dòng):如通過(guò)CFIA(組件故障影響分析)、SFA(服務(wù)故障分析)、VBFA(關(guān)鍵業(yè)務(wù)功能分析)、SPoFA(單點(diǎn)故障分析)以及根據(jù)變更管理流程,來(lái)不斷尋求改進(jìn)穩(wěn)定性水平的方式。
同時(shí),我們?cè)诔霈F(xiàn)中斷或事故時(shí),也要能夠通過(guò)人工診斷與糾正等干預(yù)方式迅速恢復(fù)原有運(yùn)能。
(3)可服務(wù)性(Serviceability)。
無(wú)論是SLA 里涉及到的乙方聯(lián)系人員,還是OLA 中提及的IT 部門技術(shù)角色,都應(yīng)該保證“召之即來(lái)、來(lái)之能戰(zhàn)、戰(zhàn)之必勝”。
在具體實(shí)操中,我們企業(yè)從現(xiàn)有服務(wù)與系統(tǒng)的業(yè)務(wù)價(jià)值、外部可能帶來(lái)的威脅以及內(nèi)部存在的弱點(diǎn)等維度,開展了可用性狀態(tài)調(diào)查。為了化繁為簡(jiǎn)并找到可衡量的抓手,我們開展了對(duì)于目標(biāo)組件可用性程度的計(jì)算,也就是業(yè)界常說(shuō)的“幾個(gè)九”。以下用到的便是我們針對(duì)單一服務(wù)組件所采用的計(jì)算方法,如圖1 所示。
而對(duì)于較為復(fù)雜的服務(wù)系統(tǒng),我們采用了如圖2 所示算法。
可見,對(duì)于MTRS 而言,由于涉及到我們對(duì)于事故的綜合處置能力,包括響應(yīng)、檢測(cè)、識(shí)別、補(bǔ)救恢復(fù)等環(huán)節(jié)。因此,我們需要盡量縮短MTRS 的耗時(shí)。
圖1 對(duì)單一服務(wù)組件的算法
圖2 對(duì)于較為復(fù)雜的服務(wù)系統(tǒng)的算法
而為了提高M(jìn)TBF 乃至整體可用性的程度,我們總結(jié)并踐行了如下防御性措施:
預(yù)防性例行檢查。從機(jī)房的日常巡檢開始,通過(guò)設(shè)備面板上的狀態(tài)燈或LED 屏,結(jié)合手冊(cè)上的相關(guān)說(shuō)明,迅速發(fā)現(xiàn)并定位各種部件上的問(wèn)題。而對(duì)于軟件應(yīng)用而言,我們通過(guò)運(yùn)用日志與事件監(jiān)控服務(wù)工具,集中式地審查并跟蹤各項(xiàng)性能指標(biāo)。
發(fā)現(xiàn)潛在的薄弱環(huán)節(jié)。我們既依賴用戶的主動(dòng)反饋,又根據(jù)遠(yuǎn)程工具的實(shí)時(shí)數(shù)據(jù)采集,來(lái)抽絲剝繭地發(fā)現(xiàn)當(dāng)前業(yè)務(wù)在性能方面的瓶頸問(wèn)題。
緩沖中斷產(chǎn)生的焦慮。在出現(xiàn)事故以及服務(wù)可用性缺失時(shí),運(yùn)維與支持人員運(yùn)用郵件、電話和微信等方式,及時(shí)通知涉事人員,有關(guān)當(dāng)前中斷的原因和臨時(shí)性的解決方案。此舉不但能夠讓大家產(chǎn)生一定的思想準(zhǔn)備,而且能夠展現(xiàn)IT 部門的“關(guān)懷”與運(yùn)作。