亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

可用性管理

2019-11-25 08:56:04陳峻

網(wǎng)絡(luò)安全和信息化 2019年11期

關(guān)鍵詞：可用性中斷組件

基礎(chǔ)要點(diǎn)

1.管理活動(dòng)包括協(xié)商可以性目標(biāo)，其中有：收集衡量架構(gòu)、應(yīng)用與數(shù)據(jù)，監(jiān)控、分析、報(bào)告，以及規(guī)劃與改進(jìn)。

2.平均故障間隔時(shí)間（MTBF）：測(cè)量服務(wù)失敗的頻率。較舊的服務(wù)通常很少會(huì)失敗，所以MTBF 較高。

3.恢復(fù)服務(wù)的平均時(shí)間（MTRS）：測(cè)量故障后服務(wù)恢復(fù)的速度。已優(yōu)化的服務(wù)可以快速地恢復(fù)，所以MTRS 較小。

4.測(cè)量維度：包括用戶中斷的分鐘數(shù)、丟失的交易數(shù)量、業(yè)務(wù)價(jià)值的損失、用戶的滿意度。

5.可作為風(fēng)險(xiǎn)管理的一部分，并設(shè)置站點(diǎn)可靠性工程師（SRE）。

解讀

簡(jiǎn)單而言，可用性管理的目標(biāo)是兩個(gè)方面：

1.在事故發(fā)生前，保證業(yè)務(wù)服務(wù)和系統(tǒng)架構(gòu)的穩(wěn)定性；在事故發(fā)生后，盡量減少中斷所持續(xù)的時(shí)間以及此類事故的發(fā)生頻率。

因此，我們需要對(duì)業(yè)務(wù)服務(wù)和IT 環(huán)境事先做到充分了解，其中包括四個(gè)維度：

（1）應(yīng)用架構(gòu)的復(fù)雜程度。

（2）各個(gè)組件在其他組件故障時(shí)的魯棒性。

（3）團(tuán)隊(duì)的故障響應(yīng)能力。

（4）各種SLA（Service Level Agreement，組織與客戶間服務(wù)的協(xié)議）、OLA（Operational Level Agreement，組織內(nèi)部IT 與其他部門間的協(xié)議）、以及UC（Unpinning Contract，組織與外部供應(yīng)商的支撐合同）的落實(shí)情況。

2.在管理效果上，主要體現(xiàn)在如下三個(gè)特性的落實(shí)上。

（1）可靠性（Reliability）。

在正常狀態(tài)下，我們應(yīng)該保障IT 系統(tǒng)的平穩(wěn)運(yùn)行和服務(wù)組件的按時(shí)交付。值得一提的是，對(duì)于那些經(jīng)歷了較長(zhǎng)時(shí)間，如：超過(guò)7 秒鐘才能打開某個(gè)網(wǎng)頁(yè)的服務(wù)來(lái)說(shuō)，我們可直接視為服務(wù)已不可用了。另外，小到某個(gè)組件，大至整體業(yè)務(wù)，也需要有一定的容錯(cuò)性與自愈恢復(fù)能力（Resilience），以實(shí)現(xiàn)在極端情況下的業(yè)務(wù)不間斷能力。

（2）可維護(hù)性（Maintainability）。

IT 系統(tǒng)乃至服務(wù)組件平時(shí)是否易于維護(hù)和獲悉狀態(tài)。通常我們可以采取如下兩種途徑：

被動(dòng)：如采用持續(xù)的自動(dòng)化監(jiān)測(cè)手段，來(lái)進(jìn)行評(píng)估與分析，以及根據(jù)既定的事故管理流程與記錄，來(lái)推斷故障的根本原因。

主動(dòng)：如通過(guò)CFIA（組件故障影響分析）、SFA（服務(wù)故障分析）、VBFA（關(guān)鍵業(yè)務(wù)功能分析）、SPoFA（單點(diǎn)故障分析）以及根據(jù)變更管理流程，來(lái)不斷尋求改進(jìn)穩(wěn)定性水平的方式。

同時(shí)，我們?cè)诔霈F(xiàn)中斷或事故時(shí)，也要能夠通過(guò)人工診斷與糾正等干預(yù)方式迅速恢復(fù)原有運(yùn)能。

（3）可服務(wù)性（Serviceability）。

無(wú)論是SLA 里涉及到的乙方聯(lián)系人員，還是OLA 中提及的IT 部門技術(shù)角色，都應(yīng)該保證“召之即來(lái)、來(lái)之能戰(zhàn)、戰(zhàn)之必勝”。

實(shí)務(wù)

在具體實(shí)操中，我們企業(yè)從現(xiàn)有服務(wù)與系統(tǒng)的業(yè)務(wù)價(jià)值、外部可能帶來(lái)的威脅以及內(nèi)部存在的弱點(diǎn)等維度，開展了可用性狀態(tài)調(diào)查。為了化繁為簡(jiǎn)并找到可衡量的抓手，我們開展了對(duì)于目標(biāo)組件可用性程度的計(jì)算，也就是業(yè)界常說(shuō)的“幾個(gè)九”。以下用到的便是我們針對(duì)單一服務(wù)組件所采用的計(jì)算方法，如圖1 所示。

而對(duì)于較為復(fù)雜的服務(wù)系統(tǒng)，我們采用了如圖2 所示算法。

可見，對(duì)于MTRS 而言，由于涉及到我們對(duì)于事故的綜合處置能力，包括響應(yīng)、檢測(cè)、識(shí)別、補(bǔ)救恢復(fù)等環(huán)節(jié)。因此，我們需要盡量縮短MTRS 的耗時(shí)。

圖1 對(duì)單一服務(wù)組件的算法

圖2 對(duì)于較為復(fù)雜的服務(wù)系統(tǒng)的算法

而為了提高M(jìn)TBF 乃至整體可用性的程度，我們總結(jié)并踐行了如下防御性措施：

預(yù)防性例行檢查。從機(jī)房的日常巡檢開始，通過(guò)設(shè)備面板上的狀態(tài)燈或LED 屏，結(jié)合手冊(cè)上的相關(guān)說(shuō)明，迅速發(fā)現(xiàn)并定位各種部件上的問(wèn)題。而對(duì)于軟件應(yīng)用而言，我們通過(guò)運(yùn)用日志與事件監(jiān)控服務(wù)工具，集中式地審查并跟蹤各項(xiàng)性能指標(biāo)。

發(fā)現(xiàn)潛在的薄弱環(huán)節(jié)。我們既依賴用戶的主動(dòng)反饋，又根據(jù)遠(yuǎn)程工具的實(shí)時(shí)數(shù)據(jù)采集，來(lái)抽絲剝繭地發(fā)現(xiàn)當(dāng)前業(yè)務(wù)在性能方面的瓶頸問(wèn)題。

緩沖中斷產(chǎn)生的焦慮。在出現(xiàn)事故以及服務(wù)可用性缺失時(shí)，運(yùn)維與支持人員運(yùn)用郵件、電話和微信等方式，及時(shí)通知涉事人員，有關(guān)當(dāng)前中斷的原因和臨時(shí)性的解決方案。此舉不但能夠讓大家產(chǎn)生一定的思想準(zhǔn)備，而且能夠展現(xiàn)IT 部門的“關(guān)懷”與運(yùn)作。