宕機事件對公司的業(yè)務(wù)、信譽、客戶體驗以及信任等方面所造成的代價從未如此高昂。由于考慮到軟件驅(qū)動業(yè)務(wù)的持續(xù)性和關(guān)聯(lián)性,客戶和用戶們越來越不能容忍災(zāi)難和故障的發(fā)生。而某種服務(wù)的故障可能影響到其所有的用戶。同時多用戶平臺發(fā)生故障的破壞力越來越大,因為它影響到在平臺上運行其服務(wù)的所有服務(wù)供應(yīng)商。
隨著對設(shè)計災(zāi)難恢復(fù)方案的重視,企業(yè)容易關(guān)注如何防止大的災(zāi)難和故障。這種難以預(yù)測的不尋常事件往往對服務(wù)的可用性帶來極其巨大的幾乎是災(zāi)難性的影響。這種影響的范圍很廣,換言之,這種影響可能延長服務(wù)發(fā)生災(zāi)難的持續(xù)時間,也可能增加數(shù)據(jù)丟失的數(shù)量。這種影響規(guī)模巨大,而那些較輕的不太常發(fā)生的宕機事件就可能被忽略。
企業(yè)需要注意判定、發(fā)現(xiàn)和防止那些發(fā)生頻率越來越高的小故障。這些小的宕機事件可能會隨著時間的推移而累積,并且會完全破壞服務(wù)可用性的目標。對于災(zāi)難恢復(fù)而言,可用的選擇包括本地的災(zāi)難恢復(fù)解決方案,也可以是基于云的災(zāi)難恢復(fù)方案,后者利用的是一些大型的云運營商的基礎(chǔ)架構(gòu)和平臺的功能。
小宕機事件的代價容易累積。頻繁的宕機可能會增加大量用戶受影響的可能性。此外,同樣一個用戶被故障或宕機時間重復(fù)影響的可能性也會增加。這種頻繁的宕機會破壞對服務(wù)的信任。反復(fù)的宕機時間會令人經(jīng)常感覺到不快。客戶可能會不再增加業(yè)務(wù)的規(guī)模,甚至決定不再續(xù)約。依賴每月帶來收入或每年帶來收入的SaaS業(yè)務(wù)極易受到頻繁的小型宕機事件的影響。
如果企業(yè)謀求針對重大和小型的宕機事件形成彈性,不妨重視形成和維護如下方面的能力。
提供通信服務(wù)的所有關(guān)鍵系統(tǒng)都應(yīng)持續(xù)不斷地備份。除了以一種REST的方式設(shè)計外,這些服務(wù)所生成、更新和維護的數(shù)據(jù)都應(yīng)連續(xù)地備份到本地集中化的或是基于云的災(zāi)難恢復(fù)系統(tǒng)中。在不影響服務(wù)質(zhì)量和系統(tǒng)的前提下,應(yīng)盡可能地頻繁備份。同時,備份應(yīng)是遞增的,基于快照的,以提供靈活性和在任何時間和任何宕機事件中恢復(fù)的能力。此外,備份應(yīng)是多層級的,以確保備份系統(tǒng)不會受到影響主要系統(tǒng)的相同故障的影響。
企業(yè)應(yīng)當持續(xù)地監(jiān)視提供通信服務(wù)的所有關(guān)鍵系統(tǒng)。這對于確保盡快地檢測故障或災(zāi)難并立即實施災(zāi)難恢復(fù)至關(guān)重要。與備份類似,在實施監(jiān)視時,如果同樣的故障已影響了主要的服務(wù),就不能在這種系統(tǒng)上實施。同樣,客戶的反饋系統(tǒng)也需要監(jiān)視,以獲得故障報告。在報告開始到達或在監(jiān)視系統(tǒng)發(fā)出故障警告時,應(yīng)確認故障并實施災(zāi)難恢復(fù)。
在檢測到災(zāi)難、生成報告并確認時,就應(yīng)啟動失效轉(zhuǎn)移過程,啟用新服務(wù)器從而繼續(xù)提供通信服務(wù)。這種失效轉(zhuǎn)移的完成是經(jīng)由確保新服務(wù)器承擔受宕機影響的服務(wù)器的角色而實現(xiàn)的。
管理員應(yīng)當對失效轉(zhuǎn)移服務(wù)器進行配置,使其能夠訪問通信服務(wù)狀態(tài)和信息的備份。
在宕機時間結(jié)束并且主要服務(wù)環(huán)境中的底層問題被診斷、修復(fù)、確認修復(fù)后,自動恢復(fù)過程應(yīng)當將所有的服務(wù)恢復(fù)到主要環(huán)境中。在確認自動恢復(fù)過程成功后,自動恢復(fù)服務(wù)器即可被回收再利用。
很多管理員認為并未實現(xiàn)服務(wù)的可用性,并承認在過去的一年中經(jīng)歷過不少宕機事件。宕機的頻發(fā)要求認真規(guī)劃和設(shè)計,只有這樣才能減輕其威脅,并且確??焖俚幕謴?fù)。企業(yè)面臨很多選擇,應(yīng)當認真評估和選擇最適合自己需要的方案,并確保檢測不可預(yù)料的宕機事件的敏捷性和快捷恢復(fù)。