張磊
賽門鐵克公司7月6日發(fā)布的《全球IT災(zāi)難恢復(fù)年度調(diào)查》顯示,各企業(yè)面臨的災(zāi)難恢復(fù)壓力持續(xù)攀升。雖然2009年的災(zāi)難恢復(fù)預(yù)算高于往年,但大多數(shù)企業(yè)希望今后幾年內(nèi)能有效控制預(yù)算,以更少的預(yù)算去做更多的事情。
IT部門不能包辦
企業(yè)管理層介入的程度以及企業(yè)對(duì)數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo)(RPO)和數(shù)據(jù)恢復(fù)時(shí)間目標(biāo)(RTO)的要求,決定了當(dāng)災(zāi)難發(fā)生時(shí),容災(zāi)系統(tǒng)能夠在多大程度上恢復(fù)數(shù)據(jù)以及恢復(fù)的速度有多快。RPO表明用戶可以容忍的數(shù)據(jù)丟失量,RTO則表明在丟失數(shù)據(jù)的情況下,系統(tǒng)可以持續(xù)運(yùn)行多久。
“許多人認(rèn)為,保持業(yè)務(wù)連續(xù)性是企業(yè)IT部門的職責(zé),或者是企業(yè)內(nèi)每個(gè)員工的職責(zé)。這是不正確的。”Burton集團(tuán)公司分析師理查德·瓊斯(Richard Jones)表示,“為了確保災(zāi)難恢復(fù)和業(yè)務(wù)連續(xù)性,企業(yè)必須把相關(guān)的組織機(jī)構(gòu)和人員都納入進(jìn)來(lái)。如果企業(yè)的管理層不介入其中,并身先士卒,那么業(yè)務(wù)連續(xù)性計(jì)劃很容易土崩瓦解?!?/p>
美國(guó)Gartner公司的分析師約翰·莫恩斯(John Morency)表示:“從理論上講,企業(yè)應(yīng)該長(zhǎng)期保留業(yè)務(wù)連續(xù)性工作人員的崗位。但實(shí)際上,負(fù)責(zé)IT業(yè)務(wù)連續(xù)性計(jì)劃的計(jì)劃經(jīng)理通常也會(huì)負(fù)責(zé)執(zhí)行整個(gè)公司的業(yè)務(wù)連續(xù)性計(jì)劃。由IT人員全權(quán)負(fù)責(zé)業(yè)務(wù)連續(xù)性計(jì)劃在某些時(shí)候是可行的,但是有相當(dāng)一部分的業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)業(yè)務(wù)是IT部門不能控制的。此外,負(fù)責(zé)執(zhí)行業(yè)務(wù)連續(xù)性計(jì)劃的人員必須深入了解公司的業(yè)務(wù)運(yùn)營(yíng)情況及流程?!?/p>
企業(yè)如果要實(shí)施長(zhǎng)久的業(yè)務(wù)連續(xù)性計(jì)劃,就應(yīng)該設(shè)立相應(yīng)的專職人員。這些人員直接向企業(yè)的首席執(zhí)行官和董事會(huì)匯報(bào)。如果企業(yè)有首席風(fēng)險(xiǎn)官,那么這些執(zhí)行業(yè)務(wù)連續(xù)性計(jì)劃的專職人員應(yīng)該直接向首席風(fēng)險(xiǎn)官匯報(bào),而不是向IT部門匯報(bào)。
RTO、RPO是衡量標(biāo)準(zhǔn)
如果想設(shè)定切實(shí)可行的RTO和RPO指標(biāo),企業(yè)的業(yè)務(wù)主管以及董事會(huì)的人員必須參與其中。
不同的行業(yè)和企業(yè)對(duì)RTO和RPO指標(biāo)的要求差別很大。
“在制造業(yè)企業(yè)中,數(shù)據(jù)中心停止運(yùn)作三天可能不算是一個(gè)大問(wèn)題,因?yàn)樯a(chǎn)設(shè)備還可以繼續(xù)保持運(yùn)行,并不會(huì)影響生產(chǎn)進(jìn)度。但是三天以后,如果數(shù)據(jù)中心的運(yùn)作仍不能恢復(fù),將給企業(yè)造成損失?!崩聿榈隆き偹古e例說(shuō),“同樣是數(shù)據(jù)中心停止運(yùn)行三天,如果發(fā)生在金融服務(wù)企業(yè)身上,情況則完全不同。對(duì)于證券交易所來(lái)說(shuō),即使是某一個(gè)交易席位發(fā)生問(wèn)題,哪怕只有一分鐘,也可能給公司造成上百萬(wàn)美元的經(jīng)濟(jì)損失?!?/p>
此外,企業(yè)在制定RTO和RPO指標(biāo)時(shí),還必須考慮成本的問(wèn)題。RTO和RPO數(shù)值越小,意味著企業(yè)為之付出的成本越高。理查德·瓊斯舉例說(shuō):“某銀行并沒(méi)有設(shè)定苛刻的RTO和RPO指標(biāo),而是讓出納保留所有的交易憑條。一旦數(shù)據(jù)中心出現(xiàn)停機(jī)等情況,出納可以參照這些交易憑條來(lái)恢復(fù)數(shù)據(jù),以保證業(yè)務(wù)的正常運(yùn)行?!?/p>
企業(yè)的災(zāi)備系統(tǒng)防范的主要是小概率的災(zāi)難性事件??紤]到成本問(wèn)題,企業(yè)如果參照上述銀行的做法,就可以大大節(jié)省為數(shù)據(jù)中心做鏡像所需的花費(fèi)。盡管數(shù)據(jù)鏡像系統(tǒng)可以實(shí)現(xiàn)主數(shù)據(jù)中心與災(zāi)備中心的數(shù)據(jù)同步,充分保證業(yè)務(wù)連續(xù)性,但所需的投入也會(huì)非常高。
約翰·莫恩斯表示:“對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),設(shè)定單一的RPO和RTO指標(biāo)是不切實(shí)際的,因?yàn)槌杀咎摺!蹦壳皹I(yè)界并沒(méi)有關(guān)于RPO和RTO的標(biāo)準(zhǔn)。Gartner公司推薦用戶使用一個(gè)四層級(jí)體系,但這也不是標(biāo)準(zhǔn),只是給出一些指導(dǎo)性的意見。
很多企業(yè)將數(shù)據(jù)恢復(fù)任務(wù)劃分成不同等級(jí)。第一級(jí)和第二級(jí)中包含那些對(duì)企業(yè)營(yíng)收有重要影響的應(yīng)用和系統(tǒng)。這兩級(jí)的恢復(fù)時(shí)間要求在24小時(shí)以內(nèi),數(shù)據(jù)恢復(fù)點(diǎn)通常要求在4個(gè)小時(shí)以內(nèi)甚至更短。有上述要求的企業(yè),更喜歡采用磁盤到磁盤的復(fù)制技術(shù),因?yàn)榇艓У幕謴?fù)速度太慢。
業(yè)務(wù)影響分析
企業(yè)在計(jì)算系統(tǒng)停機(jī)可能帶來(lái)的損失時(shí),首先要進(jìn)行業(yè)務(wù)影響分析,包括硬損失和軟損失兩部分。硬損失很容易計(jì)算出來(lái),比如在正常情況下,企業(yè)一天能夠賺多少錢,如果不生產(chǎn)會(huì)損失多少錢,每天需要支付多少工資以及替換設(shè)備需要多少錢等。
相對(duì)來(lái)說(shuō),比較難計(jì)算的是系統(tǒng)停機(jī)對(duì)業(yè)務(wù)產(chǎn)生的間接影響,比如因?yàn)橄M(fèi)者滿意度降低給企業(yè)造成的損失等。理查德·瓊斯表示:“系統(tǒng)停機(jī)對(duì)業(yè)務(wù)產(chǎn)生的間接影響只是一種估算。企業(yè)還要把這些間接的影響進(jìn)行量化?!?/p>
約翰·莫恩斯認(rèn)為:“要想實(shí)施一個(gè)可行的RPO和RTO策略,定量分析是十分必要的。企業(yè)IT部門常犯的一個(gè)錯(cuò)誤是,向業(yè)務(wù)部門詢問(wèn)需要多長(zhǎng)的備份和恢復(fù)時(shí)間。業(yè)務(wù)部門給出的答案永遠(yuǎn)是需要保證系統(tǒng)不間斷運(yùn)行,或者最多只允許一個(gè)小時(shí)的停機(jī)時(shí)間?!?/p>
四個(gè)恢復(fù)等級(jí)
企業(yè)要根據(jù)業(yè)務(wù)處理、應(yīng)用和數(shù)據(jù)的具體情況確定所需的恢復(fù)等級(jí)。
第一級(jí) 這部分業(yè)務(wù)主要是面向客戶和合作伙伴的業(yè)務(wù),對(duì)公司的營(yíng)收非常重要。因此,這部分業(yè)務(wù)必須保證7×24小時(shí)不間斷運(yùn)行,系統(tǒng)的可用性達(dá)到99.9%(系統(tǒng)每月的停機(jī)時(shí)間少于45分鐘)。RTO為2~8小時(shí),RPO為0小時(shí)。
第二級(jí) 這部分業(yè)務(wù)對(duì)公司營(yíng)收的影響程度相對(duì)較低。因此,系統(tǒng)的可用性只要達(dá)到99.5%(系統(tǒng)每月的停機(jī)時(shí)間少于3.5小時(shí))即可。RTO為8~24小時(shí),RPO為4小時(shí)。
第三級(jí) 企業(yè)的辦公系統(tǒng)可以采用這一恢復(fù)等級(jí),只要保證每周7天、每天18小時(shí)的運(yùn)行即可,系統(tǒng)的可用性達(dá)到99%(系統(tǒng)每月的停機(jī)時(shí)間少于5.5小時(shí))。RTO為1~3天,RPO為1天。
第四級(jí) 部門級(jí)的應(yīng)用可以采用這一恢復(fù)等級(jí),系統(tǒng)的可用性達(dá)98%(系統(tǒng)每月的停機(jī)時(shí)間少于13.5小時(shí))。RTO可以超過(guò)3天,RPO為1天。