Anthony ODonnell
直面就是一種成長。
伴隨颶風(fēng)、海嘯、地震,還有類似9?11事件等天災(zāi)人禍接連不斷的出現(xiàn),保險行業(yè)的BC/DR(業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù))水平也在不斷進(jìn)步。在2008年9月13日Ike颶風(fēng)襲擊美國大陸之前,美國國家保險公司早已在應(yīng)對業(yè)務(wù)中斷方面做好了準(zhǔn)備……
伴隨颶風(fēng)、海嘯、地震等災(zāi)難的不斷發(fā)生,保險公司需要不斷加強(qiáng)業(yè)務(wù)連續(xù)性和容災(zāi)能力,來應(yīng)對不斷變化的外界環(huán)境。
2008年9月13日,Ike颶風(fēng)襲擊美國大陸。為了應(yīng)付颶風(fēng),總部在德克薩斯州加爾維斯敦的美國國家保險公司在Ike颶風(fēng)來襲之前就完成了一次大的遷移——它將部分職員由加爾維斯敦這個沿海城市搬到了圣安東尼的新辦公地點,并加強(qiáng)了公司的業(yè)務(wù)連續(xù)性和容災(zāi)能力,從而減弱颶風(fēng)的影響。
搬遷 防患于未然
“我們已經(jīng)考慮了很長時間,要將一些部門搬離加爾維斯敦這個小島。2007年我們最終選擇了圣安東尼這個地方?!盝.D. Johnson,美國國家保險公司的高級副總裁兼CIO說。2008年6月,圣安東尼這個辦公地點成了美國國家保險公司健康、人身和年金等業(yè)務(wù)呼叫中心的主要辦公地點,而且,它還被選定為公司現(xiàn)有達(dá)拉斯分部的最終替代者,那邊的業(yè)務(wù)主要集中在公司投資和金融領(lǐng)域方面。
“我們現(xiàn)在在圣安東尼有大約80個職員,但辦公樓最多可以容納450人。”Johnson說,“為趕在6月份之前竣工并開始運(yùn)作,我們的確做了很多努力?!?/p>
在這次辦公地點搬遷之前,早在2000年他們就做出決定,將公司的數(shù)據(jù)中心搬到北邊25英里的德克薩斯州League城。這個新辦公地點在2003年開始修建。在2005年9月的Rita颶風(fēng)到達(dá)加爾維斯敦之前一個月,這個數(shù)據(jù)中心開始投入使用?!八喼笔撬囆g(shù)級的建筑,它的設(shè)計可以經(jīng)受5級颶風(fēng)并繼續(xù)運(yùn)行?!盝ohnson介紹說,“當(dāng)然,那時它就成了一座孤島,但是我們有水,有食物,有睡覺的地方,還有柴油發(fā)電機(jī)——幾乎所有東西我們都有備份。”
League城的數(shù)據(jù)中心與圣安東尼和達(dá)拉斯的辦公地點一樣,在Ike颶風(fēng)來襲期間發(fā)揮了重要作用,因為美國國家保險公司總部關(guān)閉的時間顯然要比BC/DR計劃原先制定的時間要長得多。Johnson介紹,這家具有上百年歷史的公司還沒有過總部大樓停工一周的經(jīng)歷。但是這次颶風(fēng)讓加爾維斯敦城市設(shè)施的毀壞程度相當(dāng)嚴(yán)重,人們不得不重新制定更加長遠(yuǎn)的計劃。最終,公司在加爾維斯敦的辦公地點直到10月13日才重新開放,那時,Ike颶風(fēng)都已經(jīng)過去三周多了。
“當(dāng)我們意識到顯然無法在這類事故預(yù)期的時間內(nèi)回到加爾維斯敦的時候,我們就繼續(xù)修建我們的辦公樓?!盝ohnson解釋說,“我們開始加強(qiáng)我們的持續(xù)性計劃,將越來越多的人員安排到League城和圣安東尼的辦公地點上班?!?/p>
“我們的數(shù)據(jù)中心正在按照設(shè)計的步驟有條不紊地運(yùn)行著,維護(hù)人員9月12日都留在大樓里,那天晚上我們連續(xù)工作,保證所有的在線系統(tǒng)在第二天早上都跟往常一樣運(yùn)行?!盝ohnson補(bǔ)充道,“達(dá)拉斯和圣安東尼的部門也都在線,所有的一切都和往常一樣運(yùn)轉(zhuǎn),只是我們上班的職員數(shù)量有所減少而已?!?/p>
資源和功能的取舍
必須在有限的資源內(nèi)制定IT部門的BC/DR計劃??偛吭诩永D醽喼軵alo Alto城,為金融服務(wù)行業(yè)提供服務(wù)的國際調(diào)查公司Celent公司的分析師Donald Light認(rèn)為,考慮到金融危機(jī)的影響,這些限制將尤為嚴(yán)重。Light認(rèn)為,保險公司面臨著有限資源的分配問題,這可能導(dǎo)致在BC/DR計劃方面的投入會被縮減,這其中既包括設(shè)備的投入,又包括評審的頻率。Light宣稱:“保險公司可能認(rèn)為沒有必要每個月、每個季度,甚至是每年評審他們應(yīng)對可能性較小災(zāi)難的計劃。但如果不這么做,這樣的計劃就會變得又陳舊又不合適,完全沒有意義?!?/p>
除了資源問題,保險公司還必須在功能上做出取舍。例如,公司產(chǎn)品數(shù)據(jù)中心和災(zāi)備中心的距離的確定就既要考慮安全性,又要考慮關(guān)鍵人員轉(zhuǎn)移的便捷性。Forrester的分析師Balaouras寫道:“你需要兩個地點足夠遠(yuǎn),以便減輕風(fēng)險,同時也必須考慮各種限制的影響,包括人員安排和網(wǎng)絡(luò)基礎(chǔ)設(shè)施與帶寬等與成本相關(guān)的因素?!?/p>
移動設(shè)備和應(yīng)用程序可以讓職員不受位置的限制,但提供區(qū)域性的通信網(wǎng)絡(luò)依然是有必要的?!霸贙atrina颶風(fēng)來襲的時候,電信網(wǎng)絡(luò)都癱瘓了?!盠ight說道,“在這種情況下,你會意識到?jīng)]有撥號音的電話和不能上網(wǎng)的筆記本電腦都毫無用處?!?/p>
但Light也指出,盡管有著種種問題,移動通信設(shè)施依然是一個“極其重要的資源”,甚至可以說它是很多保險公司賴以生存的工具。他指出,“如果理賠理算人員沒有筆記本電腦,不管他家里的寬帶多么有效,他們都已經(jīng)失去了加強(qiáng)DR能力的機(jī)會?!?/p>
很大程度上是因為理賠業(yè)務(wù),使得保險公司成為采用移動可持續(xù)性應(yīng)用的領(lǐng)先者,但是他們在內(nèi)部的BC能力方面卻很少讓關(guān)鍵工作人員使用移動應(yīng)用,Pyxis Mobile公司的總裁兼CTO Todd Christy表示,該公司總部位于馬薩諸塞州的Waltham,主要為金融服務(wù)業(yè)提供移動應(yīng)用程序。他說:“對于那些已經(jīng)使用黑莓和其他移動設(shè)備的公司而言,無線可持續(xù)性工具可以提高保險公司投資的利用率,讓他們能夠提供更高水平的服務(wù),并且在遭遇中斷時能夠更快地恢復(fù)。”
使用正確的硬件、應(yīng)用程序和接入方式,業(yè)務(wù)中斷可能就會被阻止,而在其他更加嚴(yán)重的災(zāi)難來臨時再啟用新的辦公地點。State Farm公司在2007年冬天就有過這樣的一次經(jīng)歷,當(dāng)時他們在Bloomington的三個分部都因為暴風(fēng)雪而被關(guān)閉了?!拔覀兊奶摂M專用網(wǎng)可以容納24000個連接,這使得人們在家或者其他地方辦公成為可能?!盨tate Farm公司負(fù)責(zé)系統(tǒng)技術(shù)及BC/DR方面事務(wù)的主管Todd Vincent介紹說。
Vincent說,VPN能夠容納的連接數(shù)接近Bloomington三個分部工作人員總數(shù)的2倍。然而,State Farm在全美國范圍內(nèi)的工作人員大約是75000名,人員的分散也保證了公司VPN容量不會承受太大的壓力。Vincent介紹道:“之前最多有大約7000人同時使用,但我們在這方面預(yù)留了足夠的空間?!?/p>
全面審視每一個業(yè)務(wù)環(huán)節(jié)
分散的原則也加強(qiáng)了State Farm的數(shù)據(jù)有效性。該公司策略性地將他們4個主要的產(chǎn)品數(shù)據(jù)中心分別放在了亞特蘭大、達(dá)拉斯、菲尼克斯和伊利諾伊州的Lisle——所有這些地點都分別遠(yuǎn)離那些容易發(fā)生自然災(zāi)難的地方。Vincent說,公司將主站放在總部,通過Bloomington分發(fā),為這4個地方的恢復(fù)中心提供IT服務(wù)。
目前,公司將大多數(shù)數(shù)據(jù)都備份到了磁帶上。但Vincent表示,他們還計劃轉(zhuǎn)為使用數(shù)據(jù)鏡像技術(shù)?!拔覀冋谑褂糜脖P鏡像,能夠每10分鐘刷新一次所有的重要數(shù)據(jù),在Bloomington復(fù)制產(chǎn)品數(shù)據(jù)中心的數(shù)據(jù)?!彼f。盡管現(xiàn)在該公司只是將這項技術(shù)用于大型主機(jī)的數(shù)據(jù),但是他們已經(jīng)有計劃在2009年將這項技術(shù)推廣到所有的系統(tǒng)中。
“這項技術(shù)的意義在于,萬一我們的產(chǎn)品數(shù)據(jù)中心發(fā)生了意外,我們也不會失去數(shù)據(jù),我們無需等待磁帶的傳輸就可以馬上恢復(fù)故障的站點?!盫incent解釋道,“這能夠減少我們的RTO(恢復(fù)時間目標(biāo)),也能夠減少我們的恢復(fù)點目標(biāo)?!?/p>
Vincent承認(rèn),規(guī)模和分散在災(zāi)難響應(yīng)方面也帶來了挑戰(zhàn),但這些挑戰(zhàn)都在公司詳細(xì)的BC/DR計劃中被化解了,這樣的計劃已經(jīng)詳細(xì)到了每一個職員的行為?!霸谡麄€企業(yè)中,我們有大約1700份業(yè)務(wù)連續(xù)性計劃,”他介紹道,“我們使用Strohl Systems公司的實時災(zāi)難恢復(fù)計劃系統(tǒng)按照一定的周期來更新、培訓(xùn)和測試這些計劃?!?/p>
State Farm公司每3年會執(zhí)行一次業(yè)務(wù)影響性分析,每年會執(zhí)行4次測試,其范圍包括前面提到的4個主要產(chǎn)品數(shù)據(jù)中心,以及在加拿大的一些小型數(shù)據(jù)中心。Vicent補(bǔ)充說:“我們用文檔詳細(xì)記錄我們從練習(xí)中學(xué)到的經(jīng)驗,并起草實際計劃來糾正我們遇到的任何問題。我們和硬件與網(wǎng)絡(luò)技術(shù)供應(yīng)商具有良好的關(guān)系,通過我們的測試,我們對真正遭遇災(zāi)難時的行動和反應(yīng)充滿了信心?!?/p>
為了確保在遭遇比暴風(fēng)更嚴(yán)重的災(zāi)難時能夠有正確地行動和反應(yīng),佛羅里達(dá)的Blue Cross and Blue Shield公司(BCBSFL)頻繁地采取了場景計劃。來自公司總部佛羅里達(dá)州負(fù)責(zé)業(yè)務(wù)風(fēng)險解決方案的健康保險主任John Phelps介紹說:“我們的計劃所考慮不只是單獨(dú)環(huán)境因素的影響,我們沒有專門針對洪水、停電或者暴風(fēng)的單獨(dú)計劃,而是非常靈活,能夠應(yīng)付一系列的挑戰(zhàn)范圍?!?/p>
BCBSFL已經(jīng)將BC/DR放在了其企業(yè)風(fēng)險管理項目中,其中業(yè)務(wù)中斷受到公司的風(fēng)險評估委員會的重視。Phelps認(rèn)為:“和其他大部分公司對BC/DR的策略不一樣,這種方式提高了業(yè)務(wù)連續(xù)性的重要性和被重視程度?!?/p>
Phelps認(rèn)為,為客戶考慮是BCBSFL定位BC/DR計劃最重要的因素。“一旦我們認(rèn)定哪個業(yè)務(wù)功能從客戶角度來看是最重要的,我們就知道應(yīng)該首先加強(qiáng)哪個業(yè)務(wù)流程。”他說,“我們認(rèn)為那些功能確實將影響到整個公司,并且建立策略來將恢復(fù)這些流程。
大容量的通信管道
作為一個健康保險公司,BCBSFL面臨的最嚴(yán)峻的挑戰(zhàn)之一就是客戶需要公司處理的交易數(shù)量非常龐大。每天BCBSFL需要處理大約23萬份理賠單,大約涉及4800萬美元。Phelps介紹道:“通信管道的中斷將帶來一系列的問題,我們將無法響應(yīng)客戶需求。”
在公司應(yīng)對這些挑戰(zhàn)的策略中,將客戶關(guān)系管理外包能夠在需要時快速替代。公司還有能力將業(yè)務(wù)轉(zhuǎn)移到佛羅里達(dá)州的其他辦公地點,或者其他州的BCBSFL分部。Phelps表示,去年該公司的遠(yuǎn)程工作能力翻了一番。
公司負(fù)責(zé)IS和恢復(fù)的主管Chris Gay介紹,BCBSFL在其他州有一個與IBM公司合作的主站點。他說:“我們每年做兩次80個小時的深度練習(xí),在那個地方恢復(fù)我們的系統(tǒng)?!?/p>
Gay介紹,公司通過大量使用服務(wù)器虛擬化技術(shù)來加強(qiáng)恢復(fù)能力。“我們在Intel架構(gòu)和Unix中都使用虛擬化技術(shù),”他說,“因此,我們的恢復(fù)涉及的硬件會更少,能夠縮短我們的RTO。”BCBSFL使用Dell MessageOne提供的通信能力,每年進(jìn)行多次季度性演習(xí)。該公司的AlertFind緊急通知和其他增強(qiáng)型工具使得BCBSFL能夠在事故發(fā)生之前、之中和之后方便地聯(lián)系任何職員。它允許BCBSFL向在某特定區(qū)域內(nèi)工作的職員,或者特定部門或團(tuán)隊發(fā)送緊急消息。這個程序能夠循環(huán)查詢不同的聯(lián)系頻道,根據(jù)當(dāng)時的具體情況來確定最后的聯(lián)系方式。公司還使用廠商類似EMS等電子郵件的持續(xù)性服務(wù)系統(tǒng)來備份其內(nèi)部系統(tǒng)信息。BCBSFL的DR計劃使用Coop System公司的myCoop外部主機(jī)工具。
“我們每年都審查這些計劃,”Gay說,“我們盡量讓每一件事情都盡可能自動化,并保證其有效性,以便我們不會單獨(dú)依賴我們基礎(chǔ)設(shè)施的某一些部分來開始我們的恢復(fù)?!?/p>