王浩銘,穆道生
(裝備學院 北京 101416)
容災備份[4]指預判災難產(chǎn)生和降低災難損害程度的準備工作。是利用技術(shù)手段、管理方法和軟硬件資源保證系統(tǒng)中的關(guān)鍵數(shù)據(jù)、核心數(shù)據(jù)處理系統(tǒng)和重要業(yè)務在災難發(fā)生后可以迅速恢復的過程,達到保障業(yè)務連續(xù),將損失降到最低的目的。
保證數(shù)據(jù)完整性和業(yè)務的連續(xù)性是容災系統(tǒng)中最核心的部分。一個絕對完整的容災系統(tǒng)如圖1應該由本地生產(chǎn)系統(tǒng)、本地備用生產(chǎn)系統(tǒng)、生產(chǎn)數(shù)據(jù)中心、本地備份數(shù)據(jù)中心、異地應用系統(tǒng)和異地數(shù)據(jù)中心組成。高可用系統(tǒng)由本地生產(chǎn)系統(tǒng)、本地備用生產(chǎn)系統(tǒng)和生產(chǎn)數(shù)據(jù)中心組成。
圖1 容災備份系統(tǒng)Fig.1 Disaster recovery system
本地容災中心由本地高可靠系統(tǒng)和本地數(shù)據(jù)中心組成,是解決本地硬件損壞等災難的有效手段,但是對大型自然災害卻無能為力;異地備份系統(tǒng)由異地應用系統(tǒng)異地數(shù)據(jù)中心組成;使用本地高可靠系統(tǒng)、本地備用數(shù)據(jù)中心、異地應用系統(tǒng)可以組建異地應用容災系統(tǒng),而根據(jù)預防災難的傷毀范圍可以確定本地生產(chǎn)系統(tǒng)和異地備份系統(tǒng)的距離。
在設計災備系統(tǒng)時,容災要達到什么樣的目標與層次,就需要用某些定量的指標[5]來衡量。公認指標有RTO、RPO、NRO和DOO。
RPO(Recovery Point Objective):數(shù)據(jù)恢復點目標,指業(yè)務系統(tǒng)所能容忍的數(shù)據(jù)丟失量,針對數(shù)據(jù)丟失。RTO(Recovery Time Objective):恢復時間目標,指從災難發(fā)生到業(yè)務系統(tǒng)恢復服務功能所需要的最短時間,針對服務丟失。系統(tǒng)對二者要求越小,服務效果越好,所需投入越高。NRO(Network Recovery Object):網(wǎng)絡恢復目標,指災難發(fā)生后網(wǎng)絡切換需要的時間。 DOO(Degrade Operation Object):降級運作目標,指本次恢復完成到下一次故障或災難發(fā)生的時間間隔。
容災系統(tǒng)的關(guān)鍵技術(shù)有數(shù)據(jù)備份、異地容災技術(shù)、數(shù)據(jù)復制、災難檢測、系統(tǒng)遷移和系統(tǒng)恢復[6],是IT技術(shù)與管理學結(jié)合的應用。
1)數(shù)據(jù)備份
周國平:一個靈魂已經(jīng)覺醒的人,不會再嘲笑和傷害別人,因為你知道,其實別人只是附在另一軀體上的最敏感的你。
數(shù)據(jù)備份是指為防止系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導致數(shù)據(jù)丟失,而將主系統(tǒng)的數(shù)據(jù)復制到備用系統(tǒng)存儲介質(zhì)的過程,是容災的基石。如表1,按照備份環(huán)境分為主機備份、網(wǎng)絡備份和專有存儲網(wǎng)絡備份,他們的容災等級依次增強;按照應用技術(shù)分為DAS(直接附加存儲)、NAS(網(wǎng)絡附加存儲)、SAN(存儲區(qū)域網(wǎng)絡)和IP存儲網(wǎng)絡;按照備份方式分為基于存儲備份、基于操作系統(tǒng)備份、基于應用軟件備份和磁盤備份。
表1 數(shù)據(jù)備份方法Tab.1 Method of data backup
2)異地容災
異地容災技術(shù)主要包括遠程鏡像復制、快照技術(shù)、互聯(lián)技術(shù)、虛擬存儲技術(shù)。遠程鏡像已經(jīng)成為目前容災備份方法的核心部分,是在多個磁盤系統(tǒng)上產(chǎn)生同一個鏡像視圖的存儲過程,也是實現(xiàn)本地與異地系統(tǒng)數(shù)據(jù)同步和災難恢復的基礎;快照技術(shù)是存儲設備中數(shù)據(jù)時間節(jié)點的指針,通常和鏡像技術(shù)結(jié)合用于遠程備份;互聯(lián)技術(shù)指的是基于IP的SAN遠程容災備份,節(jié)約成本且可擴展;虛擬存儲技術(shù)允許異質(zhì)系統(tǒng)和應用程序共享存儲設備。
3)數(shù)據(jù)復制
數(shù)據(jù)復制是指生產(chǎn)系將數(shù)據(jù)不斷地復制到備用系統(tǒng)中,強調(diào)過程的連續(xù)性。一般分為同步數(shù)據(jù)復制和異步數(shù)據(jù)復制。同步數(shù)據(jù)復制是通過將本地生產(chǎn)數(shù)據(jù)以完全同步的方式復制到異地,由于每一次數(shù)據(jù)交換都要等待遠程復制結(jié)束,故可以做到零數(shù)據(jù)丟失,缺點是是對系統(tǒng)性能影響較大;異步數(shù)據(jù)復制是將本地生產(chǎn)數(shù)據(jù)以后臺同步的方式復制到異地,數(shù)據(jù)交換無需等待遠程復制結(jié)束,缺點是一旦發(fā)生災難會造成少量數(shù)據(jù)丟失,優(yōu)點是對系統(tǒng)性能影響較小。
4)災難檢測
災難檢測反應系統(tǒng)自身未雨綢繆的主動性而不是災難發(fā)生后的“亡羊補牢”,目前主要災難檢測方法有心跳技術(shù)和檢查點技術(shù)。心跳技術(shù)是系統(tǒng)各個重要節(jié)點每隔一段時間都要向外廣播自身的狀態(tài),如果周期內(nèi)節(jié)點廣播消失則證明此節(jié)點失效。檢查點技術(shù)為主動檢測手段,是每隔一段時間會對系統(tǒng)重要節(jié)點進行檢測,若周期內(nèi)被檢測節(jié)點沒有響應,則認為檢測節(jié)點失效。兩種方法都存在周期問題,如果周期太頻繁,會影響系統(tǒng)性能,占用系統(tǒng)資源;如果間隔時間過長,檢測不靈敏,增加容災難度和任務量。
5)系統(tǒng)遷移
系統(tǒng)遷移技術(shù)是保證災難發(fā)生時實現(xiàn)系統(tǒng)透明的遷移,利用備用系統(tǒng)透明的代替生產(chǎn)系統(tǒng),以保證業(yè)務連續(xù)性。系統(tǒng)遷移技術(shù)主要分為基于DNS的遷移、基于IP重定向遷移和基于集群的遷移?;贒NS遷移技術(shù)利用動態(tài)域名解析系統(tǒng)完成業(yè)務遷移,實時性較差;基于IP重定向遷移技術(shù)利用重定向設備實現(xiàn)容災自動切換,智能性較高;基于集群遷移技術(shù)指集群中任意節(jié)點出現(xiàn)故障,這個節(jié)點服務器的業(yè)務將由另一臺服務器承擔,保證業(yè)務連續(xù)性,且成本較低。
6)系統(tǒng)恢復
系統(tǒng)恢復指在發(fā)生災難事故時,能利用已備份的數(shù)據(jù)或者其他手段,及時開展恢復本地生產(chǎn)工作,保證數(shù)據(jù)安全和業(yè)務連續(xù)性。系統(tǒng)恢復需要按照容災計劃和策略,可以利用本地或者異地的備份數(shù)據(jù)進行系統(tǒng)恢復,也可以通過本地或者異地備份系統(tǒng)及時接管業(yè)務,體現(xiàn)IT技術(shù)與管理學的融合。
一般企業(yè)級局域網(wǎng)可以實現(xiàn)在區(qū)域內(nèi)資源共享、信息交流和協(xié)同工作的功能。具有如下特點:1)網(wǎng)絡分布相對集中,方便統(tǒng)一管理,接入網(wǎng)絡設備架設在中心位置,減小線路成本;2)應用系統(tǒng)復雜,各個部門信息系統(tǒng)互不兼容。通常有業(yè)務處理系統(tǒng),數(shù)據(jù)信息系統(tǒng),一卡通信息系統(tǒng)和財務系統(tǒng)等;3)為了避免網(wǎng)絡攻擊、自然災害和系統(tǒng)故障等造成損失,對安全性要求較高。4)受企業(yè)規(guī)模影響,資金投入能力有限。針對以上特點,通??梢圆捎萌缦?種方案:
1)基于磁盤陣列數(shù)據(jù)同步容災方案
根據(jù)局域網(wǎng)各個服務器分布特點,可以構(gòu)建兩個網(wǎng)絡中心或者多個數(shù)據(jù)中心,按照互為備份原則進行部署,如結(jié)構(gòu)圖2所示,達到所有數(shù)據(jù)異地備份的目的。此方案利用磁盤陣列作為中心存儲完成復制工作,結(jié)合遠程鏡像技術(shù)和快照技術(shù)實現(xiàn)數(shù)據(jù)中心異地互備份,保證數(shù)據(jù)同步一致性。優(yōu)點是磁盤陣列可以保障大量數(shù)據(jù)復制的質(zhì)量和性能,對于主機應用而言完全透明;缺點是復制數(shù)據(jù)較大,對鏈路帶寬要求較高,整體投資較高。
圖2 基于磁盤陣列數(shù)據(jù)同步容災方案Fig.2 Disaster recovery scheme of data synchronization based on disk array
2)基于軟件數(shù)據(jù)同步方案
如結(jié)構(gòu)圖3,由于不同應用系統(tǒng)兼容性差的原,因需在每個服務器的操作系統(tǒng)安裝兼容性強的鏡像同步軟件,實現(xiàn)遠程數(shù)據(jù)同步,使數(shù)據(jù)同時存儲于本地和異地的磁盤設備上。異地磁盤陣列保存鏡像數(shù)據(jù),實現(xiàn)異地備份。此方案借助操作系統(tǒng)鏡像軟件的兼容性,使本地邏輯卷與異地邏輯卷數(shù)據(jù)同步,在災難情況下可以方便備份服務器激活相應邏輯卷,保證業(yè)務連續(xù)性,且成本較少。
圖3 基于軟件數(shù)據(jù)同步方案Fig.3 Disaster recovery scheme of data synchronization based on software
3)定期自動備份
如結(jié)構(gòu)圖4,部分數(shù)據(jù)由于不是業(yè)務的核心內(nèi)容,只需要在系統(tǒng)空閑時定期備份到異地磁盤陣列中就可滿足其容災需求。
圖4 定期自動備份方案Fig.4 Scheme of regular automatic backup
而最優(yōu)化的方案則是在局域網(wǎng)中根據(jù)具體情況和不同部門要求采取不同的容災方案。有些部門信息重要但是并不經(jīng)常更新,例如人事信息等,可以采用定期自動備份方案;一些科研數(shù)據(jù)、郵件系統(tǒng)數(shù)據(jù)更新較快但是沒有達到金融數(shù)據(jù)要求的速度和安全性,不必實時更新,可以采用軟件數(shù)據(jù)同步方案;重要業(yè)務部門數(shù)據(jù)更新頻率很快,實時性要求極高,適用于基于磁盤陣列數(shù)據(jù)同步方案,滿足高可靠高性能需求。另外在網(wǎng)絡建設上,不必完全架設專用備份網(wǎng)絡,采用現(xiàn)有IP網(wǎng)絡分時復用策略,在減少不必要投入的情況下,充分利用資源,達到容災要求。
容災系統(tǒng)是信息系統(tǒng)數(shù)據(jù)和業(yè)務安全的重要保障,在信息結(jié)構(gòu)日益復雜的環(huán)境下,確保網(wǎng)絡業(yè)務連續(xù)性,應該進一步對容災備份技術(shù)深入研究,生產(chǎn)出自主研發(fā)、成本可控并能結(jié)合局域網(wǎng)自身特點的容災產(chǎn)品,保證在自然災害、網(wǎng)絡攻擊等災難發(fā)生后,數(shù)據(jù)不丟失,系統(tǒng)能盡快恢復運行,起到對系統(tǒng)數(shù)據(jù)和應用的保護作用,做到“有備無患”。
[1]Kurose,James F,Ross K W.Computer networking[C].Pearson Education,2012.
[2]Chivers I D,Sleightholme J.Compiler support for the Fortran 2003 and 2008 standards[C]//ACM SIGPLAN Fortran Forum.2009,28(2):15.
[3]Atkin C P.Computer system with transparent data migration between storage volumes:U.S.Patent 6,145,066[P].2000-11-7.
[4]Schmidt K.High availability and disaster recovery:concepts,design,implementation[M].Springer Publishing Company,Incorporated,2010.
[5]Keeton K,Santos C A,Beyer D,et al.Designing for Disasters[C]//FAST,2004:59-62.
[6]Yang Y X,Yao W B,Chen Z.Review of disaster backup and recovery technology of information system [J].Journal of Beijing University of Posts and Telecommunications,2010,33(2):1-6.