文|中國電子工程設計院 李洪鵬
災備模式主要有“同城災備”、“異地災備”、“同城/異地災備”三種方式。同城災備,是指災備中心與數據中心處于同一城市內,可同時采用同步備份與異步備份技術。其具有最低的投資成本,最快的災難恢復速度,極高的數據保障,但無法應對區(qū)域性的災難風險。異地災備,是指災備中心與數據中心在不同的城市,一般只能實現異步備份。其投資成本較高,災難恢復速度與數據保障能力略低,但可應付廣泛的災難風險。同城/異地災備則是兩者的結合,投資成本最高,但同時具有前兩者的優(yōu)點。同城/異地模式也分兩種實現方式,一種是先建立同城災備中心,然后異地災備中心實現對同城災備中心的備份;一種是同城災備中心與異地災備中心分別獨立,為數據中心實施備份。
具體選擇何種災備模式,需要綜合考慮所面臨的風險特點、業(yè)務特點、成本投入等多種因素。由于數據中心面臨的重大風險絕大多數都發(fā)生在數據中心范圍內,而同城災備中心在業(yè)務迅速恢復方面具有比較突出的優(yōu)勢,因此同城災備中心的建設是必須的。災備模式的選擇建議如下:
(1)集中式的數據中心采用同城/異地災備模式。由于其業(yè)務系統(tǒng)與數據的影響面廣,由此必須采用最為可靠的災備模式。
(2)分布式的數據中心,可在區(qū)域數據中心建立同城災備,并通過數據總中心的異地災備中心,實現對各分區(qū)數據中心的集中式異地災備。當分區(qū)域數據中心出現嚴重故障時,可通過同城災備中心實現對業(yè)務的迅速接管,而出現區(qū)域性重大災難時,可通過數據總中心的異地災備中心實現分區(qū)域業(yè)務的恢復。這一模式既減少了分區(qū)域自建異地災備中心所需的龐大投資,又能提供全面的災備保護。
災備中心基礎設施建設應重點考慮以下因素:
(1)選址。災難備份中心與數據中心之間距離合理,應避免災難備份中心與數據中心同時遭受同類風險。綜合考慮數據中心與災難備份中心交通和電訊的便利性與多樣性,以及災難備份中心當地的業(yè)務與技術支持能力、電訊資源、地理地質環(huán)境、公共資源與服務配套能力等外部支持條件。
(2)基礎條件。機房環(huán)境要求與主中心相同,各項建筑基礎環(huán)境、供配電環(huán)境、溫濕度空調環(huán)境、消防和監(jiān)控安全環(huán)境等,都應參照數據中心機房環(huán)境設計,至少達到數據中心機房環(huán)境所屬等級要求??紤]到災備恢復情況下額外的外部技術支援,災備中心在工作人員容納方面應作適當考慮,以保證有足夠空間容納一定數量的技術人員集中協同辦公。
(3)建設方式。災備中心的建設方式可采用自建、共建與外包建設等方式,三種方式各有優(yōu)勢,需要結合各類機構的實際情況加以選擇。自建是指機構獨立建設區(qū)域數據中心,此模式具有較高的可靠性與安全性,但投入較大,適用于大型機構。共建是指數家機構共同規(guī)劃投資,建設參與各方共同使用的區(qū)域災備中心。共建模式減少了各方的投資壓力,但需要各方充分協調,有效實現災備中心的建設管理,參與機構不宜過多,適用于中型機構。托管是指將區(qū)域災備中心由專業(yè)的災備服務商建設管理,機構向其租用災備物理環(huán)境,實現數據與系統(tǒng)的區(qū)域災備體系建設,此模式充分利用了災備服務專業(yè)化的優(yōu)勢,在最大限度減少建設投資的同時,為信息系統(tǒng)提供可靠保護,適用于中小型機構。
數據中心與災備中心應建立網絡熱備份體系,當數據中心無法正常工作時,業(yè)務數據流可自動切換到災備中心,保證災備中心的備份業(yè)務系統(tǒng)順利接管業(yè)務數據。目前網絡熱備份技術已經比較成熟,可利用多種動態(tài)路由協議實現。網絡備份規(guī)劃要點如下:
(1)建立核心網絡熱備體系。數據中心是面向某個區(qū)域的龐大數據處理節(jié)點,必須在核心網絡層面實現熱備,才能保證災備中心對區(qū)域內通信的可靠性。同時,前述災備中心的選址要求,決定了數據中心與災備中心之間必須建立廣域網互聯,因此在廣域網層面實現線路熱備顯得尤為必要。
(2)災備中心網絡容量。應與數據中心網絡容量基本一致,網絡應采用一致的技術標準。災備中心與數據中心同步傳輸的鏈路,其帶寬必須大于數據中心的峰值數據變化量;因此,同城災備網絡、應災備中心與數據中心之間應建立光纖網絡。
(3)災備網絡應與數據中心網絡采用不同運營災備中心,對外的通信線路應采用與數據中心不同的運營商,降低風險關聯。而數據中心與災備中心之間同樣需要建立兩條不同運營商通信線路,以捆綁技術建立兩地路由器互聯,從而提高兩地之間通信的可靠性,確保熱備功能的有效性。
(4)盡量建立數據中心網絡與災備中心網絡的負載均衡,有利于提高災備網絡利用率與提高災備網絡可用性。災備中心網絡基本是數據中心網絡的復制,目前網絡熱備份技術主要有兩種模式。一種是主/備模式,數據流正常情況下使用數據中心生產網絡,當數據中心生產網絡出現故障時,才使用災備中心網絡。這一模式實現簡單,但災備網絡日常并不使用,既造成資源浪費,也不利于提高災備網絡的可用性。另一種是負載均衡模式,正常情況下數據流同時使用兩個中心的網絡,數據中心網絡出現故障時,則全部數據流向災備網絡。后者的實現技術比較復雜,需要專用負載均衡設備支持,但可以充分利用網絡資源,也可以在日常使用中驗證災備網絡的可用性,建議盡可能采用此模式。
(1)備份介質
目前,主流的備份介質包括磁帶庫、虛擬帶庫與磁盤陣列。虛擬帶庫是將低性能磁盤組模擬成磁帶方式進行讀寫存儲的備份介質,它既保留了磁帶順序寫入在數據備份過程中特有的高性能,又可避免磁帶受外環(huán)境破壞,不宜多次讀寫的缺點,有利于數據保存與對備份數據的恢復驗證。但虛擬帶庫與磁帶庫同樣存在讀取效率低的缺陷,只適用于數量龐大而RTO要求較低的數據備份環(huán)境。磁盤陣列則是以普通硬盤讀寫的方式,對數據進行備份的介質。磁盤陣列一般由具備高性能磁盤所組成,并通過高容量緩存與I/O負載均衡技術提高數據讀寫效率,適用于RTO性能要求較高的數據備份環(huán)境。
(2)備份傳輸
◆ 數據備份傳輸的技術選擇:數據備份復制方式主要有快照技術、異步復制、同步復制(如表1所示)。數據復制方式的選擇主要取決于災備需求分析中業(yè)務系統(tǒng)對RPO的要求;
◆ 數據備份傳輸的實現:目前,數據中心普遍建立了集中存儲系統(tǒng),因此存在存儲傳輸網絡與業(yè)務傳輸網絡兩套專用網絡,從而派生出數據備份傳輸技術的三種實現方案:主機代理模式、存儲陣列模式與代理模式。三種模式的選擇主要取決于災備恢復需求與可用于災備建設的資源投入。從目前情況看,CDP方式是適用面較廣的數據備份傳輸實現方式,比較情況如表2所示。
表1 數據備份復制主要方式之比較
應用環(huán)境備份的目的是確保災備中心能夠快速重建數據中心應用系統(tǒng)環(huán)境,并實現備份業(yè)務系統(tǒng)對工作系統(tǒng)有效替代。對應用環(huán)境備份的設計要點包括:
(1)通過配置同步技術,實現數據中心應用環(huán)境的一致性。災備中心的應用環(huán)境在技術路線、設備部署方面應盡量保證與數據中心應用環(huán)境一致。這樣有利于提高災備應用環(huán)境與生產應用環(huán)境之間手工切換的效率,也有利于日常檢驗災備應用環(huán)境的可用性。
一般可通過災備應用環(huán)境定期向生產應用環(huán)境讀取配置文件、參數等方式,實現兩者配置的同步。
(2)災備中心關鍵型業(yè)務系統(tǒng)實現集群間自動切換,其余業(yè)務系統(tǒng)則采用手工切換模式。數據中心應用服務器一般通過HA等技術建立高可用性集群,保證本地應用服務的高可靠性。同樣,只要建立數據中心與災備中心之間的高可用性網絡監(jiān)控技術,災備中心備份應用服務器集群可實現與數據中心生產服務器集群之間的高可用性自動切換。為節(jié)約成本投入,建議對關鍵性業(yè)務系統(tǒng)采用此方式,以滿足RTO一小時以內的災備恢復需求。對于其余業(yè)務系統(tǒng),只要如前所述,保證應用環(huán)境一致性,通過手工方式進行切換即可。
表2 數據備份傳輸三種模式之比較
(3)采用虛擬化技術對備份環(huán)境進行整合。災備中心應用環(huán)境備份資源畢竟有限,充分利用備份應用資源對數據中心應用環(huán)境保護十分重要。虛擬化技術可實現一臺物理應用服務器對多臺邏輯服務器的虛擬。這樣在數據中心里,大量性能要求不苛刻、RTO要求在數小時以上的應用系統(tǒng)災備環(huán)境就可以集中部署在少數的硬件服務器資源中,有利于災備中心盡可能提高對數據中心應用系統(tǒng)的災備范圍。
(1)災備系統(tǒng)對原有業(yè)務系統(tǒng)的影響:在制定災備系統(tǒng)方案的過程中要考慮的就是災備系統(tǒng)建設對原有業(yè)務系統(tǒng)帶來的影響。比如,采用數據復制技術對系統(tǒng)I/O帶來的延遲,應用數據同步對日常業(yè)務處理系統(tǒng)帶來的壓力等。因此,要通過周密的測試和分析來規(guī)避災備系統(tǒng)建設時帶來的這些風險,以保證業(yè)務系統(tǒng)不會因災備系統(tǒng)的建設而出現處理性能下降的問題。
(2)數據狀態(tài)要保持同步:為保證在災難發(fā)生時,業(yè)務可以成功地切換到備份中心,就必須保證災備系統(tǒng)數據同步機制的可靠性。因此,建立可靠的數據同步校驗機制是必須的。同時,還要考慮建立定時的、自動的數據同步核查對比機制,以檢驗兩個中心數據的一致性,這是數據災備工作中非常重要的一部分。
(3)災備系統(tǒng)的日常維護工作要盡可能輕,并能承擔部分業(yè)務處理和測試的工作。災備系統(tǒng)的維護和管理是災備切換成功的重要保證,在系統(tǒng)建設中,就必須要考慮系統(tǒng)的維護管理流程。數據中心任何業(yè)務處理過程的改變都必須完整地復制到備份中心;所有新業(yè)務系統(tǒng)上線時,必須通知備份中心,并在備份中心配置好數據同步機制;對原程序的改動也必須保證兩個中心同時上線。
(4)系統(tǒng)恢復時間要盡可能短:災備系統(tǒng)主要是為了實現在主中心系統(tǒng)發(fā)生災難時,可以在規(guī)定時間切換到備份中心,保證數據不會丟失,并且繼續(xù)向用戶提供服務。但往往在災難發(fā)生時,主要技術人員不能及時到達現場,為了順利實現系統(tǒng)間的切換,應該讓系統(tǒng)切換操作盡可能地簡單,并建立固定化的、標準化的切換流程,要求維護人員在切換演習時嚴格按照流程的指導步驟進行操作。
(5)可實現部分業(yè)務子系統(tǒng)的切換和回切:當人事變動、業(yè)務變化、IT設施變化以及其他可能引起恢復規(guī)劃文檔失效的變化發(fā)生時,應及時更新各恢復規(guī)劃文檔,并在必要時啟動模擬測試或演習,確保業(yè)務連續(xù)性系統(tǒng)的工作能力。
(6)技術方案選擇要遵循成熟穩(wěn)定、高可靠性、可擴展性、透明性的原則:目前,國際上比較成熟的災備技術包括: SAN/NAS技術、遠程鏡像技術、虛擬存儲、基于IP的SAN互連技術以及快照技術等。其中基于IP的SAN遠程數據災備備份技術應用比較廣泛,其利用基于IP的SAN的互連協議,將主數據中心SAN中的信息通過現有的TCP/IP網絡,遠程復制到備份中心的SAN中的。當備份中心存儲的數據量過大時,可利用快照技術將其備份到磁帶庫或光盤庫。這種基于IP的SAN遠程災備,可以跨越LAN、MAN和WAN,成本低、可擴展性好。基于IP的互連協議主要包括FCIP、iFCP、InfiniBand、iSCSI等。
(7)構建系統(tǒng)方案可以選擇多種技術組合方式:目前,業(yè)內應用較多的災備方案是基于智能存儲系統(tǒng)的遠程數據復制技術,它是由智能存儲系統(tǒng)自身實現的數據遠程復制和同步,即智能存儲系統(tǒng)將對該系統(tǒng)中的存儲器I/O操作請求復制到遠端的存儲系統(tǒng)中并執(zhí)行。由于在這種方式下,數據復制軟件運行在存儲系統(tǒng)內,因此較容易實現主中心和災備中心的操作系統(tǒng)、數據庫、系統(tǒng)庫和目錄的實時拷貝及維護能力,且不會影響主中心主機系統(tǒng)的性能。如果在系統(tǒng)恢復上具備了實時數據,那么就可以做到在災難發(fā)生時,及時開始應用處理過程的恢復。但這種方案也有開放性差,對于主、備中心之間的網絡條件要求較苛刻等缺點。
(1)災備系統(tǒng)是整個數據中心建設的有機組成部分,應當和數據中心的規(guī)劃建設同步進行。
(2)災難備份的最終目標是保證應用系統(tǒng)的連續(xù)性,系統(tǒng)建設時要全面考慮數據中心的業(yè)務特點、服務的類型、服務的方式、服務的法律義務等多方面的要求。
(3)成本和效益平衡的原則。在分析數據安全和業(yè)務連續(xù)性需求的基礎上平衡成本和風險,對風險的概率、風險的影響、風險造成的損失、災難恢復系統(tǒng)的建設成本及運行維護成本等方面進行綜合考慮,統(tǒng)籌規(guī)劃,分步實施,防止不顧實際需求,一哄而上。
(4)按照災難恢復的等級要求選擇適當的系統(tǒng)和數據的備份及恢復技術。
(5)重視基礎建設?;A性設施具有長期穩(wěn)定不易更改的特點,打好基礎避免重復建設。
(6)要充分利用現有資源,盡量做到資源共享,互為備份。
(7)根據數據中心安全要求的不同,從實際出發(fā)進行等級化管理。備份的數據也要考慮相應的安全保管,涉密數據的備份應加密處理。
總之,災備系統(tǒng)的建設要根據業(yè)務實時性的要求不同,針對不同業(yè)務采用不同的備份與恢復方式,以減少投入。備份的目的是提高服務質量,創(chuàng)造更多的利潤,因此不管采用什么備份方案,關鍵是在投入與效益間找到最佳平衡點。參考文獻
1 林小村主編.《數據中心建設與運行管理》.科學出版社.2010年4月
2 劉洪發(fā),唐宏編著.網絡存儲與災難恢復技術.電子工業(yè)出版社.2008年