【摘要】企業(yè)信息系統(tǒng)是現(xiàn)代企業(yè)運營的基礎平臺,數(shù)據(jù)則是關系到客戶和企業(yè)利益的核心資源,業(yè)務連續(xù)性和數(shù)據(jù)可用性是關系到企業(yè)生存的重要問題,建立容災系統(tǒng)能使企業(yè)在遭遇意外災難時,保障業(yè)務的連續(xù)性,最大程度地降低損失。本文通過對虛擬化技術的分析論述了服務器虛擬化的應用以及IBM公司的ERM鏡像系統(tǒng)實現(xiàn)在線備份的過程及實施步驟,分析了VMware SRM在容災備份中的特點和優(yōu)勢進而實現(xiàn)信息系統(tǒng)應用業(yè)務的連續(xù)性,可靠性。
【關鍵詞】服務器虛擬化;災難備份;異地容災
1.虛擬化概述
1.1 概述
隨著IT技術的快速發(fā)展和應用的挑戰(zhàn),電廠信息化正處轉(zhuǎn)型階段,對于電廠信息化能力也提出了更高的要求,特別是虛擬化、物聯(lián)網(wǎng)、云計算等新興技術被紛紛引入信息化建設,為新一代的信息系統(tǒng)提供更加穩(wěn)定、完善、高效的技術支撐。
虛擬化技術一直被視為企業(yè)邁向云計算的第一步,是云計算的技術的基石。嚴格來講,虛擬化是一門應用很廣泛的技術,是將實體進行邏輯抽取轉(zhuǎn)化成為抽象體的一個過程,借助虛擬化技術能實現(xiàn)對物理層狀態(tài)復雜性的屏蔽,使系統(tǒng)對外運行狀態(tài)呈現(xiàn)出簡單的邏輯狀態(tài);是增加資源利用和提高資源效率的最強大工具之一,同時使企業(yè)能夠更好地從戰(zhàn)略角度發(fā)展云計算模式。它最大的特點不僅可以提高業(yè)務連續(xù)性和數(shù)據(jù)安全性,還可以對業(yè)務集中管理,提高數(shù)據(jù)中心和桌面環(huán)境的管理效率,使工作負載變得易于部署,使各應用獨立開來,提高配置管理,縮短甚至消除計劃和非計劃的停機時間,增強業(yè)務的連續(xù)性,減少錯誤發(fā)生并使信息系統(tǒng)獲得更低的消耗以及更低的風險。
虛擬化正在迅速成為管理高效IT環(huán)境的標準方式,它不但改寫了計算規(guī)則,又對存儲和網(wǎng)絡的變革起了推動作用。
1.2 我廠虛擬化應用現(xiàn)狀
第一階段,實現(xiàn)服務器虛擬化。采用服務器虛擬化技術將信息中心分別運行在十幾臺服務器的應用系統(tǒng)遷移至由2臺IBM高性能服務器及一臺IBM存儲柜搭建的服務器平臺中,管理人員只要事先做好快照和虛擬機的部署模板,在服務器宕機時,只需恢復快照和重新部署一次模板即可,服務器的使用效率和靈活性大大提高,運維和管理也非常方便。
第二階段,實現(xiàn)災難備份,行政樓配置有4臺物理服務器跑著40個虛擬機,2臺IBM B24光纖通道交換機,1臺IBM DS5020替換原IBM DS 3400。信息中心機房的DS5020通過IBM遠程磁盤鏡像復制技術ERM,將數(shù)據(jù)鏡像復制到生產(chǎn)樓災備機房的DS5020,在兩套磁盤存儲設備間建立磁盤鏡像復制關系從而實現(xiàn)高可用性,保證關鍵數(shù)據(jù)的可恢復性與業(yè)務應用的可持續(xù)性。
第三階段,實現(xiàn)異地容災。采用VMware vCenter SRM(Site Recovery Manager—站點恢復管理)軟件實現(xiàn)異地容災。SRM是VMWARE的一個軟件包,它同VMWARE虛擬化架構無縫連接,其功能為在主站出現(xiàn)災難環(huán)境后能在異地的從站迅速恢復主站災難前運行的虛擬架構,恢復受保護的虛擬機,立即恢復運行,保證業(yè)務的連續(xù)性。
2.虛擬化階段實施過程
2.1 實現(xiàn)災難備份
2.1.1 概述
第一階段以資源整合和節(jié)約成本為目的,通過對邊緣應用及非核心應用進行虛擬化,是將虛擬化技術引入信息系統(tǒng)的第一步,同時對虛擬化平臺進行實際驗證也幫助我們熟悉虛擬化平臺的運維管理,為進一步擴大虛擬化平臺范圍打下基礎。具體實施過程通過服務器虛擬化的實施將數(shù)據(jù)庫、中間件分開,每個應用都擁有一個相對獨立的運行環(huán)境,軟件之間不會相互影響,從而保證了所有應用的穩(wěn)定性和安全性。
隨著第一階段完成服務器虛擬化部署,第二階段將部分業(yè)務應用改造并部署到虛擬化平臺上,實施災難備份系統(tǒng)。
虛擬化技術為災難異地備份的發(fā)展起到了很大的作用。在災難備份系統(tǒng)建設中虛擬化軟件的優(yōu)勢是十分明顯的。通過允許虛擬機在物理服務器之間進行無縫遷移,在災難發(fā)生時能使業(yè)務保持連續(xù),提供關鍵性的災難恢復計劃。
我們采用智能存儲設備IBM DS 5020實現(xiàn)硬件級別的數(shù)據(jù)復制,自帶數(shù)據(jù)復制技術Enhancement Remote Mirror(簡稱ERM),無需占用主機設備的系統(tǒng)資源。生產(chǎn)中心和備份中心的存儲設備的硬件平臺都是DS 5020磁盤存儲系統(tǒng)。另外,基于數(shù)據(jù)復制系統(tǒng)在搭建數(shù)據(jù)鏈路時,采用了基于FC 的光纖裸鏈路,其數(shù)據(jù)的傳輸性能可以得到保證,提供了最可靠、最經(jīng)濟高效并且最簡單的災難保護。
2.1.2 容災備份目標:
保證我廠關鍵信息應用系統(tǒng)在最接近的時間內(nèi),復制到遠端生產(chǎn)樓的備份設備,防止因災害發(fā)生引起重要數(shù)據(jù)的丟失。
采用IBM DS5020 兩個陣列在VMware應用環(huán)境下,實現(xiàn)異地存儲備份。
通過關于關鍵信息應用系統(tǒng)的遠程存儲備份,實現(xiàn)在信息中心主機不能正常運行情況下,生產(chǎn)樓的遠程備份接替關鍵應用系統(tǒng)的工作。
2.1.3 我廠容災備份方案特點:
(1)對物理主機及虛擬機的完整保護:與VMware vSphere完全集成 實現(xiàn)7×24小時備份及可用性;
(2)集成VMware vSphere提供持續(xù)可用性:
a.通過最新的完整備份,從虛擬機恢復系統(tǒng)及服務
b.三個簡單步驟:10分鐘完成物理主機到虛擬機(P2V)轉(zhuǎn)換,可實現(xiàn)在線P2V轉(zhuǎn)換,立即啟動備份服務器
(3)直接升級到遠程容災機制:
a.直接將完整VMware系統(tǒng)及數(shù)據(jù)復制到災備中心,有效利用硬件資源
b.利用IBM DS5020存儲的數(shù)據(jù)復制技術Enhancement Remote Mirror(簡稱ERM)技術實現(xiàn)存儲級別的硬件級數(shù)據(jù)傳輸
c.利用VMware SRM快速實現(xiàn)站點間的切換
圖1 災難備份拓撲結(jié)構圖
2.1.4 災難備份實施
IBM DS 5020存儲系統(tǒng)支持實現(xiàn)跨越兩個站點的DS 5020 存儲系統(tǒng)之間,進行數(shù)據(jù)復制的能力,包括同步拷貝、異步拷貝與異步一致性組拷貝功能。這種功能稱之為Enhanced Remote Mirror(ERM)。
實施過程中,我們通過ERM增強的遠程磁盤鏡像復制技術---Metro Mirror(同步的鏡像模式),在兩套IBM System Storage DS5020磁盤設備間建立數(shù)據(jù)復制關系。對于主機來講,活動狀態(tài)的存儲設備只有一臺。這臺存儲設備使用硬件復制技術和備份磁盤之間進行數(shù)據(jù)復制,保持兩個存儲設備上的數(shù)據(jù)一致。
存儲系統(tǒng)的數(shù)據(jù)復制對于主機來說是透明的,其自身的優(yōu)點是,由于它是基于存儲設備來實現(xiàn)整個系統(tǒng)的數(shù)據(jù)復制,因此,它對主機系統(tǒng)的資源沒有消耗,可以保證相關主機上的應用高性能運行;另外,基于數(shù)據(jù)復制系統(tǒng)在搭建數(shù)據(jù)鏈路時,我們采用了基于FC的光纖裸鏈路,不管是采用同步或異步的傳輸方式,其數(shù)據(jù)的傳輸性能可以得到保證。同時,每個DS 5020存儲系統(tǒng)的控制器需要使用專用的,即每個控制器最后一個主機端口用于遠程拷貝連接。同時還規(guī)劃了相應的Zone。就用于ERM連接的Zone而言,本地DS 5020存儲系統(tǒng)的控制器A 要與遠端DS 5020存儲系統(tǒng)的控制器A 劃成一個Zone,本地 DS 5020存儲系統(tǒng)的控制器B要與遠端DS5020存儲系統(tǒng)的控制器B劃成一個Zone。
在具體實施過程中,為保證數(shù)據(jù)的安全、可靠,我們將行政樓IBM DS 5020中的數(shù)據(jù)備份到生產(chǎn)樓的DS 5020中。由于兩樓之間距離約300米并配有光纖連接,在選擇IBM的ERM備份軟件的工作模式時選用同步鏡像工作模式,這樣兩臺DS 5020中的數(shù)據(jù)保持同步一致。同樣的數(shù)據(jù)在兩地各有一份,這樣就大大增加了數(shù)據(jù)的安全性和可靠性。
2.2 容災技術方案
2.2.1 概述
隨著社會的發(fā)展和科技的進步,企業(yè)越來越依賴于數(shù)據(jù)處理來進行業(yè)務運營,業(yè)務的連續(xù)運營依賴于IT系統(tǒng)的穩(wěn)定運行。然而,災難就像灰塵一樣伏擊在企業(yè)周圍,任何企業(yè)的信息系統(tǒng)可能可能面臨突如其來的災難:
如果不能對風險采取有效治理,一旦數(shù)據(jù)由于上述某種原因丟失,就有可能造成整個企業(yè)在運營上的重大不便和經(jīng)濟損失。
由此可見,保證企業(yè)的業(yè)務連續(xù)運營及數(shù)據(jù)處理的高可靠性和高可用性已經(jīng)成為我廠信息系統(tǒng)首先要考慮的問題,以便在發(fā)生系統(tǒng)災難后能夠從容應對風險。一個堅實的 VMware 災難恢復計劃對應用發(fā)生中斷后如何進行故障切換并恢復工作及對保護企業(yè)的數(shù)據(jù)和業(yè)務操作是至關重要的。
為此,我們開始第三階段的異地容災系統(tǒng)并為系統(tǒng)設立了如下目標:
數(shù)據(jù)與存儲系統(tǒng)的高可用性,保證數(shù)據(jù)7X24小時的連續(xù)訪問;
將現(xiàn)有的存儲技術集成,創(chuàng)造出一種更有效的數(shù)據(jù)存儲管理,實現(xiàn)高效、高可靠性、低成本的數(shù)據(jù)管理;
需要對企業(yè)現(xiàn)有的數(shù)據(jù)庫、郵件系統(tǒng)、文件服務器以及各種應用系統(tǒng)進行集中化、自動化的基于策略的保護;
采用一套成熟度高,業(yè)內(nèi)應用廣泛的企業(yè)級軟硬件整體解決方案;
這些目標的實施保證一旦發(fā)生災難(洪水、地震、火災等),或者人為災難(用戶失誤、磁盤失效等)導致數(shù)據(jù)丟失或者業(yè)務中斷時,能夠快速、及時地恢復數(shù)據(jù),保證業(yè)務的連續(xù)運行。
從開始實施虛擬化以來,容災系統(tǒng)就在規(guī)劃之中,經(jīng)過多方考察,我們認為VMware? vCenter? Site Recovery Manager能夠滿足我廠的異地容災需求。
VMware? vCenter? Site Recovery Manager作為 VMware vSphere 的有益補充,可確保為所有虛擬化應用程序提供最簡單、最可靠的災難防護。Site Recovery Manager 提供經(jīng)濟高效的內(nèi)置vSphere Replication,并支持使用廣泛的基于存儲的高性能復制產(chǎn)品集將虛擬機復制到輔助站點。
對于我廠的容災方案來說,即當行政樓信息中心系統(tǒng)出現(xiàn)問題后生產(chǎn)樓的系統(tǒng)能夠迅速啟動恢復運行,以保持業(yè)務的連續(xù)性。
根據(jù)這種要求生產(chǎn)樓配備了與行政樓幾乎同樣的硬件配置,包括多臺物理服務器,光纖通道交換機,存儲設備以及VMWARE Site Recovery Manager軟件系統(tǒng)。
2.2.2 VMWARE SRM虛擬化容災方案的優(yōu)點
SRM(Site Recovery Manager—站點恢復管理)是VMware的一個軟件包。它同VMware虛擬化架構無縫連接,其功能為在主站出現(xiàn)災難環(huán)境后能在異地的從站迅速恢復主站災難前運行的虛擬架構,恢復受保護的虛擬機,立即恢復運行,保證業(yè)務的連續(xù)性。其優(yōu)點在于:
· 提供內(nèi)置 vSphere Replication 進行簡單、經(jīng)濟高效的復制。
· 支持針對大型、關鍵業(yè)務環(huán)境的基于存儲的眾多復制產(chǎn)品。
· 自動執(zhí)行災難恢復和遷移流程以確??焖佟⒖煽康幕謴?。
· 簡化計劃內(nèi)遷移和預防性故障切換。
2.2.3 容災硬件配置及SRM的應用
(1)物理服務器
生產(chǎn)樓配置3臺物理服務器,并且每臺具有足夠的CPU數(shù)量及內(nèi)存容量。以保證能夠生產(chǎn)相應數(shù)量的虛擬機,以便對行政樓主要應用的虛擬機進行遷移保護。
每臺服務器配備雙HBA卡,以實現(xiàn)硬件冗余。
(2)光纖通道交換機
配備2臺IBM B24光纖通道交換機,以實現(xiàn)鏈路冗余。
(3)存儲陣列
IBM DS 5020已配備,并已進行數(shù)據(jù)同步鏡像(通過ERM),工作正常。
(4)VMWARE SRM容災軟件包
Site Recovery Manager 5 Standard 可用于保護每個站點和每個Site Recovery Manager 實例中的最多75個虛擬機。
2.2.4 實施步驟
·完成生產(chǎn)樓服務器、光纖通道交換機的安裝調(diào)試。
·生成生產(chǎn)樓服務器、光纖通道交換機及存儲DS 5020之間的鏈路連接,并對鏈路進行測試,保證鏈路連接正確及連通無誤。
·進行Zone的劃分。
·選取行政樓具有重要應用意義的12個虛擬交換機做為SRM在發(fā)生災難時向生產(chǎn)樓遷移的對象。
·在生產(chǎn)樓安裝Vcenter,并由Vsphere生成相應數(shù)量的虛擬機。
·對生產(chǎn)樓的虛擬機進行LUN映射并測試每個虛擬機工作正常。
·在行政樓和生產(chǎn)樓安裝SRM。
·對容災SRM進行模擬故障切換,進行測試,以保證在發(fā)生災難時能夠正常啟動,工作正常。
3.結(jié)論
經(jīng)過三個階段虛擬化的硬件部署、軟件升級、應用的實施,我廠虛擬化建設已初具規(guī)模并在信息系統(tǒng)中發(fā)揮著關鍵作用:
通過服務器虛擬化的實施,實現(xiàn)整合服務器、操作系統(tǒng)、應用平臺,對服務器資源進行統(tǒng)一管理;實現(xiàn)按需分配資源,簡化了管理的復雜性,極大地提高了工作效率。
存儲高可用:通過IBM EMR Metro Mirror(同步的鏡像模式)遠程磁盤鏡像復制技術,在兩套IBM System Storage DS5020磁盤設備間(信息中心機房及生產(chǎn)樓機房各一套),建立磁盤鏡像復制關系從而實現(xiàn)存儲高可用性,從而建立完善的存儲備份中心,保證關鍵數(shù)據(jù)的可恢復性與業(yè)務應用的可持續(xù)性。
使用VMware vCenter Site Recovery Manager確保高度可靠的RTO和RPO,并且成本和復雜性程度遠低于傳統(tǒng)災難恢復方法。借助 Site Recovery Manager,可以將災難防護擴展到在vSphere平臺上運行的所有應用程序。
IBM DS5020的遠程磁盤鏡像復制技術ERM和VMware的SRM的完美結(jié)合,為我廠關鍵信息應用系統(tǒng)構筑了安全、可靠、高效的存儲備份體系。
未來我們將不斷摸索網(wǎng)絡虛擬化和云計算技術,專注點將主要集中在虛擬化實現(xiàn)云計算的基礎,將已有的虛擬化X86服務器建設成一個資源池,并且有計劃、有規(guī)模的梳理現(xiàn)有的各種應用,實現(xiàn)應用按需申請資源;其次,未來將逐步實現(xiàn)系統(tǒng)開發(fā)、上線、監(jiān)控、運維、管理、容災等實現(xiàn)應用平臺云化,以便跟上即將到來的SDN(軟件定義存儲)的時代。
參考文獻
[1]Muller,A1(EDT)/Wilson,Seburn/Happe,Don/Hummphre,Gary j.,With Vmware ESX Server [M].by Elsevier Science Ltd,2010.
[2]虛擬化應用手冊 IBM研究院,2012.
作者簡介:閻立波,工程師,現(xiàn)供職于華能國際電力股份有限公司上安電廠,研究方向:虛擬化存儲在信息系統(tǒng)中應用和實施。