摘 要:通過對國內外災備技術的研究,科學分析評估現有ERP系統(tǒng)對災難恢復的需求,分析主流災備技術對現有ERP系統(tǒng)的性能影響,確定災備新技術解決方案,根據現有系統(tǒng)架構設計合適災備系統(tǒng)架構,以及網絡管理技術。災備系統(tǒng)實施以來,從比對結果及災難恢復關鍵指標RPO、RPO達到的效果看,完全達到甚至部分好于災備系統(tǒng)最初的設計要求。
關鍵詞:災備技術;ERP系統(tǒng);RPO;RPO;系統(tǒng)架構
中圖分類號:TP309.3
系統(tǒng)背景:2008年起礦區(qū)ERP系統(tǒng)一期上線,5年完成三期ERP系統(tǒng)建設,四期正在建設中。礦區(qū)ERP系統(tǒng)在業(yè)務管理中已經逐漸發(fā)揮越來越重要的作用,相關業(yè)務對信息系統(tǒng)的可靠性和可用性要求越來越高。一旦因自然災害、設備故障等原因或人為因素引起信息系統(tǒng)運行中斷,并且在短時間內無法恢復,則將給企業(yè)造成巨大的直接經濟損失和巨大的社會影響。
災備技術的發(fā)展:目前災備技術經過了冗余容錯保護、磁帶介質備份、存儲級陣列備份、虛擬帶庫(VTL)、持續(xù)數據保護(CDP)、存儲虛擬化幾個階段,逐漸趨向成熟,從而使災難備份系統(tǒng)的實現有了技術支持和實現可能。
1 災備系統(tǒng)的需求分析
1.1 業(yè)務影響分析目標。信息系統(tǒng)災難恢復目標(RTO/RPO)主要通過參考其支撐的業(yè)務功能可容忍的最大中斷時間和最大數據丟失時間來確定,而信息系統(tǒng)恢復優(yōu)先級則由各信息系統(tǒng)中斷影響值并結合信息系統(tǒng)的重要程度綜合來確定。
業(yè)務影響分析主要目標是分析礦區(qū)生產中心的關鍵信息系統(tǒng)、分析因災難造成信息系統(tǒng)中斷可能對各業(yè)務功能造成的影響、分析各信息系統(tǒng)的相互依賴關系、分析各信息系統(tǒng)災難恢復目標及恢復優(yōu)先級。
1.2 業(yè)務影響分析結果。根據分析結果,對各個業(yè)務系統(tǒng)從中斷損失的角度印證信息系統(tǒng)關鍵程度的劃分。信息系統(tǒng)災難恢復目標,A類信息系統(tǒng)為關鍵信息系統(tǒng)。確定將設計與實施礦區(qū)ERP系統(tǒng)的災備系統(tǒng)作為試點,并將災難恢復系統(tǒng)建設目標定為至少達到《信息系統(tǒng)災難恢復規(guī)范GB/T 20988_2007》的第三級災難恢復能力。
2 災備系統(tǒng)的設計
2.1 災備技術選型。通過對主流災備技術的分析,對技術類型、建設費用、帶寬需求等方面與系統(tǒng)現有災備需求進行比對。
通過對比,從技術可行性方面排除了基于磁帶和虛擬帶庫的災備技術及DataGuard技術;從經濟可行性方面排除了基于存儲設備鏡像的災備技術。礦區(qū)ERP系統(tǒng)災備系統(tǒng)的選型將進一步通過測試驗證其方案可行性和無法直觀獲得的災備方案對現有系統(tǒng)性能影響程度的指標。
2.2 災備系統(tǒng)方案的測試。POC測試:即根據用戶對采用系統(tǒng)提出的性能要求和擴展需求的指標,在選用服務器上進行真實數據的運行,對承載用戶數據量和運行時間進行實際測算,并根據用戶未來業(yè)務擴展的需求加大數據量以驗證系統(tǒng)和平臺的承載能力和性能變化。在論證階段引入POC測試,主要目的在于深入了解災備技術方案的實施,對現有系統(tǒng)架構的影響程度,并了解其實施的相對難易程度及可操作性。本次POC測試的主要技術類型有CDP(磁盤鏡像+快照)-飛康(Falcon)、CDP(SAN交換機端口轉發(fā))-InMage、存儲虛擬化技術-StoreAge的SVM。
2.3 CDP架構設計。生產環(huán)境ERP服務器系統(tǒng)保持不變。生產中心各ERP主機系統(tǒng)安裝CDP的客戶端軟件包(IPStor CDP ODM軟件),用于識別CDP。ERP系統(tǒng)數據存儲在1臺IBM D8磁盤存儲系統(tǒng)上,保持不變。災備中心使用的磁盤陣列是生產中心的DS4300和FASTT600,容量分為為14×146GB和14×300GB,兩臺磁盤陣列共需要4個光纖交換機端口接入SAN。
3 災備系統(tǒng)的實施
在系統(tǒng)實施前要做好風險防范措施。在實施前要對數據進行備份、檢查服務器、FC交換機、磁盤陣列的狀態(tài),如有任何設備有臨界狀態(tài),都必須修復后才能進行實施。每進行下一步前,均對以前所有的步驟進行回顧,確保狀態(tài)正常才進行下一步操作。所有IP地址使用前要對該地址使用Ping等命令進行測試,確保沒有地址沖突。在白天的業(yè)務繁忙時段可以對CDP網絡遠程傳輸的上限設定,避免過多占用業(yè)務帶寬。實時監(jiān)控運行過程,防止意外發(fā)生。停機時間盡量縮短,并且初次生產數據到CDP的同步選擇晚上進行,避免對正常業(yè)務的影響。對上述可遇見的風險,具體的應急回退措施有:主機移去鏡像、從vg中刪除飛康CDP的磁盤、主機刪除從飛康CDP識別的磁盤、飛康CDP取消磁盤分配、檢查應用系統(tǒng)運行情況與數據完整性、如數據有問題,從備份數據中恢復數據。
4 災備系統(tǒng)的模擬災難測試
模擬災難測試主要分為系統(tǒng)切換、網絡切換和業(yè)務應用功能驗證三部分。
系統(tǒng)切換主要是對各業(yè)務系統(tǒng)的切換步驟進行驗證。ERP系統(tǒng)、資金系統(tǒng)和OA辦公系統(tǒng)相對獨立,因此,這三個業(yè)務系統(tǒng)的切換工作可以并行進行。
網絡切換主要是驗證災備中心接管生產中心的網絡切換及恢復步驟。為避免在演練階段對生產系統(tǒng)造成影響,建議在演練期間,斷開生產中心與災備中心之間的數據復制網絡。應用系統(tǒng)功能驗證主要包括ERP系統(tǒng)、資金系統(tǒng)和OA辦公系統(tǒng)應用功能測試驗證。在模擬災難測試中,系統(tǒng)或應用人員登錄到災難備份中心的業(yè)務系統(tǒng),通過檢查系統(tǒng)的功能菜單和報表查詢等功能,以驗證災難備份系統(tǒng)的可用性和數據的完整性。如上述驗證工作正常完成,則可確定所恢復的業(yè)務系統(tǒng)是成功有效的。
5 結束語
比對《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007),礦區(qū)ERP系統(tǒng)的災難恢復等級從災備系統(tǒng)建設前的第一級提升到第三級;在災難發(fā)生后,ERP等應用可提供對外服務,下屬單位雖沒有建立與災備中心通信的網絡專線,但仍可通過公網訪問災備系統(tǒng),并基本達到了《規(guī)范》的第四級,并通過災備系統(tǒng)模擬災難測試,印證了災備系統(tǒng)的實際效果。
綜上,本災備系統(tǒng)按比對結果及災難恢復關鍵指標RPO、RTO達到的效果看,完全達到甚至部分好于災備系統(tǒng)最初的設計要求。
參考文獻:
[1]吳俊.統(tǒng)一災難備份中心的業(yè)務調度模型[J].計算機應用與軟件,2013(12):329-333.
[2]詹浩,于圓.CDP技術在金融業(yè)信息系統(tǒng)災難備份建設中的應用[J].中國金融電腦,2014(03):48-53.
[3]任先寧.信息災難備份策略與關鍵技術探索[J].網絡安全技術與應用,2013(07):55-56.
作者簡介:劉敏(1981-),男,工程師,南京理工大學在讀碩士,研究方向:計算機網絡技術,物聯網相關方向;劉東旭(1983-),男,講師,南京理工大學碩士,研究方向:計算機網絡技術。
作者單位:河南質量工程職業(yè)學院,河南平頂山 467000