張操
(國家電投集團貴州金元股份有限公司,貴州 貴陽 551800)
現(xiàn)代企業(yè)基本都以集中部署分級應(yīng)用的方式展開信息化應(yīng)用,當(dāng)ERP系統(tǒng)成為企業(yè)生產(chǎn)經(jīng)營管理重要支撐時,信息系統(tǒng)和數(shù)據(jù)就成為企業(yè)核心資產(chǎn),對數(shù)據(jù)實施連續(xù)性安全保護是必要的、迫切的,它是企業(yè)連續(xù)運作、規(guī)避風(fēng)險、健康發(fā)展的要求,是企業(yè)進行全球化戰(zhàn)略布局、成為世界級企業(yè)的要求,也是行業(yè)、法規(guī)遵從性的要求。通過一系列災(zāi)備系統(tǒng)的建設(shè)和計劃行為,實現(xiàn)當(dāng)關(guān)鍵系統(tǒng)發(fā)生災(zāi)難時能夠快速恢復(fù),實現(xiàn)無數(shù)據(jù)丟失的災(zāi)難保護,實現(xiàn)業(yè)務(wù)連續(xù)性目標。災(zāi)備系統(tǒng)涉及眾多計算機技術(shù)及眾多廠商的各類解決方案,所以容災(zāi)是一種科技含量較高的特殊IT運維管理,項目實施的關(guān)鍵,在于建立災(zāi)備系統(tǒng)有關(guān)的常態(tài)管理流程,建立配套應(yīng)急管理預(yù)案,建立科學(xué)的人員、資源組織管理流程。
企業(yè)ERP系統(tǒng)的應(yīng)用、數(shù)據(jù)服務(wù)集中部署,建大集中應(yīng)用承載數(shù)據(jù)中心,建基礎(chǔ)網(wǎng)絡(luò),包括辦公局域網(wǎng)、數(shù)據(jù)中心局域網(wǎng)、企業(yè)廣域網(wǎng),ERP系統(tǒng)部署于企業(yè)數(shù)據(jù)中心,公司本部、所屬單位廣域網(wǎng)互聯(lián)互通,本部通過辦公網(wǎng)使用ERP,所屬單位通過廣域網(wǎng)使用ERP。ERP系統(tǒng)應(yīng)用現(xiàn)狀參見圖1。
ERP硬件系統(tǒng)主要是后端存儲、前端服務(wù)器及用戶網(wǎng)絡(luò),包括存儲陣列、8Gbps FC存儲網(wǎng)絡(luò)、10Gbit/s以太網(wǎng)絡(luò),具體配置如下。
(1)數(shù)據(jù)庫服務(wù)器由2臺高配小機組成,2臺分別作為Oracle RAC的2個運算節(jié)點,運行Oracle 10g RAC,通過8Gbps FC存儲網(wǎng)訪問共享存儲陣列。(2)WEB應(yīng)用服務(wù)器由2臺高配x86 PC服務(wù)器組成。(3)采用Oracle腳本邏輯導(dǎo)出的方式,每天備份ERP系統(tǒng)數(shù)據(jù),同時存儲在備份磁盤陣列及備份磁帶庫。
(1)通過Oracle腳本進行數(shù)據(jù)備份,人工操作效率低,備份文件管理效率低,易發(fā)生備份文件錯亂,無法保證數(shù)據(jù)恢復(fù)的準確性和高效率。(2)ERP系統(tǒng)承載了企業(yè)生產(chǎn)經(jīng)營財務(wù)等核心業(yè)務(wù),災(zāi)難發(fā)生時Oracle腳本恢復(fù)數(shù)據(jù)需數(shù)小時,不能滿足業(yè)務(wù)連續(xù)性要求。(3)由于腳本備份僅實現(xiàn)了數(shù)據(jù)備份,缺少裸系統(tǒng)和數(shù)據(jù)平臺備份,災(zāi)難發(fā)生時需重建系統(tǒng)和數(shù)據(jù)平臺,不能實現(xiàn)快速恢復(fù)。(4)存儲存在單點故障,主存儲發(fā)生故障會導(dǎo)致系統(tǒng)崩潰、數(shù)據(jù)丟失、服務(wù)停止,對企業(yè)生產(chǎn)經(jīng)營造成極大的損失。沒有災(zāi)難備用資源,不能短時間恢復(fù)系統(tǒng)運行。
針對以上關(guān)鍵系統(tǒng)存在的安全隱患和風(fēng)險,分階段體系化建設(shè)災(zāi)備系統(tǒng),逐步提高并不斷強化對關(guān)鍵系統(tǒng)的數(shù)據(jù)保護。
第一階段:關(guān)鍵系統(tǒng)應(yīng)用初期,業(yè)務(wù)量、數(shù)據(jù)量、訪問量都不大,結(jié)合企業(yè)IT資源現(xiàn)狀,確定一期災(zāi)備系統(tǒng)指標RPO≤2小時,RTO≤8小時。
第二階段:隨著應(yīng)用深度和范圍不斷擴大,業(yè)務(wù)量、數(shù)據(jù)量、訪問量持續(xù)增加,信息系統(tǒng)逐漸成為企業(yè)生產(chǎn)經(jīng)營的重要支撐,災(zāi)備系統(tǒng)的重要性凸顯,在一期的基礎(chǔ)上,二期災(zāi)備系統(tǒng)指標RPO=0,數(shù)據(jù)任意點時間恢復(fù)。
(1)建立自動化集中備份管理機制,采用專業(yè)備份管理軟件,對關(guān)鍵系統(tǒng)的數(shù)據(jù)和環(huán)境,實現(xiàn)自動化、專業(yè)化備份,并同時保存在備份陣列和磁帶庫,還實現(xiàn)了對非關(guān)鍵系統(tǒng)的備份。(2)建立裸系統(tǒng)快速恢復(fù)環(huán)境,當(dāng)ERP服務(wù)器發(fā)生系統(tǒng)錯誤崩潰不能啟動時,可快速恢復(fù)系統(tǒng)備份映像。(3)建立災(zāi)難備用環(huán)境和恢復(fù)測試環(huán)境,當(dāng)關(guān)鍵系統(tǒng)發(fā)生故障而短時間無法修復(fù),備用環(huán)境可臨時替代生產(chǎn)環(huán)境,恢復(fù)關(guān)鍵系統(tǒng)應(yīng)用,備用環(huán)境也可作為備份恢復(fù)數(shù)據(jù)驗證和災(zāi)難恢復(fù)演練使用。(4)選擇美國賽門鐵克(Symantec)公司的NetBackup作為一期關(guān)鍵產(chǎn)品,新增一臺小機作為災(zāi)難備用硬件,同時作為AIX、Linux等異構(gòu)系統(tǒng)的裸機恢復(fù)環(huán)境,一期拓撲見圖2。
圖2 企業(yè)核心業(yè)務(wù)ERP系統(tǒng)一期容滅項目建成
在一期災(zāi)備系統(tǒng)基礎(chǔ)上,為達到更高級別的數(shù)據(jù)保護,更高的業(yè)務(wù)連續(xù)性,引入業(yè)界CDP技術(shù)的產(chǎn)品和系統(tǒng)實現(xiàn),具有連續(xù)數(shù)據(jù)保護CDP功能的解決方案有:(1)磁盤陣列復(fù)制技術(shù)。(2)主機層復(fù)制技術(shù)。(3)數(shù)據(jù)庫復(fù)制技術(shù)。(4)應(yīng)用層復(fù)制技術(shù)。(5)第三方存儲復(fù)制,系統(tǒng)通過同構(gòu)或異構(gòu)磁盤陣列來實現(xiàn)數(shù)據(jù)復(fù)制,同時提供數(shù)據(jù)復(fù)制管理功能。
采用解決方案4選型EMC RecoverPoint作為二期關(guān)鍵產(chǎn)品,并對一期系統(tǒng)進行運行調(diào)優(yōu),保持關(guān)鍵系統(tǒng)裸機恢復(fù)環(huán)境,保持非關(guān)鍵系統(tǒng)數(shù)據(jù)和操作系統(tǒng)災(zāi)備環(huán)境,并通過新系統(tǒng)同步復(fù)制+快照+快照管理功能保證生產(chǎn)端和災(zāi)備端的數(shù)據(jù)一致性。
(1)部署兩套EMC VNX磁盤陣列,一對EMC RecoverPoint設(shè)備,新建EMC 8Gbps FC存儲網(wǎng),設(shè)備系統(tǒng)實現(xiàn)互聯(lián)互通,實現(xiàn)關(guān)鍵數(shù)據(jù)的任意時間點無丟失,實現(xiàn)快速保存及可靠恢復(fù)。(2)ERP系統(tǒng)小機和應(yīng)用服務(wù)器,一期備份服務(wù)器,一期數(shù)據(jù)備份存儲和一期備份磁帶庫,接入新建存儲網(wǎng)。(3)通過虛擬平臺新建關(guān)鍵系統(tǒng)的臨時生產(chǎn)環(huán)境,小機系統(tǒng)和OracaleRAC平臺升級調(diào)優(yōu),EMC-ERP、EMC-CDP陣列和EMC RecoverPoint CDP統(tǒng)一接入EMC 8Gbps FC-SAN,一期項目中備份小機、備份服務(wù)器、備份陣列和備份磁帶庫統(tǒng)一遷移至新建存儲網(wǎng),新磁盤陣列導(dǎo)入歷史數(shù)據(jù),進行二期災(zāi)備系統(tǒng)的關(guān)鍵數(shù)據(jù)備份與恢復(fù)測試,二期拓撲見圖3。
圖3 企業(yè)關(guān)鍵業(yè)務(wù)ERP一期二期容滅系統(tǒng)建成
項目啟動前充分做好組織和人員安排,同時充分做好項目涉及的技術(shù)準備工作,分解工作任務(wù)責(zé)任到人,并做到職責(zé)明確。一期和二期容災(zāi)系統(tǒng)建設(shè)都按以下原則進行項目實施的組織管理。
5.1.1 成立項目實施小組
負責(zé)項目實施風(fēng)險和質(zhì)量控制、方案審批決策和項目人員及資源組織管理。
5.1.2 項目實施方案審定
項目總體實施方案是整個項目實施的指導(dǎo)性、規(guī)范性、操作性文件,主要包括以下幾點。
(1)實施總體任務(wù)目標(項目驗收標準)。(2)實施進度計劃(階段驗收標準)。(3)實施準備(軟硬件環(huán)境)。(4)實施詳細計劃(項目進度計劃細化)。①解決項目實施中存在的風(fēng)險,如何防范和降低對業(yè)務(wù)系統(tǒng)產(chǎn)生的影響;②主要的實施操作步驟,細化到每一步的技術(shù)要求和操作說明;模塊化測試和總體測試,明確方法和標準。
實施階段按項目總體實施方案中的工作任務(wù)和工作計劃執(zhí)行,過程中履行工作日志、周工作總結(jié)制度,記錄調(diào)試操作配置,監(jiān)督項目進度,項目驗收支撐材料積累。
項目總體實施方案對工作任務(wù)進行了系統(tǒng)、科學(xué)、合理的分解和安排,明確了工作職責(zé),將工作任務(wù)分解為關(guān)鍵任務(wù)和非關(guān)鍵任務(wù),采取分模塊獨立實施,最后進行聯(lián)合調(diào)試的策略,極大程度地減少和降低了實施安全風(fēng)險和突發(fā)事件的發(fā)生幾率。盡管項目總體實施方案中管理和技術(shù)內(nèi)容具體詳細,但實施過程中難免會與實際情況產(chǎn)生技術(shù)上的偏差或差異,比如集成商對實施產(chǎn)品的技術(shù)理解不夠全面、準確甚至錯誤,或?qū)T實施環(huán)境調(diào)研不細,導(dǎo)致發(fā)生技術(shù)突發(fā)事件,如果影響方案中關(guān)鍵工作任務(wù)的執(zhí)行,需立即終止項目實施,方案上會論證修訂后再重啟實施。如果僅影響非關(guān)鍵任務(wù)的執(zhí)行,及時靈活進行調(diào)整變通即可。
表1
表2
表3
人為的突發(fā)事件情況比較復(fù)雜,主要分為人員變更、需求變更、IT環(huán)境變更等,項目實施責(zé)任主體方人員變更,向項目組提交書面申請,審批后才能進行人員變更,須避免因人員變更時發(fā)生項目實施安全風(fēng)險或突發(fā)事件;需求發(fā)生變更時立即對項目總體實施方案進行修改調(diào)整并上會審定;IT環(huán)境變更導(dǎo)致不能按既定方案開展工作時,立即對項目總體實施方案進行調(diào)整,經(jīng)實施小組上會審定后再重啟實施工作。
我們在一期二期項目實施過程中,按上述管理和實施策略進行了具體實踐,項目實施全過程規(guī)范化、標準化、制度化,保障了項目實施進度、質(zhì)量,編制了總體測試方案并細化測試項目操作步驟,按項測試并詳細記錄,按標準流程進行了數(shù)據(jù)和系統(tǒng)裸機備份恢復(fù)測試,達到了項目預(yù)期。
二期項目實施中,在關(guān)鍵系統(tǒng)生產(chǎn)環(huán)境臨時切換到虛擬平臺時,數(shù)據(jù)庫虛擬機產(chǎn)生性能瓶頸,虛擬機CPU負荷超90%并居高不下,無法正常支撐ERP系統(tǒng)應(yīng)用,針對該突發(fā)事件,立即安排系統(tǒng)計劃性停機,協(xié)調(diào)4U ERP應(yīng)用物理服務(wù)器安裝數(shù)據(jù)平臺并導(dǎo)入業(yè)務(wù)數(shù)據(jù),性能問題及時有效的解決,將突發(fā)情況對項目實施的影響降到了最小。
本階段重點是項目培訓(xùn),項目技術(shù)資料移交,協(xié)助編寫項目運維管理制度。管理人員可進行原廠培訓(xùn)取證上崗。
通常需移交技術(shù)資料如下:(1)產(chǎn)品到貨清單,安裝調(diào)試清單。(2)項目實施方案。(3)項目過程資料,主要包括工作日志、工作周報。(4)項目驗收報告。竣工資料還應(yīng)包括項目合同,項目安裝實施報告,項目測試方案,日常運維手冊,產(chǎn)品手冊相關(guān)資料,項目實施技術(shù)總結(jié)報告,及支持系統(tǒng)安全可靠運行的管理制度。
(1)未實施數(shù)據(jù)保護存在風(fēng)險(表1)。
(2)實施數(shù)據(jù)保護后風(fēng)險(表2)。
(3)實施連續(xù)性數(shù)據(jù)保護后風(fēng)險(表3)。
一期二期災(zāi)難恢復(fù)系統(tǒng)建設(shè)實施,結(jié)合長期管理運維實踐,驗證了我們所引入的技術(shù)、產(chǎn)品和系統(tǒng),可靠性高、靈活性大,兼容性強、適應(yīng)性好,在國內(nèi)外中大型企業(yè)中都正在應(yīng)用且具有成功經(jīng)驗。企業(yè)對災(zāi)難恢復(fù)系統(tǒng)是可管理的、可運維的。
參考文獻:
[1]GB /T 20988 2007. 信息安全技術(shù) 信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范 [S].北京: 中國標準出版社, 2007.
[2]張冬.次世代數(shù)據(jù)存儲思維與技術(shù)[M].北京:清華大學(xué)出版社,2017 ISBN 978-7-302-46492-1.
[3]楊義先,姚文斌等.信息系統(tǒng)災(zāi)備技術(shù)綜論[J].北京郵電大學(xué)學(xué)報,2010(2).
[4]施躍躍,徐景良.金融行業(yè)災(zāi)備架構(gòu)高指標RTO的實現(xiàn)方式[J].計算機應(yīng)用與軟件,2012(2).