田建榮 王宏志 宋琳琳 郭曙超
(山東出入境檢驗檢疫局,山東 青島266001)
近年來隨著信息化應(yīng)用水平的發(fā)展,如何確保應(yīng)用系統(tǒng)在極端情況下持續(xù)安全運(yùn)行逐漸成為我們面臨的重要課題。災(zāi)備的目的是確保災(zāi)難發(fā)生后業(yè)務(wù)立即恢復(fù),應(yīng)用能夠盡快投入使用,采用的各種技術(shù)不論是數(shù)據(jù)備份、數(shù)據(jù)復(fù)制還是災(zāi)備技術(shù),無非都是圍繞著業(yè)務(wù)連續(xù)來進(jìn)行,這些技術(shù)是災(zāi)備的關(guān)鍵環(huán)節(jié)。
目前,我局CIQ2000、電子內(nèi)務(wù)等核心應(yīng)用的應(yīng)急備份系統(tǒng)基本建立,其他系統(tǒng)也實現(xiàn)了數(shù)據(jù)級備份。但我局現(xiàn)有的備份限于以前資金、設(shè)備的限制,目前僅限于核心應(yīng)用和重點(diǎn)應(yīng)用,未能覆蓋所有應(yīng)用,且僅是數(shù)據(jù)庫層面的備份,應(yīng)用層面還沒有備份;現(xiàn)有的備份主要定位于應(yīng)急備份,備份系統(tǒng)處理能力小于生產(chǎn)環(huán)境主機(jī),發(fā)生故障切換時只能承擔(dān)部分業(yè)務(wù),而且運(yùn)行速度明顯比生產(chǎn)系統(tǒng)慢。以CIQ2000綜合業(yè)務(wù)為例,一次數(shù)據(jù)恢復(fù)至少需要1-2小時時間,并且會產(chǎn)生部分業(yè)務(wù)數(shù)據(jù)丟失,將會給檢驗檢疫業(yè)務(wù)帶來很大損失;由于業(yè)務(wù)系統(tǒng)不斷優(yōu)化升級,部分應(yīng)急預(yù)案得不到及時更新,有的內(nèi)容過時、甚至失效。
因此,如何確保數(shù)據(jù)安全、系統(tǒng)持續(xù)高效運(yùn)行是信息化工作人員面臨的重要問題。進(jìn)一步樹立風(fēng)險防范意識,完善信息系統(tǒng)應(yīng)急處置預(yù)案,建立風(fēng)險防范長效機(jī)制,按國家、總局標(biāo)準(zhǔn)構(gòu)建山東局高起點(diǎn)、高性能、全覆蓋的信息系統(tǒng)備份及災(zāi)難恢復(fù)體系勢在必行。
目前國外有一些備份及災(zāi)難恢復(fù)體系建設(shè)成熟的案例,案例成本都相當(dāng)高;行業(yè)內(nèi)個別兄弟局實施的備份及災(zāi)難恢復(fù)體系的建設(shè)只是局限于CIQ2000核心業(yè)務(wù)系統(tǒng),且只是達(dá)到應(yīng)急備份水準(zhǔn),對于外圍系統(tǒng)數(shù)據(jù)庫及OA系統(tǒng)僅是達(dá)到了數(shù)據(jù)級備份,對于應(yīng)用服務(wù)器都沒有任何的備份。經(jīng)過對各兄弟局進(jìn)行詳細(xì)調(diào)研,總結(jié)歸納如下共性問題:
(1)備份環(huán)境與生產(chǎn)環(huán)境不匹配。系統(tǒng)內(nèi)各局的備份主要定位于應(yīng)急備份,備份系統(tǒng)處理能力小于生產(chǎn)環(huán)境主機(jī),發(fā)生故障切換時只能承擔(dān)部分業(yè)務(wù),而且運(yùn)行速度明顯比生產(chǎn)系統(tǒng)慢。
(2)備份系統(tǒng)未達(dá)到全覆蓋。系統(tǒng)內(nèi)各局現(xiàn)有的備份都限于資金、設(shè)備的限制,目前僅限于核心應(yīng)用和重點(diǎn)應(yīng)用,未能覆蓋所有應(yīng)用。
(3)應(yīng)急預(yù)案有待進(jìn)一步完善。由于業(yè)務(wù)系統(tǒng)不斷優(yōu)化升級,部分應(yīng)急預(yù)案得不到及時更新,有的內(nèi)容過時、甚至失效。
因此,比較全面的解決方案未有先例。無法滿足目前復(fù)雜業(yè)務(wù)信息系統(tǒng)的備份及災(zāi)難恢復(fù)的要求。
結(jié)合山東檢驗檢疫工作實際,利用業(yè)界先進(jìn)的、成熟的軟件產(chǎn)品對現(xiàn)有的CIQ2000等主要電子業(yè)務(wù)信息系統(tǒng)的應(yīng)急體系進(jìn)行升級改造,進(jìn)一步加強(qiáng)信息備份、災(zāi)難恢復(fù)以及業(yè)務(wù)連續(xù)性管理,提高應(yīng)對突發(fā)事件的響應(yīng)能力。
按照國信辦《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》和質(zhì)檢總局《檢驗檢疫重要業(yè)務(wù)系統(tǒng)災(zāi)難恢復(fù)指南(試行)》有關(guān)要求,災(zāi)備體系的建設(shè)要著重做好等級設(shè)置、資源要素、恢復(fù)策略及預(yù)案、應(yīng)急演練和日常維護(hù)幾個方面的工作。
等級設(shè)置就是我們將全面梳理現(xiàn)有的應(yīng)用系統(tǒng),根據(jù)其使用范圍、頻率和在業(yè)務(wù)工作中的重要性確定其合理的備份等級,總局對直屬局的核心業(yè)務(wù)系統(tǒng)的備份等級建議設(shè)定為第5級,即:使用遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)把生產(chǎn)系統(tǒng)的數(shù)據(jù)經(jīng)通信網(wǎng)絡(luò)實時復(fù)制到備用場所;在災(zāi)難恢復(fù)時,業(yè)務(wù)功能可在很短時間內(nèi)(5-30分鐘內(nèi))恢復(fù),但數(shù)據(jù)會有少量丟失。目前我局核心應(yīng)用系統(tǒng)主要包括:CIQ2000、電子通關(guān)、電子內(nèi)務(wù)等,其他系統(tǒng)等級根據(jù)業(yè)務(wù)情況進(jìn)行確定。
資源要素是實現(xiàn)備份機(jī)災(zāi)難恢復(fù)必備的條件,包括:備用基礎(chǔ)設(shè)施(機(jī)房)、備用數(shù)據(jù)處理系統(tǒng)(主機(jī)、軟件)、備用網(wǎng)絡(luò)系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、技術(shù)支持能力、運(yùn)行維護(hù)管理能力和災(zāi)難恢復(fù)預(yù)案七個方面。
(1)備用基礎(chǔ)設(shè)施
備用基礎(chǔ)設(shè)施是災(zāi)難恢復(fù)所需的、支持災(zāi)難備份系統(tǒng)運(yùn)行的建筑、設(shè)備和組織。我們已經(jīng)有瞿塘峽路70號災(zāi)備機(jī)房,同時對UPS、空調(diào)等動力設(shè)備進(jìn)行升級改造,為達(dá)到更高級別的備份等級提供基礎(chǔ)保障。之前部分應(yīng)急備份系統(tǒng)已遷移到該機(jī)房,實現(xiàn)同城異地備份。
(2)備用數(shù)據(jù)處理系統(tǒng)
備用數(shù)據(jù)處理系統(tǒng)一般由備用的主機(jī)、存儲、軟件組成。災(zāi)備機(jī)房的硬件設(shè)施(服務(wù)器、存儲、光纖交換機(jī))以及軟件環(huán)境(Vmware虛擬化軟件、Oracle GoldenGate軟件)等已經(jīng)采購,為本項目實施提供了物質(zhì)保障。
(3)備用網(wǎng)絡(luò)系統(tǒng)
備用網(wǎng)絡(luò)系統(tǒng)包含備用網(wǎng)絡(luò)通信設(shè)備和備用數(shù)據(jù)通信線路,此部分是建設(shè)容災(zāi)備份及恢復(fù)體系的關(guān)鍵技術(shù)支持點(diǎn)。
此次容災(zāi)備份及恢復(fù)體系建設(shè)備用網(wǎng)絡(luò)層面主要研究工作如下:
整體架構(gòu)描述:研究整網(wǎng)采用何種架構(gòu)設(shè)計思路,使其具有數(shù)據(jù)冗余和網(wǎng)絡(luò)冗余能力。探索雙線路和主備設(shè)備的設(shè)計理念,可以保證網(wǎng)絡(luò)的暢通運(yùn)行,在出現(xiàn)線路或者設(shè)備故障時,整網(wǎng)都能實現(xiàn)自動切換。設(shè)備之間啟用BGP和OSPF動態(tài)路由協(xié)議,將全網(wǎng)的路由進(jìn)行有效地計算和規(guī)劃,動態(tài)路由協(xié)議可以提供最優(yōu)的網(wǎng)絡(luò)路徑選擇,提高網(wǎng)絡(luò)的運(yùn)行速度,為網(wǎng)絡(luò)提供了故障切換和恢復(fù)功能。
災(zāi)備中心:災(zāi)備中心的網(wǎng)絡(luò)架構(gòu)將沿用數(shù)據(jù)中心架構(gòu)設(shè)計思路,具有數(shù)據(jù)冗余和網(wǎng)絡(luò)冗余功能。雙線路和主備設(shè)備的設(shè)計思路,可以保證網(wǎng)絡(luò)的暢通運(yùn)行。災(zāi)備中心與分支局之間采用雙線路連接,兩條線路類型都采用MSTP 10M線路連接,兩條線路互為冗余備份,災(zāi)備中心與數(shù)據(jù)中心之間連接采用1000M裸光纖,保證了內(nèi)部數(shù)據(jù)的同步速度。
(4)數(shù)據(jù)備份系統(tǒng)
數(shù)據(jù)備份系統(tǒng)一般由數(shù)據(jù)備份的硬件、軟件和數(shù)據(jù)備份介質(zhì)(以下簡稱“介質(zhì)”)組成,此部分是建設(shè)容災(zāi)備份及恢復(fù)體系的重要環(huán)節(jié)。
此次容災(zāi)備份及恢復(fù)體系建設(shè)數(shù)據(jù)備份層面主要研究工作如下:
研究利用Oracle GoldenGate軟件,將Ciq2000、電子通關(guān)、電子轉(zhuǎn)單等核心業(yè)務(wù)數(shù)據(jù)庫數(shù)據(jù)實時復(fù)制到備份機(jī)房中的備份數(shù)據(jù)庫中,使數(shù)據(jù)延遲限制在10秒中以內(nèi)。
研究利用Vmware虛擬化技術(shù)將電子監(jiān)管應(yīng)用服務(wù)器、統(tǒng)計日報送通訊機(jī)等遷移到VMware服務(wù)器虛擬化群集平臺中。在災(zāi)備機(jī)房新搭建一套VMware服務(wù)器虛擬化群集平臺,研究利用quest公司的vranger軟件定時將中心機(jī)房的虛擬機(jī)增量復(fù)制到災(zāi)備機(jī)房。
容災(zāi)備份及恢復(fù)體系建成后,核心業(yè)務(wù)災(zāi)備拓?fù)涫疽鈭D如圖1。
(5)技術(shù)支持能力
對災(zāi)難恢復(fù)系統(tǒng)的運(yùn)轉(zhuǎn)提供支撐和綜合保障的能力,以實現(xiàn)災(zāi)難恢復(fù)系統(tǒng)的預(yù)期目標(biāo)。包括硬件、系統(tǒng)軟件和應(yīng)用軟件的問題分析和處理能力、網(wǎng)絡(luò)系統(tǒng)安全運(yùn)行管理能力、溝通協(xié)調(diào)能力等。我局有專業(yè)的計算機(jī)人才和專業(yè)的硬件、軟件以及網(wǎng)絡(luò)運(yùn)行維護(hù)公司提供技術(shù)支撐和綜合保障支持。
(6)運(yùn)行維護(hù)管理能力
包括運(yùn)行環(huán)境管理、系統(tǒng)管理、安全管理和變更管理等。將制修訂一系列管理制度,如備用計算機(jī)機(jī)房運(yùn)行管理制度、硬件和網(wǎng)絡(luò)運(yùn)行管理制度、操作系統(tǒng)、數(shù)據(jù)庫、應(yīng)用軟件等運(yùn)行管理制度、電子傳輸數(shù)據(jù)備份系統(tǒng)運(yùn)行管理制度等以確保災(zāi)備中心正常運(yùn)行維護(hù)管理。
(7)災(zāi)難恢復(fù)預(yù)案
定義信息系統(tǒng)災(zāi)難恢復(fù)過程中所需的任務(wù)、行動、數(shù)據(jù)和資源的文件。將修訂我局《電子業(yè)務(wù)系統(tǒng)應(yīng)急處置工作規(guī)范》用于指導(dǎo)相關(guān)人員在預(yù)定的災(zāi)難恢復(fù)目標(biāo)內(nèi)恢復(fù)信息系統(tǒng)支持的關(guān)鍵業(yè)務(wù)功能。
恢復(fù)策略及預(yù)案下一步將根據(jù)國家、總局規(guī)范和我局相關(guān)作業(yè)指導(dǎo)書要求進(jìn)行全面梳理,查漏補(bǔ)缺、優(yōu)化完善、定期升級,在實用的基礎(chǔ)上做到全覆蓋。
應(yīng)急演練是對備份系統(tǒng)及應(yīng)急預(yù)案的驗證,將研究建立制度化的管理模式定期進(jìn)行,確保發(fā)生問題時能夠在第一時間啟用。
日常維護(hù)是關(guān)鍵,下一步將加強(qiáng)制度建設(shè),利用先進(jìn)的技術(shù)手段建立統(tǒng)一的運(yùn)維監(jiān)控平臺,研究建立信息安全風(fēng)險分析和預(yù)警機(jī)制,做到未雨綢繆、防范在前,有效應(yīng)對突發(fā)事件。
本方案采用Oracle公司的Goldengate軟件作為數(shù)據(jù)庫容災(zāi)備份軟件,和針對CIQ2000系統(tǒng)的數(shù)據(jù)特點(diǎn)自主開發(fā)的管理控制軟件,實現(xiàn)了CIQ2000、電子通關(guān)、電子內(nèi)務(wù)等系統(tǒng)的同城異地容災(zāi)備份。
采用Vmware公司的虛擬服務(wù)器技術(shù)將電子轉(zhuǎn)單通訊機(jī)、電子報檢通訊機(jī)、廢物原料通訊機(jī)、電子監(jiān)管應(yīng)用服務(wù)器、電子通關(guān)應(yīng)用服務(wù)器、統(tǒng)計日報送等應(yīng)用遷移到到服務(wù)器虛擬群集平臺中運(yùn)行。解決了以上這些系統(tǒng)的單點(diǎn)故障問題。
采用quest公司的vranger軟件定時將中心機(jī)房的虛擬機(jī)增量復(fù)制到同城異地容災(zāi)災(zāi)備機(jī)房,實現(xiàn)了服務(wù)器虛擬群集平臺中運(yùn)行的應(yīng)用異地容災(zāi)備份。
通過以上方案,中心機(jī)房一旦主系統(tǒng)出現(xiàn)重大故障或災(zāi)難,備份平臺可迅速啟動并接管核心業(yè)務(wù)系統(tǒng),確保業(yè)務(wù)持續(xù)運(yùn)行。
通過容災(zāi)備份及恢復(fù)體系的建設(shè),利用瞿塘峽路70號機(jī)房,購置的主機(jī)、網(wǎng)絡(luò)、數(shù)據(jù)備份設(shè)備,利用虛擬化技術(shù)、Oracle GoldenGate和vRanger Pro技術(shù),實現(xiàn)核心應(yīng)用系統(tǒng)“數(shù)據(jù)+應(yīng)用”的第5級備份,實現(xiàn)其他應(yīng)用數(shù)據(jù)定期備份、異地存放、虛擬主機(jī)備用的第3級備份。
[1]法勇.檢驗檢疫業(yè)務(wù)系統(tǒng)備份與恢復(fù)方案分析[J].檢驗檢疫科學(xué),2004.
[2]趙祖亮.青島檢驗檢疫局網(wǎng)絡(luò)安全解決方案[J].計算機(jī)應(yīng)用技術(shù),2004.
[3]L eszekA.Ma eiaszek著.金芝譯需求分析與系統(tǒng)設(shè)計匯編[M].北京:機(jī)械工業(yè)出版社,2003:60-80.
[4]重要信息系統(tǒng)災(zāi)難恢復(fù)指南[Z].國務(wù)院信息辦.
[5]CIQ2000綜合業(yè)務(wù)系統(tǒng)技術(shù)手冊[Z].國家質(zhì)檢總局信息中心.
[6]電子監(jiān)管系統(tǒng)技術(shù)手冊[Z].國家質(zhì)檢總局信息中心.
[7]檢驗檢疫重要業(yè)務(wù)系統(tǒng)災(zāi)難恢復(fù)指南[Z].國家質(zhì)檢總局信息中心.
[8]李干池.數(shù)據(jù)挖掘預(yù)測技術(shù)在CIQ2000中的應(yīng)用[Z].檢驗檢疫科學(xué),2008.