張 岸
?
財政信息系統(tǒng)業(yè)務(wù)可持續(xù)性建設(shè)方案探討
張 岸
(福建省財稅信息中心,福建 福州 350003)
針對如何保證財政信息系統(tǒng)業(yè)務(wù)可持續(xù)性運行,結(jié)合其他行業(yè)信息系統(tǒng)可持續(xù)性方案的建設(shè)經(jīng)驗,闡明了關(guān)鍵國庫集中支付系統(tǒng)業(yè)務(wù)可持續(xù)性解決方案,同時總結(jié)了解決方案的優(yōu)點和缺點,為財政信息系統(tǒng)業(yè)務(wù)可持續(xù)性建設(shè)提供參考。
國庫集中支付系統(tǒng);業(yè)務(wù)可持續(xù)性;解決方案
福建省從2002年開始,先后在省級部門、廈門、泉州、三明實施了財政國庫管理制度改革試點,將國庫管理信息系統(tǒng)與預算單位、人民銀行、代理銀行聯(lián)結(jié),實現(xiàn)國庫集中支付全過程網(wǎng)絡(luò)化管理,做到用款計劃、支付申請、支付執(zhí)行情況等信息的實時反饋。目前,我省對省級管理的重點建設(shè)項目資金財政直接撥付面已達到70%以上,初步建立以國庫單一賬戶體系為基礎(chǔ),資金繳撥以國庫集中收付為主要形式的現(xiàn)代財政國庫管理制度。同時,還將推進財稅庫的橫向聯(lián)網(wǎng)工作,使財政、稅務(wù)、人行國庫利用信息網(wǎng)絡(luò)技術(shù),通過電子繳庫等方式,使稅款直接繳入國庫,同時實現(xiàn)稅款征收信息共享的繳庫管理模式。
隨著財政國庫管理制度改革的深入,信息支撐系統(tǒng)的重要性日益凸顯。如何保障國庫集中支付系統(tǒng)的正常運轉(zhuǎn),保證關(guān)鍵業(yè)務(wù)可持續(xù)性運行成為信息部門面臨的一個嚴峻挑戰(zhàn)。
目前國庫集中支付系統(tǒng)如圖1所示。系統(tǒng)主數(shù)據(jù)庫服務(wù)器采用兩臺HP rp7410小型機以及HP EVA 5000構(gòu)建的Oracle雙機集群;應(yīng)用服務(wù)器由若干應(yīng)用服務(wù)器構(gòu)成應(yīng)用集群;系統(tǒng)的數(shù)據(jù)備份由Veritas Netbackup備份軟件實現(xiàn)LAN-Free備份;另外由一臺HP rp5410構(gòu)建開發(fā)測試服務(wù)器。各外部互聯(lián)單位網(wǎng)絡(luò)均已考慮備份線路,以防止主線路故障,造成網(wǎng)絡(luò)癱瘓。
系統(tǒng)運行這些年來,逐漸暴露出一些風險和不足,威脅著系統(tǒng)的可持續(xù)性運行。一是數(shù)據(jù)庫雙機集群所依賴的磁盤陣列為單點故障風險;磁盤陣列內(nèi)部各部件雖然為冗余設(shè)計,達到了很高的可靠性系數(shù),但是若陣列癱瘓,由于所有重要數(shù)據(jù)均存放在其上,這對系統(tǒng)無疑是滅頂之災。相應(yīng)的故障在省內(nèi)已經(jīng)不乏案例,因此急需采取措施消除這個風險。
二是缺乏實時保護數(shù)據(jù)的手段;隨著國庫改革的深入,國庫集中支付系統(tǒng)的實時性要求越來越高,系統(tǒng)內(nèi)部流轉(zhuǎn)的都是大額的款項,任何數(shù)據(jù)的丟失,都將造成不可估量的影響。
三是缺乏有效的容災手段和演練;國庫集中支付系統(tǒng),作為財政系統(tǒng)的核心,其重要性不言而喻。
為保證國庫支付系統(tǒng)業(yè)務(wù)可持續(xù)運行,通過總結(jié)多年來從事信息系統(tǒng)維護的經(jīng)驗,我們認為應(yīng)該要做到如下七個字“不停、不丟、可恢復”?!安煌!钡囊馑季褪且扇「鞣N手段及措施確保系統(tǒng)不停機,業(yè)務(wù)不中斷;“不丟”的意思就是在萬一情況下,即使發(fā)生了停機事件,此時也要確保關(guān)鍵業(yè)務(wù)數(shù)據(jù)不丟失;因此,我們的解決方法就是圍繞這七個字的宗旨,對系統(tǒng)在各方面所存在的不足和風險進行評估,并相應(yīng)找出合適的解決方案。
圖1 國庫集中支付系統(tǒng)架構(gòu)示意圖
要解決系統(tǒng)不停機的問題,我們必須先分析一下目前的環(huán)境下,威脅系統(tǒng)長時間正常運行的主要因素有哪些。
首先,從圖1可以看到,國庫集中支付系統(tǒng)是一個瀏覽器/服務(wù)器架構(gòu)的應(yīng)用系統(tǒng),目前各個網(wǎng)絡(luò)層已經(jīng)采用了鏈路冗余的可靠性措施,消除了網(wǎng)絡(luò)鏈路故障對系統(tǒng)正常運行的影響[1]。應(yīng)用層服務(wù)器采用了多服務(wù)器集群來消除單一應(yīng)用服務(wù)器故障對業(yè)務(wù)正常運行的影響,并且在多服務(wù)器之間還可以實現(xiàn)負載平衡。數(shù)據(jù)庫服務(wù)器采用了共享磁盤陣列的Oracle雙機熱備系統(tǒng),由于所有關(guān)鍵數(shù)據(jù)均存放在磁盤陣列內(nèi),若這個陣列發(fā)生了故障,將直接導致系統(tǒng)宕機,嚴重情況下還可能導致關(guān)鍵數(shù)據(jù)永久丟失。因此,在現(xiàn)有架構(gòu)下,此單一磁盤陣列可以認為是影響系統(tǒng)正常運行的單故障點。
其次,由于我們的所有服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備都在同一個機房內(nèi),若發(fā)生火災、水災、地震等自然災害,則將導致整個系統(tǒng)無法運行,甚至導致數(shù)據(jù)永久丟失。
由于容災系統(tǒng)牽涉到全省財政系統(tǒng)的統(tǒng)籌考慮,以及網(wǎng)絡(luò)等諸多外部因素的考慮,因此,在本方案中,我們不對系統(tǒng)容災方案進行闡述,但是要強調(diào)容災方案是系統(tǒng)業(yè)務(wù)可持續(xù)性方案的重要組成部分。在此,我們重點討論如何消除其它因素對系統(tǒng)正常運行的影響。
在現(xiàn)有架構(gòu)下,要保證系統(tǒng)不停,就必須解決磁盤陣列單點故障的問題。很容易想到的是,必須增加一臺磁盤陣列,通過磁盤陣列的冗余,來消除單一磁盤陣列故障對系統(tǒng)造成的不良影響。但問題的關(guān)鍵是新增的磁盤陣列如何融入現(xiàn)有系統(tǒng),才能達到最佳的效果。有兩種解決方案可以達到這個目的,一種是基于磁盤陣列復制的解決方案,一種是基于卷鏡像的解決方案。[2]
(1)基于磁盤陣列復制的解決方案
如圖2所示的解決方案需要一臺新的HP EVA磁盤陣列加入已有的SAN中,新舊兩臺EVA磁盤陣列工作在主從復制狀態(tài),也就是說,正常情況下服務(wù)器通過通道①僅對其中一臺磁盤陣列進行讀寫操作;兩臺EVA之間通過SAN網(wǎng)絡(luò)通道②之間進行同步或異步復制,從而保證兩臺磁盤陣列之間數(shù)據(jù)的一致性;在主磁盤陣列發(fā)生故障時,集群軟件控制自動切換到從磁盤陣列工作(如圖通道③所示),在切換過程中將導致業(yè)務(wù)中斷。
(2)基于卷鏡像的解決方案
圖3所示的解決方案需要一臺新的光纖磁盤陣列(可以是HP、EMC、IBM等任一廠商),將新購光纖磁盤陣列加入已有的SAN。在兩臺HP小型機上安裝Symantec Storage Foundation卷管理軟件,通過卷管理軟件建立跨磁盤陣列的鏡像卷,一個物理卷在原EVA5000磁盤陣列上,另一個物理卷在新磁盤陣列上。雙機集群通過建立的鏡像卷實現(xiàn)共享。這樣所有的讀寫操作均直接對鏡像卷進行,從而保證數(shù)據(jù)在兩個磁盤陣列上完全一致。此時若任一磁盤陣列出現(xiàn)故障,由于對鏡像卷而言,僅僅是其中一個鏡像卷副本失敗而已,所有對鏡像卷的操作仍可以正常進行,因此業(yè)務(wù)不會因為某一磁盤陣列故障而受到影響。
圖2 基于磁盤陣列復制的解決方案示意圖
圖3 基于卷鏡像的解決方案示意圖
對上面兩個方案進行比較,基于磁盤陣列復制的解決方案的優(yōu)點是不占用主機資源,對服務(wù)器性能影響?。黄淙秉c是必須選用同一廠商的磁盤陣列,并且磁盤陣列在承擔復制工作時,對存儲本身的性能也將會造成一定影響,最重要的是當主磁盤陣列故障時,一定要通過操作切換到從磁盤陣列工作,這個過程將造成業(yè)務(wù)中斷一段時間[3]?;阽R像卷的解決方案的優(yōu)點是由于所有的讀寫操作均是對鏡像卷進行,因此單一磁盤陣列的故障不會造成系統(tǒng)業(yè)務(wù)的中斷;從保證業(yè)務(wù)“不停”的角度考慮,我們選擇基于鏡像卷的解決方案作為保證系統(tǒng)不停機的優(yōu)先方案。
系統(tǒng)“不?!苯鉀Q方案無論是通過鏡像卷或是磁盤陣列復制方式,都存在著一個問題,由于鏡像或復制是在系統(tǒng)層或物理層實現(xiàn)的,它可以保證兩份數(shù)據(jù)完全一致,但是由于它與應(yīng)用無關(guān),一些非應(yīng)用合法的操作,如病毒等對數(shù)據(jù)文件的寫操作也被鏡像或復制,這就意味著物理錯誤也將被復制,最終的結(jié)果就是兩份數(shù)據(jù)文件都被破壞了,從而導致數(shù)據(jù)部分或安全丟失。因此在考慮數(shù)據(jù)“不丟”的方案時,必須從應(yīng)用層出發(fā)進行考慮,以消除由系統(tǒng)“不?!苯鉀Q方案帶來的負面因素的影響,使得我們的整體解決方案更加完整。
由于國庫集中支付系統(tǒng)的數(shù)據(jù)都是存放在Oracle數(shù)據(jù)庫中,因此只要數(shù)據(jù)庫數(shù)據(jù)完整也就意味著業(yè)務(wù)數(shù)據(jù)完整,我們將充分利用系統(tǒng)的這個特點進行方案設(shè)計??紤]到Oracle產(chǎn)品自身附帶了多種應(yīng)用復制解決方案,從節(jié)省投資的角度考慮,優(yōu)先選擇Oracle附帶的解決方案,只有其無法滿足時才考慮第三方解決方案。我們希望采用的方案不僅要能夠滿足我們基于應(yīng)用進行復制的考量,還必須是盡可能的少占用服務(wù)器系統(tǒng)資源,減少對業(yè)務(wù)系統(tǒng)性能的影響。
Oracle公司從Oracle9i開始推出了一種功能強大,更能有效地實施災難恢復的解決方案Oracle Data Guard。Oracle Data Guard采用主數(shù)據(jù)庫正常運行,一個或多個備用數(shù)據(jù)庫進行備份的方式保護數(shù)據(jù)庫,備用數(shù)據(jù)庫的備份、管理和監(jiān)視工作都是自動完成的,當主數(shù)據(jù)庫宕機發(fā)生時,至少有一個備用數(shù)據(jù)庫馬上投入使用,使應(yīng)用程序的運行不會間斷,避免了系統(tǒng)的癱瘓。
Oracle9i Data Guard 通過使用稱為standby database的數(shù)據(jù)庫來防止出現(xiàn)數(shù)據(jù)的災難。它通過將生產(chǎn)數(shù)據(jù)庫的重做日志傳到并應(yīng)用到備用數(shù)據(jù)庫來使備用數(shù)據(jù)庫與生產(chǎn)數(shù)據(jù)庫同步,來達到不同的數(shù)據(jù)庫數(shù)據(jù)保護級別,有如下三種保護模式:
(1)最大保護模式(Maximum protection):規(guī)定在修改主數(shù)據(jù)庫時,至少有一個備用數(shù)據(jù)庫有效。假如主(Primary Database)備(Standby Database)之間的連接中斷,Oracle會通過中斷主實例的工作來防止主備數(shù)據(jù)庫之間的數(shù)據(jù)的不一致,保證無數(shù)據(jù)丟失。這種模式對數(shù)據(jù)庫性能的影響較大。
(2)最大可用性模式(Maximum availability):規(guī)定在修改主數(shù)據(jù)庫時,至少有一個備用數(shù)據(jù)庫有效。與最大保護模式不同的是當主備數(shù)據(jù)庫之間的連接中斷時,允許主備數(shù)據(jù)庫之間的數(shù)據(jù)的不一致,并當恢復連接后,自動解決數(shù)據(jù)不一致的現(xiàn)象。這種模式對主數(shù)據(jù)庫的性能有較小的影響。
圖4為最大保護與最大可用性模式的原理示意圖。
(3)最大性能模式(Maximum performance):如圖5所示,主數(shù)據(jù)庫的修改快速應(yīng)用在備用數(shù)據(jù)庫上。會出現(xiàn)數(shù)據(jù)丟失,但對數(shù)據(jù)庫性能的影響小。該模式即使在網(wǎng)絡(luò)連接有效時,也允許主數(shù)據(jù)庫與所有的備用數(shù)據(jù)庫有數(shù)據(jù)分歧,數(shù)據(jù)的丟失量等同于主數(shù)據(jù)庫聯(lián)機重做日志的未歸檔數(shù)。
Data Guard能實現(xiàn)如下功能:
1)數(shù)據(jù)庫的切換
允許DBA在主數(shù)據(jù)庫故障期間將備用數(shù)據(jù)庫切換成主數(shù)據(jù)庫,以響應(yīng)用戶的請求。Data Guard的這種特性保證了數(shù)據(jù)不會丟失,并且避免數(shù)據(jù)庫恢復期間無法處理用戶的請求。
2)數(shù)據(jù)庫的高可用性
Oracle Data Guard是由主數(shù)據(jù)庫和一到多個備用數(shù)據(jù)庫構(gòu)成,這些數(shù)據(jù)庫在Data Guard的環(huán)境中稱為站點,通常各個站點以松散的方式分布在各地,所以,即使單個地區(qū)遇到地震、火災、洪水等自然災害,數(shù)據(jù)庫的數(shù)據(jù)也會得到很好地保護。
3)站點數(shù)據(jù)同步
在Data Guard環(huán)境中,將一個站點設(shè)置為主站點,用來響應(yīng)用戶的請求,事務(wù)對數(shù)據(jù)庫所做的修改,以歸檔日志的形式由日志傳輸服務(wù)自動從主站點傳送到各個備用站點,以實現(xiàn)備用站點與主站點的同步。
4)防止數(shù)據(jù)庫的物理損壞
備用數(shù)據(jù)庫提供了防止數(shù)據(jù)損壞和用戶錯誤的安全保護。主數(shù)據(jù)庫上的存儲器級物理損壞不會傳播到備用數(shù)據(jù)庫上;同樣,導致主數(shù)據(jù)庫永久損壞的邏輯損壞或用戶錯誤也能夠得到解決;最后,在將重做數(shù)據(jù)應(yīng)用到備用數(shù)據(jù)庫時會對其進行驗證。
正因為Oracle Data Guard具有這些顯著特點,并考慮到我廳的實際情況,可以利用已有的HP小型機異地部署來實現(xiàn)國庫集中支付系統(tǒng)生產(chǎn)數(shù)據(jù)庫的備用數(shù)據(jù)庫,從而進一步提高系統(tǒng)的數(shù)據(jù)安全性和系統(tǒng)可靠性。
在系統(tǒng)“可恢復”方面,由于我廳在國庫集中支付系統(tǒng)建設(shè)的初期就對此作了比較全面的考慮,目前已經(jīng)建設(shè)成覆蓋全廳所有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)備份/恢復系統(tǒng),該系統(tǒng)在系統(tǒng)日常維護中發(fā)揮的重要的作用。系統(tǒng)“可恢復”解決方案簡而言之就是通過采用合適的備份軟件和硬件,制定合理的備份/恢復策略以及管理制度整合而成的數(shù)據(jù)備份/恢復系統(tǒng)。
由于數(shù)據(jù)備份的周期性執(zhí)行特性,決定了其具有歷史性和后備性的特點。其歷史性是指通過其周期性的備份執(zhí)行,建立起目標對象的周期性多份備份存檔,該存檔隨著時間的推移不斷更新。那這樣的備份有什么現(xiàn)實意義呢?我們做個假設(shè),周一的時候系統(tǒng)管理員誤操作,把某一表中的數(shù)據(jù)誤刪除了,但是當時沒發(fā)現(xiàn),當周五的時候才發(fā)現(xiàn),這個時候若沒有歷史備份將會發(fā)生什么是不言而喻的??梢哉f正是數(shù)據(jù)備份的這種歷史性,決定了其不可替代的作用。至于后備性是指數(shù)據(jù)備份的數(shù)據(jù)總是落后于最新的生產(chǎn)數(shù)據(jù)。但數(shù)據(jù)備份的介質(zhì)通常是磁帶等非易失性存儲介質(zhì),并且允許脫機異地保存。這些特點決定當所有在線的方式失效時,我們可以通過異地取回的歷史介質(zhì)進行最后的恢復嘗試。數(shù)據(jù)備份/恢復系統(tǒng)的這些特性決定了其在系統(tǒng)“可恢復”解決方案中的不可替代性。我廳將在目前的數(shù)據(jù)備份系統(tǒng)的基礎(chǔ)上優(yōu)化備份窗口,并建立更加完善的介質(zhì)異地保存和恢復測試制度。
通過本方案建設(shè),充分保證了國庫集中支付系統(tǒng)安全可靠地持續(xù)運行,為財政今后信息系統(tǒng)的可持續(xù)運行建設(shè)積累了寶貴的經(jīng)驗。系統(tǒng)從“不停”、“不丟”、“可恢復”等各個方面分別采取不同的解決方案,對各種解決方案進行取長補短,統(tǒng)籌規(guī)劃達到我們預期的建設(shè)目標。
[1] 李楓,等.使用負載均衡技術(shù)的高可用性主機服務(wù)器集群[J].計算機工程與應(yīng)用,2003(16):97-99.
[2] 李濤等.信息系統(tǒng)容災抗毀原理與應(yīng)用[M].北京:人民郵電出版社,2007:65-68.
[3] 張冬.大話存儲[M].北京:清華大學出版社,2008:355-356.
Investigation of the sustainable solution for the government fiscal management information system
ZHANG An
(Information centre of finance & taxation of Fujian,F(xiàn)uzhou Fujian 350003,China)
This paper focuses on the sustainable operation of the government fiscal management information system. Based on the related experiences of the information system in other sectors, this paper brings out the sustainable solution for the treasury single account system. And the advantages and shortcomings of the scheme also is discussed in the paper. The practice of the sustainable solution about this project can be used in other system.
Treasury Single Account System; Sustainable Operation; Solution.
圖4 最大保護與最大可用性模式的原理示意圖
圖5 最大性能模式原理示意圖
F490.3
A
1673-1417(2011)02-0035-06
2011-04-20
張岸(1973-),男,福建閩侯人,工程師,本科,主要研究方向:IT系統(tǒng)分析。
(責任編輯:季平)