陳炎
(江蘇省農(nóng)村信用社聯(lián)合社 江蘇 南京 210019)
隨著金融服務(wù)范圍和渠道的不斷擴(kuò)大,銀行IT系統(tǒng)架構(gòu)不斷復(fù)雜,金融監(jiān)管要求越來越嚴(yán)格。建立高效、實(shí)用的“兩地三中心“整體容災(zāi)體系是每家銀行面臨的實(shí)際問題,本文以南方省級(jí)農(nóng)商銀行為例,介紹了該行在IBM大型機(jī)平臺(tái)建設(shè)“兩地三中心”的過程和運(yùn)維探索。
核心銀行系統(tǒng)向客戶提供存款、貸款、支付等最基礎(chǔ)的銀行服務(wù),為所有重要業(yè)務(wù)提供帳務(wù)處理,是銀行系統(tǒng)的基礎(chǔ)和核心,也是銀行最重要的系統(tǒng)。該農(nóng)商銀行采用大型機(jī)作為核心銀行系統(tǒng)的硬件基礎(chǔ)平臺(tái),于2011年隨新一代綜合業(yè)務(wù)系統(tǒng)投產(chǎn)上線。
上線初期,改行采用六臺(tái)IBM Z10-BC主機(jī)構(gòu)建一套SYSPLEX集群,其中四臺(tái)主機(jī)均衡的承擔(dān)業(yè)務(wù)的運(yùn)行,一臺(tái)外置CF負(fù)責(zé)并行耦合環(huán)境的交互,當(dāng)集群內(nèi)仍一節(jié)點(diǎn)發(fā)生故障,業(yè)務(wù)會(huì)自動(dòng)分發(fā)至其他三節(jié)點(diǎn)運(yùn)行,實(shí)現(xiàn)同一站點(diǎn)集群內(nèi)的高可用和負(fù)載均衡。
同時(shí)在建設(shè)中充分考慮了災(zāi)備建設(shè)的需求,實(shí)現(xiàn)了核心系統(tǒng)同城數(shù)據(jù)級(jí)災(zāi)備,即在30KM里外的災(zāi)備中心放置一臺(tái)備份存儲(chǔ)和一臺(tái)備份磁帶庫,雙中心通過DWDM設(shè)備級(jí)聯(lián)。主生產(chǎn)機(jī)房的主機(jī)可通過兩臺(tái)SAN交換機(jī)訪問本地DS8700存儲(chǔ)和TS3500帶庫,也可以通過DWDM級(jí)聯(lián)的方式訪問災(zāi)備機(jī)房DS8700存儲(chǔ)和TS3500帶庫。且對(duì)生產(chǎn)環(huán)境的存儲(chǔ)實(shí)施PPRC同步復(fù)制技術(shù),將數(shù)據(jù)實(shí)時(shí)的拷貝到災(zāi)備站點(diǎn)的存儲(chǔ)上,同時(shí)利用IBM GDPS/PPRC方案實(shí)時(shí)監(jiān)控并及時(shí)捕捉通知災(zāi)難發(fā)生的觸發(fā)器信號(hào),當(dāng)存儲(chǔ)發(fā)生災(zāi)難時(shí)自動(dòng)觸發(fā)切換。
隨著業(yè)務(wù)的發(fā)展和監(jiān)管的要求,改行于2012年啟動(dòng)系統(tǒng)級(jí)同城災(zāi)備建設(shè),在災(zāi)備中心采購一臺(tái)大容量災(zāi)備主機(jī),日常模式下該主機(jī)處于待機(jī)狀態(tài),當(dāng)發(fā)生故障導(dǎo)致生產(chǎn)中心整體無法對(duì)外提供服務(wù)時(shí),可臨時(shí)激活災(zāi)備中心主機(jī)容量,并在災(zāi)備主機(jī)上啟動(dòng)生產(chǎn)系統(tǒng)以繼續(xù)對(duì)外提供服務(wù)。
關(guān)鍵技術(shù):
PPRC技術(shù)
保證數(shù)據(jù)一致性。PPRC是以存儲(chǔ)為基礎(chǔ)的、實(shí)時(shí)的數(shù)據(jù)遠(yuǎn)程鏡像功能。PPRC災(zāi)難備份方案將確保如果備份卷不能被更新,那么即使源卷更新成功,整個(gè)寫操作也會(huì)返回失敗--徹底保證源卷和目的卷的數(shù)據(jù)徹底一致。
操作性強(qiáng)。PPRC實(shí)現(xiàn)相對(duì)簡單,其操作可在存儲(chǔ)上或操作系統(tǒng)上完成,且可配合GDPS等自動(dòng)化工具方便操作。
應(yīng)用透明性。PPRC是一種同步協(xié)議,它允許數(shù)據(jù)從一個(gè)邏輯單元(Logical Unit)到另一個(gè)邏輯單元進(jìn)行實(shí)時(shí)的鏡像。PPRC是與應(yīng)用無關(guān)的。由于該復(fù)制功能是在磁盤系統(tǒng)級(jí)發(fā)生的,應(yīng)用根本不知道PPRC的存在。
GDPS技術(shù)
改行災(zāi)備恢復(fù)方案采用了GDPS技術(shù),它是基于主機(jī)SA和NETVIEW開發(fā)的,實(shí)現(xiàn)了災(zāi)難備份與恢復(fù)的自動(dòng)化。其主要特點(diǎn)有:
與PPRC有機(jī)結(jié)合。GDPS可以完成對(duì)所有PPRC備份和恢復(fù)的集中控制,通過GDPS SYSPLEX的K系統(tǒng),有效地實(shí)現(xiàn)災(zāi)備系統(tǒng)的集中管理。
備份與恢復(fù)流程自動(dòng)化。使用GDPS,可以很方便地實(shí)現(xiàn)磁盤數(shù)據(jù)復(fù)制的自動(dòng)化、數(shù)據(jù)恢復(fù)自動(dòng)化、災(zāi)難備份系統(tǒng)管理自動(dòng)化等功能,保證系統(tǒng)的可恢復(fù)性。
保證災(zāi)難恢復(fù)時(shí)間。由于實(shí)現(xiàn)了備份和恢復(fù)的自動(dòng)化、流程化,經(jīng)過充分演練后的災(zāi)難恢復(fù)流程可以準(zhǔn)確保證災(zāi)難恢復(fù)時(shí)間。
易于開發(fā)實(shí)施??梢岳肎DPS提高的各種SCRIPTS,方便地實(shí)現(xiàn)各種自動(dòng)化工作,可開發(fā)性強(qiáng),操作簡便。
按照銀監(jiān)會(huì)《商業(yè)銀行數(shù)據(jù)中心監(jiān)管指引》,總資產(chǎn)規(guī)模一千億元人民幣以上且跨省設(shè)立分支機(jī)構(gòu)的法人商業(yè)銀行,及省級(jí)農(nóng)村信用聯(lián)合社應(yīng)設(shè)立異地模式災(zāi)備中心,重要信息系統(tǒng)災(zāi)難恢復(fù)能力應(yīng)達(dá)到《 信息安全技術(shù)信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》 中定義的災(zāi)難恢復(fù)等級(jí)第5級(jí)(含)以上,改行于2015年啟動(dòng)核心系統(tǒng)異地?cái)?shù)據(jù)級(jí)災(zāi)備建設(shè)項(xiàng)目。
本次異地?cái)?shù)據(jù)級(jí)災(zāi)備項(xiàng)目建設(shè)中核心系統(tǒng)的數(shù)據(jù)將被傳輸?shù)疆惖貫?zāi)備中心,在發(fā)生重大自然災(zāi)害造成生產(chǎn)中心和同城災(zāi)備中心機(jī)器都癱瘓的情況下,將在一定程度上保證核心系統(tǒng)的數(shù)據(jù)不丟失。但由于傳輸距離遠(yuǎn),且選擇異步傳輸?shù)姆绞?,?shù)據(jù)的傳輸會(huì)有一定程度的滯后。
根據(jù)現(xiàn)有同城災(zāi)備架構(gòu)及實(shí)現(xiàn)異地?cái)?shù)據(jù)級(jí)復(fù)制的目標(biāo),在考慮到今后將異地災(zāi)備完善成系統(tǒng)級(jí)災(zāi)備乃至實(shí)現(xiàn)雙活的因素下,項(xiàng)目采用Global Mirror技術(shù)實(shí)現(xiàn)異地?cái)?shù)據(jù)復(fù)制,生產(chǎn)中心產(chǎn)生的數(shù)據(jù)在實(shí)時(shí)地同步到同城災(zāi)備中心的同時(shí),再由同城災(zāi)備中心異步地同步到異地災(zāi)備中心。在帶寬充裕的前提下,采用Global Mirror實(shí)現(xiàn)異地?cái)?shù)據(jù)復(fù)制的RPO約為3-10秒。
如上圖所示:Global Mirror是基于PPRC-XD(異步數(shù)據(jù)傳輸)和Flash Copy(數(shù)據(jù)快照)的異步數(shù)據(jù)復(fù)制技術(shù),同時(shí)可以確保異地磁盤的數(shù)據(jù)一致性。數(shù)據(jù)采用PPRC-XD技術(shù)由主盤(A盤)傳輸?shù)疆惖乇P,同時(shí)定期在主盤(A盤)創(chuàng)建“一致性組”( Consistency Group),該一致性組是由一系列“位圖”(Bitmaps)來記錄數(shù)據(jù)同步情況。當(dāng)一致性組中的所有磁盤都完成了未同步數(shù)據(jù)的傳輸,在異地磁盤執(zhí)行Flash Copy(B盤到C盤),這樣就保留了一套一致的數(shù)據(jù)。
由于原有冷備模式,災(zāi)備恢復(fù)的過程人工干預(yù)較多,恢復(fù)時(shí)間受人員到位情況和熟練度影響較高。目前同城災(zāi)備的RTO(災(zāi)難恢復(fù)時(shí)間)為4小時(shí),在發(fā)生機(jī)房級(jí)故障時(shí)災(zāi)難恢復(fù)時(shí)間無法滿足監(jiān)管機(jī)構(gòu)相關(guān)要求。
為進(jìn)一步提高核心系統(tǒng)服務(wù)能力,滿足業(yè)務(wù)連續(xù)性和相關(guān)監(jiān)管機(jī)構(gòu)要求,該行于2018啟動(dòng)核心系統(tǒng)主機(jī)同城溫備建設(shè)。在生產(chǎn)六臺(tái)主機(jī)各新增兩塊IFB板卡用于和災(zāi)備主機(jī)進(jìn)行遠(yuǎn)程IFB 1X互聯(lián),在災(zāi)備主機(jī)上新增一套災(zāi)備管理系統(tǒng)和第五節(jié)點(diǎn)系統(tǒng)P105,并于原有系統(tǒng)構(gòu)建一個(gè)跨雙中心的Parallel Sysplex高可用系統(tǒng),同時(shí)采用GDPS/PPRC HyperSwap, 確保災(zāi)難發(fā)生后生產(chǎn)系統(tǒng)和數(shù)據(jù)能快速切換到災(zāi)備主機(jī)和備份磁盤,實(shí)現(xiàn)生產(chǎn)系統(tǒng)災(zāi)難接管。當(dāng)發(fā)生計(jì)劃內(nèi)切,換時(shí),RTO(災(zāi)難恢復(fù)時(shí)間)大概為5分鐘。
為進(jìn)一步檢驗(yàn)大型機(jī)核心業(yè)務(wù)系統(tǒng)在真實(shí)災(zāi)難場景下所能承載的處理能力,該行于2019年11月某日凌晨將核心業(yè)務(wù)系統(tǒng)切換至同城災(zāi)備中心運(yùn)行,核心業(yè)務(wù)系統(tǒng)在同城災(zāi)備平穩(wěn)運(yùn)行兩個(gè)日間業(yè)務(wù)時(shí)段和兩個(gè)夜間批量業(yè)務(wù)時(shí)段后順利回切至生產(chǎn)中心。
經(jīng)過不斷的建設(shè)與完善,該行基于大型機(jī)的兩地三中心災(zāi)備架構(gòu)滿足了監(jiān)管機(jī)構(gòu)對(duì)于災(zāi)備建設(shè)的相關(guān)監(jiān)管要求,也提升了自身業(yè)務(wù)連續(xù)性管理能力,同時(shí)提高了災(zāi)備中心資源利用率。但在移動(dòng)互聯(lián)網(wǎng)、線上支付、電子商務(wù)飛速發(fā)展的時(shí)代,推動(dòng)信息系統(tǒng)從傳統(tǒng)集中式架構(gòu)為主的架構(gòu)體系,向集中式和分布式架構(gòu)有機(jī)融合的架構(gòu)體系進(jìn)行轉(zhuǎn)型也是未來有待探索和實(shí)現(xiàn)的道路。