一、概述
國內某銀行的核心業(yè)務系統(tǒng)部署在2臺IBM AS400服務器上,2007年上線,采用Vision OMS構建基于數(shù)據(jù)庫日志復制技術的業(yè)務連續(xù)性方案。2011年啟動災備項目建設,把核心拓撲結構擴展為3個節(jié)點。在本地生產(chǎn)機房部署兩個節(jié)點,在生產(chǎn)機發(fā)生異常的情況下切換到本地備機;在遠程災備機房部署災備機,在生產(chǎn)機房發(fā)生停電、火災等異常的情況下,外圍服務器連接到災備機房保持銀行核心基本業(yè)務的順暢、持續(xù)運行。
本文以該銀行的災備項目為背景,對基于IBM AS400+ Vision OMS的業(yè)務連續(xù)性方案的設計、實施、驗證等環(huán)節(jié)進行展開。
二、基于OMS的核心業(yè)務拓撲結構
該銀行核心業(yè)務系統(tǒng)部署在3個節(jié)點上,生產(chǎn)機房2個節(jié)點,災備機房1個節(jié)點。該方案的典型特征為:(1)生產(chǎn)機房部署所有需要的外圍設備,承擔所有銀行業(yè)務;而災備機房受到空間的限制通常僅部署最核心的外圍支持系統(tǒng),僅能承擔少數(shù)核心銀行業(yè)務。(2)生產(chǎn)機房和災備機房之間通常使用150MB的帶寬即可滿足OMS復制的需要。
三、OMS切換操作
高可用方案設計的目的就是要通過switch-over或者fail-over來實現(xiàn)業(yè)務連續(xù)運行。根據(jù)切換場景的不,有兩種可能出現(xiàn)的場景:(1)計劃切換;(2)非計劃切換。計劃性切換,通常發(fā)生在以下場景中:(1)生產(chǎn)機硬件維護,例如更換RAID卡電池,更換已經(jīng)損壞的冗余電源;(2)更換RAID5陣列發(fā)生損壞的硬盤等;(3)主機操作系統(tǒng),或重要軟件的升級;(4)安裝PTF。
計劃性切換也需要安排業(yè)務中斷,通常會安排在周末夜晚進行,以便最大限度的減小對生產(chǎn)的影響。
非計劃切換則往往發(fā)生在主機發(fā)生異常故障,已經(jīng)無法負擔生產(chǎn)任務的情況下,切換到備份機繼續(xù)運行業(yè)務的場景。非計劃切換發(fā)生的情況包括:(1)主機發(fā)生關鍵硬件故障;(2)生產(chǎn)機出現(xiàn)宕機等異常情況,業(yè)務性能降低嚴重影響業(yè)務;(3)出現(xiàn)系統(tǒng)或數(shù)據(jù)庫異常,修復時間超過允許范圍。
切換是一個復雜的過程,除了完成數(shù)據(jù)庫對象的反向復制以外,還需要考慮到業(yè)務連續(xù)性的要求,外圍設備的連接等綜合的要求。通常的業(yè)務切換需要考慮以下環(huán)節(jié):(1)IP interface的切換;(2)Job Schedule Entry的設置;(3)User Profile的設置。
正常情況下,業(yè)務在生產(chǎn)機運行,備份機和災備機作為復制的目標節(jié)點。
當切換到備份機以后,GRPA復制鏈路執(zhí)行change role動作,翻轉復制的方向;同時激活GRPC,實現(xiàn)從備份機到災備機的數(shù)據(jù)復制;同時需要停止由生產(chǎn)到災備的復制鏈路GRPB。
當切換到災備以后,GRPB復制鏈路反向,GRPC復制鏈路反向,停止GRPA復制鏈路。
非計劃切換:(1)進入OMS400主菜單,在連接前選2并執(zhí)行切換,備份機狀態(tài)將從Normal Target改為SOURCE REVERSE。根據(jù)生產(chǎn)機宕機時備份機上的狀態(tài),該過程可能會比正常的切換慢。(2)在備份機上輸入:ADDLIBLE ODS400,回車。輸入INZODS,回車。(3)在備份機上輸入ODS400命令,進入ODS主菜單。(4)選擇選項6(Change System Role),并輸入回車。(5)在備份機上激活生產(chǎn)用IP地址。方法為:CFGTCP;選1 Work with TCP/IP interface,回車;找到相關IP地址,在其前面選9,回車,在按安F5刷新,直到該地址變成ACTIVE。(6)這時備份機已經(jīng)接替生產(chǎn)機的工作,用戶可以用原有的IP地址訪問系統(tǒng),作業(yè)實際發(fā)生在備份機上。(7)修復生產(chǎn)機。在確保其生產(chǎn)用網(wǎng)線仍未連接交換機的前提下開機。在生產(chǎn)機終端上用QSECOFR登錄。(8)在生產(chǎn)機上,關閉生產(chǎn)用IP地址,方法是:CFGTCP;選1 Work with TCP/IP interface,回車;找到相關IP地址,在其前面選10 ( END ),回車,再按F5刷新,直到該地址變成INACTIVE。(9)在生產(chǎn)機上用QSECOFR登錄。(10)在生產(chǎn)機上確認沒有其他終端連接時,輸入命令OMS400并回車執(zhí)行,以進入OMS400的主菜單。可以看到連接PRDBCK。其狀態(tài)是:SOURCE NORMAL。(11)在這個連接前選2并執(zhí)行。生產(chǎn)機將進行切換,其狀態(tài)變成TARGET REVERSE。(12)在生產(chǎn)機上,輸入ODS400命令,進入ODS主菜單。(13)選擇選項6(Change System Role),并輸入回車。(14)在備份機上輸入STROMS,并確認OMS在備份機上已經(jīng)啟動。(15)在生產(chǎn)機上輸入STROMS,并確認OMS在生產(chǎn)機上已經(jīng)啟動。(16)在備份機上輸入STRODS。(17)系統(tǒng)將用一段時間追同步。(18)重新連接生產(chǎn)機對外的網(wǎng)線。(19)激活生產(chǎn)機上的備份用IP地址。(20)這時兩臺機器的狀態(tài)類似于計劃切換后的狀態(tài)。用戶可以用生產(chǎn)用IP地址訪問系統(tǒng),但作業(yè)運行在備份機上,生產(chǎn)機在追同步后將繼續(xù)備份原備份機上的數(shù)據(jù)。(21)等追同步后反向切換將兩系統(tǒng)的角色重置。
四、結束語
銀行投資搭建的基于OMS的高可用架構就是為了在生產(chǎn)機無法繼續(xù)正常運行的情況下把生產(chǎn)切換到運行能力相當?shù)膫浞輽C或災備機,保證銀行業(yè)務的連續(xù)運行。每年進行2到3次的計劃切換,一方面驗證切換流程的正確性,一方面也加強運維人員對切換流程的熟練程度。隨著我國經(jīng)濟的高速發(fā)展,即使是核心業(yè)務也要經(jīng)常發(fā)生變更,而這些變更是否會對切換造成影響,除了在理論上進行驗證,也必須通過切換實戰(zhàn)來進行驗證。