陳世亮
隨著企業(yè)IT系統(tǒng)的建設(shè),決策者已經(jīng)意識(shí)到不能依賴單一的云環(huán)境,需要建設(shè)多云環(huán)境來(lái)承擔(dān)技術(shù)的風(fēng)險(xiǎn)。多云建設(shè)帶來(lái)容災(zāi)的挑戰(zhàn),如何建設(shè)完整的容災(zāi)管理系統(tǒng),統(tǒng)一進(jìn)行容災(zāi)調(diào)度,來(lái)提升企業(yè)抵御多云下防范風(fēng)險(xiǎn)的能力。本文在分析某公司現(xiàn)有環(huán)境下,基于業(yè)務(wù)連續(xù)性針對(duì)其業(yè)務(wù)和IT系統(tǒng)特點(diǎn),提出了一種適應(yīng)該類公司業(yè)務(wù)系統(tǒng)的容災(zāi)管理系統(tǒng)建設(shè)方法。
某運(yùn)營(yíng)中心承接集團(tuán)各類營(yíng)銷渠道的規(guī)劃、建設(shè)、日常運(yùn)營(yíng)以及推廣拓展等工作。考慮到業(yè)務(wù)系統(tǒng)的健壯性,在北京、廣州和上海建設(shè)了3個(gè)云資源池,分別部署不同的業(yè)務(wù)。隨著業(yè)務(wù)的發(fā)展,3個(gè)云資源池陸續(xù)出現(xiàn)一些運(yùn)營(yíng)上的問(wèn)題,主用系統(tǒng)出現(xiàn)故障后,無(wú)法快速地切換到備用系統(tǒng),而且從故障出現(xiàn)到故障判斷、決策,準(zhǔn)備切換到真正切換耗時(shí)良久,導(dǎo)致業(yè)務(wù)長(zhǎng)時(shí)間中斷,對(duì)生產(chǎn)經(jīng)營(yíng)產(chǎn)生了嚴(yán)重的影響,造成了重大經(jīng)濟(jì)損失。為了解決快速切換問(wèn)題,運(yùn)營(yíng)中心提出容災(zāi)管理系統(tǒng)的建設(shè)需求,目標(biāo)是解決由于故障導(dǎo)致長(zhǎng)時(shí)間業(yè)務(wù)中斷問(wèn)題,以實(shí)現(xiàn)快速切換業(yè)務(wù),提升業(yè)務(wù)連續(xù)性。
對(duì)運(yùn)營(yíng)中心進(jìn)行調(diào)研分析,IT系統(tǒng)現(xiàn)狀如下:在上海云資源池部署互聯(lián)網(wǎng)卡系統(tǒng)、自營(yíng)支付系統(tǒng)、網(wǎng)廳系統(tǒng)以及實(shí)名系統(tǒng)等,在廣州和北京部署了部分業(yè)務(wù)系統(tǒng)如訂單查詢、系統(tǒng)報(bào)竣等。在廣州和北京部署了網(wǎng)廳、互聯(lián)網(wǎng)卡以及自營(yíng)支付和實(shí)名等系統(tǒng)的備用系統(tǒng),部分查詢功能在這2個(gè)節(jié)點(diǎn)實(shí)現(xiàn)。在資源池之間已經(jīng)建立了數(shù)據(jù)同步機(jī)制,在上海和廣州之間搭建了基于存儲(chǔ)的復(fù)制體系,核心數(shù)據(jù)庫(kù)可通過(guò)存儲(chǔ)進(jìn)行同步,在上海和北京之間搭建了基于OGG的數(shù)據(jù)庫(kù)復(fù)制體系,核心數(shù)據(jù)庫(kù)通過(guò)日志方式同步。應(yīng)用系統(tǒng)之間尚未建立同步機(jī)制,采用同步部署的方式以及版本發(fā)布同時(shí)進(jìn)行的方式保持?jǐn)?shù)據(jù)一致。
基于上述IT現(xiàn)狀,分析后可知3個(gè)資源池之間已經(jīng)具備了應(yīng)用切換的基礎(chǔ),但要實(shí)現(xiàn)快速切換還需要增加應(yīng)用之間的同步,通過(guò)應(yīng)用復(fù)制軟件將上海的文件同步復(fù)制到廣州和北京,滿足三朵云之間的數(shù)據(jù)一致需求,考慮到廣州網(wǎng)絡(luò)條件更好,優(yōu)先切換到廣州。根據(jù)現(xiàn)狀,制定容災(zāi)系統(tǒng)建設(shè)的思路:將部署在上海的自營(yíng)支付系統(tǒng)、互聯(lián)網(wǎng)卡系統(tǒng)和網(wǎng)廳系統(tǒng)納入到容災(zāi)管理系統(tǒng),通過(guò)容災(zāi)管理系統(tǒng)進(jìn)行DNS管理和切換管理,配合災(zāi)難恢復(fù)預(yù)案、災(zāi)備演練方案以及容災(zāi)運(yùn)營(yíng)方案,實(shí)現(xiàn)上海出現(xiàn)故障后,能夠自動(dòng)快速地將業(yè)務(wù)切換到廣州或者北京,RPO和RTO都達(dá)到30 min以內(nèi)。運(yùn)營(yíng)中一旦上海出現(xiàn)災(zāi)難,則采用系統(tǒng)閾值判斷或者通過(guò)人工干預(yù)方式啟動(dòng)切換系統(tǒng),通過(guò)調(diào)用切換引擎驅(qū)動(dòng)應(yīng)用系統(tǒng)和數(shù)據(jù)庫(kù)的切換,進(jìn)行相應(yīng)的配置更改和通報(bào),實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的完全切換,達(dá)到業(yè)務(wù)連續(xù)的目的。
根據(jù)上述思路,構(gòu)建容災(zāi)管理系統(tǒng)功能體系,包括預(yù)案管理、應(yīng)急管理、切換管理及演練管理等主要功能以及關(guān)聯(lián)關(guān)系管理、配置管理、日志管理及業(yè)務(wù)驗(yàn)證等輔助功能。其中預(yù)案管理用于災(zāi)難恢復(fù)預(yù)案的統(tǒng)一管理,用戶采用拖拽方式將文本預(yù)案的各個(gè)環(huán)節(jié)錄入到系統(tǒng),形成電子預(yù)案。組織結(jié)構(gòu)和流程等因素將綁定到流程中,充分降低預(yù)案管理的工作量、難度和復(fù)雜度。預(yù)案管理實(shí)現(xiàn)的功能包括預(yù)案控制、模板控制、流程關(guān)聯(lián)以及報(bào)表關(guān)聯(lián)等。
演練管理用于保證業(yè)務(wù)連續(xù)性計(jì)劃和預(yù)案可以得到持續(xù)、全面的檢驗(yàn)。通過(guò)演練,各部門熟悉緊急事件處理的過(guò)程和方法以及部門人員間的分工和協(xié)作機(jī)制,從而保證業(yè)務(wù)連續(xù)性計(jì)劃可以長(zhǎng)期有效的執(zhí)行。根據(jù)演練的目的不同,有桌面演練、模擬演練及實(shí)戰(zhàn)演練等不同的方式。演練管理實(shí)現(xiàn)功能包括演練流程管理、腳本管理、過(guò)程管理及大屏展示等。
切換管理則是以任務(wù)控制模塊為核心,構(gòu)建高度可伸縮的、具備容錯(cuò)性的切換管理自動(dòng)化引擎。引擎構(gòu)建后根據(jù)預(yù)先定制的場(chǎng)景和切換步驟對(duì)整個(gè)系統(tǒng)切換做自動(dòng)處理,以不同用戶在不同主機(jī)系統(tǒng)上執(zhí)行切換指令來(lái)實(shí)現(xiàn)系統(tǒng)的自動(dòng)化切換。切換自動(dòng)化管理包括腳本管理、流程設(shè)計(jì)和部署、流程關(guān)聯(lián)以及腳本關(guān)聯(lián)等。
應(yīng)急管理是對(duì)突發(fā)事件發(fā)生后所采取的措施和行動(dòng),是確定是否進(jìn)行災(zāi)備切換的前期過(guò)程,包括事件上報(bào)、災(zāi)難預(yù)警、災(zāi)害評(píng)估和災(zāi)難宣告等步驟。當(dāng)發(fā)生災(zāi)難事件時(shí),在事件上報(bào)模塊中上報(bào),接著在災(zāi)難預(yù)警和災(zāi)害評(píng)估中對(duì)此事件進(jìn)行分析,最終在災(zāi)難宣告中確定是否進(jìn)行災(zāi)備切換。
運(yùn)營(yíng)中心在3個(gè)云資源池之間部署了容災(zāi)管理系統(tǒng)并根據(jù)業(yè)務(wù)系統(tǒng)和組織架構(gòu)的特性,對(duì)容災(zāi)管理系統(tǒng)進(jìn)行配置。首先,配置容災(zāi)管理的崗位、角色和權(quán)限,將主機(jī)、存儲(chǔ)及網(wǎng)絡(luò)等基礎(chǔ)信息錄入到系統(tǒng)。其次,在預(yù)案管理模塊中配置了3個(gè)電子預(yù)案:自營(yíng)支付系統(tǒng)切換預(yù)案、互聯(lián)網(wǎng)卡系統(tǒng)切換預(yù)案以及網(wǎng)廳系統(tǒng)切換預(yù)案;隨后,梳理3個(gè)業(yè)務(wù)系統(tǒng)的啟動(dòng)流程,把應(yīng)用的啟停、數(shù)據(jù)庫(kù)的啟停、數(shù)據(jù)庫(kù)的連接、存儲(chǔ)的掛載、網(wǎng)絡(luò)的切換以及DNS域名解析的修改等各種腳本配置到切換管理的切換引擎中,通過(guò)切換引擎將腳本和各業(yè)務(wù)系統(tǒng)主機(jī)進(jìn)行關(guān)聯(lián)綁定,同時(shí)將組織、角色和切換步驟進(jìn)行綁定。此外還有應(yīng)急管理、日志管理以及報(bào)表管理的相關(guān)配置。
流程配置后,可以進(jìn)行模擬演練和實(shí)戰(zhàn)演練。模擬演練時(shí)將關(guān)聯(lián)的腳本進(jìn)行失效處理,主要檢查流程是否正確。經(jīng)過(guò)多次演練,可以確保規(guī)劃的演練和切換流程符合預(yù)案。模擬演練成功后進(jìn)行實(shí)戰(zhàn)演練,實(shí)戰(zhàn)演練中,首先模擬生產(chǎn)中心故障,停止生產(chǎn)系統(tǒng)服務(wù)。容災(zāi)管理系統(tǒng)檢測(cè)到故障后自動(dòng)啟動(dòng)廣州的切換模塊,進(jìn)行整體切換并修改域名解析;然后通過(guò)業(yè)務(wù)驗(yàn)證模塊進(jìn)行自動(dòng)驗(yàn)證,整個(gè)過(guò)程在指揮中心的大屏上展示。在實(shí)際演練中,整個(gè)切換步驟在10 min左右,加上應(yīng)急評(píng)估和決策時(shí)間,基本控制RTO在30 min以內(nèi),達(dá)到了系統(tǒng)建設(shè)的目的。
實(shí)踐證明,在多云環(huán)境下部署自動(dòng)的容災(zāi)管理系統(tǒng)可以對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行統(tǒng)一管理,一旦某個(gè)節(jié)點(diǎn)發(fā)生故障后,可通過(guò)系統(tǒng)中一系列預(yù)置的流程和方法對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行自動(dòng)處理,達(dá)到業(yè)務(wù)連續(xù)的目的。
計(jì)算機(jī)與網(wǎng)絡(luò)2021年21期