■ 昆明國際航空樞紐工程建設(shè)指揮部 范懷煒
編者按:企業(yè)業(yè)務(wù)連續(xù)性對企業(yè)的生存發(fā)展至關(guān)重要。本文以信息系統(tǒng)生命周期為主線,從技術(shù)和管理兩個維度分析各階段應(yīng)重點(diǎn)關(guān)注的內(nèi)容以及可以采取的措施。
不同業(yè)務(wù)的連續(xù)性保障措施大不相同,但從方法論上看,主要包括生產(chǎn)設(shè)施設(shè)備的冗余備份、原材料儲備、人力資源儲備、應(yīng)急預(yù)案、管理體系等。信息系統(tǒng)業(yè)務(wù)連續(xù)性方案,涉及技術(shù)措施層面和管理體系層面,涵蓋了信息系統(tǒng)規(guī)劃設(shè)計、建設(shè)實(shí)施、運(yùn)行維護(hù)等信息系統(tǒng)全生命周期。
根據(jù)《公共安全業(yè)務(wù)連續(xù)性管理體系 》(GB/T 30146-2013/ISO 22301:2012)的定義,業(yè)務(wù)連續(xù)性是指在中斷事件發(fā)生后,組織在預(yù)先確定的可接受的水平上連續(xù)交付產(chǎn)品或提供服務(wù)的能力。業(yè)務(wù)連續(xù)性方案是指由最高管理者和適當(dāng)?shù)馁Y源所支撐的,為實(shí)施和保持業(yè)務(wù)連續(xù)性管理所進(jìn)行持續(xù)不斷的管理和治理過程。最小業(yè)務(wù)連續(xù)性目標(biāo)是指在中斷中組織為達(dá)到其業(yè)務(wù)連續(xù)性目標(biāo)可以接受的最低標(biāo)準(zhǔn)的服務(wù)和(或)產(chǎn)品。恢復(fù)點(diǎn)目標(biāo)(RPO)是指為使活動能夠恢復(fù)進(jìn)行,而必須將該活動所用的信息恢復(fù)到某時間點(diǎn)?;謴?fù)時間目標(biāo)(RTO)是指事件發(fā)生后到產(chǎn)品或服務(wù)必須恢復(fù),或者活動必須恢復(fù),或者資源必須復(fù)原完成之前的時間段。
GB/T 30146-2013采用了PDCA模型來策劃、建立、實(shí)施、運(yùn)行、監(jiān)視、評審、保持和改進(jìn)組織業(yè)務(wù)連續(xù)性管理體系(BCMS)的有效性。
信息系統(tǒng)業(yè)務(wù)連續(xù)性的最高目標(biāo)是數(shù)據(jù)不丟失(RPO=0)、應(yīng)用不中斷(RTO=0)。但顯然這個最高目標(biāo)只是一個理想狀態(tài),企業(yè)應(yīng)根據(jù)實(shí)際需求和投資能力確定目標(biāo),達(dá)到“可接受的水平”。信息系統(tǒng)典型組成包括的硬件有網(wǎng)絡(luò)設(shè)備及通信線路、服 務(wù) 器、存儲、負(fù)載均衡設(shè)備、機(jī)房等,軟件有操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、中間件、應(yīng)用軟件、虛擬化軟件等,以及保障信息系統(tǒng)正常運(yùn)行的管理體系及人力資源。
信息系統(tǒng)業(yè)務(wù)連續(xù)性的威脅包括通信線路不可用,硬件設(shè)備故障,軟件故障,數(shù)據(jù)損壞,病毒、蠕蟲、木馬等發(fā)作,系統(tǒng)資源(如CPU、內(nèi)存、磁盤)消耗殆盡,災(zāi)難事件(如自然災(zāi)害、恐怖事件、火災(zāi)、戰(zhàn)爭),機(jī)房環(huán)境問題,人為誤操作,網(wǎng)絡(luò)入侵,接入終端不安全等。任何威脅事件的發(fā)生都可能導(dǎo)致系統(tǒng)服務(wù)中斷。
信息系統(tǒng)業(yè)務(wù)連續(xù)性的技術(shù)措施主要是高可用性(HA)和災(zāi)難恢復(fù)(DR)。
HA采用冗余和集群的思路,強(qiáng)調(diào)本地生產(chǎn)系統(tǒng)服務(wù)不中斷。
DR采用在異地建設(shè)備份生產(chǎn)系統(tǒng)或者重新創(chuàng)建生產(chǎn)系統(tǒng)應(yīng)用,強(qiáng)調(diào)當(dāng)本地系統(tǒng)服務(wù)中斷后,異地系統(tǒng)能夠在“可接受的水平”范圍內(nèi)提供服務(wù)。
實(shí)際操作中,信息系統(tǒng)發(fā)生故障后可以采用“降效運(yùn)行”的方案,降效運(yùn)行方案應(yīng)能夠達(dá)到“最小業(yè)務(wù)連續(xù)性目標(biāo)”的要求。
信息系統(tǒng)業(yè)務(wù)連續(xù)性方案,除了考慮軟硬件等設(shè)施設(shè)備方面,更應(yīng)該重視管理體系的建設(shè)和改進(jìn)。信息系統(tǒng)業(yè)務(wù)連續(xù)性管理體系,是企業(yè)業(yè)務(wù)連續(xù)性管理體系(BCMS)的重要組成部分。
表1 信息業(yè)務(wù)連續(xù)性措施與指標(biāo)
信息系統(tǒng)業(yè)務(wù)連續(xù)性管理體系的范圍,應(yīng)包括IT組織機(jī)構(gòu)及職責(zé)、工作過程、資源配置、風(fēng)險管理、內(nèi)外部的協(xié)作合約等,其中職責(zé)須涵蓋信息系統(tǒng)規(guī)劃設(shè)計、建設(shè)實(shí)施、運(yùn)行維護(hù)、退役停用等信息系統(tǒng)全生命周期。
信息系統(tǒng)業(yè)務(wù)連續(xù)性管理體系的建立,除了依照《公共安全業(yè)務(wù)連續(xù)性管理體系》的要求外,還應(yīng)依照《信息安全技術(shù) 信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988)和《信息安全技術(shù) 網(wǎng)絡(luò)安全等級保護(hù)基本要求》(GB/T 22239)等的要求執(zhí)行。
對于單個相對獨(dú)立的信息系統(tǒng),規(guī)劃設(shè)計階段管理上應(yīng)明確:系統(tǒng)功能及邊界,評估系統(tǒng)服務(wù)中斷后對企業(yè)業(yè)務(wù)連續(xù)性的影響,確定系統(tǒng)的網(wǎng)絡(luò)安全保護(hù)等級、災(zāi)難恢復(fù)能力等級,制訂系統(tǒng)業(yè)務(wù)連續(xù)性方案(包括技術(shù)措施層面和管理體系層面)。上述工作過程是一個反復(fù)研討、確認(rèn)的過程,在此基礎(chǔ)上再對系統(tǒng)進(jìn)行詳細(xì)技術(shù)方案設(shè)計和應(yīng)急預(yù)案設(shè)計。
項(xiàng)目實(shí)踐中,保障信息系統(tǒng)正常運(yùn)行的機(jī)房環(huán)境如機(jī)房位置及承重、溫濕度及灰塵控制、機(jī)房物理安全(防盜、防火、防水、防鼠、防蟲)、機(jī)房供配電、機(jī)房環(huán)境監(jiān)控、機(jī)房運(yùn)維管理等,以及通信線路、網(wǎng)絡(luò)及網(wǎng)絡(luò)安全設(shè)備、終端設(shè)備安全措施等,在規(guī)劃設(shè)計階段往往被輕視。
圖1 信息系統(tǒng)部署架構(gòu)拓?fù)浣Y(jié)構(gòu)
信息系統(tǒng)業(yè)務(wù)連續(xù)性主要指標(biāo)是RPO和RTO,通常規(guī)劃設(shè)計階段產(chǎn)品選型或開發(fā)要考慮的技術(shù)措施如表1所示。
在組織內(nèi)企業(yè)如果需要建立信息系統(tǒng)業(yè)務(wù)連續(xù)性,則在規(guī)劃設(shè)計階段的方案非常重要。上表所列技術(shù)措施往往是根據(jù)信息系統(tǒng)業(yè)務(wù)連續(xù)性的要求綜合選用。另外,不同產(chǎn)品所使用的技術(shù)有所差別,方案和產(chǎn)品選型應(yīng)以滿足要求及擴(kuò)展性為原則。
圖1是一個簡單的兩地三中心的信息系統(tǒng)部署架構(gòu)示意圖。在示意圖中,生產(chǎn)中心聚焦于系統(tǒng)的高可用,采用了負(fù)載均衡、雙機(jī)熱備、服務(wù)器集群、數(shù)據(jù)庫集群、存儲雙活、持續(xù)數(shù)據(jù)保護(hù)、虛擬技術(shù)等技術(shù)措施。災(zāi)備中心的配置是一個“降效”版的生產(chǎn)中心,聚焦于當(dāng)生產(chǎn)中心不可用時能夠及時接替生產(chǎn)中心提供服務(wù)。
在規(guī)劃設(shè)計階段,技術(shù)方案的產(chǎn)品選型是個關(guān)鍵,產(chǎn)品所支持的協(xié)議以及數(shù)據(jù)和時間的恢復(fù)窗口期應(yīng)滿足整個方案的目標(biāo)要求。
規(guī)劃設(shè)計階段已經(jīng)框定了信息系統(tǒng)業(yè)務(wù)連續(xù)性管理體系和技術(shù)措施。建設(shè)實(shí)施階段的重點(diǎn)工作是測試、驗(yàn)證和文檔管理。
管理體系的測試重點(diǎn)是應(yīng)急預(yù)案,有兩個方面:
一是企業(yè)依賴于信息系統(tǒng)的業(yè)務(wù)所對應(yīng)的業(yè)務(wù)層面應(yīng)急預(yù)案,即在信息系統(tǒng)降效使用、停用的情況下,以及數(shù)據(jù)丟失甚至丟失的數(shù)據(jù)超出可接受程度、服務(wù)中斷的時間超出可接受程度的情況下,企業(yè)的相關(guān)業(yè)務(wù)如何應(yīng)急。
二是當(dāng)信息系統(tǒng)發(fā)生業(yè)務(wù)連續(xù)性風(fēng)險事件時,信息系統(tǒng)的運(yùn)維保障部門在管理層面如何應(yīng)急。管理體系的測試、驗(yàn)證以相關(guān)的業(yè)務(wù)流程或業(yè)務(wù)程序的模擬審查和桌面演練為主,測試、驗(yàn)證的結(jié)論應(yīng)推進(jìn)應(yīng)急預(yù)案的修改完善,同時應(yīng)完善為實(shí)施應(yīng)急預(yù)案應(yīng)具備的資源條件。
技術(shù)措施的測試內(nèi)容是依據(jù)方案中采用的具體技術(shù)來確定的。一般來說,單臺設(shè)備冗余部件如雙電源的測試是由廠家出廠前完成的。方案中如果使用到節(jié)點(diǎn)設(shè)備冗余技術(shù)及其延展出來的數(shù)據(jù)連續(xù)性技術(shù)、網(wǎng)絡(luò)連續(xù)性技術(shù)、應(yīng)用連續(xù)性技術(shù),以及虛擬化技術(shù)和負(fù)載均衡技術(shù)等,須由企業(yè)進(jìn)行詳細(xì)的測試,比如網(wǎng)絡(luò)設(shè)備雙機(jī)熱備/集群服務(wù)器/虛擬機(jī)/Oracle RAC的轉(zhuǎn)移、存儲備份及恢復(fù)、雙活存儲系統(tǒng)、環(huán)形網(wǎng)絡(luò)等,必須進(jìn)行詳細(xì)測試并達(dá)到設(shè)計標(biāo)準(zhǔn)。
測試的目的是盡力發(fā)現(xiàn)問題,但測試不能發(fā)現(xiàn)所有問題。通過測試來驗(yàn)證所建系統(tǒng)是否符合預(yù)定目標(biāo)是通常的手段,但是即便系統(tǒng)通過了嚴(yán)格的測試仍然難免會發(fā)生意外,所以業(yè)務(wù)層面的應(yīng)急預(yù)案不可或缺。
在這一階段,管理體系的重點(diǎn)工作是完善與系統(tǒng)運(yùn)維服務(wù)提供商(或產(chǎn)品廠商)的協(xié)約及工作機(jī)制,完善應(yīng)急預(yù)案并演練驗(yàn)證,完善信息系統(tǒng)日常運(yùn)維的管理體系等。
技術(shù)措施的重點(diǎn)工作,是做好日常運(yùn)維特別是網(wǎng)絡(luò)信息安全保障方面的工作。
納入企業(yè)業(yè)務(wù)連續(xù)性管理的信息系統(tǒng),其對企業(yè)的重要性是顯然的。當(dāng)這個系統(tǒng)需退役停用時,系統(tǒng)運(yùn)行所留存的數(shù)據(jù),以及系統(tǒng)規(guī)劃設(shè)計、建設(shè)實(shí)施、運(yùn)行維護(hù)所留存的資料文檔,對企業(yè)來說是有價值的無形資產(chǎn)。應(yīng)對這些無形資產(chǎn)進(jìn)行甄別、篩選,確定沒有價值的給予登記、銷毀,其余的應(yīng)采取措施保護(hù),做到不被丟失、不被篡改、日后可查。
信息系統(tǒng)業(yè)務(wù)連續(xù)性是企業(yè)業(yè)務(wù)連續(xù)性重要組成部分。信息系統(tǒng)業(yè)務(wù)連續(xù)性除了按照網(wǎng)絡(luò)安全等級保護(hù)要求、信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范等進(jìn)行規(guī)劃設(shè)計、建設(shè)實(shí)施、運(yùn)行維護(hù)外,還應(yīng)該納入企業(yè)業(yè)務(wù)連續(xù)性統(tǒng)籌范圍,遵循企業(yè)整體業(yè)務(wù)連續(xù)性體系的要求。