吳健寶
摘要
隨著科學技術的發(fā)展,電子化業(yè)務系統(tǒng)代替手工處理稱為主流;信息系統(tǒng)作為業(yè)務應用的關鍵支撐,其面臨的各種風險將對對業(yè)務連續(xù)性造成致命影響。本文結合電網(wǎng)企業(yè)實際情況,對信息系統(tǒng)面臨的風險以及應急保障策略進行了分析和探討。
【關鍵詞】業(yè)務應急 風險梳理 保障策略
1前言
隨著業(yè)務系統(tǒng)規(guī)模的不斷擴大,信息系統(tǒng)面臨的運維風險也越來越高,風險的范圍越來越大,如:主被動系統(tǒng)故障、人為誤操作、火災、水災、傳輸中斷、等,同時日益激烈的市場競爭和不斷提高的客戶服務質(zhì)量需求對信息系統(tǒng)支撐能力和可靠穩(wěn)定運行提出了更高的要求,迫切需要建設一套完整的應急保障體系,來全方位保障業(yè)務應用的安全穩(wěn)定運行。
經(jīng)過數(shù)年的建設,信息化系統(tǒng)已逐步積累了應對處理各種風險的保障措施,如備份、高可用、應急系統(tǒng)、容災系統(tǒng)等,同時結合日常維護工作中發(fā)現(xiàn)的問題,進行了細化歸類,形成了全方位風險場景和應對措施,通過在此基礎上進一步建立完善全網(wǎng)信息化系統(tǒng)的應急保障體系和相關指標要求,可更敏捷、高效的應對各類突發(fā)事件挑戰(zhàn),提高信息化系統(tǒng)的抗風險和業(yè)務連續(xù)性能力。
2 風險分析
電網(wǎng)企業(yè)信息化系統(tǒng)在運行過程中存在各種可能導致系統(tǒng)運行異?;蛑兄梗斐善髽I(yè)和客戶無法進行正常業(yè)務操作,業(yè)務中斷將導致客戶和公司利益遭受重大損失。
系統(tǒng)風險管理首先對業(yè)務運營支撐系統(tǒng)進行風險評估和風險分析,然后將面臨的各種風險進行分類,針對每種風險和常見場景制定相應的業(yè)務連續(xù)性保障措施,對于保障措施不能覆蓋和應對的殘余風險,需要制定改進計劃,通過不斷完善和持續(xù)改進,促進應急保障體系的健全和完善。風險梳理過程如圖1所示。
2.1 系統(tǒng)面臨的風險
現(xiàn)階段電網(wǎng)企業(yè)信息系統(tǒng)主要面臨的風險有計劃外風險和計劃內(nèi)風險兩種:
計劃外風險:主要指不可預測的人為或自然的原因,造成業(yè)務系統(tǒng)運行嚴重故障或癱瘓的情況,這種風險不可避免,主要包括:自然災害、人為誤操作、惡意破壞、硬件故障:電源空調(diào)故障、應用軟件故障、系統(tǒng)軟件故障等。
計劃內(nèi)風險:主要指由于系統(tǒng)本身的變更需求,造成的可事先預知但不可避免的業(yè)務中斷的情形。包括應用軟件上線、系統(tǒng)軟件升級及維護、硬件擴容及維護等。
為有效應對各種突發(fā)的、人為的、自然的可能威脅信息化系統(tǒng)業(yè)務連續(xù)性的風險,必須提前進行風險分析,分析各種風險發(fā)生的可能性,并定量或定性描述各種風險可能造成的影響。進而通過技術和管理手段,防范各種風險的再次發(fā)生。
2.2 系統(tǒng)風險分類
按照風險分析的要求,在信息化系統(tǒng)業(yè)務連續(xù)性保障的實際工作中,面臨的風險可以分為以下幾類:
2.2.1 接入層的風險
接入層一般都采用DNS技術、負載均衡技術、集群技術等,在出現(xiàn)單點故障時業(yè)務影響一般較小,風險相對較小,但是在特殊情況下,比如網(wǎng)絡故障、負載均衡器雙機同時故障、集群全部節(jié)點故障、應用邏輯混亂等情況下,仍會引起災難事件發(fā)生。
2.2.2 中間件層的風險
中間件層一般也采用集群技術、高可用切換技術,但由于中間件層承擔了核心應用邏輯功能,在軟件版本邏輯混亂、數(shù)據(jù)異常、集群故障等情況下也可能引起災難事件發(fā)生。
2.2.3 數(shù)據(jù)庫層的風險
數(shù)據(jù)庫層是數(shù)據(jù)的核心所在,一般都采取并行處理或主備模式,在單點故障下一般影響業(yè)務較小,但是存儲故障、網(wǎng)絡故障、數(shù)據(jù)庫本身運行異常、數(shù)據(jù)邏輯錯誤等情況下如短時間無法恢復,則對客戶感知影響較大,風險等級高。
2.2.4 后臺應用的風險
后臺應用承擔如系統(tǒng)關鍵接口、計量等關鍵業(yè)務,一般采用雙機或集群技術實現(xiàn)高可用,但是出現(xiàn)文件系統(tǒng)故障、網(wǎng)絡故障、集群故障等情況下,風險較大。
2.2.5 動環(huán)設施的風險
電力、空調(diào)是設備正常運行最基礎的設施,一般機房都配備雙路供電、冗余空調(diào)等來確保環(huán)境安全。在單路電力故障、空調(diào)故障等情況下一般不會產(chǎn)生影響,但如出現(xiàn)嚴重電力、空調(diào)故障時,有可能會引起整個機房設備運行異常,從而大面積影響服務,風險等級很高。
3 應急保障策略梳理
如圖2所示,為確保業(yè)務保障能力,各供電局信息中心應建立包括數(shù)據(jù)備份、本地高可用、應急系統(tǒng)乃至容災系統(tǒng)在內(nèi)的階梯式應急保障體系。通過實施階梯式應急保障體系,涵蓋解決目前信息化系統(tǒng)主要面臨的風險的各項措施,最終達到提高信息化系統(tǒng)的抗風險和業(yè)務連續(xù)性能力的目的。
3.1 數(shù)據(jù)備份保障
最基本的系統(tǒng)保障手段之一,通過定期或不定期的備份增加核心數(shù)據(jù)的安全性,備份介質(zhì)可包括傳統(tǒng)物理磁帶或是虛擬磁帶庫設備。應建立涵蓋關鍵業(yè)務數(shù)據(jù)庫、關鍵主機操作系統(tǒng)、重要歷史數(shù)據(jù)、核心應用程序等在內(nèi)的備份恢復措施來保障系統(tǒng)數(shù)據(jù)安全。但由于數(shù)據(jù)量大磁帶恢復時間較長,一般在小時級,其應用范圍主要是提供最基礎的數(shù)據(jù)恢復手段。
3.2 本地高可用保障
主要針對生產(chǎn)中心內(nèi)單點故障的應對措施,是應急保障體系下常用的一種保障措施,應針對關鍵業(yè)務和系統(tǒng)建立沒有任何單點隱患的本地高可用系統(tǒng),如采用雙機熱備應用自動接管、磁盤鏡像、節(jié)點集群、雙網(wǎng)卡綁定等相關技術。根據(jù)采用的技術不同,業(yè)務的影響時間也不同,例如采用集群技術、雙網(wǎng)卡綁定等,發(fā)生故障時影響業(yè)務時間在秒級,而雙機熱備接管技術由于還需要進行應用接管影響業(yè)務時間一般在分鐘級。
3.3 應急系統(tǒng)
主要為信息化系統(tǒng)提供最關鍵業(yè)務的迅速恢復能力,針對關鍵業(yè)務和關鍵渠道,在出現(xiàn)不同級別的系統(tǒng)故障或主動維護場景如系統(tǒng)升級、新業(yè)務上線等情況下,在不需要啟動容災的前提下,建立快速應急機制,讓用戶可以通過應急系統(tǒng),在故障期內(nèi)辦理關鍵業(yè)務,從而降低用戶的負面感知,保障關鍵業(yè)務連續(xù)性。根據(jù)采用的技術和手段的不同,應急系統(tǒng)一般需要分鐘級別的業(yè)務恢復時間。
3.4 容災系統(tǒng)
主要是應對各類重大系統(tǒng)風險,如系統(tǒng)重大故障、人為誤操作、火災、水災、傳輸中斷、電網(wǎng)停電等,造成生產(chǎn)完全中斷且無法短時間恢復。為了應對這種災難性的突發(fā)事件,可以通過容災系統(tǒng)來滿足業(yè)務連續(xù)性的要求。正常情況下容災系統(tǒng)對核心生產(chǎn)系統(tǒng)的數(shù)據(jù)進行實時或準實時的復制,在災難性的事件發(fā)生后,能夠?qū)⒑诵臉I(yè)務切換到容災系統(tǒng),恢復關鍵系統(tǒng)運行。根據(jù)采用的技術和手段的不同,容災系統(tǒng)一般需要小時級別的業(yè)務恢復時間。
根據(jù)對信息化系統(tǒng)面臨的常見的風險進行分析,四層保障措施主要應用場景如表1所示。
4 結束語
通過對信息化系統(tǒng)風險分析和應急保障策略的梳理,以最大化降低服務的影響為核心,同時配備相關人員組織和資源保障措施,制定完善的流程,并采用合適的技術手段,達到在特定系統(tǒng)故障和風險情況下快速恢復系統(tǒng)和業(yè)務的目的;從而建立起一套完善的應急保障體系,以滿足業(yè)務需求,確保更好的系統(tǒng)業(yè)務連續(xù)性。
參考文獻
[1]徐海東,陳欣,劉楠,魏麗紅.應對挑戰(zhàn)建立完善的網(wǎng)絡與信息安全保障體系[J].電信科學,2010(07).
[2]畢士金.加強商業(yè)銀行業(yè)務系統(tǒng)應急保障機制建設[J].金融電子化,2010.
[3]程正剛,房鑫炎,俞國勤,包海龍.電力應急體系脆弱性評估指標體系的編制[J].華東電力,2010(02).
[4]許振宇,郭雪松.基于用戶滿意的應急管理信息系統(tǒng)評價研究[J].情報雜志,2011(03):161-165.