岳 陽,劉 洋,劉天宇
(中國鐵路信息科技集團有限公司 運行維護與生產(chǎn)調(diào)度部,北京 100844)
中國國家鐵路集團有限公司(簡稱:國鐵集團)的鐵路主數(shù)據(jù)中心,定位為中國鐵路最高級別的信息中心和數(shù)據(jù)處理中心,是實現(xiàn)國鐵集團信息化總體規(guī)劃的核心,承載著中國鐵路集中應用系統(tǒng)部署及數(shù)據(jù)資源存儲的任務。隨著鐵路信息化的不斷發(fā)展,國鐵集團初步建設“國鐵集團-鐵路局集團”兩級、“國鐵集團-鐵路局集團有限公司(簡稱:鐵路局)-站段”三級信息系統(tǒng)運維體系,組建了相應的人才隊伍[1]。目前,鐵路主數(shù)據(jù)中心仍處于建設階段,雖然已上線的各重大信息系統(tǒng)依托前期的運維管理系統(tǒng)框架建立了相關災備管理系統(tǒng),但是鐵路主數(shù)據(jù)中心級災備管理還處于各大信息系統(tǒng)各自為政的狀態(tài),沒有統(tǒng)一的管理且缺乏自動化工具。災備管理系統(tǒng)建設并不是技術堆疊和數(shù)據(jù)堆積,而是災備中心在真正需要時能得用上。因此不僅要有技術體系,還要有持續(xù)性的管理機制[2]。本文從災備日常管理、災備運維管理和災備恢復預案3 部分研究建設災備管理系統(tǒng)框架。希望可以改善主數(shù)據(jù)中心的災備管理系統(tǒng)缺乏統(tǒng)一化、自動化的狀況。
災備預案文檔管理電子化,可通過梳理在業(yè)務受到威脅或發(fā)生災難時需要采取的一系列關鍵步驟,包括業(yè)務應急預案、系統(tǒng)切換恢復預案等,在平臺中可以對相關預案及腳本進行儲存、查閱和管理。
應用系統(tǒng)等級管理的目的是為應用系統(tǒng)生產(chǎn)、災備系統(tǒng)建設和運維等提供標準。對于同時支撐多個應用系統(tǒng)的平臺,如果應用系統(tǒng)不可獨立部署,則支撐平臺以其中最高的應用系統(tǒng)等級作為平臺的等級;如果應用系統(tǒng)可以獨立部署,則該應用系統(tǒng)單獨評級,支撐平臺則以其余應用系統(tǒng)中最高的應用系統(tǒng)等級作為平臺的等級。
應用系統(tǒng)一直處在不斷發(fā)展變化中,為了保證災備系統(tǒng)的有效性,應用管理員需要定期對災備中心的應用版本進行一致性檢查和管理。災備中心信息系統(tǒng)隨時可用是災備中心具備業(yè)務接管能力的必要條件。運維人員應定期檢查應用服務器運行狀態(tài),確保應用環(huán)境穩(wěn)定、應用系統(tǒng)可隨時啟用。定期對應用程序版本、系統(tǒng)軟件版本、固件程序版本、關鍵配置參數(shù)等與鐵路主數(shù)據(jù)中心信息系統(tǒng)進行對比與核查,確保災備系統(tǒng)與生產(chǎn)系統(tǒng)同步。
鑒于故障的客觀存在性和故障恢復需要時間,信息系統(tǒng)的不可用性會導致業(yè)務的中斷,在市場競爭激烈的信息時代,由于業(yè)務中斷所付出的代價非常巨大,如何保證業(yè)務在數(shù)據(jù)遭受災難時及時恢復生產(chǎn),是一個企業(yè)面對和亟待解決的問題[3]。在災備管理各項工作中,關鍵在于如何保障災備中心快速穩(wěn)定的切換及切換后持久平穩(wěn)的接管,需要建立切換和接管兩類關鍵指標,衡量切換能力和接管能力高低,并用于總體評價災備體系支撐能力水平。切換指標包括數(shù)據(jù)復制的延遲情況、突發(fā)事件響應決策速度、突發(fā)事件處理速度等。接管指標包括接管后持續(xù)的時長、用戶感知的接管效果、應急容災資源性能配比等。
災備演練的目的是為了檢驗各科技、業(yè)務和支持保障部門聯(lián)合應對災難事件的能力,檢驗重要信息系統(tǒng)災備環(huán)境和應急切換流程的有效性[4],提高相關人員的臨場應急處置能力和相關風險意識。
1.4.1 災備演練分類
災備演練分類,如圖1 所示。災備演練包括桌面演練、模擬演練和實戰(zhàn)演練。桌面演練只需要沙盤推演,演練過程工作量小,易于實施;模擬演練要在模擬環(huán)境下做模擬演練,演練對技術要求高,對生產(chǎn)系統(tǒng)沒有影響;實戰(zhàn)演練需要在真實環(huán)境下演練,演練成本高,易于發(fā)現(xiàn)潛在問題。
圖1 災備演練分類
1.4.2 災備演練流程
在演練過程中,災備切換自動通過預定義的切換步驟編排,實現(xiàn)各業(yè)務系統(tǒng)或各故障場景一鍵自動切換(包括自動化的切換演練),并實現(xiàn)切換流程可視化,即災備流程可進行可視化編輯和編排,可生成標準化災備流程模版,如圖2 所示。
圖2 災備演練管理及流程
1.4.3 災備演練總結
災備演練總結由演練發(fā)起人負責,演練總結的目的是分析問題,總結經(jīng)驗,完善災備系統(tǒng),提高災難恢復能力??偨Y報告應包括取得成績、發(fā)現(xiàn)問題和優(yōu)化建議等內(nèi)容。
在演練實施結束后,項目組根據(jù)演練過程記錄對本次演練進行回顧和總結,分析演練中所遇到的問題,提出改進建議,并對災難恢復預案進行修訂,以保障災難恢復系統(tǒng)的可用性和有效性。
為保障災備中心部署的業(yè)務系統(tǒng)隨時具備業(yè)務接管能力,落實災備系統(tǒng)“數(shù)據(jù)同步,應用可用,網(wǎng)絡連通”的技術要求,應遵循以下災備系統(tǒng)運維要求:災備中心物理設施符合鐵路主數(shù)據(jù)中心運行條件,日常運維管理根據(jù)信息系統(tǒng)運行維護相關規(guī)定,結合現(xiàn)有的運維管理體系,形成災備系統(tǒng)日常管理規(guī)范。
2.1.1 設備管理
災備機房是指同城數(shù)據(jù)中心機房和異地災備中心機房,參照原機房管理辦法運行管理。
(1)設立災備應急場所(EOC),作為進行災難恢復指揮和操作工作的場所。由運行管理員負責災備應急場所的日常維護,以及內(nèi)部設施、檔案和辦公用品的管理;需定期進行災備應急場所檢查。
(2)運行管理員負責災備中心運行情況監(jiān)控,內(nèi)容主要包括CPU 使用率、內(nèi)存使用率、文件系統(tǒng)、磁盤空間、數(shù)據(jù)復制狀態(tài)和備份等。
(3)運行管理員應做好記錄,發(fā)現(xiàn)問題及時提交事件單并進行處理。機房管理員配合及協(xié)助設備廠商或集成商例行設備巡檢,以保障災備中心基礎設置、主機、存儲、帶庫等的穩(wěn)定運行。
(4)巡檢結束后做好巡檢報告等材料的管理,并將巡檢報告等材料發(fā)送至災備管理員進行歸檔。災備系統(tǒng)事件、變更和問題管理參照生產(chǎn)系統(tǒng)相關流程和制度。
2.1.2 網(wǎng)絡管理
確保鐵路主數(shù)據(jù)中心與災備中心之間、災備中心與外部單位之間數(shù)據(jù)交換安全通暢,是災備中心具備業(yè)務接管能力的重要前提。運維人員應定期檢查網(wǎng)絡運行狀態(tài),驗證災備中心與鐵路主數(shù)據(jù)中心之間、災備中心與用戶單位之間的網(wǎng)絡雙向連通性。
(1)定期進行外連網(wǎng)絡雙向測試,確保應用層網(wǎng)絡連通性;保證用戶單位網(wǎng)絡瀏覽工具已添加災備中心地址為信任站點。
(2)定期進行應用登陸測試,模擬業(yè)務流程。確保災備系統(tǒng)啟用后,用戶單位可正常訪問。
2.1.3 數(shù)據(jù)管理
災備中心與鐵路主數(shù)據(jù)中心信息系統(tǒng)保持數(shù)據(jù)同步一致,是災備中心具備業(yè)務接管能力的基礎條件,數(shù)據(jù)備份需要保證數(shù)據(jù)的完整性、可靠性和一致性[5]。運維人員應嚴格制定系統(tǒng)部署及變更管理流程,確保與鐵路主數(shù)據(jù)中心系統(tǒng)配置一致。
(1)定期檢查數(shù)據(jù)庫服務器運行狀態(tài),確保數(shù)據(jù)庫服務器穩(wěn)定可用,做到災備系統(tǒng)數(shù)據(jù)庫可以隨時啟用。
(2)實時監(jiān)測數(shù)據(jù)復制通道或數(shù)據(jù)備份系統(tǒng)的運行狀態(tài),檢查業(yè)務數(shù)據(jù)同步情況,確保災備系統(tǒng)啟動后關鍵業(yè)務系統(tǒng)數(shù)據(jù)丟失量小于恢復點目標(RPO)指標。
通過災備自動化工具,提高災備管理的能力和水平,減少突發(fā)事件對業(yè)務的影響,滿足業(yè)務對信息系統(tǒng)可用率的要求,可以實現(xiàn)將原有需要的多工種配合、全人工操作的容災切換過程通過一個集中化、圖形化的界面(工具)進行,簡化操作,降低容災切換的復雜度,提高容災切換的成功率。實現(xiàn)“一鍵式”容災切換,節(jié)省切換時間,降低總體恢復時間目標(RTO)。對自動化工具的應用可以有效地做好災難恢復準備工作、實現(xiàn)演練自動化、提高可視化、降低運維成本等[6]。
災難恢復流程,也叫災難事件應急響應流程,是在重大事件即將發(fā)生或已經(jīng)發(fā)生后,將要影響或已經(jīng)影響業(yè)務運營時,指導相關人員遵從災備恢復預案進行的恢復流程,災備預案的制定,如圖3 所示。災難恢復不僅是恢復計算機系統(tǒng)和網(wǎng)絡等環(huán)境,還涉及到風險評估、業(yè)務影響程度分析、災難恢復策略的制定以及策略實施等方面。災難恢復是一項系統(tǒng)性、專業(yè)性的工作[7]。災難恢復流程明確災難恢復響應的階段劃分、每階段的行動內(nèi)容及負責人,更有效地進行系統(tǒng)恢復,使應對突發(fā)事件的響應更加及時、有序、有效,從而避免或減少損失。
圖3 災備恢復預案
災備流程設計目標是為了提高災難事件的應對處理效率,進行科學的決策,按照既定的計劃實施災難恢復工作,災難應急處理流程主要包括出現(xiàn)災難事件后的響應、升級、決策、人員召集、以及災難恢復和回切等步驟。主要是在災難事件發(fā)生后或者演練開始時根據(jù)流程來逐步進行,從而實現(xiàn)最佳效果。
管理是保證組織有效運行所不可少的條件。組織越大,構成越復雜,管理的重要性也越加突出[8],通過完備的組織架構可以實現(xiàn)集中決策,提高災難恢復工作對高效決策的要求,實現(xiàn)統(tǒng)一的管理與協(xié)調(diào),整合生產(chǎn)和災備運營的管理質(zhì)量體系,使得分布在各級信息技術部門的技術人員能夠參與到災難恢復工作當中,承擔相應的災備工作,如圖4 所示。
圖4 災備組織架構
災備項目的設計目標是為了確保重大災難發(fā)生后,災備系統(tǒng)可以安全、有效、及時地接管生產(chǎn)系統(tǒng),將核心業(yè)務系統(tǒng)從位于生產(chǎn)中心切換到位于同城災備中心,繼續(xù)對外開展業(yè)務,使關鍵業(yè)務可以在短時間內(nèi)恢復,把災難事件造成的影響降到最低。當出現(xiàn)同城兩個數(shù)據(jù)中心同時故障時,切換到異地災備中心。
數(shù)據(jù)中心系統(tǒng)災難恢復解決方案和策略如下:
(1)鐵路主數(shù)據(jù)中心,作為核心業(yè)務系統(tǒng)的運行中心,負責整體的核心業(yè)務的數(shù)據(jù)處理。
(2)同城災備中心,配置了災難恢復所需的處理設備、通信網(wǎng)絡和場地,并且與主數(shù)據(jù)中心的生產(chǎn)數(shù)據(jù)保持數(shù)據(jù)同步。一旦主數(shù)據(jù)中心災難發(fā)生,將啟用同城災備中心接替主中心恢復核心業(yè)務系統(tǒng)運行。
(3)異地災備中心,配置與同城災備中心一致。一旦同城災難發(fā)生,將啟用異地災備中心接替同城恢復核心業(yè)務系統(tǒng)運行。
(4)一旦災難發(fā)生造成主辦公場地無法提供正常服務,災難應急指揮組將選擇本地應急指揮中心的緊急工作區(qū)域。 信息部辦公場所將作為第2 備選的緊急工作區(qū)域。位于異地的信息部辦公場所將作為第3 備選的緊急工作區(qū)域。
災備中心目前已經(jīng)是各行業(yè)數(shù)據(jù)中心必不可少的建設環(huán)節(jié),其相應的管理系統(tǒng)也得到了更多企業(yè)的重視。本文研究的基于鐵路主數(shù)據(jù)中心建設的災備管理系統(tǒng)框架包括災備日常管理、災備運維管理、災備恢復預案等[9],實現(xiàn)了災備的規(guī)范運維流程、統(tǒng)一數(shù)據(jù)備份管理,處理異常和故障等報警等,有效地規(guī)范了災備運維工作流程,提高了災備運維工作效率,是災備工作不可或缺的一部分。保障信息系統(tǒng)安全穩(wěn)定運行和提升災備管理效能是災備管理兩大主要目標[10],災備系統(tǒng)為信息系統(tǒng)提供了一個能夠應對各種突發(fā)災難的保障。隨著鐵路主數(shù)據(jù)中心建設的不斷完善和異地災備中心的建設,可以繼續(xù)探討鐵路主數(shù)據(jù)中心災備管理與災備中心災備管理的結合,進一步提升鐵路信息化災備管理水平。