唐 燕,盧 通,丁 寧
(1. 水利部水利信息中心,北京 100053;
2. 北京金水燕禹科技有限公司,北京 100089;
3. 北京金水信息技術(shù)有限公司,北京 100053)
水利信息系統(tǒng)應急預案編制方法研究
唐 燕1,盧 通2,丁 寧3
(1. 水利部水利信息中心,北京 100053;
2. 北京金水燕禹科技有限公司,北京 100089;
3. 北京金水信息技術(shù)有限公司,北京 100053)
以水利電子政務綜合辦公系統(tǒng)應急預案的編制為例,從應急組織與職責的確定、故障等級的制定、應急處置及演練等方面闡述水利信息系統(tǒng)應急預案編制的過程,提出應急預案的編制應避免過于復雜,要保持預案的完整性及嚴謹性,科學制定演練計劃,并與運維相結(jié)合,以期發(fā)生緊急情況時,盡可能將損失降到最低。
水利信息系統(tǒng);綜合辦公系統(tǒng);應急預案;編制;研究
隨著水利信息化規(guī)模的迅猛發(fā)展,信息系統(tǒng)在水利行業(yè)起著至關(guān)重要的作用,一旦信息系統(tǒng)出現(xiàn)問題,輕則影響正常工作,重則對社會公眾的利益造成損害,甚至還影響到人民生命財產(chǎn)的安全。水利各業(yè)務部門在重視信息系統(tǒng)運維的同時,也越來越重視應急情況的處理,為此,各個單位都已或正在編制針對信息系統(tǒng)的應急預案,力求發(fā)生緊急情況時,盡可能地將損失降到最低。
1.1 應急組織與職責確定
水利信息系統(tǒng)的應急組織大致分為以下幾個組別:
1)應急領(lǐng)導組。負責應急管理體系、管理辦法和預案的評審和確定;負責應急預案啟動和終止命令的下達和授權(quán);負責應急實施過程中的決策和授權(quán);負責對故障處置或演練后預案變更的最終評審和確認。
2)應急指揮組。根據(jù)應急領(lǐng)導組的授權(quán),負責現(xiàn)場指揮,協(xié)調(diào)各應急小組工作;負責應急處置情況、故障升級等相關(guān)信息的確認;負責向應急領(lǐng)導組匯報應急處置的進展情況;負責在應急過程中,策略的調(diào)整和應急指揮;負責組織并協(xié)調(diào)應急現(xiàn)場的各種資源(含第三方)。
3)應急實施組。負責故障的分析,為現(xiàn)場應急指揮組提供應急預案實施的參考建議;負責按照現(xiàn)場應急指揮組的指令,嚴格執(zhí)行相應的應急處置方案;負責將現(xiàn)場故障處理情況向應急指揮組及時匯報和更新;在實施應急措施過程中,協(xié)調(diào)其他專業(yè)組為應急提供技術(shù)支持;故障解決后總結(jié)、歸納應急工作的經(jīng)驗和教訓,完善相關(guān)應急預案;負責制定、修改、優(yōu)化應急預案中應急場景的具體處置方案;負責組織應急預案的檢查和評審工作。
4)應急溝通組。負責準備應急現(xiàn)場的故障初始、進展、升級、解決等相關(guān)報告;負責故障處理時間控制,以衡量是否需要更新報告或升級處理;負責按應急指揮組指令,及時將應急情況匯報給管理層和業(yè)務層;負責應急處置后,給應急指揮組和實施組匯總所有溝通報告;參加應急演練,并提出相應的改進建議。
5)應急保障組。負責應急過程中的后勤保障,包括安排會議室、應急提示牌、電話、視頻會議、網(wǎng)絡(luò)、交通、食宿等;根據(jù)應急指揮組的授權(quán),負責現(xiàn)場聯(lián)絡(luò)各應急小組和召集三方資源;參加應急演練,并提出相應的改進建議。
需根據(jù)應急組織機構(gòu)確定相應的人員,每組至少有 2 人互為備份,將每個人按照組別、角色、姓名、座機、手機、郵箱、應急后備等信息填表,并下發(fā)到該信息系統(tǒng)相關(guān)的人員手中。
1.2 現(xiàn)狀評估
評估的目的是發(fā)現(xiàn)水利信息系統(tǒng)目前現(xiàn)狀的優(yōu)勢和劣勢,現(xiàn)狀可依次分成以下 4個方面:1)最好的情況是健全的實踐現(xiàn)狀,近乎全面的方案;2)較好的是可接受的實踐現(xiàn)狀,但須進行某些改進;3)稍差的是不完善的實踐現(xiàn)狀或可能缺少功能,可能對可用性產(chǎn)生負面影響,建議進行改進;4)較差的實踐現(xiàn)狀或缺少重要功能,可能嚴重影響可用性,建議進行改進。在計劃方面也分成 4個方面,依次是,健全的計劃,可能行之有效,而且涉及到所需的大部分領(lǐng)域;可接受的計劃,但難于實施,缺少某些功能或資源不充分;計劃可能較差,有可能無效,或缺少重要的功能;計劃可能很差,沒有明確存在的問題,缺少問題或問題無效。
評估的內(nèi)容圍繞水利信息系統(tǒng)的方方面面,包括水利信息系統(tǒng)目前運行的物理環(huán)境、管理情況、日常運維情況的現(xiàn)狀,如運維管理和業(yè)務部門是否有良好的溝通,對業(yè)務的運維管理是否有良好的基礎(chǔ),是否建立了運維平臺,是否有良好的策略和規(guī)范,和業(yè)務相關(guān)的各個維護單位是否做到配合默契,在運維管理電子化方面,是否采用規(guī)范、統(tǒng)一的電子化信息平臺,系統(tǒng)設(shè)計和配置是否采用高可靠的冗余設(shè)計,是否運用雙機熱備、負載均衡、冷備切換和廠家維保等方式?通過評估總結(jié),可以看出信息系統(tǒng)的運維現(xiàn)狀和行業(yè)標準的差距,在哪些方面需要改進,還有哪些薄弱環(huán)節(jié),這些薄弱環(huán)節(jié)有可能引起信息系統(tǒng)的故障。
2.1 系統(tǒng)關(guān)鍵功能與風險的識別
2.1.1 關(guān)鍵功能識別
按照水利信息系統(tǒng)的功能進行模塊分割,每模塊還具有許多小的功能模塊,根據(jù)信息系統(tǒng)的具體功能和應用范圍及影響程度,識別出信息系統(tǒng)的關(guān)鍵功能,并以此判斷故障的嚴重程度,從而進一步確定是否啟動應急預案。一旦業(yè)務應用系統(tǒng)多個功能失效,在有限的應急資源條件下,優(yōu)先恢復業(yè)務應用系統(tǒng)的關(guān)鍵功能。
以水利電子政務綜合辦公系統(tǒng)(以下簡稱綜合辦公系統(tǒng))為例。目前,綜合辦公系統(tǒng)按業(yè)務需求劃分為 6 大類別功能模塊[1]。根據(jù)綜合辦公系統(tǒng)的行政辦公類型和應用范圍,及其對水利部行政辦公管理的影響程度,識別出綜合辦公系統(tǒng)的關(guān)鍵功能,如領(lǐng)導辦公和公文辦理模塊,這 2個模塊一旦癱瘓,就會影響整個水利部機關(guān)的日常辦公,因此屬關(guān)鍵功能。一旦綜合辦公系統(tǒng)多個功能失效,在有限的應急資源條件下,優(yōu)先恢復綜合辦公系統(tǒng)的關(guān)鍵功能。
2.1.2 各種風險識別
風險的識別是編制應急預案的重要環(huán)節(jié),著名的墨菲定律指出:凡事只要有可能出錯,那就一定會出錯[2]。只有在全面了解各種風險的基礎(chǔ)上,才能預測風險可能造成的危害,預防可以避免的,推遲不可避免的,從而選擇處理風險的有效手段,因此首先應進行風險識別。
針對綜合辦公系統(tǒng),對其部署的物理環(huán)境、維護人員、網(wǎng)絡(luò)環(huán)境、數(shù)據(jù)存儲環(huán)境、應用系統(tǒng)部署的主機情況、數(shù)據(jù)庫情況,以及所使用的中間件環(huán)境等因素進行全面分析,分別對故障場景、影響范圍、嚴重程度、發(fā)生的可能性進行綜合分析,從而確定各種情況的故障等級。
在分析的過程中,圖1 所示是列舉的可能出現(xiàn)風險的各個環(huán)節(jié)。采用頭腦風暴法,通過集思廣益發(fā)揮團體智慧,從不同角度找出各種風險構(gòu)成要素,多多益善。
圖1 風險構(gòu)成要素圖
針對綜合辦公系統(tǒng),在盡可能多的列舉風險后,應該對列舉的風險,根據(jù)一定時間內(nèi)可能發(fā)生或發(fā)生的概率,將可能性分為以下 3 種情況:
1)高(可能性大)。指在一定時間內(nèi),此種風險有可能發(fā)生或發(fā)生的概率大于 35%,衡量的指標為 3年內(nèi)可能發(fā)生 2 次或更多,或者最近發(fā)生過。
2)中(有可能)。指在一定時間內(nèi)有可能發(fā)生或發(fā)生的概率小于 35%,衡量的指標為 3年內(nèi)可能發(fā)生 1 次或由某種外部影響面難以控制,不確定是否曾經(jīng)發(fā)生過。
3)低(基本不可能)。指在一定時間內(nèi)有可能發(fā)生或發(fā)生的概率小于 5%,衡量的指標為沒發(fā)生過或基本不可能發(fā)生。
經(jīng)過分析,挑選出發(fā)生可能性為高或中的風險形成故障場景。
2.2 故障等級定義的確定
以對水利電子政務綜合辦公系統(tǒng)的分析為例說明故障等級的劃分。故障影響程度和范圍主要有以下幾種情況:1)重大的故障。系統(tǒng)癱瘓、數(shù)據(jù)丟失屬重大故障,這種情況往往出現(xiàn)在機房斷電的時候,影響嚴重且范圍大,需要立即啟動應急管理。2)較大的故障。故障影響較嚴重且范圍較大,同樣需要啟動應急管理,如電子政務門戶系統(tǒng)遭到破壞的時候。3)中等級別的故障。如應用與中間件的內(nèi)存溢出致死機、單主機操作系統(tǒng)故障等情況,這種故障影響程度屬中等嚴重且范圍不大,可以用緊急事件管理流程處理,不需要啟動應急處理程序,但需要特別關(guān)注該類故障的升級。4)故障級別為較小的故障。這種故障影響不嚴重且范圍較小,可以用事件管理流程處理[3]。
故障等級受故障影響范圍和嚴重程度控制,按照綜合辦公系統(tǒng)使用人群的分布,受影響人員的范圍確定故障的范圍大小,可通過所受影響人員的數(shù)量給出 4 種范圍大小的具體定義:全網(wǎng)指全局,即所有人員;較大面積即按照單位計算,介于 80% ~30% 的用戶受到影響;局部即按部門計算,介于30%~1% 的用戶受到影響;較小面積指 1個人或幾個人受到影響,即小于 1% 的使用用戶受到影響。
綜合辦公系統(tǒng)故障的嚴重程度依據(jù)系統(tǒng)關(guān)鍵功能是否可用和下降 2個方面確定,目前嚴重程度被劃分為以下 4 種情況:1)非常嚴重,指服務功能的缺失,用戶無法正常使用綜合辦公系統(tǒng)的所有關(guān)鍵功能,所有關(guān)鍵功能均不可用;2)較嚴重,指服務功能的缺失,用戶無法使用綜合辦公系統(tǒng)的部分關(guān)鍵功能,部分關(guān)鍵功能不可用;3)一般嚴重,指服務能力的降低,用戶感覺到綜合辦公系統(tǒng)的所有關(guān)鍵功能性能下降;4)輕微嚴重,指服務能力的降低,用戶感覺到綜合辦公系統(tǒng)的部分關(guān)鍵功能性能下降。
依據(jù)故障的嚴重程度和影響范圍綜合考慮和確定,目前把故障等級劃分為重大(I 級)、較大(Ⅱ級)、中等(Ⅲ 級)和較?。á?級)4個級別[4],將每種情況進行量化,根據(jù)故障對水利信息系統(tǒng)造成的嚴重程度和影響范圍形成影響程度矩陣,最終確定故障等級,給故障的研判提供可靠依據(jù),如表1 所示。
表1 故障等級劃分
2.3 故障的升級
當告警/故障類的突發(fā)事件發(fā)生以后,必須對故障產(chǎn)生的影響程度進行初步判斷,確認故障級別后,應立即按照故障升級規(guī)則,將故障事件匯報到相應領(lǐng)導層,對于較小的 IV 級故障,升級時間為 3 d,只對內(nèi)匯報給信息系統(tǒng)管理員;對于中等的級別為III 的故障,升級時間為 1 d,只對內(nèi)匯報給應急組組長;對于較大的 II 級故障升級時間為 4 h,對內(nèi)匯報給應急領(lǐng)導組,對外匯報給上級領(lǐng)導和業(yè)務組;對于重大的 I 級故障,升級時間為 2 h,對內(nèi)匯報給應急領(lǐng)導組,對外匯報給上級領(lǐng)導和業(yè)務組。
故障的處理是一個發(fā)展變化的過程,應急指揮組應每隔 30 min 對故障的嚴重程度和影響范圍進行重新評估和更新,按照故障分級標準重新判定故障級別,更新故障處理進展情況,應急溝通組要及時和應急指揮組聯(lián)系和確認,準備相應的故障情況報告,并負責對內(nèi)、外及時更新故障處理情況。
另外,一旦故障發(fā)生,在應急處置的過程中,應急溝通組需要檢查和計算故障持續(xù)的時間,如果該故障持續(xù)的時間累計達到定義的升級時間,經(jīng)應急指揮組確認后,故障等級自動上升 1 級。
3.1 應急場景的編制
水利信息系統(tǒng)的故障場景應急處置應從人員、物理環(huán)境、網(wǎng)絡(luò)、存儲與備份、主機和操作系統(tǒng)、數(shù)據(jù)庫、應用中間件等多方面考慮。
應急處置關(guān)鍵在人,為保證應急處置及時、有效,對于關(guān)鍵崗位平時應做好人員儲備,確保 1 項工作有 2 人操作,能編寫故障場景的要事先編寫故障場景及相應的故障處置預案,能細化到命令行的一定要細化到命令行。使用列表方式表示,包括故障名稱、場景編號、處理預案編號、故障等級、故障類別、現(xiàn)象描述、驗證方法、處理時間。解決步驟應寫明哪些步驟由用戶處理,哪些步驟由工程師處理。
故障場景應使用列表形式編號存儲,編號的目的是便于故障場景的存儲及發(fā)生故障時的快速查找。故障場景如表2 所示[5]29。
表2 故障場景
針對表2 所示故障場景的處理預案如下:
1)使用主機序列號報 case 到響應中心;登陸主機 MP 卡,輸入用戶名/密碼;收集相關(guān)報錯信息,登陸 MP 后執(zhí)行 sl,以及進入 CM 執(zhí)行 ps。
2)待響應中心確認故障部件后,派單給廠家工程師,并與客戶確認備件運送地址。
3)廠家工程師操作。備件運抵客戶現(xiàn)場,工程師給服務器斷電并實施更換;備件更換完畢,給主機加電;登陸 MP 后使用 fw 命令同步 CELL 板firmware;進入 MP 卡的命令界面 CM,使用 PC-〉on 命令啟動操作系統(tǒng);系統(tǒng)啟動完畢,將該節(jié)點重新加入雙機集群:cmrunnode node1;廠家工程師檢查系統(tǒng)及雙機狀態(tài),命令如下,
4) 客戶操作。數(shù)據(jù)庫管理員啟動數(shù)據(jù)庫;應用負責人啟動應用程序;檢查數(shù)據(jù)庫系統(tǒng)及應用是否正常;形成報告,上報有關(guān)分管部門。
故障解決驗證方法:主機正常啟動,數(shù)據(jù)庫系統(tǒng)和應用可以正常啟動和運行。
3.2 應急啟動及關(guān)閉的條件
因為水利電子政務綜合辦公系統(tǒng)主要為水利部機關(guān)的行政辦公提供服務,所以目前設(shè)定恢復時間目標 RTO(Recovery Time Objective)和恢復點目標RPO(Recovery Point Objective)均為 1d。
綜合辦公系統(tǒng)應急預案啟動的條件需要同時滿足以下 3個條件:
1)故障等級為 I 或 II 級(包括低級別的故障因為沒有按時解決而升至 II 或 I 級的故障);
2)根據(jù)實際具體情況,應急領(lǐng)導組再次確認了故障等級為 I 或 II 級;
3)應急領(lǐng)導組下達應急預案啟動指令和授權(quán)。
綜合辦公系統(tǒng)應急預案關(guān)閉的條件需要同時滿足以下 5個條件:
1)應急實施組已經(jīng)在技術(shù)層面解決了故障,而且從用戶感知方面,應急指揮組再次確認系統(tǒng)功能已經(jīng)恢復;
2)形成故障處置綜合報告,并已完成相應的善后處置,綜合報告包含應急故障處置報告、預案改進計劃(基于實際情況)和技術(shù)善后處置(基于實際情況);
3)應急故障處置報告已發(fā)送給上級領(lǐng)導和業(yè)務組;
4)預案改進計劃(基于實際情況,如果有)完成并通過審批;
5)技術(shù)善后處置(基于實際情況,如果有)已經(jīng)觸發(fā)了問題管理流程。
3.3 應急處置的流程
水利電子政務綜合辦公系統(tǒng)應急處理流程包括以下 3 部分流程:
1)應急前期流程。包括在服務臺進行事件記錄和分類,對主動或被動檢測到的事件進行登記和記錄,對接收到的事件進行分類并轉(zhuǎn)發(fā),對故障進行排查、診斷、分析、定位,定位故障后,根據(jù)故障的嚴重程度和影響范圍確定故障等級(利用故障診斷和定級報告模板),完成故障定級報告,如果符合應急啟動條件,由應急領(lǐng)導組立即啟動應急預案,授權(quán)應急指揮組現(xiàn)場指揮應急處置。
2)應急處置流程。包括并行的應急技術(shù)處置和信息溝通 2個子流程,由應急指揮組統(tǒng)一協(xié)調(diào)、指揮。同時,在應急過程中,應急保障組要保障應急所需的環(huán)境,幫助應急指揮組協(xié)調(diào)應急相關(guān)的人員、設(shè)備、物資等。
應急技術(shù)處置流程主要是在應急指揮組授權(quán)和確認后,應急實施組負責協(xié)調(diào)和執(zhí)行故障解決的具體技術(shù)處置步驟。在此流程中調(diào)用應急處置場景,如場景不能覆蓋,應急時采取其他有效措施。
應急信息溝通流程主要是在應急指揮組的授權(quán)和確認后,應急溝通組負責向領(lǐng)導層和業(yè)務部門發(fā)布故障的初始、進展、升級和故障解決情況報告,確保信息中心對內(nèi)、外溝通的一致性和連續(xù)性。在這個流程中,應充分使用模板(包括故障診斷和定級及情況報告模板),以達到快速、準確的要求。
3)應急后期流程。包括應急實施組匯總所有的故障診斷和定級、情況和現(xiàn)場技術(shù)處置等報告,并上報到應急指揮組共同討論,形成最終的故障處置綜合報告。應急領(lǐng)導組審核和確認故障處置綜合報告后,應急故障處置報告會發(fā)給上級領(lǐng)導和業(yè)務組,如果有相應的技術(shù)善后處置和預案改進計劃,需要在完成相應的善后處理之后,應急預案才被應急領(lǐng)導組正式授權(quán)關(guān)閉。
4.1 應急預案的演練計劃與方案
為提高對突發(fā)事件的應急響應水平,水利信息系統(tǒng)應用組應定期或不定期組織該系統(tǒng)應急預案的演練,檢驗預案中各環(huán)節(jié)之間的通信、協(xié)調(diào)、指揮等是否符合快速和高效的要求。通過演練,進一步明確應急響應各崗位責任,對預案中存在的問題和不足及時補充、完善。
水利信息系統(tǒng)應用組每年要擬訂年度應急演練計劃,在一年中按計劃實施應急演練工作。應急演練計劃應包括:演練預案的名稱、責任部門、責任人、配合部門、演練類型、演練事件,以及相應的演練編寫人、審核人和批準人等。綜合辦公系統(tǒng)應急預案的演練計劃表如表3 所示[5]43。
表3 綜合辦公系統(tǒng)預案演練計劃
演練前,水利信息系統(tǒng)應用組應牽頭制訂詳細的應急演練方案,應包括:演練目的、組織、方式、場景、時間和地點、步驟、過程、總結(jié)等。
4.2 應急預案的演練執(zhí)行與總結(jié)
演練執(zhí)行的形式可根據(jù)具體情況選擇桌面、功能或全面演練,具體如下:
1)桌面演練。通常在室內(nèi),利用流程圖、計算機模擬、會議等輔助手段,按照水利信息系統(tǒng)預案討論和推演應急決策和應急狀況下應采取的現(xiàn)場處置行動。
2)功能演練。針對水利信息系統(tǒng)的應急預案的專項(特定場景、職能部門等)而組織的實際演練活動。
3)全面演練。針對水利信息系統(tǒng)的應急預案的多項(多個特定場景、職能部門等)而展開的實際演練活動。
演練期間,各工作小組應做好技術(shù)和后勤配合工作。對于每次演練,都要對整個執(zhí)行過程做具體的記錄。演練后,水利信息系統(tǒng)應用組應牽頭總結(jié)經(jīng)驗,修改完善演練方案,對涉及的應急預案部分,也要進行修訂完善。
4.3 應急預案的評審與修訂
水利信息系統(tǒng)應用組負責對該系統(tǒng)應急預案文檔進行初步審閱和審批,應急領(lǐng)導組負責對預案文檔進行最終審閱和審批。在單位的發(fā)展戰(zhàn)略、組織機構(gòu)、業(yè)務規(guī)模、信息系統(tǒng)升級和變更(尤其是重大變更)、內(nèi)外部信息系統(tǒng)運行環(huán)境等發(fā)生變化的情況下,要及時對信息系統(tǒng)所面臨的風險進行重新評估和審計,如果可能的話,應由外部機構(gòu)承擔。發(fā)現(xiàn)的問題能夠被報告出來,并據(jù)此采取改進行動,對預案文檔進行必要的修訂和更新。
水利信息系統(tǒng)應用組每年至少應組織 1 次信息系統(tǒng)應急預案文檔的復審和修訂,進行例行的風險分析和評估。通過對應急預案預先設(shè)定的關(guān)鍵性能指標(KPI)來衡量應急預案的實施效果,具體如下:
KPI 預案故障場景覆蓋率 = 被用到的預案故障場景數(shù)量/總故障數(shù)量/年×100%;
KPI 預案故障場景解決率 = 用預案故障場景成功解決故障的數(shù)量/被用到的故障場景數(shù)量/年× 100%。注意:所涉及的數(shù)量統(tǒng)計僅針對信息系統(tǒng)的故障/告警類突發(fā)事件。
4.4 應急預案的變更與回收
水利信息系統(tǒng)應用組負責文檔的保管和分發(fā)及版本控制,信息系統(tǒng)應用組和各應急相關(guān)小組應保留 1 份最新的應急預案,各應急小組成員每人手中應保留 1 份最新的預案及相關(guān)的技術(shù)操作手冊。應急預案文檔在使用過程中發(fā)生變更是很常見的現(xiàn)象,對于發(fā)生變更的預案文檔,需要通過版本的控制和管理,對形成的預案文檔及時進行歸檔保存。
預案文檔發(fā)生變更時,需要做到以下幾點:文檔有清晰的變更記錄;在文檔發(fā)生變更時,需通知相關(guān)人員,避免新的文檔產(chǎn)生后還使用舊的文檔;應急預案每次修訂后,原分發(fā)的舊版本應該銷毀。
水利信息系統(tǒng)應急預案在編制過程中可能會存在以下幾方面的問題:
1)過于復雜。水利信息系統(tǒng)的應急預案面對突發(fā)事件,一些單位編制的應急預案內(nèi)容非常完善,動輒幾十頁,甚至上百頁,這些應急預案理論性太強,安全事件的定級、預案啟動、應急處置等環(huán)節(jié)定義不準確,缺乏可操作性,沒有明確的流程,在環(huán)節(jié)的處理上各相關(guān)應急工作人員職責不清,無法迅速對照應急預案定位應采取的措施,作為應急處置人員,面對厚厚的預案,當發(fā)生安全事件時,往往會手足無措[6]。
2)缺乏完整性。一些單位編制的應急預案內(nèi)容過于簡單,不夠完整。這些應急預案往往只關(guān)注關(guān)鍵環(huán)節(jié),而忽視其他環(huán)節(jié)。主要表現(xiàn)在只注重分級、分類及應急處置環(huán)節(jié)的編寫,對于安全事件的報告、安全等級研判、決策指揮、信息發(fā)布及通報、應急響應報告、應急預案演練、應急預案的評估、應急預案的修訂等方面內(nèi)容涉及太少,有些環(huán)節(jié)甚至不作任何描述。
3)應急與運維的關(guān)系不明確。一些單位有很強大的運行維護部門,大事小事都由運維部門單方面解決,當事件發(fā)生時,由于缺乏研判過程,有的應急事件被當成普通事件,忽略了應急事件中的通報、信息發(fā)布等重要環(huán)節(jié);有的普通事件又被當成應急事件處理,把本來很簡單的事情復雜化,造成人員和經(jīng)費的浪費。
為避免上述問題,應該做到以下幾點:
1)力求實用,可操作。首先是人員組織的設(shè)置要到位,人員信息完整,確保應急發(fā)生時有相應的人員快速進入處置;其次是明確應急啟動和關(guān)閉的條件,條件不能含糊不清;三是故障場景具體實用,描述清晰,處置命令明確;四是事件升級的條件都要具體,該升級必須升級;五是演練計劃不虛設(shè)。
2)力求內(nèi)容完整。首先是基礎(chǔ)資料的完整,細化到主機人員的聯(lián)系方式,網(wǎng)絡(luò)備用設(shè)備的存放地址,信息系統(tǒng)相關(guān)設(shè)備的位置、型號,操作系統(tǒng)的版本號,每塊網(wǎng)卡的序列號等;其次是應急處置方案的完整,應急處置方案的完整性直接關(guān)系到應急事件的處置,在實際工作中應很好地保存,必要時便于查看,也可以和運維知識庫相關(guān)聯(lián);再次是應急處置過程中各種報告的模板,便于快速形成報告。
3)力求量化,便于研判。在事件發(fā)生時,運維人員能通過具體的量化值判斷是否是應急事件,能夠通過受影響的范圍和受害程度迅速定級,從而啟動相應的應急流程。
總之,在編制水利信息系統(tǒng)應急預案的過程中應重視應急預案的嚴謹性,科學制定演練計劃,不斷完善,并與運維相結(jié)合,將信息系統(tǒng)應急處置場景納入運維知識庫,與運維系統(tǒng)充分融合。
參考文獻:
[1] 水利部水利信息中心. 水利電子政務建設(shè)基本技術(shù)要求(水文[2010]189 號)[S]. 北京,中華人民共和國水利部,2010: 11-28.
[2] 崔全會,黃受安,李規(guī)正,等. 簡論安全管理的警示職能——墨菲定律的啟示[J]. 中國安全科學學報,1999 (4): 18-20.
[3] 付靜,詹全忠,唐燕,等.《水利網(wǎng)絡(luò)與信息安全事件應急預案》解析[J]. 中國水利,2008 (19): 13-15.
[4] 全國信息安全標準化委員會. 信息安全技術(shù)信息安全事件分類分級指南 [S]. 北京:中國標準出版社,2007: 5-6.
[5] 水利部水利信息中心. 綜合辦公系統(tǒng)應急預案[M]. 北京:中華人民共和國水利部,2012.
[6] 褚英國,陳正奎. 關(guān)于網(wǎng)絡(luò)與信息安全應急預案的研究與實踐[OL]. [2014-01-08]. http://www.docin.com/p-753168173. html.
Study on Preparation of Emergency Plans for Water Resources Information System
TANG Yan1, LU Tong2, DING Ning3
(1. Information center, the Ministry of Water Resources, Beijing 100053, China;
2. Beijing Jinshui Yan Yu Technology Co. Ltd, Beijing 100089, China;
3. Beijing Jinshui Information Technology Co., Ltd., Beijing 100053, China)
With the compilation of emergency response plan for integrated office system of water resources e-government as an example, from confirmation of emergency organization and responsibility, formulation of the fault classification, emergency disposal and exercise and other aspects of water resources information system emergency planning process, the article suggests emergency plan should avoid over complex, keep integrity and rigor of the plan, scientifically make exercise plans, and combine with the operation and maintenance. So that when emergencies happen, it will minimize the loss as far as possible.
water resources information system; integrated office system; emergency plan; development; research
TN39
A
1674-9405(2014)01-0047-07
2014-01-10
唐 燕(1964-),女,天津人,高級工程師,從事水利信息化建設(shè)與運維管理工作。