王月梅,胡 薔
(呼和浩特鐵路局 信息技術(shù)所,呼和浩特 010057)
隨著信息技術(shù)的普及與快速發(fā)展,網(wǎng)絡(luò)與信息系統(tǒng)已成為鐵路局運輸組織、安全生產(chǎn)、經(jīng)營管理不可或缺的重要組成部分。呼和浩特鐵路局信息技術(shù)所承擔著全局核心網(wǎng)絡(luò)與信息系統(tǒng)的運行維護任務(wù):內(nèi)蒙古資源網(wǎng)、物流服務(wù)平臺、客票預(yù)訂與發(fā)售、電話訂票及客服、三級建庫、MQ、客票安全、網(wǎng)絡(luò)安全、TDM S、mTUP、十八點、現(xiàn)車、ITSM、安全看板、辦公、電子郵件、電子公文等近200個應(yīng)用信息系統(tǒng),200余套網(wǎng)絡(luò)、空調(diào)、消防、供電動力系統(tǒng)設(shè)備和近400臺計算機設(shè)備的7×24 h在線運行維護。面對數(shù)目如此龐大,還在與日俱增的設(shè)備與系統(tǒng)規(guī)模,各類信息系統(tǒng)故障維護處理逐漸成為運維管理部門面臨的一項繁重而緊急的工作任務(wù)。
鐵路信息系統(tǒng)故障處理聯(lián)動平臺的設(shè)計是以網(wǎng)絡(luò)與信息系統(tǒng)軟硬件設(shè)備基礎(chǔ)資料的動態(tài)登記與實時維護為基礎(chǔ),建立了各類應(yīng)用系統(tǒng)及關(guān)聯(lián)附屬設(shè)施的運維管理資源庫,多方面多角度地為值班調(diào)度人員和運維管理人員提供了豐富而準確的計算機資源信息,以實現(xiàn)在最短時間內(nèi)統(tǒng)籌調(diào)配所有運維資源,最大化地發(fā)揮設(shè)備廠商、保修單位以及相關(guān)部門間的故障聯(lián)動處理作用。
該平臺的最大優(yōu)點是實現(xiàn)并發(fā)式的故障排查與處理,通過系統(tǒng)細分、崗位細分、責任細分提高故障處理效率和運維管理質(zhì)量的留痕式登記銷號制度,有效規(guī)避了故障處理不夠及時、相互推諉、有始無終、慣性問題復(fù)雜化處理的諸多弊端,實現(xiàn)了信息系統(tǒng)故障處理與應(yīng)用運維的網(wǎng)絡(luò)流程化閉環(huán)管理,做到信息暢通、響應(yīng)迅速、有效管控,大大提高了信息系統(tǒng)故障的應(yīng)急處置效率。
該平臺與現(xiàn)有信息服務(wù)管理系統(tǒng)(ITSM)及“網(wǎng)絡(luò)與信息系統(tǒng)安全風險集中管控平臺”形成聯(lián)動,把平臺中歷史性遺留問題或需要長期處理才能得以解決的特殊問題納入“網(wǎng)絡(luò)與信息系統(tǒng)安全風險集中管控平臺”中作為安全風險源進行重點排查與整改,使安全管理工作得以強化。
該平臺提供文字、圖表、報表、查閱等功能,使每一起故障都能夠做到處置留痕、嚴格卡控、上板消號、動態(tài)考核、對比分析和實時統(tǒng)計的閉環(huán)式管理。其中,對慣性問題及典型故障的發(fā)生原因與處理方法經(jīng)專家討論認定后全部存入到經(jīng)驗庫,為運維管理人員提供開放式檢索,達到借鑒使用的目的。同時,構(gòu)建了網(wǎng)絡(luò)與信息系統(tǒng)知識庫,對復(fù)雜問題附屬了針對性的處理方法與應(yīng)急預(yù)案,實現(xiàn)了各運維人員之間根據(jù)方法或方案均能夠處理問題的作用。經(jīng)驗庫與知識庫的設(shè)計為新職工提供了一個自學平臺,實現(xiàn)了快速進入工作角色、快速適應(yīng)工作崗位的人才培育目標,也為老職工提供了一個總結(jié)經(jīng)驗與互動交流的舞臺,起到了真正“傳、幫、帶”的作用。
(1)科學性:系統(tǒng)適應(yīng)網(wǎng)絡(luò)與信息系統(tǒng)故障聯(lián)動處理的應(yīng)用需求。(2)實用性:系統(tǒng)界面美觀友好,功能實用,操作簡便,易于使用和維護。(3)可靠性:系統(tǒng)7×24 h不間斷運行,在發(fā)生故障時能保證數(shù)據(jù)的完整性。(4)推廣性:系統(tǒng)為全局性網(wǎng)絡(luò)與信息系統(tǒng)故障聯(lián)動處理預(yù)留了相應(yīng)接口,包括站、段、車間、班組都能利用該平臺實現(xiàn)網(wǎng)絡(luò)與信息系統(tǒng)故障聯(lián)動處理,應(yīng)用前景廣泛。
該平臺主要功能模塊如圖1所示。
按照“逐級負責、專業(yè)負責、分工負責、崗位負責”分層次、分系統(tǒng)建立信息系統(tǒng)故障的登記與閉環(huán)處理,具體流程如圖2所示。
圖1 主要功能模塊圖
圖2 功能實現(xiàn)流程圖
(1)系統(tǒng)采用W indows Server 2010 R2+IIS7.5架構(gòu)的W eb應(yīng)用服務(wù)器平臺;代碼開發(fā)采用基于.NET Fram ew o rk的W eb動態(tài)設(shè)計技術(shù)ASP.NET。(2) 模 塊 設(shè) 計 采 用 了 RUP(Rational Unified Process)方法,并適當?shù)夭捎昧薠P(極限編程)的部分方法作為輔助。(3)本系統(tǒng)采用B/S架構(gòu),主要分為W eb應(yīng)用、W eb服務(wù)和數(shù)據(jù)庫3層,如圖3所示。
圖3 系統(tǒng)結(jié)構(gòu)
(1)日常接報故障登記
運行調(diào)度值班人員電話接報故障報警信息后,利用該模塊把發(fā)生的故障情況進行詳細登記,內(nèi)容主要包括故障的報告單位、報告人、發(fā)生地點、發(fā)生時間、現(xiàn)象、影響范圍、類別、聯(lián)系電話等。每條記錄均由當班運行調(diào)度值班人員填寫,系統(tǒng)自動記錄登記人姓名和班種。運行調(diào)度值班人員登記完成記錄后進行派單,把該條記錄流轉(zhuǎn)至相關(guān)運維工程師進行處理,并電話或短信通知。故障處理界面圖如圖4所示。
圖4 故障處理界面圖
(2)ITSM故障報警轉(zhuǎn)入
ITSM的作用是實時發(fā)現(xiàn)隱患與故障后報警提示,實現(xiàn)機房環(huán)境、計算機網(wǎng)絡(luò)、數(shù)據(jù)庫、中間件、業(yè)務(wù)應(yīng)用及系統(tǒng)平臺等的實時監(jiān)控與報警,系統(tǒng)采用B/S方式面向機房值班及信息生產(chǎn)管理人員。運行調(diào)度值班人員只需要進行幾個簡單的操作就能夠把需要處理的報警信息自動轉(zhuǎn)入到信息系統(tǒng)故障處理聯(lián)動平臺中進行統(tǒng)一處理。
(3)故障流轉(zhuǎn)處理
該平臺把運行調(diào)度值班人員的姓名與電腦IP地址進行捆綁,故障記錄只能在機房值班專用電腦上錄入,故障記錄一經(jīng)流轉(zhuǎn),維護工程師終端電腦開始出現(xiàn)警告提示,同時接到電話或短信通知,這種三位一體的通知方式大大提高了故障處理的響應(yīng)速度。維護工程師根據(jù)故障記錄內(nèi)容,有方向有目的地開展故障排查與處理。接收過程有回執(zhí)記錄,以便運行調(diào)度值班人員確認。
(4)申請銷號
維護工程師在處理完故障后,及時填寫處理過程及處理方法,內(nèi)容詳實、明了。填寫完成后點擊申請銷號,系統(tǒng)通過聲音提示自動通知運行調(diào)度值班人員。
(5)閉環(huán)管理
運行調(diào)度值班人員看到申請銷號的通知后,核實處理結(jié)果及填寫內(nèi)容,給予銷號或提醒處理人員重新填寫處理內(nèi)容。
(6)記錄優(yōu)化
得到閉環(huán)處理的故障記錄由運行調(diào)度值班人員進行優(yōu)化后流轉(zhuǎn)至專管領(lǐng)導(dǎo)進行審核,如果合格則直接轉(zhuǎn)入銷號庫或知識庫;如果不合格則重新分配人員進行優(yōu)化后最終轉(zhuǎn)入銷號庫或知識庫。
(7)上板考核
根據(jù)維護工程師處理故障流程、處理結(jié)果和造成的影響,為干部考核管理系統(tǒng)提供參考依據(jù)。
(8)統(tǒng)計分析
根據(jù)系統(tǒng)名稱、故障類型、解決部門和解決人員對登記的故障進行統(tǒng)計。通過統(tǒng)計數(shù)據(jù),安委會對發(fā)生的信息系統(tǒng)故障進行現(xiàn)場分析和集中研討,有針對性地加強安全管理工作。
(1)經(jīng)驗錄入
經(jīng)驗錄入模塊根據(jù)日常維護的類型主要分為3種:完善性維護、適應(yīng)性維護和改正性維護。
(2)記錄審核
在日常工作中,每位職工都承擔著不同應(yīng)用信息系統(tǒng)的維護工作,在每日下班之前將本日所維護和處理過的問題按照發(fā)生時間、報告人、處理完成時間進行統(tǒng)一錄入,為月度或年度個人工作量化考核提供依據(jù),也為系統(tǒng)優(yōu)化提供重要數(shù)據(jù)來源。記錄審核由各科主管科長完成,對合格的記錄直接轉(zhuǎn)入經(jīng)驗庫或知識庫,對不合格的記錄科長優(yōu)化后最終轉(zhuǎn)入經(jīng)驗庫或知識庫。
(1)投產(chǎn)信息系統(tǒng)基本信息登記
對于上聯(lián)集中型信息中心機房,內(nèi)部設(shè)備數(shù)量龐大、型號復(fù)雜、上線信息系統(tǒng)各異,如何在故障報出的第一時間正確定位設(shè)備位置,首先需要為每一臺信息系統(tǒng)設(shè)備建立基本檔案,包括設(shè)備型號、基本配置(基本硬件配置、存儲、主備機、網(wǎng)絡(luò)設(shè)備及網(wǎng)口、IP地址)、位置、編號、購置時間、投產(chǎn)使用日期、保修期限、保修公司、聯(lián)系電話、硬件安裝與日后維護人姓名、系統(tǒng)安裝與日后維護人姓名、應(yīng)用部署與日后維護人姓名、數(shù)據(jù)庫(版本、介質(zhì)存放)、操作系統(tǒng)(版本、介質(zhì)存放)、設(shè)備管理責任人、應(yīng)急處理預(yù)案(主備機關(guān)系、應(yīng)急流程、相關(guān)人員)、故障分類記錄(硬件故障、系統(tǒng)故障、應(yīng)用故障)、歷史故障查詢(按故障分類檢索、按日期檢索、按原因檢索、按結(jié)果檢索)、季度匯總報表(按故障分類記錄)、年終匯總報表(按故障分類記錄)。
(2)信息系統(tǒng)基本信息維護
升級記錄(版本、日期、作用);維護記錄(維護工程師姓名、維護原因、日期、處理結(jié)果、警示、備注);修改記錄(修改人員姓名、修改原因、修改日期、修改結(jié)果)。
(3)信息系統(tǒng)維護要求
系統(tǒng)重要參數(shù)的監(jiān)控數(shù)據(jù)維護,根據(jù)數(shù)據(jù)重要性排序,以數(shù)據(jù)表示其重要性。
各使用部門根據(jù)權(quán)限進行不同類別的樹狀信息維護。
知識庫與經(jīng)驗庫的設(shè)計理念相同,均起到技術(shù)交流的作用,為新職工搭建起快速學習的橋梁,也為各業(yè)務(wù)系統(tǒng)之間搭建起快速協(xié)作的通道,目的是確保鐵路運輸工作的安全穩(wěn)定。
信息系統(tǒng)故障處理聯(lián)動平臺涉及到鐵路信息系統(tǒng)的方方面面,以基礎(chǔ)設(shè)施臺賬為基礎(chǔ),每條故障從登記到銷號,實現(xiàn)統(tǒng)一流水作業(yè),問題環(huán)節(jié)明了,處理時間緊湊,良好地杜絕了互相推諉和拖拉處理情況的發(fā)生,提升了信息系統(tǒng)維護處理效率。平臺堅持系統(tǒng)控制、整體協(xié)調(diào)的原則,強化信息系統(tǒng)各個環(huán)節(jié)以及與此相關(guān)的“結(jié)合部”安全風險控制和防范,確保了鐵路運輸生產(chǎn)安全穩(wěn)定。
[1] 陳立云,金國華.跟我們做流程管理[M]. 北京:北京大學出版社,2010.
[2] 丁 浩,高學賢.信息系統(tǒng)分析與設(shè)計[M]. 北京:清華大學出版社,2009.
[3] 林小村,馬玉林,翁小云.數(shù)據(jù)中心建設(shè)與運行管理 [M].北京:科學出版社,2010.
[4]陳宏峰,劉億舟.中國IT服務(wù)管理指南:理論篇[M] .北京:北京大學出版社,2012.
[5]貝 克,安德瑞斯.解析極限編程—擁抱變化[M].雷劍文,李應(yīng)樵,陳振沖,譯. 2版.北京:機械工業(yè)出版社,2011.