錢逢安 上海鐵路局信息技術(shù)所
信息服務(wù)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
錢逢安 上海鐵路局信息技術(shù)所
基于我局信息運(yùn)維部門目前面臨的現(xiàn)實(shí)困難,設(shè)計(jì)并實(shí)現(xiàn)了信息服務(wù)管理系統(tǒng),該系統(tǒng)規(guī)范和監(jiān)督運(yùn)維工作各環(huán)節(jié),降低運(yùn)維人員勞動(dòng)強(qiáng)度,提高運(yùn)維知識(shí)共享,保障各信息系統(tǒng)的持續(xù)穩(wěn)定運(yùn)行。
機(jī)房監(jiān)控;運(yùn)行維護(hù);故障管理
經(jīng)過多年的努力,我局信息化應(yīng)用得到長(zhǎng)足發(fā)展。信息系統(tǒng)已經(jīng)成為我局決策支持、客貨運(yùn)營(yíng)銷、調(diào)度指揮的重要工具。目前運(yùn)行的信息系統(tǒng)主要有:客票系統(tǒng)、調(diào)度系統(tǒng)、三級(jí)建庫(kù)系統(tǒng)、辦公自動(dòng)化系統(tǒng)、安全平臺(tái)系統(tǒng)、其他專業(yè)信息系統(tǒng)等。作為支撐這些應(yīng)用運(yùn)行的底層平臺(tái)小型機(jī)、服務(wù)器、網(wǎng)絡(luò)日趨復(fù)雜多樣。目前全局核心小型機(jī)多達(dá)百余套,主要機(jī)型是IBM P系列、HP SuperDome系列、Oracle SPARC系列,存儲(chǔ)涉及IBM、HP、EMC、HDS等多家產(chǎn)品,網(wǎng)絡(luò)設(shè)備涉及思科、華為、港灣,服務(wù)器、微機(jī)更是數(shù)以千計(jì)。隨著應(yīng)用范圍的不斷延伸,投入運(yùn)營(yíng)的軟硬件系統(tǒng)更加龐大復(fù)雜。
信息系統(tǒng)項(xiàng)目投入生產(chǎn)之后,信息運(yùn)維部門承擔(dān)相關(guān)軟硬件系統(tǒng)的所有監(jiān)控維護(hù)責(zé)任。如何保障這些系統(tǒng)24 h不間斷穩(wěn)定運(yùn)行是對(duì)鐵路運(yùn)維保障部門一個(gè)重大挑戰(zhàn)。分析我局實(shí)際情況,各信息運(yùn)維部門普遍存在如下困難:
1.1 故障管理過程不規(guī)范,故障處理效率不能保證
故障管理是對(duì)運(yùn)行生產(chǎn)過程中發(fā)生的故障進(jìn)行管理,這是信息運(yùn)行維護(hù)部門日常工作的重要內(nèi)容,其主要工作包括故障報(bào)告、故障登記、故障解決、故障事后分析總結(jié)等過程。及時(shí)、規(guī)范處理故障是保證信息系統(tǒng)持續(xù)運(yùn)行的首要條件。標(biāo)準(zhǔn)的故障管理規(guī)范要求對(duì)故障事件進(jìn)行科學(xué)、量化分類,并設(shè)定事件的優(yōu)先級(jí)。依據(jù)在鐵路內(nèi)部和外部簽訂相應(yīng)的合同與服務(wù)級(jí)別協(xié)議,獲得必要的資源和支持,及時(shí)解決突發(fā)事件和故障,減少因突發(fā)事件和故障導(dǎo)致的信息服務(wù)中斷。
1.2 缺乏運(yùn)維知識(shí)積累,不利提高運(yùn)維人員的知識(shí)能力
建立運(yùn)維知識(shí)庫(kù)是信息運(yùn)維管理的一項(xiàng)重要的工作。信息運(yùn)行維護(hù)人員在實(shí)際工作中經(jīng)常會(huì)碰到曾經(jīng)發(fā)生的類似故障和事件,這些故障和事件的解決方案無疑是一筆重要的財(cái)富。由于缺乏必要的工具,運(yùn)維部門常常無法記錄和共享這些寶貴知識(shí)。信息運(yùn)維部門必須建立企業(yè)級(jí)別知識(shí)庫(kù)管理機(jī)制,通過建立知識(shí)庫(kù)框架、建立與變更管理、事件管理等流程的接口、梳理知識(shí)分類、定義持續(xù)改進(jìn)機(jī)制等,使得知識(shí)管理融入運(yùn)維日常工作中,持續(xù)提升信息運(yùn)維部門知識(shí)質(zhì)量。
1.3 鐵路計(jì)算機(jī)核心資源的監(jiān)控
鐵路計(jì)算機(jī)設(shè)備狀態(tài)以及關(guān)鍵資源對(duì)生產(chǎn)系統(tǒng)的穩(wěn)定運(yùn)行起著重要作用。定期巡視各類設(shè)備狀態(tài)、查看關(guān)鍵資源是鐵路運(yùn)維人員的首要工作。目前,主要依賴鐵路運(yùn)維人員定期查看被檢查設(shè)備系統(tǒng)日志和資源使用狀況,這種監(jiān)控方式有很大的局限性:故障發(fā)現(xiàn)依賴運(yùn)維人員的個(gè)人工作態(tài)度和工作能力、運(yùn)維人員的勞動(dòng)強(qiáng)度太大、間休期間不可能進(jìn)行巡視和檢查,期間發(fā)生的故障也就不可能發(fā)現(xiàn)和記錄。
2.1 總體結(jié)構(gòu)
信息服務(wù)管理系統(tǒng)以ASG-SENTRY為基礎(chǔ),以事件為驅(qū)動(dòng),從整體架構(gòu)上,系統(tǒng)可以分為:監(jiān)測(cè)數(shù)據(jù)采集與加工、異常事件報(bào)警、運(yùn)維過程規(guī)范化管理3大部分。
數(shù)據(jù)采集與加工功能主要是將所有被監(jiān)控系統(tǒng)的監(jiān)控信息采集收集并寫到預(yù)定義的信息交換數(shù)據(jù)庫(kù)中。數(shù)據(jù)處理模塊從交換數(shù)據(jù)庫(kù)讀取信息,進(jìn)行分類、加工和整理,再寫入目標(biāo)數(shù)據(jù)庫(kù)中。
異常事件報(bào)警模塊從目標(biāo)數(shù)據(jù)庫(kù)中讀取信息,根據(jù)事件影響的輕重程度,以不同顏色的文字信息等不同形式報(bào)警,提醒運(yùn)維人員及時(shí)處理。運(yùn)維人員隨時(shí)通過Web瀏覽器查看監(jiān)控信息,技術(shù)支持人員通過該平臺(tái)接收查看故障描述,進(jìn)行故障分析,故障處理結(jié)束后通過該平臺(tái)反饋故障處理結(jié)果。
運(yùn)維過程規(guī)范化管理部分主要是對(duì)信息運(yùn)維過程中各類過程進(jìn)行規(guī)范化管理,確保各類過程可控可追溯,確保運(yùn)維效率和責(zé)任考核。信息服務(wù)管理系統(tǒng)總體框架如圖1所示。
圖1 信息服務(wù)管理系統(tǒng)總體框架
2.2 開發(fā)環(huán)境
2.2.1 系統(tǒng)平臺(tái)
2.2.2 ASG軟件
上海鐵路局信息服務(wù)管理系統(tǒng)已經(jīng)實(shí)現(xiàn)功能包括:事件管理、值班管理、故障管理、知識(shí)庫(kù)、文檔管理、系統(tǒng)維護(hù)、統(tǒng)計(jì)輸出等主要功能模塊。系統(tǒng)采用web方式,用戶通過瀏覽器完成全部操作功能。
3.1 事件管理
事件管理是通過安裝在被監(jiān)控對(duì)象(小型機(jī)、服務(wù)器、微機(jī)等)設(shè)備上的信息采集插件或配置監(jiān)控對(duì)象(網(wǎng)絡(luò)設(shè)備),將被監(jiān)控對(duì)象的監(jiān)控?cái)?shù)據(jù)主動(dòng)發(fā)送到交換數(shù)據(jù)庫(kù)中,信息服務(wù)管理系統(tǒng)數(shù)據(jù)加工模塊將原始數(shù)據(jù)過濾加工并送到目標(biāo)數(shù)據(jù)庫(kù)中,信息服務(wù)管理系統(tǒng)Web服務(wù)器提取這些數(shù)據(jù)并對(duì)比相關(guān)字典,產(chǎn)生報(bào)警信息。該功能模塊包含如下幾項(xiàng)功能:報(bào)警事件查看與處理,報(bào)警信息歷史查詢。
3.2 值班管理
我局信息運(yùn)維部門大多實(shí)行倒班制,有三班倒或四班倒。運(yùn)維人員需要記錄值班期間發(fā)生的各類事項(xiàng),確保各類信息系統(tǒng)相關(guān)事項(xiàng)可追溯跟蹤。該功能模塊包含以下幾項(xiàng)功能:
值班人員交接班功能,由交班人員向接班人員報(bào)告當(dāng)班期間發(fā)生的各類事項(xiàng),核心內(nèi)容包括上個(gè)班遺留的未結(jié)束故障及其處理結(jié)果、本班發(fā)生的故障及其處理結(jié)果、其他需要交接的其他重要事項(xiàng)等;
值班日志功能,記錄和查詢值班期間一些零碎事項(xiàng),如重要部門通知、本班期間應(yīng)急演練情況、新設(shè)備安裝、舊設(shè)備報(bào)廢等;
巡視記錄功能,記錄和查詢值班人員的機(jī)房定期巡視信息,主要是對(duì)不能自動(dòng)監(jiān)控設(shè)備和系統(tǒng)進(jìn)行人工監(jiān)控和現(xiàn)場(chǎng)巡視。
3.3 故障管理
故障管理主要是對(duì)信息系統(tǒng)運(yùn)行過程中發(fā)生的各類軟硬件故障處理過程進(jìn)行規(guī)范化管理,確保發(fā)生的故障及時(shí)有效處理,保證各類信息系統(tǒng)持續(xù)穩(wěn)定運(yùn)行。故障處理模塊包含以下各項(xiàng)功能,涵蓋故障處理過程的每個(gè)環(huán)節(jié):
故障登記對(duì)發(fā)生的故障進(jìn)行登記,確保故障處理技術(shù)人員得到相關(guān)故障信息。故障登記內(nèi)容包括故障現(xiàn)象、發(fā)生時(shí)間、負(fù)責(zé)故障處理的技術(shù)人員及其主管、故障通知的時(shí)間等。故障登記最后生成故障處理工單并分發(fā)相關(guān)技術(shù)人員。
故障通知是當(dāng)故障需要多人員、多部門協(xié)作處理時(shí),通知其他的技術(shù)人員及其主管,協(xié)調(diào)多部門共同處理。故障通知功能主要是為了提高故障處理效率,強(qiáng)化故障處理人員的合作和工效的考核。
技術(shù)支持是故障處理結(jié)束后,故障處理人員對(duì)本故障的故障原因以及故障處理過程進(jìn)行分析總結(jié),并反饋值班人員。值班人員開始結(jié)束故障過程。
故障結(jié)束是在故障處理完成,值班人員收到所有故障處理人員的故障原因及故障處理總結(jié)后,正式關(guān)閉故障的過程。
故障統(tǒng)計(jì)提供故障分類查詢統(tǒng)計(jì)功能。值班人員可以根據(jù)故障發(fā)生的時(shí)間、故障報(bào)告單位、故障涉及項(xiàng)目、故障等級(jí)、故障責(zé)任部門等條件來統(tǒng)計(jì)故障,為相關(guān)決策、考核提供依據(jù)。
3.4 知識(shí)庫(kù)管理
知識(shí)庫(kù)的主要內(nèi)容是各類信息系統(tǒng)軟硬件故障的成熟解決方案。知識(shí)庫(kù)來源于以下途徑:路內(nèi)相同或類似信息系統(tǒng)已發(fā)生故障的成功處理經(jīng)驗(yàn)、路外廠家提供的各類故障官方處理方案、個(gè)人提供且經(jīng)檢驗(yàn)為正確解決方案。信息服務(wù)管理系統(tǒng)實(shí)現(xiàn)以下功能:知識(shí)庫(kù)錄入、知識(shí)庫(kù)變更、知識(shí)庫(kù)審核、知識(shí)庫(kù)檢索、知識(shí)庫(kù)刪除等。
3.5 文檔管理
文檔管理是信息運(yùn)維管理一個(gè)組成部分,也是信息系統(tǒng)配置管理的一個(gè)重要組成部分。信息服務(wù)管理系統(tǒng)實(shí)現(xiàn)了文檔常見的功能:文檔上傳、文檔查閱、文檔刪除等。為了便于查閱故障分析文檔,特別增加故障分析報(bào)告文檔專欄。
3.6 系統(tǒng)維護(hù)
系統(tǒng)維護(hù)主要是對(duì)信息服務(wù)管理系統(tǒng)本身進(jìn)行管理,其主要功能有系統(tǒng)日志管理、用戶及授權(quán)管理以及系統(tǒng)字典管理等。
3.7 統(tǒng)計(jì)輸出
統(tǒng)計(jì)輸出模塊主要包含值班日?qǐng)?bào)表和歷史報(bào)表輸出功能。將電算站、路局值班日志及故障信息按照每天或指定時(shí)間段綜合成報(bào)表輸出,為相關(guān)領(lǐng)導(dǎo)提供參考。
信息運(yùn)維監(jiān)控系統(tǒng)實(shí)現(xiàn)關(guān)鍵計(jì)算機(jī)狀態(tài)的自動(dòng)監(jiān)控,減輕了運(yùn)維人員的工作強(qiáng)度,有效提高運(yùn)維部門的工作效率;信息運(yùn)維監(jiān)控系統(tǒng)對(duì)運(yùn)行生產(chǎn)過程中發(fā)生的故障進(jìn)行管理,對(duì)故障提供相應(yīng)的資源和技術(shù)支持,提高了信息系統(tǒng)故障處理效率;信息運(yùn)維監(jiān)控系統(tǒng)知識(shí)庫(kù)收錄技術(shù)人員各類故障處理的解決方案,通過共享管理機(jī)制,使知識(shí)管理融入運(yùn)維日常工作中,持續(xù)提升運(yùn)維部門的工作質(zhì)量。
責(zé)任編輯:王華 胡雄偉
來稿日期:2016-09-22