劉聰
關(guān)鍵詞:浦東機(jī)場;標(biāo)準(zhǔn)化;配置管理數(shù)據(jù)庫;自動運(yùn)維
為了提升旅客在浦東機(jī)場使用相關(guān)服務(wù)時的體驗,保障機(jī)場的安全穩(wěn)定運(yùn)營,在機(jī)場內(nèi)部布設(shè)了大量的監(jiān)控設(shè)備,來支撐一切突發(fā)事件的處理和解決,有助于旅客享受更加舒適的機(jī)場服務(wù)[1-3]。一旦出現(xiàn)監(jiān)控平臺運(yùn)行故障或者存在運(yùn)行效果不佳,則會極大地影響機(jī)場的安全運(yùn)營和高效服務(wù)。然而,隨著監(jiān)控需求的增多,監(jiān)控設(shè)備種類也從最開始的安全監(jiān)控護(hù)大至服務(wù)監(jiān)控等,現(xiàn)有監(jiān)控系統(tǒng)目前已有超過1000個前端監(jiān)控設(shè)備,基本覆蓋了航站樓區(qū)域的出發(fā)、到達(dá)、行李、中轉(zhuǎn)等重要區(qū)域,且仍有擴(kuò)大的趨勢。眾所周知,監(jiān)控系統(tǒng)平臺連接的設(shè)備數(shù)量越多、種類越繁雜,出現(xiàn)故障的概率就會增高。據(jù)浦東機(jī)場監(jiān)控設(shè)備維護(hù)維修記錄顯示,在現(xiàn)有設(shè)備量的前提下,監(jiān)控設(shè)備日均出現(xiàn)故障頻次約10次,嚴(yán)重影響了機(jī)場的高效運(yùn)轉(zhuǎn)。
1浦東機(jī)場IT運(yùn)維監(jiān)控平臺
IT運(yùn)維平臺是配置管理數(shù)據(jù)庫自建的綜合監(jiān)控運(yùn)維管理平臺,其運(yùn)行目標(biāo)是實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的集中監(jiān)控、統(tǒng)一運(yùn)維,規(guī)范和優(yōu)化運(yùn)維流程,進(jìn)而獲得最佳秩序和效益。值班主任負(fù)責(zé)查看并處理告警、派發(fā)故障工單、告警消除后現(xiàn)場確認(rèn)。系統(tǒng)管理員負(fù)責(zé)添加、修改監(jiān)控節(jié)點(diǎn)、日常系統(tǒng)巡檢和維護(hù)。
運(yùn)維的管理實(shí)踐中充斥著大量重復(fù)性事務(wù),人工處理報修流程繁雜漫長,一般需要經(jīng)歷故障發(fā)生、用戶報修、SOCC接報、故障定位、故障排除和用戶確認(rèn)等環(huán)節(jié),耗時費(fèi)力,嚴(yán)重影響了機(jī)場的運(yùn)行效率和服務(wù)效果[4-5]。IT運(yùn)維平臺可以實(shí)現(xiàn)運(yùn)維的標(biāo)準(zhǔn)化,提高團(tuán)隊效率和快速梳理運(yùn)維雜亂問題,如圖1所示。
2IT運(yùn)維監(jiān)控平臺建設(shè)目標(biāo)
(1)以自動化的方式實(shí)現(xiàn)所有設(shè)備從5分鐘級提升至秒級的輪詢能力,極大地提升了基礎(chǔ)設(shè)施運(yùn)維監(jiān)控的時間粒度,為監(jiān)控預(yù)警精細(xì)化、故障告警及時性、運(yùn)行態(tài)勢感知能力奠定基礎(chǔ)。
(2)通過自動識別、解析網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)鋱D,實(shí)現(xiàn)基于物理鏈路關(guān)系的網(wǎng)絡(luò)故障關(guān)聯(lián)分析,實(shí)現(xiàn)對網(wǎng)絡(luò)設(shè)備運(yùn)行故障的影響度分析和呈現(xiàn),按設(shè)備所處層級、設(shè)備故障影響的下聯(lián)設(shè)備的數(shù)量來分組展現(xiàn)故障節(jié)點(diǎn),為運(yùn)維值班人員和網(wǎng)絡(luò)管理人員直接呈現(xiàn)設(shè)備的故障態(tài)勢,快速判斷故障的影響度,提升故障識別和定位的效率。
(3)通過視頻監(jiān)控系統(tǒng)自動化巡檢功能定期巡檢攝像機(jī)點(diǎn)位的工作狀態(tài),再由值班人員對巡檢結(jié)果進(jìn)行二次復(fù)核判斷,作出相應(yīng)的故障處理。該功能的實(shí)現(xiàn),一方面大幅提升巡檢效率(如發(fā)生大面積斷電或者區(qū)域故障,便于事后進(jìn)行整體檢查,確保系統(tǒng)完好率),另一方面通過程序每日巡檢再結(jié)合人工巡檢互補(bǔ)即可形成有效監(jiān)督,提升了前端設(shè)備的運(yùn)行完好率,最終實(shí)現(xiàn)提升浦東機(jī)場視頻監(jiān)控系統(tǒng)的運(yùn)維服務(wù)質(zhì)量和效率。
(4)建設(shè)一體化、標(biāo)準(zhǔn)化的運(yùn)維管理體系,實(shí)現(xiàn)統(tǒng)一運(yùn)維平臺的底層數(shù)據(jù)源建設(shè),厘清數(shù)據(jù)源格式類型、運(yùn)維數(shù)據(jù)量級、配置項關(guān)系信息。做好向四期延伸的準(zhǔn)備,為四期新系統(tǒng)的建設(shè)提供開放和標(biāo)準(zhǔn)的API接口。
3IT運(yùn)維監(jiān)控平臺存在的主要問題和優(yōu)化方向
3.1監(jiān)控平臺存在的主要問題
隨著平安城市、雪亮工程的持續(xù)推進(jìn),城市視頻監(jiān)控的數(shù)量越來越多,機(jī)場作為重點(diǎn)防控區(qū)域,安裝監(jiān)測設(shè)備的數(shù)量和密度均遠(yuǎn)高于其他區(qū)域。隨之而來的問題就是如何持續(xù)、有效地使這些監(jiān)控設(shè)備發(fā)揮作用、保障城市安全。目前浦東機(jī)場視頻監(jiān)控運(yùn)維與保障存在如下問題。
(1)設(shè)備類型多、數(shù)量大、分布廣、管理難。視頻監(jiān)控建設(shè)涉及攝像頭、存儲、服務(wù)器、路由器、交換機(jī)、防火墻、PON接人以及eLTE無線寬帶接人等眾多設(shè)備,基本覆蓋了航站樓區(qū)域的出發(fā)、到達(dá)、行李、中轉(zhuǎn)等重要區(qū)域。眾多不類型的設(shè)備對系統(tǒng)承載和日常運(yùn)行維護(hù)造成了較大的困擾。
(2)整體運(yùn)營成本高,管理復(fù)雜。同時,需要多個管理平臺和大量運(yùn)維人員來承擔(dān)各種設(shè)備的監(jiān)測和現(xiàn)場維護(hù)。
(3)難以感知系統(tǒng)全面健康狀況。監(jiān)控設(shè)備的維護(hù)目前仍以人工巡檢為主,設(shè)備的數(shù)據(jù)收集、管理缺乏數(shù)字化,難以實(shí)現(xiàn)高可靠的視頻巡檢和安全保障。
(4)運(yùn)維管理難以閉環(huán)和考核。設(shè)備維護(hù)以故障報修為主,管理過程難以監(jiān)測,對運(yùn)維單位缺乏有效的考核機(jī)制。
(5)重復(fù)建設(shè),管理成本過高。目前,浦東機(jī)場的IT設(shè)備與視頻設(shè)備監(jiān)測分開運(yùn)維和管理,增加了運(yùn)維成本。
(6)監(jiān)測時效性差,準(zhǔn)確性不足,無針對性。監(jiān)測結(jié)果反饋不及時,漏報誤報率高,監(jiān)測不能有所側(cè)重。
3.2監(jiān)控平臺優(yōu)化方向
為了實(shí)現(xiàn)高效完成監(jiān)控平臺的穩(wěn)定運(yùn)行,對原先的監(jiān)控平臺進(jìn)行升級優(yōu)化,使之更加貼合浦東機(jī)場運(yùn)行實(shí)際以及提高工作效率。(1)要求監(jiān)控平臺對視頻監(jiān)控設(shè)備運(yùn)行狀況進(jìn)行實(shí)時跟蹤和監(jiān)測,確保能夠長時間良好運(yùn)行,若發(fā)生視頻設(shè)備故障,則應(yīng)立即報警,不得遺漏。最終達(dá)到視頻監(jiān)控系統(tǒng)故障告警覆蓋率高于80%。(2)增加對終端設(shè)備的巡檢頻次和設(shè)備運(yùn)行狀態(tài)的記錄,確保所有的設(shè)備都處于穩(wěn)定運(yùn)行狀態(tài),最終達(dá)到視頻監(jiān)控系統(tǒng)用戶報修數(shù)量減少20%、攝像機(jī)平均故障時間減少30%、人工巡檢自查故障占比低于10%。
4監(jiān)控平臺運(yùn)維系統(tǒng)整體結(jié)構(gòu)
監(jiān)控是整個運(yùn)維乃至整個產(chǎn)品生命周期中最重要的一環(huán),事前及時預(yù)警發(fā)現(xiàn)故障,事后提供詳實(shí)的數(shù)據(jù)用于追查定位問題。
浦東機(jī)場監(jiān)控平臺運(yùn)維系統(tǒng)(圖2)通過將機(jī)場內(nèi)部所有運(yùn)行和需要維護(hù)的設(shè)備進(jìn)行統(tǒng)一監(jiān)控,繼而建立統(tǒng)一配置管理數(shù)據(jù)庫,對監(jiān)測目標(biāo)的運(yùn)行數(shù)據(jù)進(jìn)行收集和管控體系。因此,以監(jiān)測目標(biāo)的運(yùn)行數(shù)據(jù)分析為根基,提供開放和標(biāo)準(zhǔn)的API接口,將機(jī)場所有的運(yùn)維監(jiān)控設(shè)備鏈接進(jìn)入管控平臺中,進(jìn)而消除各運(yùn)行維護(hù)工具標(biāo)準(zhǔn)差異的壁壘。
配置管理數(shù)據(jù)庫是監(jiān)控平臺得以有效運(yùn)行的根基,通過SNMP協(xié)議和ICMP協(xié)議讀取各檢測設(shè)備的指標(biāo),從而了解集成、機(jī)房動環(huán)、生產(chǎn)實(shí)況、航班顯示和云平臺2分鐘內(nèi)的運(yùn)行狀態(tài),進(jìn)而根據(jù)運(yùn)行維護(hù)標(biāo)準(zhǔn)作出是否告警的決定。具體如表1所列。
5監(jiān)控告警與處置的閉環(huán)管理設(shè)計
浦東機(jī)場監(jiān)控設(shè)備IT運(yùn)維平臺以配置管理數(shù)據(jù)庫中模型為基礎(chǔ),使用開放和標(biāo)準(zhǔn)的API接口,對交換機(jī)、服務(wù)器、集成、航班信息顯示系統(tǒng)、機(jī)房動力環(huán)境監(jiān)控系統(tǒng)、云平臺等各類設(shè)備和監(jiān)控目標(biāo)進(jìn)行統(tǒng)一監(jiān)測。
即可使用統(tǒng)一的讀取方式、讀取時長間隔、讀取數(shù)據(jù)格式等,進(jìn)而完成對各類監(jiān)測設(shè)備的全方位的指標(biāo)讀取,并可進(jìn)行統(tǒng)一、高效的數(shù)據(jù)分析,對于異常數(shù)據(jù)能夠快速進(jìn)行辨別,最終通過大屏進(jìn)行顯示。
5.1統(tǒng)一監(jiān)控管理設(shè)計
傳統(tǒng)的人工處理報修,對于監(jiān)控設(shè)備的運(yùn)維都是采用自身習(xí)慣的標(biāo)準(zhǔn)進(jìn)行,且時常出現(xiàn)在運(yùn)行維護(hù)日寸使用不同的工具,即使運(yùn)行維護(hù)多年,積累了大量的工作數(shù)據(jù),也無法大規(guī)模地進(jìn)行推廣,無法有效形成合力。因此,對于運(yùn)維管理體系的優(yōu)化應(yīng)實(shí)現(xiàn)標(biāo)準(zhǔn)的監(jiān)控管理體系流程(圖3),統(tǒng)一標(biāo)準(zhǔn),進(jìn)而提高運(yùn)行維護(hù)業(yè)務(wù)的效率和一致性。
5.2統(tǒng)一告警管理設(shè)計
監(jiān)控目標(biāo)運(yùn)行狀態(tài)不佳同樣對整個系統(tǒng)的正常運(yùn)轉(zhuǎn)起到了非常不利的作用,因此,監(jiān)控目標(biāo)運(yùn)行不良時及時地向IT運(yùn)維平臺告警極其重要。然而,連接進(jìn)入IT運(yùn)維管理平臺的設(shè)備種類繁多,設(shè)備信息運(yùn)行數(shù)據(jù)的采集和狀態(tài)的把控對于判別有效告警或無效告警需要制定統(tǒng)一的標(biāo)準(zhǔn),對于讀取的數(shù)據(jù)進(jìn)行必要的過濾,并通過歷史數(shù)據(jù)比對,最后對有效的告警信息進(jìn)行相應(yīng)處理。
6工單生成與分派的標(biāo)準(zhǔn)流程
6.1告警管理與故障處置流程
工作人員通過大屏顯示了解IT運(yùn)維管理平臺推送的告警信息后,應(yīng)第一時間將信息事件上報并錄入系統(tǒng),或通知事件相應(yīng)的負(fù)責(zé)人,及時進(jìn)行處置。處置后,生成此次告警信息全方位的處理報告,為后續(xù)同類事件的處理提供經(jīng)驗。同時,豐富系統(tǒng)庫中數(shù)據(jù)的儲存量,為往后系統(tǒng)對于有效告警事件的判別提供依據(jù)。
在浦東機(jī)場日常運(yùn)行中,航班信息顯示系統(tǒng)故障偶有發(fā)生,其告警與處置流程如下:IT運(yùn)維管理平臺監(jiān)測到航班信息顯示系統(tǒng)運(yùn)行狀態(tài)出現(xiàn)故障,進(jìn)而進(jìn)入預(yù)設(shè)的自動處置程序,對于可能出現(xiàn)的軟件運(yùn)行問題進(jìn)行自我處理。然而,若是因為航班信息顯示系統(tǒng)的硬件設(shè)施出現(xiàn)故障,則系統(tǒng)無法徹底完成進(jìn)一步的處置工作,但I(xiàn)T運(yùn)維管理平臺仍然可以通過對設(shè)備運(yùn)行數(shù)據(jù)的分析,來指導(dǎo)現(xiàn)場維修人員進(jìn)行故障原因判別,縮短修復(fù)時間。另外,若出現(xiàn)航班信息顯示系統(tǒng)大批量的組件同時出現(xiàn)故障(機(jī)場緊急事故)或維修維護(hù)人員不能及時處置的情況,系統(tǒng)將故障自動升級,并傳輸至更高基層管理人員,避免事態(tài)無法收場。具體如圖4所示。
6.2業(yè)務(wù)終端變更管理流程
業(yè)務(wù)終端變更管理涉及機(jī)場的運(yùn)行安全,對于流程的審核要求相對較為嚴(yán)謹(jǐn)。機(jī)場運(yùn)行設(shè)備中出現(xiàn)局部細(xì)小的故障或者常見問題,可以應(yīng)用標(biāo)準(zhǔn)化統(tǒng)一預(yù)設(shè)定的流程進(jìn)行處置,進(jìn)而實(shí)現(xiàn)業(yè)務(wù)終端變更管理的標(biāo)準(zhǔn)化和自動化,減少因為需要人為干涉而帶來的時效性問題和其他不可控因素。對于非常見問題或無法通過標(biāo)準(zhǔn)程序解決的監(jiān)控目標(biāo)故障,則應(yīng)嚴(yán)格準(zhǔn)照業(yè)務(wù)終端變更管理流程進(jìn)行。
以浦東機(jī)場航班信息顯示系統(tǒng)故障時的業(yè)務(wù)終端變更管理流程(圖5)為例,在IT運(yùn)維監(jiān)控平臺讀取到設(shè)備運(yùn)行狀態(tài)出現(xiàn)異常并符合告警后,系統(tǒng)自動對故障原因做出判別,如系統(tǒng)故障可通過IT運(yùn)維監(jiān)控平臺自動完成自我修復(fù)和處置,則處置程序自動進(jìn)入該程序(如航班信息顯示系統(tǒng)內(nèi)存超過預(yù)警值),如當(dāng)存在硬件故障,IT運(yùn)維監(jiān)控平臺無法自我進(jìn)行處置時,則通過技術(shù)人員對故障的原因和類別以及處置方式做出定性,進(jìn)而請求相應(yīng)的處置權(quán)限,得到授權(quán)后方可進(jìn)行修復(fù)工作,同時將相關(guān)信息備份至配置管理數(shù)據(jù)庫。
7結(jié)束語
IT運(yùn)維監(jiān)控平臺的基本點(diǎn)在于工作人員的主動作為和系統(tǒng)的自動化處置,參與運(yùn)維各環(huán)節(jié)的工作人員應(yīng)當(dāng)在系統(tǒng)的指引下,以最快的速度查找問題并解決故障,使監(jiān)控目標(biāo)得以正常運(yùn)轉(zhuǎn)?;跇?biāo)準(zhǔn)化運(yùn)維管理體系——浦東機(jī)場統(tǒng)一運(yùn)維監(jiān)控平臺優(yōu)化項目的實(shí)施,切實(shí)提高了系統(tǒng)運(yùn)行中心的運(yùn)維效率,降低自營人力成本。經(jīng)過檢驗,運(yùn)維平臺軟件架構(gòu)可滿足日后T3航站樓新增設(shè)備統(tǒng)一運(yùn)維的需求,可為用戶提供更加及時的故障處理服務(wù),有助于提高科室對業(yè)務(wù)系統(tǒng)的保障能力和各業(yè)務(wù)單位(如AOC和TOC、安檢等)的客戶滿意度。