鄭國輝 胡艷平 郝文澤
(作者單位:中國電子科技集團(tuán)公司第三研究所)
近年來,隨著信息技術(shù)的飛速發(fā)展,指揮中心在各行各業(yè)中扮演著越來越重要的角色。在指揮中心的運(yùn)維管理中,運(yùn)維管理系統(tǒng)發(fā)揮著重要的作用[1]。
傳統(tǒng)的運(yùn)維管理方式往往依賴于人工經(jīng)驗(yàn)和手動操作,效率較低且容易出現(xiàn)問題[2]。而智能診斷運(yùn)維管理系統(tǒng)通過視頻質(zhì)量診斷算法、數(shù)據(jù)分析和故障診斷等智能診斷技術(shù),能夠自動化地收集、分析和處理海量運(yùn)維數(shù)據(jù),快速發(fā)現(xiàn)和診斷潛在問題,并提供精準(zhǔn)的解決方案[3]。同時,該系統(tǒng)具備狀態(tài)監(jiān)測和預(yù)警、智能分析和故障診斷、數(shù)據(jù)可視化、設(shè)備統(tǒng)一管控等功能,便于集中運(yùn)維管理。這不僅能夠提高運(yùn)維工作的效率和準(zhǔn)確性,還能夠降低操作風(fēng)險和成本,進(jìn)而提升指揮中心的整體運(yùn)維管理水平。
指揮中心智能診斷運(yùn)維管理系統(tǒng)包括數(shù)據(jù)采集、狀態(tài)監(jiān)測和預(yù)警、數(shù)據(jù)分析和故障診斷、數(shù)據(jù)可視化等主要功能模塊。其中,數(shù)據(jù)采集模塊能夠?qū)崟r對指揮中心運(yùn)維管理系統(tǒng)運(yùn)行狀態(tài)的數(shù)據(jù)進(jìn)行采集,包括設(shè)備運(yùn)行狀態(tài)、系統(tǒng)服務(wù)狀態(tài)等數(shù)據(jù)。狀態(tài)監(jiān)測和預(yù)警模塊通過對數(shù)據(jù)采集層中獲取的數(shù)據(jù)進(jìn)行分析,建立有效的事件管理和故障觸發(fā)機(jī)制,實(shí)現(xiàn)故障和預(yù)警事件的全流程管理,便于追蹤、記錄和處理故障問題[4]。數(shù)據(jù)分析和故障診斷模塊主要通過監(jiān)測的系統(tǒng)實(shí)時數(shù)據(jù)和歷史數(shù)據(jù),分析故障演化規(guī)律,智能預(yù)測可能出現(xiàn)的故障問題,結(jié)合設(shè)置的自動化處理策略進(jìn)行提前干預(yù),減少或避免相關(guān)故障的發(fā)生。數(shù)據(jù)可視化模塊主要是對系統(tǒng)實(shí)時狀態(tài)、歷史數(shù)據(jù)、故障預(yù)警信息等進(jìn)行可視化展示,方便運(yùn)維人員及時掌握系統(tǒng)運(yùn)行狀態(tài)[5]。
在運(yùn)維管理系統(tǒng)中,集成針對不同設(shè)備、不同系統(tǒng)組件的數(shù)據(jù)采集器,用于實(shí)現(xiàn)與指揮中心系統(tǒng)中的設(shè)備或系統(tǒng)組件建立有效的通信連接,獲取系統(tǒng)運(yùn)行狀態(tài)信息。
數(shù)據(jù)采集層通過封裝多種采集器,如Agent、HTTP、Syslog、SNMP、JDBC、JMX、Trap、SIM等,抓取相關(guān)設(shè)備的資源信息和運(yùn)維狀態(tài)信息。數(shù)據(jù)采集器不僅支持常用的通用協(xié)議,還支持各類私有協(xié)議,包括對指揮中心系統(tǒng)使用的主流廠商的IT設(shè)備的協(xié)議支持。
數(shù)據(jù)采集器進(jìn)行數(shù)據(jù)采集的方法包括直接采集和間接采集。其中,直接采集模式的實(shí)現(xiàn)方式是運(yùn)維管理系統(tǒng)直接與設(shè)備或系統(tǒng)組件進(jìn)行通信,獲取運(yùn)維數(shù)據(jù);間接采集模式的實(shí)現(xiàn)方式是利用代理服務(wù)或布置在設(shè)備末端的數(shù)據(jù)采集器進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)或數(shù)據(jù)轉(zhuǎn)換,這是由于受限于具體的網(wǎng)絡(luò)環(huán)境或通信方式等,運(yùn)維管理服務(wù)器無法直接與業(yè)務(wù)系統(tǒng)中的設(shè)備或系統(tǒng)組件建立網(wǎng)絡(luò)通信連接。
智能診斷運(yùn)維管理系統(tǒng)能夠自動監(jiān)測和管理設(shè)備資源,避免遺漏監(jiān)測盲點(diǎn)。它建立了有效的預(yù)警機(jī)制,并能夠持續(xù)擴(kuò)展。智能診斷運(yùn)維管理系統(tǒng)基于統(tǒng)一的事件和報(bào)警平臺,集中管理所有監(jiān)控資源的異常事件。此外,它還可以通過Trap和Syslog等集成到管理平臺。
智能診斷運(yùn)維管理系統(tǒng)能夠自動發(fā)現(xiàn)監(jiān)測數(shù)據(jù)的異常波動和進(jìn)行故障診斷。根據(jù)設(shè)備的測試數(shù)據(jù)和歷史數(shù)據(jù)等信息,基于特定故障的演化規(guī)律,智能診斷故障。通過運(yùn)維數(shù)據(jù)分析等手段,實(shí)現(xiàn)智能化故障診斷,并對監(jiān)測數(shù)據(jù)提供直觀的數(shù)據(jù)展示。
利用運(yùn)維數(shù)據(jù)管理能力,工作人員可以獲取實(shí)時動態(tài)曲線、歷史曲線,不同時間維度的對比分析、指標(biāo)匯總報(bào)告,以及同類型資源的性能趨勢對比報(bào)表等多種形式的數(shù)據(jù)分析?;诙嗑S數(shù)據(jù)和歷史數(shù)據(jù)的報(bào)表分析,統(tǒng)計(jì)系統(tǒng)和設(shè)備的運(yùn)行狀態(tài),并對特定的問題進(jìn)行故障診斷。
智能診斷運(yùn)維管理系統(tǒng)具備豐富的圖表化展示、大屏展示、網(wǎng)絡(luò)動態(tài)展示等功能,系統(tǒng)管理者身處指揮大廳便能及時有效地監(jiān)測系統(tǒng)整體和各個組件的運(yùn)行狀態(tài)信息,并及時作出管控策略調(diào)整。指揮大廳模型及運(yùn)維數(shù)據(jù)可視化頁面展示(見圖1),可視化頁面兩側(cè)是實(shí)時的運(yùn)維可視化數(shù)據(jù)的圖表,中間部分為指揮大廳的三維模型??梢酝ㄟ^鼠標(biāo)拖拽等操作縮放或旋轉(zhuǎn)展示大廳的三維畫面,點(diǎn)擊大廳模型中的座席,展示座席內(nèi)信息化設(shè)備的狀態(tài)和告警信息。
圖1 指揮大廳模型及運(yùn)維數(shù)據(jù)可視化
智能運(yùn)維管理系統(tǒng)分為設(shè)備層、接入層、基礎(chǔ)技術(shù)服務(wù)層、業(yè)務(wù)層和展示層。其中,設(shè)備層包括顯控系統(tǒng)、音頻系統(tǒng)、會議系統(tǒng)在內(nèi)的各類系統(tǒng)設(shè)備。接入層包括具體的網(wǎng)絡(luò)架構(gòu)、系統(tǒng)數(shù)據(jù)傳輸方式、運(yùn)維管理數(shù)據(jù)處理方式等?;A(chǔ)數(shù)據(jù)服務(wù)層是運(yùn)維管理系統(tǒng)中的關(guān)鍵部分之一,包括開發(fā)組件、微服務(wù)組件和數(shù)據(jù)存儲組件等。業(yè)務(wù)層包含管控系統(tǒng)和運(yùn)維系統(tǒng)兩部分。展示層針對不同場景下的用戶使用需求,具備不同的展示方式,包括智慧大屏、移動端、個人電腦等。智能運(yùn)維管理系統(tǒng)的主要架構(gòu)如圖2所示:
圖2 智能運(yùn)維管理系統(tǒng)架構(gòu)圖
此外,智能運(yùn)維管理系統(tǒng)由包括顯控系統(tǒng)、監(jiān)控系統(tǒng)、環(huán)境系統(tǒng)、中控系統(tǒng)、會議系統(tǒng)、擴(kuò)聲系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)等在內(nèi)的多種系統(tǒng)構(gòu)成(見圖3),具備智能分析、監(jiān)測預(yù)警、語言控制、數(shù)據(jù)可視化等功能,能夠?qū)崿F(xiàn)對各類系統(tǒng)平臺軟硬件資源的統(tǒng)一管控,實(shí)現(xiàn)綜合態(tài)勢展現(xiàn)、全局故障診斷、綜合分析評估等。
圖3 運(yùn)維管理關(guān)系圖
指揮中心智能診斷運(yùn)維管理系統(tǒng)采用視頻質(zhì)量診斷算法以及數(shù)據(jù)分析和故障診斷等技術(shù),對于運(yùn)維管理具有重要作用。
視頻質(zhì)量診斷算法以卷積神經(jīng)網(wǎng)絡(luò)作為模型,先將待檢測的視頻圖像進(jìn)行統(tǒng)一尺寸調(diào)整,再利用卷積神經(jīng)網(wǎng)絡(luò),對輸入圖像的故障類型進(jìn)行分類,實(shí)現(xiàn)視頻質(zhì)量診斷。該卷積神經(jīng)網(wǎng)絡(luò)共有4層卷積層、5層池化層、2層全連接層,以及輸入、輸出層。其中,第1、2層卷積核大小為7×7,第3、4層卷積核大小為5×5。輸出層含4個神經(jīng)元,分別對應(yīng)異物遮擋、雪花噪聲、條紋異常和畫面馬賽克4種故障類型的特征,能夠?qū)@4種故障類型進(jìn)行識別,并以Softmax分類器進(jìn)行分類輸出。整體數(shù)據(jù)流程是先通過卷積和池化層進(jìn)行特征提取,然后在全連接層中將這些特征映射到各個類別的表示,最后通過 Softmax 分類器將這些表示轉(zhuǎn)換為分類輸出,即相應(yīng)的故障類型。
視頻質(zhì)量診斷的內(nèi)容包括黑屏監(jiān)測、偏色監(jiān)測、亮度異常檢測、清晰度異常檢測、畫面凍結(jié)檢測、畫面抖動檢測、PTZ(全方位移動及鏡頭變倍、變焦控制)運(yùn)動異常檢測、異物遮擋、雪花噪聲、條紋異常和畫面馬賽克等。視頻質(zhì)量診斷算法針對這些不同的故障類型還提供了特定的檢測方法,以畫面凍結(jié)檢測為例,分析其在該設(shè)計(jì)中采用的方法。畫面凍結(jié)問題是指視頻畫面靜止,通常是解碼器故障或網(wǎng)絡(luò)異常等原因?qū)е?,算法前端會?shí)時抓取并分析視頻畫面,先將畫面灰度化處理,兩幀經(jīng)過預(yù)處理的灰度圖像,分別為 f(x,y,t)、f(x,y,t-1),二者幀差運(yùn)算表示為:
公式(1)中,x表示圖像橫坐標(biāo),y表示圖像縱坐標(biāo),t和t-1表示相鄰兩幅畫面的時間計(jì)數(shù),Δf(x,y)為求得的二值差值圖像。然后計(jì)算差值圖像的輪廓數(shù)量和面積,將計(jì)算出的各個輪廓的面積與圖像大小作比較,如果小于一定的閾值,并且連續(xù)超過幀數(shù)閾值,則發(fā)出畫面凍結(jié)事件告警。
視頻質(zhì)量診斷算法,能夠診斷視頻中可能存在的質(zhì)量問題。基于視頻質(zhì)量診斷算法,指揮中心智能診斷運(yùn)維管理系統(tǒng)能夠?qū)σ曨l圖像中存在的質(zhì)量問題進(jìn)行智能分析,進(jìn)而發(fā)出報(bào)警信息,并形成統(tǒng)計(jì)報(bào)表。
數(shù)據(jù)分析和故障診斷技術(shù),包括數(shù)據(jù)監(jiān)測模塊、數(shù)據(jù)分析和故障診斷核心模塊兩部分。其中,數(shù)據(jù)監(jiān)測模塊主要進(jìn)行前端數(shù)據(jù)采集,數(shù)據(jù)分析和故障診斷核心模塊包含數(shù)據(jù)分析、故障診斷、故障恢復(fù)、事件管理等功能。
數(shù)據(jù)監(jiān)測模塊包括多種用于數(shù)據(jù)采集的軟件模塊(采集器),這些采集器基于SNMP、HTTP、UDP、ICMP、SSH、SYSLOG等多種協(xié)議以及專用設(shè)備的私有協(xié)議,用于與被監(jiān)測設(shè)備進(jìn)行通信,實(shí)現(xiàn)對設(shè)備、軟件和系統(tǒng)的監(jiān)測和控制。
數(shù)據(jù)分析和故障診斷核心模塊,集成了針對特定協(xié)議的數(shù)據(jù)分析判斷規(guī)則,利用特定的數(shù)據(jù)分析規(guī)則實(shí)時分析前端采集的數(shù)據(jù),并進(jìn)行故障狀態(tài)判決。數(shù)據(jù)分析和故障判決規(guī)則的實(shí)現(xiàn)方式包括端口監(jiān)測分析、日志分析、狀態(tài)輪詢分析以及私有協(xié)議狀態(tài)和告警分析等方式,這些分析方式結(jié)合特定協(xié)議規(guī)則,通過預(yù)置的正則判斷、閾值判斷、狀態(tài)判斷、持續(xù)時長判斷、復(fù)合邏輯判斷等進(jìn)行故障診斷分析。對于同一設(shè)備的監(jiān)測數(shù)據(jù)分析,也可以設(shè)置多種故障的復(fù)合判決規(guī)則,除了系統(tǒng)預(yù)置的數(shù)據(jù)分析和故障判決規(guī)則外,還可以自定義數(shù)據(jù)分析方式,自定義復(fù)合故障告警規(guī)則,并自定義故障恢復(fù)操作。系統(tǒng)支持靈活的事件管理分類和復(fù)合的管理機(jī)制,可以設(shè)定多種故障告警,在滿足一定觸發(fā)條件時執(zhí)行相應(yīng)的故障恢復(fù)操作。集成通知策略,通過消息、郵件、短信、微信等多種方式,可以設(shè)置在特定條件和等級下告警時發(fā)送通知信息,以便對沒有設(shè)置自動故障處理的告警盡快進(jìn)行人為干預(yù)。
本文提出的基于智能診斷的運(yùn)維管理系統(tǒng),采用的視頻質(zhì)量診斷算法可以實(shí)時診斷系統(tǒng)中視頻業(yè)務(wù)故障問題,采用的數(shù)據(jù)分析和故障診斷技術(shù),可以實(shí)現(xiàn)對運(yùn)維監(jiān)測數(shù)據(jù)進(jìn)行實(shí)時分析,結(jié)合故障判決規(guī)則,判定系統(tǒng)或設(shè)備的故障狀態(tài),利用事件管理和通知機(jī)制,利用預(yù)設(shè)的自動故障恢復(fù)操作,賦予系統(tǒng)自動化運(yùn)維管理的能力,縮短了故障解決時間、增強(qiáng)系統(tǒng)可用性和穩(wěn)定性。同時,系統(tǒng)實(shí)現(xiàn)了對多系統(tǒng)、多設(shè)備的統(tǒng)一管理和控制以及運(yùn)維數(shù)據(jù)的可視化管理,提高運(yùn)維效率和管理水平,對于指揮中心等多種場景下的運(yùn)維管控具有參考價值。