+楊敏英 郭青 唐文帥 朱鵬輝 王娜(西安衛(wèi)星測控中心 喀什測控站,喀什844000) 朱峰(東方紅衛(wèi)星移動通信有限公司,北京 100086)
目前,體系內(nèi)測控裝備眾多,各裝備系統(tǒng)的設(shè)備組成、軟硬件指標(biāo)、參數(shù)狀態(tài)、故障案例等信息往往差異較大、互不相通,猶如“一個個林立的煙囪”,這樣造成裝備狀態(tài)繁多、底數(shù)不清、問題獨立頻發(fā)。本文通過建立一整套健康管理平臺,形成健康管理中心,旨在打破信息壁壘,實現(xiàn)多套裝備健康信息深度分析融合,為促進(jìn)資源融合、提高裝備的可靠穩(wěn)定運行提供有力支撐。
測控裝備健康管理中心采用“云+網(wǎng)+端”體系結(jié)構(gòu),由云中心、用戶端兩個功能部分組成,“云”和“端”通過“網(wǎng)”相互連接,構(gòu)建一體化連接、互通體系。智能化信息管理平臺通過“云”管理數(shù)據(jù)和提供服務(wù),各類用戶作為“端”通過“網(wǎng)”接入“云”,包括各地面站、設(shè)備生產(chǎn)廠、科研院所、維修中心,上傳獲取裝備信息、訪問應(yīng)用服務(wù)。(參見圖1)
云中心是裝備信息云監(jiān)控、管理中樞和軟件、數(shù)據(jù)的存儲以及綜合服務(wù)的中樞,具體發(fā)揮“數(shù)據(jù)中心+容災(zāi)中心+服務(wù)中心+運維中心”四大職能。其中,作為數(shù)據(jù)中心,承擔(dān)裝備信息數(shù)據(jù)匯總、數(shù)據(jù)存儲、數(shù)據(jù)分析與分發(fā)等服務(wù);作為容災(zāi)中心,所有裝備信息的容災(zāi)備份;作為服務(wù)中心,為用戶端各類用戶,提供一體化、多樣化和遠(yuǎn)程化的裝備管理服務(wù);作為運維中心,承擔(dān)該平臺的綜合運行管理。
圖1 測控裝備健康管理中心架構(gòu)
圖2 健康管理中心網(wǎng)絡(luò)接入關(guān)系圖
端,主要承擔(dān)相應(yīng)裝備的信息采集、錄入、獲取、分析。平臺通過業(yè)務(wù)網(wǎng)完成云中心、各端系統(tǒng)之間的業(yè)務(wù)通信、數(shù)據(jù)同步,業(yè)務(wù)網(wǎng)為內(nèi)部專網(wǎng),如圖2所示。
測控裝備健康管理中心的組成如圖3所示,主要包括健康管理服務(wù)器,地面站終端計算機及中心健康管理服務(wù)器,詳細(xì)描述如下:
健康管理服務(wù)器部署健康管理軟件服務(wù)端程序,主要功能是依據(jù)系統(tǒng)監(jiān)控軟件采集設(shè)備信息,實時(或半實時)監(jiān)測系統(tǒng)預(yù)置的故障監(jiān)測點,自動識別設(shè)備故障,分析故障原因;同時接受來自健康管理客戶端的診斷、測試、評估、分析、數(shù)據(jù)查詢、數(shù)據(jù)更新請求,收到請求后利用綜合數(shù)據(jù)庫中任務(wù)執(zhí)行過程信息、系統(tǒng)及業(yè)務(wù)健康模型、設(shè)備狀態(tài)參數(shù)等,結(jié)合故障樹診斷、規(guī)則推理、歷史數(shù)據(jù)分析等手段,將診斷、評估、分析、數(shù)據(jù)查詢、數(shù)據(jù)更新結(jié)果返回給健康管理客戶端程序。
健康管理終端計算機,主要部署健康管理軟件客戶端,主要功能是對采集到的系統(tǒng)健康數(shù)據(jù)(監(jiān)控、業(yè)務(wù)、數(shù)據(jù))在線分析顯示、數(shù)據(jù)分析(診斷、評估)發(fā)起、主動診斷發(fā)起、評估報告生成顯示、知識管理、支撐數(shù)據(jù)管理等。
資源中心也部署一套健康管理軟件服務(wù)器,主要功能包括:一是可獲取所有地面站裝備的全部信息;二是可對地面站進(jìn)行遠(yuǎn)程健康管理;三是可接收地面站健康管理服務(wù)器上報的所有故障信息,一旦某個設(shè)備發(fā)生問題,能夠?qū)χ行姆秶鷥?nèi)所有使用該設(shè)備的地面站進(jìn)行查詢,綜合分析其他地面站該設(shè)備指標(biāo)的惡化情況,給出更換或維修建議。同時可通過物理隔離,將部分故障信息通過專網(wǎng)報給各設(shè)備生產(chǎn)廠、科研院所、維修中心。
本系統(tǒng)設(shè)計提出包括基礎(chǔ)設(shè)施層、核心技術(shù)層、數(shù)據(jù)資源層、資源管理層、服務(wù)層和應(yīng)用層在內(nèi)的技術(shù)體系架構(gòu),如圖4所示:
圖3 測控裝備健康管理中心拓?fù)鋱D
圖4 系統(tǒng)技術(shù)架構(gòu)
基礎(chǔ)設(shè)施層,提供系統(tǒng)運行的軟硬件支撐環(huán)境,包括存儲設(shè)備、計算設(shè)備、網(wǎng)絡(luò)設(shè)備等。核心技術(shù)層,包括大數(shù)據(jù)、云計算、智能處理引擎等。數(shù)據(jù)資源層,主要整合各地面站、各科研院所、維修中心、設(shè)備生產(chǎn)廠上傳的圖像、音頻、文本數(shù)據(jù)等。資源管理層,主要包括硬件資源管理、數(shù)據(jù)資源管理兩部分,根據(jù)上層服務(wù)需求,對計算資源、存儲資源、網(wǎng)絡(luò)資源、數(shù)據(jù)資源進(jìn)行調(diào)用和資源分配,并提供系統(tǒng)監(jiān)控、運行維護、安全保密等運維管理功能。服務(wù)層,包括數(shù)據(jù)服務(wù)、專業(yè)服務(wù)、通用服務(wù)三部分,主要負(fù)責(zé)提供高可靠、高可用、可擴展、可動態(tài)伸縮的服務(wù)運行框架,提供數(shù)據(jù)分發(fā)服務(wù)、智能分析服務(wù)、通用服務(wù)等各類在線服務(wù)。應(yīng)用層,包括各地面站、設(shè)備生產(chǎn)廠、科研院所、維修中心。分別提供裝備信息的顯示、交互功能。
按照“智能化、網(wǎng)絡(luò)化、服務(wù)化”的要求,測控裝備健康管理中心主要功能及模塊構(gòu)成如圖5。
測控裝備健康管理中心采用分級健康管理方式,全系統(tǒng)的健康管理分為器件及部件、設(shè)備、分系統(tǒng)和系統(tǒng)級。器件及部件級的健康管理主要依據(jù)器件、部件提供的狀態(tài)監(jiān)測信息和產(chǎn)品手冊提供的各類可靠性模型等進(jìn)行健康管理。
設(shè)備級健康管理在器件及部件級健康管理的基礎(chǔ)上,依據(jù)設(shè)備的狀態(tài)監(jiān)測信息、系統(tǒng)為設(shè)備建立的全生命周期設(shè)備健康檔案等,結(jié)合設(shè)備級測試手段(如本振相噪)進(jìn)行設(shè)備級的健康管理。分系統(tǒng)級健康管理在設(shè)備級健康管理的基礎(chǔ)上,依據(jù)分系統(tǒng)各類健康狀態(tài)評估模型,結(jié)合分系統(tǒng)級測試手段(如鏈路相位噪聲、雜散和頻率響應(yīng))進(jìn)行分系統(tǒng)級的健康管理。
系統(tǒng)級健康管理在分系統(tǒng)級健康管理的基礎(chǔ)上,依據(jù)系統(tǒng)各類健康狀態(tài)評估模型、結(jié)合系統(tǒng)級測試及標(biāo)校手段(如 G/T 值、EIRP 值、校相、校零)進(jìn)行系統(tǒng)級的健康管理。
圖5 測控裝備健康管理中心結(jié)構(gòu)圖
(1)數(shù)據(jù)分析模塊
圖6 設(shè)備故障模型
圖7 故障診斷專家系統(tǒng)結(jié)構(gòu)
設(shè)備狀態(tài)信息應(yīng)是多層次、多方面和動態(tài)的,既可以是實時監(jiān)測信息,也可以是定期檢測信息。該功能主要是對設(shè)備基礎(chǔ)數(shù)據(jù)、狀態(tài)信息、維修信息、維修資源信息和系統(tǒng)用戶信息等進(jìn)行采集、存儲或處理,包括:從設(shè)備生產(chǎn)商獲得的RMS(可靠性、維修性、保障性)等信息;設(shè)備編號、設(shè)備名稱、型號規(guī)格和使用部門等設(shè)備基本信息;進(jìn)行故障模式及影響分析的基礎(chǔ)信息;實時監(jiān)測或定期檢測的設(shè)備狀態(tài)信息等。只有實現(xiàn)了設(shè)備狀態(tài)信息采集功能,才能為實施設(shè)備健康管理提供可靠的數(shù)據(jù)。
(2)故障診斷模塊
為快速發(fā)現(xiàn)和解決設(shè)備故障,在設(shè)備設(shè)計時,對有源模塊設(shè)計較多的故障監(jiān)測點,保證有源模塊的實時監(jiān)測。系統(tǒng)定時采集地面站內(nèi)所有可監(jiān)控設(shè)備的工作參數(shù)及狀態(tài),以每秒 1次的頻率通過系統(tǒng)數(shù)據(jù)庫上報到故障診斷軟件,作為設(shè)備故障診斷分析的信息依據(jù)。故障診斷軟件依據(jù)知識庫中故障監(jiān)測點的知識和規(guī)則,從工作參數(shù)及狀態(tài)中提取設(shè)備故障監(jiān)測點信息,檢測、判斷并識別故障。
設(shè)備故障診斷采用基于故障樹與專家系統(tǒng)相結(jié)合的綜合故障診斷方法,綜合發(fā)揮專家系統(tǒng)的邏輯推理能力,完成故障診斷。(參見圖6、圖7)
(3)健康評估模塊
系統(tǒng)健康狀態(tài)評估通過系統(tǒng)組成模型、各分系統(tǒng)健康狀態(tài)、任務(wù)影響分析結(jié)果、備份關(guān)系、系統(tǒng)健康狀態(tài)模型、測試標(biāo)校結(jié)果數(shù)據(jù)、任務(wù)實測數(shù)據(jù)(或接收數(shù)據(jù))和任務(wù)目標(biāo)狀態(tài)數(shù)據(jù)等,根據(jù)系統(tǒng)任務(wù)能力評估模型相關(guān)的各項關(guān)鍵技術(shù)指標(biāo)進(jìn)行評估和分析,評估得出系統(tǒng)健康狀態(tài)和任務(wù)能力。
系統(tǒng)健康狀態(tài)評估采用層次分析法,通常簡稱為AHP方法,是指先將一個復(fù)雜問題分解為幾個子問題,然后再對子問題向下進(jìn)行層層分解,一直分解到不可再分解的評估指標(biāo)為止。計算出各個評價指標(biāo)后,將指標(biāo)的評估結(jié)果進(jìn)行歸一化,如統(tǒng)一歸化成百分制、1分制等,然后通過加權(quán)融合的方式計算其父級指標(biāo)評分,再向上層層融合得到子問題的評估得分,最后通過證據(jù)合成的方式計算原復(fù)雜問題的評估結(jié)果。根據(jù)層次分析法,將系統(tǒng)健康狀態(tài)評估這個“復(fù)雜”問題,先分解為分系統(tǒng)健康狀態(tài)評估、任務(wù)能力評估兩個子問題,然后逐級分解,直到分解為容易量化的簡單問題,即單個的評估指標(biāo),然后歸一化,計算其父級指標(biāo),再向上層層加權(quán)融合、證據(jù)合成得到系統(tǒng)綜合狀態(tài)的評估結(jié)果。評估結(jié)果是 0~100的得分,對應(yīng)健康、良好、注意、惡化、故障等五個健康狀態(tài)。
評估層次分析法如圖8所示。
(4)壽命預(yù)測模塊
在參數(shù)級故障預(yù)測中,如果被監(jiān)測參數(shù)類型是數(shù)值連續(xù)型,那么在系統(tǒng)運行過程中就會形成一個時間-參數(shù)值的時間序列,通過對該時間序列的分析,可以對該參數(shù)的未來走勢進(jìn)行預(yù)測,一旦預(yù)測到該參數(shù)在未來某個時刻會超過設(shè)定的正常閾值,便提前發(fā)出告警,基于時間序列的故障預(yù)測算法在當(dāng)前有很多成熟的算法,如多項式回歸、自回歸模型等,在此不贅述。因此參數(shù)級故障預(yù)測不需要建模,可以直接采用現(xiàn)有的算法。
由于組件級和系統(tǒng)級設(shè)備的健康狀態(tài)不是由一個參數(shù)反映的,而是由幾個或者幾十個參數(shù)共同決定的,并且每個參數(shù)對設(shè)備的健康狀態(tài)的影響程度不一樣,比如溫度參數(shù)對設(shè)備具有至關(guān)重要的影響,一旦溫度過高會對設(shè)備造成不可逆的損壞,而芯片的某些鎖定狀態(tài)則對設(shè)備具有無足輕重的作用。這些參數(shù)指標(biāo)如何影響設(shè)備的健康狀態(tài),如何從這些參數(shù)指標(biāo)中預(yù)測設(shè)備的健康狀態(tài),沒有一個現(xiàn)成的算法來解決這些問題,也是設(shè)備健康評估與故障預(yù)測面臨的最大困難。因此需要對組件級和系統(tǒng)級設(shè)備進(jìn)行數(shù)學(xué)建模,將復(fù)雜問題轉(zhuǎn)化為一個個數(shù)學(xué)問題。
(5)維修決策模塊
圖8 層次分析法評估流程
依據(jù)故障診斷、健康評估和壽命預(yù)測的分析,提出維修決策。給出更換結(jié)構(gòu)/部件的操作指導(dǎo),并于維護任務(wù)完成后對系統(tǒng)功能以及機體結(jié)構(gòu)恢復(fù)狀態(tài)進(jìn)行綜合評定,確認(rèn)維護任務(wù)的正確性。設(shè)備維修部門可以通過各種預(yù)測模型(例如,灰色預(yù)測模型、比例風(fēng)險模型、人工神經(jīng)網(wǎng)絡(luò)等)預(yù)測設(shè)備或部件的剩余使用壽命,在設(shè)備嚴(yán)重停機事故發(fā)生之前,利用有效的預(yù)測功能可以保證有足夠的時間制訂和實施維修計劃。
(6)其他功能
如運維與安全,具備基于自主可控軟硬件,集成各類安全、運維手段,實現(xiàn)系統(tǒng)安全、可靠、高效運行的能力;具備用戶權(quán)限管理與控制能力,實現(xiàn)對用戶統(tǒng)一身份管理框架、認(rèn)證及授權(quán)機制,實現(xiàn)用戶對信息資源的權(quán)限訪問控制;具備數(shù)據(jù)存儲安全、數(shù)據(jù)訪問控制。
人工智能的圖像分析首先通過機器視覺攝入圖像圖形,經(jīng)過以基于視覺放大、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)作為后處理的軟件處理后獲得需要的測量值?,F(xiàn)階段已有部分新設(shè)備直接或間接的借助于圖像技術(shù),如表面光潔的鋼絲繩監(jiān)測。利用4-6個120度魚眼攝像頭增加系統(tǒng)冗余度,在線監(jiān)測鋼絲繩斷絲、斷股及磨損等狀態(tài),使用視覺放大技術(shù)觀測由于鋼絲繩受損導(dǎo)致受力改變的延展的微小變形,來在線監(jiān)控?zé)o人值守的鋼絲繩健康情況。
以時間序列分析法實現(xiàn)功能為例。時間序列分析法是根據(jù)過去的變化趨勢預(yù)測未來的發(fā)展,根據(jù)客觀事物發(fā)展的連續(xù)規(guī)律性,運用過去的歷史數(shù)據(jù),通過統(tǒng)計分析,進(jìn)一步推測未來的發(fā)展趨勢。事物的過去會延續(xù)到未來這個假設(shè)前提包含兩層含義:一是不會發(fā)生突然的跳躍變化,是以相對小的步伐前進(jìn);二是過去和當(dāng)前的現(xiàn)象可能表明現(xiàn)在和將來活動的發(fā)展變化趨向??筛鶕?jù)各地面站、設(shè)備生產(chǎn)廠、科研院所、維修中心等提供的歷史數(shù)據(jù),結(jié)合設(shè)備的性能指標(biāo)變化來進(jìn)行故障預(yù)測。
或者基于BP神經(jīng)網(wǎng)絡(luò)(ANN)和案例推理(CBR)的綜合智能故障診斷、預(yù)測功能。對于地面接收系統(tǒng)而言,其故障主要有三種特點。①一對多關(guān)系的故障征兆與原因。即一個故障征兆可能由不同的故障條件引發(fā)。②存在不易識別的故障。即由于存在噪聲或某些偶然因素,一些故障不易被識別。③各個子系統(tǒng)之間是互相聯(lián)系的、互相影響的,因此預(yù)測和排故都較為復(fù)雜。
針對系統(tǒng)故障的特點,使用ANN和CBR結(jié)合的智能結(jié)構(gòu)模型。ANNCBR模型的核心技術(shù)思想是,根據(jù)各個案例的屬性特征,通過對其建立不同的索引,將一個大型的案例庫劃分為多個子案例庫。ANN作為CBR的前序模塊,對輸入的故障信息通過學(xué)習(xí)訓(xùn)練賦予索引,從而可在CBR模塊中的具有相應(yīng)索引的子案例庫中索引相似的案例集。其結(jié)構(gòu)如圖9所示。
圖9 ANN-CBR模型結(jié)構(gòu)圖
通過綜合分析設(shè)備的系統(tǒng)組成、運行狀態(tài)、維護操作以及負(fù)載狀況信息,選取能夠表征設(shè)備健康狀況的特征參量,對其變化情況進(jìn)行跟蹤和預(yù)測,得出當(dāng)前設(shè)備性能處于正常、衰退或者不可用的健康狀況評估結(jié)論。如圖,Ti為當(dāng)前時刻,Ti+1為給定時間段端點或設(shè)備執(zhí)行下一項任務(wù)的起始時刻,En 為設(shè)備正常狀態(tài)的性能閾值,Et為設(shè)備可用狀態(tài)的性能閾值。通過對Ti之前(包括Ti)的性能特征參量觀測值進(jìn)行分析,得出Ti+1的預(yù)測值。若 E(Ti+1)≥En,則設(shè)備當(dāng)前處于正常狀態(tài);若 E(Ti)>Et、E(Ti+1)<En,則設(shè)備性能處于衰退狀態(tài);E(Ti)≤Et,則設(shè)備已經(jīng)發(fā)生故障或者設(shè)備性能已達(dá)到下限,處于不可用狀態(tài)。(參見圖10)
以比例風(fēng)險模型實現(xiàn)功能為例。使用比例風(fēng)險模型進(jìn)行設(shè)備的剩余壽命預(yù)測時,需要完成樣本數(shù)據(jù)處理、參數(shù)估計、壽命預(yù)測3個基本步驟。簡要過程為首先從檢修數(shù)據(jù)中得到以下數(shù)據(jù):1.設(shè)備從開始運行至失效或截尾的時間;2.設(shè)備從開始運行至失效或截尾過程中的協(xié)變量矢量;3.事件指示性變量。然后采用極大似然方法來得到模型中各有關(guān)參數(shù)的估計值,由Weibull分布為基底函數(shù)的比例風(fēng)險模型的失效率函數(shù)可得生存函數(shù),由生存函數(shù)可得特定可靠度閾值下設(shè)備的無故障運行時間。
圖10 設(shè)備狀態(tài)趨勢圖
智能裝備信息系統(tǒng)直接負(fù)責(zé)裝備的管控,涉及多種敏感數(shù)據(jù),作為地面系統(tǒng)的重要組成部分,智能裝備信息系統(tǒng)安全防護系統(tǒng)按地面系統(tǒng)安全防護等級要求進(jìn)行設(shè)計,在網(wǎng)絡(luò)、主機、應(yīng)用、數(shù)據(jù)、運維等方面提供基礎(chǔ)安全加縱深的安全防護。其中,網(wǎng)絡(luò)安全包括云內(nèi)網(wǎng)絡(luò)安全(云內(nèi)部網(wǎng)絡(luò)隔離、云內(nèi)部安全域劃分)和云安全網(wǎng)關(guān)(包括訪問控制、攻擊防御、NAT、VPN、IPS、應(yīng)用控制等);主機安全包括云主機安全和物理主機安全兩個層面,分別在物理層和虛擬層加固保障系統(tǒng)的安全;應(yīng)用安全采用安全開發(fā)、沙箱防護機制,數(shù)據(jù)安全采用數(shù)據(jù)多副本存儲、快照安全、數(shù)據(jù)庫服務(wù)安全;安全運維利用運維堡壘機實現(xiàn)統(tǒng)一運維入口、身份的嚴(yán)格認(rèn)證、采取嚴(yán)格的訪問控制、監(jiān)控審計和職責(zé)分離來確保運維安全。
安全防護分系統(tǒng)主要提供主機安全、網(wǎng)絡(luò)安全、應(yīng)用安全、數(shù)據(jù)安全、安全運維等多個層面安全防護服務(wù)。主要由主機安全防護、網(wǎng)絡(luò)安全防護、數(shù)據(jù)安全防護、應(yīng)用安全防護和安全運維等模塊組成。
(1)主機安全防護。包括密碼暴力破解防護、后門及漏洞檢測、主機木馬查殺、補丁管理、主機訪問控制等措施。
(2)網(wǎng)絡(luò)安全防護。包括安全組策略、信任機制、網(wǎng)絡(luò)防火墻、網(wǎng)絡(luò)入侵檢測措施,有效發(fā)現(xiàn)并阻斷來自網(wǎng)絡(luò)的惡意的攻擊行為,當(dāng)監(jiān)測到的惡意掃描和攻擊行為時,能有效識別云服務(wù)器的異常行為,自動進(jìn)行防護。
(3)應(yīng)用防護。包括應(yīng)用漏洞檢測、端口安全檢測等措施,防止應(yīng)用漏洞被利用來入侵云中心的相關(guān)服務(wù),進(jìn)行非法操作、導(dǎo)致服務(wù)異?;驍?shù)據(jù)泄露。
(4)數(shù)據(jù)安全防護。包括數(shù)據(jù)安全標(biāo)簽、數(shù)據(jù)訪問控制、數(shù)據(jù)安全審計、數(shù)據(jù)隔離等措施,滿足不同衛(wèi)星、不同任務(wù)、不同密級的數(shù)據(jù)安全可靠的存放與訪問需求,實現(xiàn)各類數(shù)據(jù)可靠存儲與安全訪問,提升數(shù)據(jù)共享的安全性。
(5)安全運維。實現(xiàn)統(tǒng)一運維入口、身份的嚴(yán)格認(rèn)證、采取嚴(yán)格的訪問控制、監(jiān)控審計和職責(zé)分離來確保運維安全。
本文設(shè)計了一個智能化健康管理平臺框架,可以為測控裝備各類用戶提供數(shù)據(jù)分析、故障診斷、健康評估、壽命預(yù)測、維修決策等多種支持。在當(dāng)前測控裝備的復(fù)雜性、綜合化、智能化程度不斷提高的環(huán)境下,此項研究對于削減維修成本、提高工作效率和工作質(zhì)量、科學(xué)開展預(yù)防性維護維修、提高裝備可靠性有著十分重要的意義。