高東林 秦紅磊 劉 佳
(1.北京航空航天大學電子信息工程學院 北京 100191)(2.中國艦船研究院 北京 100101)(3.中國船舶集團有限公司第七二二研究所 武漢 430205)
艦船顯控設備作為通用的電子設備廣泛應用于作戰(zhàn)、平臺等系統(tǒng),隨著信息技術的不斷發(fā)展,其復雜度、集成度以及智能化水平也不斷得到提高,然而,先進而復雜的電子系統(tǒng)在提高大型裝備整體效能的同時,其故障占全系統(tǒng)故障比例也越來越高。同時,隨著艦船遠洋作戰(zhàn)、訓練任務頻次的不斷增加,用戶對裝備的自主保障能力提出了更高的要求。如何在現(xiàn)場實現(xiàn)裝備故障的快速定位,并隔離至現(xiàn)場可更換模塊,是解決當下提高裝備可用性和裝備維修保障能力的現(xiàn)實問題。而良好的測試性設計,可以顯著降低產品的壽命周期費用,提高故障檢測效率,縮短維修時間[1]。
實現(xiàn)測試性設計的關鍵是有效的測試性模型[2],目前主流的測試性模型是基于相關性矩陣模型的多信號流圖模型,目前該模型在裝備中開展了大量應用研究,如柴油機輔助系統(tǒng)、艦船電力系統(tǒng)、艦船逆變器、濾波放大器、雷達發(fā)射機等[3~7]。與上述研究對象相比,顯控設備的構成、信息流類型及故障模式更為復雜。在實際工程研制過程中,軟硬件設計與測試性設計之間缺乏有效的銜接,導致現(xiàn)場實際測試時測試冗余較多,測點選取依據不充分,測試效率低下,故障定位困難。
本文從實際裝備中獲取設備構成信息和故障模式信息,采用多信號流圖建模方法建立顯控測試性圖示模型,獲取故障-測試相關矩陣并進行處理和分析,并依據分析結果提出具體的診斷體系架構和診斷策略,對提高顯控設備的診斷設計和保障維護具有實際意義。
相關性是指某個測試能不能觀測到某個故障,由一組故障與一組測試構成的一系列“相關”和“不相關”的布爾關系矩陣稱作故障-測試相關性矩陣。
基于相關性建模思想的多信號流圖(MSFG,Multi-Signal Flow Graph)模型由Pattipati 與Deb 等于20 世紀90 年代提出的一種框圖模型[8~9],它是在系統(tǒng)結構和功能分析的基礎上,以分層有向圖表示信號流方向和各模塊的構成及連接關系,根據圖中每個故障信號的傳播路徑可達的測試節(jié)點獲取相關性矩陣,來表征系統(tǒng)故障-功能-測試之間的相關性關系的一種模型方法。該模型不需故障模式的詳細知識,模型描述直觀、高效,而且建模難度低[5,10]。
文獻[6,11]對多信號流圖模型的構成有詳細的描述,主要包括模塊節(jié)點、測試節(jié)點及有向邊并構成部件集合、信號集、測試集、測點集以及部件影響的信號集、測試檢測的信號集、測點包含的測試集等元素,多信號流圖的有向圖的邊一般表示故障傳播的方向或信息流的方向。
多信號流圖的建模步驟一般包括:
1)對設備的結構、功能和故障模式進行分析,確定各LRM 模塊及其功能信號、故障模式、測點位置及測試特征信號;
2)根據節(jié)點之間故障模式傳播關系,建立相關性圖示模型,表示故障與測試之間的關系;
3)根據圖形模型生成故障-測試相關矩陣,并對相關矩陣進行相應的簡化處理;
4)故障檢測點和隔離點優(yōu)選計算并建立故障樹;
5)根據故障樹建立計算機診斷程序流程圖;
6)對測試性模型進行分析。
文獻[12~14]以及GJB2457A 裝備測試性工作通用要求都對測試性建模及生成的依賴矩陣提出了定量評價指標,主要包括故障檢測率、故障隔離率、故障模糊組百分比、平均診斷步驟、冗余測試數等。
1)故障檢測率(FDR)
故障檢測率是在一定條件下通過現(xiàn)有的測試手段能夠檢測到的設備故障數量與設備所有可能的故障總數之比,反映檢測并發(fā)現(xiàn)設備內一個或多個故障的能力。
式中:m 為故障-測試依賴矩陣中的非零行數;n 為故障-測試依賴矩陣中的總行數。
2)故障隔離率(FIR)
故障檢測率是在規(guī)定條件下通過現(xiàn)有的測試手段將已檢測到的故障準確隔離到不大于規(guī)定的模糊度的故障數與檢測到的故障總數之比。檢驗測試性模型能隔離出已檢測到的任意故障的能力。
式中:M 為故障-測試依賴矩陣中的所有不重復的行數;N為故障-測試依賴矩陣中的總行數。
3)模糊組百分比(FR)
模糊組的定義是由于某些故障具有相同的故障特征,導致對應的測試在故障隔離環(huán)節(jié)中無法將它們分清隔離到真實故障部位。
式中:Fi 為故障-測試依賴矩陣中的第i 類重復的行數;N為故障-測試依賴矩陣中的總行數。
4)平均診斷步驟(ND)
平均診斷步驟數
式中:Ki為診斷樹第i 個分支節(jié)點數;m 為診斷樹分支數。
5)冗余測試
式中:TS(tj)為tj可檢測的故障集,對于測試ti 和tj,若滿足式(6),則測試ti和tj,互為冗余測試。
冗余測試數為所有互為冗余測試的測點數量。
顯控設備主要為顯控軟件提供硬件和支撐軟件運行平臺,為作戰(zhàn)、訓練和維護提供人機交互操作平臺,一般具有如下功能:多源傳感器信息二、三維多層疊加綜合顯示、實現(xiàn)各種操作與控制、數據處理、實時控制等功能,同時還要具備測試維護功能,可對硬件進行診斷測試并可將故障定位到現(xiàn)場可更換模塊(Line Replaceable Module,LRM)。
顯控設備各LRM 之間通過以太網、PCIE、USB、CAN 等計算機總線互聯(lián),并在主處理模塊的統(tǒng)一有序控制下為用戶提供顯示及操控功能,一般包括電源模塊、顯示器、操控模塊、主處理模塊、散熱設備、音視頻處理和通信模塊等。
圖1 顯控設備組成
電子設備的生命周期環(huán)境條件包括產品在組裝、存儲、處理和使用過程中經歷的環(huán)境應力和工作應力條件:由環(huán)境應力所產生的負載,包括溫度、濕度、壓力、振動、化學環(huán)境、輻射、污染等;由于工作應力(操作條件)產生的負載,包括電壓、電流、功率等[15]。
在環(huán)境應力方面,與操作環(huán)境條件相關的電子設備現(xiàn)場故障表明超過55%的故障是由于高溫和周期性溫度[16],溫度已經成為導致電子產品性能下降或故障失效的最重要的原因。
工作應力在DC-DC 變換器這類存在高頻開關的電路中的影響較大,由于工作處于高頻、大電流環(huán)境,對電路產生損傷影響,出現(xiàn)緩慢退化情況[17]。
根據電子設備生命周期環(huán)境條件分析,結合部隊級現(xiàn)場可更換模塊的維修需求,對于顯控設備特定的功能故障可直接根據LRM 內置機內測試軟件(Built-in test,BIT)對其進行診斷即可定位,在此不再進行分析,本文僅針對具有傳播特性和相關性的4 類典型全局故障模式進行分析,這類故障也是導致重復滋擾報警、用戶難以進行快速定位的主要原因。
1)電壓電流類故障:此類故障主要涉及開關電源模塊,開關電源模塊一般壽命比較長(10 年左右),但受到船上溫度、濕度、振動等惡劣環(huán)境的影響導致的故障率高,隨機故障多。當退化到一定程度時,出現(xiàn)失效或硬件故障時,往往導致無輸出電壓,影響其他功能模塊。
2)視頻信號類故障:顯控設備各分布式LRM分別提供視頻信號的編解碼、疊加、傳輸以及顯示等功能,處理復雜,數據多源,當出現(xiàn)顯示部件掉線、視頻傳輸故障時導致視頻顯示異常。
3)通信鏈路故障:由于顯控設備組成的分布性,LRM 之間的連通性是實現(xiàn)設備數據交換、設備控制、人機交互等重要功能的基礎,受工作環(huán)境條件的影響通信鏈路故障是顯控設備中的常見故障類型之一。
4)散熱故障:對于計算機機箱內的板卡類LRM 其集成度高、發(fā)熱量大,如主處理模塊往往集成發(fā)熱量大的多通道GPU、CPU,一旦出現(xiàn)散熱問題就會導致設備性能下降甚至異常關機。硬件本身的電解電容失效、MOSFET 失效等故障以及外部散熱設備的故障都會導致硬件模塊過熱。
通過對每個LRM 的故障模式分析,利用國產建模工具建立了多信號流圖模型,定義了8 個部件節(jié)點、23種信號、11個故障模式節(jié)點、12個測試,并為風機、導熱片或冷卻液等散熱設備產生且無物理連接關系的冷卻傳導信號建立了傳播關系。
根據信息流方向和“單元故障響應信息必下傳”的原理,采用有向線表示故障信號的傳播方向將節(jié)點之間端口連接,節(jié)點內部定義故障模式節(jié)點,并用有向線連接其端口與節(jié)點端口,得到的模型如圖2所示。
圖2 顯控設備多信號流圖
被測對象的故障-測試相關矩陣是其組成單元的故障模式與設置的測試之間相關性的數學表示,以布爾矩陣的形式描述了模型中的故障與測試之間的關系,是多信號流圖模型的等價表現(xiàn)形式。根據顯控設備多信號流圖模型建立其故障-測試相關矩陣,見表1。
表1 顯控設備故障-測試相關矩陣
式中:dij表示測試TPi與故障Fi的相關性,dij=1表示TPj 可以測得故障Fi,反之,dij=0 表示TPj 無法測得故障Fi。
相關矩陣的處理原則:
1)各值均相同的列為冗余測試,應保留一個,TP4、TP7、TP8、TP11為冗余測試,合并為一個;
2)各值均相同的行,則這些行構成模糊組,現(xiàn)有測試不能唯一隔離他們,F(xiàn)2 與F7 合并為一模糊組;
3)若某行全為0,則對應的故障不可檢測,應補充該故障的信號和測試;
4)若某些列全為0 則對應的測試沒有故障檢測能力,屬于冗余測試,應刪除。
經簡化后的故障-測試相關矩陣見表2。
表2 顯控設備故障-測試相關矩陣(精簡后)
故障樹的產生過程是為診斷策略生成檢測點的過程,遵循先檢測后隔離的原則,由于不同測試點獲取的故障信息量可能不同,根據故障檢測權值和故障隔離權值最大值作為優(yōu)先選用的故障檢測點或隔離點。
1)故障檢測權值
檢測點TPj的檢測權值WFD的計算公式如下:
式中:WFDj 為第j 個測試點檢測權值;dij為D 矩陣中第i行第j列元素。
2)故障隔離權值
檢測點TPj 的故障隔離權值WFI 的計算公式如下:
式中:WFIj為第j個測試點隔離權值;dij為D 矩陣中第i行第j列元素。
具體步驟如下:
1)檢測順序
首先根據式(8)選擇最大檢測權值WFD 對應的故障檢測點TP4,根據TP4 為正常時,故障發(fā)生在F3、F6、F9、F10 中,根據最大檢測權值對D0子矩陣繼續(xù)進行檢測,直到D0子矩不存在(無故障)
2)故障隔離順序
檢測過程中任何一個檢測點測試結果為故障時則進入隔離步驟,分別在D1、D0子矩陣選擇最大隔離權值的檢測點進行測試式(9),直至最后的子矩陣為單行。
根據上述測點使用順序,將故障模式的隔離過程以二叉樹的形式繪制,就得到了顯控設備的故障診斷樹,如圖3所示。
圖3 顯控設備故障診斷樹
根據測試性評價指標及計算方法式(1~6)對顯控設備測試性模型進行了定性評價,具體指標見表3。從分析結果看:所有的故障均可檢測;存在一個模糊度為2 的模糊組;通過4 步檢測即可判斷設備無故障,通過9 個測點即可判斷所有的故障模式,大大減少了測點的使用數量。
表3 測試性模型分析結果
另外,對于模糊組F2(網絡交換模塊鏈路故障)和F7(網絡模塊鏈路故障)兩種故障模式隸屬于不同的LRM,無法實現(xiàn)故障隔離到某個LRM,這是因為通過以太網連接的兩個設備只要有一個接口有故障則兩個設備均診斷為鏈路故障,在信號方向上存在反饋回路。在實際診斷時可以通過連接外部測試計算機進行排除。
顯控設備診斷軟件架構采用基于故障樹模型和中間件技術的層次化軟件架構(見圖4),測試維護模式覆蓋帶內測試、帶外測試和人工測試。
圖4 診斷軟件架構
軟件架構主要包括模塊級診斷測試軟件、中間件、機箱帶外診斷測試軟件(ShMC)、故障樹模型以及人機交互軟件五部分組成,其中:
模塊級診斷測試軟件:包括各LRM 內嵌的各類工作模式下的BIT以及帶外BMC軟件,用以對其進行自診斷和狀態(tài)數據采集,并通過標準API接口或通信協(xié)議對外提供數據服務;
中間件:位于診斷測試人機交互軟件與模塊級診斷測試軟件之間,主要用以屏蔽底層硬件接口差異,對各類BIT 軟件進行統(tǒng)一管理和獲取診斷信息,并通過統(tǒng)一接口向上層軟件提供診斷測試功能;
人機交互軟件:以可視化的形式為用戶提供診斷測試時的人機交互功能;
故障樹模型:以靈活可配置的方式為故障定位提供最優(yōu)診斷策略;
機箱帶外診斷測試軟件:用以獲取機箱內所有硬件模塊的帶外狀態(tài)信息,包括電壓、電流、溫度、工作狀態(tài)等,并對外提供IPMI 協(xié)議接口和WEB 可視化人機交互界面。帶外測試不占用主處理模塊CPU資源,并提供全時監(jiān)控。
根據診斷樹的邏輯分析,計算機故障診斷策略流程圖如圖5。
圖5 診斷程序流程圖
本文從實際裝備中獲取設備構成信息和故障模式信息,提出了基于多信號流圖的顯控設備建模方法,分析了顯控設備四類典型故障模式,建立了多信號流圖模型、故障-測試相關矩陣及故障樹,對測試性模型進行了定性評價分析,并建立了基于故障樹模型的顯控設備診斷體系結構和診斷策略,分析了故障模糊組產生的原因并提出了故障隔離的測試建議,為顯控設備的故障診斷和健康管理軟硬件設計提供了有益指導。