王棟,羅亞斌,唐斌,楊鵬
(1.中國航天員科研訓(xùn)練中心,北京 100094; 2.國防科技大學(xué),長沙 410000)
航天器某子系統(tǒng)是環(huán)境控制系統(tǒng)的組成部分,主要實現(xiàn)器上CO2去除功能。由于航天器長期在軌運行,一旦發(fā)生CO2無法去除等故障,將會造成及其嚴(yán)重的后果。需要對子系統(tǒng)進行在線監(jiān)測,及時發(fā)現(xiàn)故障并快速隔離,以方便維修和更換,使系統(tǒng)恢復(fù)至正常狀態(tài)。
受航天器載荷、可靠性以及測試性設(shè)計能力等多重因素的制約,目前該子系統(tǒng)已有的BIT裝置和嵌入式傳感器僅實現(xiàn)部分關(guān)鍵參數(shù)的在線檢測,無法實現(xiàn)對系統(tǒng)的全面檢測和隔離。簡單故障可以自動定位;大部分故障發(fā)生后,僅僅送出故障碼,并使系統(tǒng)進入待機狀態(tài)等待人工處理。
BIT和嵌入式傳感器可實現(xiàn)在線并行檢測[1-13],周期地將監(jiān)測數(shù)據(jù)發(fā)送至地面監(jiān)控系統(tǒng),屬于周期工作模式;需要人工參與,由人工進行檢測和隔離的測試模式,屬于啟動工作模式。與兩種測試模式相對應(yīng),該子系統(tǒng)的診斷模式分為周期模式和啟動模式。所謂周期模式,是指監(jiān)控系統(tǒng)實時收集來自各BIT的監(jiān)測數(shù)據(jù),及時作出判斷和推理;所謂啟動模式,是指在周期模式下發(fā)現(xiàn)子系統(tǒng)存在故障,而利用現(xiàn)有BIT無法實現(xiàn)有效隔離的情況下,根據(jù)已有的診斷結(jié)論推理下一步要實施的人工測試,然后走一步看一步,直至隔離出故障點。
目前國內(nèi)針對這兩種診斷方式均有一定的研究,如張世剛等人研究了基于貝葉斯網(wǎng)的診斷方法[14],基于統(tǒng)計概率來推理出故障點;楊鵬等人研究了基于相關(guān)性矩陣的診斷推理方法[15-17]。
本文基于目前已有的研究,進一步分析了實際可能出現(xiàn)的各種異常情況,并對此進行推理得到準(zhǔn)確的結(jié)論。
系統(tǒng)診斷推理的基本要素如下:
1)故障集X,由系統(tǒng)各組成單元(LRU)的故障和單元間的故障構(gòu)成,X={f1, ...,fm}。
2)測試集T= {t1,t2, … ,tn},本文所指測試數(shù)據(jù)并非傳感器原始測量數(shù)據(jù),而是經(jīng)過預(yù)處理得到指示的數(shù)據(jù),該數(shù)據(jù)可以直接用于診斷推理。根據(jù)事先設(shè)定的測試判據(jù),測試tj有pj種輸出,包括指示正常和若干故障指示,正常指示記為tj0,第k種故障指示記為tjk。
3)故障-測試相關(guān)性矩陣[18-20]其中行表示故障單元,列表示測試。當(dāng)fi發(fā)生時tj輸出為tjk,則bijk=1。
本文把系統(tǒng)在工作中可能存在的正?;蚬收蠣顟B(tài)稱為系統(tǒng)真實狀態(tài),理論上,系統(tǒng)真實狀態(tài)有種。診斷過程就是根據(jù)測試數(shù)據(jù)來推斷系統(tǒng)狀態(tài)究竟是哪一種。由于測試數(shù)據(jù)的不完備以及其他因素影響,診斷中往往不能唯一確定系統(tǒng)真實狀態(tài),而是存在一定的模糊性和不確定性,隨著測試數(shù)據(jù)的不斷更新和完備,推斷的系統(tǒng)狀態(tài)將逐漸逼近真實狀態(tài)。本文把上述推斷得到的系統(tǒng)狀態(tài)稱為系統(tǒng)推斷狀態(tài),不妨用一個四元組(X1,X2,X3,X4)來表示。其中,X1表示確定已經(jīng)發(fā)生的故障集合,X2表示疑似發(fā)生的故障集合,X3表示未知是否發(fā)生的故障集合,X4表示確定未發(fā)生的故障集合。這四個集合服從以下邏輯關(guān)系:
在診斷初期,反映推斷狀態(tài)不確定性的集合X2和X3規(guī)模較大,隨著診斷的不斷深入,X2和X3不斷變小,直到變成空集時,診斷結(jié)束。
本文首先把對復(fù)雜系統(tǒng)的診斷過程分解為一系列的基本診斷推理過程,其輸入包括已知的系統(tǒng)推斷狀態(tài)(X1,X2,X3,X4),測試tj的檢測結(jié)果,以及相關(guān)性矩陣B;其輸出為更新后的系統(tǒng)推斷狀態(tài),它與測試結(jié)果相對應(yīng),當(dāng)測試結(jié)果為第k種故障指示,則系統(tǒng)推斷狀態(tài)更新為若為正常指示,則更新為
根據(jù)系統(tǒng)可靠性理論,系統(tǒng)中同時發(fā)生多個故障的概率遠(yuǎn)遠(yuǎn)低于一個故障。而通常,當(dāng)測試系統(tǒng)發(fā)現(xiàn)系統(tǒng)有故障以后,人們會將系統(tǒng)停機并進行維修使之恢復(fù)正常,即某一時刻系統(tǒng)中最多只存在一個故障?;诖?,本文提出單故障診斷推理邏輯:①在未獲取任何測試數(shù)據(jù)時,不能推斷系統(tǒng)是否發(fā)生故障也不能推斷發(fā)生哪個故障;②當(dāng)有測試指示正常,可推斷該測試所覆蓋的故障必未發(fā)生,而該測試未覆蓋的故障不能確定是否發(fā)生;③一旦有測試指示故障,可推斷該測試所覆蓋的故障中必定發(fā)生了某個故障,而該測試未覆蓋的故障必未發(fā)生;④若幾個測試均指示故障,則故障必定存在于它們所覆蓋故障的交集中,且交集之外的部分必未發(fā)生;⑤若這些測試唯一地檢測出某個故障,則可推斷其余故障必未發(fā)生。在推理過程有以下幾種情況(如圖1):
1)在未獲取任何測試結(jié)果之前,系統(tǒng)推斷狀態(tài)為(? ,?,X,?),此時獲取到tj的檢測結(jié)果,且指示為正常,即tj0,將更新后的推斷狀態(tài)記為其推理如下:
發(fā)生前后推理矛盾的原因主要有以下幾個:①在測試推理過程中系統(tǒng)狀態(tài)突然發(fā)生改變,比如突然從無故障狀態(tài)變?yōu)楣收蠣顟B(tài),或者在已有故障未排除的情況下發(fā)生新的故障,由于之前的測試數(shù)據(jù)反映的是變化前的系統(tǒng)狀態(tài),而當(dāng)前測試tj反映的是變化后的系統(tǒng)狀態(tài),那么推理時極可能發(fā)生前后矛盾;②測試數(shù)據(jù)發(fā)生錯誤,既可能是BITE或ATE本身故障造成測試錯誤,也可能是BITE或ATE受到干擾造成測試錯誤;③相關(guān)性矩陣錯誤,導(dǎo)致由矩陣得到的Xjk或Xj0與實際情況不符,這也會造成推理矛盾。矩陣錯誤無法在推理過程中予以糾正,只能通過反復(fù)試驗和分析找到并修正錯誤,對此情形下文不予考慮。在基本的診斷推理中,輸入數(shù)據(jù)只有狀態(tài)(X1,X2,X3,X4)和Xjk(或Xj0),沒有足夠的數(shù)據(jù)來判斷究竟是什么原因造成的,也無法進行糾正,只能停止推理。后文將結(jié)合診斷模式對這種矛盾情形進行詳細(xì)分析。
圖1 狀態(tài)集合示意圖
基于上述基本診斷推理方法,即可構(gòu)建較為復(fù)雜的診斷推理程序。本文把復(fù)雜系統(tǒng)的診斷分為周期和啟動兩種模式。周期診斷模式在系統(tǒng)運行的同時進行診斷推理,其測試項目是固定的,主要是系統(tǒng)中的周期BIT,周期BIT以固定的時間間隔將監(jiān)測到的系統(tǒng)狀態(tài)參數(shù)發(fā)送至監(jiān)控系統(tǒng)進行診斷推理,相應(yīng)地,診斷過程也是周期的。啟動診斷模式一般在系統(tǒng)停止運行后對故障模糊組進行專項的測試和診斷,其測試項目主要是啟動BIT,而所要執(zhí)行的測試項目并非固定的,而是要根據(jù)當(dāng)前推斷的系統(tǒng)狀態(tài)來選擇下一步要啟動的測試項目,因此這是一種視情啟動測試項目的診斷過程。
復(fù)雜系統(tǒng)的周期BIT數(shù)量較多,各周期BIT數(shù)據(jù)未必同步,間隔周期也未必相同,為了便于診斷推理,本文定義診斷周期的概念,假定在一個診斷周期內(nèi),系統(tǒng)各周期BIT均只發(fā)送一次數(shù)據(jù),診斷系統(tǒng)接收到數(shù)據(jù)后完成一次診斷推理。具體方法如下:
首先,設(shè)定初始的系統(tǒng)推斷狀態(tài),通常令初始狀態(tài)為(? ,?,X,?),設(shè)定周期診斷中所獲取的所有測試項目,并指定測試的先后順序。然后以初始狀態(tài)為根節(jié)點進行推斷,假定第一個測試tj,它有正常和故障兩種輸出,根據(jù)基本診斷推理方法得到兩個與測試結(jié)果相對應(yīng)的系統(tǒng)推斷狀態(tài),把它們作為上一節(jié)點的子節(jié)點,然后選擇其中一個子節(jié)點,結(jié)合第二個測試得到孫節(jié)點,同理另一個子節(jié)點也得到相應(yīng)的孫節(jié)點;以此類推,將節(jié)點逐漸向下伸展,直到最后一個測試項目,最后得到一個倒?fàn)顦浣Y(jié)構(gòu),本文稱之為診斷樹。
診斷樹實際上就是一個指引故障推理的引導(dǎo)樹,當(dāng)跟尋測試序列到達葉節(jié)點,即完成一個周期的推理。在一個診斷周期中,診斷程序獲取到一組周期BIT數(shù)據(jù),從診斷樹的根節(jié)點開始向下檢索,到達樹的底部,給出系統(tǒng)推斷狀態(tài),即該周期的診斷結(jié)論;當(dāng)下一個診斷周期來臨時,診斷程序獲取新一組周期BIT數(shù)據(jù),返回診斷樹的根節(jié)點,重新檢索,最后給出診斷結(jié)論;這樣周而復(fù)始,直到控制程序視情終止循環(huán)。
前文分析了在基本診斷推理中可能出現(xiàn)的三種矛盾情形,下面針對前兩種情形展開討論。
情形一,在一個診斷周期中系統(tǒng)狀態(tài)突然改變。又分為以下兩種情形:①系統(tǒng)從無故障到有故障,當(dāng)前診斷周期會產(chǎn)生推理矛盾,但當(dāng)進入下一診斷周期后,系統(tǒng)狀態(tài)穩(wěn)定下來,推理矛盾隨即消除,診斷結(jié)論以最新診斷周期為準(zhǔn);②系統(tǒng)在已有故障未排除的情況下突發(fā)新故障,即發(fā)生多故障,如果采取單故障推理方法,則即便進入到下一診斷周期,推理矛盾依然存在,若采取多故障推理方法,則推理矛盾消除。
情形二,測試數(shù)據(jù)發(fā)生錯誤。又分為以下兩種情形:①測試系統(tǒng)自身發(fā)生故障造成測試錯誤,此時矛盾會一直存在,直到測試系統(tǒng)故障排除;②測試系統(tǒng)受干擾造成測試錯誤,一般干擾是短暫的,當(dāng)干擾消失,測試數(shù)據(jù)相應(yīng)恢復(fù)正確,則矛盾自動消除,如果干擾始終存在,則可以認(rèn)為該測試系統(tǒng)自身存在缺陷,需要排除。
綜上,當(dāng)采取單故障推理時,若僅出現(xiàn)短暫矛盾,則可能是系統(tǒng)發(fā)生單故障,或者測試受到干擾,若矛盾持續(xù),則可能發(fā)生多故障或者測試系統(tǒng)發(fā)生故障;當(dāng)采取多故障推理時,若出現(xiàn)短暫矛盾,則可能是系統(tǒng)狀態(tài)變化或者測試系統(tǒng)受干擾,若矛盾持續(xù),則可能是測試系統(tǒng)故障。因此不論采取哪種推理方法,如果出現(xiàn)持續(xù)幾個診斷周期的矛盾,則需要停止診斷,分析可能出現(xiàn)異常的測試。
在子系統(tǒng)實際運行過程中,故障發(fā)生后,由于傳輸鏈路等問題,可能會出現(xiàn)某幀故障數(shù)據(jù)丟失的現(xiàn)象。一旦測試數(shù)據(jù)缺失,通常應(yīng)中斷診斷推理,檢查原因。但子系統(tǒng)不能停止運行,必須在數(shù)據(jù)缺失的情況下繼續(xù)推理。
在這種情況下的解決方法:在數(shù)據(jù)缺失的測試節(jié)點假定一個輸出,然后向下檢索,如果發(fā)現(xiàn)存在矛盾,則返回該測試節(jié)點,再假定另一個輸出向下檢索,直到無矛盾地到達診斷樹底部。
上述方法適用于缺失單個測試數(shù)據(jù)且其他測試數(shù)據(jù)均無錯的情況,如果缺失多個數(shù)據(jù)或者存在測試數(shù)據(jù)錯誤時,則有可能得到一個錯誤的診斷結(jié)論。
啟動模式的特點是不事先指定測試項目,而是根據(jù)當(dāng)前系統(tǒng)推斷狀態(tài)來選擇下一步要啟動的測試。假定某時刻,系統(tǒng)推斷狀態(tài)為(X1,X2,X3,X4),下面給出一個啟發(fā)函數(shù)來選擇下一步測試:
式中:
x?—系統(tǒng)推斷狀態(tài)為(X1,X2,X3,X4)時,下一步最佳測試為tx;
cj—測試tj所耗費的時間;
由上所述,該子系統(tǒng)的診斷推理為診斷模式的組合,其測試包括加電BIT、周期BIT、啟動BIT及少量輔助測試,相應(yīng)地,其診斷模式分為加電、周期和啟動三種。其診斷模式之間的轉(zhuǎn)換關(guān)系和診斷流程如圖2所示。
1)系統(tǒng)開機,進行開機自檢。此時診斷程序進入加電模式,利用加電BIT信息進行診斷推理。由于加電BIT也是實現(xiàn)固定的,所以我們可以將加電模式視為只有一個推理周期的周期診斷模式,由于加電模式之后是周期模式,所以將兩種模式合并建立診斷樹,具體方法見下文。若得到的系統(tǒng)推斷狀態(tài)為(X1,? ,?,X4),說明已隔離出故障,診斷結(jié)束;否則進入周期模式。
2)進入周期模式后,周期BIT開始運行。因為此前已有加電BIT檢測數(shù)據(jù),所以此時要同時利用加電BIT和周期BIT進行診斷推理,具體方法是:首先以加電BIT在前、周期BIT在后的順序構(gòu)建診斷樹;然后開始周期診斷,第一個診斷周期自診斷樹的根節(jié)點開始檢索,第一個周期結(jié)束后,自第一周期的最后一個加電BIT的子節(jié)點開始檢索,且后續(xù)周期診斷始終自該節(jié)點開始。若得到的系統(tǒng)推斷狀態(tài)為(X1,? ,?,X4),說明已隔離出故障,診斷結(jié)束;若得到的系統(tǒng)推斷狀態(tài)為(? , ? ,?,X4),說明系統(tǒng)正常,進入下一個診斷周期;若X2或X3≠?,說明故障尚未全面檢測或隔離,進入啟動模式。
3)進入維護模式后,根據(jù)3.2節(jié)的方法選擇下一步測試,可利用加電BIT、周期BIT、啟動BIT和外部輔助測試進行故障推理,當(dāng)無法進一步隔離故障時,診斷結(jié)束。
4)診斷結(jié)束。
基于上述診斷方法,開發(fā)了診斷推理軟件,其工作界面如圖3所示。
其中,可在線監(jiān)測的傳感器有壓力傳感器、電流值、溫度傳感器等。在線BIT根據(jù)傳感器值,根據(jù)文中周期模式下診斷推理進行故障定位,但是有部分故障無法定位,需要人工測試,開啟啟動模式下診斷推理過程,具體見下述案例1和案例2。
圖2 系統(tǒng)診斷推理流程
圖3 診斷系統(tǒng)截圖
案例1:當(dāng)真空回路發(fā)生泄漏故障,真空計指示壓力發(fā)生變化,系統(tǒng)自動判斷出真空泄漏故障,但無法定位到ORU(在軌可更換單元),系統(tǒng)進入待機狀態(tài)等待人工測試。真空泄漏故障的故障模糊組:真空回路上的切換閥e密封性能下降故障、切換閥g密封性能下降故障、再生吸附組件a密封性能下降故障。根據(jù)文中,啟動模式下推理過程,需要工作人員依次斷開這三件ORU與系統(tǒng)連接,并利用真空堵頭、節(jié)氣泵抽真空、看壓力變化,定位故障的ORU。
案例2:當(dāng)通風(fēng)回路中有堵塞,通風(fēng)流量傳感器值發(fā)生變化,系統(tǒng)自動判斷出堵塞故障,但無法定位到ORU(在軌可更換單元),系統(tǒng)進入待機狀態(tài)等待人工測試。故障的故障模糊組:通風(fēng)回路上的各個管路過濾器過濾網(wǎng)堵塞、吸附裝置過濾網(wǎng)堵塞、干燥裝置過濾網(wǎng)堵塞。根據(jù)文中,啟動模式下推理過程,需要工作人員將各管路過濾網(wǎng)依次更換,并啟動風(fēng)機看壓力變化,定位到故障的ORU。
本文針對航天器某子系統(tǒng)具有的周期工作和啟動工作兩種測試模式,分別提出了周期和啟動兩種診斷推理方法,并解決了實際中可能會出現(xiàn)的數(shù)據(jù)缺失問題。為驗證推理方法,建立了子系統(tǒng)測試性診斷模型,給出了診斷推理程序,提高了子系統(tǒng)的故障快速檢測和隔離能力。