劉冠軍,呂克洪,李華康,李 乾,邱 靜
(1.國防科技大學(xué) 裝備綜合保障技術(shù)重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410073; 2.國防科技大學(xué) 智能科學(xué)學(xué)院,湖南 長沙 410073)
近年來,隨著裝備實(shí)戰(zhàn)化水平、任務(wù)強(qiáng)度和復(fù)雜性的提高,以及臨近空間、深空、深海等計(jì)劃的實(shí)施,裝備結(jié)構(gòu)越來越復(fù)雜,工作環(huán)境越來越惡劣,一個(gè)“黑色幽靈”越來越多地困擾裝備尤其是電子設(shè)備的使用和保障,影響任務(wù)完成甚至導(dǎo)致任務(wù)失敗,保障難度和費(fèi)用大幅增加。這個(gè)“黑色幽靈”就是裝備無故障發(fā)現(xiàn)(No Fault Found,NFF)問題。NFF是裝備單元在某維修級(jí)別被認(rèn)為故障而拆卸,卻在下一維修級(jí)別測(cè)試沒有發(fā)現(xiàn)故障的現(xiàn)象[1-3]。國內(nèi)外統(tǒng)計(jì)發(fā)現(xiàn),目前,NFF問題在飛機(jī)等大型復(fù)雜裝備中表現(xiàn)日益突出。這些裝備在任務(wù)執(zhí)行過程中,其機(jī)內(nèi)測(cè)試(Built-in Test,BIT)等指示了故障,但拆下維修時(shí),近1/3的故障排查不出,配置強(qiáng)大的自動(dòng)測(cè)試系統(tǒng)亦檢測(cè)不出故障,導(dǎo)致排故和修理難以下手。NFF問題直接有損于裝備可用度,導(dǎo)致裝備任務(wù)中斷,降低任務(wù)成功率,還會(huì)導(dǎo)致裝備好的部件錯(cuò)誤拆換,造成無效的維修活動(dòng),增加維修費(fèi)用和維修時(shí)間[1-4]。如果NFF現(xiàn)象出現(xiàn)頻率過高,操作者和維修者會(huì)對(duì)BIT等測(cè)試手段失去信任甚至忽略故障指示,當(dāng)裝備出現(xiàn)真實(shí)故障或異常時(shí)卻未進(jìn)行處置,從而可能造成嚴(yán)重后果[5-6]。目前,國外航空裝備維修中,NFF問題處理費(fèi)用已經(jīng)占電子設(shè)備大約30%~50%的維修費(fèi)用,是裝備維修領(lǐng)域的棘手問題與“瓶頸”技術(shù)問題[1,7]。研究與分析表明,導(dǎo)致裝備NFF問題的原因中,間歇故障是主要原因[8-9]。間歇故障是指產(chǎn)品發(fā)生故障后,不經(jīng)修理而在有限時(shí)間內(nèi)或適當(dāng)條件下自行恢復(fù)功能的故障,它是不同于傳統(tǒng)的永久故障的一種特殊故障表現(xiàn)形式[10-11]。間歇故障不同于永久故障,由于其瞬變、隨機(jī)性強(qiáng)、時(shí)有時(shí)無等特性,其故障征兆及特征不易獲取,目前的故障診斷方法難以進(jìn)行間歇故障檢測(cè)與診斷,系統(tǒng)深入的NFF與間歇故障研究進(jìn)展困難[12-13]。但近年來,隨著大型復(fù)雜裝備不斷投入使用,裝備NFF和間歇故障問題日益成為不可回避的關(guān)鍵問題,也逐漸成為國際研究熱點(diǎn)。該問題的有效解決,對(duì)于提高復(fù)雜裝備可用性和實(shí)戰(zhàn)化水平、減少維修保障費(fèi)用具有重要意義。
首先對(duì)NFF和間歇故障的概念和內(nèi)涵進(jìn)行梳理,總結(jié)分析NFF和間歇故障產(chǎn)生的誘因以及對(duì)裝備的影響,概述裝備NFF問題、間歇故障檢測(cè)與診斷技術(shù)的國內(nèi)外研究歷程和現(xiàn)狀,最后分析了間歇故障診斷領(lǐng)域的技術(shù)問題與發(fā)展重點(diǎn)。
近年來,NFF在國外裝備保障領(lǐng)域研究越來越多,但我國對(duì)其認(rèn)識(shí)還處于初步階段,尚未給出標(biāo)準(zhǔn)定義和確定的內(nèi)涵,新修訂的GJB451正在討論將其納入。從內(nèi)涵上分析,NFF與重測(cè)合格(Retest OK,RTOK)、虛警、故障未發(fā)現(xiàn)(Fault Not Found,F(xiàn)NF)、不能復(fù)現(xiàn)(Can not Duplicated,CND)、誤拆(Error Removed,ER)、無證據(jù)故障(No Evidence of Failure,NEOF)、無法驗(yàn)證(Cannot Verify,CNV)、隱匿故障Hidden Failures,HF)等概念[14-15]既有聯(lián)系又有區(qū)別。NFF與RTOK內(nèi)涵比較接近,與虛警也有關(guān)聯(lián)。但從工程實(shí)踐問題分析,NFF內(nèi)涵更為豐富和復(fù)雜,其可能是因真實(shí)故障而拆卸后重測(cè)合格,也可能因疑似故障(或真實(shí)無故障而被認(rèn)為有故障)導(dǎo)致單元拆卸后在下一級(jí)別測(cè)試時(shí)沒有發(fā)現(xiàn)故障。
NFF主要有兩種類型:一種是裝備確實(shí)發(fā)生了故障、使用時(shí)報(bào)故并可能知道故障位置,在下一維修級(jí)別時(shí)故障不再出現(xiàn),或者復(fù)現(xiàn)了故障卻測(cè)試合格;另一種是裝備使用時(shí)就是錯(cuò)報(bào)或虛警、或者進(jìn)行了錯(cuò)誤的定位,導(dǎo)致后面維修時(shí)在本來無故障的位置測(cè)試合格、未發(fā)現(xiàn)故障的現(xiàn)象[4]。從裝備層次角度看,NFF可以分為3個(gè)層級(jí):一是裝備/設(shè)備級(jí),使用者發(fā)現(xiàn)裝備/設(shè)備運(yùn)行不正常,在維修時(shí)沒有測(cè)試到異常的故障現(xiàn)象;二是板級(jí),使用者發(fā)現(xiàn)裝備運(yùn)行不正常,在維修時(shí)裝備原位發(fā)現(xiàn)了故障并將故障電路板拆卸,當(dāng)離線對(duì)該電路板進(jìn)一步測(cè)試時(shí)發(fā)現(xiàn)該電路板運(yùn)行正常,未發(fā)現(xiàn)故障;三是零部件級(jí),被拆卸的電路板發(fā)現(xiàn)了故障,將故障零部件進(jìn)行更換后的電路板運(yùn)行正常,但所更換零部件測(cè)試正常,未發(fā)現(xiàn)故障[16]。
從機(jī)理上分析,導(dǎo)致裝備NFF主要誘因包括4個(gè)方面:① 裝備間歇故障:裝備在使用過程中發(fā)現(xiàn)間歇故障、但在下一維修級(jí)別環(huán)境下間歇故障不再發(fā)生,或通過某些手段將間歇故障復(fù)現(xiàn)出、但現(xiàn)有測(cè)試手段無法檢測(cè)定位間歇故障,是導(dǎo)致裝備出現(xiàn)NFF問題的主要原因之一。來源于美軍NFF問題統(tǒng)計(jì)數(shù)據(jù)表明,間歇故障是造成5年以上裝備NFF問題的主要原因。② 測(cè)試能力因素:BIT虛警、BIT測(cè)試未覆蓋、內(nèi)場(chǎng)測(cè)試設(shè)備能力有限等。③ 環(huán)境因素:溫度、振動(dòng)、濕度、輻射,占所有NFF問題的25%[17]。④ 人為因素:設(shè)計(jì)人員、使用人員和維修人員分析、使用和維修不當(dāng)?shù)萚13]。對(duì)于測(cè)試能力、人為因素等導(dǎo)致的NFF問題,工程上通常采用提高系統(tǒng)可靠性、提高BIT及測(cè)試設(shè)備的測(cè)試診斷能力、加強(qiáng)數(shù)據(jù)資源共享與管理、標(biāo)準(zhǔn)制定與人員培訓(xùn)等手段進(jìn)行防范。對(duì)于間歇故障和環(huán)境導(dǎo)致的NFF問題,由于在裝備工作過程中間歇故障和環(huán)境通常相互耦合作用,其導(dǎo)致的NFF問題在工程中占有相當(dāng)大的比例,必須通過綜合考慮環(huán)境因素的影響,對(duì)間歇故障進(jìn)行檢測(cè)和診斷,這也是減少復(fù)雜裝備NFF問題的主要技術(shù)手段和關(guān)鍵所在。
按照GJB451A-2005的定義,間歇故障是指產(chǎn)品發(fā)生故障后,不經(jīng)修理而在有限時(shí)間內(nèi)或適當(dāng)條件下自行恢復(fù)功能的故障[10]。國內(nèi)外裝備使用表明,間歇故障是裝備尤其是裝備中電子設(shè)備服役中后期的一種主要故障類型。間歇故障是不同于傳統(tǒng)的永久故障的一種特殊故障表現(xiàn)形式,它與永久故障的區(qū)別見表1所示。
表1 間歇故障與永久故障的區(qū)別
從間歇故障的表現(xiàn)形式看,間歇故障也是分層級(jí)的,不同層級(jí)的間歇故障具有不同的表現(xiàn)形式。某些間歇故障逐層影響,在裝備各個(gè)層級(jí)都有所體現(xiàn),以某連接器接觸不良導(dǎo)致的間歇故障為例,在器件級(jí)表現(xiàn)為連接器接觸電阻的不連續(xù),在功能電路級(jí)表現(xiàn)為傳輸?shù)墓δ苄盘?hào)時(shí)斷時(shí)續(xù),在系統(tǒng)級(jí)表現(xiàn)為系統(tǒng)功能間歇性異常,如顯示屏閃爍、計(jì)算機(jī)重啟等現(xiàn)象。某些間歇故障對(duì)上層次基本無影響,僅在部分層級(jí)有所體現(xiàn)。以電源模塊的間歇性輸出故障為例,由于設(shè)備設(shè)計(jì)有相應(yīng)保護(hù)措施或容錯(cuò)措施,瞬時(shí)的掉電對(duì)系統(tǒng)功能無影響,間歇故障在系統(tǒng)層級(jí)無明顯表現(xiàn)。美軍間歇故障檢測(cè)軍用性能規(guī)范從間歇故障的持續(xù)時(shí)間角度,將電子設(shè)備間歇故障分為3類:① 短時(shí)間歇故障,時(shí)長在100 ns以內(nèi);② 中時(shí)間歇故障,時(shí)長在101 ns~500 μs之間;③ 長時(shí)間歇故障,時(shí)長在501 μs~5 ms之間[18]。從間歇故障的誘因看,可以將間歇故障分為兩類:① 設(shè)計(jì)型間歇故障。一般指由于存在接地、軟件缺陷等設(shè)計(jì)不足,當(dāng)多個(gè)部件與因素相互作用時(shí)產(chǎn)生的間歇性故障。這類間歇故障隨機(jī)性非常強(qiáng),規(guī)律性差,難以復(fù)現(xiàn)和檢測(cè)。但其可能在試驗(yàn)與使用初期階段表現(xiàn)出來,可以針對(duì)缺陷,通過提高可靠性、優(yōu)化產(chǎn)品設(shè)計(jì)等技術(shù)途徑解決。這類間歇故障不是間歇故障的主要問題,尤其不是老化設(shè)備表現(xiàn)出的間歇故障問題。② 耗損型間歇故障。由連接器針腳松動(dòng)或疲勞、電線磨損或斷絲、接觸器不良、焊點(diǎn)開裂、印制板線連接不良、器件性能退化等導(dǎo)致的間歇性故障[15]。這類間歇故障是產(chǎn)品使用一定時(shí)間后的必然物理性表現(xiàn),其機(jī)理多與連接器、焊點(diǎn)、器件等的損傷、退化及外部環(huán)境應(yīng)力密切相關(guān),存在相對(duì)明確的機(jī)理和規(guī)律,有可能實(shí)現(xiàn)有效復(fù)現(xiàn)、檢測(cè)與診斷,成為當(dāng)前國外研究的熱點(diǎn)。
來自美軍的數(shù)據(jù)統(tǒng)計(jì)及分析表明,耗損型間歇故障約占軍用飛機(jī)間歇故障的80%以上,是裝備多數(shù)功能間歇異常的底層物理性故障根源[15,19-20]。從耗損型間歇故障的機(jī)理分析。一方面,耗損型間歇故障與裝備的退化和損傷狀態(tài)密切相關(guān),即耗損型間歇故障的發(fā)生頻率等特征會(huì)隨裝備的損傷加劇而逐漸增加。一般地,在裝備服役早期,這種故障看起來像是短時(shí)間的小波動(dòng)、電壓下降、或電噪聲等,對(duì)裝備功能不會(huì)產(chǎn)生影響。當(dāng)裝備進(jìn)入服役中后期,隨著損傷的加劇,耗損型間歇故障幅值和持續(xù)時(shí)間不斷增加,逐漸導(dǎo)致裝備功能的間歇性不正常,且這種現(xiàn)象隨機(jī)發(fā)生,離線難以復(fù)現(xiàn)和檢測(cè),導(dǎo)致裝備的NFF現(xiàn)象。只有當(dāng)這種故障發(fā)展到晚期甚至成為永久故障時(shí),常規(guī)的BIT和ATE才可能檢測(cè)到。另一方面,耗損型間歇故障還與裝備的工作環(huán)境因素密切相關(guān)。工程實(shí)踐表明,耗損型間歇故障的表現(xiàn)通常遵循如下規(guī)律:當(dāng)環(huán)境應(yīng)力消失后,裝備間歇故障隨之減少或消失;如果再次受到環(huán)境應(yīng)力的作用,裝備間歇故障又可能隨機(jī)出現(xiàn)[21]。
裝備發(fā)生間歇故障導(dǎo)致NFF現(xiàn)象時(shí),一方面將會(huì)導(dǎo)致裝備任務(wù)中斷,進(jìn)而進(jìn)行拆卸、換件等維修工作,產(chǎn)生大量維修費(fèi)用。以美軍統(tǒng)計(jì)為例,美軍飛機(jī)飛行報(bào)告的故障有高達(dá)50%在隨后地面測(cè)試中不能被檢測(cè),由間歇問題造成的NFF問題,已經(jīng)成為航空器維修中最大的費(fèi)用[22-23]。F16戰(zhàn)機(jī)每年由于NFF造成的換件費(fèi)用超過1300萬美元,加上廠商維修時(shí)遇到的類似問題,NFF造成的換件費(fèi)用超過2000萬美元[23]??偟膩硭?,美軍飛機(jī)NFF相關(guān)問題消耗了超過24.6萬個(gè)維修工時(shí),包括飛機(jī)停機(jī)時(shí)間和保障費(fèi)用,等于6架飛機(jī)平臺(tái)的費(fèi)用。同時(shí),美軍統(tǒng)計(jì)表明,源于不能檢測(cè)的間歇故障是目前飛機(jī)維修費(fèi)用增長中的一個(gè)重要因素,美國國防部為此花費(fèi)約20億美元[24]。對(duì)于新型飛機(jī),問題也同樣嚴(yán)重。如2012年9月10日至11月14日,美軍在埃格林空軍基地對(duì)F-35A開展的為期65天的作戰(zhàn)效用鑒定試驗(yàn)飛行結(jié)果顯示,其飛行控制系統(tǒng)是導(dǎo)致BIT虛警的主要部件,僅頭盔等的電路引腳/連接間歇故障問題就導(dǎo)致了5次任務(wù)中止,使得BIT虛警的平均間隔飛行小時(shí)僅為10.6 h,遠(yuǎn)遠(yuǎn)達(dá)不到50飛行小時(shí)的目標(biāo)值。
另一方面,NFF發(fā)生后,由于被拆故障單元維修時(shí)檢測(cè)合格,導(dǎo)致無法排除故障或問題歸零。類似情況發(fā)生若干次后,裝備使用部門可能無奈地不再換件送修,而是憑經(jīng)驗(yàn)采用重啟、重新插拔等手段嘗試使設(shè)備恢復(fù)正常。裝備使用部門深刻反映,這種處理方式實(shí)屬權(quán)宜之計(jì),雖然可能使設(shè)備暫時(shí)恢復(fù)工作,但并沒有找到故障原因和真正排除間歇故障問題。裝備實(shí)際上是帶隱患工作,后續(xù)工作時(shí)特別是實(shí)戰(zhàn)化環(huán)境下故障可能又發(fā)生,不僅失去了永久故障發(fā)生前改進(jìn)和修復(fù)的寶貴時(shí)機(jī),而且可能因?yàn)殚g歇故障發(fā)生而錯(cuò)過稍縱即逝的任務(wù)窗口,直接導(dǎo)致裝備的任務(wù)失敗,成為影響裝備可用性和任務(wù)成功的重大隱患。另外,由于目前我國裝備BIT等檢測(cè)手段能力有限,各類電子設(shè)備中還有相當(dāng)?shù)拈g歇故障在裝備使用過程中可能未被檢測(cè)出來,雖然裝備沒有報(bào)警,但已經(jīng)帶間歇故障隱患工作,長此以往,將嚴(yán)重影響裝備完好性和任務(wù)執(zhí)行。
近期,我國越來越多的大型復(fù)雜裝備進(jìn)入使用中后期,大量新型裝備陸續(xù)投入使用,間歇故障尤其是耗損型間歇故障將處于高發(fā)期階段,主要體現(xiàn)在:① 耗損型間歇故障的出現(xiàn)與使用環(huán)境密切相關(guān),隨著裝備使用強(qiáng)度越來越大,環(huán)境越來越復(fù)雜、嚴(yán)酷,耗損型間歇故障出現(xiàn)頻度會(huì)越來越高,將給裝備服役安全等帶來很大隱患,嚴(yán)重影響戰(zhàn)備完好性和任務(wù)執(zhí)行;② 耗損型間歇故障與設(shè)備老化過程相關(guān),類似的使用環(huán)境下,一般在設(shè)備壽命中期前出現(xiàn)頻度較小,壽命中后期出現(xiàn)頻度較大;③ 新研制裝備使用初期是設(shè)計(jì)型間歇故障的高發(fā)期。此背景下,我國間歇故障及NFF問題研究日益迫切。
國外早在1965年就提出了NFF問題,但長期處于工程認(rèn)識(shí)階段,近年來其技術(shù)研究呈現(xiàn)高潮[25-26]。如英國克蘭菲爾德大學(xué)EPSRC研究中心近幾年一直致力于NFF問題的研究,主要從間歇故障、集成故障、BIT與測(cè)試設(shè)備3個(gè)方面進(jìn)行了研究[26]。綜合國內(nèi)外研究現(xiàn)狀,目前NFF問題主要有以下解決措施。
(1) 制定減少NFF問題的規(guī)范。
如2008年,美國發(fā)布了關(guān)于NFF的ARINC標(biāo)準(zhǔn)ARINC-672-2008“減少無故障發(fā)現(xiàn)(NFF)現(xiàn)象的指南”,該指南系統(tǒng)分析了裝備設(shè)計(jì)生產(chǎn)、任務(wù)使用、外場(chǎng)維護(hù)、內(nèi)場(chǎng)維護(hù)等過程中NFF問題的原因,并給出相應(yīng)的減少措施[27]。
(2) 提高裝備可靠性。
裝備高度復(fù)雜導(dǎo)致的可靠性低是造成NFF現(xiàn)象的重要原因之一。裝備越復(fù)雜,設(shè)計(jì)缺陷可能越多,產(chǎn)生NFF問題、特別是設(shè)計(jì)型間歇故障有關(guān)的NFF問題可能性越大,提高裝備可靠性有助于降低NFF現(xiàn)象的發(fā)生概率。如裝備設(shè)計(jì)之初考慮可能存在的NFF問題,采取提高模塊間連接或耦合的可靠性、消除軟件缺陷等措施來減少NFF問題;在設(shè)計(jì)階段充分結(jié)合相近裝備的維修保障數(shù)據(jù),進(jìn)行預(yù)防NFF的裝備改進(jìn)設(shè)計(jì)等[12]。
(3) 提高BIT和測(cè)試設(shè)備的測(cè)試診斷能力。
若BIT的檢測(cè)診斷能力足夠強(qiáng),能夠準(zhǔn)確地進(jìn)行故障檢測(cè)與定位,識(shí)別虛警,則在一定程度上可以減少由于虛警等導(dǎo)致的NFF問題。因此,提高BIT檢測(cè)診斷與降虛警能力是解決NFF問題的技術(shù)途徑之一。國防科技大學(xué)在該方面開展了較深入研究[6,28-29],從BIT信息處理流程的角度,提出了BIT分層信息融合的綜合降虛警方法;針對(duì)系統(tǒng)級(jí)BIT體系結(jié)構(gòu)與集成因素等誘發(fā)系統(tǒng)級(jí)BIT虛警問題,提出了系統(tǒng)級(jí)BIT降虛警方法。中國飛行試驗(yàn)研究院在機(jī)組告警信息實(shí)時(shí)監(jiān)控系統(tǒng)中進(jìn)行了虛警抑制設(shè)計(jì)[30]。另一方面,針對(duì)維修級(jí)別間測(cè)試容差不一致導(dǎo)致的NFF問題,可以設(shè)計(jì)合理的容差。同時(shí),提高下一級(jí)維修的測(cè)試精度,確保內(nèi)場(chǎng)維修時(shí)的故障檢測(cè)與隔離能力[4]。
(4) 提高間歇故障檢測(cè)與診斷能力。
如前所述,間歇故障和環(huán)境因素是引起NFF現(xiàn)象的主要因素,因此提高間歇故障的檢測(cè)與診斷能力,能夠極大地減少裝備的NFF問題。將在后文對(duì)該方面重點(diǎn)闡述。
(5) 加強(qiáng)數(shù)據(jù)資源共享與管理。
收集裝備設(shè)計(jì)、服役、維修保障等過程中的故障發(fā)生時(shí)間和位置等相關(guān)數(shù)據(jù),然后處理轉(zhuǎn)化為專家和相關(guān)維護(hù)技術(shù)人員適用的方式,建立故障數(shù)據(jù)庫,實(shí)現(xiàn)數(shù)據(jù)共享,并反饋給裝備設(shè)計(jì)部門及相關(guān)技術(shù)人員,進(jìn)而不斷更新裝備的故障排查工具和流程,是國外采取的減少NFF現(xiàn)象途徑之一。如自上世紀(jì)90年代末起,美軍希爾空軍基地開始收集F-16武器系統(tǒng)電子箱的維修數(shù)據(jù),即DRILS(Defense Repair Information Logistics System)計(jì)劃。該計(jì)劃審查數(shù)年的維修歷史記錄,收集修理車間和航空站的各種測(cè)試數(shù)據(jù),傳送到基地中央服務(wù)器,將現(xiàn)場(chǎng)不正常的測(cè)試數(shù)據(jù)與服務(wù)器中正常的測(cè)試數(shù)據(jù)進(jìn)行比較,如果數(shù)值差別不大,則可認(rèn)為是測(cè)試誤差下的正常情況;如果差異大,才指示NFF問題[23]。
(6) 加強(qiáng)維修人員培訓(xùn)。
人為因素也是導(dǎo)致NFF問題的重要原因,如維修人員對(duì)裝備和相應(yīng)測(cè)試設(shè)備的熟練程度、機(jī)組人員與維修人員對(duì)故障信息的理解不一致等。Neil Pickthall等人通過對(duì)NFF問題處理流程的調(diào)研,分析了人為因素對(duì)飛行設(shè)備出現(xiàn)NFF問題的影響,結(jié)果表明維修人員故障排查能力的缺乏是導(dǎo)致NFF現(xiàn)象的重要因素之一。提高維修人員使用測(cè)試維修設(shè)備、排查故障的熟練程度,加強(qiáng)層級(jí)之間的協(xié)調(diào)暢通與準(zhǔn)確性,有助于減少裝備NFF現(xiàn)象[27,31-32]。
國外早在上世紀(jì)60年代即開始間歇故障相關(guān)技術(shù)研究??v觀半個(gè)世紀(jì)的研究歷程,國外在該技術(shù)領(lǐng)域的研究走過了從不確定性檢測(cè)到確定性檢測(cè)的曲折道路,具體可以分為兩個(gè)階段。第一個(gè)階段為不確定性檢測(cè)與診斷方法階段:上世紀(jì)60年代以來,針對(duì)間歇故障時(shí)有時(shí)無、隨機(jī)性強(qiáng)的外在表現(xiàn),其研究主要集中在基于統(tǒng)計(jì)推理、隨機(jī)過程模型等不確定性檢測(cè)與診斷方法方面。第二個(gè)階段為確定性檢測(cè)與診斷方法階段:2010年前后,研究人員逐漸意識(shí)到不確定性檢測(cè)與診斷方法在解決間歇故障問題方面的本質(zhì)不足和根源,從間歇故障的物理機(jī)理入手,研究確定性的檢測(cè)和診斷方法,在機(jī)理、方法、設(shè)備及應(yīng)用方面取得了突破性進(jìn)展。
3.1.1 間歇故障不確定性檢測(cè)與診斷方法
早在1967年,航天領(lǐng)域就關(guān)注了間歇故障問題。幾十年來,國外從診斷方法的角度對(duì)間歇故障診斷開展了大量的研究,在傳統(tǒng)的故障診斷方法基礎(chǔ)上,將間歇故障納入判決范圍,提出了許多基于數(shù)據(jù)、統(tǒng)計(jì)模型的間歇故障檢測(cè)與診斷方法,具體如下。
(1) 基于數(shù)據(jù)驅(qū)動(dòng)的間歇故障檢測(cè)與診斷方法。
基于數(shù)據(jù)驅(qū)動(dòng)的方法是直接將觀察值進(jìn)行數(shù)據(jù)處理或統(tǒng)計(jì)推理,以得到診斷結(jié)論。常用的方法有聚類分析、決策樹、概率推理以及其他模式識(shí)別技術(shù)等。
① 基于特征分析的方法。S.S.H.Zaidi等人分別采用STFT、WVD(Wigner)、CWD對(duì)間歇故障的信號(hào)特征進(jìn)行提取,采用兩種聚類分析方法:線性分類器和k-mean分類器,實(shí)現(xiàn)對(duì)間歇故障進(jìn)行判別[33-34]。
② 基于決策樹的方法。S.Singh等人針對(duì)汽車電子控制單元(ECU)間歇故障的識(shí)別定位問題,利用存于PCM中的故障碼和工作狀態(tài)參數(shù),并通過計(jì)算信息熵的辦法,提出決策生成和特征狀態(tài)參數(shù)選取算法,從而輔助維修人員進(jìn)行維修排查,大大減小維修決策時(shí)間[35-36]。
③ 基于概率推理的方法。美國Palo Alto研究中心的J.de Kleer等人以自檢測(cè)打印機(jī)為例,針對(duì)經(jīng)過多模塊任務(wù),通過觀測(cè)任務(wù)的失敗或成功,分別在單個(gè)永久故障、單個(gè)間歇故障、多個(gè)永久故障、多個(gè)間歇故障情況下,估計(jì)模塊故障的后驗(yàn)概率,以實(shí)現(xiàn)間歇故障的隔離[37]。
(2) 基于模型的間歇故障檢測(cè)與診斷方法。
基于模型的方法是構(gòu)造間歇故障診斷問題的數(shù)學(xué)模型,將觀察值輸入模型,或是學(xué)習(xí)訓(xùn)練得到模型參數(shù),由模型參數(shù)作進(jìn)一步的推理,進(jìn)而得到診斷結(jié)論。依據(jù)模型的不同,主要包括以下幾個(gè)方面。
① 基于隨機(jī)過程模型的方法。一是Petri網(wǎng)模型。Yoshio Sugasawa等人使用Petri網(wǎng)描述含間歇故障的系統(tǒng)特性,使用可達(dá)樹表示模型的動(dòng)態(tài)行為,用Markov更新過程分析系統(tǒng)隨機(jī)行為,得到吸收狀態(tài)的極限概率[38]。Krasnobaev等人采用Petri網(wǎng)建立間歇故障發(fā)生過程的模型,并對(duì)該模型進(jìn)行分析以確定影響故障概率的過程參數(shù)[39]。二是Markov模型。Toshio Nakagawa等人以連續(xù)參數(shù)Markov模型為基礎(chǔ),推導(dǎo)了間歇故障相關(guān)的檢測(cè)概率和檢測(cè)時(shí)間[40]。Breuer等人提出二狀態(tài)離散參數(shù)的間歇故障Markov模型[41]。V.B.Prasad等人建立連續(xù)參數(shù)三態(tài)Markov模型,用以區(qū)分正常、間歇故障、永久故障狀態(tài),進(jìn)而分析得到可靠性和平均故障間隔時(shí)間[42]。三是概率統(tǒng)計(jì)模型。A.A.Ismaeel等人研究了組合電路的間歇故障診斷,提出TDM模型,該模型可以預(yù)先確定特定故障模式的測(cè)試向量[43]。Brian W.Ricks等人提出了間歇和永久故障的貝葉斯網(wǎng)模型,擴(kuò)展了用于處理永久故障的診斷算法,以用于間歇故障診斷[44]。
② 基于系統(tǒng)信息模型的方法。Bin Fu等人針對(duì)多處理器網(wǎng)絡(luò)間歇故障的診斷問題,提出相應(yīng)的測(cè)試和診斷算法,該算法可診斷出所有永久故障和部分間歇故障[45]。G.M.Masson等人研究了相互連接和測(cè)試系統(tǒng)的間歇故障數(shù)量問題,給出了間歇故障診斷的充分和必要條件,并分別針對(duì)間歇故障和瞬時(shí)故障,提出隔離和任務(wù)結(jié)果處理的過程和方法[46]。M.Blom等人針對(duì)通信網(wǎng)絡(luò)間歇故障問題,建立瀑布型網(wǎng)絡(luò)結(jié)構(gòu)模型,通過對(duì)組件故障概率進(jìn)行更新,從而檢測(cè)出間歇故障[47]。
③ 離散事件系統(tǒng)模型。密歇根大學(xué)的O.Contant等人構(gòu)建了考慮間歇故障的離散事件系統(tǒng)模型,對(duì)其可診斷性的充分必要條件進(jìn)行了論證,并基于此構(gòu)建診斷器,對(duì)系統(tǒng)事件進(jìn)行狀態(tài)評(píng)估,從而實(shí)現(xiàn)故障的檢測(cè)[48-49]。A.Correcher等人基于離散事件系統(tǒng)構(gòu)建診斷器,獲取部件發(fā)生故障和恢復(fù)狀態(tài)的概率來診斷間歇故障,并以含4個(gè)發(fā)動(dòng)機(jī)的銑床為例進(jìn)行了驗(yàn)證[50]。L.K.Carvalho等人針對(duì)傳感器間歇故障建立離散事件系統(tǒng)模型,并構(gòu)建了診斷自動(dòng)機(jī)來識(shí)別間歇故障[51]。
④ 狀態(tài)空間模型。A.Yaramas和Y.Cao針對(duì)飛機(jī)布線系統(tǒng)功率線路的間歇故障,建立了正常和故障狀態(tài)線路的狀態(tài)空間描述模型,通過最小二乘法估計(jì)負(fù)載電路模型的系數(shù)或參數(shù),通過閾值判斷間歇故障[52]。英國Cranfield大學(xué)的T.Sedighi等人研究了基于狀態(tài)空間模型的間歇故障檢測(cè)方法,構(gòu)造殘差和動(dòng)態(tài)閾值進(jìn)行間歇故障檢測(cè)[53]。
⑤ 決策優(yōu)化模型。斯坦福大學(xué)的J.Savir等人以小于n次測(cè)試檢測(cè)出間歇故障的概率最大為目標(biāo),引入逃脫概率EP(Escape Probability)描述系統(tǒng)間歇故障的漏檢率,構(gòu)建了間歇故障診斷的決策優(yōu)化模型并進(jìn)行了求解[54]。N.Kranitis等人研究了嵌入式流水線處理器中間歇故障的最優(yōu)周期測(cè)試,以測(cè)試費(fèi)用(時(shí)間)最小為目標(biāo)計(jì)算最優(yōu)測(cè)試間隔時(shí)間,使用數(shù)值方法進(jìn)行求解[55]。
總之,在2010年以前的幾十年間里,國外針對(duì)間歇故障檢測(cè)與診斷問題,提出了大量基于統(tǒng)計(jì)推理、隨機(jī)過程模型等的間歇故障檢測(cè)與診斷方法。雖然這些方法從不同角度對(duì)間歇故障問題進(jìn)行了分析和建模,但其診斷結(jié)果多是判斷可能發(fā)生間歇故障,難以確切給出間歇故障的發(fā)生位置、故障強(qiáng)度、表現(xiàn)情況等維修和排故所需要的故障信息。且這些方法多需要大量間歇故障先驗(yàn)數(shù)據(jù)支持,而間歇故障數(shù)據(jù)先天難以獲取和稀少,較大地影響了其診斷準(zhǔn)確性。另一方面,這些方法沒有認(rèn)識(shí)到裝備使用環(huán)境下出現(xiàn)的間歇故障在后續(xù)維修級(jí)別環(huán)境下基本不再發(fā)生,片面采用這些方法不可能檢測(cè)出間歇故障。因此,多年來,研究成果多停留在方法層面,難以準(zhǔn)確檢測(cè)工程實(shí)際中的間歇故障,在解決裝備間歇故障及NFF問題方面長期無大進(jìn)展,裝備間歇故障甚至一度被認(rèn)為無法真正有效檢測(cè)與診斷。
3.1.2 間歇故障確定性檢測(cè)與診斷方法
從信號(hào)層面看,實(shí)現(xiàn)簡單間歇故障如線纜間歇故障的確定性檢測(cè)可以采用線纜瞬斷檢測(cè)方法。但線纜瞬斷檢測(cè)方法一般適用于簡單連接線纜、且正在發(fā)生的間歇故障,難以解決存在眾多連接環(huán)節(jié)和器件的設(shè)備間歇故障檢測(cè)、隔離及NFF問題。
2010前后,美英等國裝備間歇故障與NFF問題越來越嚴(yán)重,對(duì)裝備任務(wù)執(zhí)行和保障費(fèi)用影響越來越大,到了非解決不可的地步。因此,近年來國外裝備管理、使用、研制部門與測(cè)試診斷領(lǐng)域空前重視,開展了更深入的分析與研究,取得了較多成果,特別是在耗損型間歇故障機(jī)理、確定性檢測(cè)與診斷方面取得了突破性進(jìn)展。
(1) 間歇故障規(guī)范與管理方面。
2012年,美國國防部長辦公室成立了“聯(lián)合間歇故障測(cè)試工作產(chǎn)品組(JIT WIPT)”,聯(lián)合各軍兵種共同關(guān)注裝備間歇故障問題;2014年美國國防部維修年會(huì)將間歇故障檢測(cè)與診斷技術(shù)列為2013、2014年最為重要、能夠推動(dòng)維修技術(shù)發(fā)展的3種前沿技術(shù)之一,認(rèn)為該技術(shù)是由跨軍兵種技術(shù)團(tuán)體選擇的、對(duì)改善維修效能和效率具有重大潛能的技術(shù)[56]。同年,美軍發(fā)布MIL-PRF-32516“間歇故障檢測(cè)與隔離軍用性能規(guī)范”,該文件給出了間歇故障定義等規(guī)范,是開發(fā)間歇故障檢測(cè)診斷技術(shù)與設(shè)備的主要依據(jù)[18]。目前,美軍給海軍和空軍配發(fā)了間歇故障發(fā)生器(IFG),提供部隊(duì)驗(yàn)證和確認(rèn)間歇故障檢測(cè)的能力。
(2) 間歇故障機(jī)理與檢測(cè)診斷方法手段方面。
研究人員經(jīng)大量試驗(yàn)與分析研究,逐漸明確耗損型間歇故障機(jī)理是:設(shè)備經(jīng)長期應(yīng)力(包括環(huán)境應(yīng)力和工作應(yīng)力)作用、導(dǎo)致性能退化到一定損傷狀態(tài)后,工作中又受到即時(shí)應(yīng)力作用的結(jié)果。這為耗損型間歇故障復(fù)現(xiàn)與檢測(cè)提供了指導(dǎo)。檢測(cè)診斷方法與手段方面,美國Brent Sorensen等人開發(fā)了IFD-2000間歇故障檢測(cè)器,IDF-2000采用不解體方式,通過設(shè)備接口可同時(shí)檢測(cè)256條通路的間歇故障;美國Universal Synaptic公司在IFD-2000基礎(chǔ)上,研制了間歇故障檢測(cè)和隔離系統(tǒng)IFDIS,提供了耗損型間歇故障的復(fù)現(xiàn)與檢測(cè)的有效方法與手段,得到了成功應(yīng)用,受到軍方和軍工巨頭的認(rèn)可,在國防部維修年會(huì)上兩度獲得 “最佳創(chuàng)意”競(jìng)賽獎(jiǎng),被認(rèn)為在同類技術(shù)和產(chǎn)品中性能最佳,作為優(yōu)秀案例在2014國防部維修年會(huì)上進(jìn)行重點(diǎn)介紹[24,56]。
IFDIS系統(tǒng)目前應(yīng)用于檢測(cè)隔離F-16機(jī)載雷達(dá)系統(tǒng)低功率無線電模塊的間歇故障(過去10年該模塊是影響F-16戰(zhàn)斗機(jī)執(zhí)行任務(wù)率的主要因素),60%的單元測(cè)試出一次或多次間歇故障,基地級(jí)維修間隔時(shí)間從292 h增加到926 h,可靠性增長約3倍,投資回報(bào)為28倍,使得F-16戰(zhàn)斗機(jī)戰(zhàn)備完好性大大提高。該系統(tǒng)同時(shí)應(yīng)用于美國空軍、海軍、英國國防部、澳大利亞皇家空軍、以色列空軍和民航飛機(jī)等項(xiàng)目,并取得了較大成功[24,56]。
國內(nèi)約在2000年前后開始關(guān)注間歇故障檢測(cè)與診斷問題,研究起步較晚。從整體研究情況來看,間歇故障問題受重視程度不高,學(xué)術(shù)界尚未把間歇故障問題提升到一個(gè)技術(shù)領(lǐng)域?qū)用骈_展廣泛研究,相關(guān)研究較少。
清華大學(xué)周東華教授等從動(dòng)態(tài)系統(tǒng)的角度分析和研究了控制系統(tǒng)的間歇故障問題,提出了線性離散系統(tǒng)間歇故障的魯棒檢測(cè)方法等[57-58]。崔濤等針對(duì)電力傳輸系統(tǒng)接地瞬時(shí)故障和間歇故障,采用希爾伯特變換辨識(shí)電路中的瞬時(shí)功率,并由該信號(hào)特征提出故障診斷的算法[59]。浙江大學(xué)趙九洲等考慮CAN總線中節(jié)點(diǎn)處于不同狀態(tài)(發(fā)送、接收)時(shí)發(fā)生間歇故障的表現(xiàn),建立了混合泊松過程以描述間歇故障過程,采用最大似然估計(jì)方法獲取模型參數(shù)[60]。2000年以來,國防科技大學(xué)在研究機(jī)內(nèi)測(cè)試(BIT )虛警問題時(shí),對(duì)間歇故障問題展開了一定研究[61-63],提出了采用三態(tài)馬爾科夫模型、離散事件系統(tǒng)模型等描述間歇故障問題,并探索了間歇故障診斷方法。另外,國內(nèi)在線纜瞬斷檢測(cè)方面也有個(gè)別研究。
2010以來,國防科技大學(xué)隨著對(duì)我國裝備NFF問題和間歇故障的深入認(rèn)識(shí),以及對(duì)國外間歇故障研究情況的跟蹤,深刻意識(shí)到:要真正解決裝備NFF和間歇故障問題,需要明晰間歇故障機(jī)理,研究適用的確定性檢測(cè)和診斷方法。因此,對(duì)耗損型間歇故障機(jī)理開展了一定探索[64-65],開發(fā)了間歇故障檢測(cè)原型系統(tǒng),并取得了初步的應(yīng)用效果。
針對(duì)目前我國裝備間歇故障問題需求,綜合該領(lǐng)域國內(nèi)外研究現(xiàn)狀,間歇故障診斷領(lǐng)域的關(guān)鍵技術(shù)問題與建議發(fā)展方向分析如下。
(1) 間歇故障機(jī)理。
從目前研究和應(yīng)用情況看,間歇故障尤其是耗損型間歇故障的復(fù)現(xiàn)、診斷與分析評(píng)估效果較大地依賴間歇故障機(jī)理明晰程度。目前,耗損型間歇故障機(jī)理主要是定性認(rèn)識(shí),設(shè)計(jì)型間歇故障機(jī)理尚未總結(jié)出明確規(guī)律。為實(shí)現(xiàn)高效復(fù)現(xiàn)、精準(zhǔn)診斷、可信評(píng)估,有必要進(jìn)一步分析間歇故障的發(fā)生機(jī)理及規(guī)律,特別是建立外部環(huán)境應(yīng)力、內(nèi)部損傷與耗損型間歇故障之間的定量或半定量化關(guān)聯(lián)關(guān)系。
(2) 間歇故障在線檢測(cè)。
間歇故障脫離工作環(huán)境一般不再表現(xiàn),理想的方式是在設(shè)備工作狀態(tài)下發(fā)生間歇故障時(shí)將其檢測(cè)與隔離。但由于間歇故障分布范圍廣、發(fā)生隨機(jī)、持續(xù)時(shí)間短、信號(hào)表現(xiàn)多樣,若采用BIT等手段進(jìn)行在線檢測(cè),可能需要高速采樣等較大代價(jià)電路。若通過傳遞綜合后的信號(hào)進(jìn)行功能檢測(cè)判斷,則信號(hào)綜合可能屏蔽前端的物理性間歇故障而難以檢測(cè)出來。而且由于設(shè)備工作中存在干擾等情況,間歇故障與干擾導(dǎo)致的波動(dòng)有可能混淆。因此,間歇故障在線檢測(cè)存在檢測(cè)效果不佳、代價(jià)大、虛警等嚴(yán)重挑戰(zhàn)。目前,尚未有設(shè)備專門針對(duì)間歇故障進(jìn)行BIT等在線檢測(cè)設(shè)計(jì)。
(3) 間歇故障復(fù)現(xiàn)。
耗損型間歇故障的發(fā)生與工作過程中所承受的環(huán)境應(yīng)力密切相關(guān)。但一方面,間歇故障具有一定的隨機(jī)性,加載工作環(huán)境不一定復(fù)現(xiàn),或者加載相當(dāng)長時(shí)間環(huán)境才復(fù)現(xiàn)出來。另一方面,與可靠性試驗(yàn)不同,間歇故障復(fù)現(xiàn)是對(duì)使用過程中已經(jīng)客觀發(fā)生間歇故障的設(shè)備,通過施加環(huán)境應(yīng)力,復(fù)現(xiàn)出設(shè)備在使用環(huán)境中曾經(jīng)出現(xiàn)的間歇故障,而且不出現(xiàn)新的間歇故障。如何施加環(huán)境應(yīng)力才能將設(shè)備內(nèi)部的耗損型間歇故障隱患準(zhǔn)確、高效地復(fù)現(xiàn)出來而又不對(duì)設(shè)備造成新的故障或嚴(yán)重?fù)p傷,是一難點(diǎn)問題。
(4) 間歇故障確定性檢測(cè)。
間歇故障確定性檢測(cè)對(duì)解決間歇故障問題具有實(shí)際意義。在間歇故障復(fù)現(xiàn)基礎(chǔ)上,要實(shí)現(xiàn)間歇故障確定性檢測(cè),關(guān)鍵在于如何捕捉到間歇故障導(dǎo)致的瞬態(tài)信號(hào)變化。理論上,基于高速采樣的測(cè)試方案在技術(shù)上可以實(shí)現(xiàn)少量間歇故障的瞬態(tài)信號(hào)捕捉。但對(duì)電子設(shè)備來說,連接環(huán)節(jié)眾多,且其間歇故障持續(xù)時(shí)間短,若采用一對(duì)一高速采樣方案,其測(cè)試通路可能需達(dá)成百上千。而且需要在設(shè)備內(nèi)部施加大量測(cè)試點(diǎn),而解體在內(nèi)部施加測(cè)試點(diǎn)將影響設(shè)備間歇故障狀態(tài)。因此,在不解體實(shí)現(xiàn)準(zhǔn)確檢測(cè)、測(cè)試成本、同步并行測(cè)試控制等方面將有很大的挑戰(zhàn)。
(5) 間歇故障精準(zhǔn)定位。
確定間歇故障發(fā)生的具體部位,對(duì)維修至關(guān)重要。但電子設(shè)備連接、器件眾多,多個(gè)環(huán)節(jié)容易構(gòu)成模糊組,如何準(zhǔn)確定位間歇故障的具體位置十分困難。而傳統(tǒng)的故障診斷方法難以進(jìn)行間歇故障定位。因此,需要研究間歇故障的隔離定位方法。
(6) 間歇故障評(píng)估。
由于同一間歇故障在不同階段的強(qiáng)度有大有小,對(duì)設(shè)備的影響也有大有小,如何對(duì)其處置(更換、維修還是繼續(xù)使用)是工程中需要決策的問題。維護(hù)人員希望基于間歇故障設(shè)備的狀態(tài)好壞做出決策。因此,在發(fā)生間歇故障后,如何定量判斷設(shè)備使用狀態(tài)是一關(guān)鍵問題。
NFF與間歇故障日益成為我國裝備測(cè)試與保障領(lǐng)域的突出問題。深入分析NFF與間歇故障原因與機(jī)理,研究間歇故障復(fù)現(xiàn)、確定性檢測(cè)與診斷、分析評(píng)估等方法,制定NFF與間歇故障問題解決方案,對(duì)提高裝備可用性、降低保障負(fù)擔(dān)將具有重要意義。