張 騰,姜姍姍,陳 韜,宗麗娜,毛鵬飛,徐宮健
(北京航天測控技術(shù)有限公司,北京 100041)
測控設(shè)備在各類航天裝備中承擔(dān)重要參數(shù)測量、中繼控制等功能,對接眾多信號接口眾,發(fā)揮地面神經(jīng)中樞的作用。裝配的正常測試、發(fā)射等任務(wù)要求地面測控具備更穩(wěn)定、更可靠的特性。長期工作的測控設(shè)備主要實(shí)現(xiàn)裝備持續(xù)的信號采集、數(shù)據(jù)通訊、指令控制等,為符合裝備測試的需求,其控制功能、信號處理功能、通訊功能等要求更低的故障率和更長的無故障間隔時(shí)間。
以產(chǎn)品壽命時(shí)間維度考慮產(chǎn)品可靠性,產(chǎn)品可靠性的保障工作需要研制階段的可靠性預(yù)計(jì)為產(chǎn)品設(shè)計(jì)進(jìn)行約束,測試階段的可靠性試驗(yàn)對產(chǎn)品進(jìn)行可靠性驗(yàn)證,剔除缺陷產(chǎn)品、改進(jìn)產(chǎn)品設(shè)計(jì)和制造,并最終形成可靠性達(dá)標(biāo)的產(chǎn)品。但當(dāng)多數(shù)產(chǎn)品實(shí)際投入應(yīng)用后,缺乏可靠性狀態(tài)的監(jiān)測和評估,產(chǎn)品是否可以正常的長期使用具有較大的不確定性。
以產(chǎn)品可靠性測試方法維度考慮產(chǎn)品可靠性,根據(jù)相關(guān)標(biāo)準(zhǔn)和要求對設(shè)備的各組件進(jìn)行測試和試驗(yàn)驗(yàn)證[1-2],一般受限于測試工裝、測試方法等因素,多直接基于對外信號接口實(shí)現(xiàn)測試,即通過加入激勵(lì)和測量資源,判定設(shè)備組件的功能和性能情況,該方式可直接測試的數(shù)據(jù)點(diǎn)和數(shù)據(jù)類型完全基于接口引出情況,可測數(shù)據(jù)和故障激發(fā)能力有限,難以提前發(fā)現(xiàn)問題。設(shè)備內(nèi)部的測試可以為設(shè)備狀態(tài)預(yù)估提供更多的數(shù)據(jù)支持,如內(nèi)建的板級邊界掃描測試(BST, boundary scan testing)技術(shù)針為支持IEEE1149.1標(biāo)準(zhǔn)的元器件提供了連接檢測方法,但對非BST元器件無法直接測試[3-4];基于探針接觸的板級測試系統(tǒng)可以獲取更豐富的板卡運(yùn)行狀態(tài),但不能滿足裝機(jī)后板卡狀態(tài)測試需要[5]。
為確保測控設(shè)備長期加電特性符合需求,針對測控設(shè)備運(yùn)行穩(wěn)定性的驗(yàn)證,尤其是系統(tǒng)長期對接工作條件下的驗(yàn)證,設(shè)計(jì)“全壽命”、“里應(yīng)外合”的綜合驗(yàn)證方法,從設(shè)計(jì)層面注入內(nèi)部測試功能,結(jié)合外部測試,經(jīng)趨勢評估和故障評估,為設(shè)備的健康度進(jìn)行判定[6-7],在應(yīng)用前剔除可發(fā)現(xiàn)的缺陷設(shè)備、在應(yīng)用后可預(yù)警可能出現(xiàn)的缺陷設(shè)備,以提升長期加電設(shè)備的可靠性驗(yàn)證程度。
全文以某裝備的測控設(shè)備進(jìn)行具體介紹。該測控設(shè)備用于裝備的地面測試,功能包括接收控制端指令,控制裝備的供配電、狀態(tài)轉(zhuǎn)換等,采集裝備關(guān)鍵信號(包括狀態(tài)信號、模擬信號、通訊信號等),形成數(shù)據(jù)包回傳至控制端。測控設(shè)備以標(biāo)準(zhǔn)4U上架機(jī)箱的形式安裝于測試機(jī)柜內(nèi),測控設(shè)備基本組成包括基于實(shí)時(shí)操作系統(tǒng)的CPU主控模塊、BC/BM/RT可配的1553B通訊模塊、多通道RS422串口通訊模塊、多通道模擬量模塊(模擬量采集和輸出)、多通道狀態(tài)量模塊(狀態(tài)量采集和輸出)、電源模塊等,各模塊均為板卡形式、通過背板實(shí)現(xiàn)板間連接,此外,背板將板卡對外信號通過機(jī)箱面板連接器引出。
測控設(shè)備啟動(dòng)后,CPU主控模塊運(yùn)行實(shí)時(shí)測試流程,根據(jù)指令執(zhí)行相應(yīng)動(dòng)作,并以固定時(shí)間間隔,將運(yùn)行狀態(tài)數(shù)據(jù)通過以太網(wǎng)回傳至遠(yuǎn)程控制端。
圖1 測控設(shè)備組成原理
測控設(shè)備的驗(yàn)證常通過產(chǎn)品對外接口、在獨(dú)立工作環(huán)境下進(jìn)行功能、性能的測試,針對產(chǎn)品內(nèi)部電路、邏輯運(yùn)行狀態(tài)等缺乏相關(guān)測試,且在應(yīng)用階段缺少精細(xì)化狀態(tài)監(jiān)測,即只能在單機(jī)環(huán)境下通過接口的電氣特性判定整體功能,涉及的測試面有限。模塊內(nèi)部設(shè)計(jì)測試,即在設(shè)計(jì)階段將測試功能嵌入到測控設(shè)備模塊級產(chǎn)品中,重點(diǎn)針對模塊內(nèi)部關(guān)鍵功能電路,尤其是電路中不可測不易測部分,并將測試覆蓋至產(chǎn)品全壽命階段,此外,模塊是一個(gè)系統(tǒng)的組件,系統(tǒng)運(yùn)行環(huán)境影響模塊的長期工作可靠性,結(jié)合模塊運(yùn)行環(huán)境的監(jiān)測,為模塊的狀態(tài)判斷提供必要的參考數(shù)據(jù)[8-9]。具體方法:
1)利用或額外增加模塊的嵌入式功能,如可編程邏輯器件、CPU、MCU等,設(shè)計(jì)該類元器件和外部關(guān)鍵元器件主要信號之間的連接,除基礎(chǔ)的控制應(yīng)用外,增加主要信號的邏輯、時(shí)序變化持續(xù)監(jiān)測進(jìn)程和狀態(tài)判斷進(jìn)程,提供芯片級的測試數(shù)據(jù),用于模塊的狀態(tài)評估;
2)設(shè)計(jì)多種環(huán)境傳感器(如溫濕度、振動(dòng)等)、電壓電流監(jiān)測等元器件,用于模塊應(yīng)用環(huán)境、電源供電等外部狀態(tài)的持續(xù)監(jiān)測,提供運(yùn)行環(huán)境數(shù)據(jù),用于模塊的系數(shù)修正、異常提醒、故障定位等。
對基于測控設(shè)備的模擬量模塊、1553B模塊等包含較復(fù)雜內(nèi)部控制的模塊開展測試性內(nèi)部設(shè)計(jì)。模塊均以FPGA為邏輯控制元器件,通過FPGA監(jiān)測其它功能元器件和環(huán)境的狀態(tài)變化情況。
以模擬量模塊的AD內(nèi)部測試舉例如下。模擬量采集電路由調(diào)理電路、AD電路、FPGA電路、溫濕度監(jiān)測電路等部分組成。其中,調(diào)理電路接口直接引出模塊外,可通過外部接口進(jìn)行測試;AD與FPGA的接口均在模塊內(nèi),無法直接測量。為測試AD芯片長期工作下的時(shí)序穩(wěn)定性和工作性能,補(bǔ)償不同溫度下AD轉(zhuǎn)換精度,基于FPGA與AD芯片的電氣連接,結(jié)合溫濕度傳感器,在FPGA內(nèi)設(shè)計(jì)AD芯片的控制接口時(shí)序測試、轉(zhuǎn)換速率測試和溫度測試。
模擬量模塊使用的AD芯片是一種16位逐次逼近型電容結(jié)構(gòu)的A/D轉(zhuǎn)換器,主要由控制邏輯、SAR寄存器、輸入輸出控制、基準(zhǔn)、時(shí)鐘、D/A轉(zhuǎn)換器和比較器組合而成,具備串行或并行控制通訊接口。模擬量模塊AD控制采用串行方式,接口數(shù)量較少,接口包含CONVST啟動(dòng)AD轉(zhuǎn)換信號、BUSY轉(zhuǎn)換忙信號、CS片選信號、RD讀控制信號、DATA并行數(shù)據(jù)信號,該類信號均與FPGA連接。AD控制時(shí)序如圖2所示,AD芯片接收到CONVST轉(zhuǎn)換信號后啟動(dòng)AD轉(zhuǎn)換,經(jīng)過tCONV時(shí)間后轉(zhuǎn)換完成,BUSY信號拉低,通知FPGA可接收CS、RD信號以讀取相應(yīng)通道的數(shù)據(jù)。
圖2 AD控制時(shí)序
設(shè)計(jì)的AD內(nèi)部測試有:
1)tCONV最大時(shí)間,即AD芯片轉(zhuǎn)換所需的最大時(shí)間,F(xiàn)PGA持續(xù)監(jiān)測BUSY上升沿后的保持時(shí)間,監(jiān)測時(shí)間變化趨勢、是否超出閾值時(shí)間值、BUSY信號是否一直未拉低等情況,F(xiàn)PGA對監(jiān)測情況進(jìn)行記錄和數(shù)據(jù)上報(bào)。對于時(shí)間變化未超出閾值的情況,持續(xù)收集數(shù)據(jù)進(jìn)行趨勢評估;對偶發(fā)有超出閾值時(shí)間、可正常完成AD轉(zhuǎn)換的情況,認(rèn)為AD性能下降,進(jìn)行趨勢評估;對BUSY信號一直為低的情況,認(rèn)為AD故障,進(jìn)入故障評估;
2)轉(zhuǎn)換速率,即AD芯片轉(zhuǎn)換、數(shù)據(jù)讀取等一個(gè)完整周期所需的時(shí)間。通過FPGA設(shè)計(jì)在AD芯片指標(biāo)允許范圍內(nèi)調(diào)整CONVST的周期,用以測試轉(zhuǎn)換速率的邊界值,為具體應(yīng)用提供參考;
3)溫度測試,即溫度對AD性能參數(shù)的測試影響情況。如對使用內(nèi)部參考電壓的AD芯片,該參考電壓受溫度變化會產(chǎn)生影響,進(jìn)而影響AD采集準(zhǔn)確度。測控設(shè)備長期工作產(chǎn)生的熱量較高,通過設(shè)計(jì)板載溫濕度傳感器,由板上FPGA采集環(huán)境參數(shù),測試溫度對AD采集數(shù)據(jù)以及AD運(yùn)行穩(wěn)定性的影響。此外,經(jīng)收集處理的數(shù)據(jù)可為AD長期運(yùn)行的精度提供修正。
以各模塊共有的PCI總線通訊內(nèi)部測試舉例如下。模塊采用FPGA結(jié)合PCI-LocalBus橋芯片實(shí)現(xiàn)總線通訊,該橋芯片主要由PCI總線接口模塊、本地總線接口模塊、FIFO構(gòu)成的多個(gè)數(shù)據(jù)傳輸通道、配置寄存器、控制邏輯等構(gòu)成,它滿足PCI2.2規(guī)范的應(yīng)用,能夠進(jìn)行高達(dá)132 MB/s的猝發(fā)(burst)傳輸,集成了PLX數(shù)據(jù)管道結(jié)構(gòu)(PLX data pipe architecture)技術(shù),包括DMA引擎、可編程的PCI發(fā)起者和目標(biāo)設(shè)備間的數(shù)據(jù)傳輸模式、以及PCI信息轉(zhuǎn)發(fā)功能。
PCI-LocalBus協(xié)議轉(zhuǎn)換芯片以Target目標(biāo)模式運(yùn)行,F(xiàn)PGA連接PCI-LocalBus協(xié)議轉(zhuǎn)換芯片的本地總線一側(cè),通過對本地總線的操作實(shí)現(xiàn)總線數(shù)據(jù)的讀寫功能。PCI總線的主要狀態(tài)和控制信號有FRAME#總線通訊起始信號、C/BE#命令/位選擇信號、IRDY#發(fā)起傳輸準(zhǔn)備完成信號、TRDY#目標(biāo)準(zhǔn)備完成信號、DEVSEL#設(shè)備選擇信號等;LocalBus總線的主要狀態(tài)和控制信號有ADS#地址選通信號、LW/R#讀寫控制信號、READY#準(zhǔn)備好信號等。以讀操作時(shí)序?yàn)槔?,PCI讀時(shí)序如圖3所示,上半部分為PCI總線時(shí)序、下半部分為Local總線時(shí)序,由PCI一側(cè)發(fā)起讀數(shù)請求,Local端從FPGA獲取數(shù)據(jù)后,轉(zhuǎn)換至PCI端。
圖3 PCI橋片讀轉(zhuǎn)換時(shí)序
設(shè)計(jì)的PCI-LocalBus協(xié)議轉(zhuǎn)換內(nèi)部測試為監(jiān)測協(xié)議轉(zhuǎn)換芯片的轉(zhuǎn)換情況,以判定PCI總線通訊轉(zhuǎn)換的完成狀態(tài)、評估轉(zhuǎn)換芯片的性能狀態(tài)。設(shè)計(jì)FPGA增加PCI總線一側(cè)的FRAME、IRDY、TRDY信號采集資源,當(dāng)監(jiān)測到FRAME低有效、并在此之后10個(gè)CLK時(shí)間以內(nèi)ADS置低為監(jiān)測進(jìn)程觸發(fā)起點(diǎn)(表征監(jiān)測到對本模塊的讀操作),以READY上升沿為計(jì)時(shí)起點(diǎn)(表征Local端讀取完成),監(jiān)測IRDY信號的下次上升沿的時(shí)間tIRDY,監(jiān)測TRDY信號的下降沿時(shí)間tTRDY1和之后再次拉高的時(shí)間tTRDY2,并持續(xù)記錄和數(shù)據(jù)上報(bào)[10-11]。對于時(shí)間變化未超出閾值的情況,持續(xù)收集數(shù)據(jù)進(jìn)行趨勢評估;對偶發(fā)有超出閾值時(shí)間、可正常置高的情況,認(rèn)為轉(zhuǎn)換性能下降,進(jìn)行趨勢評估;對IRDY或TRDY信號為按照時(shí)序發(fā)送高低變化的情況,認(rèn)為轉(zhuǎn)換芯片故障,進(jìn)入故障評估。
模塊外部測試即通過模塊對外接口進(jìn)行測試,除常規(guī)靜態(tài)測試外,需對長期運(yùn)行狀態(tài)下接口動(dòng)態(tài)特性變化的測試,該測試包括正常運(yùn)行動(dòng)態(tài)監(jiān)測和故障注入動(dòng)態(tài)監(jiān)測。同樣,僅在單機(jī)環(huán)境下通過模塊外部接口的特性測試效果有限。模塊外部測試設(shè)計(jì),即在設(shè)計(jì)階段將測試功能嵌入到測控設(shè)備系統(tǒng)級產(chǎn)品,采用獨(dú)立資源實(shí)現(xiàn)系統(tǒng)內(nèi)關(guān)鍵模塊和可靠性短板模塊的全壽命測試。
具體方法:設(shè)計(jì)與系統(tǒng)一體化的嵌入式模塊資源,該獨(dú)立資源與被測模塊隔離,具備更高的可靠性,且模塊的自身故障不會產(chǎn)生相互疊加和干擾。該嵌入式的模塊資源通過獨(dú)立的通訊接口和非易失的存儲方式實(shí)現(xiàn)關(guān)鍵模塊的“黑匣子”功能。
測控設(shè)備內(nèi)關(guān)鍵且可靠性較低的模塊為CPU主控模塊,該模塊運(yùn)行實(shí)時(shí)操作系統(tǒng),并根據(jù)網(wǎng)絡(luò)指令進(jìn)行嚴(yán)格時(shí)間內(nèi)的復(fù)合動(dòng)作響應(yīng)。CPU主控模塊為3U計(jì)算機(jī)模塊,采用國產(chǎn)龍芯處理器。該計(jì)算機(jī)模塊具有完整的計(jì)算機(jī)功能,集成網(wǎng)絡(luò)、顯示、PCI-PCI橋、SATA接口、聲卡、串口、VGA、USB接口等功能。該模塊為成品模塊,不具備板級設(shè)計(jì)測試的條件,為實(shí)現(xiàn)模塊長期工作的穩(wěn)定性監(jiān)測,需額外設(shè)計(jì)獨(dú)立資源?;谧畲蟪潭鹊幕ゲ桓蓴_原則和CPU主控模塊的實(shí)際應(yīng)用情況,設(shè)計(jì)獨(dú)立的CPU監(jiān)測模塊,該模塊與CPU主控模塊均通過背板通訊總線連接。CPU監(jiān)測模塊組成包含控制電路、存儲電路、背板總線通訊電路、外部通訊電路。CPU主控模塊啟動(dòng)運(yùn)行后,通過背板通訊總線持續(xù)以設(shè)定的時(shí)間間隔向CPU監(jiān)測模塊進(jìn)行喂狗,CPU監(jiān)測模塊據(jù)此判定CPU主控模塊的任務(wù)實(shí)時(shí)性調(diào)度情況。為測試CPU主控模塊的健壯性,通過正常和非正常的測試條件,測量CPU主控模塊的喂狗最大最小間隔、喂狗間隔時(shí)間趨勢等數(shù)據(jù),具體測試條件包含:
1)正常條件測試:在正常應(yīng)用環(huán)境下進(jìn)行測試,如系統(tǒng)內(nèi)各模塊均正常工作、外部加注允許范圍內(nèi)的輸入輸出條件(如模擬電壓信號、串口通訊數(shù)據(jù)等)、網(wǎng)絡(luò)發(fā)送正確的控制指令、室溫環(huán)境等。CPU主控模塊運(yùn)行應(yīng)用測試流程,并長期運(yùn)行,監(jiān)測器喂狗間隔變化;
2)非正常條件測試:通過注入故障或邊緣狀態(tài)條件,在非正常應(yīng)用環(huán)境下測試,監(jiān)測CPU主控模塊喂狗間隔變化,如調(diào)整背板總線下的模塊類型、數(shù)量和槽位、額外增加CPU占用率、通訊接口注入異常格式或長度的數(shù)據(jù)、拉偏供電電壓值、網(wǎng)絡(luò)接口異常接入或斷開、硬盤存儲滿、背板總線注入中斷等措施[12-13]。
對于未超出喂狗間隔閾時(shí)間的,持續(xù)收集數(shù)據(jù)進(jìn)行趨勢評估;對偶發(fā)有超出閾值時(shí)間、可正常完成喂狗和測試流程的情況,認(rèn)為CPU主控模塊或外部條件變化對應(yīng)用流程穩(wěn)定運(yùn)行有影響風(fēng)險(xiǎn),追查外部條件,并持續(xù)的進(jìn)行趨勢評估;對經(jīng)常超出閾值時(shí)間或流程中斷停止的情況,認(rèn)為CPU主控模塊運(yùn)行故障,進(jìn)入故障評估,排查故障原因。
模塊內(nèi)部設(shè)計(jì)測試和模塊外部設(shè)計(jì)測試均在設(shè)備內(nèi)實(shí)現(xiàn)狀態(tài)監(jiān)測,針對一些重要且不易內(nèi)部監(jiān)測的信號,采用設(shè)備接口引出的方式,利用工裝、儀器等進(jìn)行精細(xì)化測試。以電源模塊的測試為例,測控設(shè)備所使用的電源模塊為DCDC電源,即直流28 V輸入、直流12 V、5 V、3.3 V輸出。為判別電源模塊的長期加電狀態(tài),需要測量電源加載后的輸入和輸出端的上電瞬時(shí)電壓、電流,以及工作過程中電流電壓波動(dòng)等,該測試需要較多資源,且電源模塊屬于相對可靠性較高的組件,因此將電源模塊的輸入、輸出信號進(jìn)行引出,使用數(shù)據(jù)采集記錄器、示波器等儀器持續(xù)測試電源在不同條件下長期運(yùn)行的穩(wěn)定性。具體測試條件包含:
1)正常負(fù)載條件下,監(jiān)測瞬時(shí)啟動(dòng)、關(guān)閉以及正常運(yùn)行時(shí)的電壓、電流峰值,以及正常運(yùn)行時(shí)相同測試條件下的平均值;
2)通過調(diào)整負(fù)載模塊工作狀態(tài)調(diào)整負(fù)載阻性和容性變化、拉偏電源輸入等方式監(jiān)測電源輸出電壓、電流峰值,以及相同測試條件下的平均值[14-15]。
對于未超出電源閾值的狀態(tài),持續(xù)收集數(shù)據(jù)進(jìn)行趨勢評估;對偶發(fā)有超出電源閾值、可正?;謴?fù)供電的情況,認(rèn)為電源模塊或外部條件變化對其穩(wěn)定運(yùn)行有影響風(fēng)險(xiǎn),追查外部條件,并持續(xù)的進(jìn)行趨勢評估;對經(jīng)?;虺掷m(xù)超出閾值的情況,認(rèn)為電源模塊故障,進(jìn)入故障評估,排查故障原因。
根據(jù)可靠性試驗(yàn)過程長時(shí)間的測試數(shù)據(jù)開展測試評估,測試評估分為趨勢評估和故障評估。
趨勢評估為沒有超出允許范圍內(nèi)的健康度評估。趨勢評估對設(shè)備維修性、可靠性和可用性有很大的影響,正確的狀態(tài)評估結(jié)果可以提高設(shè)備執(zhí)行任務(wù)的可靠性與安全性,減少維修時(shí)間和維護(hù)費(fèi)用,提高可用性和綜合保障能力。測控設(shè)備的趨勢評估采用化整為零的方式,以設(shè)備各組件、模塊的測試數(shù)據(jù)評價(jià)整體各功能的趨勢,對于任何功能出現(xiàn)狀態(tài)較差的趨勢,均表征整體可靠性下降,需立即分析處理,防止故障問題出現(xiàn)。測控設(shè)備的趨勢評估將測試數(shù)據(jù)進(jìn)行等級劃分,以測試時(shí)間為橫軸、以測試數(shù)據(jù)為縱軸,對落入各等級的數(shù)據(jù)點(diǎn)數(shù)量與該單元時(shí)間的總測試點(diǎn)數(shù)量進(jìn)行比較,等級劃分、趨勢狀態(tài)判別均基于已有指標(biāo)、理論計(jì)算、歷史測試記錄和專家指導(dǎo)等綜合給出量化指標(biāo),為整體是否滿足長期可靠運(yùn)行條件提供狀態(tài)預(yù)測意見[16]。
故障評估為有超出允許范圍的評估。測控設(shè)備的精細(xì)化測試數(shù)據(jù)將一些設(shè)備或模塊內(nèi)部不可測、不易測部分轉(zhuǎn)化為可測項(xiàng)目,同趨勢評估,均基于已有指標(biāo)、理論計(jì)算、歷史測試記錄和專家指導(dǎo)等綜合給出量化的故障界限指標(biāo),超出該指標(biāo)不能表征整體出現(xiàn)故障,僅表征某一功能出現(xiàn)較大程度偏差,需結(jié)合故障發(fā)生率判定是否需要立即維修處理,防止更嚴(yán)重的整體故障發(fā)生。對于已發(fā)生的整體故障,可根據(jù)該超出故障指標(biāo)項(xiàng)排查和定位問題。測控設(shè)備故障評估以測試時(shí)間為橫軸、以測試數(shù)據(jù)為縱軸,對故障點(diǎn)數(shù)量與該單元時(shí)間的總測試點(diǎn)數(shù)量進(jìn)行比較,測定故障發(fā)生率[17-18],為整體提供故障預(yù)測和故障排查指導(dǎo)意見。
根據(jù)上文設(shè)計(jì)的測試方法示例,通過試驗(yàn)和條件激發(fā)開展驗(yàn)證試驗(yàn),并對測試結(jié)果進(jìn)行評估:
1)如圖4所示,以模擬量模塊長期加電測試AD電路的tCONV最大時(shí)間為例,加電試驗(yàn)時(shí)間為30天,每日測量2 880個(gè)數(shù)據(jù)點(diǎn),將低于2.5 μs的數(shù)據(jù)點(diǎn)記為A等級、將2.5~2.8 μs的數(shù)據(jù)點(diǎn)記為B等級,將2.8~3.0 μs的數(shù)據(jù)記為C等級,將大于等于3.0 μs的數(shù)據(jù)記為故障。經(jīng)測試,30天的全部數(shù)據(jù)點(diǎn)均落在A、B等級內(nèi),隨著加電時(shí)間增長,落入B等級的數(shù)據(jù)略有增加,但無C等級數(shù)據(jù)點(diǎn)和故障點(diǎn),認(rèn)為AD電路部分狀態(tài)良好。
圖4 AD電路tCONV最大時(shí)間測試統(tǒng)計(jì)
2)以1553B模塊長期加電測試PCI總線通訊電路為例,加電試驗(yàn)時(shí)間為30天,除去1553B控制通訊測試外,每60 s執(zhí)行一次PCI總線讀取動(dòng)作(動(dòng)作內(nèi)容為讀取設(shè)備ID),每日測量1 440個(gè)數(shù)據(jù)點(diǎn),將tIRDY不大于4 CLK、tTRDY1不大于3 CLK、(tTRDY2-tIRDY)不大于±1 CLK的組合條件列為A等級(任意一個(gè)時(shí)間超過上述時(shí)間,均不認(rèn)為A等級),將tIRDY為4~6 CLK、tTRDY1為3~5 CLK、(tTRDY2-tIRDY)±2 CLK的組合條件列為B等級(任意一個(gè)時(shí)間超過上述時(shí)間,均不認(rèn)為B等級),將tIRDY為5~10 CLK、tTRDY1為4~9 CLK、(tTRDY2-tIRDY)±5 CLK的組合條件列為C等級(任意一個(gè)時(shí)間超過上述時(shí)間,均不認(rèn)為C等級),將tIRDY、tTRDY1、tTRDY2任意一個(gè)有超出C等級的數(shù)據(jù)記為故障。經(jīng)測試,30天的全部數(shù)據(jù)點(diǎn)均落在A等級內(nèi),無B、C等級數(shù)據(jù)點(diǎn)和故障點(diǎn),認(rèn)為PCI總線通訊電路部分狀態(tài)良好;
3)以CPU主控模塊長期加電測試喂狗間隔變化為例,加電試驗(yàn)時(shí)間為30天,喂狗間隔設(shè)定為17 ms,將低于17 ms*2的數(shù)據(jù)點(diǎn)記為A等級、將17 ms*2~17 ms*7數(shù)據(jù)點(diǎn)記為B等級,將17 ms*7~17 ms*10的數(shù)據(jù)記為C等級,將大于等于17 ms*10的數(shù)據(jù)記為故障。測試統(tǒng)計(jì)如下:正常條件運(yùn)行30天,測試喂狗間隔時(shí)間均為A、B等級,沒有出現(xiàn)其它等級情況,但隨著持續(xù)工作時(shí)間增加,落入B等級的數(shù)據(jù)有輕微的波動(dòng),認(rèn)為CPU主控模塊狀態(tài)良好;在注入相應(yīng)條件后,有出現(xiàn)C等級情況,未出現(xiàn)其他等級情況,當(dāng)條件撤銷后,測試數(shù)據(jù)均為A、B等級,表征主控模塊對異常條件具備規(guī)避措施,所加異常條件不會對主控流程造成影響,認(rèn)為CPU主控模塊狀態(tài)良好。
表1 異常條件加注時(shí)間內(nèi)各等級數(shù)據(jù)點(diǎn)占比 %
測試條件中,當(dāng)使CPU占用率超過90%以后,會發(fā)生喂狗間隔大于等于17 ms*10的故障情況,根據(jù)該情況進(jìn)行故障率評估,統(tǒng)計(jì)CPU占用率超過90%以后故障點(diǎn)數(shù)量與該單元時(shí)間的總測試點(diǎn)數(shù)量的占比,根據(jù)測試情況,當(dāng)CPU占用率超過96%以后,CPU任務(wù)調(diào)度出現(xiàn)更大程度的延時(shí),不能完全滿足實(shí)時(shí)操作系統(tǒng)下的應(yīng)用調(diào)度要求,可能出現(xiàn)整體故障,評估建議立即排查應(yīng)用程序、操作系統(tǒng)、模塊接口、供電等可能原因,以降低CPU使用占用率[19]。
表2 CPU占用率超過90%后的故障率 %
4)以電源模塊上電輸出瞬時(shí)電流為例,電源模塊輸入直流經(jīng)取樣電阻轉(zhuǎn)換為電壓由示波器探頭采集,按照測控設(shè)備未帶外部模擬負(fù)載單機(jī)條件和測控設(shè)備接入外部模擬負(fù)載對接條件分別測試,試驗(yàn)時(shí)間為30天,每日測量10次,將單機(jī)條件上電瞬時(shí)峰值2.95~3.15 A、對接條件上電瞬時(shí)峰值3.8~4.0 A的數(shù)據(jù)點(diǎn)記為A等級,將單機(jī)條件上電瞬時(shí)峰值2.85~2.95 A以及3.15~3.3 A、對接條件上電瞬時(shí)峰值3.7~3.8 A以及4.0~4.15 A的數(shù)據(jù)點(diǎn)記為B等級,其中如單機(jī)條件的上電瞬時(shí)峰值介于2.85~2.95 A,相應(yīng)的對接條件范圍應(yīng)為3.7~3.8 A(C等級類同),將單機(jī)條件上電瞬時(shí)峰值2.5~2.85 A以及3.3~3.7 A、對接條件上電瞬時(shí)峰值3.5~3.7 A以及4.15~4.4 A的數(shù)據(jù)點(diǎn)記為C等級,將超出上述范圍的數(shù)據(jù)記為故障。經(jīng)測試,30天落在A、B、C等級的數(shù)據(jù)點(diǎn)占比分別為89%、10.3%、0.7%,無故障數(shù)據(jù)點(diǎn),單以該測試結(jié)果認(rèn)為電源模塊狀態(tài)良好[20]。
以上列出4組試驗(yàn)數(shù)據(jù)表征測控設(shè)備的AD電路、PCI通訊電路、CPU模塊、電源模塊在長期正常加電工作條件均未出現(xiàn)故障情況,且狀態(tài)良好,異常條件下有規(guī)避措施,并基于測試評估結(jié)果提供故障排查意見。
為解決長期工作的測控設(shè)備穩(wěn)定性驗(yàn)證問題提出了一種精細(xì)化測試和評估思路, “里應(yīng)外合”的綜合驗(yàn)證方法將測試內(nèi)容延伸到芯片級、將測試過程覆蓋到產(chǎn)品全壽命。從設(shè)計(jì)層面注入測試功能,不可外測的模塊內(nèi)部接口設(shè)計(jì)嵌入式的內(nèi)部測試功能,可測的外部接口設(shè)計(jì)動(dòng)態(tài)、激發(fā)故障的外部測試手段,通過對長時(shí)間測試的數(shù)據(jù)進(jìn)行歸類、總結(jié),形成趨勢評估和故障評估結(jié)果,為測控設(shè)備的長期穩(wěn)定運(yùn)行提供驗(yàn)證數(shù)據(jù)支撐。該驗(yàn)證方法可應(yīng)用于航天等高可靠測控領(lǐng)域。