霍明亮 王 軍 趙 宇 趙 超 孫中興
1.中國人民解放軍63611部隊,新疆庫爾勒 841000 2.中國人民解放軍63610部隊,新疆庫爾勒 841000
火箭外測系統(tǒng)是運(yùn)載火箭測試發(fā)射任務(wù)的重要組成部分,通過高精度的飛行彈道參數(shù)測量,保證了航天測試發(fā)射任務(wù)的正常展開。隨著電子元器件的不斷發(fā)展,外測系統(tǒng)測試設(shè)備多由復(fù)雜的機(jī)械電子部件構(gòu)成,其性能的穩(wěn)定關(guān)系著整個外測系統(tǒng)的成敗。因此,一旦外測系統(tǒng)測試設(shè)備出了問題,必須及時準(zhǔn)確定位問題,然后利用相關(guān)試驗和理論分析等手段弄清楚問題發(fā)生的機(jī)理和根本原因,并通過復(fù)現(xiàn)問題的現(xiàn)象驗證問題定位的準(zhǔn)確性和機(jī)理分析的正確性,在此基礎(chǔ)上再制定有針對性的、具體可行的有效措施解決問題,最后把相關(guān)問題在同型號、同系統(tǒng)的產(chǎn)品上舉一反三,防止同類問題的發(fā)生[1-2]。本文利用故障樹分析法對某型火箭外測系統(tǒng)服務(wù)器啟動緩慢故障進(jìn)行了分析研究,為外測系統(tǒng)設(shè)備故障診斷提供了一種有效的方法。
故障樹分析法[3](Fault Tree Analysis,F(xiàn)TA)是安全系統(tǒng)工程的重要分析方法,它從一個可能的故障事件開始,一層一層地逐步尋找產(chǎn)生故障事件的各種因素(包括硬件、軟件、環(huán)境、人為因素等),并分析這些因素之間的相互邏輯關(guān)系,用邏輯樹圖(即故障樹)把故障原因以及它們的邏輯關(guān)系表示出來,其根本目的是找出故障所在,明確引起故障的原因、產(chǎn)生的影響及發(fā)生的概率,為后續(xù)的產(chǎn)品設(shè)計改進(jìn)提供支撐。故障樹分析是一種演繹分析方法,即從結(jié)果分析原因分析方法,它廣泛應(yīng)用于一些重大軍事裝備研制和宇航、電子、化工等行業(yè)的安全分析中[4]。
外測系統(tǒng)的主要功能包括2個方面:1)與地面測量設(shè)備配合,完成導(dǎo)彈飛行的外彈道測量,為結(jié)果分析提供依據(jù);2)與地面測控設(shè)備配合,完成地面無線安檢任務(wù),達(dá)到發(fā)現(xiàn)故障后,由地面終止導(dǎo)彈飛行的目的[5]。服務(wù)器A在某型火箭外測系統(tǒng)中作為外測地面測試設(shè)備的集中監(jiān)控中心,是用戶與設(shè)備的交互中心,負(fù)責(zé)外測系統(tǒng)測試流程生成、箭載設(shè)備和地面設(shè)備工作模式控制以及工作狀態(tài)顯示、數(shù)據(jù)處理等。同時作為服務(wù)器A軟件和雙機(jī)熱備份軟件的載體,服務(wù)器A通過與軟件和其他硬件協(xié)同工作配合整個外測系統(tǒng)完成某型火箭的各項測試發(fā)射工作。
某型火箭在進(jìn)行模飛總檢查測試前準(zhǔn)備工作時,外測系統(tǒng)操作手啟動位于廠房外面技術(shù)保障車中的服務(wù)器A時,耗時近20min才開機(jī)完畢(正常情況下僅需5min左右),同時服務(wù)器A前面板出現(xiàn)黃色指示燈亮的現(xiàn)象(正常情況下黃色指示燈不亮),如圖1所示。關(guān)閉后重新啟動服務(wù)器A,啟動過程依然很緩慢,服務(wù)器A前面板仍然出現(xiàn)黃色指示燈亮的現(xiàn)象。通過更換備份服務(wù)器A后,前面板未出現(xiàn)黃色指示燈亮的現(xiàn)象,參加模飛總檢查測試,整個外測系統(tǒng)流程正確,各設(shè)備工作正常。
圖1 服務(wù)器A前面板黃色指示燈亮
更換備份服務(wù)器A后將原服務(wù)器A移至室內(nèi)測試間,1h30min后重新加電啟動,啟動過程仍然緩慢,服務(wù)器仍然出現(xiàn)黃色指示燈亮的現(xiàn)象;第2次再重新加電啟動,啟動過程正常(啟動時間約5min,服務(wù)器前面板黃色指示燈滅)。后續(xù)又進(jìn)行了6次加電啟動,啟動過程正常。
采用故障樹分析法對某型火箭外測設(shè)備服務(wù)器A進(jìn)行故障分析,就是將該服務(wù)器A啟動緩慢作為頂事件,通過建立故障樹,逐步分析可能導(dǎo)致故障發(fā)生的原因,并進(jìn)行具體的定性分析,為某型火箭外測設(shè)備服務(wù)器A的故障診斷和維修提供理論依據(jù)。
通過查閱相關(guān)資料,了解到服務(wù)器前面板黃色指示燈亮有以下幾種原因:
1)服務(wù)器性能下降,包括內(nèi)存數(shù)據(jù)錯誤,導(dǎo)致內(nèi)存反復(fù)讀取數(shù)據(jù)以及硬盤驅(qū)動器缺失導(dǎo)致讀取數(shù)據(jù)下降;
2)工作溫度超出額定溫度;
3)計算機(jī)CPU故障。
根據(jù)測試過程中出現(xiàn)的異?,F(xiàn)象和服務(wù)器A的工作原理,現(xiàn)以服務(wù)器A啟動緩慢為頂事件,從硬件、軟件和外部3個因素進(jìn)行故障樹分析,如圖2所示。
圖2 服務(wù)器A啟動緩慢故障樹
3.2.1 硬件因素故障樹分析
1)X1底事件“CPU問題”分析
CPU是整個服務(wù)器A的核心部件,服務(wù)器正常加電時,BIOS會對CPU進(jìn)行檢測,如果檢測到CPU故障,系統(tǒng)則不能通過BIOS自檢,無法進(jìn)入操作系統(tǒng)。當(dāng)CPU嚴(yán)重故障時,服務(wù)器無法運(yùn)行BIOS程序。因此“CPU問題”與故障現(xiàn)象不相符,故底事件X1可以排除。
2)X2底事件“內(nèi)存問題”分析
如果服務(wù)器A內(nèi)存出現(xiàn)故障,服務(wù)器開機(jī)時,BIOS會對內(nèi)存進(jìn)行檢測,如果檢測到內(nèi)存故障,系統(tǒng)則不能通過BIOS自檢,導(dǎo)致操作系統(tǒng)內(nèi)核無法加載入內(nèi)存或者服務(wù)器自身發(fā)出蜂鳴聲,系統(tǒng)無法啟動,因此“內(nèi)存問題”與故障現(xiàn)象不相符,故底事件X2可以排除。
3)X3底事件“硬盤問題”分析
服務(wù)器A開機(jī)時,BIOS在運(yùn)行過程中會對硬盤進(jìn)行檢測,如果硬盤只是輕微扇區(qū)損壞,如果沒有影響到存放操作系統(tǒng)的區(qū)域,系統(tǒng)可以正常啟動而不會出現(xiàn)啟動緩慢的現(xiàn)象。如果影響操作系統(tǒng)存放區(qū)域,系統(tǒng)則無法啟動或者提示報錯信息。嚴(yán)重故障時硬盤無法被計算機(jī)識別,BIOS檢測不能通過且無法讀取硬盤里的系統(tǒng)數(shù)據(jù),因此“硬盤問題”與故障現(xiàn)象不相符,故底事件X3可以排除。
4)X4底事件“主板問題”分析
主板是整個服務(wù)器A的橋梁,是連接各個部件的物理通道,如果服務(wù)器主板硬件故障,則主板供電和運(yùn)行均無法正常工作,導(dǎo)致服務(wù)器無法開機(jī)或者服務(wù)器開機(jī)后無法通過BIOS自檢時對服務(wù)器主板硬件的檢測,因此“主板問題”與故障現(xiàn)象不相符,故底事件X4可以排除。
3.2.2 軟件因素故障樹分析
1)X5底事件“BIOS軟件問題”分析
根據(jù)BIOS工作原理,在服務(wù)器A啟動過程中,BIOS系統(tǒng)首先檢查BIOS軟件代碼的完整性,然后執(zhí)行代碼,如果BIOS軟件有問題,則BIOS系統(tǒng)會先檢查出軟件代碼完整性不滿足要求,繼而不會執(zhí)行BIOS代碼,因此“BIOS軟件問題”與故障現(xiàn)象不相符,故底事件X5可以排除。
2)X6底事件“Windows Server操作系統(tǒng)軟件問題”分析
在服務(wù)器A啟動過程中,首先BIOS會檢測硬件是否正常,如果硬件正常,則將操作系統(tǒng)加載至內(nèi)存中,啟動相關(guān)服務(wù)進(jìn)程,進(jìn)而系統(tǒng)正常啟動。如果操作系統(tǒng)有問題,首先在啟動過程時會報錯,無法正常啟動系統(tǒng),并提示系統(tǒng)修復(fù)選項。因此“Windows Server操作系統(tǒng)軟件問題”與故障現(xiàn)象不相符,故底事件X6可以排除。
3.2.3 外部因素故障樹分析
1)X7底事件“工作環(huán)境不滿足要求”分析
服務(wù)器A工作環(huán)境主要包括設(shè)備振動環(huán)境、內(nèi)部溫度、濕度、潔凈度等,服務(wù)器A參加完成了3次飛行試驗,對比之前的試驗,技術(shù)保障車停放位置相同,設(shè)備振動環(huán)境、環(huán)境濕度和潔凈度均與前3次試驗一致,唯一發(fā)生變化的是環(huán)境溫度,前幾次試驗是在夏秋之際,此次試驗在深冬季節(jié),因此可能導(dǎo)致服務(wù)器A工作時內(nèi)部環(huán)境溫度差異較大,引起故障發(fā)生。
BIOS在運(yùn)行過程中會對系統(tǒng)溫度或者溫度組件進(jìn)行檢測,如果系統(tǒng)溫度超出規(guī)范或者溫度組件異常, BIOS則通過服務(wù)器前面板指示燈指示。查閱IBM服務(wù)器指示信息[6]包括硬盤故障、CPU故障、溫度超標(biāo)等,其中溫度超標(biāo)為可能因素之一。由于技術(shù)保障車置于戶外9天,且最低溫度達(dá)到-20℃左右,從設(shè)備加電自檢后7天內(nèi),車內(nèi)一直未進(jìn)行加電,因此服務(wù)器溫度處于熱平衡狀態(tài)。另外,安裝服務(wù)器A的周圍空間狹小且空氣流通不暢,熱平衡效果差。雖然第8天上午9點(diǎn)左右車內(nèi)空調(diào)開始加溫,下午14點(diǎn)左右服務(wù)器內(nèi)部有可能溫度仍然較低,未達(dá)到正常啟動所要求的的5℃~40℃的溫度條件,出現(xiàn)溫度超范圍報警,進(jìn)而出現(xiàn)啟動緩慢現(xiàn)象。故底事件X7不能排除。
2)X8底事件“低溫引起性能下降”排查
由于電子元器件在低溫條件下性能下降,導(dǎo)致硬盤讀寫速度下降,進(jìn)而影響到計算機(jī)運(yùn)行速度快慢,最終影響服務(wù)器的速度。故底事件X8不能排除。
為進(jìn)一步進(jìn)行故障診斷,分別將服務(wù)器A放置于技術(shù)保障車內(nèi)降溫13.5h、37.5h,驗證低溫對其啟動過程的影響,具體過程和結(jié)果如下。
1)第1天19:00至第2天8:30將服務(wù)器放置在技術(shù)保障車內(nèi),8:55服務(wù)器第1次開機(jī),服務(wù)器表面溫度約-17℃,前面板出現(xiàn)黃色指示燈亮的現(xiàn)象,系統(tǒng)長時間處于停滯狀態(tài),9:04前面板黃色指示燈消失,系統(tǒng)正常啟動,9:09系統(tǒng)啟動完成,啟動時長共計14min。9:13系統(tǒng)關(guān)機(jī)后將服務(wù)器移至技術(shù)保障車外,30min后測量服務(wù)器表面溫度約為-15℃。再將服務(wù)器移至技術(shù)保障車內(nèi),9:51服務(wù)器第2次開機(jī),前面板出現(xiàn)黃色指示燈亮的現(xiàn)象,系統(tǒng)長時間處于停滯狀態(tài),9:54前面板黃色指示燈消失,系統(tǒng)正常啟動,9:57系統(tǒng)啟動完成,啟動時長共計6min。設(shè)備溫度采用紅外溫度測量儀進(jìn)行測量,測量數(shù)據(jù)如表1所示。
表1 第2天溫度測量數(shù)據(jù)
2)第2天19:00至第4天8:30,服務(wù)器放置在技術(shù)保障車內(nèi),第4天8:46服務(wù)器啟動,服務(wù)器表面溫度約-4.5℃,服務(wù)器風(fēng)扇運(yùn)轉(zhuǎn)后至8:51,服務(wù)器表面溫度出現(xiàn)最低值-8.9℃,前面板出現(xiàn)黃色指示燈亮的現(xiàn)象,9:08系統(tǒng)啟動完成,啟動時長約22min。設(shè)備溫度采用紅外溫度測量儀進(jìn)行測量,測量數(shù)據(jù)如表2所示。
表2 第4天溫度測量數(shù)據(jù)
由試驗過程來看,低溫條件下服務(wù)器開機(jī)過程前面板會出現(xiàn)黃色指示燈亮、開機(jī)時間延長的現(xiàn)象。由于服務(wù)器內(nèi)部溫度無法測量,且服務(wù)器加電時間間隔等不同,可能造成服務(wù)器啟動延長時間存在差異。
第4天9:15將服務(wù)器A移至室內(nèi)測試間,11:00啟動服務(wù)器,前面板黃色指示燈不再點(diǎn)亮,服務(wù)器運(yùn)行速度恢復(fù)正常。11:00后反復(fù)開機(jī)關(guān)機(jī)30次,每次開啟時間約5min,關(guān)機(jī)時間約1min,服務(wù)器運(yùn)行速度均正常,表明在正常工作溫度條件下服務(wù)器的性能正常。
3)上述2項工作完成后,對服務(wù)器A開蓋檢查,未發(fā)現(xiàn)明顯異常。
綜上所述,造成頂事件“服務(wù)器A啟動緩慢”的原因為X7底事件“溫度環(huán)境不滿足工作條件”或X8底事件“低溫引起性能下降”。
由于電子元器件在低溫條件下性能下降,可能導(dǎo)致硬盤讀寫速度下降,進(jìn)而影響到計算機(jī)運(yùn)行速度快慢,可以分為IO速度和計算速度。如果溫度過低,將導(dǎo)致IO速度和計算速度都下降,最終影響服務(wù)器的速度,可能機(jī)理分析如下:
1)IO速度的影響
服務(wù)器開機(jī)啟動時,操作系統(tǒng)需要加載大量的初始化數(shù)據(jù)。對應(yīng)于底層硬件,則是CPU通過IO芯片從硬盤讀取數(shù)據(jù),交給CPU進(jìn)行計算,由于硬盤速度遠(yuǎn)遠(yuǎn)低于CPU性能,所以為了提高運(yùn)行速度,大量的數(shù)據(jù)都存放在內(nèi)存中。
如果由于溫度過低而頻繁出現(xiàn)內(nèi)存數(shù)據(jù)錯誤,導(dǎo)致內(nèi)存ECC校驗都無法糾正時,CPU會對錯誤數(shù)據(jù)反復(fù)讀取,直到讀取到有效可用的數(shù)據(jù)為止。而原始數(shù)據(jù)就存放在硬盤中,因此CPU不得不反復(fù)從硬盤上讀取數(shù)據(jù),而硬盤的性能相比于CPU和內(nèi)存而言差距巨大,因此數(shù)據(jù)反復(fù)讀寫過程將導(dǎo)致系統(tǒng)性能急劇下降,從而出現(xiàn)啟動緩慢的現(xiàn)象。
2)計算速度的影響
低溫條件下,除了內(nèi)存受到明顯的影響外,服務(wù)器整體性能都會下降,這是因為無論CPU、IO芯片還是主板上大量的表面安裝元器件都是半導(dǎo)體材料,在低溫環(huán)境下半導(dǎo)體的共性[7]是:由于載流子濃度指數(shù)式增大(施主或受主不斷電離),而遷移率也是增大的(電離雜志散射作用減弱導(dǎo)致),所以這時電阻率隨著溫度的升高而下降。在室溫時,由于施主或受主雜質(zhì)已經(jīng)完全電離,則載流子濃度不變,但遷移率將隨著溫度的升高而降低(晶格振動加劇,導(dǎo)致聲子散射增強(qiáng)),所以電阻率將隨著溫度的升高而增大。而室外低溫環(huán)境下,在服務(wù)器剛開機(jī)時,電子線路性能比室溫工作狀態(tài)相對下降,造成系統(tǒng)工作穩(wěn)定性等各方面技術(shù)指標(biāo)相對室溫條件下有所下降。隨著時間的推移,電子線路逐漸升溫,系統(tǒng)性能逐漸提升,最終服務(wù)器工作恢復(fù)正常。
技術(shù)保障車外測系統(tǒng)服務(wù)器A啟動緩慢的主要原因是服務(wù)器內(nèi)部溫度較低,超出了5℃~40℃服務(wù)器工作溫度條件,且設(shè)備本身低溫適應(yīng)能力較差,也是引起此現(xiàn)象的原因之一。針對上述故障原因,采取相應(yīng)的措施,主要包括:更換備份服務(wù)器參加后續(xù)測試,調(diào)用同批次產(chǎn)品作為備份件;測試前對車內(nèi)進(jìn)行提前加溫,提高車內(nèi)溫度;測試流程開始前首先對服務(wù)器加電,確認(rèn)其工作狀況滿足測試要求。
針對某火箭外測系統(tǒng)服務(wù)器A啟動緩慢現(xiàn)象開展故障樹分析,準(zhǔn)確找出導(dǎo)致故障產(chǎn)生的原因,制定適當(dāng)?shù)拇胧┮员WC后續(xù)火箭測試工作正常開展,同時建議開展相關(guān)設(shè)備改進(jìn)研究,提高設(shè)備在低溫環(huán)境下工作的可靠性。