張 森 石 軍 王九龍
(北京空間飛行器總體設(shè)計部,北京 100094)
在惡劣的空間環(huán)境中長期穩(wěn)定工作是衛(wèi)星技術(shù)發(fā)展和應(yīng)用的關(guān)鍵。雖然衛(wèi)星設(shè)計中都充分考慮了各種因素,但仍有很多衛(wèi)星在完成預(yù)定任務(wù)之前就出現(xiàn)嚴重故障,使得任務(wù)終止。也有一些衛(wèi)星雖然主要分系統(tǒng)發(fā)生了嚴重故障,但由于處置及時合理、功能備份完善,仍然能夠完好地恢復(fù)操作,并達到設(shè)計壽命。本文調(diào)研的故障主要來自http://w w w .sat-index.co.uk/failures/,該網(wǎng)站截至2010年2月共記錄了218 顆衛(wèi)星的故障,本文選取其中部分典型故障并加入了一些其他文獻的資料, 共分析了1975-2007年間的272 次衛(wèi)星故障,研究了各種失效模式對衛(wèi)星任務(wù)的影響,并提出了故障規(guī)避和故障恢復(fù)的建議。本文分析結(jié)果也可用于故障對策的針對性設(shè)計。
研究中對衛(wèi)星分系統(tǒng)進行如下分類:姿態(tài)和軌道控制分系統(tǒng)(AOCS)、指令和數(shù)據(jù)處理分系統(tǒng)(CDH)、測控與通信分系統(tǒng)(TTC)、結(jié)構(gòu)機構(gòu)分系統(tǒng)(M ECH)和有效載荷分系統(tǒng)等。
衛(wèi)星的失效會導(dǎo)致功能暫時或永久性的喪失。本文把有相同故障模式的故障算作故障源所在分系統(tǒng)的一次故障。例如,1995年NASA 和ESA 發(fā)射的“日光層觀測臺”(SOHO)衛(wèi)星三年內(nèi)先后損失了3 臺陀螺[1],統(tǒng)計中把這些故障算作一次。單一失效可能帶來多種故障現(xiàn)象,統(tǒng)計中把這些現(xiàn)象也算作一次故障。失效的損失程度分為兩類。一是“任務(wù)失敗”,指發(fā)生了災(zāi)難性的故障,使衛(wèi)星任務(wù)失敗;二是“任務(wù)降級”,這種失效發(fā)生以后就要放棄部分任務(wù),通信衛(wèi)星的暫時通信中斷也屬于這一類。
統(tǒng)計的272 次失效事件中,53 次為瞬時故障,219 次為永久故障。瞬時故障一般是衛(wèi)星暫時失去通信或控制指向,但很快又自動恢復(fù);永久性故障導(dǎo)致衛(wèi)星失去某項功能或失去某個備份部件。
瞬時故障的原因一般有:環(huán)境干擾、靜電或單粒子翻轉(zhuǎn)。環(huán)境干擾是太陽質(zhì)子、磁暴等導(dǎo)致通信暫時中斷或干擾衛(wèi)星上儀器正常工作,靜電充電/放電有時較嚴重,有時比較輕微,輕微時儀器暫時停機或重新啟動;嚴重時會由于電流過大使部件燒毀。地球軌道衛(wèi)星的單粒子翻轉(zhuǎn)一般發(fā)生在南大西洋異常區(qū)上空,使存儲器或計算機發(fā)生比特錯誤。由于時間較短,瞬時故障經(jīng)常難以確定故障源。
永久故障一般是由于靜電放電、輻射損傷、設(shè)計余量不足、生產(chǎn)加工缺陷或機械磨損。星上的易耗損部件主要為高速轉(zhuǎn)動部件,如動量輪、陀螺等,因此發(fā)生了大量動量輪、陀螺的故障(占總數(shù)10.45%)。
本節(jié)對272 次衛(wèi)星故障進行總結(jié)。圖1 為失效在衛(wèi)星各個分系統(tǒng)的分布。因為瞬時故障時間短,難以確定發(fā)生位置,因此不在統(tǒng)計范圍內(nèi)。
圖1 衛(wèi)星故障分系統(tǒng)Fig.1 Affected subsystems
圖2 衛(wèi)星失效類型Fig.2 Failure type
圖3 發(fā)射后的失效時間Fig.3 Time of failure after launch
“其他”包括機械、載荷和未知原因的失效。因為每顆衛(wèi)星的結(jié)構(gòu)和載荷各不相同,且故障的隨機性較大,因此不做重點討論。57%的失效會影響AOCS 和電源分系統(tǒng),后面將對這兩個系統(tǒng)做詳細分析。圖2 顯示失效類型。失效類型分類如下:機械、電、軟件和未知。機械故障由機械現(xiàn)象導(dǎo)致,如熱、溫度、外力、摩擦和壓力變化等。電源過載、短路、電池異常損耗等都看作是電子故障。軟件故障主要是指令走飛和軟件設(shè)計缺陷。故障有如下特點:
1)電子線路故障多于機械故障
電子線路的損耗小于機械部件,所以一般認為它的故障次數(shù)應(yīng)該比機械故障少。但統(tǒng)計發(fā)現(xiàn)衛(wèi)星電子和電氣故障占故障總數(shù)的54%,是機械和熱故障(占27%)的一倍。原因有三:第一,現(xiàn)代衛(wèi)星中,電子設(shè)備的數(shù)量遠遠超過機械部件,因此故障次數(shù)也會相對較多;第二,輻射、太陽風(fēng)暴和電磁場這種空間環(huán)境也主要影響電子部件;最后,還有些電子設(shè)備損耗很嚴重,如電池和太陽翼等。
2)在軌第一年的故障較多
入軌后故障發(fā)生的時間分布如圖3 所示。43%的故障發(fā)生在在軌的第一年,主要是因為衛(wèi)星測試不足以及對衛(wèi)星和空間環(huán)境的建模不充分。故障發(fā)生的越早,任務(wù)的損失越大[2],因此應(yīng)該盡量減少早期失效的發(fā)生。
3)及時發(fā)現(xiàn)處理的故障損失較小
圖4 顯示失效嚴重程度。只有18%的失效是災(zāi)難性的,而導(dǎo)致功能損失的失效大約占54%,不用任何處理很快就自動恢復(fù)的故障占28%。這表明,可以通過一些手段減少失效的影響。衛(wèi)星經(jīng)過仔細設(shè)計和備份,可以較好地從故障中恢復(fù),針對這種情況應(yīng)進行故障識別、隔離和恢復(fù)系統(tǒng)的開發(fā)[3-4]。
4)空間環(huán)境的影響較多
空間環(huán)境指太陽輻射、宇宙射線、電磁風(fēng)暴、小行星和空間碎片等不利因素。圖5 顯示空間環(huán)境造成失效的分布比例。雖然花費了大量的經(jīng)費對太陽和電磁輻射進行防護,但這個比例仍是可以接受的。這是因為空間環(huán)境難以捕捉且復(fù)雜多變,設(shè)計余量只能通過間接經(jīng)驗來確定。
5)人為操作失誤較少
人為錯誤包括操作人員的錯誤和設(shè)計人員的錯誤。操作人員錯誤經(jīng)常是發(fā)送錯誤的指令或?qū)b測數(shù)據(jù)的理解不正確。設(shè)計錯誤指衛(wèi)星設(shè)計階段出現(xiàn)的計算錯誤、參數(shù)錯誤等。調(diào)查中發(fā)現(xiàn),只有11%的故障與人有關(guān)。人為錯誤只占錯誤總數(shù)的11%,這可能是因為衛(wèi)星的設(shè)計和操作都要經(jīng)過專家反復(fù)迭代和確認。
圖4 失效對任務(wù)的影響Fig.4 Failure impact on the mission
圖5 空間環(huán)境對衛(wèi)星失效比例Fig.5 Percentage of space environment impact on satellites
最后,根據(jù)現(xiàn)有數(shù)據(jù)對故障部件進行了分類。圖6 包括了衛(wèi)星的主要故障部件和對應(yīng)的數(shù)量。
圖6 衛(wèi)星失效部件Fig.6 Satellite failed components
6)太陽翼的故障較多,且多發(fā)生在在軌的第一年
故障次數(shù)最多的部件是太陽翼。而其中約40%是由于機械原因,主要表現(xiàn)為展開失敗或太陽翼結(jié)構(gòu)失效。電子失效主要由于太陽陣驅(qū)動機構(gòu)短路。并且,大量太陽陣失效是衛(wèi)星生產(chǎn)單位的重復(fù)性問題。2002年1月波音衛(wèi)星系統(tǒng)公司指出,BSS-702 平臺太陽翼上用于增加發(fā)電量的光聚集器,使至少7 顆衛(wèi)星在壽命期內(nèi)失去了電源[5]。55%的太陽陣失效發(fā)生在第一年,這是它致命的另一個原因。因此,衛(wèi)星生產(chǎn)時必須進行充分的測試。并避免如BSS-702 平臺這種重復(fù)出現(xiàn)的問題。
7)在軌控制器故障較多,但多數(shù)影響不嚴重
故障的次數(shù)僅次于電源的分系統(tǒng)是在軌控制處理器。因為主控制器失效時可以切換到備份,它的失效一般不如太陽翼嚴重。但CDH 系統(tǒng)災(zāi)難性故障中56%是因為主備控制器先后故障或者切換失敗,它占所有災(zāi)難性故障的8%。
AOCS 系統(tǒng)包含很多關(guān)鍵部件,它的失效將嚴重影響衛(wèi)星的運行。圖7 重新對AOCS 的失效進行了分組。
圖7 AOCS 失效類型分布Fig.7 AOCS failure type distribution
圖8 AOCS 失效時間分布Fig.8 AOCS failure time distribution
與其他分系統(tǒng)不同,有超過一半的AOCS 故障是機械故障(53%),只有少量是電子故障。從圖8可見,AOCS 系統(tǒng)故障的發(fā)生時間比較均勻。只有22%發(fā)生在第0~1年,這遠遠低于所有分系統(tǒng)的43%。圖9 顯示AOCS 失效的損失程度,圖10 是發(fā)生故障的部件統(tǒng)計。
圖9 AOCS 失效對任務(wù)的影響Fig.9 AOCS Failure impact on the mission
圖10 AOCS 失效部件分布Fig.10 AOCS failed components
AOCS 失效的嚴酷度不高,并且比其他分系統(tǒng)失效恢復(fù)得更好。它的降級故障比整體低8%。其實可能有大量未知的故障是AOCS 引起的,只是因為缺少信息。同時,AOCS 系統(tǒng)失效的50%是因為如下部件:陀螺、動量輪和推力器。
在感覺上,電源分系統(tǒng)的故障應(yīng)該比AOCS 分系統(tǒng)少,因為與后者不同,電源分系統(tǒng)的任務(wù)比較單一。可是,衛(wèi)星的運行的能量全部要靠電源產(chǎn)生和存儲,因此也應(yīng)對電源故障加以詳細分析。
圖11 電源分系統(tǒng)失效類型Fig.11 Power failure type
圖12 發(fā)射后電源分系統(tǒng)的失效時間Fig.12 Failure time of power after launch
重要的載荷或衛(wèi)星平臺如果被電源故障影響,都可能使任務(wù)終結(jié)。圖11 和圖12 顯示電源分系統(tǒng)的相關(guān)統(tǒng)計。
66%的電源系統(tǒng)失效是由于電子產(chǎn)品故障。值得注意的一點是發(fā)射以后發(fā)生故障的時間,幾乎一半(49%)發(fā)生在第一年,這可以歸結(jié)為地面測試的不足,也可能是因為設(shè)計缺陷而造成的。圖13 顯示失效帶來的損失,圖14 顯示引起失效的部件。
電源失效對衛(wèi)星是致命的。45%的失效會導(dǎo)致任務(wù)失敗,80%(35%+45%)會明顯影響衛(wèi)星任務(wù)。而且,幾乎一半的電源失效與太陽翼有關(guān)。這個部件的失效比衛(wèi)星其他任何部件都多。它也占第一年內(nèi)所有失效的一大部分。很多太陽翼問題是由于展開機構(gòu)的故障(這也可以歸結(jié)到結(jié)構(gòu)機構(gòu)分系統(tǒng)的失效)和發(fā)電量不足。這種故障經(jīng)常出現(xiàn)在衛(wèi)星在軌的早期。增加地面測試可以減少在軌操作時發(fā)現(xiàn)的故障??墒?地面測試需要經(jīng)費和時間,必須在代價和減少風(fēng)險之間折衷考慮。
圖13 電源分系統(tǒng)失效對任務(wù)的影響Fig.13 Power failure impact on the mission
圖14 電源分系統(tǒng)失效的部件Fig.14 Failed power components
把CDH 和T TC 分系統(tǒng)的故障組合到一起,是因為它們的故障較少而且分析方法類似。圖15 至圖16 顯示了CDH 和T TC 分系統(tǒng)的相關(guān)數(shù)據(jù)。
圖15 CDH 和TTC 分系統(tǒng)的失效類型Fig.15 Failure type of CDH and TTC
圖16 CDH 和T TC 發(fā)射后失效時間分布Fig.16 CDH and TTC failure time after launch
這類失效的最主要原因是電子器件和軟件故障。軟件故障主要是指錯誤的指令和軟件漏洞。最著名的軟件故障就是美國“火星氣候軌道器”(MCO)。它在進行軌道注入機動時失效,根源是地面彈道模型軟件中錯誤地使用了英制單位。這個錯誤使對衛(wèi)星過載的影響估計低了45%,以致衛(wèi)星燒毀[6]。這兩個分系統(tǒng)的故障發(fā)生時間與電源類似,有45%發(fā)生在第一年內(nèi)。第一年的故障主要發(fā)生在T TC 分系統(tǒng)。超過70%的TTC 故障發(fā)生在第一年,而CDH 分系統(tǒng)第一年的故障只占24%。天線故障有很多種,包括展開失敗、通信丟失和收發(fā)機失效等。圖17 顯示失效損失的程度, 圖18 顯示CDH 和T TC 失效影響的部件。
與AOCS 故障類似,CDH 和T TC 故障不太致命,并且較容易恢復(fù)。這主要是因為衛(wèi)星的控制處理器(也就是在軌計算機)、收發(fā)機、行波管放大器經(jīng)常有備用單元。T TC(占失效總數(shù)的18%)和CDH(占所有失效的20%)的失效概率比其他器件低。
圖17 CDH 和T TC 失效對任務(wù)的影響Fig.17 CDH and TTC failure impact on the mission
圖18 CDH 和TTC 失效的部件Fig.18 CDH and TTC failed components
圖19 空間環(huán)境導(dǎo)致的CDH 和TTC 故障比例Fig.19 CDH and T TC failure percentage due to space environment
空間環(huán)境是這類失效的主要原因, CDH 和TTC 失效中21%是由于空間環(huán)境。太陽風(fēng)和電磁風(fēng)暴導(dǎo)致單粒子效應(yīng)和計算機切機,如果處理不恰當(dāng),可能造成致命影響。空間環(huán)境對CDH 和T TC分系統(tǒng)的影響如圖19 所示。
結(jié)構(gòu)機構(gòu)分系統(tǒng)主要有停泊機構(gòu)、各種展開機構(gòu)和衛(wèi)星結(jié)構(gòu)等等,超過一半的這種故障發(fā)生在入軌的第一年。載荷包括相機、數(shù)據(jù)傳輸裝置和探測器等,這種失效大部分發(fā)生在地球觀測和科學(xué)探測衛(wèi)星上。這類分系統(tǒng)故障率較低,而且重復(fù)發(fā)生的故障模式少。
本次統(tǒng)計研究發(fā)現(xiàn)的一個重要結(jié)論是,大量失效發(fā)生在衛(wèi)星在軌的第一年。姿態(tài)與軌道控制系統(tǒng)第一年失效的比例最低,而電源和測控通信分系統(tǒng)在第一年的失效率非常高。這些分系統(tǒng)大多數(shù)由電子部件構(gòu)成,要求至少能夠可靠工作3~5年(通過部件篩選達到)。而且,很多失效就發(fā)生在入軌以后。因此,應(yīng)該深化故障模式與影響分析(FM EA)工作,加強部件熱設(shè)計,進行充分的環(huán)境應(yīng)力篩選,加強元器件篩選復(fù)驗,提高元器件使用可靠性[7]。在不影響發(fā)射進度情況下,增加出廠測試的覆蓋率。
冗余(包括硬件冗余和功能冗余)是提高衛(wèi)星可靠性的主要手段。姿態(tài)與軌道控制執(zhí)行器、傳感器和衛(wèi)星在軌處理器等都需要有充分的冗余[8]。哈勃太空望遠鏡(Hubber Space Telescope)有6 個陀螺,某個陀螺損壞以后切換到備份組件,如果損壞數(shù)量過多則需要及時更換以保證它的可靠運行;很多衛(wèi)星在失去主處理器時依靠備份控制器才能運行。但有時切換失敗或發(fā)生備份失效的情況,這就會導(dǎo)致災(zāi)難性后果。
衛(wèi)星軟件和硬件的靈活性使地面工程師或操作員可以重新對衛(wèi)星系統(tǒng)編程。這也是失效恢復(fù)的一個重要手段。很多衛(wèi)星在動量輪完全失效以后,通過程序注入實現(xiàn)用磁力矩穩(wěn)定;有的衛(wèi)星在陀螺失效以后,通過編程實現(xiàn)用敏感器進行姿態(tài)獲取。
空間環(huán)境是衛(wèi)星故障的主要因素。單粒子事件效應(yīng)、靜電充放電和物理損傷等[9]都是空間環(huán)境所致。因此應(yīng)該增加對空間環(huán)境的監(jiān)測,建立完備、準(zhǔn)確的空間環(huán)境模型[10]。做好輻射、靜電防護和余量設(shè)計。
隨著設(shè)計和生產(chǎn)水平的提高,除了在軌初期的故障以外,幾乎所有致命的故障都是由系統(tǒng)間接口、空間環(huán)境和多故障并發(fā)引起的。因此,設(shè)計時要充分考慮系統(tǒng)間功能的耦合,應(yīng)當(dāng)用仿真來識別未知風(fēng)險,提高衛(wèi)星的安全性。
部件的老化難以避免,及時監(jiān)視部件性能的下降可以預(yù)測一些故障的發(fā)生,防止故障損害衛(wèi)星的主要功能。故障檢測技術(shù)是航天器自主的基礎(chǔ),是降低生命周期費用、提高安全性和成功率的關(guān)鍵。
本文對130 多顆衛(wèi)星的272 次在軌故障進行了統(tǒng)計。對不同分系統(tǒng)的失效特點和典型失效模式的分析得出結(jié)論:很多故障是重復(fù)發(fā)生的;良好的備份和故障處理可以減輕故障影響;應(yīng)加強出廠前測試等。并指出了最容易出故障的主要衛(wèi)星部件?;诒疚难芯亢拖嚓P(guān)失效事例給出了故障防護設(shè)計建議,分析了開發(fā)故障識別、隔離和恢復(fù)(FDIR)系統(tǒng)的重要性。
)
[1]Massimo T, Ellen L H, Freeman H R, et al.SOHO mission interruption joint NASA/ESA investigation board[R].NASA, 1998
[2]Rrook R S, David L A.A survey of serviceable spacecraft failures[C]//American Institute of Aeronautics and Astronautics, 2001
[3]Wertz J R, Larson W J.Space mission analysis and design[M].3rd Torrance, CA, USA:Microcosm Press,1999
[4]姜連祥,李華旺, 楊根慶,等.航天器自主故障診斷技術(shù)研究進展[J].宇航學(xué)報, 2009, 30(4):1320-1326
[5]Caceres M.Satellites and launches trend dow n[J].Aerospace America, 2004, 42(1):18-20
[6]Young T, Arnold J.Mars program independent assessment team report[R].NASA, 2000
[7]趙海濤,張云彤.東方紅三號系列衛(wèi)星在軌故障統(tǒng)計分析[J].航天器工程, 2007, 16(1):33-37
[8]張新邦,索旭華.衛(wèi)星故障診斷技術(shù)[C]//全國仿真技術(shù)學(xué)術(shù)會議,北京控制工程研究所, 2001
[9]Koons H C, Mazur J E, Selesnick R S, et al.The impact of the space environment on space systems[R].Aerospace Technical Report TR-99(1670)-1, 1999
[10]Xapsos M A, Summers G P, Barth J L.Probability model for w orst case solar proton event fluences[J].IEEE Trans.on Nucl Sci, 1999, 45(6):1481-1485