種婧宜,周昊澄,王 敏,陳余軍
(1.中國空間技術(shù)研究院 通信與導(dǎo)航衛(wèi)星總體部; 2.北京空間飛行器總體設(shè)計部:北京 100094)
地球同步軌道(GEO)通信衛(wèi)星具有信號覆蓋面積廣、便于快速組網(wǎng)以及對地理地形和距離因素不敏感等優(yōu)勢,被廣泛應(yīng)用于廣播電視、數(shù)據(jù)傳輸和移動通信等領(lǐng)域。隨著技術(shù)水平的不斷發(fā)展與市場需求的多樣化,通信衛(wèi)星從傳統(tǒng)的廣播業(yè)務(wù)、固定和窄帶通信為主,逐漸向移動通信、寬帶和高通量通信為主轉(zhuǎn)變。因此,對衛(wèi)星的信息承載能力、用電功率以及姿態(tài)控制精度等的要求大幅提高。通信衛(wèi)星的設(shè)計運行壽命一般是15 年,在軌不具備維修能力,且需要面對真空、等離子體、輻射以及微流星體/空間碎片等復(fù)雜而嚴(yán)酷的空間環(huán)境。因此,在系統(tǒng)集成度顯著提高,軟/硬件接口邏輯越來越復(fù)雜的情況下,衛(wèi)星呈現(xiàn)出較多的跨分系統(tǒng)耦合現(xiàn)象,使得衛(wèi)星系統(tǒng)總體設(shè)計、空間環(huán)境適應(yīng)能力、在軌運行可靠性與健壯性等提升面臨著極大的挑戰(zhàn)[1-2]。
傳統(tǒng)通信衛(wèi)星系統(tǒng)設(shè)計與可靠性分析過程中,各分系統(tǒng)的設(shè)計與分析工作相對獨立,因此對跨分系統(tǒng)間故障傳遞問題的認(rèn)識存在局限。如果未識別的風(fēng)險從系統(tǒng)設(shè)計階段被帶到研制階段,會導(dǎo)致物理試驗時暴露較多設(shè)計問題。為了滿足新一代通信衛(wèi)星系統(tǒng)可靠性和健壯性設(shè)計需求,必須提升對系統(tǒng)故障機理的認(rèn)識,為跨分系統(tǒng)的故障分析提供有效的理論方法。在航空和鐵路等工程領(lǐng)域[3],部分學(xué)者從系統(tǒng)控制角度對系統(tǒng)故障開展分析,有效識別跨組件和跨分系統(tǒng)的故障風(fēng)險,提升了系統(tǒng)可靠性和安全性設(shè)計水平[4]。然而,針對通信衛(wèi)星,目前缺少系統(tǒng)級故障分析的理論方法。
本文針對GEO 通信衛(wèi)星,提出基于系統(tǒng)理論事故模型與過程(STAMP)[1]的系統(tǒng)故障分析方法,通過建立系統(tǒng)控制邏輯架構(gòu)分析系統(tǒng)潛在的控制缺陷,自上至下地開展系統(tǒng)頂層故障分析,有效識別系統(tǒng)設(shè)計中影響業(yè)務(wù)連續(xù)性與系統(tǒng)安全性的關(guān)鍵功能[5],并從施加控制約束的角度提出可靠性設(shè)計需求,以指導(dǎo)系統(tǒng)可靠性和健壯性設(shè)計。
隨著技術(shù)水平發(fā)展,現(xiàn)代通信衛(wèi)星有效載荷的質(zhì)量和功率均顯著增大,故而對衛(wèi)星系統(tǒng)的空間環(huán)境適應(yīng)能力、平臺承載效率以及姿態(tài)控制精度等提出了更高要求。為此,須通過優(yōu)化的架構(gòu)設(shè)計以及先進技術(shù)、產(chǎn)品的應(yīng)用來實現(xiàn)系統(tǒng)的集成化與輕量化,包括集成化綜合電子系統(tǒng)、高效率電源系統(tǒng)以及電推進技術(shù)等[6]。
如圖1 所示,通信衛(wèi)星系統(tǒng)由多個關(guān)鍵分系統(tǒng)組成。綜合電子在各階段為系統(tǒng)提供并分配電能,確保系統(tǒng)能源供應(yīng)。測控分系統(tǒng)提供星地之間的測控通道,并結(jié)合綜合電子系統(tǒng)保證衛(wèi)星的遙測、遙控和測距等功能。控制分系統(tǒng)和推進分系統(tǒng)負(fù)責(zé)姿態(tài)控制以及軌道機動、位置保持,保證有效載荷的正常工作。除此之外,系統(tǒng)還配備其他保證系統(tǒng)正常運行的結(jié)構(gòu)、熱控分系統(tǒng)等。
圖1 GEO 通信衛(wèi)星系統(tǒng)組成Fig.1 Block diagram of GEO communication satellite system
通信衛(wèi)星任務(wù)包括為發(fā)射入軌與在軌提供業(yè)務(wù)2 個階段。發(fā)射入軌階段的主要目標(biāo)是將衛(wèi)星成功發(fā)射入軌定點并完成在軌測試工作;在軌提供業(yè)務(wù)階段的目標(biāo)是按照指標(biāo)要求完成覆蓋區(qū)域內(nèi)的通信業(yè)務(wù)。通信衛(wèi)星系統(tǒng)要求在較長任務(wù)周期和嚴(yán)酷空間環(huán)境下具有較高的安全性與可靠性,以保證業(yè)務(wù)的連續(xù)穩(wěn)定[7]。而隨著對衛(wèi)星性能指標(biāo)要求的不斷提升以及降低發(fā)射與運維成本的需求,新一代通信衛(wèi)星還要求具備較高的自主運行能力,包括在星箭分離以后可自主變軌,在軌運行階段可自主進行姿態(tài)與軌道控制、自主能源管理和自主故障恢復(fù)等[8]。因此,新一代通信衛(wèi)星系統(tǒng)的健壯性設(shè)計極為關(guān)鍵,而傳統(tǒng)“先分后總”的研制模式由于缺少設(shè)計階段早期的頂層故障分析,難以提出有針對性的可靠性和健壯性設(shè)計需求,極易將問題帶入后續(xù)測試階段,造成設(shè)計返工,影響研制進度[9-10]。
系統(tǒng)故障主要表現(xiàn)為實際運行情況超出設(shè)計預(yù)期,并對業(yè)務(wù)連續(xù)性或系統(tǒng)安全性造成不可接受的影響。因此,故障大多源于對系統(tǒng)認(rèn)識的不足,體現(xiàn)在對內(nèi)和對外兩方面,如圖2 所示:一方面,沒有吃透系統(tǒng)內(nèi)部組成的故障模式及影響,特別是跨分系統(tǒng)的耦合影響,導(dǎo)致系統(tǒng)發(fā)生非預(yù)期的失效;另一方面,系統(tǒng)運行環(huán)境存在非預(yù)期的擾動,如空間環(huán)境因素或其他外部干擾等[11]。因此,通信衛(wèi)星系統(tǒng)可靠性和健壯性增長需要結(jié)合歷史經(jīng)驗、故障分析與試驗驗證等多種手段提升對系統(tǒng)故障認(rèn)識的科學(xué)性和全面性,并通過系統(tǒng)設(shè)計避免故障發(fā)生或提升系統(tǒng)應(yīng)對故障的能力。
圖2 系統(tǒng)故障來源分析Fig.2 Source analysis of system faults
在系統(tǒng)設(shè)計的過程中,單機內(nèi)部故障機理和可靠性增長不屬于系統(tǒng)故障分析的范疇,因此常常將系統(tǒng)故障簡單歸結(jié)于對某種單機產(chǎn)品故障機理認(rèn)識不足。這種分析結(jié)論不利于將系統(tǒng)與單機進行有效的耦合設(shè)計,常常會出現(xiàn)單機功能無法達到系統(tǒng)要求,需通過系統(tǒng)設(shè)計彌補單機功能的缺失,大大浪費了系統(tǒng)資源并降低了系統(tǒng)可靠性。因此,在系統(tǒng)設(shè)計階段需深入分析衛(wèi)星內(nèi)部復(fù)雜的交互耦合,形成分級策略,從降低故障發(fā)生概率到阻斷故障傳播再到風(fēng)險控制,分層級地降低風(fēng)險影響,提高衛(wèi)星的可靠性和健壯性。
隨著對復(fù)雜系統(tǒng)故障發(fā)生機制的深入研究,Leveson 提出以系統(tǒng)理論為基礎(chǔ)的事故因果關(guān)系分析模型,即STAMP[7-10,12]。STAMP 從控制邏輯角度對系統(tǒng)進行描述,并形成分層控制結(jié)構(gòu),每一層都對下一層通過控制行為執(zhí)行一定的約束;系統(tǒng)中所有約束的正確執(zhí)行不僅保障了系統(tǒng)功能的實現(xiàn),同時保證了系統(tǒng)運行的安全性。由此,STAMP 認(rèn)為系統(tǒng)故障的發(fā)生是由于系統(tǒng)控制過程中的安全性約束沒有被充分執(zhí)行,而單機失效只是原因之一。根據(jù)經(jīng)典控制理論,對一個過程進行控制需要4 個條件——目標(biāo)條件、行動條件、可觀察條件和模型條件。在STAMP 中,上述條件將對應(yīng)成為系統(tǒng)安全性約束、控制行為、反饋以及過程模型。
與傳統(tǒng)的故障模型相比,STAMP 充分體現(xiàn)了系統(tǒng)設(shè)計的重要作用,認(rèn)為故障來源除了單機失效外,還有可能來自系統(tǒng)內(nèi)部或系統(tǒng)與外部不正確的交互行為,充分體現(xiàn)了系統(tǒng)全局觀。并且,STAMP的分析依據(jù)是系統(tǒng)的控制邏輯架構(gòu),不依賴具體的物理設(shè)計,可以在系統(tǒng)設(shè)計的早期開展,以便通過故障分析形成有針對性的系統(tǒng)可靠性與健壯性設(shè)計約束,并以此為需求驅(qū)動系統(tǒng)設(shè)計開展。
依據(jù)STAMP 與故障機理,從系統(tǒng)控制邏輯角度開展系統(tǒng)級故障分析的具體步驟包括:
1)定義頂層事故和危險
故障分析的本質(zhì)是充分認(rèn)識系統(tǒng)故障發(fā)生規(guī)律,識別薄弱環(huán)節(jié),并通過設(shè)計避免或有效應(yīng)對故障影響。因此,首先應(yīng)明確系統(tǒng)不可接受的事故清單,并通過分析將其原因逐漸細化。作為自上至下的故障分析,將系統(tǒng)不可接受的頂層故障定義為事故(accidents),一般指人員傷害、經(jīng)濟損失、環(huán)境污染或功能喪失等。然后,對可能導(dǎo)致事故發(fā)生的危險情況(hazards)進行初步定義,并在后續(xù)分析中從控制邏輯角度對故障原因進行細化,以便形成明確的設(shè)計約束。
2)建立系統(tǒng)控制邏輯模型
根據(jù)STAMP,需要對系統(tǒng)從控制邏輯角度進行建模,明確控制與反饋關(guān)系。復(fù)雜系統(tǒng)的控制邏輯架構(gòu)往往分多個層級,從頂層高度抽象的控制關(guān)系逐層向內(nèi)部細化,具體粒度根據(jù)分析需求決定。
3)梳理系統(tǒng)控制過程,分析潛在系統(tǒng)故障
根據(jù)系統(tǒng)控制邏輯模型梳理出所有的控制過程。對每個控制過程,首先從未提供、提供、提供過早(或過晚)、結(jié)束過早(或過晚)的角度對其是否存在故障風(fēng)險展開分析,形成系統(tǒng)故障清單。然后針對所有系統(tǒng)故障,從避免控制缺陷發(fā)生的角度,轉(zhuǎn)換形成初步的可靠性設(shè)計約束。
4)分析故障發(fā)生場景并形成詳細設(shè)計約束
根據(jù)控制邏輯模型,對存在風(fēng)險的控制過程從控制與反饋回路的各個環(huán)節(jié)審查可能的故障原因——可能是硬件失效,也可能是系統(tǒng)控制中不正確的交互。根據(jù)故障場景形成詳細的分系統(tǒng)可靠性設(shè)計約束,以指導(dǎo)后續(xù)設(shè)計。
本文以STAMP 為基礎(chǔ),針對如圖1 所示的典型新一代通信衛(wèi)星系統(tǒng),在系統(tǒng)概念設(shè)計階段初期便將空間環(huán)境因素考慮在內(nèi),開展自上至下的系統(tǒng)故障分析,形成詳細的分系統(tǒng)可靠性和健壯性設(shè)計約束,從正向設(shè)計角度提高通信衛(wèi)星的系統(tǒng)設(shè)計可靠度和空間環(huán)境適應(yīng)能力,以滿足具備自主工作能力的新一代通信衛(wèi)星平臺高可靠性、長壽命的系統(tǒng)設(shè)計需求。
案例分析目標(biāo):設(shè)計階段早期開展系統(tǒng)故障分析,形成有針對性的可靠性設(shè)計需求以指導(dǎo)后續(xù)設(shè)計開展,解決新一代通信衛(wèi)星GEO 真空環(huán)境下系統(tǒng)集成度與復(fù)雜度提升給系統(tǒng)總體設(shè)計與可靠性增長帶來的難題,提高新一代通信衛(wèi)星的系統(tǒng)設(shè)計能力。
針對設(shè)計要求和分析目標(biāo),定義系統(tǒng)級事故如表1 所示,分別從系統(tǒng)安全性與業(yè)務(wù)連續(xù)性2 個角度考慮無法接受的頂層事故:事故A1 指太陽輻射激增和微流星體/空間碎片等非預(yù)期空間環(huán)境因素導(dǎo)致的產(chǎn)品損壞;事故A2 指由于對空間環(huán)境認(rèn)識不足所造成的設(shè)計缺陷導(dǎo)致任務(wù)無法完成。本案例分析將從系統(tǒng)正向設(shè)計角度充分認(rèn)識可能導(dǎo)致這些事故發(fā)生的場景,并轉(zhuǎn)換形成細化的設(shè)計約束。
表1 系統(tǒng)事故定義Table 1 Definition of system accident
根據(jù)衛(wèi)星系統(tǒng)特點,初步定義可能導(dǎo)致系統(tǒng)事故的危險如表2 所示。危險H1 指的是衛(wèi)星的能源供應(yīng)異常,例如微流星體/空間碎片碰撞損壞太陽電池陣,可能影響通信業(yè)務(wù),情況嚴(yán)重有可能威脅衛(wèi)星安全。危險H2 指的是硬件系統(tǒng)暴露于危險的環(huán)境中,例如進入存在威脅的空間環(huán)境或危險的軌道等,可能導(dǎo)致衛(wèi)星非預(yù)期的損毀。危險H3 指的是衛(wèi)星與地面的測控通信存在異常,例如等離子體環(huán)境變化產(chǎn)生干擾,既有可能影響任務(wù)實現(xiàn),也有可能造成衛(wèi)星安全無法得到保證。危險H4 指的是系統(tǒng)的姿態(tài)與軌道控制異常,既有可能影響通信功能,也可能導(dǎo)致衛(wèi)星失控?fù)p壞。危險H5 指的是在衛(wèi)星完好的情況下沒能實現(xiàn)通信任務(wù)。
根據(jù)系統(tǒng)頂層事故與危險定義,以避免它們的發(fā)生為目標(biāo),形成的頂層系統(tǒng)設(shè)計需求如表3 所示。隨著故障分析開展,頂層設(shè)計需求將被細化,為可指導(dǎo)系統(tǒng)設(shè)計的明確設(shè)計約束,驅(qū)動后續(xù)設(shè)計工作。
表3 系統(tǒng)頂層設(shè)計需求Table 3 System top-level design requirements
根據(jù)STAMP 的系統(tǒng)理論故障機理,以系統(tǒng)的控制邏輯模型作為分析依據(jù)。該模型不同于物理模型,無須體現(xiàn)具體設(shè)計信息,僅描述系統(tǒng)運行中的控制與反饋關(guān)系。根據(jù)通信衛(wèi)星系統(tǒng)功能,建立如圖3 所示的頂層控制邏輯模型,包括地面控制中心、星上自主星務(wù)管理模塊、自主控制模塊、測控通信模塊、溫度管理模塊、供配電管理模塊和有效載荷模塊等。通信衛(wèi)星在軌運行的任務(wù)連續(xù)性和穩(wěn)定性是其安全重點,衛(wèi)星的連續(xù)通信能力由GNC自主控制模塊和星上測控通信模塊共同保證。
圖3 通信衛(wèi)星系統(tǒng)的頂層控制邏輯模型Fig.3 Top-level control logic model of communication satellite system
根據(jù)3.2 節(jié)建立的系統(tǒng)控制邏輯模型,從控制角度分析存在故障風(fēng)險的控制過程,形成系統(tǒng)故障清單。STAMP 故障機理從系統(tǒng)控制角度來認(rèn)識系統(tǒng)運行過程,認(rèn)為系統(tǒng)功能的實現(xiàn)是通過一系列控制完成的,任何一個環(huán)節(jié)的控制未被正確或充分執(zhí)行都可能引起系統(tǒng)故障,如圖4 所示。結(jié)合通信衛(wèi)星任務(wù)特點,給出其電推進姿態(tài)控制系統(tǒng)的控制過程示例如表4 所示。
圖4 典型控制與反饋回路故障原因Fig.4 Typical fault causes of control and feedback loop
表4 電推進姿態(tài)控制系統(tǒng)控制過程示例Table 4 Control process example of electric propulsion attitude control system
對每個控制過程分析以下4 種可能:
1)沒有提供有效控制導(dǎo)致故障;
2)提供控制過早(或過晚)(包括與其他控制的時序錯誤)導(dǎo)致故障;
3)控制結(jié)束過早(或過晚)導(dǎo)致故障。
本案例以控制過程C5“控制模塊進入對日定向模式”為例,分析其潛在控制缺陷可能引發(fā)的系統(tǒng)故障。該控制過程與通信衛(wèi)星發(fā)射入軌和在軌工作2 個任務(wù)階段均有關(guān)。
在發(fā)射入軌階段,衛(wèi)星與運載火箭分離后,首先進入速率阻尼模式,消除星箭分離角速度,然后展開太陽電池陣進行對日捕獲。衛(wèi)星在轉(zhuǎn)移軌道期間,為了保證長期穩(wěn)定的能源供應(yīng),在太陽電池陣展開后需要維持對日定向姿態(tài)。假設(shè)衛(wèi)星采用太陽敏感器確定對日的姿態(tài),利用陀螺測量角速度,并使用推力器噴氣的方式控制衛(wèi)星的滾動、俯仰以及將角速度保持在一定范圍內(nèi)。此外,考慮到自主變軌需求,衛(wèi)星配備提供軌道位置信息的導(dǎo)航敏感器。圖5 所示為通信衛(wèi)星的對日定向模式控制回路。表5 所示為針對衛(wèi)星的軌道轉(zhuǎn)移階段,從控制缺陷的4 種可能形式分析控制過程C5 可能引起的系統(tǒng)故障的結(jié)果。
表5 控制過程C5 轉(zhuǎn)移軌道階段的故障分析結(jié)果Table 5 Fault analysis results of control process C5 at transfer orbit stage
圖5 對日定向模式控制回路Fig.5 Control loolp for sun-pointing guidance
同理,針對衛(wèi)星同步軌道工作階段開展上述故障分析。衛(wèi)星在軌工作階段,對日定向模式可以優(yōu)先保證衛(wèi)星的能源供應(yīng)與測控手段,對衛(wèi)星的系統(tǒng)安全至關(guān)重要,也是衛(wèi)星的安全模式。表6 所示為針對衛(wèi)星同步軌道工作階段開展故障分析的結(jié)果。
表6 控制過程C5 同步軌道階段的故障分析結(jié)果Table 6 Fault analysis results of control process C5 at synchronous orbit stage
結(jié)合上述分析,根據(jù)潛在的系統(tǒng)故障形式,可以從對控制過程施加約束條件的角度形成初步的控制系統(tǒng)可靠性設(shè)計需求,如表7 所示。
表7 控制系統(tǒng)可靠性設(shè)計需求Table 7 Reliability design requirements of control system
對梳理出的系統(tǒng)故障進一步開展故障原因與發(fā)生場景分析,從控制與反饋關(guān)系中審查潛在的控制缺陷如何發(fā)生,并形成細化的可靠性設(shè)計約束。根據(jù)STAMP,控制缺陷有可能源于控制器、傳感器或執(zhí)行器的硬件故障,也可能源于交互過程中缺少必要的約束導(dǎo)致控制過程沒有被充分執(zhí)行。
根據(jù)圖4 所示的典型控制與反饋回路故障原因,結(jié)合圖5 對日定向模式控制回路,以故障F4“衛(wèi)星無法達到對日定向姿態(tài)”的潛在故障原因與發(fā)生場景為例展開分析,得出以下故障發(fā)生場景:
1)星上自主控制器功能失效;
2)執(zhí)行機構(gòu)功能失效;
3)姿態(tài)控制結(jié)果超差;
4)敏感器采集信息功能失效。
經(jīng)匯總與詳細分析,可以得到故障原因,并轉(zhuǎn)換形成對設(shè)計中關(guān)鍵功能的設(shè)計約束和改進方向,如表8 所示。
表8 故障原因與設(shè)計約束Table 8 Fault causes and design constraints
本案例運用STAMP 分析方法,從控制邏輯角度建立了通信衛(wèi)星系統(tǒng)的頂層控制架構(gòu),自上至下分析故障原因,提出控制需求和設(shè)計約束,既保證了產(chǎn)品的可靠性又考慮到不同層級間的故障傳播條件,通過頂層設(shè)計阻斷了系統(tǒng)間的故障傳播。以系統(tǒng)可靠性設(shè)計約束實現(xiàn)了目標(biāo)條件、行動條件、可觀察條件和模型條件之間的相互契合。
本文針對通信衛(wèi)星系統(tǒng),基于STAMP 分析方法,在方案設(shè)計階段即結(jié)合GEO 空間環(huán)境開展故障場景分析,對系統(tǒng)需求進行梳理,在系統(tǒng)設(shè)計早期階段得到系統(tǒng)潛在故障清單并識別出系統(tǒng)的薄弱環(huán)節(jié)和故障原因,匯總出較為詳細的設(shè)計約束,從而有針對性地制定可靠性和安全性保證措施。
STAMP 與傳統(tǒng)以事件鏈模型為基礎(chǔ)的故障分析方法有著顯著區(qū)別,從以生產(chǎn)過程的質(zhì)量控制提高衛(wèi)星固有可靠性轉(zhuǎn)變?yōu)樵谠缙诘南到y(tǒng)設(shè)計過程中考慮空間環(huán)境因素以提高衛(wèi)星的固有可靠性。將衛(wèi)星設(shè)計定型后的故障預(yù)案和快速處置措施設(shè)計工作前移,重點放在系統(tǒng)設(shè)計前期。通過系統(tǒng)設(shè)計控制單機故障傳播速度與系統(tǒng)間的耦合故障,降低突發(fā)性空間環(huán)境因素對系統(tǒng)的影響。并根據(jù)故障發(fā)生場景形成系統(tǒng)設(shè)計約束,提高通信衛(wèi)星平臺的自主運行能力,降低運營成本。
結(jié)合對復(fù)雜系統(tǒng)故障機理的深入分析與理解,探索系統(tǒng)設(shè)計初期的故障分析理論和方法,對系統(tǒng)集成化程度高、軟件密集度大、平臺設(shè)計迭代快的新一代通信衛(wèi)星系統(tǒng)的可靠性及健壯性設(shè)計具有重要意義。