趙海濤,熊 笑,謝 軍,鄭晉軍,谷 巖
(1. 北京空間飛行器總體設(shè)計部,北京 100094;2. 中國空間技術(shù)研究院,北京 100094)
衛(wèi)星導(dǎo)航系統(tǒng)是當(dāng)今國民經(jīng)濟(jì)和國防建設(shè)不可或缺的重要空間基礎(chǔ)設(shè)施。導(dǎo)航信號的連續(xù)可用是衛(wèi)星導(dǎo)航系統(tǒng)成功運(yùn)行的根本保證。在民航、交通運(yùn)輸?shù)葢?yīng)用中,導(dǎo)航信號中斷可能帶來嚴(yán)重后果。如果導(dǎo)航信號頻繁中斷,衛(wèi)星導(dǎo)航系統(tǒng)將失去應(yīng)用價值。因此,可用性、連續(xù)性是衛(wèi)星導(dǎo)航系統(tǒng)的關(guān)鍵頂層技術(shù)指標(biāo)。
中斷是指導(dǎo)航衛(wèi)星不能提供規(guī)定導(dǎo)航信號服務(wù)的狀態(tài)。衛(wèi)星導(dǎo)航系統(tǒng)的可用性、連續(xù)性都與導(dǎo)航衛(wèi)星的中斷直接相關(guān)。導(dǎo)航衛(wèi)星中斷既可能由故障引起(一般表現(xiàn)為導(dǎo)航信號或數(shù)據(jù)的丟失或異常),也可能由維護(hù)操作引起(如相位保持),前者對應(yīng)非計劃中斷,后者對應(yīng)計劃中斷。計劃中斷可通過提前給出衛(wèi)星不可用標(biāo)識而不影響導(dǎo)航信號連續(xù)性,但非計劃中斷由于發(fā)生的不確定性,必然對導(dǎo)航信號的連續(xù)可用造成影響。因此,為保證導(dǎo)航信號的連續(xù)可用,我國北斗導(dǎo)航衛(wèi)星首次將中斷頻次作為衛(wèi)星的技術(shù)指標(biāo)。
中斷頻次可定義為單位時間內(nèi)導(dǎo)航衛(wèi)星信號中斷的次數(shù)。在調(diào)研GPS、Galileo、GLONASS的公開資料中,只有GPS明確提出了中斷頻次指標(biāo)[1],但未見具體的分析方法。目前GPS已運(yùn)行20多年,其中斷頻次指標(biāo)早已得到在軌驗證。我國北斗全球衛(wèi)星導(dǎo)航系統(tǒng)起步晚,由于缺少實測數(shù)據(jù),在工程研制階段如何分析與驗證中斷頻次是制約衛(wèi)星可用性量化設(shè)計的瓶頸問題,其中需解決的關(guān)鍵問題又包括:
1)底層中斷事件的確定。故障不一定導(dǎo)致中斷,一顆衛(wèi)星有百余臺設(shè)備、幾萬個元器件,全面分析這些設(shè)備/元器件和衛(wèi)星中斷的關(guān)系將耗費(fèi)大量的資源,需要通過簡單有效的方式確定底層中斷事件,剔除與導(dǎo)航信號中斷無關(guān)的設(shè)備、元器件。
2)中斷建模方法。需要考慮以何種方法建立中斷頻次的分析模型,能夠覆蓋中斷有關(guān)的各類因素,并能以數(shù)學(xué)方法方便地得到分析結(jié)果。
3)器件功能異常率的獲取。器件功能異常率是整星中斷頻次分析的數(shù)據(jù)基礎(chǔ),這一指標(biāo)和器件自身的單粒子本征翻轉(zhuǎn)率有很大差異,需要考慮器件單粒子軟錯誤的傳播過程及實際設(shè)計情況。地面試驗、故障仿真都只能解決有限范圍的問題。
當(dāng)前國內(nèi)外鮮見中斷頻次分析方面的研究資料,相關(guān)研究主要集中在星座及單星可用性綜合分析[2-6]、單粒子軟錯誤定量表征與評價[7-10]方面,前者以單星中斷頻次、中斷恢復(fù)時間等指標(biāo)為輸入,考察星座層面的可用性,后者主要進(jìn)行器件單粒子軟錯誤及其傳播概率的理論計算,兩者均未給出中斷頻次分析的系統(tǒng)解決方案。
為此,本文面向?qū)Ш叫l(wèi)星中斷頻次分析的工程需求,針對中斷頻次分析的關(guān)鍵問題,提出了具體實施方法。
導(dǎo)航衛(wèi)星在軌運(yùn)行期間,其中斷具有隨機(jī)性、可恢復(fù)的特點(diǎn)。引起中斷的主要故障原因包括:
1)使用了大規(guī)模FPGA等邏輯器件,以及和導(dǎo)航功能相關(guān)的設(shè)備,由于單粒子事件導(dǎo)致功能中斷或異常,繼而造成導(dǎo)航信號不可用。例如,導(dǎo)航任務(wù)處理FPGA發(fā)生單粒子翻轉(zhuǎn)后,通常需要進(jìn)行復(fù)位或整機(jī)加斷電,進(jìn)而引起信號連續(xù)性損失。
2)由于軟件錯誤導(dǎo)致導(dǎo)航信號中斷。例如,導(dǎo)航信號生成、處理、播發(fā)相關(guān)的軟件,由于軟件設(shè)計缺陷造成運(yùn)行出錯、復(fù)位,也可能導(dǎo)致導(dǎo)航信號不可用,從而出現(xiàn)中斷。
3)與導(dǎo)航下行信號生成與播發(fā)直接相關(guān)的設(shè)備,發(fā)生故障后切機(jī)造成功能中斷,進(jìn)而導(dǎo)致導(dǎo)航信號不可用。例如,導(dǎo)航信號播發(fā)通道的主份行波管放大器故障后,需要切換到備份行波管放大器,這一過程中相應(yīng)頻率的導(dǎo)航信號將處于不可用狀態(tài)。
以上3類原因中,單粒子事件和硬件故障在設(shè)計上是不能徹底消除的,軟件設(shè)計缺陷只要在軌糾正則不會重復(fù)發(fā)生,因此導(dǎo)航衛(wèi)星中斷頻次分析通常只考慮單粒子事件和硬件故障。
中斷頻次分析過程主要包括篩選和確定中斷影響因素、建立中斷模型、獲取FPGA功能異常率等基礎(chǔ)數(shù)據(jù)、計算中斷頻次指標(biāo)并進(jìn)行符合性驗證,其流程如圖1所示。
圖1 導(dǎo)航衛(wèi)星中斷頻次的分析流程
中斷可由故障引起,但不是所有故障都會導(dǎo)致中斷。事實上,大多數(shù)故障和中斷無關(guān),如遙控?fù)p失一個通道只短暫影響遙控功能,地球敏感器故障后可以用備份設(shè)備或星敏感器替代,不會影響導(dǎo)航功能的正常運(yùn)行。因此,中斷頻次分析首先需要確定哪些故障可能造成中斷,即確定底層中斷事件。
ESA的可用性工程[11]和國內(nèi)航天器工程中提出了一種類似FMEA的中斷分析方法,針對星上設(shè)備列出可能的中斷事件,并進(jìn)一步分析其原因和影響。對這種中斷分析方法進(jìn)行自下而上分析,需要覆蓋所有設(shè)備,投入較大人力、時間等資源。為了提高分析效率并節(jié)約成本,可以結(jié)合功能分析、信息流分析,利用相關(guān)性分析方法,自上而下快速縮小分析范圍,分析步驟如下:
1)獲取衛(wèi)星所有分系統(tǒng)的組成、功能和冗余設(shè)計信息。
2)分析各分系統(tǒng)與導(dǎo)航信號生成與播發(fā)的關(guān)系,明確中斷影響。
3)針對可能導(dǎo)致導(dǎo)航衛(wèi)星中斷的分系統(tǒng),分析各設(shè)備和導(dǎo)航信號生成與播發(fā)的關(guān)系,確定可能導(dǎo)致導(dǎo)航衛(wèi)星中斷的底層故障。
為快速確定分系統(tǒng)、設(shè)備和導(dǎo)航衛(wèi)星中斷的關(guān)系,可參考表1所示的線索表。
表1 中斷關(guān)系線索
底層故障引起導(dǎo)航衛(wèi)星中斷是一個故障傳播過程,由于從器件、設(shè)備到分系統(tǒng)、整星均有一定的防護(hù)措施,而且不同設(shè)備在導(dǎo)航信號生成與播發(fā)過程中的功能不同,因此既便是與門邏輯中的底層故障也不一定必然導(dǎo)致導(dǎo)航衛(wèi)星中斷。為描述這一特征和突出中斷以軟故障為主的特點(diǎn),本文提出中斷樹,并將傳播概率納入分析過程。
中斷樹以“導(dǎo)航衛(wèi)星信號中斷”為頂事件,依據(jù)底層中斷事件的分析結(jié)果建立。中斷樹與衛(wèi)星傳統(tǒng)的故障樹的主要區(qū)別如表2所示。
表2 衛(wèi)星中斷樹與故障樹的主要區(qū)別
定義影響因子β為本級事件導(dǎo)致上一級事件發(fā)生的概率,其取值范圍如下:
1)β=1,本級事件必然導(dǎo)致上一級事件發(fā)生。
2)β=x,0 3)β=0,本級事件不會導(dǎo)致上一級事件發(fā)生。 依據(jù)中斷樹,可建立中斷頻次分析的數(shù)學(xué)模型。 當(dāng)中斷樹底事件較少、邏輯關(guān)系較簡單時,可以建立解析模型。依據(jù)中斷樹,導(dǎo)航衛(wèi)星中斷頻次可以分解為或門、與門及其組合。 或門邏輯下,假設(shè)有n1個底事件,第i個底事件的影響因子為βi(i=1,2,…,n1),則中斷頻次為 (1) 式中:Pso為或門系統(tǒng)的中斷頻次;Pi為第i個底事件的發(fā)生頻次;θi為第i個底事件的平均發(fā)生間隔時間。 與門邏輯下,假設(shè)有n2個底事件,且該與門的影響因子為βa,則中斷頻次為: (2) 式中:Psa為與門系統(tǒng)的中斷頻次;Pj為第j個底事件的發(fā)生頻次;θj為第j個底事件的平均發(fā)生間隔時間。 當(dāng)中斷樹底事件較多、邏輯關(guān)系復(fù)雜、采用解析式計算量大或者不適合用解析式計算時,可以采用蒙特卡洛仿真方法。依據(jù)中斷樹,建立蒙特卡洛仿真流程,利用可靠性專用軟件或者編制程序,實現(xiàn)中斷頻次的仿真計算。 底事件可分為硬故障和軟故障兩類。硬故障的發(fā)生頻次可以近似采用失效率轉(zhuǎn)換為單位時間的故障次數(shù)得到。 軟故障主要關(guān)注FPGA的單粒子功能異常率,即FPGA在軌發(fā)生單粒子軟錯誤后引起規(guī)定功能中斷的頻次。FPGA單粒子功能異常率既和器件的單粒子本征翻轉(zhuǎn)率有關(guān),也和軌道條件、器件資源使用情況、單粒子防護(hù)設(shè)計情況等有關(guān)。目前,常見的方法是進(jìn)行地面輻照試驗或者故障注入仿真來獲得單粒子功能異常率的數(shù)據(jù),但地面輻照試驗投入大,且試驗結(jié)果一般不代表在軌真實情況,故障注入仿真周期長,且依賴模型的準(zhǔn)確性,因此均未大量應(yīng)用。為快速而有效地獲取所有相關(guān)FPGA器件的功能異常率,本文提出一種利用相似器件在軌數(shù)據(jù)的快速預(yù)估方法,主要過程如下: 1)計算FPGA在任務(wù)軌道環(huán)境條件下、考慮資源使用情況后的單粒子翻轉(zhuǎn)率。 首先獲得FPGA的單粒子本征翻轉(zhuǎn)率,包括目標(biāo)軌道環(huán)境下的存儲區(qū)單粒子翻轉(zhuǎn)率PbR1、配置區(qū)單粒子翻轉(zhuǎn)率PbS1;然后根據(jù)FPGA存儲區(qū)和配置區(qū)資源占用情況,確定存儲區(qū)資源占用系數(shù)βRR1和配置區(qū)資源占用系數(shù)βRS1(資源占用系數(shù)即占用資源與器件資源的比值),從而得到FPGA考慮資源使用情況后的單粒子翻轉(zhuǎn)率PM1為: PM1=PbS1βRS1+PbR1βRR1 (3) 2)利用相似FPGA數(shù)據(jù),計算未采取防護(hù)措施情況下,當(dāng)前FPGA在軌由于單粒子軟錯誤導(dǎo)致功能異常的頻次。 首先獲得相似FPGA在軌無防護(hù)條件下由于單粒子軟錯誤導(dǎo)致功能異常的頻次PF2;然后計算相似FPGA在考慮資源使用情況后的單粒子翻轉(zhuǎn)率PM2;再比較當(dāng)前FPGA和相似FPGA的結(jié)構(gòu)復(fù)雜性,確定結(jié)構(gòu)復(fù)雜度系數(shù)βc,從而得到未采取防護(hù)措施情況下,當(dāng)前FPGA在軌由于單粒子軟錯誤導(dǎo)致功能異常的頻次PF1為: (4) 3)利用同型號FPGA數(shù)據(jù),計算當(dāng)前FPGA功能異常率。 首先依據(jù)同型號FPGA采取特定單粒子防護(hù)措施前后的效果比對數(shù)據(jù),確定防護(hù)系數(shù)βP(即采取措施前后的錯誤率之比);然后得到當(dāng)前FPGA的單粒子功能異常率Po為: (5) 以上方法既考慮了FPGA在器件固有設(shè)計和應(yīng)用設(shè)計中采取單粒子防護(hù)措施后的效果,又考慮了FPGA在實際應(yīng)用條件下由單粒子軟錯誤向最終功能異常傳播的可能性,可以快速得到預(yù)估值,從而實現(xiàn)在導(dǎo)航衛(wèi)星設(shè)計階段快速判斷設(shè)計符合性和進(jìn)行設(shè)計迭代。 某導(dǎo)航衛(wèi)星的基本任務(wù)是:接收地面控制系統(tǒng)注入的導(dǎo)航電文,并存儲、處理生成導(dǎo)航信號,向地面控制系統(tǒng)和用戶發(fā)送。衛(wèi)星導(dǎo)航信號中斷頻次要求為小于0.5 次/年。 衛(wèi)星包括有效載荷和平臺兩部分。有效載荷的基本構(gòu)成包括導(dǎo)航、天線分系統(tǒng),平臺的基本構(gòu)成包括控制、推進(jìn)、綜合電子、測控、供配電、熱控和結(jié)構(gòu)分系統(tǒng)。 衛(wèi)星系統(tǒng)級功能樹如圖2所示。 圖2 某導(dǎo)航衛(wèi)星系統(tǒng)級功能樹 首先,依據(jù)衛(wèi)星軟硬件功能及冗余設(shè)計情況,分析各分系統(tǒng)和導(dǎo)航衛(wèi)星中斷的相關(guān)性。分析表明,分系統(tǒng)A的故障會引起導(dǎo)航衛(wèi)星中斷。進(jìn)一步依據(jù)分系統(tǒng)A的設(shè)計信息,分析各設(shè)備和導(dǎo)航信號生成與播發(fā)的關(guān)系,確定可能導(dǎo)致導(dǎo)航衛(wèi)星中斷的底事件。分析結(jié)果如表3所示。 表3 分系統(tǒng)A中設(shè)備和衛(wèi)星中斷的關(guān)系 根據(jù)中斷相關(guān)性分析結(jié)果,建立導(dǎo)航衛(wèi)星中斷樹如圖3所示。根據(jù)以往歷史數(shù)據(jù)確定各底事件相對頂事件的影響因子。 圖3 某導(dǎo)航衛(wèi)星中斷樹 結(jié)合表3的分析,圖3的底事件發(fā)生頻次可分為兩類: 1)設(shè)備A2、A3、A4由于單粒子事件引起功能中斷的頻次。 2)設(shè)備A2、A3、A4的失效率。 應(yīng)用本文提出的FPGA器件功能異常率的預(yù)估方法,以設(shè)備A2為例計算功能中斷頻次如下。 1)設(shè)備A2選用了1片300萬門FPGA,若發(fā)生單粒子事件可能引起導(dǎo)航信號中斷,依據(jù)該器件的資源占用率和廠家提供的單粒子本征翻轉(zhuǎn)率,得到修正后的單粒子翻轉(zhuǎn)率PM1為2.4 次/天。 2)與該FPGA功能相似但未采取三模冗余、定時刷新等措施的相似FPGA,經(jīng)統(tǒng)計已累計在軌飛行16年,發(fā)生由于單粒子事件引起的異常20次,其頻次PF2為0.0034 次/天。 3)根據(jù)式(2)中相似FPGA的資源占用率和其單粒子本征翻轉(zhuǎn)率,得到相似FPGA修正后的單粒子翻轉(zhuǎn)率PM2為0.8 次/天。則結(jié)構(gòu)復(fù)雜度系數(shù)βc=3。 4)由此得到設(shè)備A2的FPGA未采取防護(hù)措施時的功能異常率為: PF1=βcPF2=3×0.0034=0.0102(次/天) 5)根據(jù)地面試驗結(jié)果,與該FPGA設(shè)計相似的同型號FPGA采取單粒子防護(hù)措施前后的效果比對,其防護(hù)系數(shù)βP=50。因此,設(shè)備A2的功能中斷頻次為: 設(shè)備A2的失效率可通過可靠性預(yù)計得到。同理可得其他設(shè)備的底事件基礎(chǔ)數(shù)據(jù)。最后計算、匯總各底事件的發(fā)生頻次如表4所示。 表4 中斷底事件發(fā)生頻次 由圖3可知,該導(dǎo)航衛(wèi)星中斷頻次為: (6) 將圖3和表4的基礎(chǔ)數(shù)據(jù)代入式(6)中,計算得該導(dǎo)航衛(wèi)星中斷頻次為0.26 次/年,滿足小于0.5 次/年的指標(biāo)要求。 研究采用合理的方法計算導(dǎo)航衛(wèi)星中斷頻次指標(biāo),有效開展可用性量化設(shè)計,是保證衛(wèi)星導(dǎo)航系統(tǒng)長期連續(xù)可用的基本途徑。本文面向?qū)Ш叫l(wèi)星中斷頻次分析的工程需求,針對中斷頻次分析的幾個關(guān)鍵問題,提出了具體實施方法,并在北斗導(dǎo)航衛(wèi)星工程中得到應(yīng)用。該方法的重點(diǎn)在于通過相關(guān)性分析快速定位底層中斷事件,通過中斷樹建立指標(biāo)分析模型,利用在軌數(shù)據(jù)、地面試驗數(shù)據(jù)快速預(yù)估得到底層功能異常率,從而系統(tǒng)地給出了中斷頻次的分析驗證方案。這在工程設(shè)計階段對導(dǎo)航衛(wèi)星可用性的迭代改進(jìn)具有重要支撐意義。3.3 獲取底事件發(fā)生頻次
4 中斷頻次分析示例
4.1 某導(dǎo)航衛(wèi)星簡介
4.2 導(dǎo)航衛(wèi)星中斷相關(guān)性分析
4.3 建立中斷樹
4.4 獲取底事件基礎(chǔ)數(shù)據(jù)
4.5 計算中斷頻次
5 結(jié)論