姜 宏,楊孟飛,劉 波,劉鴻瑾,龔 健
(1. 北京控制工程研究所,北京 100190; 2. 中國空間技術(shù)研究院,北京 100094)
SpaceWire[1]是由歐空局和英國Dundee大學(xué)于2000年共同制定的航天總線標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)于2003年、2005年、2008年和2010年經(jīng)過了多次更新和補(bǔ)充后形成目前較完善的標(biāo)準(zhǔn)體系。在SpaceWire標(biāo)準(zhǔn)的基礎(chǔ)上,本文在前期工作中研制了高速SpaceWire協(xié)議IP[2],將200 Mbps的傳輸速率提速到1 Gbps以上,可滿足高速數(shù)據(jù)傳輸?shù)男枨蟆5?,作為一種航天數(shù)據(jù)總線,除了要滿足高速傳輸要求外,更重要的是保證系統(tǒng)的可靠性。
總線系統(tǒng)的可靠性一方面取決于協(xié)議本身的檢錯和糾錯能力,另一方面取決于實現(xiàn)環(huán)節(jié)的技術(shù)手段。本文實現(xiàn)的高速SpaceWire協(xié)議IP,其物理載體是SRAM型的FPGA芯片。由于空間輻照作用,這種FPGA芯片如果在空間工作極易受到單粒子翻轉(zhuǎn)效應(yīng)(Single event upset,SEU)的影響而導(dǎo)致功能失效,從而使系統(tǒng)可靠性顯著下降。為解決這個問題,國內(nèi)外學(xué)者提出了很多針對SRAM型FPGA的抗輻射加固容錯技術(shù)[3-6],從空間、時間等多個維度開展冗余設(shè)計,提高系統(tǒng)容錯能力。在這些技術(shù)中,三模冗余(Triple modular redundancy,TMR)[7-8]是最具有代表性的。
三模冗余方法首先由馮·諾依曼于1956年提出,核心思想是將原設(shè)計克隆出三份,每一份都單獨工作并輸出一組信號,然后對三組輸出信號進(jìn)行三取二表決,最后給出表決后的輸出結(jié)果。
傳統(tǒng)TMR方法對于系統(tǒng)可靠性雖然有較大的改善,但是付出的資源代價和獲得的可靠性之間的性價比不高。因此,研究人員提出了選擇性三模冗余(Selective TMR)[9]和部分三模冗余(Partial TMR)[10]。在這類方法中,部分三模冗余(又被稱為分層三模冗余[11-12])最具有代表性,其特點是以更細(xì)的粒度開展設(shè)計,將原設(shè)計切割為多個部分或階段,對每個部分做三模冗余,從而形成一系列三模冗余子系統(tǒng)。雖然部分三模冗余會提高系統(tǒng)可靠性,但是如果劃分過細(xì),數(shù)量龐大的表決器會成為系統(tǒng)可靠性的薄弱點,導(dǎo)致可靠性不升反降,因此表決器的數(shù)量不宜過多。
TMR雖然能夠在短時間內(nèi)對單個故障進(jìn)行容錯,但是隨著時間的推進(jìn)會發(fā)生錯誤的累積,進(jìn)而導(dǎo)致多個故障的發(fā)生,TMR方法會因此失效。于是針對SRMA型FPGA的加固設(shè)計,學(xué)者們提出了具有自刷新能力的TMR[13],從而能夠保證在很長的時間內(nèi)系統(tǒng)可靠運行。
然而,隨著航天器電子系統(tǒng)的通信和處理速度的不斷加快,F(xiàn)PGA等電子元器件的工作頻率越來越高,對空間輻照的影響越來越敏感,另外國內(nèi)外航天器的在軌壽命有不斷延長的趨勢,對包括SpaceWire協(xié)議IP在內(nèi)的FPGA邏輯設(shè)計的可靠性提出了更高要求。為滿足之一要求,一種方法是縮短FPGA模塊的刷新周期提高故障維修率,但是如果單純提高刷新頻率,會導(dǎo)致電子系統(tǒng)的功耗明顯增加,并且還會使系統(tǒng)的實時性變差。
為此,本文提出了一種針對SRAM型FPGA的TMR新方法——增強(qiáng)三模冗余(Enhanced TMR,ENTMR),該方法能夠在不縮短刷新周期的前提下,有效提高高速SpaceWire協(xié)議IP設(shè)計的可靠性。
在航天數(shù)據(jù)總線系統(tǒng)中,每個FPGA功能單元(簡稱單元)的故障率不是完全相同的,存在著一些可靠性薄弱點。假設(shè)系統(tǒng)的某個單模FPGA設(shè)計M共包含三個單元A,B,C(如圖1所示),其中A和B的輸出是C的輸入,并設(shè)B單元是易發(fā)生故障的關(guān)鍵單元(陰影線區(qū)域)。
圖1 原設(shè)計功能結(jié)構(gòu)Fig.1 Function structure of original design
對于圖1所示的系統(tǒng),傳統(tǒng)TMR不會對關(guān)鍵單元進(jìn)行區(qū)分,只是簡單的對原設(shè)計M整體做三模冗余設(shè)計。部分TMR有兩種策略:一種策略是只對關(guān)鍵單元做三模冗余,一般單元仍然是單模,這時雖然節(jié)省了資源,但犧牲了系統(tǒng)可靠性;另一種策略是對關(guān)鍵單元和一般單元都做三模冗余,這時對兩種單元的加固方法是一樣的,并未提供對關(guān)鍵單元的額外防護(hù)。
本文方法與TMR和部分TMR的不同點在于:不僅對一般單元做三模冗余,而且對關(guān)鍵單元做四模冗余[14]。對于單一信號的多模冗余,傳統(tǒng)四模冗余與三模冗余在FPGA兩次刷新之間都只能容忍1個故障,并無明顯優(yōu)勢,因此本文在此基礎(chǔ)上,借鑒故障順序出現(xiàn)情況下的系統(tǒng)診斷方法[15],提出了順序四模冗余(Sequential quad modular redundancy,SQMR),從而能夠使關(guān)鍵單元容忍的故障數(shù)大于1。
圖2 增強(qiáng)三模冗余示例Fig.2 Example of enhanced TMR
圖2是增強(qiáng)TMR方法的一個示例,在該例子中對圖1中的一般單元A和C都做三模冗余,對關(guān)鍵單元B做順序四模冗余。順序四模冗余要正常工作需滿足以下前提條件:
假設(shè)條件1. 在FPGA的相鄰兩次刷新之間,四模(例如圖2中的B1、B2、B3、B4)中兩個或兩個以上單元幾乎同時出錯的概率近似為0。
當(dāng)具備上述條件后,N模冗余(NMR)容錯系統(tǒng)能容忍的故障數(shù)t與N不必滿足N≥2t+1[16],從而當(dāng)N=4時,可容忍的故障數(shù)t可以大于1,方法如下:
(1)若在FPGA的相鄰兩次刷新之間,四模冗余結(jié)構(gòu)中只有一個單元發(fā)生故障,則顯然可通過多數(shù)原理進(jìn)行容錯;
(2)若在FPGA的相鄰兩次刷新之間,有兩個單元先后出錯,則當(dāng)?shù)谝淮五e誤出現(xiàn)時,可通過4選3排除,當(dāng)?shù)诙五e誤出現(xiàn)時,又可通過3選2排除。
為了防止錯誤累積,增強(qiáng)TMR系統(tǒng)還包含故障檢測模塊和FPGA的配置刷新(Configuration scrubbing)模塊。配制刷新對于提高SRAM型FPGA的可靠性非常重要,正如文獻(xiàn)[17]所強(qiáng)調(diào)的,如果FPGA不進(jìn)行配置刷新,當(dāng)多模冗余系統(tǒng)工作超過一段時間后,其可靠度會低于單模系統(tǒng)。
ENTMR系統(tǒng)中的主體部分是一般單元集,由于主體部分依然采用三模冗余方法,因此下面以傳統(tǒng)TMR和部分TMR作為參照來說明ENTMR的優(yōu)勢。
在如圖3所示的例子中(下劃線表示該路信號出錯),在FPGA模塊兩次刷新之間,M1中的關(guān)鍵單元B1出錯,M2中的關(guān)鍵單元B2出錯,從而M1和M2的輸出OC1和OC2都出錯,最終導(dǎo)致三模冗余方法失效。
圖3 三模冗余失效情況Fig.3 Fault case of TMR
如果采用部分三模冗余結(jié)構(gòu)(如圖4所示,下劃線表示該路信號出錯),將原設(shè)計M拆分為三部分,即:每個單元就是一個細(xì)分部分,然后對各部分做三模冗余,相應(yīng)的表決器有三個分別為V1,V2和V3。接下來假設(shè)關(guān)鍵單元B1和B2出錯,則OB1和OB2出錯,從而導(dǎo)致經(jīng)表決器V2輸出的OV2出錯,因此部分三模冗余方法失效。
圖4 部分三模冗余失效情況Fig.4 Fault case of partial TMR
由于增強(qiáng)TMR對關(guān)鍵單元做順序四模冗余,則按照圖2所示的結(jié)構(gòu),能夠在B1和B2先后出錯的情況下避免OB出錯,從而確保OM信號正確。
ENTMR方法的實現(xiàn)離不開表決器設(shè)計。本文ENTMR的表決器分為兩種:TMR表決器和SQMR表決器。
一般單元集內(nèi)的每個單元采用TMR表決器[18],如圖2中的表決器V1,其布爾表達(dá)式為:
VTMR=AB+AC+BC
(1)
式中:VTMR為TMR表決器的輸出,A,B,C為TMR結(jié)構(gòu)中的三個同構(gòu)單元的輸出并作為TMR表決器的三個輸入。
關(guān)鍵單元集中的每個單元采用SQMR表決器,如圖2中的表決器V2,其布爾表達(dá)式為:
VSQMR=F1F2F3F4(ABC+ABD+
BCD)+F1F2F3(AB+AC+
BC)+F1F2F4(AB+AD+
BD)+F1F3F4(AC+AD+
CD)+F2F3F4(BC+BD+
CD)+……
(2)
其中,F(xiàn)i(i=1, 2, 3, 4)是四個單元中第i個單元的無故障標(biāo)志。若Fi=1,表示未檢測出第i個單元發(fā)生故障,若Fi=0,表示檢測出第i個單元發(fā)生故障。由于這些標(biāo)志的存在,因此本文順序四模冗余的表決器是一種基于標(biāo)志的SQMR表決器。這些標(biāo)志信號可由故障檢測模塊提供。
式(2)與式(1)相比雖然表面上復(fù)雜度明顯增大,但是應(yīng)注意到式(2)中的標(biāo)志信號及相關(guān)布爾運算在帶有故障檢測模塊的系統(tǒng)中原本就已存在,這里只是在表決器中引進(jìn)來加以利用,并未多占資源。因此,實際上SQMR表決器新占的資源在QMR和TMR的基礎(chǔ)上增加有限。
本文在進(jìn)行傳統(tǒng)TMR、部分TMR和ENTMR方法的可靠性比較時考慮到傳統(tǒng)TMR方法的可靠性不高于部分TMR方法,且ENTMR與部分TMR對于一般單元的處理方式是相同的,因此將重點放在針對關(guān)鍵單元的SQMR和TMR的可靠度的計算和比對上。
對于TMR系統(tǒng),設(shè)系統(tǒng)中每個冗余單元的可靠度為Rm(t),則系統(tǒng)可靠度Rst(t)為:
(3)
對于SQMR,同樣假設(shè)每個冗余單元的可靠度為Rm(t),則系統(tǒng)可靠度Rss(t)為:
(4)
(5)
由式(3)和式(5)可得:
(6)
為了便于分析,將式(6)中的Rm(t)用x代替,并令該式為L(x)有:
L(x)=3x2-6x3+3x4
(7)
由于L(x)在(-∞, +∞)內(nèi)一階可導(dǎo),因此得到:
L′(x)=6x-18x2+12x3=6x(2x-1)(x-1)
(8)
分析式(8)可知,L(x)在x= 0.5處取得極大值,在x= 0和x= 1處取得極小值,從而當(dāng)x∈[0, 1]時,0.1875 ≥L(x) ≥ 0,即:
0.1875≥Rss(t) -Rst(t) ≥ 0
(9)
式(9)是關(guān)于關(guān)鍵單元的順序四模冗余和三模冗余方法的可靠度差值,同時也是ENTMR方法和部分TMR方法的可靠度的一般比較結(jié)果。但是不夠充分和直觀,下文將通過仿真方法給出進(jìn)一步的結(jié)果。
前文已提到,為了提高三模冗余設(shè)計的可靠性,本文采用了自刷新機(jī)制,從而使系統(tǒng)具備可維修能力。
由于電子系統(tǒng)(包含F(xiàn)PGA)發(fā)生故障的統(tǒng)計規(guī)律近似服從指數(shù)分布,在發(fā)生故障后可通過刷新進(jìn)行故障維修,并且各模塊的維修時間也近似服從指數(shù)分布,因此構(gòu)成了一個馬爾科夫可修系統(tǒng)[19]。
基于馬爾科夫可修系統(tǒng)的可靠性計算和仿真方法在電子系統(tǒng)中的應(yīng)用已經(jīng)比較成熟,下面將采用該方法首先建立增強(qiáng)三模冗余系統(tǒng)、傳統(tǒng)三模冗余系統(tǒng)和部分三模冗余系統(tǒng)的可靠性模型,然后進(jìn)行仿真分析和結(jié)果對比。
在對系統(tǒng)進(jìn)行可靠性建模和仿真分析時,由于包含多個關(guān)鍵單元和多個一般單元與包含1個關(guān)鍵單元和1個一般單元的方法和過程基本一致,為便于描述和計算這里只考慮原設(shè)計包含1個關(guān)鍵單元和1個一般單元的情況。則經(jīng)冗余后,系統(tǒng)共包含4個關(guān)鍵單元和3個一般單元。在此情況下,增強(qiáng)三模冗余系統(tǒng)運行的狀態(tài)空間包含如表1所示的7種狀態(tài):
表1 增強(qiáng)三模冗余系統(tǒng)狀態(tài)和相關(guān)說明Table 1 System states of ENTMR and related descriptions
在表1中,0、1、2、3、4、5都是未失效狀態(tài),狀態(tài)6是系統(tǒng)失效狀態(tài)。
設(shè)關(guān)鍵單元Ek在單位時間的失效次數(shù)(簡稱為失效率)為λ1,一般單元En的失效率為λ2,某個單元的單位時間維修次數(shù)(簡稱為維修率)為μ,再設(shè)在很短的時間Δt內(nèi)只會有一個單元發(fā)生故障,在Δt時間內(nèi)只能通過刷新修復(fù)一個單元的故障(因為部分重配置過程也需要耗費一定時間),則各個狀態(tài)之間的狀態(tài)轉(zhuǎn)換如圖5所示:
圖5 增強(qiáng)TMR的狀態(tài)轉(zhuǎn)換圖Fig.5 State chart of ENTMR
圖5中,各狀態(tài)之間的轉(zhuǎn)移概率如表2所示:
表2 轉(zhuǎn)移概率Table 2 Transition probability
注.由于某個單元發(fā)生故障的概率分布近似服從指數(shù)分布,且維修時間也近似服從指數(shù)分布,故當(dāng)Δt很小時,某單元在t時刻失效,在t+Δt時刻被修復(fù)的概率為1-e-μΔt,近似為μΔt,某個Ek單元和En單元在t時刻正常,在t+Δt時刻發(fā)生故障的概率分別為:1-e-λ1Δt和1-e-λ2Δt近似為λ1Δt和λ2Δt。
1)狀態(tài)轉(zhuǎn)換圖說明
在圖5中,狀態(tài)0為系統(tǒng)的初始狀態(tài),此時不論是關(guān)鍵單元還是一般單元都沒有發(fā)生任何故障。在此狀態(tài)下,當(dāng)有一個Ek發(fā)生故障后,進(jìn)入狀態(tài)1,當(dāng)有一個En發(fā)生故障后,進(jìn)入狀態(tài)2。
在狀態(tài)1下,若有一個En發(fā)生故障,則系統(tǒng)進(jìn)入狀態(tài)3,若有另一個Ek發(fā)生故障,則系統(tǒng)進(jìn)入狀態(tài)4,若故障被修復(fù)則系統(tǒng)進(jìn)入狀態(tài)0,否則停留在狀態(tài)1。
在狀態(tài)2下,若有一個Ek發(fā)生故障,則系統(tǒng)進(jìn)入狀態(tài)3,若有另一個En發(fā)生故障,則系統(tǒng)進(jìn)入狀態(tài)6,若故障被修復(fù)則系統(tǒng)進(jìn)入狀態(tài)0,否則停留在狀態(tài)2。
在狀態(tài)3下,若又有Ek發(fā)生故障,則系統(tǒng)進(jìn)入狀態(tài)5,若又有En發(fā)生故障,則系統(tǒng)進(jìn)入狀態(tài)6,若Ek的故障被修復(fù)則進(jìn)入狀態(tài)2,若En的故障被修復(fù)則進(jìn)入狀態(tài)1,其他情況下停留在狀態(tài)3。
在狀態(tài)4下,若又有En故障,則系統(tǒng)進(jìn)入狀態(tài)5,若又有Ek故障,則系統(tǒng)進(jìn)入狀態(tài)6,若故障被修復(fù)則系統(tǒng)進(jìn)入狀態(tài)1,否則停留在狀態(tài)4。
在狀態(tài)5下,若又有En故障或Ek故障,則系統(tǒng)進(jìn)入狀態(tài)6,若有一個Ek的故障被修復(fù)則進(jìn)入狀態(tài)3,若En的故障被修復(fù)則進(jìn)入狀態(tài)4,否則停留在狀態(tài)5。
在狀態(tài)6下,系統(tǒng)以概率1停留在狀態(tài)6。
2)Ek數(shù)為1的ENTMR系統(tǒng)可靠性計算
令增強(qiáng)三模冗余系統(tǒng)在t時和t+Δt時處于狀態(tài)0、狀態(tài)1、狀態(tài)2、狀態(tài)3、狀態(tài)4、狀態(tài)5、狀態(tài)6的概率分別為:Pe0(t),Pe1(t),Pe2(t),Pe3(t),Pe4(t),Pe5(t);Pe6(t),Pe0(t+Δt);Pe1(t+Δt);Pe2(t+Δt),Pe3(t+Δt),Pe4(t+Δt),Pe5(t+Δt),Pe6(t+Δt),則由表2可列出狀態(tài)轉(zhuǎn)移矩陣為:
(10)
再由系數(shù)矩陣Be=Ae-I(I為7階單位陣)可得到系統(tǒng)的狀態(tài)微分方程組為:
(11)
微分方程組(11)的初始條件為t= 0時系統(tǒng)未發(fā)生任何故障,即:Pe0(0)=1,Pe1(0)=0,Pe2(0)=0,Pe3(0)=0,Pe4(0)=0,Pe5(0)=0,Pe6(0)=0。
根據(jù)式(11)及初始條件求解出微分方程組的解,并得到關(guān)鍵單元個數(shù)為1時的增強(qiáng)TMR的可靠度Re(t)為:
Re(t)=Pe0(t)+Pe1(t)+Pe2(t)+
Pe3(t)+Pe4(t)+Pe5(t)
(12)
傳統(tǒng)三模冗余系統(tǒng)運行的狀態(tài)空間包含如表3所示的3種狀態(tài):
表3 傳統(tǒng)TMR系統(tǒng)狀態(tài)和相關(guān)說明Table 3 System states of TMR and related descriptions
在表3中,狀態(tài)0和狀態(tài)1是未失效狀態(tài),狀態(tài)2是系統(tǒng)失效狀態(tài)。當(dāng)超過兩個單元發(fā)生故障時,系統(tǒng)進(jìn)入狀態(tài)2。
設(shè)每個單元的失效率為λt,維修率為μ,同樣設(shè)在很短的時間Δt內(nèi)只會有一個單元發(fā)生故障,在Δt時間內(nèi)只能通過刷新修復(fù)一個單元的故障。令傳統(tǒng)三模冗余系統(tǒng)在t時和t+Δt時處于狀態(tài)0、狀態(tài)1、狀態(tài)2的概率分別為:Pt0(t),Pt1(t),Pt2(t),Pt0(t+Δt),Pt1(t+Δt),Pt2(t+Δt),由文獻(xiàn)[20]可得到TMR系統(tǒng)的狀態(tài)微分方程組為:
(13)
微分方程組(13)的初始條件為t= 0時系統(tǒng)未發(fā)生任何故障,即:Pt0(0)=1,Pt1(0)=0,Pt2(0)=0。
根據(jù)式(13)及初始條件對微分方程組求解,可得到傳統(tǒng)三模冗余系統(tǒng)的可靠度Rt(t)為:
Rt(t)=Pt0(t)+Pt1(t)
(14)
與增強(qiáng)TMR類似,這里也只考慮將原設(shè)計分割為2個單元時的情況。設(shè)單元1的失效率為λp1,單元2的失效率為λp2。再設(shè)部分TMR系統(tǒng)中由單元1構(gòu)成的TMR子系統(tǒng)的可靠度為Rp1(t),由單元2構(gòu)成的TMR子系統(tǒng)的可靠度為Rp2(t),所有故障單元的維修率都為μ。
若部分三模冗余系統(tǒng)包含多個TMR子系統(tǒng),則只有在所有子系統(tǒng)都可靠的時候系統(tǒng)才可靠。因此,對于包含2個TMR子系統(tǒng)的部分TMR系統(tǒng),其可靠度Rp(t)為:
Rp(t)=Rp1(t)·Rp2(t)
(15)
因為方程組(11)和(13)中存在多個不確定的參數(shù)不易直接得到解析解,所以本文在開展仿真時首先根據(jù)模型設(shè)定一組參數(shù),然后利用MATLAB軟件在給定參數(shù)下求解方程組,得到方程組(11)和(13)的結(jié)果,再由(12)、(14)和(15)計算出增強(qiáng)TMR、傳統(tǒng)TMR和部分TMR的可靠度數(shù)值。
對于增強(qiáng)TMR將原設(shè)計分割為一個關(guān)鍵單元(Ek)和一個一般單元(En),對于部分TMR不區(qū)分關(guān)鍵單元只是將原設(shè)計分割為兩個部分(這兩部分的失效率分別為λp1和λp2)。現(xiàn)在設(shè)原設(shè)計的失效率為λt,由于整體和局部的失效率的關(guān)系為:
1-λt=(1-λp1)(1-λp2)=(1-λ1)(1-λ2)
(16)
當(dāng)λ1,λ2,λp1,λp2都很小時,λp1λp2和λ1λ2相對可忽略,于是近似有:
λt=λp1+λp2=λ1+λ2
(17)
在仿真參數(shù)設(shè)置上,取λt=0.0002/h,維修率μ=0.8/h。根據(jù)式(17)將λt進(jìn)行分配,設(shè)參數(shù)λ1=0.00012/h,λ2=0.00008/h,λp1=λp2=0.0001/h。
仿真時間從0開始,到180000 h結(jié)束,各個時間點分別設(shè)置為:0 h,10000 h,20000 h,30000 h,40000 h,50000 h,60000 h,70000 h,80000 h,90000 h,100000 h,110000 h,120000 h,130000 h,140000 h,150000 h,160000 h,170000 h,180000 h。
根據(jù)上述設(shè)置(參數(shù)設(shè)置1),運行仿真后得到的可靠度數(shù)據(jù)如表4所示。
通過表4的數(shù)據(jù)可發(fā)現(xiàn),隨著系統(tǒng)運行時間的延長,三種方法的可靠度都在下降,但是增強(qiáng)TMR的可靠度下降速度最慢,部分TMR的可靠度下降速度約為增強(qiáng)TMR的3倍,傳統(tǒng)TMR的可靠度下降速度約為增強(qiáng)TMR的6倍。當(dāng)仿真運行到180000 h處時,增強(qiáng)TMR的可靠度最高,部分TMR的可靠度略低,傳統(tǒng)TMR的可靠度最低,且增強(qiáng)TMR的可靠度比傳統(tǒng)TMR高4.63%,比部分TMR高1.70%。如果航天器總體下達(dá)的任務(wù)期末的可靠度要求為0.975,則在此仿真條件下傳統(tǒng)TMR只能按要求工作9年,部分TMR為19年,增強(qiáng)TMR則能輕松超過40年。
表4 三種方法的可靠度對比Table 4 The comparison of three methods
由于增強(qiáng)TMR和部分TMR的可靠度較為接近,為了更直觀地將這兩種方法的可靠度進(jìn)行對比,將仿真參數(shù)按三種情況(Case1,Case2,Case3)進(jìn)行設(shè)定,在運行仿真360000 h后取二者可靠度之差與部分TMR可靠度原值的比值δ(t)(δ(t)=(Re(t)-Rp(t))/Rp(t))繪制了如圖6所示的點圖。
圖6 三種仿真參數(shù)下的δ(t)點圖Fig.6 The δ(t) plots under three parameters
δ(t)值越大反映的是增強(qiáng)TMR系統(tǒng)相比部分TMR系統(tǒng)的可靠性優(yōu)勢越大。由圖6可知,隨著時間t的變化,δ(t)的數(shù)值不是固定不變的,而是呈現(xiàn)出逐漸增大趨勢,這說明運行時間越久增強(qiáng)TMR方法的可靠性優(yōu)勢越顯著。在Case1下,增強(qiáng)TMR系統(tǒng)的360000 h可靠度比部分TMR略高(約為1%);在Case2下,增強(qiáng)TMR的360000 h可靠度比部分TMR高3%以上;在Case3下,增強(qiáng)TMR系統(tǒng)的360000 h可靠度比部分TMR高15%以上。上述結(jié)果表明:當(dāng)原設(shè)計的可靠性很高時,可靠度的提高不明顯,但是當(dāng)原設(shè)計的可靠性較低時,增強(qiáng)TMR系統(tǒng)能獲得明顯高于部分TMR的可靠度。這充分說明了增強(qiáng)TMR方法比部分TMR更適用于空間惡劣環(huán)境。
本文在傳統(tǒng)三模冗余和部分三模冗余的基礎(chǔ)上提出了增強(qiáng)三模冗余方法。該方法將原設(shè)計分割為一般單元集和關(guān)鍵單元集,對一般單元集的每個單元做三模冗余,對關(guān)鍵單元集的每個單元做順序四模冗余。通過這種混合冗余結(jié)構(gòu),使高速SpaceWire系統(tǒng)和薄弱單元的可靠性得到增強(qiáng)。
本文在提出ENTMR方法后給出了系統(tǒng)可靠性的計算公式和表決器的布爾表達(dá)式。在此基礎(chǔ)上,為了對增強(qiáng)三模冗余系統(tǒng)的可靠性進(jìn)行論證,首先針對典型場景(系統(tǒng)中包含1個一般單元和1個關(guān)鍵單元)建立了具有維修能力的增強(qiáng)三模冗余系統(tǒng)的馬爾科夫可靠性模型,并基于該模型利用MATLAB軟件開展仿真運算,獲得了系統(tǒng)可靠度的仿真數(shù)據(jù)。然后根據(jù)傳統(tǒng)TMR和部分TMR的馬爾科夫可靠性模型開展MATLAB仿真,又獲得了兩組可靠度仿真數(shù)據(jù)。接下來將三組數(shù)據(jù)進(jìn)行對比,得到如下結(jié)論:
1)增強(qiáng)TMR系統(tǒng)的可靠度不僅明顯高于傳統(tǒng)TMR,而且高于部分TMR。
2)在參數(shù)設(shè)置1和任務(wù)期末的可靠度要求為0.975的條件下,增強(qiáng)TMR系統(tǒng)的正常工作壽命是部分TMR系統(tǒng)的2倍多,是傳統(tǒng)TMR系統(tǒng)的4倍多。
最后按照三種參數(shù)設(shè)置運行仿真,對增強(qiáng)三模冗余系統(tǒng)和部分三模冗余系統(tǒng)的可靠性進(jìn)行了重點比較,仿真結(jié)果顯示:當(dāng)原設(shè)計的可靠性較低時,增強(qiáng)TMR系統(tǒng)能獲得明顯高于部分TMR系統(tǒng)的可靠度,在仿真參數(shù)Case3下,仿真運行到360000 h后,增強(qiáng)TMR系統(tǒng)比部分TMR系統(tǒng)的可靠度高15%以上,效果顯著;當(dāng)原設(shè)計的可靠性較高時,增強(qiáng)TMR系統(tǒng)的可靠度雖然高于部分TMR系統(tǒng),但效果并不明顯。上述仿真結(jié)果同時驗證了式(9)的正確性。