梁健 張潤寧 趙帥
(1 航天東方紅衛(wèi)星有限公司,北京 100094)(2 西北工業(yè)大學(xué),西安 710072)
一種針對COTS器件的抗輻射加固方法
梁健1張潤寧1趙帥2
(1 航天東方紅衛(wèi)星有限公司,北京 100094)(2 西北工業(yè)大學(xué),西安 710072)
隨著商用現(xiàn)貨(COTS)器件在空間任務(wù)中的廣泛應(yīng)用,COTS器件的抗輻射加固顯得尤為重要,針對COTS器件在空間環(huán)境下易受宇宙射線和高能粒子沖擊而產(chǎn)生輻射效應(yīng)的特點,文章結(jié)合三模冗余(TMR)技術(shù)與現(xiàn)場可編程門陣列(FPGA)的重構(gòu)技術(shù),提出了一種基于TMR的可重構(gòu)星載處理單元抗輻射加固方法。通過基于Markov過程的可靠度分析可知,冗余和重構(gòu)技術(shù)相結(jié)合可以使處理單元具有更強(qiáng)的容錯能力。文章利用實驗?zāi)M驗證了該星載處理單元的各項關(guān)鍵技術(shù),結(jié)果表明:此處理單元能夠屏蔽單模故障,并能夠定位和修復(fù)由空間復(fù)雜環(huán)境引發(fā)的軟錯誤。
星載處理單元;冗余;可重構(gòu);商用現(xiàn)貨
空間環(huán)境中存在較多的宇宙射線和高能粒子,運行在這種復(fù)雜環(huán)境下的航天器的計算系統(tǒng)很容易受到這些粒子和射線的沖擊而產(chǎn)生輻射效應(yīng)。當(dāng)前,在空間處理系統(tǒng)中,現(xiàn)場可編程門陣列(FPGA)以其低功耗、靈活性、通用性、高集成性等優(yōu)點獲得了廣泛的應(yīng)用?;陟o態(tài)隨機(jī)存儲器(SRAM)型的商用現(xiàn)貨(COTS)FPGA器件很容易受到高能粒子的影響而產(chǎn)生輻射效應(yīng)[1-3]。而基于Flash架構(gòu)的FPGA器件有較強(qiáng)的抗輻射性能,對由空間高能粒子引發(fā)的固件錯誤具有免疫能力,但是基于Flash架構(gòu)的FPGA器件邏輯資源有限,不具備嵌入式軟處理器的能力,故運算和處理能力受限,直接應(yīng)用于復(fù)雜的星務(wù)管理和運算具有一定的局限性[4-5]。
傳統(tǒng)的三模冗余(TMR)技術(shù)可以有效屏蔽單模故障,但表決器本身并不具備抗輻射能力,或者表決器由簡單的邏輯開關(guān)組成,控制與協(xié)調(diào)能力不足[6-7]。此外,F(xiàn)PGA的可重構(gòu)特性也能有效修復(fù)由輻射引發(fā)的軟錯誤,但重構(gòu)過程會引起星上部分任務(wù)的中斷[8]。
本文提出一種將TMR與FPGA重構(gòu)技術(shù)相結(jié)合的星載處理單元抗輻射加固方法,三模處理模塊采用Altera公司基于SRAM的Cyclone系列COTS器件,表決器采用美國Actel公司的基于Flash架構(gòu)的ProASIC系列COTS器件,該星載處理單元能夠屏蔽單模錯誤,并且能夠在不中斷星上任務(wù)的前提下,修復(fù)由單粒子翻轉(zhuǎn)(SEU)引起的軟錯誤。
基于TMR及重構(gòu)技術(shù)的星載處理單元方案設(shè)計示意如圖1所示。
圖1 方案示意圖Fig.1 Scheme design overview
三模處理模塊主要進(jìn)行星務(wù)管理、導(dǎo)航及控制算法的執(zhí)行,三模處理模塊執(zhí)行相同的功能,將運算結(jié)果傳輸?shù)奖頉Q器,表決器控制并協(xié)同三模處理模塊表決輸出正確的運算結(jié)果。
2.1 表決技術(shù)
表決技術(shù)采用三選二的多數(shù)表決器,當(dāng)三模輸出相同時,表決正常輸出,當(dāng)三模結(jié)果不一致時,按三選二多數(shù)表決原則輸出表決結(jié)果。并定位錯誤,隔離該模輸出,對其進(jìn)行重構(gòu)修復(fù),修復(fù)完成后,通過現(xiàn)場恢復(fù)重新組成新的三模冗余結(jié)構(gòu),若修復(fù)失敗,則進(jìn)行余度降級,根據(jù)優(yōu)先級進(jìn)行輸出,直至任務(wù)失敗。
2.2 在線重構(gòu)技術(shù)
在線重構(gòu)技術(shù)主要解決由單粒子翻轉(zhuǎn)等輻射效應(yīng)引起的瞬態(tài)故障,當(dāng)某一模處理模塊出現(xiàn)故障時,表決器定位故障,然后隔離故障模塊輸出,發(fā)送重構(gòu)指令,開始重構(gòu)過程。
重構(gòu)是對FPGA所有內(nèi)置的邏輯單元(Logic Element,LE)單元進(jìn)行重配置,F(xiàn)PGA的配置電路如圖2所示,重構(gòu)過程可以通過拉低配置引腳nCONFIG實現(xiàn)。nCONFIG引腳必須處于低電平至少500 ns,F(xiàn)PGA器件被復(fù)位。當(dāng)nCONFIG返回到邏輯高電平時,重構(gòu)開始運行。nCONFIG引腳由表決器控制,對于重構(gòu)無法修復(fù)的故障,可以將該故障類型定義為永久故障,則開始余度降級。
圖2 配置電路Fig.2 Circuit of configuration
2.3 現(xiàn)場恢復(fù)技術(shù)
利用重構(gòu)技術(shù)解決瞬態(tài)故障以后,需利用現(xiàn)場恢復(fù)技術(shù)實現(xiàn)余度升級,現(xiàn)場恢復(fù)完成后必須要求各模塊具有相同的上下文,以保證各模塊的同步和表決輸入有效[9]。
現(xiàn)場恢復(fù)過程采用前向恢復(fù)的方法保證恢復(fù)后的三模同步,即故障修復(fù)后的模塊拷貝當(dāng)前正常工作模塊的狀態(tài)信息,三模同時以該狀態(tài)開始運行。
根據(jù)任務(wù)需求及各關(guān)鍵技術(shù)的設(shè)計方案,星載處理單元的硬件電路主要包括三模以Cyclone系列FPGA為核心的處理模塊,以及以ProASIC系列FPGA為核心的表決器組成。
以Cyclone系列FPGA為處理核心的處理模塊硬件構(gòu)成如圖3所示,該模塊采用了基于可編程片上系統(tǒng)(System on Programmable Chip,SOPC)的設(shè)計,SOPC作為一種靈活高效的嵌入式解決方案,通過IP核的方式實現(xiàn)了系統(tǒng)功能的高度集成。
該處理模塊主要由一個SOPC的最小系統(tǒng)以及星載處理器必要的接口組成,其中各模之間狀態(tài)信息的交互采用TTL電平的UART協(xié)議進(jìn)行,重構(gòu)控制和故障隔離通過GPIO接口實現(xiàn),基于SOPC的設(shè)計使星載處理單元具有良好的擴(kuò)展性,而不必大幅增加成本和體積。
以ProASIC系列FPGA為處理核心的表決器硬件構(gòu)成如圖4所示,其中時鐘電路通過全局時鐘網(wǎng)絡(luò)提供的48 MHz的時鐘進(jìn)行驅(qū)動,該器件是基于Flash架構(gòu)的,其配置信息在掉電后并不會被擦除,故并不需要外部配置器件。
圖3 以Cyclone處理器為核心的處理模塊Fig.3 Processing module based on Cyclone device
圖4 以ProASIC處理器為核心的表決器Fig.4 Voting module based on ProASIC device
可修復(fù)TMR處理單元可靠度的分析是基于隨機(jī)過程理論進(jìn)行的,當(dāng)各模塊的壽命、修復(fù)時間與其他相關(guān)分布服從指數(shù)分布時,可以用馬爾科夫過程來描述[10-12]。
4.1 馬爾科夫模型
對于圖1所示的三模冗余處理單元,假設(shè)單模故障率為λ、重構(gòu)修復(fù)率為μ,并且壽命與重構(gòu)修復(fù)時間服從指數(shù)分布,即某一模在時刻t處于正常狀態(tài),而在時刻t+Δt處于失效工作狀態(tài)的概率為1-e-λΔt,將其按級數(shù)展開,對于較小的Δt,可簡化為1-e-λΔt≈λΔt,同理單模由失效工作狀態(tài)在Δt之后變?yōu)檎9ぷ鳡顟B(tài)的概率為μΔt。該處理單元的馬爾科夫狀態(tài)可以描述為如下。
(1) 狀態(tài)0:表示三模正常工作;
(2)狀態(tài)1:表示單模故障,重構(gòu)修復(fù);
(3)狀態(tài)2:表示處理單元故障,三模輸出不一致。
星載處理單元的馬爾科夫模型如圖5所示,其中星載處理單元由正常工作狀態(tài)0進(jìn)入狀態(tài)1,即三模任意一模發(fā)生故障,其概率為3λΔt,保持狀態(tài)0的概率為1-3λΔt;由狀態(tài)1進(jìn)入狀態(tài)2,即其余兩模任意一模發(fā)生故障的概率為2λΔt,由狀態(tài)1通過重構(gòu)修復(fù)進(jìn)入狀態(tài)0的概率為μΔt,保持狀態(tài)1的概率為1-2λΔt-μΔt;狀態(tài)2中兩模故障,只有對故障模塊進(jìn)行重構(gòu)才有可能恢復(fù)到狀態(tài)1,故由狀態(tài)2通過修復(fù)進(jìn)入狀態(tài)1的概率為2μΔt/3,則保持狀態(tài)2的概率為1-2μΔt/3。
圖5 星載處理單元的馬爾科夫模型Fig.5 Markov model of the processing unit
4.2 可靠度計算
處理單元離散時間馬爾科夫模型為
(1)
(2)
整理并令Δt→0,則將式(1)寫為微分方程組的形式為
(3)
假設(shè)處理單元的初始狀態(tài)為正常工作,式(2)的初始條件為
(4)
利用拉普拉斯變換將式(2)變換為線性方程組,求解得P(s)=[P0(s)P1(s)P2(s)]T,再經(jīng)過拉普拉斯反變換即可得到式(2)的微分方程的解P(t)=[P0(t)P1(t)P2(t)]T,則處理單元的可靠度可表示為
(5)
式中:P0(t)為t時刻狀態(tài)0的概率,P1(t)為t時刻狀態(tài)1的概率。
4.3 可靠度仿真分析
若配置位翻轉(zhuǎn)率采用商用FPGA公司發(fā)布的器件翻轉(zhuǎn)率4.4×10-7/(bit·d)[13],假設(shè)FPGA中運行的配置數(shù)據(jù)為15 Kbyte,則單模故障率為λ=6.6×10-3/d,即一天后失效的概率為6.6×10-3,該星載處理單元的可靠度分析如圖6所示。
圖6 星載處理單元可靠度分析Fig.6 Reliability analysis of the on-board processing unit
由圖6可以看出,隨著星載處理單元工作時間的增加,可靠度逐漸降低,傳統(tǒng)的三模冗余處理單元在有模塊故障后可靠度急劇下降,而具有重構(gòu)修復(fù)能力的三模冗余處理單元通過重構(gòu)修復(fù)在提高可靠度的同時能夠減緩可靠度的下降速率,且重構(gòu)修復(fù)率越大,其可靠度越高,可靠度隨時間下降的速率也越小。
基于星載處理單元的硬件平臺,注入各關(guān)鍵技術(shù)的驗測測試軟件,利用四通道的示波器觀測對應(yīng)信號的輸出,各關(guān)鍵技術(shù)進(jìn)行實驗測試與驗證分析。
5.1 表決技術(shù)實驗驗證
表決過程中的關(guān)鍵技術(shù)之一是各模的同步,即保證表決器接收的運算結(jié)果來自三模處理模塊的同一個計算周期,否則表決將失去意義。
星載處理單元采用的同步機(jī)制為任務(wù)同步的方法,即通過相互握手的ACK信號來保證各模塊之間的同步,一個周期的表決流程如圖7所示,三模處理模塊在收到表決器的周期控制信號后才更新運算結(jié)果,而表決器在完成三模數(shù)據(jù)接收后返回周期控制信號,這樣的方法嚴(yán)格保證了表決過程中的同步。
圖7 一個周期表決流程圖Fig.7 Voting flow chart of one operation cycle
表決技術(shù)實驗驗證結(jié)果如圖8所示,其中信號[1]、[2]、[3]為三模處理模塊的輸出,信號[4]為以表決器返回的周期控制信號,由圖8中可以看出,三模輸出嚴(yán)格受周期控制信號的控制,各模輸出同步。
圖8 表決實驗驗證Fig.8 Experimental verification of voting process
5.2 在線重構(gòu)技術(shù)實驗驗證
在線重構(gòu)技術(shù)實驗驗證結(jié)果如圖9所示。
圖9 重構(gòu)實驗驗證Fig.9 Experimental verification of reconfiguration
其中信號[1]為nCONFIG重構(gòu)控制信號,信號[2]為用戶程序輸出,信號[3]為重構(gòu)數(shù)據(jù)DATA信號,信號[4]為CONFIG_DONE配置完成信號。
重構(gòu)流程如下:
(1)信號[2]用戶程序正常工作;
(2)信號[1]nCONFIG拉低,F(xiàn)PGA被復(fù)位,信號[4]CONFIG_DONE也拉低;
(3)信號[1]nCONFIG出現(xiàn)由低到高的跳變,重構(gòu)開始,信號[3]DATA被鎖存到FPGA;
(4)信號[4]CONFIG_DONE變?yōu)楦唠娖?,表明配置過程完成,開始執(zhí)行用戶軟件應(yīng)用,軟件應(yīng)用執(zhí)行完成后,用戶輸出正常,完成一個重構(gòu)周期。
5.3 現(xiàn)場恢復(fù)技術(shù)實驗驗證
現(xiàn)場恢復(fù)實則是余度降級后的升級過程,重構(gòu)完成后的模塊從正常工作模塊中讀取狀態(tài)信息,實現(xiàn)余度升級,各模塊之間狀態(tài)信息的交換采用UART協(xié)議進(jìn)行傳輸,實驗驗證結(jié)果表明:正常工作處理模塊發(fā)送的數(shù)據(jù)幀能夠準(zhǔn)確無誤地被重構(gòu)完成的模塊所接收,然后三模處理模塊按該狀態(tài)信息同步運行,完成余度的升級。
本文提出了一種基于TMR與FPGA可重構(gòu)技術(shù)的星載處理單元抗輻射加固方法,與傳統(tǒng)的三模冗余結(jié)構(gòu)相比,采用ProASIC系列FPGA為處理核心的表決器,可以在保證表決器滿足抗輻射性能要求的基礎(chǔ)上有效提高其控制與協(xié)調(diào)能力,能夠準(zhǔn)確定位并控制修復(fù)單模故障,同時TMR與FPGA重構(gòu)技術(shù)相結(jié)合的設(shè)計方法,能夠提高處理單元的容錯與糾錯能力。此外,與傳統(tǒng)的重構(gòu)修復(fù)方法相比,此抗輻射加固方法并不會由于重構(gòu)修復(fù)導(dǎo)致星上任務(wù)的中斷,只是進(jìn)行余度降級,重構(gòu)修復(fù)完成后,通過現(xiàn)場恢復(fù)實現(xiàn)余度升級,重新組成三模冗余結(jié)構(gòu)。
本文利用馬爾科夫模型對可靠度進(jìn)行了分析,分析結(jié)果表明:在故障率為λ=6.6×10-3/d時,當(dāng)重構(gòu)修復(fù)率μ=0.03時,星載處理單元300d后的可靠度為0.942 3,最后基于設(shè)計的硬件平臺,對該處理單元中的關(guān)鍵技術(shù)進(jìn)行了實驗驗證,由基于模型的分析和實驗驗證結(jié)果可以看出,該處理單元相對于傳統(tǒng)的三模冗余結(jié)構(gòu)具有更高的可靠性,并且各關(guān)鍵技術(shù)的設(shè)計得到了實驗驗證,證明抗輻射加固方法的實現(xiàn)對COTS器件應(yīng)用于空間領(lǐng)域具有重要意義。
)
[1] 邢克飛,何偉,楊俊.COTS器件的空間應(yīng)用技術(shù)研究[J].計算機(jī)測量與控制,2011,19(7):1741-1745
XingKefei,HeWei,YangJun.StudyonspaceapplicationtechniqueofCOTScomponents[J].ComputerMeasurement&Control,2011,19(7):1741-1745 (inChinese)
[2]鄭曉云,王紹舉.SRAM型FPGA單粒子翻轉(zhuǎn)模擬系統(tǒng)研究[J].紅外與激光工程,2014,43(z):164-168
ZhengXiaoyun,WangShaoju.SRAM-basedFPGASEUsimulationsystem[J].InfraredandLaserEngineering,2014,43(z):164-168 (inChinese)
[3]張超,趙偉,劉崢.基于FPGA的三模冗余容錯技術(shù)研究[J].現(xiàn)代電子技術(shù),2011,34(5):167-171
ZhangChao,ZhaoWei,LiuZheng.ResearchofTMR-basedfault-tolerancetechniquesbasedonFPGA[J].ModernElectronicsTechnique,2011,34(5):167-171 (inChinese)
[4]ActelCorporation.ProAsic3FlashfamilyFPGAshandbook[Z].NewYork:ActelCorporation,2009:1-15
[5]WangJJ,BrianCronquist,JohnMcCollum,etal.SingleeventeffectsofaFlashbasedFPGA[C]//SingleEventEffectsSymposium.Manhattan:AerospaceCorporation,2002:1-21
[6]GrantLSmith,LoudelaTorre.TechniquestoenableFPGAbasedreconfigurablefaulttolerantspacecomputing[C]//ProceedingsoftheAerospaceConference.NewYork:IEEE,2006:1-11
[7]JianFu,ChunyuanZhang.Thefault-tolerantdesigninspaceinformationprocessingsystembasedonCOTS[C]//2009SecondInternationalWorkshoponComputerScienceandEngineering.NewYork:IEEE,2009:568-571
[8]李昆吉.FPGA動態(tài)可重構(gòu)技術(shù)及其應(yīng)用研究[D].哈爾濱:哈爾濱工業(yè)大學(xué)電氣工程學(xué)院,2012
LiKunji.ResearchondynamicallyreconfigurabletechnologyanditsapplicationbasedonFPGA[D].Harbin:HarbinInstituteofTechnologySchoolofElectricEngineering,2012 (inChinese)
[9]LegatU,BiasizzoA,NovakF.SEUrecoverymechanismforSRAM-basedFPGAs[J].IEEETransactionsonNuclearScience,2012,59(5):2562-2571
[10] 張文龍.航天應(yīng)用FPGA可靠性設(shè)計[D].西安:西安電子科技大學(xué),2014
ZhangWenlong.ThereliabilitydesignforFPGAapplication[D].Xi’an:XidianUniversity,2014 (inChinese)
[11]姚睿,王友仁,于盛林.具有在線修復(fù)能力的強(qiáng)容錯三模冗余系統(tǒng)設(shè)計及實驗研究[J].電子學(xué)報,2010,38(1):177-183
YaoRui,WangYouren,YuShenglin.Designandexperimentsofenhancedfault-toleranttriplemoduleredundancysystemscapableofonlineself-repairing[J].ChineseJournalofElectronics,2010,38(1):177-183 (inChinese)
[12]王麗華,徐志根,王長林.可維修三模冗余結(jié)構(gòu)系統(tǒng)的可靠度與安全性分析[J]. 西南交通大學(xué)學(xué)報,2002,37(1):103-107
WangLihua,XuZhigen,WangChanglin.Reliabilityandsecurityanalysisof3-moduleredundancysystemwithonemaintainableunit[J].JournalofSouthwestJiaotongUniversity,2002,37(1):103-107 (inChinese)
[13]宋凝芳,秦姣梅,潘雄.SRAM型FPGA單粒子效應(yīng)逐位翻轉(zhuǎn)故障注入方法[J].北京航空航天學(xué)報,2012,38(10): 1285-1289
SongNingfang,QinJiaomei,PanXiong.EvaluatingSEUeffectsinSRAM-basedFPGAwithbit-by-bitupsetfaultinjection[J].JournalofBeijingUniversityofAeronauticsandAstronautics,2012,38(10): 1285-1289 (inChinese)
(編輯:張小琳)
A Radiation Hardened Method Based on COTS Components
LIANG Jian1ZHANG Running1ZHAO Shuai2
(1 DFH Satellite Co.,Ltd.,Beijing 100094,China) (2 Northwestern Polytechnical University,Xi’an 710072,China)
With the COTS (commercial-off-the-shelf) components widely used in space missions,the radiation hardening technology is particularly important for COTS components. The COTS components under the complicated space environment are vulnerable to the effect of cosmic rays and high energy particles. These effects will lead to radiation effects. A design method of on-board processing unit based on TMR(triple modular redundancy) and reconfiguration technology of FPGA (Field Programmable Gate Array) is discussed. The reliability analysis based on Markov processes shows that the combination of redundancy and reconfiguration will further improve the reliability. The key technologies of this processing unit are tested and validated. This processing unit can effectively shield single-mode failures,and it also can locate and repair the soft error.
on-board processing unit; redundancy; reconfigurable; COTS
2016-04-28;
2016-06-20
梁健,男,博士研究生,研究方向為航天器電子系統(tǒng)設(shè)計。Email:liangjiancast@163.com。
V473
A
10.3969/j.issn.1673-8748.2016.04.013