劉 婷,楊 博,于澤芳
(上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240)
在航天電子系統(tǒng)中,空間輻射環(huán)境帶來的單粒子效應(yīng)評(píng)估是系統(tǒng)可靠性的一個(gè)重要研究領(lǐng)域[1],其主要形式為器件的單位面積翻轉(zhuǎn)截面σ(單位cm2/bit)與重離子線性能量傳輸(Linear Energy Transfer,LET)(單位MeV/(mg/cm2))的關(guān)系曲線σ-LET,一般通過地面輻照實(shí)驗(yàn)數(shù)據(jù)和經(jīng)驗(yàn)?zāi)P停ㄈ鏦eibull 曲線)進(jìn)行推算。隨著衛(wèi)星系統(tǒng)功能日趨多樣化和復(fù)雜化,高性能處理器、現(xiàn)場可編程邏輯門陣列(Field Programmable Gate Array,F(xiàn)PGA)和大容量存儲(chǔ)器等先進(jìn)半導(dǎo)體器件被引入航天電子系統(tǒng)組成,用于滿足星載任務(wù)的算力和存儲(chǔ)需求。這些器件大多具有結(jié)構(gòu)復(fù)雜、可配置性強(qiáng)等特點(diǎn),體現(xiàn)在可調(diào)的電壓、運(yùn)行頻率、緩存機(jī)制、容錯(cuò)機(jī)制等方面。這些配置參數(shù)與來自空間環(huán)境的離子總劑量(Total Ionizing Dose,TID)、電磁干擾(Electromagnetic Interference,EMI)等環(huán)境因素一起,形成了影響真實(shí)環(huán)境下單粒子翻轉(zhuǎn)截面特性的多因素集合。然而,在現(xiàn)有常規(guī)輻照實(shí)驗(yàn)中,受限于實(shí)驗(yàn)條件和成本,測試通常很難覆蓋這些影響因素集合的可調(diào)范圍,導(dǎo)致σ-LET 評(píng)估結(jié)果的不準(zhǔn)確[2]。
國內(nèi)外已有部分研究通過變量控制的方式,分析輻照實(shí)驗(yàn)中多因素效應(yīng)對(duì)σ-LET 曲線的影響。BENFICA 等[3]通過協(xié) 同實(shí)驗(yàn)分 析了TID 和EMI 對(duì)FPGA 芯片單粒子翻轉(zhuǎn)(Single Event Upset,SEU)截面的影響,發(fā)現(xiàn)電源VDD 上的10%以上EMI噪聲和TID 帶來的印記效應(yīng)(Imprint Effect)均可能導(dǎo)致SEU 截面升高。ZHENG 等[4]發(fā)現(xiàn)在65 nm DICESRAM 中,TID 也會(huì)帶來SEU 翻轉(zhuǎn)截面的升高。VARGAS 等[5]提出了面向28 nm 多核處理器MPPA-256 的單粒子事件(Single Event Upset,SEE)測試方法,其中,動(dòng)態(tài)響應(yīng)測試通過改變CPU 運(yùn)行模式和緩存使能、使用動(dòng)態(tài)頻率/電壓、部署不同類型應(yīng)用等因素,分析單粒子失效截面的變化。姬慶剛等[6]分析了靜態(tài)隨機(jī)存取存儲(chǔ)器(Static Random-Access Memory,SRAM)器件中γ 射線模擬的TID 劑量對(duì)后續(xù)重離子SEU 截面的影響,發(fā)現(xiàn)在靜態(tài)和動(dòng)態(tài)場景下TID 越高,對(duì)SEU 敏感性影響越大,飽和截面也會(huì)明顯增大。王利斌等[7]通過脈沖激光粒子注入,發(fā)現(xiàn)在雙極電壓比較器電路中,TID 對(duì)單粒子瞬態(tài)效應(yīng)的影響取決于電路的工作狀態(tài)。由于目前多因素σ-LET實(shí)驗(yàn)缺乏統(tǒng)一規(guī)范,這些案例的實(shí)驗(yàn)條件通常差異較大,對(duì)應(yīng)結(jié)果的數(shù)據(jù)結(jié)構(gòu)化程度差,難以為通用場景下的σ-LET 評(píng)估中提供有意義的量化指導(dǎo)。
針對(duì)上述問題,本文基于現(xiàn)有多因素輻照實(shí)驗(yàn)數(shù)據(jù),提出了數(shù)據(jù)驅(qū)動(dòng)的多因素σ-LET 建模方法。首先,根據(jù)現(xiàn)有多因素σ-LET 實(shí)驗(yàn)結(jié)果構(gòu)建了非結(jié)構(gòu)化小樣本數(shù)據(jù)集,作為多因素σ-LET 預(yù)測的數(shù)據(jù)基礎(chǔ);其次,針對(duì)自建數(shù)據(jù)集中的樣本規(guī)模和特征維度有限問題,設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò)特征提取、小樣本學(xué)習(xí)匹配網(wǎng)絡(luò)特征融合和集成學(xué)習(xí)極端梯度提升(eXtreme Gradient Boosting,XGBoost)回歸的級(jí)連網(wǎng)絡(luò)結(jié)構(gòu),利用非結(jié)構(gòu)化小樣本數(shù)據(jù)集以端到端的方式訓(xùn)練級(jí)連網(wǎng)絡(luò),實(shí)現(xiàn)任意給定因素條件下的σ-LET 曲線預(yù)測,為多因素影響下的通用系統(tǒng)單粒子效應(yīng)評(píng)估提供了一種新方法。
根據(jù)美國國家航空航天局(NASA)及其合作廠商相關(guān)實(shí)驗(yàn)室的輻照實(shí)驗(yàn)數(shù)據(jù)[8-17],本研究收集了9種CPU 和3 種FPGA 共計(jì)128 組多因素單粒子輻照實(shí)驗(yàn)數(shù)據(jù),涉及的因素包括LET、輻照總劑量TID、電磁干擾EMI 頻率、數(shù)據(jù)位寬、工藝尺寸、存儲(chǔ)容量、時(shí)鐘頻率等,單個(gè)樣本的因素?cái)?shù)量從7 維到18維不等,取值包括布爾值、字符串、整數(shù)和浮點(diǎn)數(shù)等多種類型,樣本之間的特征重合程度較低。為了最大限度保留因素特征信息,本研究采用以下方式對(duì)原始的半結(jié)構(gòu)化特征數(shù)據(jù)進(jìn)行結(jié)構(gòu)化預(yù)處理。
1)空間映射。將所有字符串型特征映射為獨(dú)熱碼,對(duì)于缺失較多的非共有特征,擴(kuò)充對(duì)應(yīng)的布爾型屬性標(biāo)志特征維度,以此最大限度地保留屬性信息。
2)均值填充。對(duì)于僅有較少樣本缺失的特征,將同類型樣本器件該屬性的均值填入空缺的位置。
結(jié)構(gòu)化預(yù)處理后的小樣本數(shù)據(jù)集的特征維度擴(kuò)充至31 維,其定義見表1。對(duì)應(yīng)的結(jié)構(gòu)化特征空間A=(X1,X2,…,Xn) ∈R32×182,每個(gè)樣本Xi由1×31的特征向量xi和對(duì)應(yīng)的單粒子翻轉(zhuǎn)截面值標(biāo)量yi組成。因此,本研究的問題可以描述為在小樣本特征空間A上構(gòu)建xi到y(tǒng)i的連續(xù)映射f:xi→yi。
表1 輻照實(shí)驗(yàn)小樣本數(shù)據(jù)集中的結(jié)構(gòu)化因素特征定義Tab.1 Definitions of structured factor features in the few-shot dataset of radiation experiments
根據(jù)小樣本數(shù)據(jù)集樣本類別少和規(guī)模小等特點(diǎn),本文提出的預(yù)測模型結(jié)構(gòu)如圖1 所示,分為特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)3 個(gè)部分。
圖1 多因素翻轉(zhuǎn)截面預(yù)測模型結(jié)構(gòu)Fig.1 Structure of the multi-factor cross section prediction model
特征提取網(wǎng)絡(luò)用于學(xué)習(xí)單個(gè)樣本不同特征之間的關(guān)聯(lián)性,使用了3 層一維卷積層1D-Conv 和1層非線性激活層(ReLU)組成的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),所有卷積層均使用1×3 大小的卷積核。每個(gè)1×31 的輸入樣本xi的經(jīng)過特征提取網(wǎng)絡(luò)映射后轉(zhuǎn)化為1×27 的向量,輸入后續(xù)特征融合網(wǎng)絡(luò)。
特征融合網(wǎng)絡(luò)用于學(xué)習(xí)來自不同樣本特征之間的關(guān)聯(lián)性,使用了小樣本學(xué)習(xí)(Few-Shot Learning)中的匹配網(wǎng)絡(luò)(Matching Network)[18]作為主干結(jié)構(gòu)。匹配網(wǎng)絡(luò)是屬于單樣本學(xué)習(xí)(One-Shot Learning),視每個(gè)樣本為一個(gè)獨(dú)立類別,將單粒子翻轉(zhuǎn)截面值yi看作輸入向量的類別“標(biāo)簽”。通過一次訓(xùn)練多個(gè)任務(wù),完成對(duì)輸入樣本的編碼。匹配網(wǎng)絡(luò)由基于遞歸神經(jīng)網(wǎng)絡(luò)的雙向長短時(shí)記憶網(wǎng)絡(luò)Bi-LSTM[19]構(gòu)成,使用完全上下文嵌入(Fully-Conditional Embedding)機(jī)制生成不同樣本特征之間的注意力,將輸入的序列映射為等長的序列。
回歸網(wǎng)絡(luò)使用了基于Boosting 集成學(xué)習(xí)的XGBoost(eXtreme Gradient Boosting)回歸算法[20],將特征融合網(wǎng)絡(luò)輸出的序列映射為連續(xù)標(biāo)量yi。與傳統(tǒng)線性回歸模型相比,XGBoost 將多個(gè)決策樹弱分器集成為強(qiáng)學(xué)習(xí)器,在小規(guī)模訓(xùn)練集上具有更好的泛化能力。
整個(gè)流程使用端到端聯(lián)合訓(xùn)練方式,訓(xùn)練算法和模型收斂過程分別如圖2(a)和圖2(b)所示。其中,訓(xùn)練集和測試集采用全數(shù)據(jù)集混合下的5折(5-fold)隨機(jī)劃分,下游XGBoost 回歸器輸出的損失(Loss)將回傳到所有上游網(wǎng)絡(luò),通過優(yōu)化器Adam 進(jìn)行參數(shù)更新,此過程稱為一個(gè)訓(xùn)練回合(Epoch)。圖2(b)顯 示,級(jí)連網(wǎng)絡(luò) 在10 個(gè)epoch左右達(dá)到收斂狀態(tài),即損失穩(wěn)定在一個(gè)較低的水平不再繼續(xù)降低。上述模型的搭建、訓(xùn)練和測試在PyTorch 框架下完成,由于采用了針對(duì)小樣本數(shù)據(jù)集的輕量化結(jié)構(gòu)設(shè)計(jì),級(jí)連網(wǎng)絡(luò)在3.2 GHz的Intel(R)Core(TM)i7-8700 CPU 上完成一 次訓(xùn)練和測試推理的時(shí)間在3 min 以內(nèi),具有良好的實(shí)時(shí)性表現(xiàn)。
圖2 級(jí)連網(wǎng)絡(luò)的端到端訓(xùn)練過程Fig.2 End-to-end training procedure for cascaded networks
為了驗(yàn)證預(yù)測模型各階段的有效性,修改特征融合網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)配置下進(jìn)行消融測試,預(yù)測結(jié)果的均方根誤差(Root Mean Square Error,RMSE)對(duì)比見表2。可以發(fā)現(xiàn),在小樣本數(shù)據(jù)集場景下,特征融合網(wǎng)絡(luò)對(duì)精度影響最大,XGBoost 性能優(yōu)于經(jīng)典多元線性回歸器。
表2 結(jié)構(gòu)消融測試結(jié)果Tab.2 Results of structure ablation tests
為了測試模型的泛化性,采用不同數(shù)據(jù)集隨機(jī)劃分方式,對(duì)模型的跨器件/跨類別性能進(jìn)行多次測試,劃分方式對(duì)應(yīng)的數(shù)據(jù)規(guī)模和公共屬性維度見表3。其中,跨器件表示使用訓(xùn)練集/測試集的數(shù)據(jù)來自同類型的不同器件樣例,如使用FPGA 的器件A 訓(xùn)練和器件B 測試??珙悇e表示訓(xùn)練和測試使用不同類型樣本,如使用FPGA 訓(xùn)練和CPU 測試。有效特征維度表示隨機(jī)抽取的樣本中值不完全一致的特征數(shù)量。
表3 域適應(yīng)性測試配置Tab.3 Configurations of domain adaption tests
上述多輪實(shí)驗(yàn)的RMSE 的分布如圖3 所示,可以發(fā)現(xiàn)小樣本SEU 翻轉(zhuǎn)截面預(yù)測網(wǎng)絡(luò)的泛化性受樣本公共特征維度的影響較大,具體體現(xiàn)在如下幾個(gè)方面。
圖3 不同訓(xùn)練/測試集劃分的域適應(yīng)性能對(duì)比Fig.3 Comparison of domain adaption performance of different training/test sets
1)在混合場景下,訓(xùn)練和測試場景數(shù)據(jù)分布相對(duì)接近,網(wǎng)絡(luò)可以學(xué)習(xí)到更多樣的特征,從而可以獲得穩(wěn)定準(zhǔn)確的預(yù)測結(jié)果。
2)在跨器件場景下,訓(xùn)練和測試數(shù)據(jù)分布差異變大,預(yù)測誤差開始上升。由于CPU 的器件種類(8 種)多于FPGA(3 種),體現(xiàn)出了更強(qiáng)的分布差異,導(dǎo)致CPU跨器件預(yù)測的精度和魯棒性明顯差于FPGA。
3)在跨類別場景下,訓(xùn)練和測試數(shù)據(jù)分布差異進(jìn)一步變大,整體精度和魯棒性遠(yuǎn)低于混合和同器件場景。同時(shí),由于FPGA 的種類和樣本數(shù)量均少于CPU,導(dǎo)致使用FPGA 數(shù)據(jù)預(yù)訓(xùn)練的模型在CPU 測試集上出現(xiàn)了大范圍的精度波動(dòng)。
從網(wǎng)絡(luò)結(jié)構(gòu)和域適應(yīng)消融結(jié)果可知,最佳級(jí)連結(jié)構(gòu)配置為1D-CNN 特征提取網(wǎng)絡(luò)、匹配網(wǎng)絡(luò)和XGBoost 的組合,最佳訓(xùn)練/測試配置為全體樣本混合,后續(xù)章節(jié)的測試均基于此最佳配置。
級(jí)連結(jié)構(gòu)中的回歸網(wǎng)絡(luò)XGBoost 作為基于梯度提升的集成決策樹算法,除了完成回歸預(yù)測,還能為輸入特征提供重要性度量。本研究選擇了分裂總增益(Total Gain)作為因素重要性的度量指標(biāo),其含義為使用某特征的分裂帶來總信息增益值,使用全數(shù)據(jù)集混合訓(xùn)練獲得的因素重要性分布如圖4 所示??梢园l(fā)現(xiàn),除了LET、TID 劑量值(TID_krad)等環(huán)境因素,重要性排名靠前的影響因素還包括電壓(Voltage)、測試部件(Device Under Test,DUT)、芯片類型(Type)、工藝尺寸(Feature_Size_Um)、運(yùn)行頻率(Freq_MHz)等實(shí)驗(yàn)配置因素。因素重要性度量可以幫助系統(tǒng)測試人員在有限開銷下制定更有效的測試方案,還能夠?yàn)樾l(wèi)星電子系統(tǒng)架構(gòu)設(shè)計(jì)人員提供早期容錯(cuò)設(shè)計(jì)指導(dǎo)。
圖4 通過XGBoost 中分裂總增益度量的因素重要性Fig.4 Factor importance measured via thetotal gain in XGBoost
基于上述因素重要性結(jié)論,進(jìn)一步測試了關(guān)鍵設(shè)計(jì)性因素改變對(duì)全局σ-LET 曲線的影響,如圖5所示。其中,默認(rèn)(Default)為基線設(shè)置,LET 取值范圍為0~15 MeV/(mg·cm-2)??梢园l(fā)現(xiàn),同等條件下的FPGA 飽和截面要遠(yuǎn)高于CPU,這說明FPGA 的抗輻照性弱于同等配置下的CPU,這和CPU微架構(gòu)中存在的復(fù)雜屏蔽效應(yīng)相關(guān)。同時(shí),DUT 從全局變?yōu)镈-cache 造成σ-LET 曲線的整體下移,工作電壓的升高使得σ-LET 曲線前段下移,工藝尺寸降低時(shí)觀測到了飽和截面的整體提升,這些趨勢與輻照實(shí)驗(yàn)經(jīng)驗(yàn)基本相符。值得指出的是,工作頻率提高時(shí)觀測到了σ-LET 曲線的降低,這與實(shí)際經(jīng)驗(yàn)不符,可能是極端輸入和多類型器件樣本聯(lián)合學(xué)習(xí)導(dǎo)致的偏差。
圖5 關(guān)鍵因素對(duì)全局σ-LET 曲線的影響Fig.5 Effects of the key factors on the overall σ-LET curve
為了驗(yàn)證小樣本翻轉(zhuǎn)截面預(yù)測的有效性,本研究以國產(chǎn)PowerPC750 架構(gòu)處理器芯片SM750 為例,推導(dǎo)了給定因素配置下的系統(tǒng)組件σ-LET 值和系統(tǒng)失效率。其中,組件粒度的翻轉(zhuǎn)截面值利用系統(tǒng)失效率(System Failure Rate,SER)(單位cm2·dev-1)進(jìn)行度量,其上邊界可以通過獨(dú)立事件聯(lián)合概率進(jìn)行估算:
式中:Pc為SM750中組件c的硬件仿真故障注入失效率;σc(LET)為多因素預(yù)測模型計(jì)算的組件c在LET={1.73,4.06,8.19,12.90,18.50}MeV/(mg·cm-2)時(shí)的翻轉(zhuǎn)截面(單位cm2/bit);Mc為組件c中的存儲(chǔ)位數(shù)量;C為所有仿真故障注入組件c的集合。
對(duì)比國外PowerPC750 全芯片輻照結(jié)果[21],系統(tǒng)SER 預(yù)測的飽和截面邊界和真實(shí)輻照實(shí)驗(yàn)處于同一量級(jí)(10-3)。
表4 SM750 處理器中組件單粒子翻轉(zhuǎn)截面和全系統(tǒng)失效率的預(yù)測結(jié)果Tab.4 Prediction results of the component SEU cross sections and full system SER in SM750 processor
為進(jìn)一步驗(yàn)證上述聯(lián)合推導(dǎo)系統(tǒng)失效率邊界的有效性,選擇了LET=37.6 MeV/(mg·cm-2)時(shí)部件翻轉(zhuǎn)截面σc(LET)Pc Mc預(yù)測結(jié)果與同等條件重離子輻照實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,完整結(jié)果如圖6 所示。在部件方面,本研究使用的“多因素預(yù)測模型+硬件故障注入仿真”聯(lián)合推導(dǎo)方法在寄存器文件(如浮點(diǎn)單元、整數(shù)單元等)、指令單元、緩存標(biāo)簽和MMU 等部件上的預(yù)測結(jié)果與重離子輻照實(shí)驗(yàn)比較接近,指令和數(shù)據(jù)緩存的預(yù)測高于輻照實(shí)驗(yàn)結(jié)果,控制邏輯類組件低于輻照實(shí)驗(yàn)結(jié)果。同時(shí),利用部件結(jié)果推導(dǎo)的全系統(tǒng)SER 與輻照實(shí)驗(yàn)結(jié)果處于同一量級(jí)但略微偏高(約6.76 倍),這主要是有本研究采用了基于最差情況的上界估算策略,另外未知的實(shí)驗(yàn)配置也可能導(dǎo)致評(píng)估的偏差,如基準(zhǔn)軟件、系統(tǒng)運(yùn)行模式、故障注入策略等。
圖6 聯(lián)合推導(dǎo)與重離子輻照實(shí)驗(yàn)的翻轉(zhuǎn)截面結(jié)果對(duì)比Fig.6 Comparison of the cross section results of joint derivation prediction and heavy ion irradiation experiment
本文研究了基于小樣本學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法在多因素單粒子翻轉(zhuǎn)截面預(yù)測中的應(yīng)用。通過構(gòu)建特征提取、特征融合和集成學(xué)習(xí)回歸組成的端到端級(jí)連預(yù)測模型,在小規(guī)模自建數(shù)據(jù)集上獲得了具有良好泛化性的預(yù)測表現(xiàn),對(duì)各因素的重要性和影響效果進(jìn)行了量化評(píng)價(jià)。以國產(chǎn)處理器芯片SM750 為案例,結(jié)合硬件仿真故障注入和重離子輻照實(shí)驗(yàn)結(jié)果,證明了通過多因素單粒子翻轉(zhuǎn)截面預(yù)測模型推導(dǎo)組件和系統(tǒng)失效率的有效性。由于本文所使用的自建數(shù)據(jù)集的參考文獻(xiàn)數(shù)據(jù)來源均為國外器件,缺少國內(nèi)器件樣本,各類因素覆蓋范圍有限,個(gè)別場景預(yù)測結(jié)果存在不可忽略的偏差。因此,后續(xù)研究將繼續(xù)擴(kuò)充數(shù)據(jù)集,并與更多的目標(biāo)器件的實(shí)際輻照實(shí)驗(yàn)對(duì)比結(jié)果。