本文刊載于美國洛斯-阿拉莫斯國家實驗室刊物《國家安全科學(xué)》2012年2月刊。文童認為,隨著微電子技術(shù)的發(fā)展,微芯片上集成的晶體管數(shù)量持續(xù)地按照摩爾定律翻倍增長,由宇宙射線產(chǎn)生的中子帶來的單粒子翻轉(zhuǎn)威脅將越來越嚴重,甚至有可能使摩爾定律走向終結(jié)。特別是目前軍用裝備中使用民用現(xiàn)成產(chǎn)品的趨勢越來越普遍,如果沒有在設(shè)計上對此進行充分的考慮,并采取必要的冗余措施,很可能會引發(fā)意外事故。
1駕軍用C-141B“運輸星”飛機正在日本海上空11000米的高度飛行,機上載有100多名士兵,忽然由宇宙射線產(chǎn)生的一顆以接近光速運行的中子擊中了飛機,此時,飛行員突然感覺到什么地方出了問題,而且是非常嚴重的問題。因為飛機突然向右側(cè)滑,眼看著就要失去控制……究竟發(fā)生了什么?難道一顆比原子還小的粒了會造成這么大的問題嗎?回答是肯定的;飛機受到中子撞擊后,飛行控制儀上的某個微芯片就可能失靈,并發(fā)出錯誤指令。中子就像幽靈一樣,能夠神不知鬼不覺地穿透物質(zhì)。在飛機巡航高度,每秒鐘就有大約2400個這樣的中子穿入1平方米大小的飛機表面,它們穿越乘客,穿越座椅,穿越機載電子設(shè)備,然后又從飛機的另一側(cè)穿出,其間如果一顆高能量中子與機載電子設(shè)備晶體管中的硅原子核迎頭相撞,后果將會怎樣?
中子威脅
20多年來,軍用、民用航空航天工業(yè)以及計算機行業(yè)就已經(jīng)認識到,流過大氣層的高能量中子能夠?qū)е掠嬎銠C出錯,即所謂“單粒子翻轉(zhuǎn)”。雖然這種出錯僅僅是“軟”出錯,不會對計算機造成永久性損害,但計算機內(nèi)存中的一個數(shù)位就會突然發(fā)生改變,或者,某個邏輯電路就會產(chǎn)生錯誤的結(jié)果,從而導(dǎo)致應(yīng)用程序暫?;虮罎?。故障的元兇正是中子與原子核的迎頭相撞。撞擊產(chǎn)生電荷,電荷又導(dǎo)致某個晶體管從關(guān)閉狀態(tài)轉(zhuǎn)入開啟狀態(tài),而晶體管是分布于微芯片表面的集成電路的基本單元。
微芯片單粒子翻轉(zhuǎn)的發(fā)生率與每秒鐘到達芯片的中子數(shù)量(即“中子放射密度”)是成比例的。在大氣層中,中子密度隨著高度的增加而增加,直至18300米。之后,中子密度就穩(wěn)定下來。單粒子翻轉(zhuǎn)發(fā)生率亦是如此。例如,當(dāng)高度為9100米時,中子密度與單粒子翻轉(zhuǎn)發(fā)生率均為海平面的300倍。不幸的是,由于中子的穿透力非常強,還無法找到保護機上關(guān)鍵設(shè)備的可行辦法。因此,軍方和航空界想出了各種補救辦法。
如果單粒子翻轉(zhuǎn)發(fā)生于人工駕駛飛機的飛行控制儀上,飛行員可以糾正飛行控制儀的錯誤。還有更好的辦法,那就是采取三重模塊冗余(TMR)措施,讓控制儀上的集成電路自動糾錯。在TMR冗余模塊中,每個電子電路中的信號會與來自另外2個同樣電路的結(jié)果進行比較。通過比較,出錯電路產(chǎn)生的結(jié)果將被“否決”。簡單地說,錯誤信號還沒有來得及從控制儀發(fā)出,另外兩個電路就以“2票”對“1票”的優(yōu)勢壓倒了它TMR對于飛行控制儀及依賴微芯片的其他關(guān)鍵儀器來說效果一直很好。但是,從成本、時間、給飛機增加的重量以及占用的空間來看,TMR措施代價高昂。所以,人們直到不久以前還一直認為,TMR設(shè)施對于成像裝置和數(shù)據(jù)處理裝置等不那么關(guān)鍵的功能來說太不經(jīng)濟。
每塊微芯片的單粒子翻轉(zhuǎn)發(fā)生率取決于3個因素的共同作用:即中子密度,每個晶體管對中子引發(fā)的單粒子翻轉(zhuǎn)的內(nèi)在敏感性以及微芯片上的晶體管數(shù)量。假設(shè)在某一飛行高度,擁有一定晶體管數(shù)量的某個微芯片的單粒子翻轉(zhuǎn)發(fā)生率是每1000小時1次,且使用中的微芯片數(shù)量為100個,那么,在這一高度,每10個小時,其中的一個微芯片就會發(fā)生一次單粒子翻轉(zhuǎn)。換句話說,飛機飛得越高,晶體管對中子的敏感性就越強;使用的微芯片數(shù)量越大,單粒子翻轉(zhuǎn)的發(fā)生率就越高。
中子威脅到底有多大?
今天,軍方對中子威脅的擔(dān)心越來越大,因為基于機載微芯片的儀器數(shù)量正在飛速增加。例如,在伊拉克戰(zhàn)爭和阿富汗戰(zhàn)爭中,大批基于微芯片的非定制電腦和成像儀被安裝到監(jiān)視飛機和其他軍用飛機上,用以搜集至關(guān)重要的戰(zhàn)場信息。有些飛機在北極上空以高達18000米的高度飛行,整個北半球盡收眼底。而在那樣的高度,中子密度大約是海平面的2000倍。
飛行高度較低的其它飛機能夠為士兵們提供他們即將進入的街道和居民區(qū)的實時圖像。軍方情有獨鐘的是,將飛機所搜集到的信息當(dāng)場進行處理,然后快速下傳給地面的士兵。然而,在過去5年里,在海平面這一高度,最新型現(xiàn)成儀器上每塊芯片的單粒子翻轉(zhuǎn)發(fā)生率迅速提高,因為晶體管的體積變小了,每塊芯片上的品體管數(shù)量增加了。現(xiàn)在,單粒子翻轉(zhuǎn)的風(fēng)險是不是太高了呢?與增加的成本相比,補救措施劃算嗎?在設(shè)備投入使用之前,怎樣對風(fēng)險進行測算?
面臨這一難題的不僅是軍方。在我們的數(shù)字世界里,與航空電子設(shè)備上所使用的相同的微芯片隨處可見,如銀行、運輸、醫(yī)藥、通訊、娛樂及其他行業(yè)所使用的地面民用系統(tǒng)。這些微芯片對于胰島素監(jiān)視儀、GPs(全球定位系統(tǒng))觸發(fā)的應(yīng)急救援系統(tǒng)、防抱死剎車系統(tǒng)、智能剎車燈、智能手機、越來越逼真的電子游戲、高級音響系統(tǒng)以及預(yù)報天氣和核武器性能的超級計算機來說,都至為關(guān)鍵。
摩爾定律會終結(jié)嗎?
單個晶體管越來越小是數(shù)字世界演進的唯一驅(qū)動力。晶體管的面積每縮小一半,每塊微芯片的晶體管數(shù)量就增加1倍,芯片的性能(每秒鐘的運行次數(shù))也就提高1倍。在過去40年里,晶體管的面積每兩年就縮小一半,芯片性能也是每2年就提高1倍,這就是“摩爾定律”。由于晶體管的體積越小,其裝配成本就越低,晶體管就能以更低的電壓運行,因此,性能提高所增加的成本是有限的。所以,產(chǎn)品的數(shù)量越來越多,使用的微芯片數(shù)量也越來越大。難怪摩爾定律被人們稱為經(jīng)濟增長的引擎。
然而,摩爾定律可能走向終結(jié),很大程度上是因為來自中子的威脅。人們總想把晶體管做得越來越小,這就導(dǎo)致晶體管對單粒子翻轉(zhuǎn)的敏感度越來越高。如果晶體管上還裝配了尺寸為65納米或不足65納米的亞元件,其敏感度會更高。如果亞元件的尺寸只有65納米或更小,每塊芯片上的晶體管數(shù)量可能多達數(shù)十億個,而開啟晶體管所需的關(guān)鍵電荷卻很低。既然由中子撞擊硅核子所產(chǎn)生的小得多的電荷就能導(dǎo)致單粒子翻轉(zhuǎn),單粒子翻轉(zhuǎn)的發(fā)生率也就急劇增加了。
洛斯·阿拉莫斯國家實驗室情報與宇宙研究處的希瑟·奎恩是研究星載和機載電子數(shù)據(jù)系統(tǒng)可靠性方面的專家她警告說,我們的社會自動化程度越高,每片裝配數(shù)十億個晶體管的高級微芯片的數(shù)量越多,沖子威脅問題就越嚴重。
應(yīng)對中子威脅
今天,人們普遍認為,中子輻射已經(jīng)成為限制高級電子設(shè)備可靠性的主要因素。嚴酷的事實使芯片制造商和用戶都認識到,為了避免設(shè)備故障,必須事先測定中子造成的影響,因為它所引發(fā)的設(shè)備故障不僅危險,而且代價高昂。波音足最早發(fā)現(xiàn)這一問題的公司之一。20世紀90年代初,波音公司十分擔(dān)心其新型777商務(wù)客機上即將安裝的電子設(shè)備的可靠性,因此必須找到一種測試中子引起的設(shè)備故障的快捷方法。但是,怎樣才能對風(fēng)險進行量化呢?哪里可以進行這種量化呢?
波音公司的尤金·諾曼德知道,洛斯·阿拉莫斯國家實驗室中于科學(xué)中心的武器中子研究設(shè)施的中子束,是世界上密度最高的高能量中子源,那里的中子束具有與大氣層中的中予輻射相同的能譜(不同能量中的中子數(shù)量)。諾曼德與武器中子研究設(shè)施的史提夫-溫德主任取得了聯(lián)系,要求研究中心允許波音公司將它的電子設(shè)備放到該中心的中子束中去測試,以模擬出大氣層中子能譜對電子設(shè)備的輻射量。這樣,波音公司就能對中子引發(fā)的電子錯亂及其在新型飛機上的相對發(fā)生率進行研究。使用武器中子研究設(shè)施提供的測試服務(wù)后,波音公司就能對某一設(shè)備在大氣層的中子風(fēng)險進行評估,而不用一次又一次地跑到各家單一能量中子源去測試,然后再通過理論估算的方法測算出其他中子能的數(shù)據(jù)。
溫德還指出,武器中子研究設(shè)施的中子束密度比大約3萬英尺高度的中子密度高出100萬倍。這就是說,被武器中子研究設(shè)施的中子束輻射1小時所產(chǎn)生的單粒子翻轉(zhuǎn)數(shù)量,相當(dāng)于在正常巡航高度被輻射100年。于是,溫德開始與波音、霍尼韋爾、LSI(半導(dǎo)體存儲與網(wǎng)絡(luò)巨頭)公司的人員一道開發(fā)武器中子研究設(shè)施的一條中子束測試線,作為測算由大氣層中子輻射所引起的單粒子翻轉(zhuǎn)發(fā)生率的第一家一站式測試車間。這條測試線后來逐漸成為全世界用來測算中子引起的單粒子翻轉(zhuǎn)風(fēng)險的最佳用戶設(shè)施。
芯片輻射與電子設(shè)備實驗室
芯片輻射與電子設(shè)備實驗室現(xiàn)已成為全球電子設(shè)備和航空電子設(shè)備行業(yè)的圣地,造訪者既有芯片制造商,也有用戶產(chǎn)品公司。
在軍事領(lǐng)域,(美國)國防部已要求奎恩將計劃安裝在軍用飛機上的電子元件放到芯片輻射與電子設(shè)備實驗室的中子束中去接受中子輻射,以測得中子引起的單粒子翻轉(zhuǎn)的發(fā)生率。雖然軍用飛機的總體壽命為20~30年,但機載電子設(shè)備的更新周期為5~10年。國防部希望能夠提高每塊芯片的靈活性和功能范圍,而以今天的科技水平,要提高芯片的靈活性和功能范圍就意味著電子設(shè)備采用的晶體管元件最小要達到28納米,并且更多地采用實地可編程的門陣列(EPGAs)。所謂門陣列就是可以用上傳的新程序指令比特流進行遠程重新編程的芯片。有了實地可編程門陣列,國防部就可以在突然出現(xiàn)新的威脅時,對在中空飛行的飛機的任務(wù)重點進行更改。
在芯片輻射與電子設(shè)備實驗室,奎恩不僅要對電子元件進行測試,還要對可能采取的補救措施進行測試。如果元件對中子引起的閉鎖(這時元件突然大量過電,可能使元件燒毀)有易感性,這些元件就會立即被淘汰。如果元件只是對“軟”(非毀滅性的)出錯(如單粒子翻轉(zhuǎn))有易感性,這樣的元件往往還有挽救的余地??鲿鶕?jù)不同的測試結(jié)果,建議對元件進行重新設(shè)計,或者采用糾錯軟件,或在元件中內(nèi)置冗余組件,如采取TMR措施。
對芯片輻射與電子設(shè)備實驗室的需求日益增長
全世界現(xiàn)有5個中子源能夠模擬大氣層中子的影響,其中,芯片輻射與電子設(shè)備實驗室是美國唯一的中子源。據(jù)電氣與電子工程師學(xué)會(IEEE)主辦的《核科學(xué)學(xué)報》最近刊登的一篇文章介紹,芯片輻射與電子設(shè)備實驗室的測試結(jié)果是最接近實際情況的。
除飛機制造商和國防部外,還有許多行業(yè)利用芯片輻射與電子設(shè)備實驗室對它們所生產(chǎn)的新產(chǎn)品進行測試。汽車行業(yè)標(biāo)準(zhǔn)規(guī)定,如果汽車電腦中微芯片的內(nèi)存超過一定的量,汽車電腦系統(tǒng)就必須接受中子輻射影響測試。代表約300個電子設(shè)備制造商和用戶的聯(lián)合電子設(shè)備工程理事會在其公布的內(nèi)存件測試標(biāo)準(zhǔn)中表示,武器中子研究設(shè)施是進行中子引起的單粒子翻轉(zhuǎn)加速測試的“首選設(shè)施”。英特爾等芯片制造商正在研發(fā)新型晶體管,它體積小,不僅能在低電壓運行,而且能夠承受足夠大的電荷沖擊,從而可以抵消中子的影響。為了對新型晶體管進行測試,英特爾等制造商要求在芯片輻射與電子設(shè)備實驗室進行長時間的測試。
為了滿足日益增長的需求,洛斯·阿拉莫斯國家實驗室的管理機構(gòu)、洛斯·阿拉莫斯國家保安公司,LLC公司已經(jīng)為芯片輻射與電子設(shè)備實驗室投資建設(shè)第二條中子束測試線。新測試線應(yīng)于2012年建成。高科技產(chǎn)業(yè)希望摩爾定律能夠在今后10年中繼續(xù)管用,因為在今后10年,晶體管亞元件的體積將從45納米縮小到4.5納米,從而使晶體管對中子威脅更加易感。
為使系統(tǒng)對中子引起的出錯以及設(shè)備的差異性更具耐受性,研究人員正在設(shè)想采取更加有效的補救措施,這些補救措施將涉及系統(tǒng)的每個層面——從軟件應(yīng)用和操作系統(tǒng)到單個電路元件?!安荒苤竿@個問題很快就能解決,解決這個問題必須分清輕重緩急。”國際商用機器公司(IBM)研究員卡爾·J·安德森在最近發(fā)表的一份關(guān)于跨層面可靠性的研究報告中這樣說。安德森進行的這項研究由國家科學(xué)基金贊助。對中子威脅的上述解決辦法都必須得到檢驗。毫無疑問,洛斯·阿拉莫斯國家實驗室中子科學(xué)中心將扮演重要的角色。