王宇峰,史曉
(中國電子科技集團公司第五十二研究所,浙江杭州 310012)
受美國貿(mào)易戰(zhàn)影響,進口處理器的供應(yīng)已受到嚴重制約,迫使國家加速對國產(chǎn)處理器的自主研究。目前,國內(nèi)已經(jīng)形成了飛騰、龍芯、申威、兆芯等具有代表性的自主研制處理器[1-3]。
以國產(chǎn)處理器為基礎(chǔ)的產(chǎn)品,例如工控防火墻[4]、無線氣象采集系統(tǒng)[5]、計算機圖形顯示系統(tǒng)[6]等,已逐步應(yīng)用于國防、軍事、工業(yè)、航天等重要領(lǐng)域,但是對其可靠性問題的研究相對較少。文獻[1]對某型國產(chǎn)處理器的可靠性環(huán)境試驗方法與試驗分析開展了研究,文獻[7]針對龍芯計算機內(nèi)存出錯等常見故障,提出了故障診斷和可靠性增強方法。文中采用FMECA 方法,對飛騰最小系統(tǒng)通用模塊開展分析,并結(jié)合實際故障統(tǒng)計數(shù)據(jù),歸納總結(jié)出飛騰通用模塊中危害性較高的元器件,并提出相應(yīng)的設(shè)計改進措施,為模塊可靠性設(shè)計工作提供指導(dǎo)意見。
FT1500A/16處理器具備高性能、低功耗特點[8-9]。文中基于FT1500A/16 處理器,從飛騰最小系統(tǒng)出發(fā),設(shè)計一款飛騰通用模塊,可作為通用產(chǎn)品與其他板卡搭配使用,實現(xiàn)數(shù)據(jù)處理控制功能,具備模塊化、通用化特點,靈活度高,結(jié)構(gòu)獨立、裝拆方便,維修簡易。飛騰通用模塊實物如圖1 所示。
圖1 飛騰通用模塊實物圖
飛騰通用模塊硬件設(shè)計說明如下。
1)內(nèi) 存:FT1500A/16 處理器集成4 個DDR3 存儲控制器。模塊設(shè)計時單個存儲通道擴展為9 片內(nèi)存芯片(8+1 片,其中1 片作為ECC 使用)。
2)電源:模塊采用典型12 V 電源輸入,在板內(nèi)實現(xiàn)電源轉(zhuǎn)換。3)時鐘:FT1500A/16處理器的參考時鐘為50 MHz。4)復(fù)位:分為上電復(fù)位和熱復(fù)位,兩種復(fù)位信號上拉后,與外部控制器互連,低電平有效。
5)外設(shè):FT1500A/16 包含豐富的外設(shè),該模塊設(shè)計對扣插座,實現(xiàn)與其他板卡的信號輸出和互聯(lián),設(shè)計各接口用途功能如下。
①2 路UART:一路為應(yīng)用串口,一路默認調(diào)試串口;
②2路I2C:根據(jù)需要設(shè)計,該模塊目前設(shè)計使用1路,用作RTC 時鐘數(shù)據(jù)通信;
③PCIE:分為PCIE0 與PCIE1,使用時均按照X8使用,其中PCIE1[0:7]接口通過PCIE 轉(zhuǎn)SATA 接口芯片掛接系統(tǒng)盤;
④LPC:掛接LPC 設(shè)備;
⑤GPIO:使用FT1500A/16 處理器中B5、B6 引腳,用于系統(tǒng)關(guān)機/重啟指示;
⑥SPI:用于啟動加載片外固件。
FMECA 方法是一種經(jīng)典通用的可靠性分析方法,已廣泛應(yīng)用于各行各業(yè)各類型產(chǎn)品上[10-12]。通過梳理產(chǎn)品故障模式,分析其故障原因及可能的影響,采用定性或定量的方法,識別產(chǎn)品薄弱環(huán)節(jié),并進行針對性改進,從而保證或提高產(chǎn)品可靠性,同時可對測試性、維修性、保障性、安全性等通用質(zhì)量特性分析提供必要的輸入,為產(chǎn)品研制與維修決策提供有效信息[13-15]。
文中針對飛騰通用模塊,利用工業(yè)和信息化部電子第五研究所(廣五所)研發(fā)的CARMES 軟件對其開展硬件FMECA 工作,具體步驟如下所示。
1)系統(tǒng)定義,建立基本規(guī)則與假設(shè);
2)按照約定層級建立模塊系統(tǒng)樹結(jié)構(gòu);
3)自下而上開展FMECA 定性分析,填寫故障模式、故障原因、影響等;
4)開展可靠性預(yù)計工作,對元器件級進行預(yù)計,并向上推導(dǎo)模塊級可靠性值;
5)關(guān)聯(lián)FMFCA 與可靠性預(yù)計值,進行FMECA中的CA 工作;
6)分析FMECA 結(jié)果,識別薄弱環(huán)節(jié),提出設(shè)計改進建議。
2.2.1 系統(tǒng)定義
依據(jù)原理圖、最小系統(tǒng)組成,將飛騰通用模塊功能電路劃分為電源管理電路、信號互聯(lián)電路、飛騰核心處理電路、DDR 存儲電路。其中電源管理電路實現(xiàn)模塊供電功能;信號互聯(lián)電路主要由接插件組成,負責(zé)通用模塊與外部板卡信號的互聯(lián);以FT1500A/16 處理器為核心的飛騰核心處理電路能夠進行外部數(shù)據(jù)的接收以及實現(xiàn)核心控制功能;DDR 存儲電路由板上的36 顆DDR 內(nèi)存顆粒及其外圍電路構(gòu)成,負責(zé)實現(xiàn)與CPU 之間的數(shù)據(jù)交換處理。依據(jù)以上描述,繪制其功能框圖,如圖2 所示,其基本可靠性模型為串聯(lián)模型。
圖2 飛騰通用模塊功能框圖
2.2.2 基本假設(shè)與約定
1)約定層次
該方案劃分其初始約定層次為飛騰通用模塊,最低約定層次為元器件級。
2)嚴酷度類別及定義
分析中采用的嚴酷度分級定義如表1 所示。
表1 嚴酷度類別表
2.2.3 分析結(jié)果
通過CARMES 軟件完成模塊的FMEA 分析與CA 分析,得到危害性矩陣圖與產(chǎn)品危害性較高的元器件,分別如下所示。
1)危害性矩陣圖
飛騰通用模塊危害性矩陣圖如圖3所示,圖中編號對應(yīng)的故障模式名稱如表2 所示。在危害性矩陣圖中,越靠近右上角的故障模式,表示其危害性越大,因此危害性最高的故障模式為全部功能失效,需重點關(guān)注。
表2 故障模式編號名稱
圖3 模塊危害性矩陣圖
2)元器件級產(chǎn)品危害性排序
對元器件級產(chǎn)品危害性排序,危害性較大的排名前10的元器件如表3 所示。
表3 元器件級產(chǎn)品危害性排序
2.2.4 設(shè)計改進措施
針對飛騰通用模塊全部功能失效這一關(guān)鍵故障模式,分析其故障原因后,發(fā)現(xiàn)該故障模式主要由復(fù)位、電源、上電時序、DDR 數(shù)據(jù)、時鐘等故障導(dǎo)致,與此相關(guān)的元器件為DDR 芯片、飛騰處理器、接插件、電源芯片以及關(guān)鍵阻容,與危害性較高的元器件高度重合。綜上對于飛騰通用模塊,提出設(shè)計改進措施建議,具體措施如下:
1)軟硬件設(shè)計方面
電源部分設(shè)計充分考慮了輸入和輸出保護,包括防浪涌設(shè)計、尖峰抑制、防反接保護、防倒灌設(shè)計等設(shè)計措施,同時對電路中的關(guān)鍵阻容感采取冗余設(shè)計;在信號互聯(lián)電路中,對于復(fù)位信號、電源使能信號與電源反饋信號等關(guān)鍵信號,接插件設(shè)計多點多線方式;對于飛騰核心電路中的關(guān)鍵阻容感,例如飛騰復(fù)位信號上拉電阻、PCIE1 與系統(tǒng)盤連接鏈路中的耦合電容、晶振供電濾波磁珠等,選用高等級器件,并采取冗余設(shè)計、降額設(shè)計等設(shè)計措施,提高其可靠性水平。
飛騰通用模塊軟件上增加ECC 校驗,減少數(shù)據(jù)傳輸錯誤,并增加心跳包信號,利用監(jiān)控電路檢查處理器是否正常工作。
另外,基于飛騰處理器平臺,可以采用板級管理控制器(Baseboard Management Controller,BMC)[16]來實現(xiàn)電源控制、外掛設(shè)備等的管理,能夠?qū)δK內(nèi)電壓、溫度進行監(jiān)控,同時通過BIOS 固件,對模塊進行初步故障診斷。若內(nèi)存出現(xiàn)故障,通過BIOS 診斷程序可定位到哪顆內(nèi)存顆粒出現(xiàn)故障。
2)PCB 設(shè)計方面
在PCB 布局方面,飛騰等大功耗高熱流密度器件單獨放置于印制板的特定區(qū)域,且盡可能靠近模塊與機箱的導(dǎo)熱面;DDR 等普通功耗器件均布置在印制板正反面,有效利用印制板面積;電源模塊等熱敏感器件盡可能避讓大功耗器件布置。
PCB布線方面,對于DDR芯片,DDR數(shù)據(jù)線、DQS、DM做到同組同層,且組內(nèi)做等長;DDR 地址及控制線、clk 走線遵循Fly-by 拓撲,組內(nèi)做等長;DDR所有走線都參考完整地平面,不跨分割走線。
將以上設(shè)計措施應(yīng)用于飛騰通用模塊,在設(shè)計階段對模塊較高風(fēng)險的故障模式加以控制以降低其影響,對以飛騰通用模塊為基礎(chǔ)的產(chǎn)品使用反饋,產(chǎn)品在外場使用因飛騰通用模塊導(dǎo)致的故障情況比較少。
文中針對以FT1500A/16 處理器為核心的飛騰通用模塊,基于CARMES 軟件,開展了FMECA 工作,通過定性定量分析,得到模塊危害性較大的故障模式,并統(tǒng)計出危害性較高的元器件清單。同時針對其故障原因,在軟硬件設(shè)計、PCB 設(shè)計等方面給出設(shè)計改進措施,作為飛騰通用模塊電路優(yōu)化和元器件選擇的理論基礎(chǔ),為其質(zhì)量和可靠性的提高提供寶貴經(jīng)驗,在一定程度上提高了飛騰通用模塊的可靠性、測試性水平。
在國產(chǎn)處理器可靠性研究方面,例如測試性建模、熱振仿真、故障物理等方面,仍有很多工作有待于開展,通過對國產(chǎn)處理器的可靠性研究,可為提升國產(chǎn)處理器性能的可靠性水平提供依據(jù)。