曹明鵬 吳曉鵬? 管宏山 單光寶 周斌 楊力宏 楊銀堂
1) (西安電子科技大學微電子學院, 西安 710071)
2) (電子元器件可靠性物理及其應(yīng)用技術(shù)重點實驗室, 廣州 510610)
隨著三維集成微系統(tǒng)集成度和功率密度的提高, 同時考察電設(shè)計與熱管理的多場耦合分析勢在必行.本文面向三維集成微處理器系統(tǒng), 通過改進的對偶單元法(dual cell method, DCM)實現(xiàn)了系統(tǒng)的快速電熱分析.該方法通過引入泄漏功率、材料系數(shù)隨溫度的耦合, 相比于傳統(tǒng)有限元法在更新以及組裝本構(gòu)矩陣上有更大的優(yōu)勢.仿真驗證表明, 本文所采用的算法相比傳統(tǒng)有限元法仿真速度提升了約30%.在考慮了材料系數(shù)以及泄露功率熱耦合因素后, 系統(tǒng)熱點溫度相對于考慮耦合前上升了20.8 K.最后采用本文所提出算法對三維集成微處理器系統(tǒng)進行布局研究, 比較了硅通孔陣列常規(guī)布局和集中布局在處理器核心下方兩種布局方式對上下層芯片熱點溫度的影響, 研究了功率不均勻分配對兩種布局的影響.
目前三維集成技術(shù)是延續(xù)摩爾定律引領(lǐng)集成電路發(fā)展走向后摩爾時代的有力解決方案[1].三維集成微系統(tǒng)具有高集成度、微小型化、低功耗、高可靠性和高效率等優(yōu)點, 在邏輯計算處理、成像傳感和光集成等方面具有廣闊的應(yīng)用前景.但是三維集成技術(shù)同時導致了微系統(tǒng)內(nèi)單位面積上產(chǎn)生的熱功耗急劇增加.以處理器芯片為例, 目前CPU的功耗密度達到了100 W/cm2以上[2], 功率密度的增加和功率的不均勻分布共同導致了嚴重的熱問題.而這些熱問題反之對諸如泄露電流、電遷移、信號和電源完整性等電設(shè)計提出了諸多挑戰(zhàn).其中泄漏功率是目前處理器性能的最重要限制因素之一, 對于65 nm 及更先進的工藝節(jié)點, 泄漏功率占總功率的10%以上[3].泄漏功率與溫度呈指數(shù)關(guān)系, 因此泄漏功率將導致處理器發(fā)熱并進一步增加泄漏功率本身.隨著溫度的變化, 在傳熱過程中材料的熱導率會發(fā)生改變, 從而對熱點溫度產(chǎn)生影響[4].綜上所述, 對高功耗三維集成微系統(tǒng)在設(shè)計初期進行電熱耦合分析在確保系統(tǒng)可靠性方面具有至關(guān)重要的作用.
有限元法(finite element method, FEM)由于在復(fù)雜幾何形狀、材料建模方面具有極好的適應(yīng)性和精度, 因此常被用于電熱耦合的分析研究[5?11].為了使該算法更適于三維集成微系統(tǒng)分析, 在算法改進方面開展了諸多研究工作.Lin 等[12,13]提出了一種芯片級泄漏感知方法, 采用交替方向隱式法結(jié)合芯片功率、工作頻率和電源電壓之間的各種電熱耦合, 預(yù)測芯片熱分布.該方法采用了等距網(wǎng)格,這雖然提升了計算速度, 但也同時導致精度下降.北京大學的Pi 等[14]提出了一種快速的3D-IC 熱管理全芯片規(guī)模數(shù)值模擬方法, 該法同時考慮了橫向和縱向散熱的緊湊型熱阻網(wǎng)絡(luò), 充分分析了硅通孔(through silicon via, TSV)、微凸塊和再分布層中的高導熱路徑.然而該研究所用的熱阻網(wǎng)絡(luò)無法獲得十分準確的溫度場, 并且未考慮溫度帶來的耦合因素.Chai 等[15]開發(fā)了徑向點插值法, 并對TSV 陣列進行了電熱耦合特性研究, 提高計算效率并降低了存儲成本, 加快了基于TSV 的3-D IC的電熱設(shè)計.但是這項工作目前僅集中在TSV 模型上, 還無法對整個三維微系統(tǒng)進行分析.Wang等[16]提出了一種動態(tài)線性泄漏電流感知的全芯片熱估計方法.該算法將非線性熱模型轉(zhuǎn)換為多個局部線性熱模型, 并設(shè)計了一種自適應(yīng)降階法以提高效率.但線性泄露電流僅能運用于瞬態(tài)仿真迭代,無法在穩(wěn)態(tài)迭代中使用.
針對以上研究中存在的問題, 本文提出了一種能夠快速計算電熱耦合的改進對偶單元法(dual cell method, DCM).該方法在考慮了泄漏功率、材料系數(shù)與溫度的耦合關(guān)系的前提下, 將整體本構(gòu)矩陣分解為常數(shù)矩陣和溫變矩陣的乘積, 使得在每次溫變迭代過程中只需計算溫變矩陣.對比傳統(tǒng)FEM 中的單元傳熱矩陣, 改進DCM 的溫變矩陣擁有更低的階數(shù), 在計算量和整體矩陣的組裝上有著顯著優(yōu)勢.通過仿真驗證了在相同自由度下, 改進DCM 比傳統(tǒng)FEM 具有更快的計算速度.最后面向三維集成微處理器系統(tǒng)基于改進的DCM 對其進行了電熱耦合分析, 并根據(jù)分析結(jié)果進行布局優(yōu)化指導, 對三維集成微系統(tǒng)的設(shè)計優(yōu)化具有一定的參考價值.
對偶單元法是一種基于傳統(tǒng)FEM 發(fā)展的代數(shù)方法, 通過FEM 的網(wǎng)格剖分, DCM 可以不通過微分方法而直接根據(jù)問題的物理場以及基本的幾何和拓撲概念定義數(shù)值方案, 從而該算法更適用于實現(xiàn)快速計算[17,18].DCM 首先通過網(wǎng)格剖分得到初始單元, 并根據(jù)規(guī)則構(gòu)造對偶單元.之后通過單元對應(yīng)關(guān)系及本構(gòu)關(guān)系分別構(gòu)造拓撲矩陣和本構(gòu)矩陣, 最后組成線性方程組進行求解.
DCM 求解傳熱問題的計算流程如圖1 所示,單元節(jié)點上的溫度T通過拓撲算子矩陣G表示成單元邊上的溫差γ.然后通過本構(gòu)關(guān)系利用溫差計算出對偶面上的熱通量Φ, 最后再將熱通量通過拓撲算子矩陣D轉(zhuǎn)化成對偶體上的整體發(fā)熱量q.
圖1 DCM 求解傳熱問題流程圖Fig.1.Flow chart of DCM solving heat transfer problem.
如圖2 所示, DCM 根據(jù)四面體單元的重心、4 個面的重心和6 個邊中點的連線構(gòu)建對偶空間[19,20].在單個四面體中, 每條邊對應(yīng)著一個對偶面, 如e2 對應(yīng)S2, 每個頂點對應(yīng)三個對偶面, 如A對應(yīng)S2,S3,S6.在單個頂點接觸的所有四面體中, 對應(yīng)該點的所有對偶面構(gòu)成對偶單元.
對于傳熱問題的研究, 首先定義節(jié)點溫度列陣T, 獲得以節(jié)點溫度之間的差值作為邊ei的溫差列陣.溫差列陣γ可表示為
同時兩個節(jié)點間的溫差γ也可以由單元溫度梯度g和邊向量L表示:
根據(jù)傅里葉定律, 熱通量Φ的表達式為
其中k為熱導率;J為熱流密度;表示對偶面的面積向量, 方向垂直于對偶面.結(jié)合(1)式、(3)式和(4)式可得四面體內(nèi)部對偶面的熱通量矩陣Φ為
圖2 對偶單元構(gòu)建過程Fig.2.The process of dual unit construction.
其中P為為邊矩陣的分塊陣;M為傳熱問題的本構(gòu)矩陣.
對于整體網(wǎng)格來說, 將所有對偶面上的熱通量相加即為整體節(jié)點載荷列陣q:
D為拓撲矩陣G轉(zhuǎn)置的負矩陣即D=?GT.結(jié)合(1)式、(5)式和(6)式可得整體傳熱方程為
隨著功率密度不斷增加, 芯片的整體溫度不斷上升, 所以對溫度上升導致的耦合分析變得至關(guān)重要.
由下式可知泄漏功率與泄漏電流成正比, 其中泄漏電流Ileak分為亞閾值泄漏電流Isub和柵極泄漏電流Igate:
其中柵極泄漏電流Igate對溫度并不敏感.
對于BSIM 4 的MOSFET 晶體管模型, 其亞閾值電流公式為(Vds?Vt)
其中K和η為相關(guān)工藝參數(shù);VT為熱電壓, 與溫度成正比;Vth為閾值電壓.
另外, 材料的熱導率是與溫度相關(guān)的函數(shù), 同時材料的溫度變化可以通過溫度的插值函數(shù)表示,可得熱導率公式如下:
其中cn為插值系數(shù), 具體數(shù)值參考文獻[4,10].
引入耦合項Isub(T) ,k(T) 后, (7)式的整體傳熱方程可改寫為與溫度相關(guān)的形式:
由(11)式可知, 在每次溫度迭代計算時, 需要重新計算每個單元的本構(gòu)矩陣M(k(T)) 和載荷列陣q(Isub(T)) 并重新組裝.對于DCM, 每個單元本構(gòu)矩陣M為6 × 6 的矩陣, 相比于有限元4 × 4的傳熱矩陣K計算量更大, 組裝時間更長.因此本文對DCM 的整體傳熱方程做了進一步的改進.(5)式中的本構(gòu)矩陣M(k(T)) 可以分解為
由(1)式可知在一個四面體單元中通過任意三條邊的溫差γ1,γ2,γ3可以計算得到另外三條邊的溫差.同時由(3)式可知, 求解列矩陣g3×1所需要的條件為矩陣L滿秩, 所以只需要三個互不相關(guān)的邊向量即可表示列陣g3×1
為了滿足本構(gòu)矩陣M的維度, 溫差列陣γ可以由三個溫差與三個0 元構(gòu)成, 邊矩陣L可由三個邊向量和3 × 3 的零方陣表示:
此時矩陣P為有效數(shù)據(jù)減少為9 個.梯度陣g可表示為
最終可得整體傳熱方程為
基于野外調(diào)查,按代表性植被的分布在三處邊坡中選取草本植被、草灌植被、草灌喬植被各兩個樣地,樣地大小按1 m2(草本植被)、10 m2(草灌植被)和100 m2(草灌喬植被)設(shè)置,以S形在同一樣地內(nèi)采取5個樣品。采集0~10 cm土層原狀土,裝入鋁盒內(nèi)帶回實驗室,風干后,沿土壤自然結(jié)構(gòu)面人工剝成直徑為10~12 mm的小土塊,并剔除土中的植物根系及小石粒。
算法的整體耦合迭代流程如圖3 所示, 首先根據(jù)劃分的網(wǎng)格信息計算拓撲矩陣GS和G, 根據(jù)給定的初始溫度計算初始狀態(tài)下的亞閾值泄漏電流和熱導率, 并帶入計算本構(gòu)矩陣Pk(T) 和節(jié)點載荷q(Isub(T)).下一步將本構(gòu)矩陣和載荷帶入傳熱方程計算出該迭代步的溫度場分布Tnew.根據(jù)計算的溫度場更新本構(gòu)矩陣和節(jié)點載荷, 并帶入傳熱方程計算新的溫度場分布, 直到兩步迭代的結(jié)果小于設(shè)定的迭代截止精度tol.
圖3 迭代算法流程圖Fig.3.Flow chart of Iteration scheme.
本節(jié)采用改進的對偶單元法研究三維集成微處理器系統(tǒng)在耦合情況下的溫度分布, 討論不同I/O 端口和TSV 陣列布局對疊層芯片熱點溫度的影響.圖4 所示為參考三星DRAM 和Intel i7 處理器芯片構(gòu)成的兩層堆疊微系統(tǒng)結(jié)構(gòu)示意圖[21].兩層芯片的尺寸均為10 mm × 10 mm, 襯底的尺寸為20 mm × 15 mm, 熱沉的尺寸為40 mm ×35 mm.芯片層的厚度為100 μm, 帶C4 凸塊的TIM 層厚度為100 μm, 帶微凸塊的TIM 層厚度為40 um.初始溫度和環(huán)境溫度為293 K, 熱對流系數(shù)為100 W·m–2·K–1.DRAM 和處理器的版圖布局如圖5 所示, 其中DRAM 被分為8 個Bank 區(qū),處理器芯片由4 個Core 構(gòu)成(從左到右分別記為Core1, Core2, Core3, Core4).在DRAM 芯 片 的I/O 區(qū)域中均勻分布了16 × 80 個TSV.為了能直觀表征Core 區(qū)和Bank 區(qū)的溫度, 選取如圖5中所示的黑色虛線為觀察芯片溫度分布的基準線.根據(jù)DRAM 和處理器的典型工作狀態(tài), 本文在仿真中將DRAM 的工作功率設(shè)為2.82 W, 處理器工作功率設(shè)36 W, 其中四個核的總功率為26.5 W,整個微系統(tǒng)泄漏功率占比為12%[3,21].
圖4 三維集成微處理器系統(tǒng)結(jié)構(gòu)示意圖Fig.4.Schematic diagram of the three-dimensional integrated microprocessor system.
在保證精度的前提下為了降低仿真復(fù)雜度, 采用等效模型法對TSV 陣列進行了等效處理, 通過插值法獲得等效區(qū)域各向異性的熱導率[22].當處理器4 個核心功率均勻分布時, 處理器和DRAM芯片上觀察基準線上的溫度分布分別如圖6 所示.當不考慮電熱耦合時, FEM 求解得出的處理器和DRAM 芯片的熱點溫度分別為351.83 K 和346.64 K, DCM 求解得出的處理器和DRAM 芯片的熱點溫度分別為351.83 K 和346.63 K.改進的DCM 與FEM 獲得的溫度曲線幾乎完全吻合,有著良好的一致性.在考慮電熱耦合時, 發(fā)現(xiàn)用改進的DCM 與FEM 仿真得到的處理器芯片與DRAM 芯片的熱點溫度為分別為373.64, 374.07 K和365.87, 366.24 K, 改進的DCM 仿真相比于傳統(tǒng)FEM 誤差僅為0.53%和0.51%(仿真后溫度與初始溫度的差值進行誤差計算, 下文同), 其精度滿足應(yīng)用要求.
圖5 工作區(qū)域分布圖 (a) DRAM 芯片; (b) Intel i7 處理器芯片F(xiàn)ig.5.Work area distribution map: (a) DRAM; (b) processor.
圖6 不考慮耦合與考慮耦合時芯片溫度分布 (a) DRAM; (b) 處理器Fig.6.Chip temperature distribution without considering coupling and considering coupling: (a) DRAM; (b)processor.
對比考慮電熱耦合前后的仿真結(jié)果, 發(fā)現(xiàn)在考慮電熱耦合因素之后兩個芯片的平均溫度均提高了約20 K.這是因為隨著工作溫度的上升, 芯片泄漏功率急劇增大, 這使得芯片發(fā)熱量進一步增大,形成溫度正反饋循環(huán), 這是影響三維集成微系統(tǒng)工作溫度的主要因素.同時材料的熱導率會隨著溫度的升高而降低, 使得結(jié)構(gòu)的導熱性能變差, 從而使得溫度再度升高, 因此在三維集成微系統(tǒng)的設(shè)計過程中, 綜合考慮電熱耦合對系統(tǒng)可靠性的影響是十分必要的, 否則存在低估系統(tǒng)工作溫度的風險.
表1 FEM 與改進DCM 的仿真時間對比Table 1.Simulation time comparison between FEM and improved DCM.
圖7 兩種不同的TSV 陣列布局 (a) 常規(guī)布局; (b) Core-布局Fig.7.Two different TSV array layouts: (a) Conventional layout; (b) core layout.
在三維集成電路中, 由于具有高熱導率的TSV陣列是溫度傳導的重要路徑, 因此I/O 端口中的TSV 陣列常被作為重要的散熱手段, 而TSV 陣列的Core-布局方式通常被認為能夠有效的降低系統(tǒng)的熱點溫度[23].Core-布局的具體布局方式如圖7(b)所示, 即將DRAM 芯片中I/O 區(qū)域的TSV 陣列布局位置對應(yīng)上層處理器芯片4 個Core 的位置.在以往的研究中采用Core-布局結(jié)構(gòu)的上下層芯片功率相近, 使得兩層芯片的溫度變化連續(xù), 因此能夠使得上下層芯片的熱點溫度同時下降[23,24].而本文所考察的微處理器系統(tǒng)工作狀態(tài)中處理器功率遠大于DRAM 的功率, 并且上下層芯片的熱點溫度相差接近8 K, 因此有必要重新評估Core-布局的可行性.
為了比較兩種布局的溫度分布, 首先將處理器的四個Core 功率設(shè)置為均勻分布, 采用改進的DCM 對兩種布局結(jié)構(gòu)進行電熱耦合仿真分析.如圖8 所示采用Core-布局結(jié)構(gòu)時, 處理器芯片的熱點溫度下降了2.20 K.而與此同時圖9 所示DRAM芯片的熱點溫度為370.93 K, 相比3.1 節(jié)仿真得到的常規(guī)布局熱點溫度上升了4.30 K.這是由于TSV陣列作為重要散熱路徑, Core-布局結(jié)構(gòu)會將處理器高功率Core 區(qū)域產(chǎn)生的熱量傳導到下層, 使得處理器芯片溫度下降的同時讓DRAM 芯片的整體溫度上升.對比TSV 陣列常規(guī)布局的情況, Core-布局使得處理器芯片熱點溫度下降2.73%, 而使得DRAM 芯片的熱點溫度上升5.85%.考慮到高溫會導致DRAM 的晶體管電荷損失加快, 使得數(shù)據(jù)丟失.因此在選擇布局方式時, 需要綜合考慮處理器芯片的降溫情況與DRAM 芯片的升溫情況.
圖8 兩種不同TSV 陣列布局時處理器的溫度分布Fig.8.Temperature distributions of processors with two different TSV arrays.
圖9 Core-布局時DRAM 溫度分布圖Fig.9.DRAM temperature distributions in core-layout.
表2 不同功率分配時仿真時間Table 2.Improving simulation time of DCM and FEM with different power allocation.
表3 不同功率分配下Core-布局相比于常規(guī)布局的芯片溫度變化Table 3.Chip temperature change of core layout compared with conventional layout under different power allocation.
在實際工作中, 多核處理器芯片在執(zhí)行事務(wù)時各個Core 會工作在不同功率下, 因此有必要結(jié)合不同的Core 功率分配情況, 對兩種布局結(jié)構(gòu)的熱分布對功率配比的敏感度進行分析.圖10 給出了幾種典型的Core 功率分配情況, 4 個Core 的總功率值保持為26.5 W, 其中Case1 為大功率事務(wù)集中在單側(cè)兩個Core, Case2 為大功率事務(wù)交錯分布, Case3 為大功率集中在外側(cè)Core, Case4 為大功率事務(wù)集中在中間兩個Core, Case5 為外側(cè)單個Core 大功率工作, Case6 為內(nèi)側(cè)單個Core 大功率工作.
基于本文所提出的改進DCM 對不同功率分配情況下的DRAM 和處理器芯片的熱點溫度進行了統(tǒng)計分析.幾種情況仿真時間如表2 所列, 在對兩種布局的仿真分析中, 改進的DCM 與傳統(tǒng)FEM相比仿真速度提升了約30%.
結(jié)合圖11 和圖12 的統(tǒng)計結(jié)果, 發(fā)現(xiàn)處理器芯片在內(nèi)側(cè)核高功率的Case6 下熱點最高, 功率均勻分配時熱點溫度最低.DRAM 芯片在Case1 下的熱點溫度最高, 功率均勻分配時的熱點溫度最低.由此可見在Core 功率分布不均勻時會加劇熱點問題, 因此處理器工作時應(yīng)盡量保持各核功率分布均勻能有效降低整個微系統(tǒng)的熱點溫度.同時發(fā)現(xiàn)單側(cè)兩個Core 處理大功率事務(wù)的Case1 以及單核處理大功率事務(wù)的Case5, Case6 情況下, 整個微系統(tǒng)的熱點溫度均會顯著升高, 因此在系統(tǒng)設(shè)計時應(yīng)盡量避免這種情況.
圖10 典型Core 功率分配情況Fig.10.Typical core power allocation.
在不同功率配比的情況下, TSV 陣列Core-布局對比常規(guī)布局的處理器芯片降溫與DRAM 芯片升溫情況如表3 所列.可以看出當Core 功率不均勻分布時, Core-布局對處理器芯片的降溫效果與功率均勻分布時相比有提升, 同時也加劇了DRAM芯片的升溫.比較功率均勻分布與降溫最多的Case5, 處理器芯片降溫效果提升了42.27%, 而DRAM 芯片的升溫上升了82.52%.因此Core-布局在功率不均勻分布時, DRAM 芯片會受到更大影響.在設(shè)計三維集成微處理器系統(tǒng)時, 若要降低整體系統(tǒng)的熱點溫度, 在采用Core-布局時需要考慮到DRAM 芯片能工作在容限溫度內(nèi).若要降低DRAM 芯片熱點溫度, 則需要將TSV 陣列即I/O端口布局在遠離Core 的區(qū)域.
圖11 不同功率分配下處理器芯片最高溫度Fig.11.Maximum temperature of processor chip under different power allocation.
圖12 不同功率分配下DRAM 芯片最高溫度Fig.12.Maximum temperature of DRAM chip under different power allocation.
本文針對三維集成微系統(tǒng)的電熱耦合問題提出了一種改進的DCM 算法.基于三維集成微處理器系統(tǒng)對所提算法進行了仿真驗證, 并對微系統(tǒng)的布局設(shè)計、功率分配進行了分析討論.研究表明:本文提出的改進DCM 能快速準確地對三維集成微系統(tǒng)實現(xiàn)建模計算, 在分析電熱耦合問題方面具有顯著的時間優(yōu)勢; 在考慮電熱耦合因素后, 微系統(tǒng)泄漏功耗上升, 材料熱導率下降, 熱點溫度對比耦合前上升約20 K, 表明了對三維集成微系統(tǒng)進行電熱耦合分析的必要性; 在微系統(tǒng)布局設(shè)計方面, TSV 陣列的Core-布局雖然能夠降低處理器芯片的熱點溫度, 但卻同時惡化了DRAM 芯片的熱點問題, 在Core 功率不均勻分配時影響尤為嚴重.因此在系統(tǒng)設(shè)計時, 要綜合考慮處理器和DRAM芯片的容限溫度來確定TSV 陣列布局方案.綜上所述, 本文提出的算法能快速分析三維集成微系統(tǒng)的電熱耦合問題, 實現(xiàn)系統(tǒng)熱點預(yù)測, 為微系統(tǒng)芯片布局設(shè)計提供理論指導.