余金金 ,閆志超 ,張倩憶 ,陳澤發(fā)
(1.上海燧原科技有限公司,上海 200000;2.上海鏗騰電子科技有限公司,上海 200000)
芯片設(shè)計(jì)向著更高的集成化、更高的頻率以及更加復(fù)雜的簽核(signoff)流程發(fā)展。其中靜態(tài)時(shí)序分析(STA)是數(shù)字芯片設(shè)計(jì)signoff 中最關(guān)鍵的環(huán)節(jié)之一。對(duì)于關(guān)鍵路徑的定位,仿真優(yōu)化都是影響芯片性能的重要步驟。同時(shí),隨著芯片設(shè)計(jì)復(fù)雜化,技術(shù)節(jié)點(diǎn)向納米量級(jí)發(fā)展,電源傳輸網(wǎng)絡(luò)造成邏輯單元的電壓降分析也變得越來越系統(tǒng)化、精細(xì)化。因此由于電壓降引入的時(shí)序變化也越來越多的需要考量,尤其是關(guān)鍵路徑上的電壓降。
電壓降會(huì)同時(shí)影響線延時(shí)和單元延時(shí)。由于峰值電壓減小,帶壓降的電壓擺幅會(huì)明顯小于正常電壓,這將影響到線延時(shí)和接收端輸入斜率。電壓降對(duì)時(shí)序影響如圖1 所示,假設(shè)驅(qū)動(dòng)端是工作在正常電壓Vdd而接收端工作在帶壓降的電壓VIRdrop。同時(shí)假設(shè)如下的時(shí)序庫(kù)設(shè)定:
圖1 電壓降對(duì)時(shí)序的影響
(1)Lower slew threshold:20%
(2)Upper slew threshold:80%
(3)Input threshold:50%
(4)output threshold:50%
由于信號(hào)波形通過線傳遞過來,正常電壓擺幅的線延時(shí)將小于帶電壓降計(jì)算得到的延時(shí)。同時(shí)可以看到接收端的輸入斜率變化,而單元延時(shí)是由輸入斜率和輸出負(fù)載的公式計(jì)算得到。因此單元延時(shí)也將被影響到[1]。由于正常庫(kù)文件都是通過標(biāo)準(zhǔn)的電壓點(diǎn)設(shè)計(jì)的,為了更加精確的延時(shí)模型,需要引入多個(gè)電壓點(diǎn)的庫(kù)文件,通過差值法計(jì)算。
技術(shù)節(jié)點(diǎn)對(duì)RC 和單元延時(shí)的影響如圖2 所示,隨著芯片設(shè)計(jì)發(fā)展從40 nm 到28 nm 再到16 nm 以及現(xiàn)在的7 nm 和5 nm,電阻系數(shù)成倍數(shù)(3 倍)地增加,從而造成電壓降關(guān)鍵因子電源網(wǎng)絡(luò)R的增加。而電容系數(shù)幾乎沒有增加,這樣對(duì)于同樣的電流需要可供充放電的耦合電容幾乎沒有增加。電壓降的影響越來越嚴(yán)重。圖中右側(cè)圖中則反映了隨著閾值電壓的降低,標(biāo)準(zhǔn)單元對(duì)于電壓降低帶來的性能影響越來越敏感。因此在當(dāng)前主流12 nm 或者以下的芯片設(shè)計(jì)中IR 以及IR 對(duì)時(shí)序的影響越來越嚴(yán)重。
圖2 技術(shù)節(jié)點(diǎn)對(duì)RC 和單元延時(shí)的影響
針對(duì)于以上兩個(gè)方面的影響,Tempus-PI 為客戶提供了一套自動(dòng)的分析方法,可以同時(shí)考慮時(shí)序和IR 對(duì)設(shè)計(jì)的影響。這套方案可以支持讀入現(xiàn)有矢量波形作為仿真輸入的EIV(Effective Instance Voltage)分析結(jié)果反標(biāo)到每一個(gè)標(biāo)準(zhǔn)單元上去。通過讀入多套電壓的timing lib庫(kù),STA 引擎可以對(duì)新的時(shí)延做準(zhǔn)確的非線性插值,從而得到IR-drop aware的timing 分析結(jié)果。這一輪的STA分析結(jié)果還可以作為新的timing window 重新輸入給power &IR 分析引擎進(jìn)行更為準(zhǔn)確的迭代。
當(dāng)仿真矢量在設(shè)計(jì)初期缺失或者不能涵蓋最差情況的時(shí)候,該方案也支持做第一輪的IR 仿真分析前,通過結(jié)合STA 引擎找出對(duì)電壓敏感的關(guān)鍵時(shí)序路徑,在無矢量仿真中確保這些路徑和在他周圍比較重要影響路徑一定翻轉(zhuǎn),從而得到timing-aware的IR-drop 分析結(jié)果。這也是Tempus-PI 算法中比較獨(dú)特的一點(diǎn)。
這里的研究對(duì)象是一個(gè)12 nm AI 芯片中的核心模塊S。其物理尺寸為2 600 μm×2 700 μm,一共21M 標(biāo)準(zhǔn)單 元。floorplan如圖3所示。
圖3 核心模塊S floorplan
該模塊是整個(gè)AI 芯片的核心,主頻的高低決定了整體計(jì)算性能。因此對(duì)于該模塊的關(guān)鍵路徑的時(shí)序檢查和收斂至關(guān)重要。
傳統(tǒng)的時(shí)序分析基于工藝角的庫(kù)文件以及一系列用來覆蓋不同影響因子的時(shí)序計(jì)算參數(shù),比如derate、uncertainty 等。在該設(shè)計(jì)中要求在typical的情況下,電壓為0.8 V 時(shí),達(dá)到設(shè)計(jì)的目標(biāo)頻率。最終建立時(shí)間的時(shí)序統(tǒng)計(jì)如圖4 所示。
圖4 傳統(tǒng)時(shí)序分析建立時(shí)間直方圖
這里首先介紹下IR的仿真環(huán)境和方式。由于芯片設(shè)計(jì)已經(jīng)結(jié)束,進(jìn)入了實(shí)驗(yàn)室實(shí)測(cè)階段。前端設(shè)計(jì)可以提供和實(shí)測(cè)功能一致的矢量波形作為仿真輸入。因此使用矢量波形作為IR 仿真的輸入。該波形表征了核心模塊S在該時(shí)間段里所有邏輯單元的翻轉(zhuǎn)情況。同時(shí)將單個(gè)核心模塊放到了整個(gè)芯片中單獨(dú)開啟,仿真模型中又帶入了3DIC 相關(guān)的中介層(interposer) 以及封裝相關(guān)的設(shè)計(jì)參數(shù)。IR 仿真結(jié)果如圖5 所示。
如圖5 所示,在系統(tǒng)中單個(gè)核心模塊啟動(dòng)后,在該核心所在區(qū)域從內(nèi)到外形成了壓降效應(yīng)。
圖5 單核心模塊在系統(tǒng)中啟動(dòng)后的IR 仿真結(jié)果
通過Tempus-PI的標(biāo)準(zhǔn)流程,將上個(gè)章節(jié)中的IR 數(shù)據(jù)結(jié)合到STA的仿真中??梢钥吹綍r(shí)序有了很大變化,統(tǒng)計(jì)結(jié)果如圖6 所示。
圖6 IR-aware STA 建立時(shí)間直方圖
可見在帶上IR的信息之后前2 000 條path 都在負(fù)的slack 區(qū)間。
根據(jù)芯片的時(shí)序情況,找到5 個(gè)類型的路徑類型,分別建立了5 組測(cè)試案例,如表1 所示。從表1 可以看出從P1 到P5,路徑的最低電壓和傳統(tǒng)STA的時(shí)序建立時(shí)間沒有相關(guān)性,但是和IR-aware的STA 分析結(jié)果有比較正向的相關(guān)性。尤其是P5的case 為實(shí)測(cè)最高的min-voltage 值,它在仿真中表現(xiàn)為slack 最小的關(guān)鍵路徑。
表1 測(cè)試和IR-aware Tempus-PI 仿真對(duì)比
本文在論述了先進(jìn)工藝節(jié)點(diǎn)下,IR 對(duì)時(shí)序分析的顯著影響。通過引入全系統(tǒng)的模型和參數(shù),基于特定vector進(jìn)行了Tempus-PI 仿真。由此得到的時(shí)序變化情況都和芯片實(shí)測(cè)的實(shí)驗(yàn)結(jié)果有比較合理的一致性。在未來的工作中還將引入無矢量的Tempus-PI 功能,這樣能在signoff 階段發(fā)現(xiàn)并修復(fù)更多的IR 敏感的關(guān)鍵路徑。