?
一種1 GHz多端口低功耗寄存器堆設(shè)計(jì)*
修回日期:2015-03-31
通信地址:上海市延長(zhǎng)路149號(hào)上海大學(xué)電機(jī)樓415A室Address:Room 415A,Dianji Building,Shanghai University,149 Yanchang Rd,Shanghai 200072,P.R.China
李嬌1,2,王良華1,畢卓1,3,劉鵬1
(1.上海大學(xué)微電子研究與開發(fā)中心,上海 200072;
2.上海大學(xué)新型顯示技術(shù)及應(yīng)用集成教育部重點(diǎn)實(shí)驗(yàn)室,上海200072;
3.上海大學(xué)機(jī)電工程與自動(dòng)化學(xué)院自動(dòng)化系,上海 200072)
摘要:超標(biāo)量處理器中的寄存器堆通常采用多端口結(jié)構(gòu)以支持寬發(fā)射,這種結(jié)構(gòu)對(duì)寄存器堆的速度、功耗和面積提出了很大的挑戰(zhàn)。設(shè)計(jì)了一個(gè)64*64 bit多端口寄存器堆,該寄存器堆能夠在同一個(gè)時(shí)鐘周期內(nèi)完成8次讀操作和4次寫操作,通過對(duì)傳統(tǒng)單端讀寫結(jié)構(gòu)的存儲(chǔ)單元進(jìn)行改進(jìn),提出了電源門控與位線懸空技術(shù)相結(jié)合的單端讀寫結(jié)構(gòu)的存儲(chǔ)單元,12個(gè)讀寫端口全部采用傳輸門以加快訪問速度。采用PTM 90 nm、65 nm、45 nm和32 nm仿真模型,在Hspice上進(jìn)行仿真,與傳統(tǒng)單端讀寫結(jié)構(gòu)相比較,所提出的方法能夠顯著提升寄存器堆的性能,其中寫1操作延時(shí)降低超過32%,總功耗降低超過45%,而且存儲(chǔ)單元的穩(wěn)定性也得到明顯改善。
關(guān)鍵詞:寄存器堆;單端結(jié)構(gòu);電源門控;位線懸空
1引言
寄存器堆是微處理器的重要組成部分[1,2],用于存放微處理器運(yùn)行時(shí)所需要的指令、數(shù)據(jù)以及運(yùn)算產(chǎn)生的數(shù)據(jù),它的性能直接決定著微處理器的性能。微處理器已由過去的單指令發(fā)射發(fā)展到現(xiàn)今的多指令發(fā)射,多指令發(fā)射要求寄存器堆具有多個(gè)端口以同時(shí)完成多次讀操作和寫操作,以此提高微處理器的并行處理能力[2]。然而,隨著端口數(shù)的增多,寄存器堆的訪問速度會(huì)變慢,功耗和面積會(huì)增加,性能隨之下降。已有多種技術(shù)用于提高多端口寄存器堆的性能:在速度方面,文獻(xiàn)[3,4]將動(dòng)態(tài)電路應(yīng)用于寄存器堆中以加快訪問速度,但使用動(dòng)態(tài)電路會(huì)大幅增加功耗,也降低了電路的魯棒性;文獻(xiàn)[5,6]從改變晶體管的閾值電壓著手,在非關(guān)鍵路徑上使用高閾值晶體管以減小電流泄漏,在關(guān)鍵路徑上使用低閾值晶體管以加快訪問速度,但這些文獻(xiàn)中使用的雙閾值晶體管、體偏置技術(shù)需要特殊工藝的支持,通用性不強(qiáng);文獻(xiàn)[7,8]采用分體技術(shù)以減少每個(gè)存儲(chǔ)體的端口數(shù),這種技術(shù)能夠明顯降低寄存器堆的功耗和面積,但是需要非常復(fù)雜的控制邏輯來解決訪問時(shí)的地址沖突;文獻(xiàn)[9,10]通過在存儲(chǔ)單元的存儲(chǔ)核心與讀操作端口之間添加隔離反相器,使得存儲(chǔ)核心的抗噪聲能力免受讀操作的影響,大大提高了存儲(chǔ)單元的穩(wěn)定性。
Figure 1 Conventional single-ended memory cell circuit of register files圖1 寄存器堆傳統(tǒng)單端讀寫結(jié)構(gòu)單元電路
本文基于一款4發(fā)射的超標(biāo)量處理器設(shè)計(jì)了一個(gè)64*64 bit寄存器堆,含有8個(gè)讀端口和4個(gè)寫端口,能夠同時(shí)實(shí)現(xiàn)8次讀操作和4次寫操作,通過改進(jìn)寄存器堆存儲(chǔ)單元結(jié)構(gòu)實(shí)現(xiàn)了性能提升。
2傳統(tǒng)單端讀寫結(jié)構(gòu)
寄存器堆主要由存儲(chǔ)陣列、地址譯碼器和讀寫控制邏輯三大部分組成,其中存儲(chǔ)陣列是功耗、面積最大的部分。存儲(chǔ)陣列的基礎(chǔ)單元是存儲(chǔ)單元,存儲(chǔ)單元的結(jié)構(gòu)對(duì)寄存器堆的訪問速度、面積、功耗和可靠性有著重要影響。
多端口寄存器堆通常采用單端讀寫結(jié)構(gòu)[11],傳統(tǒng)單端讀寫結(jié)構(gòu)的存儲(chǔ)單元電路圖如圖1所示。存儲(chǔ)單元的核心是一對(duì)交叉耦合的反相器,在寫操作時(shí),四條寫位線通過四個(gè)傳輸管將數(shù)據(jù)寫入存儲(chǔ)單元,由四條寫字線控制具體從哪一個(gè)寫端口將數(shù)據(jù)寫入存儲(chǔ)單元;在讀操作時(shí),節(jié)點(diǎn)QB通過反相器再經(jīng)八個(gè)傳輸管將存儲(chǔ)值讀出,由八條讀字線控制具體從哪一個(gè)讀端口將數(shù)據(jù)讀出。在讀操作前,預(yù)充電電路會(huì)對(duì)讀位線充電,當(dāng)讀0時(shí),已經(jīng)被預(yù)充為高電平的位線會(huì)通過傳輸管放電使得位線電壓下降,再經(jīng)由靈敏放大器檢測(cè)位線電平變化將數(shù)據(jù)讀出;當(dāng)讀1時(shí),位線保持高電平,可以即時(shí)將數(shù)據(jù)讀出。
相較于雙端讀寫結(jié)構(gòu),采用單端讀寫結(jié)構(gòu)能使位線數(shù)量減半,面積和功耗大幅降低,適合應(yīng)用于多端口寄存器堆設(shè)計(jì)。然而,傳統(tǒng)單端讀寫結(jié)構(gòu)也存在一些缺點(diǎn):(1)由于寫端口是利用NMOS管將數(shù)據(jù)寫入存儲(chǔ)單元,NMOS管在傳輸1電平時(shí)存在閾值損失,節(jié)點(diǎn)Q電壓取決于耦合反相器中N1管與傳輸管的電阻值之比,如果節(jié)點(diǎn)Q電壓值小于MOS管閾值電壓,寫1操作將會(huì)失敗。因此,往往通過增大傳輸管的寬度來減小其電阻值,但這會(huì)導(dǎo)致功耗和寫字線負(fù)載增加。(2)在讀操作之前需要將讀位線預(yù)充到高電平,這一過程會(huì)消耗很大一部分功耗,并且當(dāng)節(jié)點(diǎn)Q電壓為0時(shí),位線電壓會(huì)經(jīng)過傳輸管發(fā)生亞閾值泄漏導(dǎo)致位線電壓降低,給靈敏放大器檢測(cè)位線電壓變化帶來不便。(3)傳統(tǒng)單端讀寫結(jié)構(gòu)的讀操作對(duì)時(shí)序要求較高,為避免工藝偏差和串?dāng)_對(duì)時(shí)序造成的影響,讀操作中不同時(shí)序信號(hào)之間需要預(yù)留充足的裕量,這也就增大了讀操作延時(shí)。另外,靈敏放大器作為模擬電路,受干擾影響較大,對(duì)版圖設(shè)計(jì)有較高的要求。鑒于傳統(tǒng)單端讀寫結(jié)構(gòu)存在的缺點(diǎn),本文對(duì)寄存器堆存儲(chǔ)單元進(jìn)行改進(jìn),提出了新的存儲(chǔ)單元電路。
3一種改進(jìn)的寄存器堆設(shè)計(jì)方案
新的存儲(chǔ)單元電路如圖2所示,結(jié)構(gòu)上做了如下改進(jìn):(1)去掉了預(yù)充電電路和靈敏放大器,改由節(jié)點(diǎn)QB經(jīng)反相器直接驅(qū)動(dòng)位線將數(shù)據(jù)讀出,這樣做可以省掉對(duì)位線預(yù)充電和靈敏放大器讀數(shù)據(jù)時(shí)的功耗,這一功耗占總功耗的比重很大。同時(shí),由于精簡(jiǎn)讀操作電路,使得讀操作時(shí)序更加簡(jiǎn)單,受工藝偏差的影響更小。(2)去掉預(yù)充電電路,使得讀位線處于懸空狀態(tài),位線泄漏也會(huì)大幅降低。(3)對(duì)存儲(chǔ)單元核心使用了電源門控技術(shù),在電源VDD與P1、P2管,電源GND和N1、N2管之間分別添加一對(duì)NMOS管和PMOS管,這四個(gè)MOS管構(gòu)成電源門控電路。當(dāng)對(duì)存儲(chǔ)單元寫0時(shí),節(jié)點(diǎn)Q電壓變?yōu)?,節(jié)點(diǎn)QB電壓變?yōu)?,同時(shí)P4管和N4管關(guān)斷,耦合反相器與GND斷開,P3管和N3管導(dǎo)通,節(jié)點(diǎn)QB通過P3管直接與VDD連接,使得節(jié)點(diǎn)QB電壓恒為1;當(dāng)對(duì)存儲(chǔ)單元寫1時(shí),節(jié)點(diǎn)Q電壓變?yōu)?,節(jié)點(diǎn)QB電壓變?yōu)?,同時(shí)P3管和N3管關(guān)斷,耦合反相器與VDD斷開,P4管和N4管導(dǎo)通,節(jié)點(diǎn)QB通過N4管直接與GND相連,使得節(jié)點(diǎn)QB電壓恒為0。由于單端讀寫結(jié)構(gòu)的讀操作只依靠節(jié)點(diǎn)QB的電壓將數(shù)據(jù)讀出,所以只要保證節(jié)點(diǎn)QB電壓穩(wěn)定即可,節(jié)點(diǎn)Q的電壓由于受電源門控的影響會(huì)處于懸空狀態(tài),但這不會(huì)影響到讀出數(shù)據(jù)的準(zhǔn)確性,因?yàn)樽x出數(shù)據(jù)值只由節(jié)點(diǎn)QB電壓決定。當(dāng)節(jié)點(diǎn)Q處于懸空狀態(tài)時(shí),P3管和N4管的亞閾值泄漏會(huì)增加,在納米工藝下亞閾值泄漏會(huì)變得非常嚴(yán)重,為此將P3管和N4管的溝道長(zhǎng)度增加20%,通過溝長(zhǎng)調(diào)制效應(yīng)來提高P3管和N4管的閾值電壓,從而降低亞閾值泄漏。(4)將所有讀寫端口的傳輸管改由傳輸門代替,傳輸管由于存在閾值損失會(huì)影響到讀寫速度和電壓全擺幅性,傳輸門不存在閾值損失,可以快速進(jìn)行讀寫操作,并且讀操作時(shí)位線電壓是全擺幅變化。(5)由于電源門控的作用,節(jié)點(diǎn)Q電壓為0時(shí),GND與耦合反相器斷開,節(jié)點(diǎn)Q電壓為1時(shí),VDD與耦合反相器斷開,這有助于降低存儲(chǔ)器核心的功耗,尤其是短路功耗。在反相器翻轉(zhuǎn)的過程中,PMOS管和NMOS管會(huì)同時(shí)導(dǎo)通,使得在VDD與GND之間形成一條短路通路,造成很大的短路電流,使用電源門控后,短路通路將會(huì)被截?cái)?,短路電流顯著降低。(6)電源門控技術(shù)的使用,使得節(jié)點(diǎn)QB通過P3、N4管與VDD或GND相連接,增強(qiáng)了節(jié)點(diǎn)QB的抗噪聲能力,提高了存儲(chǔ)單元的穩(wěn)定性。
Figure 2 Improved memory cell circuit of register files圖2 改進(jìn)后的寄存器堆存儲(chǔ)單元電路
為了加快讀操作速度和降低功耗,寄存器堆頂層設(shè)計(jì)采用分體結(jié)構(gòu),將整個(gè)寄存器堆分成八個(gè)存儲(chǔ)體,每個(gè)存儲(chǔ)體容量為8*64 bit,這樣每條局部位線上只連接八個(gè)存儲(chǔ)單元,位線負(fù)載大大降低,提高了讀操作速度。每個(gè)存儲(chǔ)體都有各自的讀寫地址譯碼器和時(shí)鐘產(chǎn)生電路,最后使用多路選擇器將數(shù)據(jù)讀出。寄存器堆頂層結(jié)構(gòu)如圖3所示。
4仿真結(jié)果比較
存儲(chǔ)單元的穩(wěn)定性可以用靜態(tài)噪聲容限SNM(Static Noise Margin)來衡量[12],SNM是指允許加在兩個(gè)耦合反相器輸入端上的最大直流信號(hào)的幅值,如果噪聲信號(hào)幅值大于這一值,耦合反相器會(huì)發(fā)生翻轉(zhuǎn)致使產(chǎn)生錯(cuò)誤的狀態(tài)值。本文所采用的電源門控技術(shù),使得在寫入0后節(jié)點(diǎn)QB與VDD直接相連,電壓值恒為1;在寫入1后節(jié)點(diǎn)QB與GND相連,電壓值恒為0,由于讀操作讀出的數(shù)據(jù)直接由節(jié)點(diǎn)QB的電壓決定,節(jié)點(diǎn)QB直接與VDD或GND相連大大提高了存儲(chǔ)單元的抗噪聲能力。在PTM 45 nm工藝下仿真,得到傳統(tǒng)單端讀寫結(jié)構(gòu)和改進(jìn)后單端讀寫結(jié)構(gòu)的讀寫噪聲容限曲線,其中讀操作噪聲容限RNM(Read Noise Margin)兩者相同,寫操作噪聲容限WNM(Write Noise Margin)后者較前者有明顯改善,圖4和圖5所示為WNM性能對(duì)比。
Figure 3 Top architecture of register files圖3 寄存器堆頂層結(jié)構(gòu)圖
Figure 4 Write 0 noise margin in the conventional structure and the improved structure圖4 傳統(tǒng)結(jié)構(gòu)與改進(jìn)結(jié)構(gòu)的寫0噪聲容限
Figure 5 Write 1 noise margin in the conventional structure and the improved structure圖5 傳統(tǒng)結(jié)構(gòu)與改進(jìn)結(jié)構(gòu)的寫1噪聲容限
寄存器堆的讀操作是關(guān)鍵路徑。如圖6所示,系統(tǒng)時(shí)鐘GlobalCLK經(jīng)由時(shí)鐘產(chǎn)生電路產(chǎn)生讀操作時(shí)鐘R0_clk,再與譯碼器產(chǎn)生的讀字線信號(hào)相與,再經(jīng)過反相器增強(qiáng)讀字線驅(qū)動(dòng)力。當(dāng)讀操作到來時(shí),讀字線信號(hào)將傳輸門開啟,存儲(chǔ)單元通過反相器再經(jīng)由傳輸門對(duì)讀位線充電或放電將數(shù)據(jù)讀出。在PTM 45 nm工藝下,對(duì)寄存器堆關(guān)鍵路徑仿真,得到讀0延時(shí)191 ps,讀1延時(shí)227 ps,如圖7所示為關(guān)鍵路徑仿真波形。
Figure 6 Critical paths of register files圖6 寄存器堆關(guān)鍵路徑
Figure 7 Simulation results of the critical pathsof register files 圖7 寄存器堆關(guān)鍵路徑仿真波形
在Cadence Virtuoso下完成寄存器堆原理圖設(shè)計(jì),采用PTM 90 nm、65 nm、45 nm、32 nm四種不同的仿真模型,在Hspice上分別對(duì)傳統(tǒng)單端讀寫結(jié)構(gòu)和本文提出的結(jié)構(gòu)進(jìn)行仿真驗(yàn)證。寄存器堆系統(tǒng)時(shí)鐘頻率確定為1 GHz,仿真環(huán)境是在最壞的情況下進(jìn)行的,即同一周期內(nèi)進(jìn)行八次讀操作和四次寫操作,并且八個(gè)讀端口同時(shí)讀同一個(gè)字。如表1所示是四種工藝下的寫操作延時(shí)、讀操作延時(shí)、寫操作噪聲容限、讀操作噪聲容限和總功耗仿真數(shù)據(jù)對(duì)比。
在面積方面,本文提出的存儲(chǔ)單元結(jié)構(gòu)的晶體管數(shù)量多于傳統(tǒng)單端結(jié)構(gòu)的存儲(chǔ)單元,導(dǎo)致存儲(chǔ)陣列的面積會(huì)增加,分別是90 112和155 648個(gè)晶體管;由于省掉了預(yù)充電電路和靈敏放大器輸出電路,時(shí)序上的精簡(jiǎn)也降低了讀寫控制邏輯的開銷,存儲(chǔ)陣列的外圍邏輯的面積較傳統(tǒng)方法有所減小,分別是81 752和45 736個(gè)晶體管。采用傳統(tǒng)單端讀寫結(jié)構(gòu)設(shè)計(jì)的寄存器堆一共使用了171 864個(gè)晶體管,采用本文提出的方法設(shè)計(jì)的寄存器堆一共使用了201 384個(gè)晶體管,面積增加了17.2%。
在訪問速度方面,從表1的對(duì)比數(shù)據(jù)來看,改進(jìn)后的結(jié)構(gòu)在寫1操作延時(shí)降低了32%以上,是因?yàn)椴捎脗鬏旈T代替NMOS傳輸管后避免了閾值損失,加快了寫1時(shí)的速度。值得注意的是,表1中的傳統(tǒng)結(jié)構(gòu)讀1操作的延時(shí)為0 ps,這主要是由其特殊的結(jié)構(gòu)決定的。傳統(tǒng)結(jié)構(gòu)在讀操作之前會(huì)將讀位線預(yù)充電為高電平,當(dāng)讀1時(shí),讀位線已經(jīng)是高電平,因此可以即時(shí)將數(shù)據(jù)讀出,而改進(jìn)后的結(jié)構(gòu)的讀操作是通過節(jié)點(diǎn)QB對(duì)讀位線進(jìn)行充電或放電將數(shù)據(jù)讀出,讀1操作是一個(gè)對(duì)讀位線充電的過程,需要一段時(shí)間才能將數(shù)據(jù)讀出。
在功耗方面,總功耗降低了45%以上,改進(jìn)后的結(jié)構(gòu)去掉了讀位線預(yù)充電電路,不再需要對(duì)讀位線預(yù)充電使得功耗大幅下降,并且位線懸空也降低了位線泄漏。
在噪聲容限方面,采用電源門控技術(shù)增強(qiáng)了節(jié)點(diǎn)QB的抗噪聲能力,寫操作噪聲容限顯著提升,受反相器隔離作用的影響,讀操作噪聲容限保持不變。
5結(jié)束語
針對(duì)傳統(tǒng)單端讀寫結(jié)構(gòu)寄存器堆存在的缺點(diǎn),本文對(duì)寄存器堆存儲(chǔ)單元進(jìn)行改進(jìn),采用了電源門控和位線懸空技術(shù),并設(shè)計(jì)了一個(gè)64*64 bit八讀四寫的寄存器堆。在PTM 90 nm、65 nm、45 nm、32 nm四種仿真模型下仿真,結(jié)果表明本文提出的方法能夠顯著提升寄存器堆在寫操作、總功耗等方面的性能,還能提高存儲(chǔ)單元的穩(wěn)定性。
參考文獻(xiàn):附中文
[1]Patwary A R,Greub H,Feng Zhong. Bit-line organization in register files for low-power and high-performance application[C]∥Proc of Electrical and Computer Engineering,2006:505-508.
[2]Roy S,Ranganathan N. State-retentive power gating of register files in multicore processors featuring multithreaded in-or-der cores[J].Transactions on Computers,2011,60(11):1547-1560.
Table 1 Register file performance comparison under four technique models
[3]Li Sheng-long,Li Zhao-lin,Wang Fang. Design of a high-speed low-power multiport register file[C]∥Proc of Microeletronics &Electronics,2009:408-411.
[4]Wang Fang,Ji Li-jiu. Design of high speed 2Write/6Read eight-port register file[C]∥Proc of ICASIC,2003:498-501.
[5]Sarfraz K,Chan M. A low-noise local bitline technique for dual-Vt register files[C]∥Proc of Faible Tension Faible Consommation,2014:1-4.
[6]Gong N,Wang J,Sridhar R. Clock-biased local bit line for high performance register files[J].Electronics Letters,2012,48(18):1104-1105.
[7]Tseng J H,Asanovic K. Banked multiported register files for high-frequency superscalar microprocessors[C]∥Proc of Computer Architecture,2003:62-71.
[8]Wang Dao-ping,Lin Hon-Jarn,Hwang Wei. Low-power multiport SRAM with cross-point write word-lines,shared write bit-lines,and shared write row-access transistors[J].Circuits and Systems II,2014,61(3):188-192.
[9]Xiong Bao-yu. High performance low power multi-port register file research and full custom implementation[D].Shanghai:Fudan University,2011.(in Chinese)
[10]He Peng. Full custom design and realization of large-scale multi-port high speed register File[D].Changsha:National University of Defense Technology,2005.(in Chinese)
[11]Konstadinidis G K,Tremblay M,Chaudhry S. Architecture and physical implementation of a third generation 65nm,16Core,32Thread chip-multithreading SPARC processor[J].JSSC,2009,44(1):7-17.
[12]Hassanzadeh S,Zamani M,Hajsadeghi K. A 32kb 90nm 10T-cell subthreshold SRAM with improved read and write SNM[C]∥Proc of Eletrical Engineering,2013:1-5.
[9]熊保玉. 高性能低功耗多端口寄存器文件研究與全定制實(shí)現(xiàn)[D].上海:復(fù)旦大學(xué),2011.
[10]賀鵬. 大規(guī)模多端口高速寄存器文件全定制設(shè)計(jì)與實(shí)現(xiàn)[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2005.
李嬌(1975-),女,山西運(yùn)城人,博士,講師,研究方向?yàn)楦咝阅軘?shù)字電路設(shè)計(jì)及集成電路可測(cè)試性設(shè)計(jì)。E-mail:lijiao@staff.shu.edu.cn
Li Jiao,born in 1975,PhD,lecturer,her research interests include high performance digital circuit design, and integrated circuit design for testability.
王良華(1989-),男,湖北黃岡人,碩士生,研究方向?yàn)閿?shù)字電路全定制設(shè)計(jì)。E-mail:gggyvwxf@163.com
Wang Liang-hua,born in 1989,MS candidate,his research interests include digital circuit full custom design.
畢卓(1979-),男,吉林敦化人,博士,副教授,CCF會(huì)員(E200010117M),研究方向?yàn)槲⑻幚砥髟O(shè)計(jì)及高性能數(shù)字電路設(shè)計(jì)。E-mail:Zhuo.bi@shu.edu.cn
Bi Zhuo,born in 1979,PhD,associate professor,CCF member(E200010117M),his research interests include microprocessor design, and high performance digital circuit design.
劉鵬(1992-),男,江西贛州人,碩士生,研究方向?yàn)閿?shù)字電路全定制設(shè)計(jì)。E-mail:1182762405@qq.com
Liu Peng,born in 1992,MS candidate,his research interest includes digital circuit full custom design.
A 1 GHz multi-port low-power register file design
LI Jiao1,2,WANG Liang-hua1,BI Zhuo1,3,LIU Peng1
(1.Microelectronics R&D Center,Shanghai University,Shanghai 200072;
2.Key Laboratory of Advanced Display and System Application,Shanghai University,Shanghai 200072;
3.School of Mechatronic Engineering and Automation,Shanghai University,Shanghai 200072,China)
Abstract:Register files in superscalar processors usually adopt the multi-port structure to support the wide issue, however, this structure brings in problems such as prolonging access speed, increasing in silicon areas and higher power consumption.We design a 64*64 bit multi-port register file which can concurrently accomplish 8 read operations and 4 write operations in one single clock cycle.We improve the conventional single-ended memory cell structure and purpose a new structure, which combines the power-gating and the bit-line floating techniques, and the transmission gate is used in all ports to accelerate the access speed.Simulations are conducted on Hspice with PTM 90 nm, 65 nm, 45 nm and 32 nm technology models compared with the conventional single-ended structure, the proposed method can significantly improve the performance of register files, the delay of write logic 1 decreases more than 32%, and the total power consumption decreases more than 45%; the stability of memory cells is also improved.
Key words:register file;single-ended;power-gating;bit-line floating
作者簡(jiǎn)介:
doi:10.3969/j.issn.1007-130X.2015.12.005
中圖分類號(hào):TP333
文獻(xiàn)標(biāo)志碼:A
收稿日期:*2014-12-15;
文章編號(hào):1007-130X(2015)12-2222-06