趙以誠(chéng),周 剛
(中國(guó)電子科技集團(tuán)公司第四十七研究所,沈陽(yáng)110032)
高速低功耗SRAM體系結(jié)構(gòu)及設(shè)計(jì)仿真
趙以誠(chéng),周剛
(中國(guó)電子科技集團(tuán)公司第四十七研究所,沈陽(yáng)110032)
提出了一種高速低功耗1M-bit靜態(tài)隨機(jī)存儲(chǔ)器的體系結(jié)構(gòu)設(shè)計(jì),在此體系結(jié)構(gòu)基礎(chǔ)上完成了整體電路架構(gòu)的搭建。同時(shí),運(yùn)用Hspice模擬電路仿真工具完成了電路系統(tǒng)仿真。在5V電源電壓下,采用CSMC 0.35μm工藝模型,地址取數(shù)時(shí)間為15ns,平均動(dòng)態(tài)功耗為100mA,靜態(tài)功耗為6mA,實(shí)現(xiàn)了靜態(tài)隨機(jī)存儲(chǔ)器高速、低功耗的良好性能。
靜態(tài)隨機(jī)存儲(chǔ)器;體系結(jié)構(gòu);高速低功耗;譯碼器;靈敏放大器;內(nèi)核
由于現(xiàn)代數(shù)字系統(tǒng)需要高速存儲(chǔ)能力,因此越來(lái)越高密度的存儲(chǔ)器設(shè)計(jì)與制造技術(shù)被人們所采用,無(wú)論是最早的獨(dú)立式存儲(chǔ)器,還是發(fā)展迅速的嵌入式存儲(chǔ)器,在未來(lái)都是集成電路市場(chǎng)中持續(xù)增長(zhǎng)的部分。
主要針對(duì)異步獨(dú)立式1M-bit靜態(tài)隨機(jī)存儲(chǔ)器(SRAM)的體系結(jié)構(gòu)進(jìn)行了細(xì)致的分析與設(shè)計(jì)。首先提出一種新型的1M-bit SRAM體系結(jié)構(gòu),然后按照這種體系結(jié)構(gòu),對(duì)整體電路進(jìn)行搭建,最后完成整體電路的模擬仿真,并分析其波形結(jié)果和性能指標(biāo),總結(jié)后得出結(jié)論。
下面設(shè)計(jì)一種1M-bit SRAM體系結(jié)構(gòu),采用多層次的譯碼結(jié)構(gòu),如圖1所示,從而更好地實(shí)現(xiàn)并滿足靜態(tài)隨機(jī)存儲(chǔ)器高速低功耗的特點(diǎn)。
其中包含的存儲(chǔ)單元內(nèi)核陣列是圖中最大的塊。512路列譯碼器分布在橫向左右兩側(cè),128路位線行譯碼分布在縱向兩側(cè),位線多路器和靈敏放大器放置在內(nèi)核陣列的中間部分。
其中列譯碼器由一個(gè)初級(jí)譯碼器和一個(gè)次級(jí)譯碼器組成,它用來(lái)驅(qū)動(dòng)豎直方向穿過(guò)陣列的字線。而每一對(duì)位線連接一個(gè)位線行譯碼器,同時(shí)這個(gè)譯碼器連接著位線的I/O電路,一般包括靈敏放大器和寫驅(qū)動(dòng)器電路。所有的存儲(chǔ)單元都在水平方向和垂直方向上鏡像排列成規(guī)則陣列[1]。
該靜態(tài)隨機(jī)存儲(chǔ)器的容量一共1Mbit,每次讀寫一個(gè)由8bit構(gòu)成的字節(jié),又由于是八位并行數(shù)據(jù)輸出,所以可以寫成128K×8bit。由于1M
位的存儲(chǔ)器可以按照下面的等式計(jì)算:1Mbit=128×1024×8=27×210×8bit。
圖1 存儲(chǔ)器體系結(jié)構(gòu)
所以,如果能夠完成所有位的隨機(jī)寫讀,一共需要17位的地址進(jìn)行譯碼操作。
由于1M位SRAM容量較大,它的陣列長(zhǎng)度和寬度過(guò)大,導(dǎo)致了連接存儲(chǔ)單元的橫向字線與縱向位線較長(zhǎng)。因?yàn)榻饘倩ミB導(dǎo)線的RC延遲與長(zhǎng)度的平方成正比,所以整體存儲(chǔ)器的訪問(wèn)時(shí)間也與陣列的寬度和高度的平方成正比[2]。同時(shí),隨著陣列的增加,大容量存儲(chǔ)器帶來(lái)的導(dǎo)線電容增大,會(huì)使得一次讀寫所消耗的功耗過(guò)大。如何實(shí)現(xiàn)高速低功耗的1M-bit SRAM體系結(jié)構(gòu)設(shè)計(jì),是研究的關(guān)鍵內(nèi)容。
設(shè)計(jì)的存儲(chǔ)器體系結(jié)構(gòu)按照分塊譯碼、列譯碼(字線譯碼)、行譯碼(位線譯碼)三個(gè)層次進(jìn)行劃分,最終有效實(shí)現(xiàn)一個(gè)字節(jié)的讀寫功能操作。
首先進(jìn)行塊譯碼劃分。通過(guò)把存儲(chǔ)器陣列分割成一定數(shù)量的小塊,然后利用塊地址譯碼選中需要讀寫的一塊,如此可以顯著降低橫向字線的長(zhǎng)度。另外,使用分級(jí)譯碼操作后,可以改善字線過(guò)長(zhǎng)帶來(lái)的電阻過(guò)大、字線開(kāi)啟延遲時(shí)間過(guò)長(zhǎng)的問(wèn)題[3]。
設(shè)計(jì)中將1M-bit SRAM分成八大塊,每一塊為128K,它由A8、A9、A11三個(gè)地址組成的三八譯碼器實(shí)現(xiàn)。接著,地址A13將每一塊分成左右2小塊,每一小塊為64K,由此將整個(gè)存儲(chǔ)器分成了16小塊,如圖2所示。
圖2 分塊后的SRAM陣列
經(jīng)過(guò)塊譯碼操作后,將一條豎直的長(zhǎng)字線分成了8段。這樣,每次讀寫時(shí),僅在某一塊中的字線被開(kāi)啟,使得分塊后字線上的延遲比原來(lái)分塊的延遲降低了64倍。
其次進(jìn)行列譯碼(字線譯碼)劃分。設(shè)計(jì)中的列譯碼實(shí)質(zhì)上屬于字線譯碼,以其中一個(gè)64K的小塊為例,它在橫向上一共有512列單元,也就是有512根字線[4]。
由于512=29,所以字線譯碼需要9個(gè)地址,設(shè)計(jì)中采用A3-A7,A12,A14-A16地址作為字線譯碼。
因?yàn)樽志€一般用多晶硅制作,并且由于分布的RC寄生參數(shù)對(duì)信號(hào)產(chǎn)生一定的延遲,極大影響了存儲(chǔ)器的讀寫速度,而且上面的大電容也帶來(lái)了額外功耗。
為了減少延遲和功耗,設(shè)計(jì)采用了一種新的SRAM字線分割技術(shù)。其核心技術(shù)在于用A3-A7,A12,A14等7個(gè)地址定義全局字線,總共產(chǎn)生128條全局字線[5]。這128條字線不直接驅(qū)動(dòng)存儲(chǔ)單元,因此比正常字線的電容小得多。余下的兩個(gè)地址位A15、A16用于產(chǎn)生實(shí)際驅(qū)動(dòng)單元存取管的局部字線,一共產(chǎn)生128×4=512根字線。
由于之前劃分了8個(gè)大塊并且使用局部字線對(duì)其進(jìn)行存取,總單元電容減少的最大因數(shù)是8。因此,這種設(shè)計(jì)使得功耗大大減少,同時(shí)使字線上的延遲也減小,加快了存儲(chǔ)器的讀寫速度。
最后進(jìn)行行譯碼(位線譯碼)劃分。設(shè)計(jì)中的行譯碼實(shí)質(zhì)上屬于位線譯碼,以64K的小塊為例,它在縱向上一共有128對(duì)位線,這128對(duì)位線又分為8組,每組中包含16對(duì)位線。經(jīng)過(guò)位線譯碼的作用,從16對(duì)位線中選中一對(duì)位線,每一對(duì)位線對(duì)應(yīng)1位。如此,8組中同時(shí)被選中一對(duì)位線連接到靈敏放大器作為輸出,便實(shí)現(xiàn)了8位輸出,即一個(gè)字節(jié)的輸出。
由于16=24,所以位線譯碼需要4個(gè)地址,設(shè)計(jì)中采用A0-A2構(gòu)成3-8譯碼器,然后再與A10組合成4-16譯碼,最終選中需要讀出的存儲(chǔ)單元位線。
由于一對(duì)位線通常用金屬制作,所以它的電阻相對(duì)較小,但是隨著金屬線變長(zhǎng)變細(xì),它的延遲效應(yīng)不可忽略[7]。同時(shí),連線和許多連接到它上面的平行存取管的組合電容使每條線上都有一個(gè)大的等效集總電容,因此也帶來(lái)了額外功耗。
設(shè)計(jì)中首先采用地址A13將128K分成左右2小塊的64K,目的就是為了將很長(zhǎng)的位線分割成左右兩部分,從而減小信號(hào)延遲。同時(shí),每?jī)蓪?duì)位線之間用電源和地的寬金屬線隔離開(kāi),減小等效集總電容,如此一來(lái)也就減小了額外功耗。
總之,以上采用了分級(jí)字線、位線譯碼技術(shù),形成了多層次的譯碼結(jié)構(gòu),使得它的字線和位線的延遲時(shí)間要減小很多,而且最大限度地節(jié)約了譯碼時(shí)間,降低了陣列功耗,從而實(shí)現(xiàn)高速低功耗的1M-bit SRAM的體系結(jié)構(gòu)設(shè)計(jì)。
根據(jù)以上1M-bit SRAM體系結(jié)構(gòu)的論述,設(shè)計(jì)出它的具體電路架構(gòu),如圖3所示。它的電路結(jié)構(gòu)完全按照SRAM的體系結(jié)構(gòu)進(jìn)行搭建,主要包括控制電路、地址譯碼電路、存儲(chǔ)單元陣列核心電路、I/O電路四部分,組成整個(gè)1M-bit SRAM的體系結(jié)構(gòu)[6]。其中,A<16:0>端口為地址輸入端;DQ<7:0>為數(shù)據(jù)I/O端口;NCS為片選信號(hào);CE為使能控制信號(hào)端;NEW為讀寫控制信號(hào)端;NOE為I/O讀控制端。
其中控制電路主要產(chǎn)生讀寫控制信號(hào)、I/O控制信號(hào)、片選使能信號(hào),以確保電路能夠正常實(shí)現(xiàn)功能操作。
地址譯碼電路由地址A<16:0>按照規(guī)律組合而成,主要包括2-4譯碼器,3-8譯碼器,4-16譯碼器等等。
圖3 1M-bit SRAM的電路架構(gòu)
I/O電路指的是輸入輸出電路,設(shè)計(jì)它時(shí)必須考慮到存儲(chǔ)單元設(shè)計(jì)和存儲(chǔ)器的時(shí)序規(guī)范,否則存儲(chǔ)器在讀寫時(shí)數(shù)據(jù)會(huì)發(fā)生錯(cuò)亂,導(dǎo)致功能失效。
總之,在設(shè)計(jì)整體電路時(shí),既要保證各個(gè)部分電路連接的正確性,又要保證其功能和時(shí)序的正確性,這樣才能實(shí)現(xiàn)整個(gè)電路系統(tǒng)的穩(wěn)定性。
仿真采用csmc 0.35μm工藝模型,采用Hspice仿真工具,工作電壓源為5V。為了能夠更好的觀察仿真結(jié)果,本設(shè)計(jì)只給出TT_25度的波形[7]。
如圖4所示,觀察8個(gè)輸入、輸出中的D<0>、DQ<0>,前200ns為寫入數(shù)據(jù)時(shí)間,后200ns為讀出時(shí)間。在寫入周期內(nèi)連續(xù)寫入4個(gè)數(shù)據(jù)0101,而在讀出周期內(nèi)連續(xù)讀出4個(gè)數(shù)據(jù)0101,可以看出存儲(chǔ)器的讀寫功能正確。
如果觀察某個(gè)1bit存儲(chǔ)單元的讀寫情況,可以通過(guò)觀察這個(gè)存儲(chǔ)單元的一對(duì)位線變化情況即可。
在圖4中,選中了1M-bit SRAM的一條關(guān)鍵路徑中的一個(gè)存儲(chǔ)單元,分別通過(guò)塊譯碼、字線譯碼、位線譯碼來(lái)確定這個(gè)存儲(chǔ)單元的位置。將地址A<16:0>分別進(jìn)行組合譯碼,選中第八塊的左半部分;經(jīng)過(guò)字線譯碼,選中第510條字線那一列的單元;經(jīng)過(guò)位線譯碼,選中每一組位線中的第0條位線。所以,需要觀察的目標(biāo)是一對(duì)位線為bl<0>,blb<0>,一條字線為wl_l<510>的那個(gè)單元,如此便選中了需要觀察的這個(gè)1bit存儲(chǔ)單元。
圖中畫虛線箭頭的部分,分別為這個(gè)1bit存儲(chǔ)單元的寫入、讀出操作過(guò)程。存儲(chǔ)單元寫入時(shí),blb<0>要完全被拉到低電平,并維持10ns左右,這樣才可以使單元內(nèi)部的信號(hào)翻轉(zhuǎn),寫入正確的數(shù)據(jù);讀出過(guò)程中,由于bl<0>,blb<0>連接到外部的靈敏放大器,所以二者只需有微小的電壓差即可被靈敏放大器識(shí)別放大,blb<0>的電平略有下降,但不必完全下降到低電平,這樣便提高了存儲(chǔ)器的讀出速度[8]。
圖4 寫入、讀出功能仿真
提出了一種高速低功耗的靜態(tài)隨機(jī)存儲(chǔ)器體系結(jié)構(gòu),并根據(jù)這種體系結(jié)構(gòu),構(gòu)建了1M-bit SRAM的整體電路架構(gòu)。利用Hspice仿真工具對(duì)整體電路進(jìn)行模擬仿真,通過(guò)觀察電路關(guān)鍵路徑中某一個(gè)1bit存儲(chǔ)單元的寫入、讀出情況,可以看出設(shè)計(jì)基本上滿足隨機(jī)存儲(chǔ)器的功能、速度、功耗等參數(shù)的性能指標(biāo)。在今后的工作中,根據(jù)電路布局,可以完成它的物理版圖設(shè)計(jì),進(jìn)而流片制造出成品。
[1][美]拉貝爾,等著.?dāng)?shù)字集成電路—電路、系統(tǒng)與設(shè)計(jì)[M].周潤(rùn)德,等譯.北京:電子工業(yè)出版社,2004.[American]Rabaey,J.M.Digital Integrated Circuits:A Design Perspective[M].Zhourundei Translate.Beijing:Electronic Industry Press,2004.
[2]T Hirose,et al.A 20-ns 4-Mb CMOS SRAM with Hierarchical Word Decoding[J].IEEEJournal of Solid State Circuits,1990,25(5):1068-1074.
[3]T Ootani,et al.A 4-Mb CMOS SRAM with PMOS Thin-Film-Transistor Load Cell[J].IEEE Journal of Solid State Circuits,1990,25(5):1082-1092.
[4]J Chang.Theory of MNOS Memory Transistor[J].IEEE Trans.ElectronDevices,1977,ED-24:511-518.
[5]B S Amrutur,M A Horowitz.Fast Low-Power Decoders for RAMs[J].IEEE Journal of Solid-State Circuits,2001,36(10):1506-1515.
[6]B Prince,Emerging Memories:Technologies and Trends[M].Kluwer Academic Publishers,Boston,MA,2002.
[7]何樂(lè)年,王憶,編著.模擬集成電路設(shè)計(jì)與仿真[M].北京:科學(xué)出版社,2008.Helenian,Wangyi,Compile.Analog CMOS Integrated Circuits Design[M].Beijing:Science Press,2008.
[8][美]宋莫康,等著.CMOS數(shù)字集成電路—分析與設(shè)計(jì)[M].王志功,等譯.北京:電子工業(yè)出版社,2005.[American]Songmokang.CMOSDigitalIntegrated Circuits:AnalysisandDesign[M].Wangzhigong Translate.Beijing:Electronic Industry Press,2005.
Design and Simulation of System Structure of High Velocity and Low Power SRAM
Zhao Yicheng,Zhou Gang
(The 47th Research Institute of China Electronics Technology Group Corporation,Shenyang 110032,China)
A design of a system structure of high velocity low power 1M-bit SRAM is described in this paper,and the construction of circuit is finished on the basis of system structure.At the same time,the simulation of the circuit system is accomplished by Hspice.In the conditions of 5V and CSMC 0.35μm process model,with the address access time of 15ns,the average dynamic power of 100mW and the static power of 6mW,good capability of low power and high velocity SRAM are carried out.
Static random memorizer;System structure;High velocity low power;Encoder;Sensitive amplifier;Kernel
10.3969/j.issn.1002-2279.2016.05.002
TN603
B
1002-2279(2016)05-0006-03
趙以誠(chéng)(1984-),男,遼寧沈陽(yáng)人,工程師,主研方向:集成電路設(shè)計(jì)。
2016-06-13