摘要:在當(dāng)前高性能片上網(wǎng)絡(luò)設(shè)計(jì)中,功耗和延遲是設(shè)計(jì)所面臨的核心問題之一。在此著重闡述了構(gòu)成低功耗和低延遲NoC的4種結(jié)構(gòu):低擺幅的信號(hào)傳輸結(jié)構(gòu)、可重構(gòu)的NoC結(jié)構(gòu)、3D的IC設(shè)計(jì)結(jié)構(gòu)、基于數(shù)據(jù)壓縮機(jī)制的結(jié)構(gòu)。通過對(duì)其功過原理的分析,比較了4種結(jié)構(gòu)的優(yōu)缺點(diǎn),最后對(duì)未來(lái)低功耗、低延遲的NoC發(fā)展方向做出了預(yù)測(cè)。
關(guān)鍵詞:NoC; 低功耗; 低延遲; 3D
中圖分類號(hào):TN91934文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1004373X(2012)04017304
Power consumption and performance of network on chip
PENG Yonghong1, XIN Jie2, ZHOU Xiaowei3, SHEN Bo3, DING Yifeng3
(1. Guomao Electronic Systems Co., Ltd., Suzhou,215000, China; 2. Deparment of Computer Science, Suzhou University, Suzhou 215000, China;
3. Suzhou Industrial District Science and Technology Development Co., Ltd., Suzhou 215000, China)
Abstract: The power consumption and timedelay are the most important design constraints in the highperformance NOC (network on chip) design. Four structures of NOC with low power consumption and low timedelay are elaborated: low swing signal transmission structure, reconfigurable NOC structure, 3D IC design structure and structure based on data compression mechanism. The advantages and disadvantages of the four structures are compared by the analysis of the theoretic diagram and the principle of each type of NOC. Finally, the development directions of the low power consumption and low timedelay NOC are predicted.
Keywords: NOC; low power consumption; low timedelay; 3D
收稿日期:201109150引言
片上系統(tǒng)(System on Chip,SoC)和IP核技術(shù)的研究始于20世紀(jì)90年代初,并在隨后的十幾年中,得到了飛速的發(fā)展,到目前已有集成了十幾億個(gè)晶體管的單片芯片[1],當(dāng)SoC的集成度越高時(shí),芯片上的延遲、功耗等問題也就越突出。尤其表現(xiàn)出了總線的可擴(kuò)展性弱,平均通信率低和單一時(shí)鐘的同步性差等問題。于是在1999年研究者們提出了片上網(wǎng)絡(luò)(Network on Chip,NoC)的概念來(lái)解決上述問題[23]。
NoC可以定義為在單一芯片上實(shí)現(xiàn)基于網(wǎng)絡(luò)通信的多處理器系統(tǒng),其中包括計(jì)算節(jié)點(diǎn)和通信節(jié)點(diǎn)。計(jì)算節(jié)點(diǎn)為完成廣義的計(jì)算任務(wù),它可以是單一的IP核也可以是比較完整的SoC,而通信節(jié)點(diǎn)為負(fù)責(zé)計(jì)算節(jié)點(diǎn)之間的數(shù)據(jù)通信。片上網(wǎng)絡(luò)是借鑒分布式計(jì)算機(jī)系統(tǒng)的通信方式,由分組交換技術(shù)和路由技術(shù)代替?zhèn)鹘y(tǒng)的總線技術(shù)完成通信。NoC的核心思想是將計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)移植到芯片設(shè)計(jì)中來(lái),從體系的結(jié)構(gòu)上解決有關(guān)SoC的問題。主要表現(xiàn)在NoC網(wǎng)絡(luò)具有良好的地址空間可擴(kuò)展性,同時(shí)提供良好的并行通信能力和使用全局異步局部同步機(jī)制,解決了總線結(jié)構(gòu)的單一時(shí)鐘同步等一系列問題[4]。
目前NoC相關(guān)的研究主要集中在NoC網(wǎng)絡(luò)協(xié)議、NoC拓?fù)浣Y(jié)構(gòu)、低功耗和低延遲等方面。研究表明,隨著集成電路技術(shù)的快速發(fā)展,目前互聯(lián)線的延遲比MOS管的延遲更嚴(yán)重,同時(shí)隨著集成度的提高[1],也使得互聯(lián)線的功耗問題成為了NoC研究的核心問題[5]之一。例如Intel生產(chǎn)的“萬(wàn)億級(jí)芯片”,它的互聯(lián)線功耗占整個(gè)芯片功耗的40%[6],麻省理工學(xué)院(MIT)研究的可重構(gòu)Raw處理器,在互聯(lián)線上消耗的功耗占整個(gè)處理器功耗的36%之多[7],由韓國(guó)KAIST實(shí)驗(yàn)室設(shè)計(jì)的應(yīng)用低功耗NoC技術(shù)生產(chǎn)的BONE2芯片,其NoC互聯(lián)部分的功耗也占到了31.8%[8]。
本文將對(duì)實(shí)現(xiàn)低功耗和低延遲NoC的4種結(jié)構(gòu)進(jìn)行詳細(xì)分析,包括了低擺幅的信號(hào)傳輸結(jié)構(gòu)、可重構(gòu)的NoC結(jié)構(gòu)、3D的IC設(shè)計(jì)結(jié)構(gòu)、基于數(shù)據(jù)壓縮機(jī)制的結(jié)構(gòu),并比較這4種結(jié)構(gòu)在功耗和延遲等方面的優(yōu)缺點(diǎn)。在此基礎(chǔ)上,預(yù)測(cè)了NoC的發(fā)展趨勢(shì)。
1低功耗、低延遲的4種NoC結(jié)構(gòu)
1.1低擺幅的信號(hào)傳輸結(jié)構(gòu)
對(duì)于傳輸線上的功耗計(jì)算可以由下面的公式給出[9]:Plink = αCLVswingVdriverf(1)式中:α為信號(hào)翻轉(zhuǎn)率;CL為電路負(fù)載電容;Vswing為傳輸線上的電壓擺幅;Vdriver為驅(qū)動(dòng)電壓;f為信號(hào)的頻率。
從式(1)中可以看出,采用低的擺幅傳輸線電壓,可以降低系統(tǒng)的功耗。如Kangmin Lee[10]等提出了圖1所示的電路。這個(gè)電路可以降低功耗、減少延遲,并具有很強(qiáng)的抗干擾能力。
圖1低擺幅電壓電路對(duì)于圖1中傳輸模塊(Transmitter)而言,當(dāng)輸入數(shù)字信號(hào)時(shí),對(duì)于不同的電源電壓,其高電平和低電平的噪聲容限不同。例如在以Vdriver為電源電壓的情況下,低電平輸入電壓為0.3 V,在Vswing為電壓的情況下這個(gè)電壓值可能是高電平,故使用一對(duì)反相器使輸入電壓的噪聲容限增加,再經(jīng)過電源電壓為Vswing的反相器,使得輸出電壓降低。
對(duì)于時(shí)鐘恢復(fù)電路(CRC, Clock Restore Circuit)模塊而言,當(dāng)STB信號(hào)為Vswing的高電平,STB信號(hào)為Vswing的低電平時(shí),P1、P2管全部導(dǎo)通,左邊電流遠(yuǎn)遠(yuǎn)大于右邊電流,使得N1管進(jìn)入三極管區(qū),差動(dòng)放大器的輸出為低電平。經(jīng)過三個(gè)反相器之后變成高電平。當(dāng)STB信號(hào)為Vswing的低電平,STB信號(hào)為Vswing的高電平時(shí),這時(shí)右邊電路電流遠(yuǎn)大于左邊電路電流,但由于CRC電路的下部分是一個(gè)電流鏡,這樣就迫使差動(dòng)放大器的輸出電壓為高電平,經(jīng)過三個(gè)反相器之后變成了低電平。使用三個(gè)反相器是由于不同電源電壓的電平噪聲容限不同,這里是為進(jìn)行轉(zhuǎn)化而設(shè)置的。時(shí)鐘控制放大電路(Clocked Sense Amp.)模塊,原理同CRC電路相同,只是這個(gè)電路的P1管受clk的控制而已,即當(dāng)CLK為高電平時(shí)(即不傳輸信號(hào)),整個(gè)電路截止,使得差動(dòng)放大器的輸出電壓上移,當(dāng)差動(dòng)輸出為高電平,經(jīng)過3個(gè)反相器之后為低電平。
由于數(shù)字電路和差動(dòng)輸入放大器,它們的延遲時(shí)間都是用擺率來(lái)計(jì)算,如(2)式所示: tp=ΔV/SR(2)式中:tp表示傳輸延遲;SR表示擺率;ΔV表示輸出信號(hào)的高電平與低電平的模擬電壓差,所以電壓轉(zhuǎn)化之后使得ΔV減小,延遲減小。若使擺率增加,即增加輸出電流和輸入電流的驅(qū)動(dòng)能力,在此電路中,可以通過增加晶體管的寬長(zhǎng)比或降低Vswing使電流增加,繼而擺率增加,傳輸時(shí)延減小,但相應(yīng)的功耗也增加,這樣必須對(duì)功耗和延遲進(jìn)行權(quán)衡。圖2[10]中給出了在固定的晶體管的寬長(zhǎng)比下,功耗能量延遲積與電壓擺幅的關(guān)系,并標(biāo)出Vswing在什么值時(shí),功耗能量與延遲積最小。
1.2可重構(gòu)的NoC結(jié)構(gòu)
Mikkel.B.S提出了可編程路由和鏈路結(jié)構(gòu)[11],如圖3所示。
在圖3中,每個(gè)交換節(jié)點(diǎn)有5個(gè)端口,4個(gè)連接臨近的交換節(jié)點(diǎn),和一個(gè)連接IP核,圖中在路由器和鏈路之間加入了可編程開關(guān),通過這種拓?fù)溟_關(guān),可以使網(wǎng)絡(luò)通路經(jīng)過路由器,或不經(jīng)過路由器而通過物理鏈路直接傳輸?shù)狡渌腎P核或者輸出,其中一種可能的傳輸物理結(jié)構(gòu)如圖4所示。
圖2功耗延遲積與Vswing的關(guān)系圖通過圖4所示的這個(gè)可編程邏輯的交換節(jié)點(diǎn),可以將純物理鏈路的低功耗和經(jīng)過路由通路的低延遲結(jié)合起來(lái),使得整個(gè)電路實(shí)現(xiàn)低功耗、低延遲。
當(dāng)然,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)也可以是其他結(jié)構(gòu),如樹型結(jié)構(gòu),Mesh, Xmesh等相似的拓?fù)浣Y(jié)構(gòu),只要把交換節(jié)點(diǎn)的可編程結(jié)構(gòu)應(yīng)用于其他的拓?fù)浣Y(jié)構(gòu)即可。
1.33D的IC設(shè)計(jì)結(jié)構(gòu)
隨著器件尺寸的減小和工藝水平的提高,人們已經(jīng)利用多層結(jié)構(gòu),來(lái)減少功耗和延遲。其中Igor Loi等人提出了3D的NoC[12],其垂直方向等效電路圖如圖5所示。
圖3交換節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)圖4一種復(fù)雜的多樣的物理鏈路結(jié)構(gòu)圖圖5兩個(gè)垂直節(jié)點(diǎn)的連接的等效電路圖其中Rpl_out_top為上層電路交換節(jié)點(diǎn)的平面輸出電阻,Cpl_out_top為上層電路交換節(jié)點(diǎn)的平面輸出等效電容,Rpl_in_top為上層電路交換節(jié)點(diǎn)的平面輸入電阻,Cpl_in_top為上層電路交換節(jié)點(diǎn)的平面輸入等效電容,Rtsv為上下層電路之間的硅通路電阻(Through Silicon Via),Ctsv為上下層電路之間的硅通路電容。上下兩層電路的鏈接通過Rcontact相連,雖然電路增加了硅通路電阻和電容,但采用上下層的結(jié)構(gòu)使得互聯(lián)線大大縮短,這相對(duì)于硅通路增加的電阻,其互聯(lián)線減小的電阻要大的多,故使得功耗和延遲都有所減小。
1.4基于數(shù)據(jù)壓縮機(jī)制的結(jié)構(gòu)
對(duì)于單片芯片,從一個(gè)IP塊到另一個(gè)IP塊的數(shù)據(jù)有很大的冗余,所以可以引用計(jì)算機(jī)系統(tǒng)中的高速緩存結(jié)構(gòu)(Cache)來(lái)減少數(shù)據(jù)冗余,Reetuparna Das等[13]提出了高速存儲(chǔ)和片上網(wǎng)絡(luò)的通信相結(jié)合來(lái)降低總的功耗和延遲,圖6給出了此結(jié)構(gòu)的框架圖。
圖6高速緩存壓縮和NIC壓縮模型高速緩存壓縮模型(Cache Compression Scheme,CC)模式是采用數(shù)據(jù)壓縮解壓模塊和網(wǎng)絡(luò)適配器(Network Interface Controller,NIC)分離設(shè)計(jì)技術(shù),即CPU或者其他模塊產(chǎn)生的數(shù)據(jù)先經(jīng)過壓縮,再通過NIC和高速緩存單元節(jié)點(diǎn)(Cache Bank)等把壓縮之后的數(shù)據(jù)傳至目的地,最后將壓縮之后的數(shù)據(jù)解壓。基于網(wǎng)絡(luò)適配器壓縮模型(NIC Compression Scheme,NC)模塊采用的是數(shù)據(jù)壓縮解壓模塊嵌入NIC中,即在Cache Bank模塊中嵌入了數(shù)據(jù)壓縮解壓模塊,這樣可以在傳輸?shù)母咚倬彺嬷袑?duì)數(shù)據(jù)進(jìn)行壓縮和解壓。雖然這樣的NC結(jié)構(gòu)減小CPU的數(shù)據(jù)阻塞,卻可能產(chǎn)生通信阻塞。下面給出NIC高速緩存查找過程,如圖7所示。和計(jì)算機(jī)系統(tǒng)類似,NoC采用此結(jié)構(gòu)既減少傳輸?shù)臄?shù)據(jù)量。同時(shí)也降低了NoC總體的功耗和延遲。
1.5四種結(jié)構(gòu)的對(duì)比
表1給出了上述四種結(jié)構(gòu)的性能參數(shù)。我們可以得出這四種結(jié)構(gòu)幾乎都減小NoC的功耗和延遲,但各自的偏重點(diǎn)不一樣并各有缺點(diǎn)。如低擺幅的信號(hào)傳輸需要多電源供電,增加了設(shè)計(jì)的難度,3D的IC設(shè)計(jì)需要有較好的工藝水平,可重構(gòu)的NoC結(jié)構(gòu)的延遲幾乎沒減小,基于數(shù)據(jù)壓縮機(jī)制的結(jié)構(gòu)對(duì)壓縮解壓算法和電路的設(shè)計(jì)。
圖7NIC高速緩存的查找過程圖表1四種結(jié)構(gòu)的功耗和延遲%
結(jié)構(gòu)類型功耗(相對(duì)于2D
mesh結(jié)構(gòu))延遲(相對(duì)于2D
mesh結(jié)構(gòu))低擺幅的信號(hào)傳輸62---可重構(gòu)的NoC結(jié)構(gòu)56---3D的IC設(shè)計(jì)7240數(shù)據(jù)壓縮(CC/NIC)77/7967/68
2總結(jié)和預(yù)測(cè)
本文論述了四種減小功耗和延遲的電路拓?fù)浣Y(jié)構(gòu),并分析比較了各自的優(yōu)缺點(diǎn),設(shè)計(jì)者可以根據(jù)實(shí)際情況,選擇一種或者多種結(jié)構(gòu)來(lái)實(shí)現(xiàn)低功耗和低延遲NoC的設(shè)計(jì)。未來(lái)低功耗低延遲的NoC設(shè)計(jì)將向著上述多種結(jié)構(gòu)的綜合運(yùn)用方面發(fā)展,比如采用低擺幅的信號(hào)傳輸與3D的IC設(shè)計(jì)技術(shù)相結(jié)合等,甚至結(jié)合傳統(tǒng)的一些拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)出性能優(yōu)越的NoC。
參考文獻(xiàn)
[1]YAN J. International technology roadmap for semiconductors \\[R/OL\\]. \\[20090521\\]. http://www. lib. semi.ac.cn.
[2]GUERRIER P, GREINER A. A Generic architecture for onchip packetswitched interconnections \\[C\\]// Proceedings of Design, Automation and Test in Europe. \\[S.l.\\]: DATE, 2000: 250255.
[3]HEMANI A, JANTSCH A, KUMAR S, et al. Network on a chip: an architecture for billion transistor era \\[C\\]// Proceeding of the IEEE NorChip Conference. \\[S.l.\\]: Citeseer, 2000: 166173
[4]高明倫,杜高明.NoC:下一代集成電路主流設(shè)計(jì)技術(shù)[J].微電子學(xué),2006,36(4):461466.
[5]LEE S E. pNePA: a high level power model for an adaptive router in NOC \\[R\\]. \\[S.l.\\]: UC Irvine, 2008.
[6]Intel Corp. From a few cores to many: a terascale computing research overview \\[R\\]. USA: Intel, 2006.
[7]KIM.J.S, TAYLOR M.B, MILLER J, et al. Energy characterization of a tiled archtecture processor with onchip networks \\[C\\]// Proc. of the 8th Intel Symp. on Low Power Electronics and Design. \\[S.l.\\]: Intel, 2003: 424427.
[8]LEE K. A 51 mW 1.6 GHz onchip network for lowpower hetergeneous SoC platform \\[C\\]// Proc. of IEEE International SolidState Circuits Conf. Dig. Tech. \\[S.l.\\]: IEEE, 2004: 152153.
[9]CHANDRAKASAN A. Design of highperformance microprocessor circuits \\[M\\].USA: IEEE Press, 1999.
[10]KANGMIN L, SEJOONG L, HOIJUN Yoo. Lowpower networkonchip for highperformance SoC design \\[J\\]. IEEE Transactions on Very Large Scale Intergration(VLSI) Systems, 2006, 14 (2): 148160.
[11]MIKKEL B. S, JENS S. ReNoC: a networkonchip architecture with reconfigurable topology \\[C\\]// Proceedings of Second ACM/IEEE International Symposium on NetworksonChip. \\[S.l.\\]: ACM, 2008: 5564.
[12]IGOR L, FEDERICO A, SHINOBU F, et al. Characterization and implementation of faulttolerant vertical links for 3D networksonchip \\[J\\] IEEE Transactions on ComputerAided Design of Integrated Circuits and Systems, 2011, 30 (1): 124134.
[13]REETUPARNA D, ASIT K M, CHRYSOSTOMS N, et al. Performance and power optimization through data compression in networkonchip architectures \\[C\\]// Proceedings of 2008 IEEE 14th International Symposium on High Performance Computer Architecture. \\[S.l.\\]: IEEE, 2008: 215225.