亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種軟硬件協(xié)同控制的片上緩存功耗優(yōu)化方法

2016-11-30 07:27:46褚廷斌袁正希

電子技術應用 2016年2期

關鍵詞：能耗損失供電

李　嵩，褚廷斌，袁正希

（電子科技大學通信與信息工程學院，四川成都 611731）

一種軟硬件協(xié)同控制的片上緩存功耗優(yōu)化方法

李嵩，褚廷斌，袁正希

（電子科技大學通信與信息工程學院，四川成都 611731）

導讀：隨著半導體技術和集成電路技術的發(fā)展，計算設備的運算性能相比于誕生之初空前提高，但計算設備的能量效率并未得到同步提高。由此而帶來的各種問題使得高能效計算成為當前的一個熱點研究問題。本期專欄從大量投稿中為大家精選了多篇高能效計算相關的論文，分別從系統(tǒng)架構設計與優(yōu)化、算法復雜度改進、硬件結構改進等方面對計算設備的能效進行了優(yōu)化，具有很好的參考價值和借鑒意義。但在征文的過程中我們發(fā)現(xiàn)我國的很多研究者對于高能效計算技術缺乏足夠的認識，對能效優(yōu)化的理解仍然比較膚淺。希望此次專欄的出版能讓更多的科研工作者了解到能效優(yōu)化的含義，為我國高能效計算相關技術的發(fā)展盡一點綿薄之力。

——本期專題特約主編：黃樂天

片上多處理器系統(tǒng)的發(fā)展導致片上高速緩存的所占面積急劇增加，其對應的泄露功耗也相應增加。將高速緩存行劃分成3部分進行控制，其中數(shù)據(jù)部分的訪問分為協(xié)議訪問和數(shù)據(jù)訪問兩部分，每部分支持多種工作模式來進行管控。通過工作模式的切換對高速緩存的三部分進行管控可以使漏過功耗平均減少76.78%，但相應的性能損失最高會達到7.74%。由于性能損失較大，提出了一種改進的高速緩存衰退的方法來優(yōu)化管控策略。這種策略不僅能夠把性能損失控制在3%以下，而且能夠保證平均能耗優(yōu)化達到近75%。

片上多處理器；高速緩存；漏過功耗；性能損失

0　引言

近些年來，片上多核處理器已經(jīng)作為主流的硬件微型結構被廣泛應用在通信領域。隨著半導體深微技術的發(fā)展，晶體管的集成度越來越高，高速緩存占據(jù)片上多核處理器面積增加帶來的漏過能量的增加也愈加成為一個不可忽視的難題。

為了減小高速緩存漏過能量的消耗，許多采用控制高速緩存供電電壓的技術手段被相繼提出。門控電壓[1]和高速緩存衰變[2]作為其中極具代表性的技術手段得到了廣泛的應用。門控電壓技術是采用在靜態(tài)隨機存儲器單元與地之間接入一個高閾值的控制晶體管的方式來開關控制高速緩存的供電電壓。當靜態(tài)隨機存儲器單元不工作時，高速緩存的漏過能量就相應被節(jié)省下來了。然而這種方式有一個很大的弊端，切斷供電電壓的同時容易造成數(shù)據(jù)的丟失，這和電腦突然斷電隨機存儲的數(shù)據(jù)容易丟失是一樣的原理。而文獻[3]提出了一種介于開關之間的一種工作模式（睡眠模式）完美地解決了這個問題，同時節(jié)省了50%-75%的能耗。另一種技術手段——高速緩存衰變技術，其核心是在高速緩存的每一行設置一個時間監(jiān)控器，如果緩存行的訪問時間高于所設閾值時間，則認為該行將不會被再次訪問，因此可以采用門控電壓的方式將其關斷。

本文也采用門控電壓機制。基于高速緩存的數(shù)據(jù)部分訪問分為協(xié)議訪問和數(shù)據(jù)訪問的前提下，采用這種門控電壓的方式對高速緩存塊的供電電源進行控制，不僅可以獲得能耗上比較理想的優(yōu)化，同時采用這種方式也不會破壞高速緩存的一致性通信機制。

1　相關研究動態(tài)

高速緩存衰變技術是對高速緩存的每個塊使用門控電壓的硬件控制能源減少機制。文獻[2]中，死區(qū)時間被定義為一個塊最后訪問和驅逐之間的時間。高速緩存衰變決定是否一個塊是在死區(qū)時間是使用一個對相應的數(shù)據(jù)塊駐留在緩存中的時鐘周期進行計數(shù)的計數(shù)器來進行判斷。訪問高速緩存的每一個數(shù)據(jù)塊時，計數(shù)器會被重置。如果計數(shù)器的值超過給出的衰變時間間隔，則緩存數(shù)據(jù)塊是在死區(qū)時間。那么就可以利用門控電壓的方式來切斷高速緩存數(shù)據(jù)塊的供電電源。

軟件自失效技術[4]可以有效減少漏過能耗。軟件自失效適用于門控電壓控制自失效技術[5-6]的概念。自失效技術是為維持在多處理器環(huán)境中的緩存一致性而設計的。上面提到的引用基于一個至關重要的事實那就是無效塊并沒有有效的數(shù)據(jù)。因此，可以從能耗角度關閉數(shù)據(jù)塊的供電電源。另一方面，基于預測的自失效技術置本地緩存副本于無效可以在無效消息接收到之前就能有效地切斷無效數(shù)據(jù)塊的供電電源從而保證高速緩存的一致性。

休眠高速緩存[3]提出了一種新的工作模式。每次訪問緩存行時，緩存控制器通過檢測緩存休眠位來控制高速緩存的供電電壓。如果訪問的緩存行是在正常工作模式下，可以讀取緩存行的數(shù)據(jù)內(nèi)容而不會損失任何性能。其沒有性能處罰是因為通過檢測休眠位來檢查緩存行電源模式和讀取、比較標記位的行為是并行發(fā)生的行為。然而，如果內(nèi)存數(shù)組是在休眠的模式下，需要防止內(nèi)存數(shù)組的位線放電，因為它可能會讀出不正確的數(shù)據(jù)。為了解決這個問題，緩存行在下一個周期會自動喚醒，即緩存行工作在正常模式下。所以在喚醒期間可以訪問緩存行的數(shù)據(jù)。

前面提出的軟件自失效技術雖然可以有效地減少漏過能耗，但采用門控電壓的技術來開關數(shù)據(jù)塊的供電電源會導致數(shù)據(jù)的丟失，從而導致性能上的較大損失。然而采用文獻[3]中提出的技術手段可以很好地避免這個問題，同時也可以一定程度上減少漏過能耗。所以本文也采用這種技術手段來節(jié)省緩存的能耗。

2　研究動機

為了確定漏過能量的優(yōu)化空間，分別對協(xié)議訪問和數(shù)據(jù)訪問的訪問量作一個統(tǒng)計，統(tǒng)計結果如圖1所示。在統(tǒng)計過程中，通過對 SimpleScalar 3.0[7]仿真器進行修改來獲得最后一級高速緩存中協(xié)議訪問和數(shù)據(jù)訪問的情況。其中具體的參數(shù)設置如表1所示。

圖1　協(xié)議訪問和數(shù)據(jù)訪問的比例

表1　仿真器的配置參數(shù)

通過 6個 PARSEC[8]的應用程序和 8個 SPLASH2[9]的應用程序來對仿真器進行測試。本次仿真的時間直到執(zhí)行完一億條指令才截止，仿真結果如圖1所示。

如圖1所示，水平軸是14個不同的測試應用程序，用于測試和驗證本文的假設。垂直軸是兩個不同的緩存數(shù)據(jù)塊被（協(xié)議塊和數(shù)據(jù)塊）訪問的比例。結果表明，協(xié)議訪問接近一半的緩存訪問。由于協(xié)議訪問不會進行數(shù)據(jù)的讀寫，若是協(xié)議訪問，那么可以通過切斷該數(shù)據(jù)塊供電電源來達到節(jié)省能耗的目的。但是會造成當前保存在數(shù)據(jù)塊中的數(shù)據(jù)大量丟失，從而進一步導致應用程序訪問最后一級緩存行時產(chǎn)生丟失。在此情況下，程序會訪問主存從而產(chǎn)生非常大的延遲。所以這種方法會對仿真器的性能造成很大的影響。然而，如果采用文獻[3]中提出的控制方案就不會出現(xiàn)這個問題。因此，本設計采用休眠的方式對數(shù)據(jù)塊進行控制。另一方面，數(shù)據(jù)塊從睡眠模式喚醒，只需要幾個周期的時間消耗[10]。這意味著，這種休眠方式并不會帶來性能上的較大損失。另一個原因僅僅睡眠數(shù)據(jù)塊而不是整個緩存行，那是由于程序每次訪問緩存行時都要并行比較緩存行的標記數(shù)組位，若休眠標志位將會引起頻繁的喚醒，從而帶來額外的性能損失。除此之外，標記數(shù)組位和數(shù)據(jù)塊相比只消耗輕微的能量，因此它可以工作在正常模式下。

3　軟硬件協(xié)同控制方案

3.1硬件設計方案

為了控制最后一級高速緩存塊的供電電壓，使用標記數(shù)組中的有效位(圖2中用V表示)來開關控制相應的數(shù)據(jù)塊供電電源。該有效位能夠表示緩存行數(shù)據(jù)是否可用。如圖2所示，有效位直接連接到相應的門控電壓。如果有效位是邏輯1，表示該數(shù)據(jù)快數(shù)據(jù)可以被訪問，因此相應的數(shù)據(jù)塊供電電源被接通為關閉。如果它是邏輯0，表示數(shù)據(jù)塊中的數(shù)據(jù)不可用，此時數(shù)據(jù)塊被懸空。當有效位為邏輯1時，此時緩存數(shù)據(jù)塊將分為兩部分(協(xié)議數(shù)據(jù)快和數(shù)據(jù)塊)來進行控制。兩部分數(shù)據(jù)塊將工作在圖3所示的兩種模式中，模式的切換由A位控制，A位標識數(shù)據(jù)塊訪問的類型。

圖2　電壓門控技術

圖3　數(shù)據(jù)塊工作模式

如圖3所示，電壓切換是通過A位來實現(xiàn)的。如果只有協(xié)議數(shù)據(jù)訪問，就將A置為邏輯1或者邏輯 0。在本設計中置為邏輯0。

在硬件中執(zhí)行這種機制時，標記數(shù)組的工作電源既沒有被切斷也沒有在低電壓休眠模式,有兩個方面的考慮。其一是如果標記數(shù)組總是工作在正常的電壓，可以在多處理器環(huán)境中避免緩存相干問題，而且其能耗和數(shù)據(jù)塊相比是非常小的。其二是程序對標記數(shù)組的訪問更加頻繁，頻繁的喚醒和開關對系統(tǒng)的性能會有很大的影響。

3.2軟件層控制方案

研究發(fā)現(xiàn)，性能退化的主要原因是緩存數(shù)據(jù)塊頻繁從休眠模式中喚醒。因此提出一種改進的高速緩存衰退的方法在軟件控制層面優(yōu)化本設計從而達到減小性能損失的目的。在軟件層方面，測試程序的平均訪問時間間隔被設置為睡眠時間間隔。具體算法流程如圖4所示。如果前后兩次休眠的時間間隔比設置的休眠時間閾值小，認為喚醒代價太大，數(shù)據(jù)塊將工作在正常的電壓，反之喚醒的代價較小，此時它將在睡眠模式下工作。

圖4　兩種工作模式的切換算法流程

4　仿真結果

通過修改Simple Scalar仿真器對提出的硬件設計方案做了性能上的仿真統(tǒng)計，仿真器相關配置參數(shù)如前表1所示。此外，使用惠普實驗室提出的能耗統(tǒng)計工具Cacti6.0[11]來獲得最后一級高速緩存的泄漏能耗。測試程序集為8個SPLASH2的測試程序和6個PARSEC的測試程序。對比對象均為未經(jīng)修改的仿真器。仿真結果如圖5～圖8所示，其中未加入軟件控制的系統(tǒng)能耗優(yōu)化和性能損失情況如圖5和圖6所示，加入軟件控制之后的仿真結果如圖7和圖8所示。

圖5　未加入軟件控制能效優(yōu)化統(tǒng)計

圖6　未加入軟件控制的系統(tǒng)性能損失

圖7　加入了軟件控制能效優(yōu)化統(tǒng)計

圖8　加入了軟件控制的系統(tǒng)性能損失

從以上仿真結果不難看出，單一的硬件控制方案可以很大程度上節(jié)約系統(tǒng)的能耗，然而性能上的損失是比較嚴重的，其中raytrace更是達到了5%以上。然而加入了軟件控制方案之后，系統(tǒng)的性能損失得到了很明顯的改善，均降低到了2%一下，同時系統(tǒng)的能耗優(yōu)化較之前只減少了2%，這個是可以接受的。

5　小結

在此研究中，目標是減少協(xié)議訪問情況下的漏過能量消耗。統(tǒng)計發(fā)現(xiàn)近一半是協(xié)議訪問，基于此提出了一種基于門控電壓技術的硬件設計。使用了14個測試程序集來對修改后的仿真器進行性能和功耗評估。統(tǒng)計結果表明，能耗比正常情況減少了76.78%，但不可忽略的是系統(tǒng)的性能損失非常嚴重。繼而提出了一種改善的高速緩存衰退策略的軟件層次控制算法。仿真結果表明，性能損失得到了很好的改善。未來的工作是要更加細化設定的休眠間隔閾值使性能損失更小，從而完善整個設計。

[1]POWELL M，YANG S H，F(xiàn)ALSAFI B，et al.Gated-Vdd：a circuit technique to reduce leakage in deep-submicron cache memories[C].Proc.of ISLPED，2000：90-95.

[2]KAXIRAS S，HU Z，MARTONOSI M.Cache decay：exploiting generational behavior to reduce cache leakage power[C]. Proc.of 28th ISCA，2001：240-251.

[3]FLAUTNER K，KIM N S，MARTIN S，et al.Drowsy caches：simple techniques for reducing leakage power[C].Proc.of Computer Architecture 2002.Proceedings.29thAnnual International Symposium on，2002：148-157.

[4]TANAKA K，F(xiàn)UJITA T.Leakage energy reduction in cache memory by software self-invalidation[C].Proc.of 12th Asia-Pacific Computer Systems Architecture Conference(AC-SAC)，Springer，2007：163-174.

[5]LEBECK A R，WOOD D A.Dynamic self-invalidation：reducing coherence overhead in shared-memory multiprocessors[C].Proc.of ISCA，1995：48-59.

[6]LAI A C，F(xiàn)ALSAFI B.Selective，accurate and timely selfinvalidation using last-touch prediction[C].Proc.of ISCA，2000：139-l48.

[7]BURGER D，AUSTIN T，BENNETT S.Evaluating future microprocessors：the simplescalar toolset[R].Tech Report CSTR-96-1308，Univ.of Wisconsin，CS Dept.，1996.

[8]PRINCETON P.Princeton application reposity for sharedmemory computers(PARSEC)[EB/OL].http://parsec.cs. princeton.edu/.

[9]WOO S C，OHARA M，TORRIE E，et al.The SPLASH-2 programs：characterization and methodological considerations[C]. In Proceedings of the 22nd International Symposium on Computer Architecture，1995：24-36.

[10]Wang Yue，ROY S，RANGANATHAN N.Run-time powergating in caches of GPUs for leakage energy savings[C]. Proc.of Design，Automation&Test in Europe Conference &Exhibition，2012：300-303.

[11]MURALIMANOHAR N，BALASUBRAMONIAN R，JOUPPIN. CACTI 6.0：an intergrated cache timing power and area model[M].Hewlett Packard Labs，2009.

A power optimization method of cache-on-chip with software-hardware co-control

Li Song，Chu Tingbin，Yuan Zhengxi
(School of Communication and Information Engineering，University of Electronic Science and Technology of China，Chengdu 611731，China)

The development of on-chip multiprocessor systems leads to sharp increase in the area of on-chip cache,and its corresponding leakage power has also increased.Cache line in this article are divided into 3 parts to control while the data access section is divided into metadata access and data access in two parts,each supports a variety of modes to control.The operating mode switching to control the cache into three parts enables us to reduce leakage power consumption on average by 76.78%,but the loss of the performance is up to 7.74%.Due to the large loss of performance,this paper describes an improved method of cache decay to optimize control strategies.This strategy not only losses below 3%performance but also ensures optimization of average energy consumption to nearly 75%.

on-chip multiprocessor；cache；leakage energy；performance degradation

TN431

10.16157/j.issn.0258-7998.2016.02.001

2015-12-15)

李嵩(1991-)，男，碩士研究生，主要研究方向：片上多處理器高速緩存功耗優(yōu)化策略。

褚廷斌(1990-)，男，工程師，主要研究方向：片上多處理器功耗管控與優(yōu)化策略，片上多處理器行為級建模與仿真。

袁正希(1962-)，男，研究員，主要研究方向：通信集成電路與系統(tǒng)。

中文引用格式：李嵩，褚廷斌，袁正希.一種軟硬件協(xié)同控制的片上緩存功耗優(yōu)化方法[J].電子技術應用，2016，42 (2)：6-8，13.

英文引用格式：Li Song，Chu Tingbin，Yuan Zhengxi.A power optimization method of cache-on-chip with software-hardware cocontrol[J].Application of Electronic Technique，2016，42(2)：6-8，13.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種軟硬件協(xié)同控制的片上緩存功耗優(yōu)化方法

0 引言

1 相關研究動態(tài)

2 研究動機

3 軟硬件協(xié)同控制方案

4 仿真結果

5 小結

0　引言

1　相關研究動態(tài)

2　研究動機

3　軟硬件協(xié)同控制方案

4　仿真結果

5　小結