早在4年前,AMD就已經(jīng)忍痛放棄了使用多年的環(huán)形顯存總線,重新采用高效的交叉總線設(shè)計,進而推出的RV770核心HD4800系列產(chǎn)品憑借高效的顯存利用率和激進的GDDR5顯存打了一場漂亮的翻身仗。而其2009年推出的Radeon HD 5800系列則是憑借大量增加流處理器數(shù)量和先進的40nm的新工藝,在取得較高性能的同時在核心面積和功耗方面大幅領(lǐng)先于英偉達,讓對手猝不及防。不過由于工藝的限制,AMD不可能依靠無限制地堆積流處理器來提高顯示卡的性能,再加上VILW架構(gòu)單元復(fù)用率低并且在通用計算方面的性能不盡如人意,因此在經(jīng)歷了Radeon HD 6800和Radeon HD 6900系列顯示卡,VILW5和VILW4架構(gòu)的試水之后,AMD發(fā)現(xiàn)要想徹底解決這個棘手的問題,只能重新設(shè)計新的架構(gòu),于是“南方群島”的Radeon HD 7000系列顯示卡誕生了。
踏上28nm的快船
在晶體管規(guī)模為王的今天,每一次工藝的變化給顯示卡界帶來的變化都是驚人的,工藝越先進,單個晶體管的體積就越小,芯片密度也會隨之增加,這帶來的最直觀的優(yōu)點就是核心面積縮小和成本降低。此外,新工藝通常都會伴隨著更先進的漏電流控制技術(shù),在功耗方面的表現(xiàn)也會更加優(yōu)異。
這一次,AMD又一次領(lǐng)先于對手,搶先踏上了28nm工藝的快船。本次發(fā)布的Radeon HD 7970便是采用TSMC的28nm工藝打造,這是TSMC首次采用HKMG(高K金屬柵)和Gate-Last技術(shù)。TSMC稱,與40nm工藝相比,28nm工藝的芯片密度達到了前者的2倍,SRAM的面積可以減少50%。新材料、新技術(shù)的應(yīng)用使得采用28nm工藝芯片的速度比40nm工藝提高了45%,漏電流相比前代更是減少40%,大大降低了功耗。
得益于28nm工藝,代號為Tahiti的Radeon HD 7970顯示卡核心的晶體管規(guī)模達到了43.1億,而核心面積僅為365mmsup2;,典型功耗210W(最大功耗250W)。而上一代40nm工藝的Radeon HD 6970的核心面積為389mmsup2;,只包含了26.4億個晶體管,典型功耗為190W,最大TDP功耗為250W。也就是說HD 7970在晶體管數(shù)量增加了60%的情況下,卻將核心面積縮小了6%。在單位數(shù)量晶體管功耗方面,Radeon HD 7970每一億個晶體管4.9W的功耗也遠低于采用40nm工藝的Radeon HD6970的7.2W。通過以上的數(shù)字我們可以輕易地看出,28nm新工藝帶來的進步是顯而易見的。
GCN架構(gòu)上馬
自從R600架構(gòu)推出以來,AMD的圖形構(gòu)架就沒有發(fā)生過本質(zhì)的變化。VLIW形式的ALU團簇設(shè)計、整體化的運算結(jié)構(gòu)以及較低的單元復(fù)用率一直在修修補補的情況下陪伴了我們近5年。
在DirectX10推出之前,顯示卡比拼的是頂點渲染單元和像素渲染單元的數(shù)量,到了DirectX10時代,微軟的DirectX API取消了頂點渲染器和像素渲染器,將它們改成統(tǒng)一處理器(Unitied Processor),因此圖形渲染中標(biāo)量運算越來越多,單純的矢量運算成分卻在減少,為此AMD的對手英偉達重新設(shè)計了G80這樣的1D標(biāo)量處理器,而AMD卻并未完全放棄4D矢量架構(gòu),而是在此基礎(chǔ)上做了一些改良,增加了一個標(biāo)量運算單元,形成了4D+1D的矢量、標(biāo)量混合架構(gòu)——VLIW 5架構(gòu)。這個架構(gòu)有個致命的缺點就是太過依賴指令組合,一旦出現(xiàn)非最優(yōu)指令組合,運算效率便會大大降低,為此AMD在下一代的Radeon HD 6900系列顯示卡架構(gòu)上改進了VLIW 5架構(gòu),去掉了4D+1D中的1D單元,改進為VLIW 4。VLIW 4架構(gòu)中的4個運算單元均為1D單元,都可以執(zhí)行原本只有VLIW 5架構(gòu)中唯一的1D超標(biāo)量單元才能執(zhí)行的特殊函數(shù)操作,所以VLIW 4的流處理器單元數(shù)量雖然少了,但是實際上性能卻更加強勁。據(jù)AMD稱,VLIW 5架構(gòu)的運算效率實際只有70%左右,而VLIW 4可以提高到80%,不過AMD為此付出的代價也是高昂的。這種架構(gòu)的改變,每組流處理器所需的發(fā)射端、分支預(yù)測以及寄存器單元都要增加四分之一,導(dǎo)致核心面積、發(fā)熱量和成本大增。
如今,乘著28nm工藝快船的AMD終于放棄了使用多年實在無法繼續(xù)修補使用的VILW架構(gòu),推出了全新的GCN(Graphics Core Next)架構(gòu)。AMD對GCN架構(gòu)的定義為“Non-VLIW ISA With Scalar+VectorUnint”,即使用標(biāo)量和矢量單元的非VLIW體系,它與之前的VLIW架構(gòu)形似而神不同,顯示卡的組成單元不再是SIMD陣列,而是被稱為CU(Compute Unit)的計算單元。在Radeon HD 7970核心的Tahiti架構(gòu)圖中,每個“GCN”代表的就是一個CU單元,每個CU單元中又包含64個ALU單元,這2048個ALU就是Radeon HD 7970顯示卡的核心運算單元。
從Tahiti的GVN陣列微觀結(jié)構(gòu)我們可以發(fā)現(xiàn),每個GCN陣列里有4組SIMD單元,每組SIMD單元里面包括16個流處理器,或者說是標(biāo)量運算器。GCN架構(gòu)已經(jīng)完全拋棄了此前4D+1D流處理器VLIW超長指令架構(gòu)的限制,不存在原有架構(gòu)指令打包-派發(fā)-解包的問題,所有流處理器以16個為一組的SIMD陣列完成指令調(diào)度。簡單來說,以往是在指令集的級別上并行,而現(xiàn)在是線程級并行。與VLIW 4架構(gòu)相比,non-VLIW架構(gòu)最大的變化是指令執(zhí)行方式,VLIW 4雖然每周期執(zhí)行4次操作,但實際上還是執(zhí)行1條指令,而且它非常依賴指令的組合,需要極強的調(diào)度和管理,而non-VLIW架構(gòu)雖然每次只能執(zhí)行1個ALU操作,但是4組SIMD依然能保證同時執(zhí)行4條線程,利用率接近100%,相對于之前的架構(gòu),不得不說這是一個脫胎換骨的設(shè)計。
設(shè)計理念的轉(zhuǎn)變使GCN不再單純追求吞吐量,而是將重點轉(zhuǎn)向了靈活性和執(zhí)行效率方面,整個架構(gòu)從最基層開始就為更靈活的運算優(yōu)化,架構(gòu)中層的運算單元在并行效率上也有針對性的改進,整個GCN架構(gòu)更加面向“通用計算就是圖形計算”的未來趨勢。
深度功耗控制和新特性
除了因為應(yīng)用新的28nm工藝帶來了例行的功耗降低之外,AMD還在技術(shù)上引入了更加敏感的功耗調(diào)節(jié)點,能夠更加細密地實時監(jiān)控顯示卡的運行狀態(tài),同時能讓顯示卡在負載降低時更加積極地向更低功耗的頻率去轉(zhuǎn)移。值得一提的是,其調(diào)整耗電水平的偵測時間已經(jīng)達到了毫秒級。
Tahiti核心在電力控制上的另一個獨特之處在于引入了ZeroCore技術(shù),該技術(shù)能夠在閑置的時候通過關(guān)閉GPU節(jié)省95%左右的閑置模式耗電,此時GPU的運算功能模塊將不再消耗電能,使整個顯示卡耗電低于3W,風(fēng)扇也會徹底關(guān)閉,完全避免了噪聲對用戶的干擾。在多卡互聯(lián)領(lǐng)域,AMD同樣提供了更加豐富的功耗管理機制。當(dāng)用戶處于2D桌面待機狀態(tài)時,Tahiti構(gòu)架允許主顯示卡以外的所有顯示卡完全關(guān)閉,并達到風(fēng)扇停轉(zhuǎn)的深度休眠狀態(tài)。當(dāng)3D負載到來時,功耗管理機制會及時喚醒深度休眠的顯示卡,讓其能夠投入到運算工作中。
除了28nm新工藝和革命性的GCN架構(gòu)外,AMD還讓Radeon HD 7970支持兩項前衛(wèi)的新特性DirectX 11.1與PCI-E 3.0接口。DirectX 11.1最大的改進就是將3D立體顯示技術(shù)正式寫入了D3D API,3D立體顯示技術(shù)將成為一種通用標(biāo)準,游戲開發(fā)也因此將變得更加簡單,這有望為業(yè)界醞釀已久的PC 3D顯示技術(shù)真正打開局面,可以說它是一個具有開端意義的API升級。
總線接口方面,Radeon HD 7970顯示卡采用了全新的PCI-E 3.0總線,這讓它成為了全球首款支持PCI-E 3.0總線的顯示卡。PCI-E 3.0標(biāo)準將信號傳輸速率提高到了8GT/s ,有效帶寬達到了PCI-E 2.0的兩倍,不過目前對于游戲玩家來說PCI-E 2.0的帶寬并不會成為顯示卡性能的瓶頸,PCI-E 3.0的優(yōu)勢發(fā)揮作用仍需時日。
3D性能實戰(zhàn)
全新的GCN架構(gòu)、43.1億個晶體管、2048個ALU運算單元讓我們對Radeon HD 7970的性能表現(xiàn)充滿了期待。好馬配好鞍,測試Radeon HD 7970性能的平臺我們選擇了當(dāng)今頂級的X79主板,搭配Intel Core i7-3960X處理器和2GB×4的DDR3 1866四通道內(nèi)存,并采用64位的Windows 7系統(tǒng),以充分發(fā)揮它的性能。
不出所料,憑借強大規(guī)格和全新的GCN架構(gòu),在3DMark理論圖形性能測試中,Radeon HD 7970毫無懸念地大幅領(lǐng)先曾經(jīng)的Geforce GTX 580達30%之多。在AMD一直都不擅長的曲面細分性能測試Unigine Heaven 2.5中,Radeon HD 7970也揚眉吐氣,領(lǐng)先Geforce GTX 580高達30%以上。
在主流游戲性能測試中,除了在英偉達傳統(tǒng)優(yōu)勢游戲《H.A.W.X》中Radeon HD 7970不敵對手外,在其他測試中Radeon HD 7970均有較大幅度的領(lǐng)先,在最新的DX11游戲中普遍領(lǐng)先GeforceGTX 580 15%~30%的幅度,特別是在曲面細分較多的游戲《Crysis 2》和《戰(zhàn)地3》中,優(yōu)勢更加明顯。
多年來在單芯旗艦顯示卡方面,AMD一直采用田忌賽馬的小核心策略,在性能上被對手打壓,如今在中低端產(chǎn)品方面有著多個“第一”頭銜的Radeon HD 7970終于揚眉吐氣,將對手大核心的單芯卡皇斬于馬下。
出色的功耗表現(xiàn)
在上邊我們已經(jīng)介紹過,Radeon HD 7970的Tahiti核心拜28nm新工藝和新節(jié)能技術(shù)所賜,在功耗方面的表現(xiàn)會更好。我們測試了這款產(chǎn)品在長待機、待機、游戲和運行Furmark 1.9.2等不同狀態(tài)下的功耗(測試室溫約為24℃)。
進入系統(tǒng)10min后,穩(wěn)定的系統(tǒng)功耗為81W(不含顯示器功耗),此時顯示卡核心溫度僅比室溫高10℃,為34℃,風(fēng)扇轉(zhuǎn)速也僅為最高轉(zhuǎn)速的20%,十分安靜。在經(jīng)過長時間的待機,Windows電源管理器自動關(guān)閉了顯示器輸出(但系統(tǒng)未休眠)后,待機功耗又下降了7W,這也證明了ZeroCore技術(shù)的作用。而對手的Geforce GTX 580平臺待機功耗為101W,在顯示卡2D功耗普遍降低的大趨勢下,Radeon HD 7970在2D顯示模式下的功耗表現(xiàn)也有著絕對的優(yōu)勢。在高負載的游戲和Furmark拷機軟件模式中,Radeon HD 7970平臺在較長一段時間內(nèi)穩(wěn)定的最高功耗分別上升為305W和362W,顯示卡的核心溫度分別為78℃和73℃,此時兩種狀態(tài)下散熱器的轉(zhuǎn)速均超過了2000r/min,已經(jīng)可以聽到明顯的噪音。而相比之下,Geforce GTX 580平臺在同樣兩種高負載情況下的功耗分別為378W和447W,分別比Radeon HD 7970高了73W和85W,在滿載功耗方面AMD再一次以絕對優(yōu)勢戰(zhàn)勝對手。
免費的超頻甜點
在Radeon HD 7970發(fā)售之前,有許多傳聞稱其默認核心頻率會是1GHz,或許是出于功耗控制和保守的原因,AMD將其核心頻率定為了925MHz,讓用戶自行挖掘28nm工藝的潛力。
而Radeon HD 7970的超頻方法十分簡單,使用驅(qū)動中自帶的AMD Overdrive選項即可進行超頻,無需安裝第三方超頻軟件。除了核心頻率和顯存頻率可調(diào)節(jié)外,AMD Overdrive還提供了一個“電源控制設(shè)置”選項,調(diào)節(jié)它可以限制整片顯示卡的最高功耗,以防出現(xiàn)過熱燒毀的現(xiàn)象。在超頻中我們需要將電源控制設(shè)置拉至最高的20%,以保證超頻操作不會被最高功耗限制。
在超頻測試中,我們很輕松地就將Radeon HD 7970的核心頻率和顯存頻率超頻至驅(qū)動的頻率上限1125MHz/1575MHz并通過了3DMark 11的各項測試,最終X模式的得分為3135分,相比默認頻率成績增加了14%之多。
總結(jié)
如果AMD繼續(xù)走之前優(yōu)化和擴充流處理器數(shù)量的老路,那么憑借28nm新工藝和43.1億個晶體管,相信其性能和功耗依然可以達到預(yù)期,但是AMD并沒有這么做,而是毅然選擇了通過革新架構(gòu)的方式來積極提升產(chǎn)品整體表現(xiàn)。有很大一部分的原因是因為如今的GPU已經(jīng)不再是單純的3D加速卡,DirectX 11 API的新特性賦予了GPU新的使命,圖形和計算的概念已經(jīng)逐漸融為一體,通用計算能力也逐漸成為衡量顯示卡性能的標(biāo)桿,AMD在這步關(guān)鍵的棋上落子非常干脆利落。
我們十分欣喜地看到,新的GCN架構(gòu)為AMD未來的發(fā)展方向指明了道路,走了近5年彎路的AMD改頭換面,朝著通用計算大方向大踏步前進,這也是未來GPU的發(fā)展趨勢。
在性能方面,Radeon HD 7970的表現(xiàn)可圈可點,無論是理論性能還是實際游戲性能都將對手遠遠地拋在了身后,成為了新一代當(dāng)之無愧的單芯卡皇。而在功耗方面,它繼續(xù)將AMD一貫的小核心、低功耗的優(yōu)良傳統(tǒng)發(fā)揚光大,而這也是對手大核心策略所揮之不去的痛,AMD又一次強有力地觸痛了對手的神經(jīng)。Radeon HD 7970國內(nèi)的發(fā)售價格為4299~4699元,相對于之前的單芯旗艦顯示卡來說有些偏高,不過相信在一段時間之后,它將很快脫離價格虛高回歸到主流價位。
高K柵極
現(xiàn)有材料已經(jīng)達到了物理極限,由于漏電的原因,作為阻隔柵極和下層的二氧化硅層已經(jīng)無法進一步減薄了,于是人們就需要從材料方面入手,尋找具有比二氧化硅更高的介電常數(shù)和和場效應(yīng)特性的材料,從而突破原有的二氧化硅的物理極限。
K值是衡量一種材料儲存電荷的能力,給定相同的電壓,如果材料的的厚度相同,K值大的材料則儲存電荷的能力就更高。在具有相同儲存電荷能力的情況下,K值大的材料可以做得更厚,這就可以減少漏電的產(chǎn)生。