亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        性能更強(qiáng)、核心更多、更為靈活

        2021-09-10 08:30:20張平
        微型計算機(jī) 2021年15期
        關(guān)鍵詞:設(shè)計

        張平

        帶有SEV的Cortex-X1?Neoverse V1架構(gòu)解讀

        Neoverse V1架構(gòu)是ARM奧斯汀設(shè)計中心的產(chǎn)品,Cortex-X1也是出自他們之手。因此從塊結(jié)構(gòu)來看,NeoverseV1和Cortex-X1有一些相似之處。

        Neoverse V1的微架構(gòu):更寬、更強(qiáng)

        ARM對Neoverse V1的定位是面向大型設(shè)備、機(jī)器學(xué)習(xí)、要求性能的云計算等場合。Neoverse V1最大的特點(diǎn)在于加入了2x256b的SEV計算能力,并且支持目前在A I計算中被廣泛應(yīng)用的bFloat16。在設(shè)計取向上,NeoverseV1更看重性能,而非功耗或者芯片面積,畢竟它面向的是對性能有要求的市場。相比之下,Neoverse N系列則是面向?qū)γ客咛匦阅苊舾械?G設(shè)備和云計算場合。

        在架構(gòu)改進(jìn)上,Neoverse V1采用了新的微架構(gòu),并專門為HPC和服務(wù)器市場進(jìn)行了針對性優(yōu)化,性能水平得以全面提升。Neoverse V1在微架構(gòu)上首次加入了SE V指令集,增強(qiáng)了功能、安全性和性能。在架構(gòu)可伸縮性方面,Neoverse V1可以在有限的系統(tǒng)資源下實現(xiàn)性能功耗的管理。

        在架構(gòu)指令集方面,Neoverse V1是基于Armv8.4設(shè)計的,并且加入了Armv8.5和Armv8.6的特性—后兩者的大部分內(nèi)容都是面向H P C市場的??赡芸紤]到研發(fā)時間的問題,它并沒有引入前段時間發(fā)布的Armv9,不得不說是一個遺憾。

        在性能方面,Neoverse V1相比Neoverse N1,在7nm或者5nm工藝下整體性能提升高達(dá)50%。雖然提升幅度很大,但是實際上后者相比NeoverseV1在架構(gòu)設(shè)計上要落后2代,因此這樣的性能差距還算正常。

        Neoverse V1采用了超過11級的超短流水線設(shè)計,前端為8個發(fā)射寬度,搭配15寬度的隊列單元。在功能單元方面,Neoverse V1擁有2個專用的分支預(yù)測單元。后端執(zhí)行方面則擁有4個64bit的整數(shù)執(zhí)行ALU和2個256bit的S V E單元,也可以執(zhí)行4x128b i t的NENO浮點(diǎn)運(yùn)算。寫回方面,它擁有3個讀取/加載地址單元,以及3個讀取數(shù)據(jù)、2個存儲數(shù)據(jù)的流水線。從前端到后端,分別是8發(fā)射的指令拾取、5~ 8寬度的解碼和重命名、分支預(yù)測、初次和二次整數(shù)執(zhí)行單元(包括MUL、DI V、CRC等)、浮點(diǎn)單元、地址計算以及讀取和存儲數(shù)據(jù)等。

        Neoverse V1和Cortex-X1很相似,比如都采用了相同的短流水線設(shè)計,在分支預(yù)測方面都做出了一定的加強(qiáng),以避免分支預(yù)測錯誤帶來的分支預(yù)測懲罰。實際上從Cortex-A76開始,A R M的奧斯汀團(tuán)隊在架構(gòu)設(shè)計方面一直保持相對穩(wěn)定。因此Neoverse V1相比Neoverse N1,其頻率并沒有太大的變化(流水線級數(shù)沒有大幅度增加),性能提升主要來自架構(gòu)規(guī)模的提升和IPC的增加。

        在前端方面。Neoverse V1針對服務(wù)器和HPC的應(yīng)用場合做出了改變。首先是針對較大的指令運(yùn)行時的指令足跡進(jìn)行了優(yōu)化,這意味著這些復(fù)雜的指令能夠更為高效地在NeoverseV1中執(zhí)行并輸出結(jié)果。其次是分支預(yù)測方面的改進(jìn),比如更快的解耦獲取帶寬,新的設(shè)計采用了2x32b的方案,是之前方案的2倍;L2 BTB目前可以容納超過8K個條目,增加了33%的容量;L0級別的nano BTB增加到了96個條目,是之前設(shè)計的6倍,更大的nano BTB可以避免0循環(huán)的氣泡出現(xiàn)。第三則是前端的代碼區(qū)域(coderegions)的追蹤并發(fā)性能是前代產(chǎn)品的2倍。最后則是提升了“早期”分支管道中重定向性能,其帶來了更低的延遲并避免了代價高昂的后期預(yù)測錯誤。在經(jīng)過改進(jìn)后,Neoverse V1的分支預(yù)測性能相比前代產(chǎn)品降低了90%的分支預(yù)測錯誤,減少了50%的前段失速,效果明顯。

        在中核部分,Neoverse V1也進(jìn)行了很多改進(jìn),主要是增加寬度和深度。首先它加入了全新的Mop緩存,這個緩存的作用主要是為L0指令解碼提供了3K的隊列深度,并且還擁有較高的指令拾取帶寬。Mop緩存每周期可以完成8個指令的存取,相比前代產(chǎn)品翻倍,相關(guān)指令緩存的帶寬從之前每周期4寬度提升至5寬度,也帶來了性能的增加。Mop緩存還擁有更低的解碼管道延遲,現(xiàn)在整個過程只需要占據(jù)1個周期。其次是新指令的加入,目前新指令可以提高整個執(zhí)行過程的性能、效能和密度。第三則是亂序執(zhí)行窗口方面,Neoverse V1的亂序執(zhí)行窗口相比Neoverse N1直接翻倍,達(dá)到了256條目,還附帶了壓縮設(shè)計。值得一提的是,Neoverse V1的ROB條目可執(zhí)行數(shù)量實際上已經(jīng)超越了Cortex-X1,后者的ROB條目只有224個。在并行性方面,Neoverse V1還增加了指令和內(nèi)存方面的并行性。最后則是整個中核執(zhí)行部分的加強(qiáng),包括分支指令執(zhí)行部分從1個提升至2個,ALU從之前的3個提升至4個,新引入復(fù)雜ALU,可以執(zhí)行復(fù)雜計算。ARM宣稱針對中核整數(shù)部分的改進(jìn),可以帶來25%的性能提升。

        在浮點(diǎn)計算方面,由于SEV的引入,中核部分也發(fā)生了很大的變化。Neoverse V1借助SEV指令集,可以執(zhí)行2x256bi t的浮點(diǎn)計算,也可以執(zhí)行4x128bit的浮點(diǎn)計算—這是NENO的規(guī)格。另外Neoverse V1還大幅度加強(qiáng)了機(jī)器學(xué)習(xí)的性能,它的2個SEV單元能夠支持包括bF16,int8在內(nèi)的機(jī)器學(xué)習(xí)常用數(shù)據(jù)格式,大大提高了整個內(nèi)核在機(jī)器學(xué)習(xí)和推理方面的能力。如果在矢量計算中,Neoverse V1每周期性能可以達(dá)到16、32、128、256,相比此前的產(chǎn)品整體效能大幅提升。

        最后再來看看后端的設(shè)計。Neoverse V1的后端主要是增加了更多的帶寬和智能功能。其采用了第三代LDAGU流水線設(shè)計,整體性能相比前代產(chǎn)品增加了50%。另外LD和ST數(shù)據(jù)帶寬也有顯著提升,其中LD部分帶寬提升至3x16B,提升幅度為50%。新增的LD(SEV)部分每周期可移植性2x32B的數(shù)據(jù)操作,ST部分從之前的每周期16B提升至每周期32B。其余改變還包括更大的LD/ST緩沖區(qū),新加入的內(nèi)存級并行和分布式結(jié)構(gòu)。在未完成的外部內(nèi)存事務(wù)條目方面,從之前的48提升至了96,這帶來了更好的延遲容忍。MMU部分也從之前的1.2K條目提升至2K條目,提升了67%。ARM的數(shù)據(jù)顯示,后端部分帶寬的改進(jìn)帶來了45%的性能提升。

        后端的L2部分,Neoverse V1也進(jìn)行了優(yōu)化。L2延遲在1MB塊內(nèi)降低到了1個周期,之前的架構(gòu)則需要10個周期才能夠完成操作,此外還包括額外的數(shù)據(jù)預(yù)取覆蓋和新的L2替換政策。在可伸縮性和效能改進(jìn)方面,Neoverse V1應(yīng)用了動態(tài)拾取功能。這個功能主要是適應(yīng)系統(tǒng)變化并優(yōu)化不同的系統(tǒng)(包括延遲、帶寬、擁塞),帶來更好的公平性并提高整體吞吐量等,尤其是在減少L2互聯(lián)流量方面起到了重要的作用。另外,Neoverse V1還引入了新的時間預(yù)取器,它能夠隨著時間的推移,鎖定任意訪問模式并識別相同模式的后續(xù)數(shù)據(jù),直接將后續(xù)數(shù)據(jù)拉入計算流程。經(jīng)過上述改進(jìn),其降低了15% L2或者SLC的填充時間,減少了50%的L2數(shù)據(jù)流量,這能很有效地改善處理器內(nèi)部的數(shù)據(jù)使用效率,提升整個架構(gòu)的效能。

        Neoverse V1的平臺:增強(qiáng)的電源管理和平臺管理機(jī)制

        Neoverse V1在整個處理器平臺的特性方面也做出了很多改進(jìn)。它能夠支持MPAM或者M(jìn)ax Power MitigationMechanism(最大功耗緩解機(jī)制)。這個技術(shù)是一個新細(xì)粒度(大約100個時鐘周期)的電源管理機(jī)制,可以平滑內(nèi)核的電源行為,使得平臺電源供應(yīng)商不需要考慮最惡劣的電源供應(yīng)情況,并且允許所有的處理器核心以最高頻率運(yùn)行。在這種情況下,ARM還提供了三種電源配置方案,分別針對節(jié)流功耗、節(jié)流帶寬和矢量負(fù)載、節(jié)流矢量和浮點(diǎn)負(fù)載這三種情況。

        相比x86處理器在最大TDP下進(jìn)行頻率波動不同的是,ARM的處理器更愿意在更多時間內(nèi)保持最高頻率,但是實際的功耗則是遠(yuǎn)低于T D P功耗,這就需要使用MPAM這類技術(shù)來將部分內(nèi)核模塊節(jié)流以盡可能高地提高處理器的頻率。在一般產(chǎn)品中,實現(xiàn)這個目標(biāo)的方法還包括微架構(gòu)內(nèi)部的調(diào)度節(jié)流,核心減慢調(diào)度指令速度來平滑具有高執(zhí)行周期的工作負(fù)載中的高功率需求,尤其是在加入了SEV指令集的情況下。

        在MPAM加入后,Neoverse V1可以在更大的系統(tǒng)范圍內(nèi)進(jìn)行統(tǒng)籌和交互,比如多個VM負(fù)載或者進(jìn)程在同一個系統(tǒng)上運(yùn)行的時候,內(nèi)存分區(qū)和監(jiān)控功能有助于提高服務(wù)質(zhì)量并降低進(jìn)程之間的干擾。不過這些功能需要軟硬件合作和實施,一旦成功,能夠為云計算等場合帶來非常顯著的效能提升。

        再來看看Neoverse V1的CBusy功能,所謂CBusy是指Completer Busy,在這個功能中,CPU內(nèi)核在基于反饋的基礎(chǔ)上,和整個片上網(wǎng)格交互連接,CPU可以根據(jù)整體片上網(wǎng)格情況和系統(tǒng)內(nèi)存負(fù)載改變內(nèi)存預(yù)取器的優(yōu)先級。這個功能和前文介紹的動態(tài)預(yù)取功能相關(guān),可以實現(xiàn)兩全其美的性能提升:要么在帶寬可用的情況下更好地預(yù)取提高每個內(nèi)核的性能,要么在系統(tǒng)高負(fù)載下進(jìn)行保守的預(yù)取來確保數(shù)據(jù)傳輸?shù)膸?。ARM宣稱這個功能設(shè)計可以帶來15%的性能提升。

        首個企業(yè)級Armv9指令集架構(gòu):Neoverse N2

        接下來,我們再來看看NeoverseN 2的平臺和微架構(gòu)的相關(guān)內(nèi)容。Neoverse N2是首個企業(yè)級的、采用Armv9指令集的微架構(gòu)。和NeoverseV1有所不同的是,Neoverse N2并不是追求極端性能的微架構(gòu),而是面向平衡的P PA的產(chǎn)品,也就是在面積、性能和功耗之間取得最佳的平衡。

        從架構(gòu)設(shè)計來看的話,NeoverseN2和Neoverse N1有一定的繼承關(guān)系。Neoverse N2的設(shè)計目標(biāo)是為面向云計算到邊緣計算的設(shè)備,提供更好的可伸縮性和每瓦特性能,滿足電力和空間的限制等。

        Neoverse N2擁有三大新的特性,包括IPC提升40%從而帶來性能大躍進(jìn)、全面的架構(gòu)升級以及增強(qiáng)的伸縮性等。更具體來看的話,Neoverse N2采用了基于Armv9的全新微架構(gòu),全面提升了性能和真實服務(wù)器場合的性能負(fù)載、PPA和Neoverse N1維持基本不變,同時還帶來了更好的每瓦特性能。

        在具體架構(gòu)細(xì)節(jié)方面,ARM沒有給出太多內(nèi)容。不過ARM宣稱NeoverseN2的前端采用了5發(fā)射設(shè)計,其ROB條目只有160余條,相比NeoverseV1的256條目要減少不少,此外還支持2x128b的SVE、NENO和浮點(diǎn)計算等。從這些內(nèi)容可以看出,NeoverseN2的確是一個面向PPA最優(yōu)化的微架構(gòu),并不像NeoverseV1那樣追求極致性能。

        另外在“智能”方面,ARM宣稱Neoverse N2繼承了很多Neoverse N1的“智能”功能,包括智能的分支預(yù)測、智能的數(shù)據(jù)預(yù)取、智能的替換策略等。另外,Neoverse N2的前端設(shè)計和Neoverse V1非常接近,比如都有增強(qiáng)的分支預(yù)測部分,同時都引入了Mop緩存,不過Neoverse N2的Mop緩存只支持1.5K的條目,相比Neoverse V1的3K條目要少不少。

        在電源管理方面,Neoverse N2類似Neoverse V1的加強(qiáng)版本。ARM宣稱Neoverse N2可以根據(jù)工作負(fù)載改變CPU微架構(gòu),以便在不影響性能的前提下降低功耗等。

        總的來說,由于Neoverse N2發(fā)布的時候Armv9指令集還未上市,因此ARM對其沒有太多介紹。從它的性能和特性來說,重點(diǎn)關(guān)注的主要是40%的IPC提升和PPA最優(yōu)化設(shè)計,這一點(diǎn)究竟是如何做到的,本刊還將繼續(xù)關(guān)注。

        NeoverseV1和NeoverseN2的性能預(yù)測

        了解了Neoverse V1和Neoverse N2的架構(gòu)內(nèi)容之后,接下來就是大家最關(guān)心的性能、面積和功耗等信息。我們先回顧一下ARM之前在Neoverse N1上做出的性能預(yù)測和最終的實際性能情況。

        ARM在2019年發(fā)布了N eover seN1,當(dāng)時ARM給出的性能參數(shù)指標(biāo)是Neoverse N1的核心在2.6GHz~3.1GHz頻率下,搭配512K B或者1M B L2緩存,使用臺積電7n m工藝,核心面積大約在1.12mm2~1.4mm2,功耗大約在1.0~1.8W,在64核心的配置下可以在SPECint_2017測試中獲得190分的成績,功耗控制在大約105W左右。而在實際產(chǎn)品實現(xiàn)上,其芯片的面積和預(yù)測值大約有10%的偏差,最終性能也達(dá)到了預(yù)測的要求。

        以此來分析Neoverse V1的話,它可以在頻率以及其他配置和NeoverseN1相同的情況下,I P C提升48%,或者達(dá)到Neoverse N1 1.5倍的性能。在能耗比方面,Neoverse V1的性能功耗比實際上是Neoverse N1的0.7倍到1倍,最終能耗數(shù)值應(yīng)該是NeoverseN1的1.5倍到2.4倍,這是非常重要的數(shù)據(jù)。在芯片面積方面,Neoverse V1是Neoverse N1的1.7倍,這和前述的Neoverse V1核心規(guī)模更大直接相關(guān)。ARM還展示了采用Neoverse V1架構(gòu)的芯片參考設(shè)計。比如在5n m工藝下?lián)碛?6個內(nèi)核,頻率2.7GHz。雖然Neoverse V1的微架構(gòu)本身可以提升至更高的頻率,但是實際上擁有超多內(nèi)核的產(chǎn)品受限于功耗,將導(dǎo)致其很難達(dá)到更高的頻率,需要做出平衡。

        目前,已經(jīng)有廠商采用NeoverseV1推出具體產(chǎn)品,比如SiPearl的Rhea芯片,它使用了臺積電的N6工藝(7nm工藝的改進(jìn)版本),擁有72個NeoverseV1核心,相比官方方案,Rhea芯片的內(nèi)核數(shù)量大幅度提升,這意味著如果SiPearl想讓其達(dá)到官方設(shè)定的頻率的話,那么TDP功耗就會大幅度提升。因此,相比目前頂級的80核心Altra芯片,Rhea芯片保持在250W以內(nèi)的TDP是非常困難的。

        接下來再看Neoverse N2,相比Neoverse V1,Neoverse N2實際上是一個更“合適”的設(shè)計,如果企業(yè)不追求最后那10%的極限性能的話—因為Neoverse N2相比Neoverse V1只損失了大約10%的IPC,且其目標(biāo)功耗值僅為Neoverse N1的1.45倍,因此其性能功耗比應(yīng)該是Neoverse N1的0.96倍。面積方面,Neoverse N2則是Neoverse N1的1.3倍。

        一般來說,Neoverse N2的性能似乎相比Neoverse N1是線性增加的,當(dāng)然功率也是這樣。雖然在性能功耗比方面來說并不是很好的改進(jìn),但這種情況往往意味著在頻率和最終性能目標(biāo)方面,Neoverse N2需要更先進(jìn)的工藝節(jié)點(diǎn),以便實際使用微架構(gòu)的企業(yè)能夠?qū)崿F(xiàn)相關(guān)功能并帶來更為顯著的IPC和性能改進(jìn)。

        不過實際產(chǎn)品設(shè)計需要考慮更多的因素,比如Ampere Altra,在這款產(chǎn)品上很多CPU核心都沒有被充分利用,因此整個芯片甚至運(yùn)行在TDP功耗之下。如果Neoverse N2的架構(gòu)能夠在這種工作負(fù)載中提高性能的話,并且能夠?qū)崿F(xiàn)更高的效率,即使不考慮工藝方面的因素,Neoverse N2的使用也意味著性能的提升。

        此外,在絕對IPC提升方面,ARM還給出了更多的性能數(shù)據(jù)。對于Neoverse V1而言,IPC的改進(jìn)中位數(shù)大約在50%左右,在SPEC CPU測試中基本上能夠達(dá)到這個數(shù)字。ARM還特別強(qiáng)調(diào),如果應(yīng)用能夠很好地使用SVE或者加寬的矢量執(zhí)行寬度的話,那么性能提升還會更為顯著,ARM給出的數(shù)據(jù)是100%~125%的提升幅度。

        相比之下,Neoverse N2的IPC性能增幅中位數(shù)為32%,SPEC CPU性能測試的增幅約為40%,如果是頂級方案,那么IPC增幅也能夠超過50%,不過相比Neoverse V1還是略遜一籌。

        最后,ARM還展示了NeoverseN2、NeoverseN1和NeoverseV1的SPECCPU2017的測試數(shù)據(jù)估計值??梢钥闯觯琋eoverseN2相比NeoverseN1的改進(jìn)是比較均勻的,一般都在20%~50%之間,只有少數(shù)例外。相比之下NeoverseV1的性能增幅更為明顯一些。不過在部分測試中,NeoverseV1的性能是不如NeoverseN2的,主要是因為NeoverseN2是新的微架構(gòu),采用的是Armv9指令集,相比之下NeoverseV1更老一些,部分優(yōu)化特性只有NeoverseN2才有,因此NeoverseN2在這部分實現(xiàn)了反超。

        CMN-700 Mesh架構(gòu):更大、更靈活

        ARM在5年前發(fā)布了CMN-600互聯(lián)網(wǎng)絡(luò)架構(gòu),這是ARM構(gòu)建片上SoC的基礎(chǔ)架構(gòu),ARM在之前也對其進(jìn)行了更新,比如r2版本引入了更大的緩存和CCIX功能等。

        現(xiàn)在,ARM終于發(fā)布了全新的CMN-700Mesh架構(gòu),它具有了全新的可擴(kuò)展性、更強(qiáng)的性能以及靈活性等。相比前代產(chǎn)品,CMN-700極大地擴(kuò)展了片上SoC可以擁有的核心數(shù)量、緩存容量、節(jié)點(diǎn)數(shù)量、內(nèi)存支持以及接口等,使得廠商能夠更容易地設(shè)計出核心數(shù)量更多以及性能更強(qiáng)的SoC產(chǎn)品。

        CMN-700支持最多單個處理器擁有最多256個內(nèi)核,整個系統(tǒng)擁有最多512個內(nèi)核,這個數(shù)量是上代CMN-600產(chǎn)品的4倍。此外,片上系統(tǒng)緩存(SystemLevelCache,簡稱為SLC)的容量也從之前的最大128MB提升至512MB,節(jié)點(diǎn)數(shù)量提升至最多12x12也就是144個,每個核心的內(nèi)存接口數(shù)量提升至最多40個,CCIX設(shè)備接口的數(shù)量提升至每核心32個。

        雖然最大內(nèi)核數(shù)量增加至256個,不過這256個核心也需要通過128個RN-F節(jié)點(diǎn)實現(xiàn),每個節(jié)點(diǎn)通過CAL(ComponentAggregationLayer)來實現(xiàn)2個核心布局。ARM此前也曾經(jīng)有過類似的配置,比如CMN-600最多只支持64個核心,但實際上最終產(chǎn)品擁有80個核心。ARM也提到,64個核心是指最多可以連接到RN-F的原生核心,如果用戶通過CAL或者DSU(DynamiQ共享單元)連接,則可以容納更多的核心。雖然Ampere公司從未解釋過他們是如何布局更多核心的,但是ARM的解釋應(yīng)該是實現(xiàn)更多核心的唯一路徑。

        除了128個RN-F之外,CMN-700還支持最多128個HN-F主節(jié)點(diǎn),也就是系統(tǒng)級緩存所在的節(jié)點(diǎn)。ARM宣稱每個芯片的最大緩存可達(dá)512MB,也就是個每節(jié)點(diǎn)4MB。相比之下,上代產(chǎn)品也就是CMN-600只支持最多128MB,這和ARM之前公布的設(shè)計手冊內(nèi)容存在矛盾,比如ARM曾提到在64個節(jié)點(diǎn)上每個節(jié)點(diǎn)最多可以容納4MB的緩存,最多可以容納256MB。有關(guān)這里的矛盾,ARM還沒有給出更多的解釋。

        無論如何,考慮到緩存高昂的成本和巨大的面積,一般來說用戶不會在自己的產(chǎn)品中使用如此巨大的緩存。比如目前的Graviton2和AltraQ芯片在其網(wǎng)狀設(shè)計中只有32MB的SLC。除了緩存容量外,在Mesh架構(gòu)中的HN-F節(jié)點(diǎn)還包含尺寸較大的Snoop過濾器緩存。ARM公司宣稱,在通常情況下,Snoop過濾器至少需要1.5倍于核心的聚合獨(dú)占緩存大小,這意味著如果有80個核心,每個核心1MBL2緩存,除了32MB的SLC緩存外,至少在Mesh網(wǎng)絡(luò)上需要120MB的Snoop過濾器緩存。這就解釋了為什么AMD的SLC緩存比較小,因為AMD使用L2的影子標(biāo)簽來實現(xiàn)一致性,IOD核心則使用CCD的L3緩存的影子標(biāo)簽。相比之下,ARM在這里的設(shè)計顯得面積效率不高。

        另外,Mesh結(jié)構(gòu)中最大的內(nèi)存控制器,也就是CHISN-F節(jié)點(diǎn)已經(jīng)從16個端口大幅度增加到40個端口。因為ARM設(shè)想在這些新的設(shè)計中采用更廣泛的混合內(nèi)存系統(tǒng)結(jié)構(gòu)和設(shè)計方案。CCI X端口也從之前的4個增加至32個,這對一些分散部署的小芯片方案來說至關(guān)重要。

        再來看看內(nèi)存方面。CMN-700現(xiàn)在不僅允許最終產(chǎn)品增加更多的DDR內(nèi)存控制器,還會集成HBM內(nèi)存。比如前文提到的R h ea芯片,使用了4個HBM2E堆棧和4~6個DDR內(nèi)存控制器。CMN-700的特點(diǎn)是能夠處理此類內(nèi)存并正確管理跨異構(gòu)內(nèi)存架構(gòu)的流量和帶寬。

        ARM表示Mesh結(jié)構(gòu)中的橫截面帶寬增加了三倍,這是通過更高的Mesh頻率實現(xiàn)的。不僅如此,CMN-700允許節(jié)點(diǎn)之間的網(wǎng)格通道加倍。Mesh通道依舊采用了256b寬度,帶有專用的讀寫端口,所以雙倍設(shè)計則是每個方向都可以實現(xiàn)2x256b的帶寬。目前Mesh網(wǎng)絡(luò)的頻率大約是2GHz,雙通道的12x12網(wǎng)絡(luò)將帶來3TB/s的橫截面帶寬。在整個界面路由方面,目前這一代只支持2D路由。

        最后再來看看有關(guān)CCIX 2.0的內(nèi)容。CCIX 2.0對于未來的多芯片和多插座設(shè)計非常重要,因為它允許不使用PCIe交易層和物理層,轉(zhuǎn)而采用更封閉的通用鏈接層和PHY。這主要是為了避免上一代類似設(shè)計的缺陷,那就是在多插座系統(tǒng)中要跨越所有不同的層和協(xié)議,將帶來巨大的延遲懲罰?,F(xiàn)在,CMN-700和CCIX 2.0連接有望解決那些非常高的延遲。值得注意的是,ARM現(xiàn)在的方案仍然需要在AMBA CHI和CCIX 2.0之間進(jìn)行轉(zhuǎn)換,雖然它比我們在CCIX 1.1實現(xiàn)中看到的表現(xiàn)要好得多,但它的性能可能仍然比不上英特爾和A M D解決方案中的完全本地協(xié)議處理。

        最終的性能預(yù)測

        最后我們來看看ARM針對Neoverse N2和Neoverse V1做出的最終實現(xiàn)預(yù)測。該預(yù)測和之前單純的理論推測不同,和實際產(chǎn)品相關(guān),比如采用的工藝或者最終頻率、性能等。

        ARM給出第一個關(guān)鍵信息是,如果采用臺積電5nm工藝制造的話,NeoverseN2的最終實現(xiàn)面積、功率等應(yīng)該和采用臺積電7nm工藝制造的NeoverseN1基本相當(dāng),但是IPC性能提升了40%,頻率提升了10%。當(dāng)然,在這里需要臺積電實現(xiàn)N5相當(dāng)于N7工藝40%的功耗降低目標(biāo),這個目標(biāo)定得非常高,因為現(xiàn)在N5工藝的產(chǎn)品比如蘋果A14或者華為海思麒麟9000,和N7P相比,采用N5的它們僅僅帶來了10%的功率優(yōu)勢,即使是N7P比N7有15%的優(yōu)勢,也意味著N5只有26%的優(yōu)勢,這顯然還不能滿足NeoverseN2的需求。

        不過ARM也宣稱,即使到現(xiàn)在,Neoverse N1的部分效能和功能都沒有完全發(fā)揮,ARM希望累積更多的經(jīng)驗和實踐,以便在下一代N5節(jié)點(diǎn)上實現(xiàn)更出色的性能和效能。

        ARM還給出了一些數(shù)據(jù)用于對比NeoverseN2、NeoverseV1與“傳統(tǒng)”處理器的性能,所謂的“傳統(tǒng)”處理器是指24核心的至強(qiáng)8268和64核心的EPYC7742。另外,ARM還評估了2021年“傳統(tǒng)”處理器可以達(dá)到的性能,給出的參照物是40核心的IceLake和64核心的EPYC7003。ARM的數(shù)據(jù)顯示,在更多核心的情況下,NeoverseV1和NeoverseN2都能帶來顯著高于這些產(chǎn)品的性能。

        另外,在單線程性能方面,ARM也給出一些評估,其認(rèn)為Neoverse內(nèi)核的性能是高于“傳統(tǒng)”核心的。不過ARM的數(shù)據(jù)考察的是在云環(huán)境下,這種情況下處理器運(yùn)行在虛擬CPU的模式下,AMD和英特爾SMT的設(shè)計自然會在性能上表現(xiàn)沒那么出色。不過在實際應(yīng)用中,很多云供應(yīng)商并不區(qū)分虛擬CPU環(huán)境中的真實CPU核心和SMT核心,因此Amazon的Gravition2m6g實例在性能功耗比、性能線程等方面遠(yuǎn)遠(yuǎn)優(yōu)于AMD和英特爾產(chǎn)品。

        總的來看,ARM在Neoverse N2和Neoverse V1的架構(gòu)設(shè)計上還是值得期待的,唯一的問題就是在5nm工藝下它能否達(dá)到如此高的性能功耗比提升,因為這關(guān)乎ARM新一代產(chǎn)品最終的效能。

        猜你喜歡
        設(shè)計
        二十四節(jié)氣在平面廣告設(shè)計中的應(yīng)用
        河北畫報(2020年8期)2020-10-27 02:54:06
        何為設(shè)計的守護(hù)之道?
        《豐收的喜悅展示設(shè)計》
        流行色(2020年1期)2020-04-28 11:16:38
        基于PWM的伺服控制系統(tǒng)設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        基于89C52的32只三色LED搖搖棒設(shè)計
        電子制作(2019年15期)2019-08-27 01:11:50
        基于ICL8038的波形發(fā)生器仿真設(shè)計
        電子制作(2019年7期)2019-04-25 13:18:16
        瞞天過?!律O(shè)計萌到家
        設(shè)計秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        從平面設(shè)計到“設(shè)計健康”
        商周刊(2017年26期)2017-04-25 08:13:04
        日韩乱码中文字幕在线| 风韵丰满熟妇啪啪区老老熟妇| 一本色道久久亚洲综合| 国产乱码一区二区三区爽爽爽| 亚洲av无码一区二区三区在线| 自拍欧美日韩| 欧美成人在线A免费观看| 99综合精品久久| 国产偷国产偷亚洲高清| 亚洲av熟女中文字幕| 四虎国产精品永久在线| 精品一区二区久久久久久久网站| 精品福利一区| 日本激情视频一区在线观看| 亚洲国产成人精品一区刚刚| 国产色婷婷久久又粗又爽| 国产 精品 自在 线免费| 少妇私密会所按摩到高潮呻吟| 国产女在线| 国产成人啪精品视频免费网| 黄色潮片三级三级三级免费| 艳妇臀荡乳欲伦交换h在线观看| 午夜不卡久久精品无码免费| 高h视频在线免费观看| 日韩av一区二区蜜桃| 婷婷丁香五月激情综合| 亚洲av理论在线电影网| 日本肥老熟妇在线观看| 国产一区二区三区激情视频 | 在线无码国产精品亚洲а∨| 亚洲av色在线观看网站| 国产极品裸体av在线激情网| 久久综合九色综合欧美狠狠| 国内少妇自拍区免费视频| 久久久久亚洲AV片无码乐播| 色视频不卡一区二区三区| 国产一区二区三区在线电影| 亚洲粉嫩高潮的18p| 人妻av午夜综合福利视频| 久久精品国产av麻豆五月丁| 亚洲色欲久久久综合网|