亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙劍合璧A(chǔ)RM CORTEX-A78和CORTEX-XI架構(gòu)一覽

        2020-07-27 16:26:37
        微型計(jì)算機(jī) 2020年12期
        關(guān)鍵詞:內(nèi)核功耗分支

        2019年是ARM相當(dāng)成功的一年。在移動(dòng)SoC方面,ARM旗下的新品持續(xù)攻城略地,比如在高通驍龍865中使用的Cortex-A77已成為高端SoC的首選。另外,ARM還打入服務(wù)器市場(chǎng),人們終于可以使用到基于Neoverse-N1架構(gòu)的處理器,比如亞馬遜推出的Graviton 2以及Ampere即將發(fā)布的服務(wù)器處理器等。不過(guò),這并不意味著ARM在這些領(lǐng)域沒(méi)有對(duì)手。實(shí)際上,在服務(wù)器領(lǐng)域ARM才剛剛開(kāi)始,它面臨著AMD和英特爾強(qiáng)有力的競(jìng)爭(zhēng)。在移動(dòng)市場(chǎng)上,雖然包括三星、高通等都放棄或者弱化了自研核心,但是蘋(píng)果依1日把持著移動(dòng)計(jì)算市場(chǎng)最高性能的名頭。這些性能差異存在的原因有一部分是技術(shù)實(shí)現(xiàn)方面的,但是更多應(yīng)該是市場(chǎng)和商業(yè)原因。ARM總要面對(duì)更廣泛和更多樣化的用戶(hù),這是蘋(píng)果所不用顧忌的。

        現(xiàn)在,ARM希望做出一些變化。在2020年的TechDay上,ARM直接發(fā)布了兩款架構(gòu)。其中一款是順理成章、按部就班的Cortex-A78,另一款則顯示了ARM在業(yè)務(wù)模型和設(shè)計(jì)理念_上的新變化,這款被稱(chēng)為Cortex-Xl的全新架構(gòu)將成為ARM在2020年的旗艦產(chǎn)品,并且跳脫出市場(chǎng)和商業(yè)所帶來(lái)的折中取向,以更為激進(jìn)地方式提于性能,頗為令人期待。

        CORTEX-a78:完美平衡性能、功耗與面積

        Cortex-A78早在兩年前就已有苗頭,當(dāng)時(shí)ARM公開(kāi)代號(hào)為“Hercules”的架構(gòu),并給出了到2020年的路線(xiàn)圖。根據(jù)路線(xiàn)圖,今年發(fā)布的Cortex-A78架構(gòu)是Cortex-A76架構(gòu)的第三次迭代,新架構(gòu)吸納了Cortex-A76和Cortex-A77兩款處理器的大量技術(shù)和設(shè)計(jì),并在其之上進(jìn)行了優(yōu)化,以實(shí)現(xiàn)更高的能耗比設(shè)計(jì)。

        Cortex-A78是ARM嚴(yán)格按照l(shuí)生能、功率和面積(也就是PPA)進(jìn)行平衡設(shè)計(jì)的架構(gòu)。從歷史上來(lái)看,ARM在依照PPA進(jìn)行產(chǎn)品設(shè)計(jì)和優(yōu)化方面的表現(xiàn)—直很好,它通常能夠提供低功耗的小面積產(chǎn)品,但又擁有可比條件下更優(yōu)的性能。并且,這種設(shè)計(jì)還擁有充分的彈性空間,也能夠根據(jù)應(yīng)用場(chǎng)景的不同進(jìn)行擴(kuò)展,對(duì)追求高性能的客戶(hù)頗有吸引力??偟膩?lái)看,Cortex-A78的目標(biāo)是在相同功率范圍內(nèi)將性能提高20%。當(dāng)然,這個(gè)數(shù)據(jù)是包含了Cortex-A78架構(gòu)的改進(jìn)和5nm工藝應(yīng)用的雙重改善的結(jié)果。

        Cortex-A78依1日采用的是ARM v8.2指令集,在指令集上沒(méi)有任何變動(dòng)的原因是考慮到要和Cortex-A55實(shí)現(xiàn)DynamIQ,因此這里必須保持ISA的相關(guān)兼容性??蓴U(kuò)展性上,四個(gè)Cortex-A78核心可以組成一個(gè)DSU進(jìn)行DynamIQ配對(duì),這一點(diǎn)和上一代保持一致,也是目前市場(chǎng)中的主流選擇。緩存數(shù)據(jù)方面,每個(gè)核心的L1私有指令緩存可配置32KB或者64KB,L1數(shù)據(jù)緩存的可配置容量和前者相同,但是加入了ECC校驗(yàn),每個(gè)核心私有的L2緩存可配置為帶ECC、256KB或者512KB,L3高速緩存可以根據(jù)用戶(hù)的需求,最高可選配置為4MB。

        進(jìn)一步來(lái)看,Cortex-A78的各個(gè)方面都進(jìn)行了改進(jìn)。在前端,最大的變化來(lái)自分支預(yù)測(cè)器,新的分支預(yù)測(cè)器可以在每個(gè)周期處理兩個(gè)分支,此前的Cortex-A77雖然在后端引入了輔助分支預(yù)測(cè)器,但是其前端的分支預(yù)測(cè)器依舊只能處理一個(gè)分支。

        在分支預(yù)測(cè)器翻倍后,Cortex-A78能夠在每個(gè)周期實(shí)現(xiàn)2個(gè)分支預(yù)測(cè),這樣一來(lái)就極大地增加了核心部分的吞吐能力,或者能夠更好地從分支預(yù)測(cè)的錯(cuò)誤或是核心產(chǎn)生的“管道氣泡”中恢復(fù)過(guò)來(lái)。所謂“管道氣泡”是指處理器在執(zhí)行多個(gè)并行指令的過(guò)程中,指令之間存在關(guān)聯(lián)或者執(zhí)行時(shí)間不均從而發(fā)生了互相等待的問(wèn)題,這將導(dǎo)致整個(gè)處理器的效能由于互相等待而下降?!皻馀荨本拖袷窃诒緛?lái)流暢的水管中存在的一段空氣,它并不會(huì)帶來(lái)任何“水流”(性能提升),反而會(huì)帶來(lái)“水流”的停滯。ARM聲稱(chēng)自家架構(gòu)的性能生能在很大程度上是受到分支預(yù)測(cè)驅(qū)動(dòng)的,因此在分支預(yù)測(cè)上的改進(jìn)會(huì)大幅度提高處理器內(nèi)核的效能。自然在分支預(yù)測(cè)的準(zhǔn)確性上,新內(nèi)核也會(huì)更出色,這都是一代一代不斷進(jìn)步的結(jié)果。另外,ARM還對(duì)分支預(yù)測(cè)的某些結(jié)構(gòu)進(jìn)行了更改,縮小了一些晶體管回報(bào)率較低的模塊,比如那些面積和功耗成本較高,但是對(duì)性能影響不大的模塊,從而重新平衡了整個(gè)分支預(yù)測(cè)部分的PPA。

        在Cortex-A78前端的其他方面,ARM專(zhuān)注于提高電源效率。在L1的指令緩存方面,正如前文所述,用戶(hù)既可以選擇減少內(nèi)核面積的32KB配置方案(這個(gè)方案會(huì)對(duì)性能帶來(lái)些許負(fù)面影響,但能提高每平方毫米的效能),也可以考慮選擇64KB的方案以追求更好的生能表現(xiàn)。Mop緩存方面,Cortex-A78和之前的Cortex-A77-樣,都能最多容納1 500個(gè)已解碼的宏操作。另外,Cortex-A78從前端到核心中段(簡(jiǎn)稱(chēng)為“中核”)的帶寬也和前代產(chǎn)品一樣,設(shè)計(jì)了寬度為4的指令解碼器,且從Mop操作緩存能夠獲取多達(dá)6條指令至重命名階段,可以繞過(guò)指令解碼器。

        進(jìn)入中核和執(zhí)行流水線(xiàn)部分后,ARM宣稱(chēng)對(duì)新核心的大部分改善都用于PPA上?,F(xiàn)在,ARM加入了更多的指令融合內(nèi)容,這不僅有助于提高內(nèi)核性能,還帶來(lái)了電源效率的提高。因?yàn)樵谙嗤墓ぷ髁肯?,融?/p>

        Cortex-A78將是ARM歷史上能耗比最出色的高性能移動(dòng)處理器架構(gòu)

        Cortex-A78的宏觀特性一覽

        Cortex-A78基于Cortex-A77設(shè)計(jì),但是大幅度優(yōu)化了PPA表現(xiàn)。

        Cortex-A78在分支預(yù)測(cè)上做出了加強(qiáng)指令占用更少的資源和電源,但是會(huì)輸出同樣的性能。發(fā)行隊(duì)列(lssueQueues)方面,ARM宣稱(chēng)帶來(lái)了電源效率的改進(jìn)。ARM進(jìn)一步解釋到,對(duì)任何亂序執(zhí)行的架構(gòu)來(lái)說(shuō),發(fā)行隊(duì)列都是高耗電模塊,因此對(duì)其進(jìn)行深入的改進(jìn)是必要的。但是ARM沒(méi)有給出任何改進(jìn)這部分的細(xì)節(jié)信息。

        寄存器部分,包括寄存器重命名模塊和寄存器文件也針對(duì)效率進(jìn)行了優(yōu)化,一部分減少了尺寸。尤其是寄存器部分已經(jīng)重新設(shè)計(jì)了它們能容納的條目密度,并且在相同的空間內(nèi)可以打包更多的數(shù)據(jù),從而使設(shè)計(jì)人員能夠在不降低其功能或者性能的情況下減少結(jié)構(gòu)的整體尺寸。

        接下來(lái)是重排序緩;中區(qū),雖然依1日維持了1 60個(gè)條目,但是Cortex-A78依1日在電源效率方面有所提升,并且可以打包以提高緩;中區(qū)的數(shù)據(jù)密度,從而增加結(jié)構(gòu)中單位面積可以存儲(chǔ)的指令數(shù)量。

        在比較關(guān)鍵的亂序執(zhí)行窗口上,Cortex-A78比Cortex-A77更小。ARM的解釋是,較大的亂序執(zhí)行窗口并不會(huì)有較高的投資回報(bào),這和Cortex-A78盡可能提高效能的目標(biāo)是;中突的。需要注意的是,亂序執(zhí)行的窗口不僅僅是指ROB容量,ARM在和亂序執(zhí)行的緩沖區(qū)、隊(duì)列、結(jié)構(gòu)等方面都進(jìn)行了改進(jìn),很可錢(qián)在這些方面進(jìn)行了一些縮減。

        指令調(diào)度階段,ARM在Cortex-A78上改變了說(shuō)法,新架構(gòu)采用了每周期6個(gè)Mops的調(diào)度帶寬,之前的Cortex-A77是10個(gè)uops。另外,Cortex-A78在分派端量分派帶寬增加到每周期12 uops,這將帶來(lái)執(zhí)行核心的性能提升。

        計(jì)算單元部分的改變就比較少了o其中整數(shù)執(zhí)行部分,Cortex-A78的一個(gè)簡(jiǎn)單ALU單元改進(jìn)為更復(fù)雜的計(jì)算單元,現(xiàn)在這個(gè)新單元可以進(jìn)一步執(zhí)行乘法計(jì)算,這實(shí)際上帶來(lái)了整數(shù)MULi+算能力的翻倍。其余部分則保持了和Cortex-A77-樣的規(guī)格。

        進(jìn)入后端部分,一些比較明顯的、用于提高性能的改進(jìn)就比較多了o第一個(gè)重大變化是增加了新的加載AGU,和現(xiàn)有的兩個(gè)AGU-起使得內(nèi)核在相關(guān)計(jì)算上的負(fù)載能力增加了50%,不過(guò)這并不會(huì)改變每個(gè)周期的存儲(chǔ)操作。在LD/ST隊(duì)列到L1數(shù)據(jù)緩存方面,新處理器的接口帶寬相比前代產(chǎn)品翻倍,從16個(gè)字節(jié)增加到了32個(gè)字節(jié),并且內(nèi)核到L2接口的讀取和寫(xiě)入帶寬也增加了一倍。

        ARM在預(yù)取器方面似乎取得了突破。ARM宣稱(chēng)Cortex-A78的新預(yù)取器在存儲(chǔ)區(qū)域的覆蓋率、準(zhǔn)確性和及時(shí)l生方面都得到了全新的改進(jìn),這里的及時(shí)性是指預(yù)取器能夠快速抓住新出現(xiàn)的模式,并能夠盡快地將數(shù)據(jù)引入較低級(jí)別的緩存中。預(yù)取器的工作流程也得到了改善,并不會(huì)啟動(dòng)得太早或者太晚,或者不必要地預(yù)取那些—段時(shí)間內(nèi)不再使用的數(shù)據(jù)。

        最后再來(lái)回顧—下緩存部分。除了容量可選外,L2 TLB部分得到了改善,其容量從1280頁(yè)減少至1024頁(yè),這實(shí)際上提高了能效比,但是同時(shí)依1日保留了足夠的條目以覆蓋L3的4MB配置,訪(fǎng)問(wèn)延遲也進(jìn)一步降低。

        總體而言,在Cortex-A78上我們似乎看到了大量的縮減或者折中的做法,這些都是為了盡可能高的PPA而進(jìn)行的操作??紤]到同時(shí)發(fā)布的Cortex-X1將專(zhuān)注于高性能,因此這些改進(jìn)無(wú)論是從技術(shù)還是市場(chǎng)的角度出發(fā),都是有一定道理的。

        CORTEX-X1:一切為性能

        ARM多年來(lái)的業(yè)務(wù)模型帶來(lái)了可以滿(mǎn)足最廣泛客戶(hù)需求的CPU設(shè)計(jì)方案,這里存在一個(gè)問(wèn)題就是有關(guān)面積、能耗比和性能這樣的三角形,設(shè)計(jì)人員不可能在提升一個(gè)部分的同時(shí)又滿(mǎn)足其余兩個(gè)部分的需求,也就是俗稱(chēng)的“不可能三角”。當(dāng)然蘋(píng)果在這里似乎證明了這個(gè)“不可能三角”存在的可能,但是造成ARM存在劣勢(shì)的一個(gè)重要因素是,ARM在商業(yè)方面從來(lái)都沒(méi)有證明過(guò)自己擁有研發(fā)更大核心的能力。

        可以自定義的高性能架構(gòu)

        隨著ARM客戶(hù)越來(lái)越多,并增加了一些用于設(shè)計(jì)高性能內(nèi)核的研發(fā)資源后,ARM似乎終于在設(shè)計(jì)能力上達(dá)到了一個(gè)突變點(diǎn),從Neoverse-N1的發(fā)布一直到Cortex-A76的上市,似乎ARM有意在處理器設(shè)計(jì)上帶來(lái)一些不

        Cortex-A78在中核和執(zhí)行部分上的優(yōu)化一覽

        Cortex-A78在緩存部分的改進(jìn)同以往的內(nèi)容。

        在ARM的介紹中,Cortex-X1的研發(fā)代號(hào)是“Hera”,這和之前的 “Hercules”類(lèi)似,并且和Cortex-A78-樣都來(lái)自ARM位于奧斯汀的設(shè)計(jì)團(tuán)隊(duì)。當(dāng)然和Cortex-A78努力平衡PPA有所不同的是,Cortex-X1直接瞄準(zhǔn)了性能,而很少考慮剩余的兩個(gè)指標(biāo)。

        在處理器設(shè)計(jì)上,Cortex-X1也是ARM首次以一個(gè)全新的模式進(jìn)行研發(fā),這個(gè)模式被稱(chēng)為“Cortex-X自定義模式”,這個(gè)新的模式是ARM幾年前發(fā)布的“Cortex技術(shù)構(gòu)建”的改進(jìn)版本。新的模式或者許可證允許客戶(hù)在新的微架構(gòu)的設(shè)計(jì)階段早期進(jìn)行協(xié)作,并要求對(duì)配置進(jìn)行自定義,比如更大的ROB、不同的預(yù)取器或者更好集成的SoC設(shè)計(jì)等。從商業(yè)角度來(lái)看,這種新的模式實(shí)際上是之前BoACT的進(jìn)一步改進(jìn)版本,允許對(duì)處理器架構(gòu)的“基礎(chǔ)”設(shè)計(jì)部分進(jìn)行更為深入的自定義和更改。ARM多年來(lái)一致宣稱(chēng)它允許客戶(hù)更多的定制和區(qū)分旗下的產(chǎn)品,但直到現(xiàn)在ARM才真正擁有可以完成這項(xiàng)口號(hào)的資源。

        需要注意的是,盡管ARM將新的Cortex-X1以及未來(lái)的Cortex-X家族的產(chǎn)品都統(tǒng)統(tǒng)定義為“Cortex-X自定義模式”,但是請(qǐng)不要將這種自定義模式和具有體系結(jié)構(gòu)許可的供應(yīng)商自行定義的微架構(gòu)混淆,ARM的新模式依舊以局限于ARM自己提供相關(guān)IP和核心迭代,只是許可方可以選擇不同的搭配方式。當(dāng)然,ARM可能會(huì)在未來(lái)允許特定供應(yīng)商對(duì)核心架構(gòu)的更改——如果有這樣的需求的話(huà)。

        追求更強(qiáng)、更寬、更快

        從架構(gòu)改進(jìn)來(lái)看,ARM在Cortex-A78上的改進(jìn)是偏向溫和的,—切都是為了更高的PPA。相比之下,在Cortex-X1上我們看到了一個(gè)和ARM遵循“平衡”的傳統(tǒng)大相徑庭、更為激進(jìn)的方案。在Cortex-X1的設(shè)計(jì)上,ARM支持的是絕對(duì)的生能,即使這樣的設(shè)計(jì)需要以能源效率和空間效率為代價(jià)。

        Cortex-X1的架構(gòu)設(shè)計(jì)可以概括為一種超負(fù)荷的Cortex-A78,也就是保持了相同的功能原理,但是顯著增加了內(nèi)核結(jié)構(gòu)以最大化性能。和Cortex-A78相比,Cortex-X1的內(nèi)核更寬,其解碼寬度從Cortex-A78的4寬度擴(kuò)展至5寬度,重命名帶寬也提高到8Mops每周期,并且極大地改變了一些管道和緩存設(shè)計(jì),使得NENO單元、L2緩存和L3緩存的性能或者容量翻倍。

        在前端設(shè)計(jì)方面,Cortex-X1采用的部分設(shè)計(jì)在Cortex-A78上已經(jīng)存在,包括新的分支預(yù)測(cè)單元。但有所不同的是,Cortex-X1擴(kuò)展了處理器前端的很多方面,比如LO BTB部分已經(jīng)從之前處理器的64條目升級(jí)到了96條目,從而允許采用更多零延遲的峰值。分支目標(biāo)緩沖區(qū)依舊日設(shè)計(jì)了LO和L2 BTB兩層結(jié)構(gòu),在先前公開(kāi)的資料中,ARM將兩部分稱(chēng)為nano BTB和MainBTB。更早一些的micro BTB/L1 BTB的名稱(chēng)只存在于Cortex-A76中,但是已經(jīng)不再使用了.

        宏操作緩存是Cortex-X1的重大改進(jìn),其容量相比之前產(chǎn)品的1.5K條目翻倍達(dá)到了3K條目。相比之下,英特爾在Sunny Cove中也僅僅使用了2.25K條目,當(dāng)然AMD在Zen 2架構(gòu)中使用的4K條目更大一些。在技術(shù)上,ARM的宏操作和英特爾、AMD提出的微操作實(shí)際上是一回事。

        Cortex-X1的L1指令緩存提取帶寬已經(jīng)從之前的4條指令增加至5條,提升了25%,相應(yīng)的解碼器帶寬也增加

        Cortex-X1專(zhuān)為高性能設(shè)計(jì),帶來(lái)了30%的性能提升幅度。

        Cortex-X1基于Co rtex-A78架構(gòu)進(jìn)一步加強(qiáng)而來(lái)

        Cortex-X1的相關(guān)性一覽,主要是可以自私你故意構(gòu)架.了。Mop緩存的提取和重命名帶寬從之前的6條指令增加至8條指令,每周期提升了33%。實(shí)際上只要數(shù)據(jù)到達(dá)了Mop部分之后,這款微架構(gòu)就可以充當(dāng)8寬度設(shè)計(jì)了o

        中核部分,ARM再次談到了通過(guò)Mops或者每個(gè)周期的指令來(lái)增加調(diào)度帶寬。相比Cortex-A78,Cortex-X1的調(diào)度帶寬從6增加到了8,也增加了33%。如果以u(píng)ops來(lái)折算的話(huà),當(dāng)Mops完全分解成較小的uops時(shí),內(nèi)核每個(gè)周期最多可以處理16個(gè)調(diào)度內(nèi)容,這比Cortex-A77能達(dá)到的lOuops每周期相比,提升高達(dá)60%。

        亂序執(zhí)行窗口方面,Cortex-X1配備了224個(gè)條目的亂序執(zhí)行窗口(之前產(chǎn)品僅有1 60個(gè)),從而增加了核心提取ILP的能力。這是ARM-直不愿意大幅升級(jí)的部分,因?yàn)檫@部分的性能并不會(huì)隨著結(jié)構(gòu)尺寸的線(xiàn)性增加而線(xiàn)性擴(kuò)展,反而會(huì)帶來(lái)比較高的功耗和面積耗費(fèi)。當(dāng)然鑒于Cortex-X1面向的市場(chǎng),這樣的設(shè)計(jì)也是合理的。

        在數(shù)據(jù)執(zhí)行方面,和Cortex-A78相比,Cortex-X1的整數(shù)流水線(xiàn)沒(méi)有任何變化,但是浮點(diǎn)流水線(xiàn)加倍,尤其是浮點(diǎn)和NENO流水線(xiàn),這和之前的架構(gòu)設(shè)計(jì)大相徑庭。實(shí)際上從字面意義上來(lái)說(shuō),加倍是指將之前的架構(gòu)相對(duì)應(yīng)的管道進(jìn)行復(fù)制粘貼,但依1日能夠帶來(lái)相當(dāng)大的改進(jìn)并增加了大量的執(zhí)行資源。

        在浮點(diǎn)資源加強(qiáng)后,Cortex-X1現(xiàn)在已經(jīng)是4x128bit[YJSIMD設(shè)計(jì)了,矢量執(zhí)行的寬度已經(jīng)和臺(tái)式機(jī)處理器,如Sunny Cove或者AMD Zen 2相同了o當(dāng)然這里還存在一些約束,比如ARM現(xiàn)有的ISA不允許單個(gè)矢量大于128bit,這些問(wèn)題將在下一代內(nèi)核中解決。

        在內(nèi)存子系統(tǒng)方面,Cortex-X1發(fā)生了比較大的變化。首先來(lái)看L1數(shù)據(jù)緩存和L2部分。這兩部分緩存ARM都采用了全新的設(shè)計(jì),帶來(lái)了不同的接入帶寬。當(dāng)然,高速緩存的接口并沒(méi)有變寬,真正改變的是緩存本身的設(shè)計(jì),現(xiàn)在實(shí)現(xiàn)了雙倍的緩存區(qū)塊(Bank),這里解決的問(wèn)題是在對(duì)緩存進(jìn)行多個(gè)并發(fā)訪(fǎng)問(wèn)時(shí)可能遇到的區(qū)塊;中突,這種沖突存在于幾年前的Cortex-A76架構(gòu)中,并在測(cè)試中以奇怪的“之字形”圖樣顯示出來(lái),現(xiàn)在依1日存在于這個(gè)微架構(gòu)的一些變體中。最后,Cortex-X1上的L1數(shù)據(jù)緩存和指令緩存的容量配置都是64KB。

        在L2上,由于采用了全新的設(shè)計(jì),ARM將L2的最小容量直接翻倍至1MB。相比之下,之前ARM在Neoverse-N1上也采用了1MB的L2緩存,但是這兩者的設(shè)計(jì)是不一樣的。新的Cortex-X1的L2訪(fǎng)問(wèn)延遲只有10個(gè)周期,比Neoverse-N1要小1個(gè)周期(Neoverse-N1為11個(gè)周期),因此性能進(jìn)一步得到了提升。

        內(nèi)存子系統(tǒng)的改進(jìn)還涉及支持更多負(fù)載和存儲(chǔ)的能力,相關(guān)窗口寬度增加了33%,核心的MLP能力上還增加了更多。需要注意的是,這種增加不僅涉及存儲(chǔ)和加載緩沖區(qū),還涉及整個(gè)系統(tǒng)跟蹤和服務(wù)請(qǐng)求的功能實(shí)現(xiàn)。另外,Cortex-X1的L2 TLB部分相比Cortex-A78大小也增加了一倍(相比Cortex-A76只增加了66%,因?yàn)?/p>

        Cortex-X1相比Cortex-A78的主要改進(jìn)部分

        Cortex-X1的前端為了性能擴(kuò)大了部分端口和資源

        Cortex-X1的解碼、重命名和執(zhí)行部分得到了顯著加強(qiáng)

        Cortex-X1擁有更大的緩存Cortex-A78縮小了這部分面積),因此能夠多在4KB的TLB上映射8MB的緩存,這和Cortex-X1搭配8MB L3緩存的設(shè)想是一致的。

        在整個(gè)處理器集群中,L3緩存容量的大幅提升并不意味著速度的降低,因?yàn)檫@些緩存的延遲可能是相同的,但是取決于最終的實(shí)現(xiàn)方案,或者有額外的幾個(gè)周期的延遲,這可能是指使用單獨(dú)的電源來(lái)控制L3部分。當(dāng)然,到目前為止,都沒(méi)有看到任何廠商在L3上使用DSU的電源控制功能,比如高通的4MB L3是一直保持激活和活躍狀態(tài)的。在8MB L3上,可能有一部分廠商開(kāi)始考慮引入電源管理機(jī)制了,比如當(dāng)只有很少的核心處于激活狀態(tài)時(shí),L3就部分啟用而其余部分則休眠以節(jié)約能源。

        總的來(lái)看,Cortex-X1的微架構(gòu)相比之前的Cortex-A78,其基本構(gòu)造結(jié)構(gòu)是相似的,但是部分單元的規(guī)模要大不少。尤其是在前端和中核部分,Cortex-X1更為龐大。相比Cortex-A78極端重視PPA而言,Cortex-X1在這方面顯然更為寬松,當(dāng)然這將帶來(lái)更多的功耗和更大的核心尺寸。

        另外,Cortex-X1的流水線(xiàn)級(jí)數(shù)依1日很短,只有10個(gè)周期的分支錯(cuò)誤預(yù)測(cè)損失和13個(gè)階段的深度設(shè)計(jì),這一點(diǎn)和Cortex-A78是一樣的。值得一提的是,Cortex-X1更大的結(jié)構(gòu)和更寬的設(shè)計(jì)也沒(méi)有妨礙到頻率的提升。

        性功能耗能否兩全其美?

        在架構(gòu)方面的信息介紹完之后,按照管理,ARM會(huì)帶來(lái)相關(guān)處理器的性能、功耗預(yù)測(cè)。在Cortex-A78上,ARM選擇了Cortex-A77進(jìn)行對(duì)比,但是Cortex-A78采用的是臺(tái)積電5nm工藝,而后者采用了7nm工藝,因此所有的對(duì)比數(shù)據(jù)中,既包含了微架構(gòu)的改進(jìn)帶來(lái)的性能提升,也包含了工藝制程的優(yōu)化。

        在性能方面,將內(nèi)核的ISO功耗目標(biāo)定義在1W的時(shí)候,Cortex-A78可以使得性能提升20%,當(dāng)然,臺(tái)積電7nm工藝上Cortex-A77在1W功耗下只能運(yùn)行在2.6GHz的水平,而Cortex-A78則提高到了3GHz,頻率提升了15%。

        在功耗方面,將CPU設(shè)定在相同的SPECint2006性能輸出的情況下,Cortex-A78的功耗僅為Cortex-A77的一半。這是因?yàn)槌斯に囈蛩赝?,Cortex-A78只需要2.1GHz就能完成Cortex-A77在2.3GHz下的性能,因此更為節(jié)約能耗??偟膩?lái)看,在性能和功耗的可比參數(shù)上,Cortex-A78分別帶來(lái)了20%的增加和50%的降低。

        另外,在基本相同的條件下比較的話(huà),ARM也給出了相關(guān)的數(shù)據(jù),比如全部基于臺(tái)積電7nm工藝,以及為Cortex-A78的核心配備了32KB的L1緩存,其余的兩款核心都配備了64KB的情況下,不同處理器的PPA也就是性能、功耗和面積三個(gè)數(shù)值中,Cortex-A78相比Cortex-A77和Cortex-A76,帶來(lái)了7%的性能提升、4%的功耗降低和5%的面積減少。

        另外,ARM還首次發(fā)布了微架構(gòu)的整體性能和功耗曲線(xiàn),并比較了Cortex-A78和Cortex-A77。在Cortex-A77的性能最高點(diǎn)上,Cortex-A78的功耗減少了36%。在相同的功耗下,Cortex-A78的性能可以提高7%。

        接下來(lái)看Cortex-X1。相比Cortex-A77,Cortex-X1帶來(lái)了相同頻率下3 0%的峰值性能提升,相比Cortex-A78則有22%,這里比較的是最大配置的Cortex-X1、Cortex-A77和Cortex-A78,并且都運(yùn)行在3GHz下,實(shí)際上這樣的Cortex-A77并不存在。另外ARM還展示了Cortex-X1在多個(gè)方面的生能提升,相比Cortex-A77,提升幅度大約在30%-18%不等。另外還有一個(gè)數(shù)據(jù)值得關(guān)注,那就是Cortex-X1的核心面積。目前的一些模糊數(shù)據(jù)顯示,Cortex-X1的核心面積大約是Cortex-A78的1.5倍。

        在和現(xiàn)有處理器的對(duì)比上,Anantech做出了一些預(yù)測(cè)。他們使用了3GHz的Cortex-X1和Cortex-A78來(lái)對(duì)比目前的部分處理器產(chǎn)品的單核心性能,并加入了桌面處理器Core i9-10900K和AMD Ryzen 9 3950X。結(jié)果顯示,Cortex-X1有可能比Cortex-A77架構(gòu)的驍龍865快了大約37%,近蘋(píng)果A13處理器的生能。另外在和桌面處理器的對(duì)比中,這些測(cè)試顯示現(xiàn)有的ARM處理器架構(gòu)并沒(méi)有太多地落后于AMD和英特爾,如果ARM未來(lái)還以這樣的生能增幅狂奔的話(huà),那么AMD和英特爾可能會(huì)緊張了。另外,在能耗比方面,Cortex-X1功耗可能是Cortex-A78的1.5倍或者2倍,但是考慮到它性能的提升幅度,因此依1日可以在能耗比方面和蘋(píng)果的相關(guān)產(chǎn)品競(jìng)爭(zhēng)。相比之下,Cortex-X1的能耗比僅僅比Cortex-A78差了大約23%,比驍龍865差了11 %-14%,因此在Cortex-X1的相關(guān)產(chǎn)品上,ARM在功耗上還有很大的回旋余地。

        由于Cortex-X1的面積變大,因此ARM也提到在移動(dòng)SoC中很難看到2個(gè)Cortex-X1核心的處理器,實(shí)際上越來(lái)越多的廠商正在考慮使用擁有三個(gè)處理器簇的產(chǎn)品,比如1個(gè)高性能核心Cortex-X1搭配3個(gè)中等核心Cortex-A78,再搭配4個(gè)Cortex-A55這樣的小核心,實(shí)現(xiàn)“1+3+4”的設(shè)計(jì),這很可能將是未來(lái)的主流。這樣的設(shè)計(jì)相比采用Cortex-A78和Cortex-A55的'4+4”設(shè)計(jì),大約帶來(lái)了30%的性能增長(zhǎng)和1 5%的處理器面積增加,也是劃算的。

        在客戶(hù)方面,三星已經(jīng)確定將使用Cortex-X1和Cortex-A78,因此目前的問(wèn)題在于三星會(huì)選擇“1+3+4”方案還是“2+2+4”方案,這很大程度上取決于三星制造Exynos處理器的5nm工藝。另外,高通可能會(huì)選擇“1+3+4”的方案,畢竟現(xiàn)在的驍龍865中高通已經(jīng)在這樣做了。另外華為海思可能短時(shí)間內(nèi)不會(huì)使用Cortex-X1,畢竟除了眾所周知的原因外,海思一般不傾向于使用最新的微架構(gòu)。聯(lián)發(fā)科也有可能使用Cortex-X1和Cortex-A78,雖然其長(zhǎng)期以來(lái)都被看作是成本導(dǎo)向的公司,不過(guò)在追求性能方面,聯(lián)發(fā)科可能會(huì)有自己獨(dú)特的想法。

        總的來(lái)說(shuō),ARM本次發(fā)布的內(nèi)容看點(diǎn)不少。Cortex-A78雖然在架構(gòu)上進(jìn)步不大,但是依1日帶來(lái)了絕對(duì)優(yōu)秀的PPA表現(xiàn),毫無(wú)疑問(wèn),Cortex-A78將成為未來(lái)數(shù)年時(shí)間市場(chǎng)的寵兒。讓人驚喜的是Cortex-X1,ARM在這款產(chǎn)品上展示了全新的設(shè)計(jì)理念和性能優(yōu)先的思路,顯示出ARM在思考處理器發(fā)展上的突破和變化。畢竟,Cortex-X1帶來(lái)了相比Cortex-A77 30%的IPC提升幅度,甚至在一些測(cè)試中接近x86處理器,讓人充滿(mǎn)遐想,更加值得期待

        Gortex-X1的性能表現(xiàn),比Cortex-A78再度提升22%。

        Cortex-X1單線(xiàn)程性能在不同測(cè)試下的情況

        Anantech預(yù)測(cè)的Cortex-X1和Cortex-A78的性能和功耗情況

        ARM在核心搭配上也提出了一些自己的看法,可能未來(lái)高端處理器“1+3+4”的方案將成為主流。

        猜你喜歡
        內(nèi)核功耗分支
        萬(wàn)物皆可IP的時(shí)代,我們當(dāng)夯實(shí)的IP內(nèi)核是什么?
        群眾路線(xiàn)是百年大黨成功之內(nèi)核性制度因素的外在表達(dá)
        強(qiáng)化『高新』內(nèi)核 打造農(nóng)業(yè)『硅谷』
        巧分支與枝
        Linux內(nèi)核mmap保護(hù)機(jī)制研究
        一類(lèi)擬齊次多項(xiàng)式中心的極限環(huán)分支
        揭開(kāi)GPU功耗的面紗
        數(shù)字電路功耗的分析及優(yōu)化
        電子制作(2016年19期)2016-08-24 07:49:54
        “功耗”說(shuō)了算 MCU Cortex-M系列占優(yōu)
        電子世界(2015年22期)2015-12-29 02:49:44
        IGBT模型優(yōu)化及其在Buck變換器中的功耗分析
        熟女一区二区三区在线观看| 九九久久精品大片| 中文字幕高清一区二区| 亚洲国产精品国自产拍性色 | 日韩精品一级在线视频| 午夜国产视频一区二区三区| 久久成人影院精品777| 亚洲一区中文字幕在线电影网| 免费无码黄网站在线观看| 国产精品亚洲一区二区三区在线看| 加勒比一本heyzo高清视频| 黄色视频在线免费观看 | 日韩国产欧美成人一区二区影院| 最新日本久久中文字幕| 亚洲国产精品日本无码网站 | 97超级碰碰碰久久久观看| 国产另类人妖在线观看| 亚洲爆乳精品无码一区二区三区| 失禁大喷潮在线播放| 高潮喷水无遮挡毛片视频| 国产高清一区二区三区三州| 特黄大片又粗又大又暴| 久久天天躁狠狠躁夜夜爽| 亚洲免费不卡av网站| 亚洲成人av在线蜜桃| 高清不卡一区二区三区| 国产成人九九精品二区三区| 午夜亚洲精品一区二区| 日本中文字幕一区二区有码在线| 久久99精品国产99久久6尤物| 亚洲午夜久久久久中文字幕久 | 亚洲精品国产av日韩专区| 成年女人a毛片免费视频| 999国产一区在线观看| 亚洲精品一区二区三区国产| 人妻少妇哀求别拔出来| 国产丝袜视频一区二区三区| 99re6久精品国产首页| 女同恋性吃奶舌吻完整版| 免费看av在线网站网址| 一级毛片不卡在线播放免费|