亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

雙劍合璧A(chǔ)RM CORTEX-A78和CORTEX-XI架構(gòu)一覽

2020-07-27 16:26:37

微型計(jì)算機(jī) 2020年12期

2019年是ARM相當(dāng)成功的一年。在移動(dòng)SoC方面，ARM旗下的新品持續(xù)攻城略地，比如在高通驍龍865中使用的Cortex-A77已成為高端SoC的首選。另外，ARM還打入服務(wù)器市場(chǎng)，人們終于可以使用到基于Neoverse-N1架構(gòu)的處理器，比如亞馬遜推出的Graviton 2以及Ampere即將發(fā)布的服務(wù)器處理器等。不過(guò)，這并不意味著ARM在這些領(lǐng)域沒(méi)有對(duì)手。實(shí)際上，在服務(wù)器領(lǐng)域ARM才剛剛開(kāi)始，它面臨著AMD和英特爾強(qiáng)有力的競(jìng)爭(zhēng)。在移動(dòng)市場(chǎng)上，雖然包括三星、高通等都放棄或者弱化了自研核心，但是蘋(píng)果依1日把持著移動(dòng)計(jì)算市場(chǎng)最高性能的名頭。這些性能差異存在的原因有一部分是技術(shù)實(shí)現(xiàn)方面的，但是更多應(yīng)該是市場(chǎng)和商業(yè)原因。ARM總要面對(duì)更廣泛和更多樣化的用戶(hù)，這是蘋(píng)果所不用顧忌的。

現(xiàn)在，ARM希望做出一些變化。在2020年的TechDay上，ARM直接發(fā)布了兩款架構(gòu)。其中一款是順理成章、按部就班的Cortex-A78，另一款則顯示了ARM在業(yè)務(wù)模型和設(shè)計(jì)理念_上的新變化，這款被稱(chēng)為Cortex-Xl的全新架構(gòu)將成為ARM在2020年的旗艦產(chǎn)品，并且跳脫出市場(chǎng)和商業(yè)所帶來(lái)的折中取向，以更為激進(jìn)地方式提于性能，頗為令人期待。

CORTEX-a78：完美平衡性能、功耗與面積

Cortex-A78早在兩年前就已有苗頭，當(dāng)時(shí)ARM公開(kāi)代號(hào)為“Hercules”的架構(gòu)，并給出了到2020年的路線(xiàn)圖。根據(jù)路線(xiàn)圖，今年發(fā)布的Cortex-A78架構(gòu)是Cortex-A76架構(gòu)的第三次迭代，新架構(gòu)吸納了Cortex-A76和Cortex-A77兩款處理器的大量技術(shù)和設(shè)計(jì)，并在其之上進(jìn)行了優(yōu)化，以實(shí)現(xiàn)更高的能耗比設(shè)計(jì)。

Cortex-A78是ARM嚴(yán)格按照l(shuí)生能、功率和面積（也就是PPA）進(jìn)行平衡設(shè)計(jì)的架構(gòu)。從歷史上來(lái)看，ARM在依照PPA進(jìn)行產(chǎn)品設(shè)計(jì)和優(yōu)化方面的表現(xiàn)—直很好，它通常能夠提供低功耗的小面積產(chǎn)品，但又擁有可比條件下更優(yōu)的性能。并且，這種設(shè)計(jì)還擁有充分的彈性空間，也能夠根據(jù)應(yīng)用場(chǎng)景的不同進(jìn)行擴(kuò)展，對(duì)追求高性能的客戶(hù)頗有吸引力?？偟膩?lái)看，Cortex-A78的目標(biāo)是在相同功率范圍內(nèi)將性能提高20%。當(dāng)然，這個(gè)數(shù)據(jù)是包含了Cortex-A78架構(gòu)的改進(jìn)和5nm工藝應(yīng)用的雙重改善的結(jié)果。

Cortex-A78依1日采用的是ARM v8.2指令集，在指令集上沒(méi)有任何變動(dòng)的原因是考慮到要和Cortex-A55實(shí)現(xiàn)DynamIQ，因此這里必須保持ISA的相關(guān)兼容性?？蓴U(kuò)展性上，四個(gè)Cortex-A78核心可以組成一個(gè)DSU進(jìn)行DynamIQ配對(duì)，這一點(diǎn)和上一代保持一致，也是目前市場(chǎng)中的主流選擇。緩存數(shù)據(jù)方面，每個(gè)核心的L1私有指令緩存可配置32KB或者64KB，L1數(shù)據(jù)緩存的可配置容量和前者相同，但是加入了ECC校驗(yàn)，每個(gè)核心私有的L2緩存可配置為帶ECC、256KB或者512KB，L3高速緩存可以根據(jù)用戶(hù)的需求，最高可選配置為4MB。

進(jìn)一步來(lái)看，Cortex-A78的各個(gè)方面都進(jìn)行了改進(jìn)。在前端，最大的變化來(lái)自分支預(yù)測(cè)器，新的分支預(yù)測(cè)器可以在每個(gè)周期處理兩個(gè)分支，此前的Cortex-A77雖然在后端引入了輔助分支預(yù)測(cè)器，但是其前端的分支預(yù)測(cè)器依舊只能處理一個(gè)分支。

在分支預(yù)測(cè)器翻倍后，Cortex-A78能夠在每個(gè)周期實(shí)現(xiàn)2個(gè)分支預(yù)測(cè)，這樣一來(lái)就極大地增加了核心部分的吞吐能力，或者能夠更好地從分支預(yù)測(cè)的錯(cuò)誤或是核心產(chǎn)生的“管道氣泡”中恢復(fù)過(guò)來(lái)。所謂“管道氣泡”是指處理器在執(zhí)行多個(gè)并行指令的過(guò)程中，指令之間存在關(guān)聯(lián)或者執(zhí)行時(shí)間不均從而發(fā)生了互相等待的問(wèn)題，這將導(dǎo)致整個(gè)處理器的效能由于互相等待而下降?！皻馀荨本拖袷窃诒緛?lái)流暢的水管中存在的一段空氣，它并不會(huì)帶來(lái)任何“水流”（性能提升），反而會(huì)帶來(lái)“水流”的停滯。ARM聲稱(chēng)自家架構(gòu)的性能生能在很大程度上是受到分支預(yù)測(cè)驅(qū)動(dòng)的，因此在分支預(yù)測(cè)上的改進(jìn)會(huì)大幅度提高處理器內(nèi)核的效能。自然在分支預(yù)測(cè)的準(zhǔn)確性上，新內(nèi)核也會(huì)更出色，這都是一代一代不斷進(jìn)步的結(jié)果。另外，ARM還對(duì)分支預(yù)測(cè)的某些結(jié)構(gòu)進(jìn)行了更改，縮小了一些晶體管回報(bào)率較低的模塊，比如那些面積和功耗成本較高，但是對(duì)性能影響不大的模塊，從而重新平衡了整個(gè)分支預(yù)測(cè)部分的PPA。

在Cortex-A78前端的其他方面，ARM專(zhuān)注于提高電源效率。在L1的指令緩存方面，正如前文所述，用戶(hù)既可以選擇減少內(nèi)核面積的32KB配置方案（這個(gè)方案會(huì)對(duì)性能帶來(lái)些許負(fù)面影響，但能提高每平方毫米的效能），也可以考慮選擇64KB的方案以追求更好的生能表現(xiàn)。Mop緩存方面，Cortex-A78和之前的Cortex-A77-樣，都能最多容納1 500個(gè)已解碼的宏操作。另外，Cortex-A78從前端到核心中段（簡(jiǎn)稱(chēng)為“中核”）的帶寬也和前代產(chǎn)品一樣，設(shè)計(jì)了寬度為4的指令解碼器，且從Mop操作緩存能夠獲取多達(dá)6條指令至重命名階段，可以繞過(guò)指令解碼器。

進(jìn)入中核和執(zhí)行流水線(xiàn)部分后，ARM宣稱(chēng)對(duì)新核心的大部分改善都用于PPA上?，F(xiàn)在，ARM加入了更多的指令融合內(nèi)容，這不僅有助于提高內(nèi)核性能，還帶來(lái)了電源效率的提高。因?yàn)樵谙嗤墓ぷ髁肯?，融?/p>

Cortex-A78將是ARM歷史上能耗比最出色的高性能移動(dòng)處理器架構(gòu)

Cortex-A78的宏觀特性一覽

Cortex-A78基于Cortex-A77設(shè)計(jì)，但是大幅度優(yōu)化了PPA表現(xiàn)。

Cortex-A78在分支預(yù)測(cè)上做出了加強(qiáng)指令占用更少的資源和電源，但是會(huì)輸出同樣的性能。發(fā)行隊(duì)列（lssueQueues）方面，ARM宣稱(chēng)帶來(lái)了電源效率的改進(jìn)。ARM進(jìn)一步解釋到，對(duì)任何亂序執(zhí)行的架構(gòu)來(lái)說(shuō)，發(fā)行隊(duì)列都是高耗電模塊，因此對(duì)其進(jìn)行深入的改進(jìn)是必要的。但是ARM沒(méi)有給出任何改進(jìn)這部分的細(xì)節(jié)信息。

寄存器部分，包括寄存器重命名模塊和寄存器文件也針對(duì)效率進(jìn)行了優(yōu)化，一部分減少了尺寸。尤其是寄存器部分已經(jīng)重新設(shè)計(jì)了它們能容納的條目密度，并且在相同的空間內(nèi)可以打包更多的數(shù)據(jù)，從而使設(shè)計(jì)人員能夠在不降低其功能或者性能的情況下減少結(jié)構(gòu)的整體尺寸。

接下來(lái)是重排序緩;中區(qū)，雖然依1日維持了1 60個(gè)條目，但是Cortex-A78依1日在電源效率方面有所提升，并且可以打包以提高緩;中區(qū)的數(shù)據(jù)密度，從而增加結(jié)構(gòu)中單位面積可以存儲(chǔ)的指令數(shù)量。

在比較關(guān)鍵的亂序執(zhí)行窗口上，Cortex-A78比Cortex-A77更小。ARM的解釋是，較大的亂序執(zhí)行窗口并不會(huì)有較高的投資回報(bào)，這和Cortex-A78盡可能提高效能的目標(biāo)是;中突的。需要注意的是，亂序執(zhí)行的窗口不僅僅是指ROB容量，ARM在和亂序執(zhí)行的緩沖區(qū)、隊(duì)列、結(jié)構(gòu)等方面都進(jìn)行了改進(jìn)，很可錢(qián)在這些方面進(jìn)行了一些縮減。

指令調(diào)度階段，ARM在Cortex-A78上改變了說(shuō)法，新架構(gòu)采用了每周期6個(gè)Mops的調(diào)度帶寬，之前的Cortex-A77是10個(gè)uops。另外，Cortex-A78在分派端量分派帶寬增加到每周期12 uops，這將帶來(lái)執(zhí)行核心的性能提升。

計(jì)算單元部分的改變就比較少了o其中整數(shù)執(zhí)行部分，Cortex-A78的一個(gè)簡(jiǎn)單ALU單元改進(jìn)為更復(fù)雜的計(jì)算單元，現(xiàn)在這個(gè)新單元可以進(jìn)一步執(zhí)行乘法計(jì)算，這實(shí)際上帶來(lái)了整數(shù)MULi+算能力的翻倍。其余部分則保持了和Cortex-A77-樣的規(guī)格。

進(jìn)入后端部分，一些比較明顯的、用于提高性能的改進(jìn)就比較多了o第一個(gè)重大變化是增加了新的加載AGU，和現(xiàn)有的兩個(gè)AGU-起使得內(nèi)核在相關(guān)計(jì)算上的負(fù)載能力增加了50%，不過(guò)這并不會(huì)改變每個(gè)周期的存儲(chǔ)操作。在LD/ST隊(duì)列到L1數(shù)據(jù)緩存方面，新處理器的接口帶寬相比前代產(chǎn)品翻倍，從16個(gè)字節(jié)增加到了32個(gè)字節(jié)，并且內(nèi)核到L2接口的讀取和寫(xiě)入帶寬也增加了一倍。

ARM在預(yù)取器方面似乎取得了突破。ARM宣稱(chēng)Cortex-A78的新預(yù)取器在存儲(chǔ)區(qū)域的覆蓋率、準(zhǔn)確性和及時(shí)l生方面都得到了全新的改進(jìn)，這里的及時(shí)性是指預(yù)取器能夠快速抓住新出現(xiàn)的模式，并能夠盡快地將數(shù)據(jù)引入較低級(jí)別的緩存中。預(yù)取器的工作流程也得到了改善，并不會(huì)啟動(dòng)得太早或者太晚，或者不必要地預(yù)取那些—段時(shí)間內(nèi)不再使用的數(shù)據(jù)。

最后再來(lái)回顧—下緩存部分。除了容量可選外，L2 TLB部分得到了改善，其容量從1280頁(yè)減少至1024頁(yè)，這實(shí)際上提高了能效比，但是同時(shí)依1日保留了足夠的條目以覆蓋L3的4MB配置，訪(fǎng)問(wèn)延遲也進(jìn)一步降低。

總體而言，在Cortex-A78上我們似乎看到了大量的縮減或者折中的做法，這些都是為了盡可能高的PPA而進(jìn)行的操作?？紤]到同時(shí)發(fā)布的Cortex-X1將專(zhuān)注于高性能，因此這些改進(jìn)無(wú)論是從技術(shù)還是市場(chǎng)的角度出發(fā)，都是有一定道理的。

CORTEX-X1：一切為性能

ARM多年來(lái)的業(yè)務(wù)模型帶來(lái)了可以滿(mǎn)足最廣泛客戶(hù)需求的CPU設(shè)計(jì)方案，這里存在一個(gè)問(wèn)題就是有關(guān)面積、能耗比和性能這樣的三角形，設(shè)計(jì)人員不可能在提升一個(gè)部分的同時(shí)又滿(mǎn)足其余兩個(gè)部分的需求，也就是俗稱(chēng)的“不可能三角”。當(dāng)然蘋(píng)果在這里似乎證明了這個(gè)“不可能三角”存在的可能，但是造成ARM存在劣勢(shì)的一個(gè)重要因素是，ARM在商業(yè)方面從來(lái)都沒(méi)有證明過(guò)自己擁有研發(fā)更大核心的能力。

可以自定義的高性能架構(gòu)

隨著ARM客戶(hù)越來(lái)越多，并增加了一些用于設(shè)計(jì)高性能內(nèi)核的研發(fā)資源后，ARM似乎終于在設(shè)計(jì)能力上達(dá)到了一個(gè)突變點(diǎn)，從Neoverse-N1的發(fā)布一直到Cortex-A76的上市，似乎ARM有意在處理器設(shè)計(jì)上帶來(lái)一些不

Cortex-A78在中核和執(zhí)行部分上的優(yōu)化一覽

Cortex-A78在緩存部分的改進(jìn)同以往的內(nèi)容。

在ARM的介紹中，Cortex-X1的研發(fā)代號(hào)是“Hera”，這和之前的 “Hercules”類(lèi)似，并且和Cortex-A78-樣都來(lái)自ARM位于奧斯汀的設(shè)計(jì)團(tuán)隊(duì)。當(dāng)然和Cortex-A78努力平衡PPA有所不同的是，Cortex-X1直接瞄準(zhǔn)了性能，而很少考慮剩余的兩個(gè)指標(biāo)。

在處理器設(shè)計(jì)上，Cortex-X1也是ARM首次以一個(gè)全新的模式進(jìn)行研發(fā)，這個(gè)模式被稱(chēng)為“Cortex-X自定義模式”，這個(gè)新的模式是ARM幾年前發(fā)布的“Cortex技術(shù)構(gòu)建”的改進(jìn)版本。新的模式或者許可證允許客戶(hù)在新的微架構(gòu)的設(shè)計(jì)階段早期進(jìn)行協(xié)作，并要求對(duì)配置進(jìn)行自定義，比如更大的ROB、不同的預(yù)取器或者更好集成的SoC設(shè)計(jì)等。從商業(yè)角度來(lái)看，這種新的模式實(shí)際上是之前BoACT的進(jìn)一步改進(jìn)版本，允許對(duì)處理器架構(gòu)的“基礎(chǔ)”設(shè)計(jì)部分進(jìn)行更為深入的自定義和更改。ARM多年來(lái)一致宣稱(chēng)它允許客戶(hù)更多的定制和區(qū)分旗下的產(chǎn)品，但直到現(xiàn)在ARM才真正擁有可以完成這項(xiàng)口號(hào)的資源。

需要注意的是，盡管ARM將新的Cortex-X1以及未來(lái)的Cortex-X家族的產(chǎn)品都統(tǒng)統(tǒng)定義為“Cortex-X自定義模式”，但是請(qǐng)不要將這種自定義模式和具有體系結(jié)構(gòu)許可的供應(yīng)商自行定義的微架構(gòu)混淆，ARM的新模式依舊以局限于ARM自己提供相關(guān)IP和核心迭代，只是許可方可以選擇不同的搭配方式。當(dāng)然，ARM可能會(huì)在未來(lái)允許特定供應(yīng)商對(duì)核心架構(gòu)的更改——如果有這樣的需求的話(huà)。

追求更強(qiáng)、更寬、更快

從架構(gòu)改進(jìn)來(lái)看，ARM在Cortex-A78上的改進(jìn)是偏向溫和的，—切都是為了更高的PPA。相比之下，在Cortex-X1上我們看到了一個(gè)和ARM遵循“平衡”的傳統(tǒng)大相徑庭、更為激進(jìn)的方案。在Cortex-X1的設(shè)計(jì)上，ARM支持的是絕對(duì)的生能，即使這樣的設(shè)計(jì)需要以能源效率和空間效率為代價(jià)。

Cortex-X1的架構(gòu)設(shè)計(jì)可以概括為一種超負(fù)荷的Cortex-A78，也就是保持了相同的功能原理，但是顯著增加了內(nèi)核結(jié)構(gòu)以最大化性能。和Cortex-A78相比，Cortex-X1的內(nèi)核更寬，其解碼寬度從Cortex-A78的4寬度擴(kuò)展至5寬度，重命名帶寬也提高到8Mops每周期，并且極大地改變了一些管道和緩存設(shè)計(jì)，使得NENO單元、L2緩存和L3緩存的性能或者容量翻倍。

在前端設(shè)計(jì)方面，Cortex-X1采用的部分設(shè)計(jì)在Cortex-A78上已經(jīng)存在，包括新的分支預(yù)測(cè)單元。但有所不同的是，Cortex-X1擴(kuò)展了處理器前端的很多方面，比如LO BTB部分已經(jīng)從之前處理器的64條目升級(jí)到了96條目，從而允許采用更多零延遲的峰值。分支目標(biāo)緩沖區(qū)依舊日設(shè)計(jì)了LO和L2 BTB兩層結(jié)構(gòu)，在先前公開(kāi)的資料中，ARM將兩部分稱(chēng)為nano BTB和MainBTB。更早一些的micro BTB/L1 BTB的名稱(chēng)只存在于Cortex-A76中，但是已經(jīng)不再使用了.

宏操作緩存是Cortex-X1的重大改進(jìn)，其容量相比之前產(chǎn)品的1.5K條目翻倍達(dá)到了3K條目。相比之下，英特爾在Sunny Cove中也僅僅使用了2.25K條目，當(dāng)然AMD在Zen 2架構(gòu)中使用的4K條目更大一些。在技術(shù)上，ARM的宏操作和英特爾、AMD提出的微操作實(shí)際上是一回事。

Cortex-X1的L1指令緩存提取帶寬已經(jīng)從之前的4條指令增加至5條，提升了25%，相應(yīng)的解碼器帶寬也增加

Cortex-X1專(zhuān)為高性能設(shè)計(jì)，帶來(lái)了30%的性能提升幅度。

Cortex-X1基于Co rtex-A78架構(gòu)進(jìn)一步加強(qiáng)而來(lái)

Cortex-X1的相關(guān)性一覽，主要是可以自私你故意構(gòu)架.了。Mop緩存的提取和重命名帶寬從之前的6條指令增加至8條指令，每周期提升了33%。實(shí)際上只要數(shù)據(jù)到達(dá)了Mop部分之后，這款微架構(gòu)就可以充當(dāng)8寬度設(shè)計(jì)了o

中核部分，ARM再次談到了通過(guò)Mops或者每個(gè)周期的指令來(lái)增加調(diào)度帶寬。相比Cortex-A78，Cortex-X1的調(diào)度帶寬從6增加到了8，也增加了33%。如果以u(píng)ops來(lái)折算的話(huà)，當(dāng)Mops完全分解成較小的uops時(shí)，內(nèi)核每個(gè)周期最多可以處理16個(gè)調(diào)度內(nèi)容，這比Cortex-A77能達(dá)到的lOuops每周期相比，提升高達(dá)60%。

亂序執(zhí)行窗口方面，Cortex-X1配備了224個(gè)條目的亂序執(zhí)行窗口（之前產(chǎn)品僅有1 60個(gè)），從而增加了核心提取ILP的能力。這是ARM-直不愿意大幅升級(jí)的部分，因?yàn)檫@部分的性能并不會(huì)隨著結(jié)構(gòu)尺寸的線(xiàn)性增加而線(xiàn)性擴(kuò)展，反而會(huì)帶來(lái)比較高的功耗和面積耗費(fèi)。當(dāng)然鑒于Cortex-X1面向的市場(chǎng)，這樣的設(shè)計(jì)也是合理的。

在數(shù)據(jù)執(zhí)行方面，和Cortex-A78相比，Cortex-X1的整數(shù)流水線(xiàn)沒(méi)有任何變化，但是浮點(diǎn)流水線(xiàn)加倍，尤其是浮點(diǎn)和NENO流水線(xiàn)，這和之前的架構(gòu)設(shè)計(jì)大相徑庭。實(shí)際上從字面意義上來(lái)說(shuō)，加倍是指將之前的架構(gòu)相對(duì)應(yīng)的管道進(jìn)行復(fù)制粘貼，但依1日能夠帶來(lái)相當(dāng)大的改進(jìn)并增加了大量的執(zhí)行資源。

在浮點(diǎn)資源加強(qiáng)后，Cortex-X1現(xiàn)在已經(jīng)是4x128bit[YJSIMD設(shè)計(jì)了，矢量執(zhí)行的寬度已經(jīng)和臺(tái)式機(jī)處理器，如Sunny Cove或者AMD Zen 2相同了o當(dāng)然這里還存在一些約束，比如ARM現(xiàn)有的ISA不允許單個(gè)矢量大于128bit，這些問(wèn)題將在下一代內(nèi)核中解決。

在內(nèi)存子系統(tǒng)方面，Cortex-X1發(fā)生了比較大的變化。首先來(lái)看L1數(shù)據(jù)緩存和L2部分。這兩部分緩存ARM都采用了全新的設(shè)計(jì)，帶來(lái)了不同的接入帶寬。當(dāng)然，高速緩存的接口并沒(méi)有變寬，真正改變的是緩存本身的設(shè)計(jì)，現(xiàn)在實(shí)現(xiàn)了雙倍的緩存區(qū)塊（Bank），這里解決的問(wèn)題是在對(duì)緩存進(jìn)行多個(gè)并發(fā)訪(fǎng)問(wèn)時(shí)可能遇到的區(qū)塊;中突，這種沖突存在于幾年前的Cortex-A76架構(gòu)中，并在測(cè)試中以奇怪的“之字形”圖樣顯示出來(lái)，現(xiàn)在依1日存在于這個(gè)微架構(gòu)的一些變體中。最后，Cortex-X1上的L1數(shù)據(jù)緩存和指令緩存的容量配置都是64KB。

在L2上，由于采用了全新的設(shè)計(jì)，ARM將L2的最小容量直接翻倍至1MB。相比之下，之前ARM在Neoverse-N1上也采用了1MB的L2緩存，但是這兩者的設(shè)計(jì)是不一樣的。新的Cortex-X1的L2訪(fǎng)問(wèn)延遲只有10個(gè)周期，比Neoverse-N1要小1個(gè)周期（Neoverse-N1為11個(gè)周期），因此性能進(jìn)一步得到了提升。

內(nèi)存子系統(tǒng)的改進(jìn)還涉及支持更多負(fù)載和存儲(chǔ)的能力，相關(guān)窗口寬度增加了33%，核心的MLP能力上還增加了更多。需要注意的是，這種增加不僅涉及存儲(chǔ)和加載緩沖區(qū)，還涉及整個(gè)系統(tǒng)跟蹤和服務(wù)請(qǐng)求的功能實(shí)現(xiàn)。另外，Cortex-X1的L2 TLB部分相比Cortex-A78大小也增加了一倍（相比Cortex-A76只增加了66%，因?yàn)?/p>

Cortex-X1相比Cortex-A78的主要改進(jìn)部分

Cortex-X1的前端為了性能擴(kuò)大了部分端口和資源

Cortex-X1的解碼、重命名和執(zhí)行部分得到了顯著加強(qiáng)

Cortex-X1擁有更大的緩存Cortex-A78縮小了這部分面積），因此能夠多在4KB的TLB上映射8MB的緩存，這和Cortex-X1搭配8MB L3緩存的設(shè)想是一致的。

在整個(gè)處理器集群中，L3緩存容量的大幅提升并不意味著速度的降低，因?yàn)檫@些緩存的延遲可能是相同的，但是取決于最終的實(shí)現(xiàn)方案，或者有額外的幾個(gè)周期的延遲，這可能是指使用單獨(dú)的電源來(lái)控制L3部分。當(dāng)然，到目前為止，都沒(méi)有看到任何廠商在L3上使用DSU的電源控制功能，比如高通的4MB L3是一直保持激活和活躍狀態(tài)的。在8MB L3上，可能有一部分廠商開(kāi)始考慮引入電源管理機(jī)制了，比如當(dāng)只有很少的核心處于激活狀態(tài)時(shí)，L3就部分啟用而其余部分則休眠以節(jié)約能源。

總的來(lái)看，Cortex-X1的微架構(gòu)相比之前的Cortex-A78，其基本構(gòu)造結(jié)構(gòu)是相似的，但是部分單元的規(guī)模要大不少。尤其是在前端和中核部分，Cortex-X1更為龐大。相比Cortex-A78極端重視PPA而言，Cortex-X1在這方面顯然更為寬松，當(dāng)然這將帶來(lái)更多的功耗和更大的核心尺寸。

另外，Cortex-X1的流水線(xiàn)級(jí)數(shù)依1日很短，只有10個(gè)周期的分支錯(cuò)誤預(yù)測(cè)損失和13個(gè)階段的深度設(shè)計(jì)，這一點(diǎn)和Cortex-A78是一樣的。值得一提的是，Cortex-X1更大的結(jié)構(gòu)和更寬的設(shè)計(jì)也沒(méi)有妨礙到頻率的提升。

性功能耗能否兩全其美？

在架構(gòu)方面的信息介紹完之后，按照管理，ARM會(huì)帶來(lái)相關(guān)處理器的性能、功耗預(yù)測(cè)。在Cortex-A78上，ARM選擇了Cortex-A77進(jìn)行對(duì)比，但是Cortex-A78采用的是臺(tái)積電5nm工藝，而后者采用了7nm工藝，因此所有的對(duì)比數(shù)據(jù)中，既包含了微架構(gòu)的改進(jìn)帶來(lái)的性能提升，也包含了工藝制程的優(yōu)化。

在性能方面，將內(nèi)核的ISO功耗目標(biāo)定義在1W的時(shí)候，Cortex-A78可以使得性能提升20%，當(dāng)然，臺(tái)積電7nm工藝上Cortex-A77在1W功耗下只能運(yùn)行在2.6GHz的水平，而Cortex-A78則提高到了3GHz，頻率提升了15%。

在功耗方面，將CPU設(shè)定在相同的SPECint2006性能輸出的情況下，Cortex-A78的功耗僅為Cortex-A77的一半。這是因?yàn)槌斯に囈蛩赝?，Cortex-A78只需要2.1GHz就能完成Cortex-A77在2.3GHz下的性能，因此更為節(jié)約能耗?？偟膩?lái)看，在性能和功耗的可比參數(shù)上，Cortex-A78分別帶來(lái)了20%的增加和50%的降低。

另外，在基本相同的條件下比較的話(huà)，ARM也給出了相關(guān)的數(shù)據(jù)，比如全部基于臺(tái)積電7nm工藝，以及為Cortex-A78的核心配備了32KB的L1緩存，其余的兩款核心都配備了64KB的情況下，不同處理器的PPA也就是性能、功耗和面積三個(gè)數(shù)值中，Cortex-A78相比Cortex-A77和Cortex-A76，帶來(lái)了7%的性能提升、4%的功耗降低和5%的面積減少。

另外，ARM還首次發(fā)布了微架構(gòu)的整體性能和功耗曲線(xiàn)，并比較了Cortex-A78和Cortex-A77。在Cortex-A77的性能最高點(diǎn)上，Cortex-A78的功耗減少了36%。在相同的功耗下，Cortex-A78的性能可以提高7%。

接下來(lái)看Cortex-X1。相比Cortex-A77，Cortex-X1帶來(lái)了相同頻率下3 0%的峰值性能提升，相比Cortex-A78則有22%，這里比較的是最大配置的Cortex-X1、Cortex-A77和Cortex-A78，并且都運(yùn)行在3GHz下，實(shí)際上這樣的Cortex-A77并不存在。另外ARM還展示了Cortex-X1在多個(gè)方面的生能提升，相比Cortex-A77，提升幅度大約在30%-18%不等。另外還有一個(gè)數(shù)據(jù)值得關(guān)注，那就是Cortex-X1的核心面積。目前的一些模糊數(shù)據(jù)顯示，Cortex-X1的核心面積大約是Cortex-A78的1.5倍。

在和現(xiàn)有處理器的對(duì)比上，Anantech做出了一些預(yù)測(cè)。他們使用了3GHz的Cortex-X1和Cortex-A78來(lái)對(duì)比目前的部分處理器產(chǎn)品的單核心性能，并加入了桌面處理器Core i9-10900K和AMD Ryzen 9 3950X。結(jié)果顯示，Cortex-X1有可能比Cortex-A77架構(gòu)的驍龍865快了大約37%，近蘋(píng)果A13處理器的生能。另外在和桌面處理器的對(duì)比中，這些測(cè)試顯示現(xiàn)有的ARM處理器架構(gòu)并沒(méi)有太多地落后于AMD和英特爾，如果ARM未來(lái)還以這樣的生能增幅狂奔的話(huà)，那么AMD和英特爾可能會(huì)緊張了。另外，在能耗比方面，Cortex-X1功耗可能是Cortex-A78的1.5倍或者2倍，但是考慮到它性能的提升幅度，因此依1日可以在能耗比方面和蘋(píng)果的相關(guān)產(chǎn)品競(jìng)爭(zhēng)。相比之下，Cortex-X1的能耗比僅僅比Cortex-A78差了大約23%，比驍龍865差了11 %-14%，因此在Cortex-X1的相關(guān)產(chǎn)品上，ARM在功耗上還有很大的回旋余地。

由于Cortex-X1的面積變大，因此ARM也提到在移動(dòng)SoC中很難看到2個(gè)Cortex-X1核心的處理器，實(shí)際上越來(lái)越多的廠商正在考慮使用擁有三個(gè)處理器簇的產(chǎn)品，比如1個(gè)高性能核心Cortex-X1搭配3個(gè)中等核心Cortex-A78，再搭配4個(gè)Cortex-A55這樣的小核心，實(shí)現(xiàn)“1+3+4”的設(shè)計(jì)，這很可能將是未來(lái)的主流。這樣的設(shè)計(jì)相比采用Cortex-A78和Cortex-A55的'4+4”設(shè)計(jì)，大約帶來(lái)了30%的性能增長(zhǎng)和1 5%的處理器面積增加，也是劃算的。

在客戶(hù)方面，三星已經(jīng)確定將使用Cortex-X1和Cortex-A78，因此目前的問(wèn)題在于三星會(huì)選擇“1+3+4”方案還是“2+2+4”方案，這很大程度上取決于三星制造Exynos處理器的5nm工藝。另外，高通可能會(huì)選擇“1+3+4”的方案，畢竟現(xiàn)在的驍龍865中高通已經(jīng)在這樣做了。另外華為海思可能短時(shí)間內(nèi)不會(huì)使用Cortex-X1，畢竟除了眾所周知的原因外，海思一般不傾向于使用最新的微架構(gòu)。聯(lián)發(fā)科也有可能使用Cortex-X1和Cortex-A78，雖然其長(zhǎng)期以來(lái)都被看作是成本導(dǎo)向的公司，不過(guò)在追求性能方面，聯(lián)發(fā)科可能會(huì)有自己獨(dú)特的想法。

總的來(lái)說(shuō)，ARM本次發(fā)布的內(nèi)容看點(diǎn)不少。Cortex-A78雖然在架構(gòu)上進(jìn)步不大，但是依1日帶來(lái)了絕對(duì)優(yōu)秀的PPA表現(xiàn)，毫無(wú)疑問(wèn)，Cortex-A78將成為未來(lái)數(shù)年時(shí)間市場(chǎng)的寵兒。讓人驚喜的是Cortex-X1，ARM在這款產(chǎn)品上展示了全新的設(shè)計(jì)理念和性能優(yōu)先的思路，顯示出ARM在思考處理器發(fā)展上的突破和變化。畢竟，Cortex-X1帶來(lái)了相比Cortex-A77 30%的IPC提升幅度，甚至在一些測(cè)試中接近x86處理器，讓人充滿(mǎn)遐想，更加值得期待

Gortex-X1的性能表現(xiàn)，比Cortex-A78再度提升22%。

Cortex-X1單線(xiàn)程性能在不同測(cè)試下的情況

Anantech預(yù)測(cè)的Cortex-X1和Cortex-A78的性能和功耗情況

ARM在核心搭配上也提出了一些自己的看法，可能未來(lái)高端處理器“1+3+4”的方案將成為主流。