崔晨 吳迪 陶業(yè)榮 趙艷麗
摘 要:????? 多GPU系統(tǒng)通過橫向擴(kuò)展實(shí)現(xiàn)性能提升, 以滿足人工智能日趨復(fù)雜的算法和持續(xù)激增的數(shù)據(jù)所帶來(lái)的不斷增長(zhǎng)的計(jì)算需求。 對(duì)于多GPU系統(tǒng)而言, 處理器間的互聯(lián)帶寬以及系統(tǒng)的拓?fù)涫菦Q定系統(tǒng)性能的關(guān)鍵因素。 在傳統(tǒng)的基于PCIe的多GPU系統(tǒng)中, PCIe帶寬是限制系統(tǒng)性能的瓶頸。 當(dāng)前, 面向GPU的高速互聯(lián)技術(shù)成為解決多GPU系統(tǒng)帶寬限制問題的有效方法。 本文首先介紹了傳統(tǒng)多GPU系統(tǒng)所采用的PCIe互聯(lián)技術(shù)及其典型拓?fù)洌?然后以Nvidia NVLink、 AMD Infinity Fabric Link、 Intel Xe Link、 壁仞科技BLink為例, 對(duì)國(guó)內(nèi)外代表性GPU廠商的面向GPU的高速互聯(lián)技術(shù)及其拓?fù)溥M(jìn)行了梳理分析, 最后討論了關(guān)于互聯(lián)技術(shù)的研究啟示。
關(guān)鍵詞:???? 多GPU系統(tǒng); 高速互聯(lián)技術(shù); 拓?fù)洌?互聯(lián)帶寬; 數(shù)據(jù)中心
中圖分類號(hào):??? ?TJ760; TP393
文獻(xiàn)標(biāo)識(shí)碼:??? A
文章編號(hào):??? ?1673-5048(2024)01-0023-09
DOI: 10.12132/ISSN.1673-5048.2023.0138
0 引? 言
在人工智能三要素中, 隨著算法日趨復(fù)雜與數(shù)據(jù)不斷激增, 算力逐漸成為人工智能應(yīng)用創(chuàng)新與落地的關(guān)鍵支撐。
算力的基礎(chǔ)是GPU、 FPGA、 ASIC等多種類型的高性能人工智能芯片, 其中GPU在算力峰值、 通用性和兼容性等方面具備較大優(yōu)勢(shì), 成為大多數(shù)深度學(xué)習(xí)模型訓(xùn)練和推理的首選加速器[1-4]。 當(dāng)前, 全球GPU市場(chǎng)主要由NVIDIA、 AMD、 Intel三家公司壟斷, 其先后發(fā)布了自己的高性能GPU產(chǎn)品, 通過單個(gè)GPU性能的縱向擴(kuò)展(scale up)和多GPU系統(tǒng)性能的橫向擴(kuò)展(scale out)來(lái)滿足深度學(xué)習(xí)不斷增長(zhǎng)的計(jì)算需求。 隨著人工智能應(yīng)用的規(guī)模越來(lái)越大, 單個(gè)GPU通常無(wú)法完成訓(xùn)練任務(wù), 多GPU系統(tǒng)逐漸在工作站、 服務(wù)器、 超級(jí)計(jì)算機(jī)等各個(gè)層面得到了廣泛的部署應(yīng)用[5], 為各種人工智能工作負(fù)載提供優(yōu)異的計(jì)算性能和靈活性。
多GPU系統(tǒng)通常以“CPU+GPU”異構(gòu)計(jì)算的方式實(shí)現(xiàn)算力擴(kuò)展, 其中CPU作為控制中心, 對(duì)計(jì)算任務(wù)進(jìn)行統(tǒng)一調(diào)度, 而GPU則作為人工智能加速卡, 專門處理人工智能應(yīng)用中的大規(guī)模矩陣并行計(jì)算任務(wù)。 使用多GPU系統(tǒng)訓(xùn)練人工智能應(yīng)用時(shí), 處理器間(CPU-CPU、 CPU-GPU、 GPU-GPU)的互聯(lián)帶寬以及系統(tǒng)的拓?fù)涫怯绊懴到y(tǒng)性能的關(guān)鍵因素, 決定了處理器間數(shù)據(jù)交換的速度, 進(jìn)而影響了GPU優(yōu)異的浮點(diǎn)運(yùn)算性能的實(shí)際利用率。 對(duì)于CPU-CPU互聯(lián), 以Intel CPU為例, 通常通過快速通道互聯(lián)(Quick Path Interconnect, QPI)或超級(jí)通道互聯(lián)(Ultra Path Interconnect, UPI)進(jìn)行通信。 而對(duì)于CPU-GPU和GPU-GPU互聯(lián), 傳統(tǒng)的多GPU系統(tǒng)通過PCIe將多個(gè)GPU直接與CPU相連, GPU之間則無(wú)法直接進(jìn)行點(diǎn)對(duì)點(diǎn)(Peer-to-Peer, P2P)通信, 并且由于CPU提供的PCIe通道數(shù)量有限, 因此支持的GPU數(shù)量是有限的。 PCIe Switch芯片可用于擴(kuò)展系統(tǒng)中的PCIe通道數(shù)量, 一方面能夠容納更多的GPU, 另一方面同一個(gè)PCIe Switch下的GPU可以實(shí)現(xiàn)P2P通信。 然而, 隨著多GPU系統(tǒng)中GPU相對(duì)于CPU的比例持續(xù)增長(zhǎng), 且PCIe的帶寬遠(yuǎn)小于CPU和GPU到其DRAM的帶寬, 使得PCIe帶寬成為限制多GPU系統(tǒng)性能的瓶頸。 當(dāng)前, 面向GPU的高速互聯(lián)技術(shù)成為解決多GPU系統(tǒng)中帶寬限制問題的主流方法。
1 PCIe及其典型拓?fù)?/p>
1.1 PCIe
PCIe是一種高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn), 其前身是Intel公司于2001年推出的“3GIO”, 經(jīng)PCI-SIG認(rèn)證規(guī)范后正式命名為“PCI-Express”, 簡(jiǎn)稱“PCIe”[6]。 PCIe總線作為第三代I/O總線, 具備傳輸數(shù)據(jù)速度快、 信號(hào)抗干擾能力強(qiáng)、 傳輸距離遠(yuǎn)、 功耗低等優(yōu)點(diǎn), 使其快速取代ISA和PCI總線, 成為當(dāng)下應(yīng)用最為廣泛的外設(shè)互聯(lián)協(xié)議[7]。 經(jīng)過約20年的技術(shù)迭代與優(yōu)化, PCIe總線已形成6個(gè)標(biāo)準(zhǔn)版本的規(guī)范, 如表1所示。 表中的×16表示通道(Lane)數(shù)。 PCIe通過鏈路(Link)實(shí)現(xiàn)兩臺(tái)設(shè)備的點(diǎn)對(duì)點(diǎn)物理連接, 一條鏈路可以包含×1、 ×2、 ×4、 ×8、 ×12、 ×16、 ×32個(gè)信號(hào)對(duì), 每一組收發(fā)信號(hào)對(duì)稱為一條通道。
2022年1月, PCI-SIG正式發(fā)布了PCIe 6.0規(guī)范。 PCIe 6.0的主要技術(shù)要點(diǎn)是不再采用之前版本所采用的不歸零編碼(Non-Return-to-Zero, NRZ)調(diào)制方式, 而是改用四電平脈沖幅度調(diào)制(Pulse Amplitude Modulation 4-Level, PAM4)[8]。 圖1給出了這兩種調(diào)制方式的對(duì)比示意圖。 NRZ是一種兩電平調(diào)制技術(shù)(PAM2), 采用高、 低兩種電平表示邏輯0和1, 每個(gè)時(shí)鐘周期可傳輸1 bit的邏輯信息。 隨著傳輸速率提高, PCIe的信道衰減越來(lái)越大, 使得采用NRZ方法將數(shù)據(jù)速率提升到32.0 GT/s以上時(shí)存在重大挑戰(zhàn)。 PAM4使用四種電平來(lái)表示四種2 bit的邏輯信息, 即00、 01、 10、 11, 且每個(gè)時(shí)鐘周期可以傳輸2? bit的邏輯信息。? 在相同波特率下, PAM4的數(shù)據(jù)速率是NRZ的兩倍。 此外, PCIe 6.0引入了前向糾錯(cuò)(Forward Error Correction, FEC)機(jī)制和循環(huán)冗余校驗(yàn)(Cyclic Redundancy Check, CRC), 以緩和PAM4的高誤碼率[9]。
2022年6月, PCI-SIG在開發(fā)者大會(huì)上宣布PCIe 7.0規(guī)范正在開發(fā)中, 預(yù)計(jì)2025年正式發(fā)布。 PCIe 7.0同樣采用PAM4調(diào)制方式, 單通道最大數(shù)據(jù)速率為128 GT/s, ×16配置下可實(shí)現(xiàn)高達(dá)512 GT/s的雙向帶寬。
1.2 典型的PCIe拓?fù)?/p>
在傳統(tǒng)的多GPU系統(tǒng)中, 采用的是PCIe直通的方式將多個(gè)GPU直接與CPU連接, 如圖2(a)所示。 這種互聯(lián)方式存在兩個(gè)缺點(diǎn)。 一是GPU之間無(wú)法直接進(jìn)行P2P通信, 二是由于CPU提供的PCIe通道數(shù)量有限, 且網(wǎng)卡等其他設(shè)備對(duì)PCIe的需求也在不斷增加, 因此系統(tǒng)能夠支持的GPU數(shù)量是有限的。
PCIe Switch芯片可用于擴(kuò)展系統(tǒng)中的PCIe通道數(shù)量。 其具有一個(gè)上行端口(upstream port)和若干個(gè)下行端口(downstream port), 其中上行端口連接主設(shè)備, 下行端口連接端節(jié)點(diǎn)設(shè)備(endpoint), 或者連接下一級(jí)Switch繼續(xù)擴(kuò)展PCIe鏈路[10-11]。 通過PCIe Switch對(duì)PCIe總線進(jìn)行擴(kuò)展, 一方面可以使系統(tǒng)容納更多的GPU, 另一方面同一個(gè)PCIe Switch下的GPU可以實(shí)現(xiàn)P2P通信。
在基于PCIe Switch擴(kuò)展的多GPU系統(tǒng)中, 主要有三種典型的拓?fù)洌?分別為: Balance拓?fù)洌?Common拓?fù)洌?Cascade拓?fù)洌?2], 如圖2(b)~(d)所示。 在這三種拓?fù)渲校?同一個(gè)PCIe Switch下的GPU可以實(shí)現(xiàn)P2P通信, 不同PCIe Switch下的GPU的通信方式則有所不同。 Balance拓?fù)渲胁煌琍CIe Switch下的GPU通常通過CPU之間的QPI或者UPI進(jìn)行通信(Intel CPU), Common拓?fù)渲袆t是跨PCIe Root Port進(jìn)行通信, Cascade拓?fù)渲?級(jí)PCIe Switch下的GPU可以實(shí)現(xiàn)P2P通信, 不再需要通過PCIe Root Port。
目前PCIe Switch芯片的核心廠商主要是美國(guó)的博通(Broadcom)和微芯科技(Microchip), 表2給出了這兩家公司的代表性PCIe Switch產(chǎn)品。 其中, Microchip的PCIe Switch分為PFX、 PSX和PAX三個(gè)類型, 分別對(duì)應(yīng)于Fanout、 Programmable和Advanced Fabric三種PCIe Switch。 PSX和PAX比PFX擁有更高級(jí)的功能, 比如PSX是客戶可編程的, 并提供相應(yīng)的軟件開發(fā)套件, 而PAX則能夠提供高性能的光纖連接。
2 面向GPU的高速互聯(lián)技術(shù)及其拓?fù)?/p>
隨著多GPU系統(tǒng)中GPU相對(duì)于CPU的比例持續(xù)增長(zhǎng), 且PCIe的帶寬遠(yuǎn)小于CPU和GPU到其DRAM的帶寬, 使得PCIe帶寬成為限制多GPU系統(tǒng)性能的瓶頸。 此外, 高帶寬存儲(chǔ)(High Bandwidth Memory, HBM)在GPU中得到廣泛應(yīng)用, 且HBM1[13], HBM2[14-16], HBM2E[17-18], HBM3[19-20]的每管腳速率越來(lái)越高, 使得GPU與DRAM之間的數(shù)據(jù)交換帶寬得到了大幅提升。 如果仍基于PCIe實(shí)現(xiàn)GPU的P2P通信, 則會(huì)進(jìn)一步加劇PCIe帶寬對(duì)系統(tǒng)性能的影響。 于是, GPU廠商開始尋求面向GPU的高速互聯(lián)方式, 如Nvidia NVLink, AMD Infinity Fabric Link, Intel Xe Link和壁仞科技BLink等。
2.1 Nvidia NVLink
Nvidia在2016年發(fā)布的Pascal架構(gòu)GPU(P100)中, 推出了新的高速接口——NVLink 1.0。 NVLink 1.0采用Nvidia全新的高速信號(hào)互聯(lián)(High-Speed Signaling interconnect, NVHS)技術(shù), 一條鏈路由一對(duì)Sub-Link組成, 每個(gè)Sub-Link對(duì)應(yīng)一個(gè)發(fā)送方向并包含8個(gè)差分信號(hào)對(duì), 每個(gè)差分信號(hào)對(duì)以20 Gb/s的速度傳輸NRZ形式的差分電信號(hào), 因此一條鏈路的雙向帶寬為40 GB/s, P100支持4條鏈路, 從而能夠獲得160 GB/s的總雙向帶寬[5, 21]。 NVLink 1.0既支持GPU-GPU的P2P通信, 也支持CPU-GPU的P2P通信(P100可與IBM的POWER8 CPU通過NVLink 1.0互聯(lián)), 并允許GPU對(duì)遠(yuǎn)端CPU的主機(jī)內(nèi)存和相連GPU的設(shè)備內(nèi)存進(jìn)行直接讀寫。
在NVLink 1.0之后, Nvidia又在2017年的Volta架構(gòu)(V100)中推出了NVLink 2.0[22], 在2020年的Ampere架構(gòu)(A100)中推出了NVLink 3.0[23], 在2022年的Hopper架構(gòu)(H100)中推出了NVLink 4.0[24]。 表3給出了四代NVLink的參數(shù)對(duì)比。 從表中可以看出, 雖然每條鏈路的信號(hào)對(duì)數(shù)在逐漸減少, 但每個(gè)信號(hào)對(duì)的數(shù)據(jù)速率在逐漸增加, 使得每條鏈路的雙向帶寬增長(zhǎng)到50 GB/s以后保持穩(wěn)定。 而隨著GPU包含的鏈路數(shù)量越來(lái)越多, GPU間的雙向帶寬也在持續(xù)增大。 在調(diào)制方式上, 前三代NVLink均采用NRZ, 而NVLink 4.0開始采用PAM4[25]。
圖3給出了基于NVLink的DGX系統(tǒng)的拓?fù)洌?,22-24]。 基于Pascal架構(gòu)和NVLink 1.0, Nvidia推出了世界上第一款專為深度學(xué)習(xí)構(gòu)建的服務(wù)器——DGX-1。 圖3(a)是DGX-1系統(tǒng)的混合立方體網(wǎng)格(Hybrid Cube Mesh)拓?fù)洌?其中左右兩邊的4個(gè)P100構(gòu)成了2個(gè)NVLink全連接的四邊形, 2個(gè)四邊形之間也用NVLink進(jìn)行連接, 每個(gè)四邊形中的GPU則通過PCIe分別與對(duì)應(yīng)的CPU相連。 通過使用單獨(dú)的NVLink將2個(gè)四邊形相連, 一方面能夠緩解PCIe上行鏈路的壓力, 另一方面能夠避免通過系統(tǒng)內(nèi)存和CPU間鏈路進(jìn)行路由傳輸[5]。 隨著GPU架構(gòu)的演進(jìn), Nvidia對(duì)DGX系統(tǒng)不斷進(jìn)行升級(jí)。 圖3依次給出了基于V100的DGX-1系統(tǒng)(圖3(b))、 基于V100的DGX-2系統(tǒng)(圖3(c)), 以及DGX A100系統(tǒng)(圖3(d))和DGX H100系統(tǒng)(圖3(e))的拓?fù)洹?可以看出, DGX系統(tǒng)的拓?fù)渑cGPU所包含的鏈路數(shù)緊密相關(guān)。 由于實(shí)現(xiàn)多GPU系統(tǒng)性能持續(xù)擴(kuò)展的關(guān)鍵是靈活、 高帶寬的GPU間通信, 因此在DGX-2系統(tǒng)中, Nvidia引入了NVSwitch 1.0交換芯片。 NVSwitch 1.0具有18個(gè)NVLink端口, 每個(gè)端口能夠與任意其他端口以50GB/s的雙向帶寬進(jìn)行全速通信。 DGX-2含有2塊基板, 每塊基板上有8塊V100和6個(gè)NVSwitch 1.0, 這是因?yàn)閂100包含6條鏈路, 能夠同時(shí)與6個(gè)NVSwitch 1.0連接。 每個(gè)NVSwitch 1.0中, 有8個(gè)NVLink端口用于基板上的GPU間通信, 另外8個(gè)NVLink端口用于與另一塊基板相連, 還預(yù)留了2個(gè)NVLink端口。 因此, DGX-2的GPU間帶寬為300 GB/s(50 GB/s×6NVLinks), 總的對(duì)分帶寬(bisection bandwidth)為2.4TB/s(50 GB/s×8NVLinks×6NVSwitches)。 目前, NVSwitch已經(jīng)升級(jí)到3.0, 表4給出了各版本NVSwitch的參數(shù)對(duì)比。
從圖3(e)可以看出, DGX H100系統(tǒng)中ConnectX-7網(wǎng)絡(luò)模塊取代了PCIe Switch用于GPU與CPU的連接。 NVLink是用于系統(tǒng)內(nèi)的GPU間高速通信, 而為了實(shí)現(xiàn)深度學(xué)習(xí)和高性能計(jì)算工作負(fù)載的多系統(tǒng)擴(kuò)展, 則需要提升多系統(tǒng)中GPU之間的通信能力。 Nvidia ConnectX-7單端口InfiniBand卡默認(rèn)情況下能夠提供高達(dá)400 Gb/s的InfiniBand速率, 或者配置高達(dá)400 Gb/s的Ethernet速率。 實(shí)際上在基于V100的DGX-1和DGX A100系統(tǒng)中都用到了ConnectX網(wǎng)絡(luò)模塊, 不過此時(shí)其與系統(tǒng)中的PCIe Switch相連, 用于實(shí)現(xiàn)多系統(tǒng)擴(kuò)展, 其中基于V100的DGX-1系統(tǒng)中采用的是4塊ConnectX-4(100 Gb/s), DGX A100中采用的是8塊ConnectX-6(200 Gb/s)。
2023年5月, Nvidia發(fā)布了Grace Hopper超級(jí)芯片, 以及由256塊Grace Hopper超級(jí)芯片通過NVLink 4.0全互聯(lián)的DGX GH200系統(tǒng)。 Grace Hopper超級(jí)芯片是Nvidia專為大規(guī)模人工智能和高性能計(jì)算設(shè)計(jì)的第一款GPU-CPU超級(jí)芯片, 將Hopper架構(gòu)的GPU和Arm架構(gòu)的Grace CPU通過具有高帶寬和內(nèi)存一致性的Nvidia NVLink Chip-2-Chip(C2C)互聯(lián), 并封裝在一起構(gòu)成一個(gè)超級(jí)芯片[26]。 而DGX GH200中定制的NVLink Switch系統(tǒng)將NVLink 4.0和NVSwitch 3.0相結(jié)合, 構(gòu)成包含96個(gè)L1級(jí)NVSwitch和36個(gè)L2級(jí)NVSwitch的兩級(jí)無(wú)阻塞胖樹拓?fù)洌?將256個(gè)Grace Hopper超級(jí)芯片整合成一個(gè)整體協(xié)同運(yùn)行, 擺脫了此前的DGX A100和DGX H100等系統(tǒng)中單級(jí)NVSwitch最多只能連接8個(gè)GPU的限制。 DGX GH200系統(tǒng)旨在處理大規(guī)模推薦系統(tǒng)、 生成式人工智能和圖形分析等TB級(jí)模型, 可為巨型人工智能模型提供144 TB的共享內(nèi)存和1 exaFLOPS的FP8性能[27]。
除了面向深度學(xué)習(xí)的DGX系統(tǒng), Nvidia還構(gòu)建了面向人工智能與高性能計(jì)算的HGX系統(tǒng)、 面向數(shù)據(jù)中心和邊緣的EGX系統(tǒng)、 面向工業(yè)邊緣人工智能的IGX系統(tǒng)等。
2.2 AMD Infinity Fabric Link
隨著2017年發(fā)布基于全新的Zen架構(gòu)的銳龍(Ryzen)桌面CPU和霄云(Epyc)服務(wù)器CPU, AMD引入了新的內(nèi)外部互聯(lián)總線技術(shù)——Infinity Fabric Link 1.0(IF Link 1.0), 用于實(shí)現(xiàn)CPU-CPU互聯(lián), 每條鏈路的雙向帶寬為42 GB/s。 IF Link 1.0集數(shù)據(jù)傳輸與控制于一體, 由傳輸數(shù)據(jù)的Scalable Data Fabric(SDF)和負(fù)責(zé)控制的Scalable Control Fabric(SCF)兩個(gè)獨(dú)立的通信平面組成, 其中SDF提供核心、 內(nèi)存和IO之間的一致性數(shù)據(jù)傳輸, SCF為系統(tǒng)的配置和管理提供通用的命令和控制機(jī)制, SDF和SCF均可以在同一裸片(die)內(nèi)、 同一封裝(package)內(nèi)的裸片間以及雙插槽系統(tǒng)(two-socket system)中的封裝之間進(jìn)行通信[28-29]。 SDF有兩種不同的SerDes(Serializer/Deserializer)類型, 一種是IF on-package(IFOP), 用于封裝內(nèi)裸片間的短途互聯(lián), 另一種是IF inter-socket(IFIS), 用于不同插槽上芯片間的長(zhǎng)途互聯(lián)[30]。
2018年, AMD發(fā)布面向計(jì)算領(lǐng)域的鐳龍(Radeon)Instinct MI50和MI60 GPU加速器(均為Vega20架構(gòu)), 采用IF Link 2.0技術(shù), 支持GPU-GPU互聯(lián), 且每條鏈路的雙向帶寬增加到了92 GB/s, 每個(gè)MI50或MI60包含2條IF Link, 可通過4塊GPU構(gòu)成一個(gè)環(huán)狀拓?fù)洌?實(shí)現(xiàn)184 GB/s的對(duì)分帶寬[31]。 圖4給出了基于IF Link的AMD多GPU系統(tǒng)的拓?fù)洌?2-33], 其中的圖4(a)是環(huán)狀拓?fù)涞氖疽鈭D。 2020年, AMD發(fā)布了專門針對(duì)高性能計(jì)算和人工智能而設(shè)計(jì)的CDNA架構(gòu), 同年發(fā)布了基于CDNA架構(gòu)的數(shù)據(jù)中心GPU——Instinct MI100加速器。 MI100采用IF Link 2.0技術(shù), 以23 GT/s傳輸速率和16-bit單向位寬實(shí)現(xiàn)92 GB/s的雙向帶寬, 每個(gè)MI100包含3條IF Link, 可實(shí)現(xiàn)276 GB/s的GPU-GPU帶寬, 此外還可以通過PCIe 4.0直連的方式提供64 GB/s的CPU-GPU帶寬[34]。 4塊MI100可以構(gòu)成一個(gè)全連接的四邊形拓?fù)洌ㄈ鐖D4(b)所示), 對(duì)分帶寬增加到了368 GB/s。 這種全連接的拓?fù)淠軌蛱岣叱R姷耐ㄐ拍J剑ɡ鏰ll-reduce和scatter/gather)的性能, 而這些通信原語(yǔ)廣泛應(yīng)用于高性能計(jì)算和深度學(xué)習(xí), 例如訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)的權(quán)重更新通信階段[32]。
2021年, AMD發(fā)布了CDNA 2架構(gòu), 并先后發(fā)布了由基于CDNA 2架構(gòu)的圖形計(jì)算裸片(Graphcis Compute Die, GCD)封裝而成的Instinct MI200系列加速器, 包括2021年發(fā)布的MI250和MI250X, 以及2022年的MI210。 CDNA 2架構(gòu)的主要改進(jìn)之一就是基于IF Link 3.0技術(shù)提升了每個(gè)GCD的通信能力, 每顆GCD包含8條IF Link, 每條鏈路的雙向帶寬為100 GB/s。 MI250和MI250X的外形規(guī)格為OAM(OCP Accelerator Module)形態(tài), 均包含2顆GCD, 每顆GCD的其中4條IF Link用于OAM封裝內(nèi)的2顆GCD互聯(lián)(GCD間的最大雙向帶寬為400 GB/s), 其余4條IF Link則用于與其他加速器或者主機(jī)互聯(lián), MI250最多可提供6條外部IF Link, MI250X最多可提供8條外部IF Link。 MI210為PCIe形態(tài), 只包含1顆GCD, 最多可提供3條外部IF Link。 GCD中有1條特殊的鏈路, 其既可以作為一致性主機(jī)接口, 也可以作為下行PCIe4.0接口。 該接口的物理層為16通道的IF Link, 當(dāng)與優(yōu)化的第三代AMD霄云CPU相連時(shí), 該接口邏輯上可作為IF接口, 實(shí)現(xiàn)緩存一致性; 當(dāng)與其他x86服務(wù)器CPU相連時(shí), 這個(gè)接口會(huì)退化為標(biāo)準(zhǔn)的PCIe接口, 實(shí)現(xiàn)與主機(jī)的非一致性通信[33]。
表5給出了三代IF Link的參數(shù)對(duì)比。 IF Link 3.0支持一致性的CPU-GPU互聯(lián), 可實(shí)現(xiàn)CPU的DRAM內(nèi)存與GPU的HBM內(nèi)存的一致性內(nèi)存架構(gòu)。 在圖4(c)所示的基于MI250X加速器的拓?fù)渲校?MI250X中的GCD通過IF Link與優(yōu)化的第三代AMD霄云CPU相連。 圖4(d)所示的基于MI250加速器的拓?fù)湟约皥D4(e)所示的基于MI210加速器的拓?fù)涫歉鼮橹髁鞯臋C(jī)器學(xué)習(xí)拓?fù)洌?GPU通過PCIe 4.0與主機(jī)CPU相連, 此時(shí)CPU-GPU互聯(lián)受限于PCIe帶寬, IF Link主要用于提升GPU-GPU的互聯(lián)帶寬以及GPU內(nèi)部的GCD-GCD互聯(lián)帶寬。 另外圖4(d)與圖4(e)中霄云CPU間的互聯(lián)用較粗的IF Link表示, 這是因?yàn)镃PU間的IF Link數(shù)量是可變的, 取決于系統(tǒng)的實(shí)現(xiàn)方式。
根據(jù)AMD于2022年6月發(fā)布的新的CDNA架構(gòu)路線圖, 其預(yù)計(jì)將于2023年推出CDNA3架構(gòu)以及MI300數(shù)據(jù)中心APU。 MI300將基于CDNA3架構(gòu)的GPU與基于Zen 4架構(gòu)的霄云CPU通過3D堆疊集成到一個(gè)封裝內(nèi), 采用IF Link 4.0技術(shù)實(shí)現(xiàn)基于HBM內(nèi)存的統(tǒng)一內(nèi)存架構(gòu), 以進(jìn)一步降低延遲、 提高能效。
2.3 Intel Xe Link
Intel在其2020年架構(gòu)日發(fā)布了名為Xe的GPU架構(gòu)家族, 主要包括針對(duì)集成顯卡和低功耗的XeLP微架構(gòu)、 針對(duì)高性能游戲的XeHPG微架構(gòu)、 針對(duì)數(shù)據(jù)中心和人工智能的XeHP微架構(gòu)以及針對(duì)高性能計(jì)算的XeHPC微架構(gòu)。 2021年, Intel進(jìn)一步公布了XeHPC微架構(gòu)的IP模塊信息。 XeHPC微架構(gòu)由2個(gè)堆棧(stack)組成, 每個(gè)堆棧包含4個(gè)切片(Xe slice), 64個(gè)核心(Xe core), 以及8條高速一致性Xe Link。 XeHPC微架構(gòu)共包含16條Xe Link, 能夠?qū)崿F(xiàn)GPU-GPU的高速一致性數(shù)據(jù)傳輸。
2023年1月, Intel推出了針對(duì)高性能計(jì)算和人工智能設(shè)計(jì)的數(shù)據(jù)中心GPU Max 1550(代號(hào)為Ponte Vecchio), 采用OAM外形規(guī)格, 具有16個(gè)端口, Xe Link帶寬為53 GB/s。 Max 1550可通過Xe Link構(gòu)成2卡、 4卡、 6卡、 8卡的全互聯(lián)拓?fù)洌?圖5給出了8卡全互聯(lián)拓?fù)涞氖疽鈭D。 Intel 起初規(guī)劃推出的Max系列GPU除了600W OAM形態(tài)的Max 1550, 還有450W OAM形態(tài)的Max 1350(16個(gè)端口), 以及300W? PCIe形態(tài)的Max? 1100(6個(gè)端口)。 2023年4月, Intel對(duì)Max系列GPU布局進(jìn)行了調(diào)整, 移除了Max 1350, 并將在后續(xù)推出Max 1450, 通過降低I/O帶寬以滿足不同的市場(chǎng)需求。
與Nvidia的GH200超級(jí)芯片以及AMD的MI300數(shù)據(jù)中心APU類似, Intel原計(jì)劃推出將其x86 CPU和Xe GPU集成封裝到一起的高性能計(jì)算XPU(代號(hào)為Falcon Shores), 但根據(jù)Intel最新消息, 新的Falcon Shores設(shè)計(jì)將轉(zhuǎn)向純GPU核心, 并計(jì)劃于2025年發(fā)布。
2.4 壁仞科技BLink
壁仞科技是一家成立于2019年的國(guó)產(chǎn)GPU公司。 2022年8月, 壁仞科技發(fā)布了基于“壁立仞”架構(gòu)的通用GPU算力產(chǎn)品BR100芯片和BR104芯片, 均采用芯粒(Chiplet)設(shè)計(jì)理念, 前者包含2個(gè)計(jì)算芯粒, 后者包含1個(gè)計(jì)算芯粒, 同時(shí), 壁仞科技還發(fā)布了基于BR100的壁礪100P OAM模組, 以及基于BR104的壁礪104P PCIe板卡[35]。
為了實(shí)現(xiàn)系統(tǒng)性能擴(kuò)展, 壁仞科技自研了BLink接口, 每條鏈路的雙向數(shù)據(jù)速率為64 Gb/s, BR100芯片包含8個(gè)×8端口, 每組×8BLink的雙向帶寬為64 GB/s。 壁礪100P OAM模組支持7個(gè)×8端口, 總計(jì)可提供448 GB/s的雙向帶寬, 最高可實(shí)現(xiàn)8卡全互聯(lián)(如圖6(a)所示)。 壁礪104P PCIe板卡支持3個(gè)端口, 總計(jì)提供192 GB/s的雙向帶寬, 最高可實(shí)現(xiàn)4卡全互聯(lián)(如圖6(b)所示)。
3 研究啟示
3.1 計(jì)算與內(nèi)存性能快速提升, 互聯(lián)帶寬面臨更高要求
表6給出了Nvidia和AMD兩家公司數(shù)據(jù)中心GPU的計(jì)算和內(nèi)存性能。 其中FP32是深度學(xué)習(xí)訓(xùn)練中最為常用的格式, 表中給出的FP32性能指的是向量計(jì)算性能; INT8是推理階段的一個(gè)流行格式, 表中給出的INT8性能指的是帶有張量核心(Nvidia)或矩陣核心(AMD)的性能。 憑借日益先進(jìn)的芯片工藝, 以及張量核心/矩陣核心、 HBM內(nèi)存等技術(shù)的助力, GPU的計(jì)算性能與內(nèi)存性能得到了快速提升。
當(dāng)使用多GPU系統(tǒng)進(jìn)行神經(jīng)網(wǎng)絡(luò)的并行化訓(xùn)練時(shí), 無(wú)論是采用數(shù)據(jù)并行還是模型并行, 都需要在GPU之間進(jìn)行通信, 其中數(shù)據(jù)并行通過傳遞梯度完成對(duì)參數(shù)的更新, 通信開銷較小, 而模型并行需要傳遞特征圖, 其通信開銷會(huì)遠(yuǎn)大于數(shù)據(jù)并行。 目前, 面向GPU的高速互聯(lián)技術(shù)相比于傳統(tǒng)的PCIe在互聯(lián)帶寬方面已經(jīng)取得了非常大的性能提升, 如采用NVLink 4.0的Nvidia Hopper架構(gòu)GPU的互聯(lián)帶寬已達(dá)到900 GB/s, 而PCIe 5.0(×16)的帶寬則為126 GB/s。 然而, 與GPU優(yōu)異的計(jì)算性能和上千GB/s的內(nèi)存帶寬相比, 互聯(lián)技術(shù)仍然需要進(jìn)一步升級(jí), 只有這樣才能支撐數(shù)據(jù)在GPU間的快速流轉(zhuǎn), 從而提升GPU的算力利用率, 充分釋放多GPU系統(tǒng)的算力性能。
3.2 高速互聯(lián)技術(shù)之間存在兼容性問題
當(dāng)前, 數(shù)據(jù)中心對(duì)計(jì)算加速硬件的需求不斷上升, GPU以及多GPU系統(tǒng)擁有廣闊的市場(chǎng)空間, 國(guó)內(nèi)外眾多廠商紛紛推出了自己的GPU產(chǎn)品和面向GPU的高速互聯(lián)技術(shù)。 然而, 各個(gè)廠商的面向GPU的高速互聯(lián)技術(shù)主要基于私有協(xié)議實(shí)現(xiàn), 各技術(shù)之間存在兼容性問題, 不同廠商的GPU互聯(lián)時(shí)無(wú)法有效利用面向GPU的高速互聯(lián)通道, 往往需要通過傳統(tǒng)的PCIe實(shí)現(xiàn)通信, 這就導(dǎo)致在支持高速互聯(lián)的多GPU系統(tǒng)中通常只能包含來(lái)自同一個(gè)廠商的多個(gè)GPU, 限制了多GPU系統(tǒng)配置的靈活性。 因此, 需要考慮面向GPU的通用高速互聯(lián)技術(shù), 一方面支持不同廠商的GPU之間進(jìn)行高速互聯(lián), 使得用戶可根據(jù)需求在多GPU系統(tǒng)內(nèi)部配置不同廠商的GPU, 提升配置的靈活性; 另一方面也能打破技術(shù)壁壘, 有助于降低數(shù)據(jù)中心GPU的使用成本。
3.3 Balance拓?fù)涫敲嫦騁PU的高速互聯(lián)技術(shù)的主流拓?fù)?/p>
由圖2可知, 在Balance拓?fù)渲蠫PU被平均分配到各個(gè)CPU, 整個(gè)系統(tǒng)結(jié)構(gòu)對(duì)稱、 負(fù)載均衡。 同一個(gè)PCIe Switch下的GPU可以進(jìn)行P2P通信, 不同PCIe Switch下的GPU則需要通過CPU之間的QPI/UPI等進(jìn)行通信。 由于各CPU掛載的GPU數(shù)量均衡, 總的PCIe上行帶寬較高, CPU-GPU通信性能較好。 通過對(duì)基于Nvidia NVLink、 AMD IF Link、 Intel Xe Link、 壁仞科技BLink的多GPU系統(tǒng)拓?fù)溥M(jìn)行梳理分析, 可以發(fā)現(xiàn)結(jié)構(gòu)對(duì)稱、 負(fù)載均衡的Balance拓?fù)涫悄壳盎诿嫦騁PU的高速互聯(lián)技術(shù)的數(shù)據(jù)中心多GPU系統(tǒng)的主流拓?fù)洹?/p>
結(jié)合Balance拓?fù)涮攸c(diǎn), 初步分析有以下幾個(gè)原因。 一是虛擬化在數(shù)據(jù)中心發(fā)展中扮演著重要地位, 而Balance拓?fù)溥m合GPU直通虛擬化, 能夠保證虛擬化時(shí)GPU資源的性能均衡。 二是Balance拓?fù)渚哂袕V泛的適用性, 既適用于訓(xùn)練或推理等人工智能場(chǎng)景, 也適用于高性能計(jì)算場(chǎng)景。 三是Balance拓?fù)淇偟纳闲袔捿^高, 其良好的CPU-GPU通信性能有利于充分發(fā)揮CPU的邏輯控制和GPU的并行計(jì)算性能。 四是隨著GPU支持的高速互聯(lián)鏈路數(shù)量的增加, 多GPU系統(tǒng)內(nèi)的走線也越來(lái)越復(fù)雜, 而結(jié)構(gòu)對(duì)稱、 負(fù)載均衡的拓?fù)溆欣诤?jiǎn)化布局、 節(jié)省空間。
3.4 異構(gòu)超級(jí)芯片成趨勢(shì), CPU-GPU互聯(lián)是關(guān)鍵
無(wú)論是Nvidia已經(jīng)發(fā)布的Grace Hopper超級(jí)芯片, 還是AMD將要發(fā)布的MI300數(shù)據(jù)中心APU, 以及Intel原計(jì)劃推出的“Falcon Shores” XPU, 都預(yù)示著“CPU+GPU”的異構(gòu)超級(jí)芯片將成為下一代數(shù)據(jù)中心高性能芯片的主流架構(gòu)趨勢(shì)。 隨著Intel將其“Falcon Shores”設(shè)計(jì)轉(zhuǎn)向純GPU核心, 意味著未來(lái)幾年內(nèi)Intel將在與Nvidia和AMD的超級(jí)芯片競(jìng)爭(zhēng)中處于劣勢(shì)。
對(duì)于“CPU+GPU”的異構(gòu)超級(jí)芯片而言, CPU-GPU互聯(lián)是超級(jí)芯片的關(guān)鍵技術(shù)。 以Grace Hopper超級(jí)芯片為例,? 其通過NVLink C2C將Grace CPU和Hopper GPU互聯(lián)。 NVLink C2C是基于NVLink技術(shù)的處理器間互聯(lián)技術(shù), 具有以下四點(diǎn)優(yōu)勢(shì)。 一是支持一致內(nèi)存模型, 一方面CPU和GPU線程可以同時(shí)且顯式地訪問CPU和GPU的內(nèi)存, 另一方面可以采用LPDDR5X拓展GPU可訪問的內(nèi)存容量。 二是高帶寬, NVLink C2C可提供每方向450 GB/s、 共計(jì)900 GB/s的雙向帶寬, 是PCIe 5.0(×16)的7倍多。 三是低延遲, 支持處理器和加速器之間的load/store等原子操作, 能夠?qū)蚕頂?shù)據(jù)進(jìn)行快速同步和高頻更新。 四是相比于PCIe 5.0, NVLink C2C有明顯的能效與面積優(yōu)勢(shì)。
根據(jù)AMD目前對(duì)MI300 APU的架構(gòu)設(shè)計(jì), 其將從CDNA 2的一致內(nèi)存架構(gòu), 升級(jí)為CDNA 3的統(tǒng)一內(nèi)存架構(gòu)。 需要注意的是, 這里的一致內(nèi)存架構(gòu)中CPU的DRAM內(nèi)存和GPU的HBM內(nèi)存位于不同的封裝內(nèi), 雖然能夠基于IF Link 3.0實(shí)現(xiàn)內(nèi)存一致性, 但是不具備統(tǒng)一的內(nèi)存地址空間; 而在統(tǒng)一內(nèi)存架構(gòu)中, CPU和GPU位于同一封裝內(nèi), 且采用統(tǒng)一的HBM內(nèi)存, 不再需要冗余的數(shù)據(jù)拷貝。 MI300 APU采用IF Link 4.0技術(shù), 可實(shí)現(xiàn)高帶寬、 低延遲、 高能效的CPU-GPU互聯(lián)。
4 結(jié) 束 語(yǔ)
本文對(duì)傳統(tǒng)的PCIe互聯(lián)技術(shù)及其典型拓?fù)洌?以及Nvidia NVLink、 AMD Infinity Fabric Link、 Intel Xe Link、 壁仞科技BLink等面向GPU的高速互聯(lián)技術(shù)及其拓?fù)溥M(jìn)行了梳理分析, 并討論了關(guān)于互聯(lián)技術(shù)的研究啟示。 相比于PCIe, 這些面向GPU的高速互聯(lián)技術(shù)具有兩個(gè)特征: 一是帶寬遠(yuǎn)高于PCIe, 能夠顯著加快GPU間的數(shù)據(jù)交換速度, 提升多GPU系統(tǒng)的并行訓(xùn)練性能; 二是除了GPU-GPU互聯(lián)以外, 還可以支持CPU-CPU或CPU-GPU等類型的處理器互聯(lián)方式, 增加了多GPU系統(tǒng)拓?fù)涞撵`活性, 并進(jìn)一步提升了多GPU系統(tǒng)的整體性能。
本文所討論的互聯(lián)技術(shù)針對(duì)的是處理器間的互聯(lián), 包括CPU-CPU、 CPU-GPU和GPU-GPU。 對(duì)于多GPU系統(tǒng)而言, 除了處理器間的互聯(lián), 處理器與內(nèi)存、 網(wǎng)卡、 I/O設(shè)備等的互聯(lián)也是決定多GPU系統(tǒng)性能的重要因素。 而對(duì)于由多個(gè)多GPU系統(tǒng)構(gòu)成的多節(jié)點(diǎn)超級(jí)計(jì)算機(jī)系統(tǒng)來(lái)說(shuō), 還需要考慮節(jié)點(diǎn)間的互聯(lián)技術(shù), 如InfiniBand、 以太網(wǎng)等。 此外, 帶寬是各種互聯(lián)技術(shù)的主要指標(biāo), 但同時(shí)也需要對(duì)延遲與能效進(jìn)行綜合考量, 只有這樣才能在提升互聯(lián)速度的同時(shí)降低使用成本。? 未來(lái)可結(jié)合異構(gòu)超級(jí)芯片, 進(jìn)一步研究互聯(lián)帶寬、 算力資源等的有效利用問題, 充分釋放多GPU系統(tǒng)的高性能計(jì)算能力。
參考文獻(xiàn):
[1] Raina R, Madhavan A, Ng A Y. Large-Scale Deep Unsupervised Learning Using Graphics Processors[C]∥26th Annual International Conference on Machine Learning, 2009: 873-880.
[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[3] Sermanet P, Eigen D, Zhang X, et al. OverFeat: Integrated Recog-nition, Localization and Detection Using Convolutional Networks[EB/OL]. (2013-12-21)[2023-07-13].https:∥arxiv.org/abs/1312.6229.pdf
[4] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL].(2014-09-04)[2023-07-13].https:∥arxiv.org/abs/1409.1556.pdf
[5] Nvidia Tesla P100 Whitepaper[EB/OL]. (2016-04-28)[2023-04-17]. http:∥images.nvidia.cn/content/pdf/tesla/whitepaper/pascal-architecture-whitepaper.pdf.
[6] 王法臻, 崔少輝, 王成. PCIe設(shè)備驅(qū)動(dòng)程序開發(fā)的關(guān)鍵技術(shù)[J]. 現(xiàn)代電子技術(shù), 2021, 44(16): 65-69.
Wang Fazhen, Cui Shaohui, Wang Cheng. Key Technologies of PCIe Device Driver Development[J]. Modern Electronics Technique, 2021, 44(16): 65-69.(in Chinese)
[7] 金黃斌. 支持PCIe的千兆以太網(wǎng)芯片設(shè)計(jì)與驗(yàn)證[D]. 成都: 電子科技大學(xué), 2022.
Jin Huangbin. Design and Verification of Gigabit Ethernet Chip Supporting PCIe[D].Chengdu: University of Electronic Science and Technology of China, 2022. (in Chinese)
[8] 李實(shí). 從1.0到6.0的飛躍之路: PCIe總線技術(shù)發(fā)展解析[J]. 微型計(jì)算機(jī), 2019(24): 94-99.
Li Shi. The Leap Path from 1.0 to 6.0: Analysis of PCIe Bus Technology Development[J]. MicroComputer, 2019(24): 94-99. (in Chinese)
[9] Das Sharma D. PCI Express 6.0 Specification: A Low-Latency, High-Bandwidth, High-Reliability, and Cost-Effective Interconnect with 64.0 GT/s PAM-4 Signaling[J]. IEEE Micro, 2021, 41(1): 23-29.
[10] 鄭橋, 韓力, 邢同鶴, 等. 基于PCIe Switch的存儲(chǔ)陣列[J]. 電子設(shè)計(jì)工程, 2019, 27(14): 126-129.
Zheng Qiao, Han Li, Xing Tonghe, et al. Storage Array Based on PCIe Switch[J]. Electronic Design Engineering, 2019, 27(14): 126-129.(in Chinese)
[11] 劉鑫, 林凡淼, 劉凱. 基于FPGA的可動(dòng)態(tài)配置國(guó)產(chǎn)PCIe Switch應(yīng)用設(shè)計(jì)[J]. 電子設(shè)計(jì)工程, 2021, 29(17): 80-84.
Liu Xin, Lin Fanmiao, Liu Kai. Application Design of Dynamically Configurable Domestic PCIe Switch Based on FPGA[J]. Electronic Design Engineering, 2021, 29(17): 80-84.(in Chinese)
[12] 林楷智, 宗艷艷, 孫瓏玲. AI服務(wù)器PCIe拓?fù)鋺?yīng)用研究[J]. 計(jì)算機(jī)工程與科學(xué), 2022, 44(3): 390-395.
Lin Kaizhi, Zong Yanyan, Sun Longling. Research on PCIe Topology Application of AI Server[J]. Computer Engineering & Science, 2022, 44(3): 390-395.(in Chinese)
[13] Lee D U, Kim K W, Kim K W, et al. 25.2 A 1.2V 8Gb 8-Channel 128GB/s High-Bandwidth Memory (HBM) Stacked DRAM with Effective Microbump I/O Test Methods Using 29nm Process and TSV[C]∥IEEE International Solid-State Circuits Conference Digest of Technical Papers (ISSCC), 2014: 432-433.
[14] Lee J C, Kim J, Kim K W, et al. 18.3 A 1.2V 64Gb 8-Channel 256GB/s HBM DRAM with Peripheral-Base-Die Architecture and Small-Swing Technique on Heavy Load Interface[C]∥IEEE International Solid-State Circuits Conference (ISSCC), 2016: 318-319.
[15] Sohn K, Yun W J, Oh R, et al. A 1.2 V 20 nm 307 GB/s HBM DRAM with At-Speed Wafer-Level IO Test Scheme and Adaptive Refresh Considering Temperature Distribution[J]. IEEE Journal of Solid-State Circuits, 2017, 52(1): 250-260.
[16] Cho J H, Kim J, Lee W Y, et al. A 1.2V 64Gb 341GB/s HBM2? Stacked DRAM with Spiral Point-to-Point TSV Structure and Improved Bank Group Data Control[C]∥IEEE International Solid-State Circuits Conference(ISSCC), 2018: 208-210.
[17] Lee D U, Cho H S, Kim J, et al. 22.3 A 128Gb 8-High 512GB/s HBM2E DRAM with a Pseudo Quarter Bank Structure, Power Dispersion and an Instruction-Based at-Speed PMBIST[C]∥IEEE International Solid-State Circuits Conference(ISSCC), 2020: 334-336.
[18] Oh C S, Chun K C, Byun Y Y, et al. 22.1 A 1.1V 16GB 640GB/s HBM2E DRAM with a Data-Bus Window-Extension Technique and a Synergetic on-Die ECC Scheme[C]∥IEEE International Solid-State Circuits Conference(ISSCC), 2020: 330-332.
[19] Park M J, Lee J, Cho K, et al. A 192-Gb 12-High 896-GB/s HBM3 DRAM with a TSV Auto-Calibration Scheme and Machine-Learning-Based Layout Optimization[J]. IEEE Journal of Solid-State Circuits, 2023, 58(1): 256-269.
[20] Ryu Y, Kwon Y C, Lee J H, et al. A 16 GB 1024 GB/s HBM3 DRAM with on-Die Error Control Scheme for Enhanced RAS Features[C]∥IEEE Symposium on VLSI Technology and Circuits (VLSI Technology and Circuits), 2022: 130-131.
[21] Foley D, Danskin J. Ultra-Performance Pascal GPU and NVLink Interconnect[J]. IEEE Micro, 2017, 37(2): 7-17.
[22] Nvidia Tesla V100 GPU Architecture[EB/OL]. (2017-08-05)[2023-05-31]. https:∥images.nvidia.cn/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf.
[23] Nvidia A100 Tensor Core GPU Architecture[EB/OL]. (2020-07-09)[2023-05-31]. https:∥images.nvidia.cn/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whi-tepaper.pdf.
[24] Nvidia H100 Tensor Core GPU Architecture[EB/OL]. (2022-08-04)[2023-05-31]. https:∥resources.nvidia.com/en-us-tensor-core.
[25] Ishii A, Wells R. The NVlink-Network Switch: Nvidias Switch Chip for High Communication-Bandwidth Superpods[C]∥IEEE Hot Chips 34 Symposium (HCS), 2022: 1-23.
[26] Nvidia Grace Hopper Superchip Architecture[EB/OL]. (2023-05-04)[2023-05-31]. https:∥resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper.
[27] Nvidia DGX GH200 Datasheet[EB/OL]. (2023-05-06)[2023-06-01]. https:∥resources.nvidia.com/en-us-dgx-gh200/nvidia-dgx-gh200-datasheet-web-us.
[28] Lepak K, Talbot G, White S, et al. The Next Generation AMD Enterprise Server Product Architecture[J]. IEEE Hot Chips, 2017, 29.
[29] Burd T, Beck N, White S, et al. “Zeppelin”: An SoC for Multichip Architectures[J]. IEEE Journal of Solid-State Circuits, 2019, 54(1): 133-143.
[30] Beck N, White S, Paraschou M, et al. ‘Zeppelin: An SoC for Multichip Architectures[C]∥IEEE International Solid-State Circuits Conference(ISSCC), 2018: 40-42.
[31] AMD Radeon Instinct MI50 Datasheet[EB/OL]. (2018-06-24)[2023-06-06]. https:∥www.amd.com/system/files/documents/instinct-mi100-brochure.pdf.
[32] AMD CDNA Architecture[EB/OL]. (2020-11-30)[2023-06-07]. https:∥www.amd.com/system/files/documents/amd-cdna-whitepaper.pdf.
[33] AMD CDNA 2 Architecture[EB/OL]. (2021-11-30)[2023-06-07]. https:∥www.amd.com/system/files/documents/amd-cdna2-white-paper.pdf.
[34] AMD Instinct MI100 Accelerator Brochure[EB/OL]. (2020-05-23)[2023-06-01]. https:∥www.amd.com/system/files/documents/instinct-mi100-brochure.pdf.
[35] Hong M K, Xu L J. 壁仞TM BR100 GPGPU: Accelerating Datacenter Scale AI Computing[C]∥IEEE Hot Chips 34 Symposium (HCS), 2022: 1-22.
Research on the Development Status of High Speed Interconnection
Technologies and Topologies of Multi-GPU Systems
Abstract: Multi GPU systems achieve performance improvement through scaling out to meet the ever-increasing computation demand brought about by increasingly complex algorithms and the continuously increasing data in artificial intelligence. The interconnection bandwidth between processors, as well as topologies of systems are the key factors that determine the performance of multi-GPU systems. In traditional PCIe-based multi-GPU systems, the PCIe bandwidth is the bottleneck that limits system performance. GPU-oriented high speed interconnection technologies become an effective method to solve the bandwidth limitation problem of multi-GPU systems at present. This article first introduces the PCIe interconnection technology and the typical topologies used in traditional multi-GPU systems. Then taking Nvidia NVLink, AMD Infinity Fabric Link, Intel Xe Link, and Biren Technology BLink as examples, GPU-oriented high speed interconnection technologies and topologies of representative GPU vendors at home and abroad are reviewed and analyzed. Finally, the research implication of interconnection technologies is discussed.
Key words: multi-GPU system; high speed interconnection technology; topology; interconnection bandwidth;data center