亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HPC的RoCE網(wǎng)絡(luò)和InfiniBand網(wǎng)絡(luò)性能對比

        2024-06-13 00:00:00徐德發(fā)
        無線互聯(lián)科技 2024年9期

        摘要:高性能計算(High Performance Computing,HPC )系統(tǒng)的通信接口一直在不斷發(fā)展,然而對新一代的無限帶寬(InfiniBand,IB)互聯(lián)與RoCE互聯(lián)在性能上的對比缺乏研究。文章從消息傳遞接口(Message Passing Interface,MPI)基準(zhǔn)程序、HPC基準(zhǔn)程序以及HPC應(yīng)用程序等多個方面,提出了一套實驗方法對IB互聯(lián)和RoCE互聯(lián)進(jìn)行性能評估。結(jié)果表明,在擁塞條件下RoCE 相較于IB有更好的網(wǎng)絡(luò)性能;在MPI場景下,RoCE網(wǎng)絡(luò)的通信性能略高于 IB 網(wǎng)絡(luò);在HPC基準(zhǔn)程序測試中,RoCE方案相較于IB方案浮點性能略高但綜合性能相當(dāng);在不同的終端應(yīng)用場景下,RoCE方案和IB方案的性能則各有高低。

        關(guān)鍵詞:RoCE;InfiniBand;HPC;性能

        中圖分類號:TN711.1

        文獻(xiàn)標(biāo)志碼:A

        0 引言

        基于商品化組件的集群系統(tǒng)在HPC中仍然非常流行。HPC應(yīng)用程序具有不同的計算和通信特性。一些應(yīng)用程序?qū)r延很敏感,而另一些則需要帶寬。因此,這些系統(tǒng)的通信接口需要以高性能和可擴展的方式設(shè)計。

        在過去的十幾年中,IB等高性能互聯(lián)設(shè)備在部署現(xiàn)代超級計算系統(tǒng)方面越來越受歡迎。這些通信接口一直在不斷發(fā)展,以滿足對人民日益增長的通信需求。在過去幾年中,人們越來越關(guān)注一種基于以太網(wǎng)的遠(yuǎn)程直接內(nèi)存訪問協(xié)議(RDMA over Converged Ethernet,RoCE )的新標(biāo)準(zhǔn)。雖然有不少學(xué)者對以IB為代表的高速互聯(lián)從多方面進(jìn)行過性能評估[1-3,然而對新一代的IB互聯(lián)與RoCE互聯(lián)在性能上的對比缺乏研究。

        本文在高性能計算領(lǐng)域精心設(shè)計了一套全面的實驗,評估了基于HPC的新型IB 互聯(lián)與RoCE互聯(lián),并通過在不同級別進(jìn)行的評估反映了這些現(xiàn)代互聯(lián)對高性能計算應(yīng)用程序性能的影響。除了基本的網(wǎng)絡(luò)級性能表征外,本文還使用MPI級基準(zhǔn)程序、HPC級基準(zhǔn)程序來比較2種互聯(lián)對HPC應(yīng)用程序性能的影響。

        1 IB 和 RoCE 概述

        1.1 IB

        2000 年,國際組織(InfiniBand Trade Association,IBTA)發(fā)布了最早的 RDMA [4技術(shù)——IB。IB是為 RDMA 量身定制的網(wǎng)絡(luò)技術(shù),從硬件的角度進(jìn)行全新的設(shè)計來保障數(shù)據(jù)傳輸?shù)目煽啃裕峁┝嘶谔摂M通道的點對點的消息隊列傳輸,每個應(yīng)用都可通過其所創(chuàng)建的虛擬通道直接獲取本應(yīng)用的數(shù)據(jù)消息。IB 技術(shù)采用 了 RDMA 技術(shù),可以進(jìn)行遠(yuǎn)程節(jié)點直接讀寫訪問。RDMA 在早期采用 IB 作為傳輸層,所以必須使用 IB 交換機和 IB 網(wǎng)卡才可實現(xiàn)。

        1.2 RoCE

        2010 年 4 月,IBTA 發(fā)布了 RoCEv1。此標(biāo)準(zhǔn)是作為 Infiniband Architecture Specification的附加件發(fā)布的,所以又被稱為 IBoE(InfiniBand over Ethernet)。RoCE 標(biāo)準(zhǔn)是在以太鏈路層之上用 IB 網(wǎng)絡(luò)層代替了TCP/IP網(wǎng)絡(luò)層,不支持 IP路由功能。以太類型為 0x8915。在 RoCE 中,IB 的鏈路層協(xié)議頭被去掉,用來表示地址的 GUID 被轉(zhuǎn)換成以太網(wǎng)的 MAC。IB依賴于無損的物理傳輸,RoCE 也同樣依賴于無損的以太傳輸。

        1.3 RoCEv2

        由于 RoCEv1 的數(shù)據(jù)幀不帶 IP 頭部,只能在 2 層網(wǎng)絡(luò)內(nèi)通信。為了解決此問題,2014 年IBTA 提出了 RoCEv2,RoCEv2 擴展了 RoCEv1,將 GRH(Global Routing Header)換成 UDP header +IP header,采用 UDP Port 4791 進(jìn)行傳輸。由于 RoCEv2 報文在 3 層可進(jìn)行路由,所以有時又會稱為“Routable RoCE”或簡稱“RRoCE”。

        RoCE 技術(shù)可通過普通以太網(wǎng)交換機實現(xiàn),但服務(wù)器需要支持 RoCE 網(wǎng)卡。由于 RoCEv2 是UDP 協(xié)議,雖然 UDP 協(xié)議效率比較高,但不像 TCP 協(xié)議那樣有重傳機制等來保障可靠的傳輸,一旦出現(xiàn)丟包,必須依靠上層應(yīng)用發(fā)現(xiàn)了再做重傳,這就會大大降低 RDMA 的傳輸效率。因此,要想發(fā)揮 RoCE 真正的效果,必須為 RDMA 搭建一套不丟包的無損網(wǎng)絡(luò)環(huán)境。RDMA 技術(shù)的網(wǎng)絡(luò)協(xié)議如圖1所示。

        2 HPC 應(yīng)用

        2.1 MPI

        MPI[5是在集群計算領(lǐng)域編寫并行應(yīng)用程序最流行的編程模型之一。MPI庫為并行計算作業(yè)提供了基本的通信支持,特別提供了幾種方便的點對點和集體通信操作。高性能MPI實現(xiàn)與底層網(wǎng)絡(luò)動態(tài)密切相關(guān),并嘗試在給定的互聯(lián)鏈路上發(fā)揮最佳通信性能。

        2.2 基準(zhǔn)測試程序

        高性能Linpack(High Performance Linpack,HPL)[6-7是基于對高性能計算機采用高斯消元法求解稠密線性代數(shù)方程組的測試。HPL 是針對現(xiàn)代并

        行計算機提出的測試方法,能夠在對測試程序不做修改的基礎(chǔ)上,調(diào)整作業(yè)的規(guī)模(矩陣大?。?、CPU 數(shù)目和優(yōu)化策略等方法執(zhí)行該測試程序,從而獲得最佳的浮點性能,具有通用性好、效率高的特點,被認(rèn)為是目前最好的 Linpack 性能測試程序?,F(xiàn)今,國際上每半年公布一次的世界最快 500 臺計算機排名的重要依據(jù)就是 HPL 性能測試。

        高性能共軛梯度(High Performance Conjugate Gradient,HPCG)[8基準(zhǔn)測試旨在作為HPL的補充。使用 HPL 測試表現(xiàn)較好的系統(tǒng),在實際的應(yīng)用中并不能一定能發(fā)揮很好的效能。簡單而言,Linpack 更考驗高性能計算機的處理器理論性能,而 HPCG 更看重實際性能,對內(nèi)存系統(tǒng)、網(wǎng)絡(luò)時延要求也更高。隨著高性能應(yīng)用領(lǐng)域的擴展,HPL的測試模式與結(jié)論已不能充分體現(xiàn) HPC的實用性能。為此,HPCG 在 HPL的基礎(chǔ)上,彌補了HPL 現(xiàn)存的很多不足與弊端,使得計算機系統(tǒng)的設(shè)計不再只關(guān)注于計算能力,而是向計算、訪存、通信等較全面的方向發(fā)展。

        NAS并行測試基準(zhǔn)數(shù)據(jù)(NAS Parallel Benchmark,NPB)[9是1991 年美國 NAS(Numerical Aerodynamic Simulation)項目所開發(fā)的并行測試程序,目的是比較各種并行機性能。系統(tǒng)由8個程序組成,每個程序有5種規(guī)模(A、B、C、W、S),測試方法從整數(shù)排序到復(fù)雜的數(shù)值計算。這套程序可以從不同方面反映系統(tǒng)的大致性能。

        NPB 包括 5 個核心程序和3個模擬應(yīng)用,如表1所示。

        表1 NPB 基準(zhǔn)測試程序NPB性能5個核心程序EP計算 Gauss 偽隨機數(shù),不要求處理器之間相互通信,適合于并行計算MG用V循環(huán)多重網(wǎng)格算法求解三維泊松方程的離散周期近似解CG求解大型稀疏對稱正定矩陣的最小特征值的近似值FT求解基于FFT譜分析法的三維偏微分方程IS基于桶排序的二維大整數(shù)排序3個模擬程序LU基于對稱超松弛法求解塊稀疏方程組SP求解 5 對角方程組BT求解 3 對角塊方程組

        2.3 應(yīng)用程序

        VASP模擬軟件包(Vienna Ab-initio Simulation Package,VASP)是維也納大學(xué) Hafner 小組開發(fā)的進(jìn)行電子結(jié)構(gòu)計算和量子力學(xué)—分子動力學(xué)模擬軟件包,是目前材料模擬和計算物質(zhì)科學(xué)研究中最流行的商用軟件之一。

        QE(Quantum ESPRESSO)開源分子動力學(xué)軟件是在密度泛函理論、贗勢和平面波的基礎(chǔ)上,使用電子結(jié)構(gòu)技術(shù)對材料進(jìn)行量子模擬的軟件包,從其誕生至今,一直在全球領(lǐng)先的材料建模團隊中廣泛使用。

        大規(guī)模原子分子并行模擬器(Large-scale Atomic/Molecular Massively- Parallel Simulator,LAMMPS)主要用于分子動力學(xué)相關(guān)的一些計算和模擬工作。LAMMPS 由美國Sandia國家實驗室開發(fā),以GPLlicence 發(fā)布,即開放源代碼且可以免費獲取使用,這意味著使用者可以根據(jù)自己的需要自行修改源代碼。

        3 實驗方法

        3.1 測試平臺介紹

        測試平臺由4個結(jié)點組成,各結(jié)點間以RoCE和IB交換機高速互聯(lián),其拓?fù)浣Y(jié)構(gòu)如圖2所示。

        測試平臺配置如表2所示。

        3.2 方法

        文章評估的目標(biāo)是在HPC場景測試RoCE 100G網(wǎng)絡(luò)和IB 100G網(wǎng)絡(luò)的性能。測試項包括擁塞條件下的帶寬和時延測試、MPI基準(zhǔn)測試、HPC基準(zhǔn)測試以及HPC應(yīng)用程序測試。本次評估將只更改網(wǎng)絡(luò)設(shè)備,其他所有因素保持不變。本研究將重點關(guān)注HPC。HPC需要高速、高帶寬、低時延的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。

        對于擁塞條件下的帶寬和時延評估,使用3打1的打流方式,通過ib_write_bw命令和ib_write_latency命令分別進(jìn)行RDMA寫入事務(wù)的帶寬和時延測試,以模擬不同qp對數(shù)量和不同數(shù)據(jù)包大小情況下的性能。

        對于HPC的評估,首先,使用MPI。MPI是HPC中最突出的并行編程模型。本文使用OSU Micro-Benchmarks[10工具進(jìn)行Alltoall、Allreduce模型測試,來提供關(guān)于RoCE網(wǎng)絡(luò)和IB網(wǎng)絡(luò)2種場景下傳輸時延的評估。其次,使用HPL 基準(zhǔn)測試來分析RoCE 網(wǎng)絡(luò)與IB 網(wǎng)絡(luò)的優(yōu)勢。本文選擇了測試矩陣大小為70000和100000以及分塊大小為1024,線程矩陣P=12,Q=16等參數(shù),以確保對2種網(wǎng)絡(luò)環(huán)境下的計算性能進(jìn)行全面比較。本文用相同的方法進(jìn)行了HPCG基準(zhǔn)測試,在配置文件中將問題規(guī)模設(shè)置為104 104 104 ,運行時間設(shè)置為 1800 s。在NPB基準(zhǔn)測試中,本文選擇了對通信性能要求最高的整數(shù)排序(IS)進(jìn)行測試。通過記錄這些基準(zhǔn)程序運行的時間,可以對比出RoCE網(wǎng)絡(luò)和IB網(wǎng)絡(luò)的性能。

        本文還進(jìn)行了不同的實驗來證明RoCE網(wǎng)絡(luò)和IB網(wǎng)絡(luò)對各種不同的HPC應(yīng)用程序的影響。實驗包括分別運行LAMMPS、QE、VASP這3個應(yīng)用程序,并記錄它們的運行時間。對于LAMMPS,本文使用自帶的一個標(biāo)準(zhǔn)測試文件“in.lj”,該輸入文件具有確定性的任務(wù)且經(jīng)過廣泛測試,是評估LAMMPS性能的理想選擇。QE測試模型的輸入文件采用“ausurf.in”。VASP測試資源相對閉源,本次測試只獲取到“鐵”材料的測試模型文件。

        4 性能比較

        4.1 網(wǎng)絡(luò)層面的性能

        為了探索擁塞條件下的帶寬和時延,本文采用了多種擁塞情況模擬實驗,比較RoCE和IB網(wǎng)絡(luò)在不同程度擁塞下的網(wǎng)絡(luò)帶寬和時延表現(xiàn)。針對網(wǎng)絡(luò)級帶寬和時延基準(zhǔn)的各種互聯(lián)的性能比較如圖3所示。

        結(jié)果顯示,在4qp、16qp、64qp 3種場景下,2臺RoCE設(shè)備或者2臺IB設(shè)備帶寬幾乎一致。在網(wǎng)絡(luò)擁塞情況下,除了幀長為64 Bytes和1024 Bytes時RoCE網(wǎng)絡(luò)的帶寬略顯劣勢,其余情況均輕微占優(yōu)。時延方面,IB網(wǎng)絡(luò)的時延增長更為顯著。這一結(jié)果表明RoCE 網(wǎng)絡(luò)相對于IB網(wǎng)絡(luò)在擁塞條件下有更好的性能表現(xiàn)。

        4.2 MPI層面的性能

        為了研究RoCE 網(wǎng)絡(luò)和IB網(wǎng)絡(luò)對MPI級通信的性能優(yōu)勢,本文對RoCE 網(wǎng)絡(luò)和IB網(wǎng)絡(luò)在不同消息大小下的數(shù)據(jù)傳輸時延進(jìn)行了觀察和分析。本文使用OSU Micro-Benchmarks工具進(jìn)行Alltoall、Allreduce模型測試,評估關(guān)于RoCE網(wǎng)絡(luò)和IB網(wǎng)絡(luò)2種場景下的傳輸時延。上述工具能夠評估點對點通信和集合通信操作的性能。為簡潔起見,本文采用比較系數(shù)來表示時延上RoCE網(wǎng)絡(luò)較 IB 網(wǎng)絡(luò)性能更優(yōu)的百分比,比較系數(shù)= (IB時延-RoCE時延)/RoCE時延。MPI級時延基準(zhǔn)下2種互聯(lián)的性能如圖4所示。

        可以看到,在多數(shù)情況下,RoCE 網(wǎng)絡(luò)的時延較IB網(wǎng)絡(luò)的時延更低或持平。具體而言,不同消息大小的情況下,RoCE 網(wǎng)絡(luò)和IB 網(wǎng)絡(luò)的時延表現(xiàn)相對接近,隨著消息大小逐漸增加,大多數(shù)情況下,RoCE 網(wǎng)絡(luò)相比 IB 網(wǎng)絡(luò)擁有更低的時延。這一發(fā)現(xiàn)表明,在MPI場景下,RoCE網(wǎng)絡(luò)的通信性能略高于 IB 網(wǎng)絡(luò)。

        4.3 基準(zhǔn)程序的性能

        為了衡量采用 RoCE 網(wǎng)絡(luò)和IB網(wǎng)絡(luò)作為高速互聯(lián)的 HPC 的性能,本文分別采用了 HPL、HPCG、NPB基準(zhǔn)程序進(jìn)行了測試,結(jié)果如圖5所示。

        HPL 執(zhí)行時間測試結(jié)果顯示,RoCE 方案在某些情況下略優(yōu)于 IB 方案,達(dá)到了1%~4.2% 的性能提升。這表明 RoCE 在特定條件下能夠更高效地完成任務(wù),尤其是對于大規(guī)模高性能計算任務(wù)而言。

        HPL 計算性能測試結(jié)果顯示,RoCE 方案在計算性能方面較 IB 方案略優(yōu),優(yōu)勢范圍為 1%~4% 。這表明 RoCE 網(wǎng)絡(luò)在處理計算密集型任務(wù)時表現(xiàn)出更好的性能。

        在 HPCG 和 NPB 基準(zhǔn)測試中,RoCE 方案與 IB 方案的性能基本一致。這意味著在一些綜合性能測試中,2種方案可能在實際性能上沒有顯著差異,表現(xiàn)相對穩(wěn)定一致。

        4.4 應(yīng)用程序的性能

        VASP、QE和LAMMPS 3種應(yīng)用程序的運行時間如圖6所示。

        對于 VASP 應(yīng)用而言,RoCE 方案相對于IB方案在性能上有較為明顯的優(yōu)勢,大約提升了14.9%~16.1% 。這表明在使用 VASP 進(jìn)行計算材料電子結(jié)構(gòu)和材料性質(zhì)的任務(wù)時,RoCE 網(wǎng)絡(luò)能夠提供更高的性能和效率。

        對于QE應(yīng)用而言,IB方案相對于RoCE方案略微優(yōu)于0.1%~0.29% 。盡管差距較小,但這表明在進(jìn)行第一性原理量子化學(xué)模擬計算時,IB網(wǎng)絡(luò)可能具備輕微的優(yōu)勢。

        對于 LAMMPS 應(yīng)用而言,RoCE方案相對于IB方案具有約1.4%~2.35% 的性能優(yōu)勢。這意味著在進(jìn)行分子動力學(xué)模擬的任務(wù)時,RoCE網(wǎng)絡(luò)能夠提供更好的性能和效果。

        這些結(jié)果顯示,在不同的應(yīng)用場景下,RoCE方案和IB方案的相對性能會有所差異。根據(jù)具體的應(yīng)用需求和環(huán)境特性,選擇適當(dāng)?shù)木W(wǎng)絡(luò)方案對于獲得最佳性能至關(guān)重要。

        5 結(jié)語

        本文對高性能計算領(lǐng)域使用IB和RoCE硬件作為互聯(lián)設(shè)備進(jìn)行了全面的性能評估。實驗結(jié)果表明,在擁塞條件下RoCE相較于IB有更好的網(wǎng)絡(luò)性能;在MPI場景下RoCE網(wǎng)絡(luò)的通信性能略高于IB網(wǎng)絡(luò);在HPC基準(zhǔn)程序測試中RoCE方案相較于IB方案浮點性能略高但綜合性能相當(dāng);在不同的終端應(yīng)用場景下,RoCE方案和IB方案的性能則各有高低。這些結(jié)論為構(gòu)建高性能集群選擇互聯(lián)方案時提供了一定的參考價值和指導(dǎo)作用。

        參考文獻(xiàn)

        [1]LIU J,CHANDRASEKARAN B,YU W,et al.Micro-benchmark performance comparison of high-speed cluster interconnects[J].IEEE Micro,2004(1):42-51.

        [2]LIU J,MAMIDALA A,VISHNU A,et al.Performance evaluation of InfiniBand with PCI express[J].IEEE Micro,2005(1):20-29.

        [3]KERBYSON D.A look at application performance sensitivity to the bandwidth and latency of InfiniBand networks[EB/OL].(2006-04-25)[2024-02-29].https://websrv.cecs.uci.edu/~papers/ipdps06/pdfs/014-CAC-paper-1.pdf.

        [4]劉志鋒,葉志偉,蔡敦波,等.RDMA技術(shù)研究綜述[J].軟件導(dǎo)刊,2022(12):266-271.

        [5]MPI Forum.MPI:A message passing interface[EB/OL].(1994-04-01)[2024-02-29].https://dl.acm.org/doi/pdf/10.1145/169627.169855.

        [6]DONGARRA J,LUSZCZEK P,PETITET A.The LINPACK benchmark:past,present,and future[J].Concurrency and Computation:Practice and Experience,2003(9):803-820.

        [7]PETITET A,WHALEY R,DONGARRA J.et al.HPL-A portable implementation of the high-performance linpack benchmark for distributed-memory computers[EB/OL].(2004-01-20)[2024-02-29].https://sepwww.stanford.edu/sep/claudio/THESIS/Prst_ExpRefl/ShtPSPI/intel/cmkl/10.0.3.020/bench marks/mp_linpack/www/index.html.

        [8]HEROUX M,DONGARRA J.Toward a new metric for ranking high performance computing systems [EB/OL].(2013-06-10)[2024-02-29].https://icl.utk.edu/files/publications/2013/icl-utk-558-2013.pdf.

        [9]BAILEY D,BARSACZ E,BARTON J,et al.The NAS parallel benchmarks summary and preliminary results[EB/OL].(1991-08-01)[2024-02-29].https://dl.acm.org/doi/pdf/10.1145/125826.125925/.

        [10]Network Based Computing Lab.OSU Micro-benchmarks 7.3[EB/OL].(2023-10-30)[2024-02-29].https://mvapich.cse.ohio-state.edu/benchm arks/.

        (編輯 王雪芬)

        Performance comparison of the RoCE networks and InfiniBand networks based on HPC

        Xu" Defa

        (Shanghai Supercomputer Center, Shanghai 201023, China)

        Abstract: The communication interface of high performance computing (HPC) systems is constantly evolving, but there is a lack of research on the performance comparison between the new generation of IB interconnect and RoCE interconnect. This paper presents a set of experimental methods for performance evaluation from MPI benchmark, HPC benchmark and HPC application. The conclusion shows that RoCE has better network performance than IB under congestion conditions, and the communication performance of RoCE network in MPI scenario is slightly higher than that of IB network. In HPC benchmark test, RoCE scheme has slightly higher floating point performance than IB scheme, but the overall performance is comparable. The performance of the RoCE and IB schemes varies according to the application scenarios.

        Key words:RoCE; InfiniBand; HPC; performance

        日本一区二区三区的免费视频观看| 欧美视频第一页| 被暴雨淋湿爆乳少妇正在播放 | 精品熟女少妇av免费观看| 亚洲国产福利成人一区二区| 亚洲av男人的天堂在线| 中国杭州少妇xxxx做受| 午夜三级a三级三点| 亚洲视频高清| 久久精品国产亚洲av豆腐| 无码人妻丰满熟妇啪啪网不卡| 国产精品jizz视频| 国产精品激情综合久久| 青青草视频在线观看绿色| 日本熟妇色xxxxx日本妇| 欧洲-级毛片内射| 无码一区二区三区久久精品| 玖玖资源站亚洲最大的网站| 精品久久久久久无码中文字幕| 久久亚洲欧洲无码中文| 婷婷开心五月综合基地| 风韵丰满熟妇啪啪区99杏| 人妻丝袜av中文系列先锋影音| 无码电影在线观看一区二区三区| 亚洲一区二区三区厕所偷拍| 亚洲中国精品精华液| 福利视频一二三在线观看| 国产九九在线观看播放| 国产高清一区二区三区三州| 亚洲国产精品国自产拍av| 国产欧美日韩综合在线一区二区| 99久久免费中文字幕精品| 日本精品视频免费观看| 精品国模一区二区三区| 色欲AV成人无码精品无码| 国产精品日韩亚洲一区二区| 真人做人试看60分钟免费视频| 亚洲欧美另类自拍| 午夜一区二区在线视频| av天堂午夜精品一区| 亚洲一区二区观看播放|