亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高性能GPU計算集群應(yīng)用體系建設(shè)

2025-03-22 00:00:00楊敏?何蕓?許濤?景少軍

信息系統(tǒng)工程 2025年3期

摘要：在長期分析研究高密度數(shù)據(jù)處理項目作業(yè)運行特點的基礎(chǔ)上，歸納常規(guī)處理和偏移處理兩大類應(yīng)用下，不同處理方法實現(xiàn)模塊的資源需求特點及處理員的作業(yè)模式，優(yōu)化組合集群計算、存儲、網(wǎng)絡(luò)三元素技術(shù)發(fā)展路線及產(chǎn)品性能參數(shù)，搭建了硬件架構(gòu)上適用于地震勘探處理應(yīng)用的高性能GPU計算集群系統(tǒng)。綜合應(yīng)用鏡像管理、多種子點分發(fā)等多種集群管理及作業(yè)調(diào)度技術(shù)，實現(xiàn)異構(gòu)集群統(tǒng)一管理及監(jiān)控，實現(xiàn)油田高性能計算資源共享，高效提升處理生產(chǎn)大規(guī)模計算能力，實現(xiàn)綠色高效體系建設(shè)。

關(guān)鍵詞：高性能計算；GPU；XCAT；集群管理

一、前言

地震勘探處理集群是指利用高性能計算（HPC）和并行處理技術(shù)，通過集群計算機系統(tǒng)對地震數(shù)據(jù)進(jìn)行高效處理的技術(shù)體系。集群技術(shù)被廣泛應(yīng)用于地震數(shù)據(jù)的疊前時間偏移、深度偏移、層析反演等關(guān)鍵處理環(huán)節(jié)，在地震勘探中發(fā)揮重要作用，能夠顯著提升地震數(shù)據(jù)處理的速度和精度，從而支持更復(fù)雜、更精細(xì)的地質(zhì)解釋和資源勘探。

基于高密度地震采集數(shù)據(jù)量和地震資料處理計算量呈幾何級數(shù)增長，偏移處理等大規(guī)模并行計算的資源需求越來越龐大，本企業(yè)勘探處理集群自2012年投產(chǎn)以來已高效運行數(shù)年?，F(xiàn)有舊的大規(guī)模CPU、GPU集群組合架構(gòu)已無法適應(yīng)復(fù)雜地質(zhì)目標(biāo)研究需求及高密度數(shù)據(jù)和高精度成像數(shù)據(jù)處理工作。如何在異構(gòu)計算架構(gòu)中打造高效、高性能計算集群運行平臺，優(yōu)化處理大規(guī)模并行計算任務(wù)，實現(xiàn)高效的資源調(diào)度和管理是下一步的工作目標(biāo)。本次重點探討GPU集群搭建及實施應(yīng)用體系建設(shè)。

GPU集群是一種由多個圖形處理單元（GPU）組成的高性能計算系統(tǒng)，廣泛應(yīng)用于科學(xué)計算、深度學(xué)習(xí)、圖形渲染、數(shù)據(jù)分析等領(lǐng)域[1]。它有強大的并行計算能力，通過多個GPU的協(xié)同工作，能夠顯著提升計算效率和處理能力，使其特別適合處理大規(guī)模并行計算任務(wù)。同時通過GPU集群運行的深度學(xué)習(xí)模型可以大幅提高訓(xùn)練效率，同時支持更復(fù)雜的模型和更大的數(shù)據(jù)集。GPU集群在圖形渲染和視頻處理中具有顯著優(yōu)勢，能夠快速生成高質(zhì)量的圖像和視頻內(nèi)容，在地震地質(zhì)解釋圖形、3D建模和虛擬現(xiàn)實等領(lǐng)域尤為重要。GPU集群憑借強大的并行計算能力、高效的資源利用和廣泛的應(yīng)用場景，在現(xiàn)代高性能計算領(lǐng)域中發(fā)揮著至關(guān)重要的作用。

隨著計算機技術(shù)迅速發(fā)展，技術(shù)路線各異，實現(xiàn)產(chǎn)品眾多。新技術(shù)、新產(chǎn)品引進(jìn)得當(dāng)與否決定了集群的實際生產(chǎn)效能。GPU集群搭建是一個復(fù)雜且多方面的任務(wù)，涉及硬件選擇、網(wǎng)絡(luò)配置、軟件部署以及管理等多個方面。它通過高性能計算、并行處理、人工智能和三維可視化等先進(jìn)技術(shù)，大幅提升了地震數(shù)據(jù)處理的速度和精度。

綜上，搭建GPU集群是一項需要綜合考慮硬件、軟件、網(wǎng)絡(luò)和成本的復(fù)雜工程。通過合理規(guī)劃和選擇合適的配置，可以有效提升計算能力和效率，滿足深度學(xué)習(xí)、科學(xué)計算和大規(guī)模數(shù)據(jù)處理的需求。

二、集群構(gòu)成

高性能集群（High-Performance Computing，HPC）的構(gòu)成要素主要包括硬件、軟件和管理三大部分，其核心目標(biāo)是通過多臺計算機協(xié)同工作，提供高效的計算能力、高可擴展性和高可靠性。

（一）集群計算節(jié)點

集群計算節(jié)點是指在高性能計算集群中，通過高速網(wǎng)絡(luò)連接的獨立計算機節(jié)點，它們共同協(xié)作完成大規(guī)模計算任務(wù)[2]。這些節(jié)點可以是CPU節(jié)點、GPU節(jié)點或其他類型的計算資源。CPU節(jié)點用于處理通用計算任務(wù)，GPU節(jié)點用于加速深度學(xué)習(xí)、科學(xué)計算等并行計算任務(wù)，存儲節(jié)點提供共享存儲資源，用于存儲數(shù)據(jù)和結(jié)果。每個計算節(jié)點通常包含處理器、內(nèi)存和存儲設(shè)備，通過高速互聯(lián)網(wǎng)絡(luò)連接，以實現(xiàn)高效的數(shù)據(jù)傳輸和任務(wù)分配，負(fù)責(zé)執(zhí)行具體的計算任務(wù)，如數(shù)值模擬、數(shù)據(jù)處理等。集群計算節(jié)點是高性能計算系統(tǒng)的核心，通過合理的硬件配置和動態(tài)管理，能夠高效地完成大規(guī)模計算任務(wù)，如圖1所示。

在集群環(huán)境中，計算節(jié)點通常通過以下流程完成任務(wù)：用戶通過登錄節(jié)點提交作業(yè)；管理節(jié)點接收作業(yè)請求，并將其分配到合適的計算節(jié)點；計算節(jié)點讀取存儲節(jié)點上的數(shù)據(jù)，執(zhí)行計算任務(wù)；計算結(jié)果返回存儲節(jié)點或直接返回給用戶。

集群計算節(jié)點相比單機計算具有顯著優(yōu)勢：

性能提升：通過多節(jié)點協(xié)同工作，顯著提高計算速度。

擴展性：可以根據(jù)需求動態(tài)擴展計算資源。

容錯能力：通過冗余設(shè)計，提高系統(tǒng)的穩(wěn)定性和可靠性。

為保障處理集群長期穩(wěn)定提供高效服務(wù)，項目組長期跟蹤研究集群技術(shù)發(fā)展和地震資料處理方法新進(jìn)展，越來越多的工作負(fù)載需要利用加速器性能，對GPU密度的需求也隨之增加。歷經(jīng)多年集群產(chǎn)品選型和應(yīng)用效果評估，計算處理節(jié)點本方案選定聯(lián)想SR670服務(wù)器，聯(lián)想ThinkSystem SR670能為人工智能（AI）和高性能計算（HPC）工作負(fù)載提供最佳性能，同時維持較低的總擁有成本（TCO）。SR670每個2U節(jié)點可容納四個雙寬或八個單寬GPU，可滿足機器學(xué)習(xí)（ML）和深度學(xué)習(xí)（DL）或計算密集型工作負(fù)載需求。圖形解釋服務(wù)器采用聯(lián)想SR860服務(wù)器，SR860可以支持從業(yè)務(wù)整頓到數(shù)據(jù)虛擬化、數(shù)據(jù)分析和科學(xué)／技術(shù)在內(nèi)的廣泛工作負(fù)載。此外，SR860支持大量超快內(nèi)存、存儲和適配器插槽以及多個NIC外形，甚至是兩個GPU。靈活適應(yīng)各種工作負(fù)載，許多類型的工作負(fù)載可以受益于GPU加速的計算。數(shù)以千計的處理解內(nèi)核和并行架構(gòu)使GPU非常適合計算密集型應(yīng)用，如機器學(xué)習(xí)、人工智能、分析、3D建橫和曾經(jīng)需要超計算機的其他應(yīng)用。

（二）集群軟件及數(shù)據(jù)庫節(jié)點

集群軟件主要用于管理和監(jiān)控集群中的節(jié)點狀態(tài)，以及調(diào)度資源以保證系統(tǒng)的高可用性和性能[3]。數(shù)據(jù)庫節(jié)點在不同系統(tǒng)中具有不同的角色和功能，包括數(shù)據(jù)節(jié)點（Data Node）負(fù)責(zé)存儲數(shù)據(jù)并執(zhí)行數(shù)據(jù)操作；SQL節(jié)點（SQL Node）負(fù)責(zé)提供SQL接口，處理SQL查詢并返回結(jié)果；元數(shù)據(jù)節(jié)點（Meta Node）負(fù)責(zé)維護集群的元數(shù)據(jù)信息，如角色分配、配置管理等；協(xié)調(diào)節(jié)點（gcluster節(jié)點）在GBase中，負(fù)責(zé)解析和執(zhí)行計劃。存儲技術(shù)方面需要選型擴展性好、性價比高、基于開源文件系統(tǒng)的X86通用服務(wù)器構(gòu)建的分布式存儲系統(tǒng)，用以滿足勘探處理集群海量數(shù)據(jù)存儲需求。

軟件及數(shù)據(jù)庫節(jié)點采用了ThinkSystem SR670服務(wù)器，每臺計算節(jié)點配置了2個Intel Xeon Gold 6242R處理器（20核，3.1GHz）、24根16GB ECC DDR4 2Rank內(nèi)存、2塊960G企業(yè)級SSD硬盤做RAID1用于安裝操作系統(tǒng)，2塊1.92TB企業(yè)級SSD硬盤用于存儲數(shù)據(jù)。軟件及數(shù)據(jù)庫節(jié)點的硬盤RAID1，1+1冗余電源等冗余特性保障了軟件及數(shù)據(jù)庫節(jié)點的可靠性。

集群軟件及數(shù)據(jù)庫節(jié)點的設(shè)計目標(biāo)是提高系統(tǒng)的可靠性和可擴展性。通過合理的架構(gòu)設(shè)計（如主從備份、負(fù)載均衡、一致性機制），可以有效應(yīng)對大規(guī)模數(shù)據(jù)處理需求[4]。同時，不同系統(tǒng)中的節(jié)點類型（如數(shù)據(jù)節(jié)點、元數(shù)據(jù)節(jié)點、協(xié)調(diào)節(jié)點等）承擔(dān)不同的職責(zé)，共同協(xié)作以實現(xiàn)集群的高效運行。

（三）集群網(wǎng)絡(luò)

高性能集群網(wǎng)絡(luò)（High-Performance Computing Cluster Network）是高性能計算（HPC）的核心組成部分，其主要目的是通過高速網(wǎng)絡(luò)連接多個計算節(jié)點，以實現(xiàn)大規(guī)模并行計算任務(wù)的高效處理。高性能集群網(wǎng)絡(luò)搭建需要從需求分析到硬件選型、網(wǎng)絡(luò)規(guī)劃、軟件配置、集群部署、性能優(yōu)化以及安全防護等多個方面綜合考慮。通過科學(xué)合理的規(guī)劃和實施，可以構(gòu)建出高效、可靠的高性能計算平臺。

針對海量地震數(shù)據(jù)處理，存儲系統(tǒng)和網(wǎng)絡(luò)交換設(shè)備也不同于通用集群，通常采用專為高性能計算設(shè)計的高速互連技術(shù)，如InfiniBand、RDMA（遠(yuǎn)程直接內(nèi)存訪問）和100Gbps以上的高速以太網(wǎng)等，以確保節(jié)點間通信的高帶寬和低延遲。Inifiniband網(wǎng)絡(luò)能夠提供更高的網(wǎng)絡(luò)傳輸速率和更短的網(wǎng)絡(luò)延時，但受限于目前主流勘探處理軟件均未使用其最重要的兩個特性技術(shù)（RDMA、GPUdirect），處理集群網(wǎng)絡(luò)引入IB交換設(shè)備除了導(dǎo)致更加復(fù)雜的網(wǎng)絡(luò)架構(gòu)以外無法獲取IB的特性技術(shù)優(yōu)勢，故現(xiàn)階段勘探處理集群網(wǎng)絡(luò)采用了單一的以太網(wǎng)絡(luò)設(shè)備。本方案采用了思科Nexus C9336C-FX2數(shù)據(jù)中心交換機，搭建100GE高速計算數(shù)據(jù)網(wǎng)絡(luò)，它支持7.2 Tbps帶寬和2.8bpps以上的吞吐量，集群中的GPU節(jié)點使用100GbE網(wǎng)絡(luò)進(jìn)行并行計算，使用管理網(wǎng)絡(luò)進(jìn)行操作系統(tǒng)管理、信任關(guān)系配置、目錄共享等，實現(xiàn)了計算節(jié)點間的高速通信和數(shù)據(jù)的高效傳輸。

（四）集群管理

集群管理是一個復(fù)雜且多方面的領(lǐng)域，涉及對多個計算節(jié)點或設(shè)備的協(xié)調(diào)、調(diào)度、監(jiān)控和維護，其目標(biāo)是通過高效的資源調(diào)度、實時監(jiān)控和容錯的機制確保了集群的穩(wěn)定運行和性能優(yōu)化。無論是基于Agent的傳統(tǒng)方式還是現(xiàn)代的自動化工具，集群管理都需要根據(jù)具體需求進(jìn)行定制化設(shè)計和實施。集群管理的核心任務(wù)是確保資源分配、負(fù)載均衡、監(jiān)控、故障恢復(fù)以及性能優(yōu)化等集群高效、穩(wěn)定地運行。具體包括：

資源調(diào)度：將任務(wù)合理分配到不同的節(jié)點上，優(yōu)化資源利用率，實現(xiàn)負(fù)載均衡。

監(jiān)控與日志記錄：實時監(jiān)控集群運行狀態(tài)，包括節(jié)點健康狀況、資源使用情況等，并記錄日志以便后續(xù)分析。

故障恢復(fù)與容錯：通過冗余設(shè)計和自動故障切換機制，確保集群在發(fā)生故障時能夠快速恢復(fù)。

安全與訪問控制：保護集群免受未授權(quán)訪問，同時確保數(shù)據(jù)的安全性和完整性。

GPU集群在異構(gòu)計算架構(gòu)中實現(xiàn)高效的資源調(diào)度和管理，主要依賴于多種技術(shù)手段和策略，包括資源池化、細(xì)粒度調(diào)度、自動化管理工具以及異構(gòu)資源的統(tǒng)一管理。異構(gòu)計算架構(gòu)通常包含CPU、GPU等多種計算資源，這些資源需要通過統(tǒng)一的管理平臺進(jìn)行調(diào)度和優(yōu)化。在節(jié)點部署上，綜合應(yīng)用系統(tǒng)鏡像管理技術(shù)、多種子點分發(fā)技術(shù)、配置文件批量修改等技術(shù)，建立了地震勘探處理應(yīng)用軟件平臺快速部署系統(tǒng)。

XCAT是一種開源的集群管理和配置工具，主要用于大規(guī)模計算機集群的自動化部署、擴展和管理。支持多種操作系統(tǒng)和硬件平臺，適用于高性能計算（HPC）、云計算、大數(shù)據(jù)分析等領(lǐng)域。通過XCAT，簡化了集群管理流程，減少手動配置的時間和錯誤。同時利用監(jiān)控工具實時監(jiān)控集群狀態(tài)，及時發(fā)現(xiàn)和解決問題，實現(xiàn)從創(chuàng)建到監(jiān)控的全過程自動化管理，既滿足1套處理集群復(fù)用不同處理應(yīng)用軟件的需求，也滿足油氣勘探高精度成像對比研究的科研、生產(chǎn)需求。

三、性能評估（測試）

應(yīng)用軟件運行環(huán)境約束條件下，在高性能LINPACK（HPL）測試、理論浮點峰值（Rpeak）、組網(wǎng)測試3個關(guān)鍵性能測試上領(lǐng)先國內(nèi)石油行業(yè)。

（一）驗證測試條件

在所有計算節(jié)點上執(zhí)行which mpirun命令，查看是否存在該命令。mpirun命令為英特爾Parallel Studio XE安裝目錄（本例中為/opt/intel）的子目錄。若無錯誤輸出，運行以下命令進(jìn)行英特爾Parallel Studio環(huán)境設(shè)置。

source /opt/intel/bin/iccvars.sh intel64

source /opt/intel/impi/2019.1.144/intel64/bin/mpivars.sh intel64 source /opt/intel/bin/compilervars.sh intel64

（二）運行測試腳本

進(jìn)入配置腳本所在目錄，執(zhí)行./run_1_node_dgx1_v100x4命令。

# cd /softs/xhpl_cuda

# ./run_1_node_dgx1_v100x4

理論浮點峰值是該計算機理論上能達(dá)到的、每秒鐘能完成浮點計算的最大次數(shù)，主要由CPU本身規(guī)格和CPU數(shù)量決定：Rpeak = CPU主頻（標(biāo)準(zhǔn)頻率）×CPU每個時鐘周期執(zhí)行浮點運算的次數(shù)×系統(tǒng)中CPU的總核數(shù)，以配置2顆2.8GHz的10核Intel E5-2680 v3 CPU為例，理論浮點峰值計算如下：2.8×20×16=896GFLOPS，抽取5個節(jié)點測試結(jié)果，見表1。

四、結(jié)語

后期針對集群“好建難用”的業(yè)界難題，以用戶需求為導(dǎo)向，借鑒IT服務(wù)管理，結(jié)合集群運維技術(shù)和協(xié)同管理平臺技術(shù)，圍繞處理員和系統(tǒng)管理員，以知識管理為核心建立了適用于地震勘探處理解釋工作環(huán)境的集群運維體系，保障處理集群高效穩(wěn)定運行。

通過研究TB級數(shù)據(jù)遠(yuǎn)程傳輸模式、遠(yuǎn)程三維圖像顯示技術(shù)、集群隊列管理和作業(yè)分發(fā)技術(shù)、容器和虛擬機技術(shù)、NIS+用戶管理體系等云計算管理技術(shù)，從“云—邊—端”三元素入手，在保障勘探處理工作順利開展的前提下，吸收融合尖端計算機技術(shù)發(fā)展成果，繼續(xù)探索勘探處理集群向科學(xué)計算云平穩(wěn)高效融合的道路，提出的科學(xué)計算云“多中心分布”建設(shè)模式，將勘探處理集群有序融入科學(xué)計算云，進(jìn)一步推動油田高性能計算、存儲資源科學(xué)計算云體系建設(shè)項目發(fā)展。

參考文獻(xiàn)

[1]Rajkumar Buyya.高性能集群計算：第二卷[M].北京：電子工業(yè)出版社，2001.

[2]陳云霽.智能計算系統(tǒng)[M].北京：機械工業(yè)出版社，2020.

[3]Alex Vrenios. Linux集群體系結(jié)構(gòu)[M].北京：機械工業(yè)出版社，2003.

[4]黃傳河.計算機網(wǎng)絡(luò)應(yīng)用設(shè)計[M].武漢：武漢大學(xué)出版社，2004.

作者單位：新疆油田公司勘探開發(fā)研究院地球物理研究所

責(zé)任編輯：王穎振鄭凱津

信息系統(tǒng)工程2025年3期

信息系統(tǒng)工程的其它文章: 基于能效感知的無人機協(xié)助視頻數(shù)據(jù)傳輸探討; 大數(shù)據(jù)時代智慧教育發(fā)展路徑探析; 基于智能分析系統(tǒng)的職校生學(xué)習(xí)評價分析研究; 基于場景的直升機有人/無人協(xié)同作戰(zhàn)體系效能評估; 大數(shù)據(jù)分析在高中數(shù)學(xué)個性化學(xué)習(xí)指導(dǎo)中的應(yīng)用; 基于大數(shù)據(jù)技術(shù)的河南省職業(yè)教育高質(zhì)量發(fā)展策略研究