亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高性能GPU計算集群應(yīng)用體系建設(shè)

        2025-03-22 00:00:00楊敏?何蕓?許濤?景少軍
        信息系統(tǒng)工程 2025年3期

        摘要:在長期分析研究高密度數(shù)據(jù)處理項目作業(yè)運行特點的基礎(chǔ)上,歸納常規(guī)處理和偏移處理兩大類應(yīng)用下,不同處理方法實現(xiàn)模塊的資源需求特點及處理員的作業(yè)模式,優(yōu)化組合集群計算、存儲、網(wǎng)絡(luò)三元素技術(shù)發(fā)展路線及產(chǎn)品性能參數(shù),搭建了硬件架構(gòu)上適用于地震勘探處理應(yīng)用的高性能GPU計算集群系統(tǒng)。綜合應(yīng)用鏡像管理、多種子點分發(fā)等多種集群管理及作業(yè)調(diào)度技術(shù),實現(xiàn)異構(gòu)集群統(tǒng)一管理及監(jiān)控,實現(xiàn)油田高性能計算資源共享,高效提升處理生產(chǎn)大規(guī)模計算能力,實現(xiàn)綠色高效體系建設(shè)。

        關(guān)鍵詞:高性能計算;GPU;XCAT;集群管理

        一、前言

        地震勘探處理集群是指利用高性能計算(HPC)和并行處理技術(shù),通過集群計算機系統(tǒng)對地震數(shù)據(jù)進(jìn)行高效處理的技術(shù)體系。集群技術(shù)被廣泛應(yīng)用于地震數(shù)據(jù)的疊前時間偏移、深度偏移、層析反演等關(guān)鍵處理環(huán)節(jié),在地震勘探中發(fā)揮重要作用,能夠顯著提升地震數(shù)據(jù)處理的速度和精度,從而支持更復(fù)雜、更精細(xì)的地質(zhì)解釋和資源勘探。

        基于高密度地震采集數(shù)據(jù)量和地震資料處理計算量呈幾何級數(shù)增長,偏移處理等大規(guī)模并行計算的資源需求越來越龐大,本企業(yè)勘探處理集群自2012年投產(chǎn)以來已高效運行數(shù)年?,F(xiàn)有舊的大規(guī)模CPU、GPU集群組合架構(gòu)已無法適應(yīng)復(fù)雜地質(zhì)目標(biāo)研究需求及高密度數(shù)據(jù)和高精度成像數(shù)據(jù)處理工作。如何在異構(gòu)計算架構(gòu)中打造高效、高性能計算集群運行平臺,優(yōu)化處理大規(guī)模并行計算任務(wù),實現(xiàn)高效的資源調(diào)度和管理是下一步的工作目標(biāo)。本次重點探討GPU集群搭建及實施應(yīng)用體系建設(shè)。

        GPU集群是一種由多個圖形處理單元(GPU)組成的高性能計算系統(tǒng),廣泛應(yīng)用于科學(xué)計算、深度學(xué)習(xí)、圖形渲染、數(shù)據(jù)分析等領(lǐng)域[1]。它有強大的并行計算能力,通過多個GPU的協(xié)同工作,能夠顯著提升計算效率和處理能力,使其特別適合處理大規(guī)模并行計算任務(wù)。同時通過GPU集群運行的深度學(xué)習(xí)模型可以大幅提高訓(xùn)練效率,同時支持更復(fù)雜的模型和更大的數(shù)據(jù)集。GPU集群在圖形渲染和視頻處理中具有顯著優(yōu)勢,能夠快速生成高質(zhì)量的圖像和視頻內(nèi)容,在地震地質(zhì)解釋圖形、3D建模和虛擬現(xiàn)實等領(lǐng)域尤為重要。GPU集群憑借強大的并行計算能力、高效的資源利用和廣泛的應(yīng)用場景,在現(xiàn)代高性能計算領(lǐng)域中發(fā)揮著至關(guān)重要的作用。

        隨著計算機技術(shù)迅速發(fā)展,技術(shù)路線各異,實現(xiàn)產(chǎn)品眾多。新技術(shù)、新產(chǎn)品引進(jìn)得當(dāng)與否決定了集群的實際生產(chǎn)效能。GPU集群搭建是一個復(fù)雜且多方面的任務(wù),涉及硬件選擇、網(wǎng)絡(luò)配置、軟件部署以及管理等多個方面。它通過高性能計算、并行處理、人工智能和三維可視化等先進(jìn)技術(shù),大幅提升了地震數(shù)據(jù)處理的速度和精度。

        綜上,搭建GPU集群是一項需要綜合考慮硬件、軟件、網(wǎng)絡(luò)和成本的復(fù)雜工程。通過合理規(guī)劃和選擇合適的配置,可以有效提升計算能力和效率,滿足深度學(xué)習(xí)、科學(xué)計算和大規(guī)模數(shù)據(jù)處理的需求。

        二、集群構(gòu)成

        高性能集群(High-Performance Computing,HPC)的構(gòu)成要素主要包括硬件、軟件和管理三大部分,其核心目標(biāo)是通過多臺計算機協(xié)同工作,提供高效的計算能力、高可擴展性和高可靠性。

        (一)集群計算節(jié)點

        集群計算節(jié)點是指在高性能計算集群中,通過高速網(wǎng)絡(luò)連接的獨立計算機節(jié)點,它們共同協(xié)作完成大規(guī)模計算任務(wù)[2]。這些節(jié)點可以是CPU節(jié)點、GPU節(jié)點或其他類型的計算資源。CPU節(jié)點用于處理通用計算任務(wù),GPU節(jié)點用于加速深度學(xué)習(xí)、科學(xué)計算等并行計算任務(wù),存儲節(jié)點提供共享存儲資源,用于存儲數(shù)據(jù)和結(jié)果。每個計算節(jié)點通常包含處理器、內(nèi)存和存儲設(shè)備,通過高速互聯(lián)網(wǎng)絡(luò)連接,以實現(xiàn)高效的數(shù)據(jù)傳輸和任務(wù)分配,負(fù)責(zé)執(zhí)行具體的計算任務(wù),如數(shù)值模擬、數(shù)據(jù)處理等。集群計算節(jié)點是高性能計算系統(tǒng)的核心,通過合理的硬件配置和動態(tài)管理,能夠高效地完成大規(guī)模計算任務(wù),如圖1所示。

        在集群環(huán)境中,計算節(jié)點通常通過以下流程完成任務(wù):用戶通過登錄節(jié)點提交作業(yè);管理節(jié)點接收作業(yè)請求,并將其分配到合適的計算節(jié)點;計算節(jié)點讀取存儲節(jié)點上的數(shù)據(jù),執(zhí)行計算任務(wù);計算結(jié)果返回存儲節(jié)點或直接返回給用戶。

        集群計算節(jié)點相比單機計算具有顯著優(yōu)勢:

        性能提升:通過多節(jié)點協(xié)同工作,顯著提高計算速度。

        擴展性:可以根據(jù)需求動態(tài)擴展計算資源。

        容錯能力:通過冗余設(shè)計,提高系統(tǒng)的穩(wěn)定性和可靠性。

        為保障處理集群長期穩(wěn)定提供高效服務(wù),項目組長期跟蹤研究集群技術(shù)發(fā)展和地震資料處理方法新進(jìn)展,越來越多的工作負(fù)載需要利用加速器性能,對GPU密度的需求也隨之增加。歷經(jīng)多年集群產(chǎn)品選型和應(yīng)用效果評估,計算處理節(jié)點本方案選定聯(lián)想SR670服務(wù)器,聯(lián)想ThinkSystem SR670能為人工智能(AI)和高性能計算(HPC)工作負(fù)載提供最佳性能,同時維持較低的總擁有成本(TCO)。SR670每個2U節(jié)點可容納四個雙寬或八個單寬GPU,可滿足機器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)或計算密集型工作負(fù)載需求。圖形解釋服務(wù)器采用聯(lián)想SR860服務(wù)器,SR860可以支持從業(yè)務(wù)整頓到數(shù)據(jù)虛擬化、數(shù)據(jù)分析和科學(xué)/技術(shù)在內(nèi)的廣泛工作負(fù)載。此外,SR860支持大量超快內(nèi)存、存儲和適配器插槽以及多個NIC外形,甚至是兩個GPU。靈活適應(yīng)各種工作負(fù)載,許多類型的工作負(fù)載可以受益于GPU加速的計算。數(shù)以千計的處理解內(nèi)核和并行架構(gòu)使GPU非常適合計算密集型應(yīng)用,如機器學(xué)習(xí)、人工智能、分析、3D建橫和曾經(jīng)需要超計算機的其他應(yīng)用。

        (二)集群軟件及數(shù)據(jù)庫節(jié)點

        集群軟件主要用于管理和監(jiān)控集群中的節(jié)點狀態(tài),以及調(diào)度資源以保證系統(tǒng)的高可用性和性能[3]。數(shù)據(jù)庫節(jié)點在不同系統(tǒng)中具有不同的角色和功能,包括數(shù)據(jù)節(jié)點(Data Node)負(fù)責(zé)存儲數(shù)據(jù)并執(zhí)行數(shù)據(jù)操作;SQL節(jié)點(SQL Node)負(fù)責(zé)提供SQL接口,處理SQL查詢并返回結(jié)果;元數(shù)據(jù)節(jié)點(Meta Node)負(fù)責(zé)維護集群的元數(shù)據(jù)信息,如角色分配、配置管理等;協(xié)調(diào)節(jié)點(gcluster節(jié)點)在GBase中,負(fù)責(zé)解析和執(zhí)行計劃。存儲技術(shù)方面需要選型擴展性好、性價比高、基于開源文件系統(tǒng)的X86通用服務(wù)器構(gòu)建的分布式存儲系統(tǒng),用以滿足勘探處理集群海量數(shù)據(jù)存儲需求。

        軟件及數(shù)據(jù)庫節(jié)點采用了ThinkSystem SR670服務(wù)器,每臺計算節(jié)點配置了2個Intel Xeon Gold 6242R處理器(20核,3.1GHz)、24根16GB ECC DDR4 2Rank內(nèi)存、2塊960G企業(yè)級SSD硬盤做RAID1用于安裝操作系統(tǒng),2塊1.92TB企業(yè)級SSD硬盤用于存儲數(shù)據(jù)。軟件及數(shù)據(jù)庫節(jié)點的硬盤RAID1,1+1冗余電源等冗余特性保障了軟件及數(shù)據(jù)庫節(jié)點的可靠性。

        集群軟件及數(shù)據(jù)庫節(jié)點的設(shè)計目標(biāo)是提高系統(tǒng)的可靠性和可擴展性。通過合理的架構(gòu)設(shè)計(如主從備份、負(fù)載均衡、一致性機制),可以有效應(yīng)對大規(guī)模數(shù)據(jù)處理需求[4]。同時,不同系統(tǒng)中的節(jié)點類型(如數(shù)據(jù)節(jié)點、元數(shù)據(jù)節(jié)點、協(xié)調(diào)節(jié)點等)承擔(dān)不同的職責(zé),共同協(xié)作以實現(xiàn)集群的高效運行。

        (三)集群網(wǎng)絡(luò)

        高性能集群網(wǎng)絡(luò)(High-Performance Computing Cluster Network)是高性能計算(HPC)的核心組成部分,其主要目的是通過高速網(wǎng)絡(luò)連接多個計算節(jié)點,以實現(xiàn)大規(guī)模并行計算任務(wù)的高效處理。高性能集群網(wǎng)絡(luò)搭建需要從需求分析到硬件選型、網(wǎng)絡(luò)規(guī)劃、軟件配置、集群部署、性能優(yōu)化以及安全防護等多個方面綜合考慮。通過科學(xué)合理的規(guī)劃和實施,可以構(gòu)建出高效、可靠的高性能計算平臺。

        針對海量地震數(shù)據(jù)處理,存儲系統(tǒng)和網(wǎng)絡(luò)交換設(shè)備也不同于通用集群,通常采用專為高性能計算設(shè)計的高速互連技術(shù),如InfiniBand、RDMA(遠(yuǎn)程直接內(nèi)存訪問)和100Gbps以上的高速以太網(wǎng)等,以確保節(jié)點間通信的高帶寬和低延遲。Inifiniband網(wǎng)絡(luò)能夠提供更高的網(wǎng)絡(luò)傳輸速率和更短的網(wǎng)絡(luò)延時,但受限于目前主流勘探處理軟件均未使用其最重要的兩個特性技術(shù)(RDMA、GPUdirect),處理集群網(wǎng)絡(luò)引入IB交換設(shè)備除了導(dǎo)致更加復(fù)雜的網(wǎng)絡(luò)架構(gòu)以外無法獲取IB的特性技術(shù)優(yōu)勢,故現(xiàn)階段勘探處理集群網(wǎng)絡(luò)采用了單一的以太網(wǎng)絡(luò)設(shè)備。本方案采用了思科Nexus C9336C-FX2數(shù)據(jù)中心交換機,搭建100GE高速計算數(shù)據(jù)網(wǎng)絡(luò),它支持7.2 Tbps帶寬和2.8bpps以上的吞吐量,集群中的GPU節(jié)點使用100GbE網(wǎng)絡(luò)進(jìn)行并行計算,使用管理網(wǎng)絡(luò)進(jìn)行操作系統(tǒng)管理、信任關(guān)系配置、目錄共享等,實現(xiàn)了計算節(jié)點間的高速通信和數(shù)據(jù)的高效傳輸。

        (四)集群管理

        集群管理是一個復(fù)雜且多方面的領(lǐng)域,涉及對多個計算節(jié)點或設(shè)備的協(xié)調(diào)、調(diào)度、監(jiān)控和維護,其目標(biāo)是通過高效的資源調(diào)度、實時監(jiān)控和容錯的機制確保了集群的穩(wěn)定運行和性能優(yōu)化。無論是基于Agent的傳統(tǒng)方式還是現(xiàn)代的自動化工具,集群管理都需要根據(jù)具體需求進(jìn)行定制化設(shè)計和實施。集群管理的核心任務(wù)是確保資源分配、負(fù)載均衡、監(jiān)控、故障恢復(fù)以及性能優(yōu)化等集群高效、穩(wěn)定地運行。具體包括:

        資源調(diào)度:將任務(wù)合理分配到不同的節(jié)點上,優(yōu)化資源利用率,實現(xiàn)負(fù)載均衡。

        監(jiān)控與日志記錄:實時監(jiān)控集群運行狀態(tài),包括節(jié)點健康狀況、資源使用情況等,并記錄日志以便后續(xù)分析。

        故障恢復(fù)與容錯:通過冗余設(shè)計和自動故障切換機制,確保集群在發(fā)生故障時能夠快速恢復(fù)。

        安全與訪問控制:保護集群免受未授權(quán)訪問,同時確保數(shù)據(jù)的安全性和完整性。

        GPU集群在異構(gòu)計算架構(gòu)中實現(xiàn)高效的資源調(diào)度和管理,主要依賴于多種技術(shù)手段和策略,包括資源池化、細(xì)粒度調(diào)度、自動化管理工具以及異構(gòu)資源的統(tǒng)一管理。異構(gòu)計算架構(gòu)通常包含CPU、GPU等多種計算資源,這些資源需要通過統(tǒng)一的管理平臺進(jìn)行調(diào)度和優(yōu)化。在節(jié)點部署上,綜合應(yīng)用系統(tǒng)鏡像管理技術(shù)、多種子點分發(fā)技術(shù)、配置文件批量修改等技術(shù),建立了地震勘探處理應(yīng)用軟件平臺快速部署系統(tǒng)。

        XCAT是一種開源的集群管理和配置工具,主要用于大規(guī)模計算機集群的自動化部署、擴展和管理。支持多種操作系統(tǒng)和硬件平臺,適用于高性能計算(HPC)、云計算、大數(shù)據(jù)分析等領(lǐng)域。通過XCAT,簡化了集群管理流程,減少手動配置的時間和錯誤。同時利用監(jiān)控工具實時監(jiān)控集群狀態(tài),及時發(fā)現(xiàn)和解決問題,實現(xiàn)從創(chuàng)建到監(jiān)控的全過程自動化管理,既滿足1套處理集群復(fù)用不同處理應(yīng)用軟件的需求,也滿足油氣勘探高精度成像對比研究的科研、生產(chǎn)需求。

        三、性能評估(測試)

        應(yīng)用軟件運行環(huán)境約束條件下,在高性能LINPACK(HPL)測試、理論浮點峰值(Rpeak)、組網(wǎng)測試3個關(guān)鍵性能測試上領(lǐng)先國內(nèi)石油行業(yè)。

        (一)驗證測試條件

        在所有計算節(jié)點上執(zhí)行which mpirun命令,查看是否存在該命令。mpirun命令為英特爾Parallel Studio XE安裝目錄(本例中為/opt/intel)的子目錄。若無錯誤輸出,運行以下命令進(jìn)行英特爾Parallel Studio環(huán)境設(shè)置。

        source /opt/intel/bin/iccvars.sh intel64

        source /opt/intel/impi/2019.1.144/intel64/bin/mpivars.sh intel64 source /opt/intel/bin/compilervars.sh intel64

        (二)運行測試腳本

        進(jìn)入配置腳本所在目錄,執(zhí)行./run_1_node_dgx1_v100x4命令。

        # cd /softs/xhpl_cuda

        # ./run_1_node_dgx1_v100x4

        理論浮點峰值是該計算機理論上能達(dá)到的、每秒鐘能完成浮點計算的最大次數(shù),主要由CPU本身規(guī)格和CPU數(shù)量決定:Rpeak = CPU主頻(標(biāo)準(zhǔn)頻率)×CPU每個時鐘周期執(zhí)行浮點運算的次數(shù)×系統(tǒng)中CPU的總核數(shù),以配置2顆2.8GHz的10核Intel E5-2680 v3 CPU為例,理論浮點峰值計算如下:2.8×20×16=896GFLOPS,抽取5個節(jié)點測試結(jié)果,見表1。

        四、結(jié)語

        后期針對集群“好建難用”的業(yè)界難題,以用戶需求為導(dǎo)向,借鑒IT服務(wù)管理,結(jié)合集群運維技術(shù)和協(xié)同管理平臺技術(shù),圍繞處理員和系統(tǒng)管理員,以知識管理為核心建立了適用于地震勘探處理解釋工作環(huán)境的集群運維體系,保障處理集群高效穩(wěn)定運行。

        通過研究TB級數(shù)據(jù)遠(yuǎn)程傳輸模式、遠(yuǎn)程三維圖像顯示技術(shù)、集群隊列管理和作業(yè)分發(fā)技術(shù)、容器和虛擬機技術(shù)、NIS+用戶管理體系等云計算管理技術(shù),從“云—邊—端”三元素入手,在保障勘探處理工作順利開展的前提下,吸收融合尖端計算機技術(shù)發(fā)展成果,繼續(xù)探索勘探處理集群向科學(xué)計算云平穩(wěn)高效融合的道路,提出的科學(xué)計算云“多中心分布”建設(shè)模式,將勘探處理集群有序融入科學(xué)計算云,進(jìn)一步推動油田高性能計算、存儲資源科學(xué)計算云體系建設(shè)項目發(fā)展。

        參考文獻(xiàn)

        [1]Rajkumar Buyya.高性能集群計算: 第二卷[M].北京:電子工業(yè)出版社,2001.

        [2]陳云霽.智能計算系統(tǒng)[M].北京:機械工業(yè)出版社,2020.

        [3]Alex Vrenios. Linux集群體系結(jié)構(gòu)[M].北京:機械工業(yè)出版社,2003.

        [4]黃傳河.計算機網(wǎng)絡(luò)應(yīng)用設(shè)計[M].武漢:武漢大學(xué)出版社,2004.

        作者單位:新疆油田公司勘探開發(fā)研究院地球物理研究所

        責(zé)任編輯:王穎振 鄭凱津

        深夜日韩在线观看视频| 久久中文字幕av第二页 | 青青草成人免费在线观看视频| 亚洲一区视频中文字幕| 男女视频网站在线观看| 亚洲中文字幕av天堂自拍| 人人摸人人搞人人透| 四虎影视在线影院在线观看| 免费一级特黄欧美大片久久网 | 天天躁夜夜躁狠狠躁2021a2| 图片区小说区激情区偷拍区| 国产尤物精品自在拍视频首页 | 曰本女人牲交全视频免费播放| 国产成人久久精品区一区二区 | 伊人狠狠色丁香婷婷综合| 亚洲国产成人va在线观看天堂| 久久精品这里只有精品| 久久精品国产av大片| 日本久久久精品免费免费理论| 中国一级黄色片久久久| 国产精品一卡二卡三卡| 亚洲av电影天堂男人的天堂| 国产精品不卡无毒在线观看| 国产精品丝袜一区二区三区在线 | 超短裙老师在线观看一区| 国产一区二区免费在线视频| 小妖精又紧又湿高潮h视频69| 97人妻碰碰视频免费上线| 国产精品多人P群无码| 98精品国产高清在线xxxx| 91精品国产综合久久国产| 包皮上有一点一点白色的| 欧美怡红院免费全部视频| 美女啪啪国产| 亚洲最大视频一区二区三区| 蜜桃视频一区二区在线观看| 色多多a级毛片免费看| 国产综合久久久久影院| 国产精品又黄又爽又色| 国产精品一区二区三区免费视频| 欧美大屁股xxxx高跟欧美黑人|