亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ARM架構(gòu)高性能計算機系統(tǒng)部署測試分析與應(yīng)用

        2023-12-28 12:18:34張恩紅周欽強麥博儒王楠田群
        廣東氣象 2023年6期
        關(guān)鍵詞:天河氣象架構(gòu)

        張恩紅,周欽強,麥博儒,王楠,田群

        (1.廣東省氣象數(shù)據(jù)中心,廣東廣州 510080;2.中國氣象局廣州熱帶海洋氣象研究所,廣東廣州 510640)

        數(shù)值預(yù)報在天氣預(yù)報的分析與制作中具有不可或缺的地位,很多學(xué)者在數(shù)值預(yù)報的展示、應(yīng)用等方面做了眾多研究,為天氣預(yù)報準度和精度的提升做了很大貢獻[1-3]。高性能計算機(High Performance Computing,HPC)在氣象行業(yè)的數(shù)值預(yù)報發(fā)展中起到重要作用[4-5],隨著HPC性能的提高,數(shù)值預(yù)報精度逐年在提升[6-8]。中國氣象局在“十四五”規(guī)劃中指出,要建設(shè)足夠大算力資源以滿足國產(chǎn)化的數(shù)值預(yù)報的需求,同時,還強調(diào)算力支撐平臺全面國產(chǎn)化替代策略,提升氣象業(yè)務(wù)應(yīng)用支撐環(huán)境自主可控水平[9]。當前HPC大部分是國外芯片。受到國外核心技術(shù)輸出的約束,無論是天河Ⅱ號,還是自建的IBM HPC系統(tǒng),其維護成本高、難度大、周期長,對業(yè)務(wù)影響與日俱增。廣東省氣象局使用的HPC算力主要來自租賃天河Ⅱ號的資源,受到氣象模式對巨大數(shù)據(jù)的需求量影響,僅僅能支撐基礎(chǔ)業(yè)務(wù),模式的發(fā)展受到嚴重的制約,無法得到滿足。深圳超算中心,受到網(wǎng)絡(luò)帶寬成本的約束,暫時無法支持異地氣象業(yè)務(wù)的應(yīng)用。

        近幾年,很多國家和廠家開始提供ARM(Advanced RISC Machine,一款微處理器)芯片,生產(chǎn)和建設(shè)ARM 架構(gòu)的高性能計算機。截至2022年5月,世界排名第2的日本富岳高性能計算機就是ARM架構(gòu),并且當前ARM架構(gòu)服務(wù)器的市場增長率超過31%,而其他產(chǎn)品的市場增長率只有7%。近2年,很多行業(yè)開始建設(shè)基于ARM架構(gòu)的HPC[10-11],華為HPC在交通、制造、科學(xué)計算、風(fēng)電等行業(yè)得到很大應(yīng)用。但是,在氣象行業(yè)還沒有成功的案例。為了達到自主可控,節(jié)能環(huán)保,廣東省氣象局首次結(jié)合氣象行業(yè)應(yīng)用的需求,建設(shè)了一套基于鯤鵬芯片的ARM架構(gòu)HPC系統(tǒng),實現(xiàn)HPC計算資源自主可控、綠色環(huán)保目的,達到碳源匯、環(huán)境氣象和CMA-TRAMS等數(shù)值預(yù)報模式運算需求,為氣象高質(zhì)量發(fā)展保駕護航。隨后,浙江省氣象局、中國氣象局也逐漸開始建設(shè)ARM的HPC系統(tǒng),而且規(guī)模也越來越大。

        1 ARM架構(gòu)HPC系統(tǒng)設(shè)計

        純國產(chǎn)HPC是指整個系統(tǒng)的核心設(shè)備均為國產(chǎn)化設(shè)備,包括管理節(jié)點、計算節(jié)點、網(wǎng)絡(luò)、存儲等設(shè)備。為了實現(xiàn)HPC的高可用、快速計算的特性,并且達到低能耗的需求,服務(wù)器采用ARM架構(gòu)的芯片,無疑是最好的選擇,網(wǎng)絡(luò)設(shè)備采用千兆以太網(wǎng)、萬兆接入網(wǎng)和10萬兆RoCE網(wǎng)絡(luò)混合模式,既高效又節(jié)約。圖1是系統(tǒng)網(wǎng)絡(luò)邏輯架構(gòu)示意圖。

        圖1 HPC邏輯架構(gòu)示意圖

        在管理節(jié)點設(shè)計上,采用2+2的方式,即2個系統(tǒng)管理節(jié)點,設(shè)計為雙機互為備份功能。2個用戶登入管理節(jié)點,設(shè)計為并列結(jié)構(gòu),兩個節(jié)點的功能一致,但可以對用戶進行分流管理,同時也可以互相備份功能,可以避免單點故障問題。該設(shè)計支持橫向擴展,即當集群節(jié)點增加,用戶數(shù)量增加,系統(tǒng)管理節(jié)點可以輕松的橫向增加,用戶登入節(jié)點也可以橫向擴容。

        在網(wǎng)絡(luò)部署上,整個系統(tǒng)分為3個部分,包括帶外管理、業(yè)務(wù)管理和快速計算網(wǎng)絡(luò)。根據(jù)網(wǎng)絡(luò)的功能特點,按需設(shè)計,既保證業(yè)務(wù)需求,又節(jié)約環(huán)保。帶外管理業(yè)務(wù)用于對硬件系統(tǒng)的檢查、監(jiān)控與維護,對帶寬需求不高,采用千兆網(wǎng)絡(luò);業(yè)務(wù)管理網(wǎng)絡(luò),需要跟HPC以外的業(yè)務(wù)系統(tǒng)有數(shù)據(jù)交換業(yè)務(wù),對帶寬和性能有較高的需求,采用萬兆網(wǎng)絡(luò),即可保證業(yè)務(wù)及時傳輸;快速計算網(wǎng)絡(luò),采用100 G的RoCE網(wǎng)絡(luò),該網(wǎng)絡(luò)是專門為HPC并行文件系統(tǒng)服務(wù),用于實現(xiàn)并行計算時數(shù)據(jù)的快速交換。

        在系統(tǒng)安全設(shè)計上,全網(wǎng)設(shè)備均配置了兩條鏈路,實現(xiàn)一主一備配置,可以實時動態(tài)切換,以防出現(xiàn)網(wǎng)絡(luò)層面的單點故障,導(dǎo)致系統(tǒng)性崩潰。

        在存儲資源上,配置了高性能的并行文件系統(tǒng)和大容量的NAS數(shù)據(jù)共享存儲,并行文件系統(tǒng)用于數(shù)據(jù)并行計算和過程文件的存放,而NAS系統(tǒng)作為加工產(chǎn)品的存儲與歸檔服務(wù)。

        2 性能指標測試分析

        HPC對整體性能要求較高,在基礎(chǔ)建設(shè)完成之后,首先需要做全面的性能測試。采用4個管理節(jié)點,72個計算節(jié)點,1套并行文件系統(tǒng)、1套大容量的NAS存儲和3層網(wǎng)絡(luò)設(shè)備組成HPC。采用centos 7.6的操作系統(tǒng),已安裝畢昇編譯器、Hyper MPI的軟件環(huán)境。魏敏等[12]和孫婧等[13]、趙春燕等[14]對高性能計算系統(tǒng)性能測試提出了各自的方法,取得很好的評估效果。采用OSU、STREAM、IOR、HPL等專業(yè)測試工具對系統(tǒng)各個性能指標進行測試。

        2.1 RoCE網(wǎng)絡(luò)的帶寬和延時測試

        在HPC設(shè)計時,要求使用8850交換機單跳最低時延大概在1.8~2μs。帶寬100 G網(wǎng)卡的帶寬一般在95 GB/s(或12 GB/s左右),在測試時,時延判定以小數(shù)據(jù)包傳輸速率為準,帶寬大小的判定以大數(shù)據(jù)包傳輸為準。

        使用OSU對并行文件系統(tǒng)的測試,在傳輸文件內(nèi)容大小超過4 MB時,網(wǎng)絡(luò)傳輸帶寬基本在12 GB/s以上,與設(shè)備設(shè)計參數(shù)相符。

        在交換數(shù)據(jù)包小于128字節(jié)時,延遲均小于2μs,在小于1 kB的前提下,延遲測試基本小于3μs,滿足高性能計算的數(shù)據(jù)交換速度要求,滿足設(shè)計的指標要求。

        2.2 STREAM測試計算節(jié)點內(nèi)存讀寫性能

        在HPC設(shè)計時,要求當前配置下的集群服務(wù)器內(nèi)存訪問速度大于230 GB/s。

        該測試環(huán)境為對一個長度為10億的數(shù)組進行測試,獲得內(nèi)存帶寬的性能,主要有4種數(shù)組的運算,分別是數(shù)組的復(fù)制(Copy)、數(shù)組的尺度變換(Scale)、數(shù)組的矢量求和(Add)、數(shù)組的復(fù)合矢量求和(Triad),每次操作都需要2次以上的內(nèi)存讀寫,從測試結(jié)果看都超過了230 GB/s。

        2.3 IOR測試存儲的讀寫性能

        在HPC設(shè)計時,要求使用的內(nèi)存單節(jié)點1 MB帶寬讀寫,文件系統(tǒng)讀帶寬≥2.3 GB/s,寫帶寬≥3.6 GB/s。

        在對HPC并行文件系統(tǒng)的讀寫性能測試時,測得讀的速度在3.1 GB/s以上,寫的速度為4.2 GB/s以上,兩個指標都大于設(shè)計指標值。

        2.4 HPL測試計算節(jié)點的計算性能

        算力指標衡量計算系統(tǒng)的雙精度浮點計算性能,經(jīng)驗值一般在85%以上(實測計算能力÷理論計算能力×100%)。

        使用算力測試工具HPL分別對集群中1~72個節(jié)點做不同數(shù)量節(jié)點算力進行測試,測試結(jié)果表明,不同的節(jié)點數(shù)的算力測試都超過理論值的89%,超過了系統(tǒng)設(shè)計的指標值(表1)。

        表1 不同節(jié)點數(shù)算力值實測結(jié)果1)

        從以上測試結(jié)果表明,該系統(tǒng)的整體架構(gòu)和設(shè)備性能基本達到各種設(shè)備的設(shè)計理論值,說明系統(tǒng)的連通性、協(xié)調(diào)性、一致性均已到達預(yù)期,可以投入業(yè)務(wù)使用。表2匯總了上述指標測試結(jié)果,從測試結(jié)果與設(shè)計指標的對比可以看出,所有指標均滿足設(shè)計要求。

        表2 各種性能測試匯總

        3 系統(tǒng)業(yè)務(wù)試用

        業(yè)務(wù)試用時部署了幾個典型的數(shù)值預(yù)報模式,包括碳源匯、環(huán)境氣象和GRAPES模式的CMA-TRAMS等模式。對每個模式進行功能調(diào)試和性能對比測試。

        3.1 碳源匯模式

        碳源匯模式使用WRF-GHG驅(qū)動,100×92格點,每個周期積分120 h,每1 h輸出。使用4月份的輸入數(shù)據(jù),共運行9個周期。通過對Hybrid算法和數(shù)學(xué)庫優(yōu)化,編譯使用鯤鵬數(shù)學(xué)庫,能明顯減低數(shù)學(xué)函數(shù)熱點,總體性能約提升3%。選取一個周期在自建系統(tǒng)平臺主程序拓展性的運行時長和線性度,如圖2所示,從圖2可以看出,模式運算并不是節(jié)點數(shù)越多,計算性能越高,結(jié)果表明雙碳模式在8個節(jié)點時,性能就達到最優(yōu)。利用該方案,共耗時1 190min完成9個周期的計算。編譯選項優(yōu)化后與初始配置相比,性能提升20%左右。

        圖2 碳源匯模式性能測試

        3.2 GRAPES模式的測試

        基于國產(chǎn)GRAPES模式的CMA-TRAMS軟件9 km模式使用ECM驅(qū)動,1 001×601格點,積分168 h,每6 h輸出。天河平臺上使用20節(jié)點,用時202 min。自建系統(tǒng)平臺使用20節(jié)點,用時73.6 min。同等節(jié)點數(shù)下自建系統(tǒng)平臺性能約是原有天河平臺的2.74倍。在同等算力下,自建系統(tǒng)平臺采用6個節(jié)點,耗時195 min,功耗2 700 W;天河平臺的20個節(jié)點,耗時202 min,功耗6 000W。在效率上,兩者相當;在能耗上,自建系統(tǒng)有明顯的優(yōu)勢,節(jié)能55%,充分體現(xiàn)出ARM架構(gòu)綠色的特征。

        分別計算自建系統(tǒng)和天河平臺的預(yù)報結(jié)果與EC分析場數(shù)據(jù)的平均絕對誤差(MAE),然后比較兩個平臺MAE的大小,數(shù)值越小說明與EC分析場數(shù)據(jù)越接近。

        相對誤差計算方法

        在圖3和圖4中,0.01表示自建系統(tǒng)誤差比天河高1%,-0.01則為自建系統(tǒng)誤差比天河低1%。通過對比相對誤差可以發(fā)現(xiàn),方案調(diào)優(yōu)之前,無論是位勢高度,還是風(fēng)速的預(yù)報,在6 000 m以下的低空范圍,自建系統(tǒng)的誤差遠比天河的大;6 000 m以上,互有偏差。使用CU調(diào)整方案后,再分別對比自建系統(tǒng)平臺、天河平臺的MAE,發(fā)現(xiàn)天河跟自建系統(tǒng)平臺結(jié)果非常接近,自建系統(tǒng)平臺的計算精度滿足要求。

        圖3 調(diào)整前(a)和調(diào)整后(b)的24 h位勢高度預(yù)報的MAE

        圖4 調(diào)整前(a)和調(diào)整后(b)的24 h風(fēng)速預(yù)報的MAE

        3.3 環(huán)境氣象模式的測試

        環(huán)境氣象模式使用CMAQ驅(qū)動,兩層嵌套的區(qū)域格點數(shù)分別為283×184、250×190,預(yù)報168 h。自建系統(tǒng)平臺上使用4節(jié)點,完整業(yè)務(wù)流程用時145 h。

        通過對Hybrid算法和數(shù)學(xué)庫優(yōu)化,編譯選項優(yōu)化后與初始配置相比,性能提升5%左右。在編譯時候,使用自建系統(tǒng)數(shù)學(xué)庫,能明顯減低數(shù)學(xué)函數(shù)熱點,提升總體性能約1%。

        開展了多CPU并行運算的計算效率評估。分別開展了60個CPU與120個CPU的模擬實驗,得出在使用相同CPU的情況下,自建系統(tǒng)的計算效率高于天河二號。對比結(jié)果見表3。

        表3 天河二號和自建系統(tǒng)運行耗時對比評估

        從表3可以看出,60個CPU和120個CPU的測試場景,自建系統(tǒng)的耗時均小于天河Ⅱ號,效率提升24%以上。

        經(jīng)過對服務(wù)器、存儲和網(wǎng)絡(luò)等設(shè)備的綜合選型和評估,再結(jié)合HPC的特征,采用ARM架構(gòu)的服務(wù)器、3層不同級別的網(wǎng)絡(luò)配置和高速與大容量存儲的混合設(shè)計,構(gòu)建了一套既節(jié)能又性價比高的超算系統(tǒng)。通過應(yīng)用測試,完成碳源匯、環(huán)境和GRAPES模式的遷移,解決了X86架構(gòu)到ARM架構(gòu)的技術(shù)差異性問題,解決了ARM運行環(huán)境的生態(tài)支撐庫不足的問題。對比自建的HPC系統(tǒng)與天河Ⅱ號系統(tǒng),模式的輸出結(jié)果及運行性能均達到或超過現(xiàn)在的業(yè)務(wù)需求。

        猜你喜歡
        天河氣象架構(gòu)
        氣象
        基于FPGA的RNN硬件加速架構(gòu)
        氣象樹
        湖南省瀟水涔天河水庫擴建工程通過竣工驗收
        中國水利(2022年1期)2022-02-13 07:37:00
        《內(nèi)蒙古氣象》征稿簡則
        功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實踐
        汽車工程(2021年12期)2021-03-08 02:34:30
        一條天河走運來
        北方音樂(2019年13期)2019-08-21 02:14:32
        大國氣象
        天河CBD:集聚創(chuàng)新,遇見城市未來
        空中之家(2017年11期)2017-11-28 05:27:45
        LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
        精品9e精品视频在线观看| 国产精品丝袜美女久久| 国内自拍速发福利免费在线观看| 无码人妻一区二区三区免费视频 | 亚洲色大成网站www尤物| 91精品国产闺蜜国产在线| 黑丝美腿国产在线观看| 国产成人精品日本亚洲专区61| 性一乱一搞一交一伦一性 | 久久国产精品二国产精品| 国产真实乱对白在线观看| 亚洲永久免费中文字幕| 久人人爽人人爽人人片av| 亚洲欧洲日产国码高潮αv| 美女窝人体色www网站| 国产激情一区二区三区不卡av| 熟妇人妻无码中文字幕老熟妇| 抽插丰满内射高潮视频| 黑人一区二区三区在线| 五月婷婷六月丁香久久综合| 国产日产综合| 久久久久亚洲女同一区二区| 久久网站在线免费观看| 狠狠色噜噜狠狠狠8888米奇| 国产精品天天在线午夜更新| 91亚洲欧洲日产国码精品| 久久伊人精品色婷婷国产| 亚洲国产精品国自产拍av| 最新国产乱视频伦在线| 久久久精品国产亚洲av网不卡| 国产激情视频免费在线观看| 国产精品白丝喷水在线观看| 2020国产精品久久久久| 中文字幕亚洲高清视频| 无码人妻人妻经典| 美日韩毛片| 国产网友自拍视频在线观看| 中国杭州少妇xxxx做受| 国产成人无码av在线播放dvd| 亚洲国产av剧一区二区三区| 男人的天堂一区二av|