亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        船舶三維聲彈性模擬軟件的并行優(yōu)化策略*

        2019-11-12 05:41:06呂小敬蔣令聞陳德訓(xùn)楊廣文1
        計(jì)算機(jī)與生活 2019年11期
        關(guān)鍵詞:異構(gòu)進(jìn)程彈性

        呂小敬,劉 釗,蔣令聞,陳德訓(xùn),楊廣文1,

        1.國(guó)家超級(jí)計(jì)算無(wú)錫中心,江蘇 無(wú)錫 214072

        2.中國(guó)船舶科學(xué)研究中心,江蘇 無(wú)錫 214082

        3.國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心,江蘇 無(wú)錫 214083

        4.清華大學(xué),北京 100084

        1 引言

        船舶三維聲彈性分析理論與方法研究彈性浮體與水介質(zhì)的耦合振動(dòng)及由此引起的聲輻射、聲散射和聲傳播問(wèn)題。在此基礎(chǔ)上開(kāi)發(fā)的船舶三維水彈性聲學(xué)分析軟件THAFTS-Acoustic(three-dimensional hydroelastic analysis of floating traveling structures)可以實(shí)現(xiàn)船內(nèi)振動(dòng)傳遞與船舶水中輻射聲場(chǎng)的統(tǒng)一計(jì)算與分析,具有良好的工程應(yīng)用性[1-2]。

        三維聲彈性力學(xué)的研究在改善船舶運(yùn)動(dòng)性能與安全性,控制船舶振動(dòng)噪聲及提高水下隱身性能等一系列工程問(wèn)題中有廣泛的應(yīng)用需求和發(fā)展前景。1984年,Wu[3]建立了二維水彈性力學(xué)理論,將船體結(jié)構(gòu)簡(jiǎn)化為非均勻Euler 梁或Timoshenko 梁。Price 和Wu[4]將結(jié)構(gòu)動(dòng)力學(xué)理論與三維船舶運(yùn)動(dòng)勢(shì)流理論相結(jié)合,提出了廣義流固耦合邊界條件,開(kāi)創(chuàng)性地發(fā)展了適用于波浪中任意三維可變形體承受內(nèi)的三維水彈性力學(xué)理論。Du 等[5]發(fā)展了零航速三維脈動(dòng)源Green函數(shù)快速計(jì)算方法,并建立了完善的三維航行船體線性水彈性力學(xué)頻域分析理論的數(shù)值計(jì)算方法。Zhou等[6]在三維水彈性理論及程序基礎(chǔ)上,發(fā)展了帶速航速、計(jì)及海面及海底邊界影響的船舶三維聲彈性理論,同時(shí)開(kāi)發(fā)了一套較完整的可用于解決復(fù)雜船舶結(jié)構(gòu)低中頻段聲彈性問(wèn)題的數(shù)值模擬軟件。

        三維聲彈性理論及軟件功能已日益完善,如何提高軟件計(jì)算能力,完善軟件計(jì)算復(fù)雜結(jié)構(gòu)、復(fù)雜海洋水聲信道環(huán)境的功能,實(shí)現(xiàn)多工況、大任務(wù)計(jì)算的能力已迫在眉睫。而近年來(lái),高性能計(jì)算蓬勃發(fā)展,如結(jié)合高性能計(jì)算理論及超級(jí)計(jì)算機(jī)的海量計(jì)算資源,對(duì)現(xiàn)有程序進(jìn)行并行升級(jí)和優(yōu)化,提高軟件的大規(guī)模高效率計(jì)算性能,成為了一個(gè)具有重要應(yīng)用價(jià)值的研究課題[7-15]。

        本文針對(duì)三維聲彈性理論算法特點(diǎn),結(jié)合“神威·太湖之光”計(jì)算資源及體系架構(gòu),完成了三維聲彈性軟件THAFTS-Acoustic 廣義水動(dòng)力系數(shù)計(jì)算模塊(THAFTS-Acoustic-hycof)核心算法的多級(jí)并行。使用某典型算例對(duì)多級(jí)并行優(yōu)化策略進(jìn)行測(cè)試和驗(yàn)證,測(cè)試結(jié)果表明:完成多級(jí)并行后,核心算法代碼段獲得18 倍的加速效果,且程序具有良好的并行可擴(kuò)展性,能夠支持THAFTS-Acoustic進(jìn)行超大規(guī)模和更高精度的并行計(jì)算,為進(jìn)一步改善我國(guó)船舶運(yùn)動(dòng)性能、安全性、震動(dòng)噪聲以及水下隱身性能指出了一條可行的道路。

        2 三維聲彈性算法及應(yīng)用軟件簡(jiǎn)介

        2.1 三維聲彈性算法概述

        頻域內(nèi)船舶聲彈耦合動(dòng)力學(xué)方程為:

        其中,ω為頻率,MA為結(jié)構(gòu)干模態(tài)廣義質(zhì)量矩陣,CA為廣義阻尼矩陣,KA為廣義剛度矩陣,[AA]為干模態(tài)附連水質(zhì)量矩陣,[BA]是干模態(tài)附連水質(zhì)量阻尼矩陣,[CA]為廣義恢復(fù)力稀疏矩陣。

        流場(chǎng)內(nèi)的速度勢(shì)及基本運(yùn)動(dòng)方程滿足:

        其中,?(x0,y0,z0,t)為相對(duì)于固定坐標(biāo)系的流場(chǎng)中總的速度勢(shì),為船舶恒速直線航行所誘導(dǎo)的相對(duì)于平衡坐標(biāo)系的非均勻穩(wěn)態(tài)流場(chǎng)速度勢(shì),?O(x,y,z,t)、?D(x,y,z,t)、?R(x,y,z,t)分別為入射波速度勢(shì)、反射波速度勢(shì)及輻射波速度勢(shì)。

        考慮到船體在無(wú)粘、無(wú)旋的可壓聲介質(zhì)中,應(yīng)滿足Bernoulli方程(Cauchy-Lagrange積分):

        結(jié)合各階模態(tài)的輻射波對(duì)應(yīng)的流固耦合邊界條件:

        采用頻率法求解時(shí),r階廣義力F的表達(dá)式可展開(kāi)為:

        其中,Arj、Brj、Crj分別為流體作用在結(jié)構(gòu)上的附連水質(zhì)量矩陣、附連水阻尼矩陣及廣義恢復(fù)力系數(shù)矩陣,S為結(jié)構(gòu)平均濕表面。

        采用有限水深環(huán)境中聲波Green函數(shù)(7)求解流場(chǎng)內(nèi)的速度勢(shì)及基本運(yùn)行方程可得:

        輻射波速度勢(shì)的表達(dá)式為:

        采用Hess-Smith 等強(qiáng)度源方法,將船體濕表面(與流體接觸的表面)離散成N塊四邊形面元,則:

        各階模態(tài)的輻射波速度勢(shì)與主坐標(biāo)響應(yīng)滿足:

        根據(jù)模態(tài)疊加原理,由式(1)~式(10)求出各階干模態(tài)主坐標(biāo)響應(yīng)qr(r=1,2,…,m)后,帶入船舶結(jié)構(gòu)振動(dòng)方程,即得結(jié)構(gòu)振動(dòng)響應(yīng)及流場(chǎng)內(nèi)輻射聲性能。

        三維聲彈性計(jì)算涉及多場(chǎng)耦合、多物理量、多核心段,單一的并行模式根本無(wú)法滿足所有計(jì)算熱點(diǎn)的高效并行,因此需要針對(duì)該軟件算法特點(diǎn),構(gòu)建多層次、多類型異構(gòu)并行模型,支持?jǐn)?shù)據(jù)并行與任務(wù)并行結(jié)合的混合并行模式,擴(kuò)大程序并行度,保證各并行層次上的負(fù)載平衡,同時(shí)結(jié)合神威太湖之光超級(jí)計(jì)算機(jī)體系架構(gòu),研究恰當(dāng)?shù)亩嗉?jí)混合并行算法實(shí)現(xiàn),充分發(fā)揮眾核處理器的超高計(jì)算性能。

        2.2 三維聲彈性軟件流程

        三維聲彈性軟件包含三個(gè)模塊:flxbd、hycof、hyelas。flxbd模塊對(duì)輸入的數(shù)據(jù)進(jìn)行預(yù)處理,生成廣義水動(dòng)力系數(shù)計(jì)算模塊hycof所需數(shù)據(jù);hycof模塊通過(guò)計(jì)算格林函數(shù)及其偏導(dǎo)數(shù),計(jì)算源強(qiáng)和速度勢(shì),得到水動(dòng)力系數(shù)等參數(shù);hyelas模塊根據(jù)水動(dòng)力參數(shù)求解廣義流固耦合動(dòng)力學(xué)方程,生成后處理所需數(shù)據(jù)。其中廣義水動(dòng)力系數(shù)計(jì)算模塊hycof和hyelas計(jì)算量較大,目前僅實(shí)現(xiàn)了一維濕面元并行,程序并行效率低,無(wú)法滿足濕面元/模態(tài)平方依賴或者更高依賴的函數(shù),且超過(guò)64進(jìn)程時(shí),會(huì)出現(xiàn)倒加速情況。本文針對(duì)hycof 模塊內(nèi)不同計(jì)算過(guò)程及各計(jì)算過(guò)程數(shù)據(jù)依賴關(guān)系,考慮計(jì)算過(guò)程復(fù)雜度,考慮多級(jí)并行時(shí)各計(jì)算過(guò)程銜接及過(guò)程間數(shù)據(jù)銜接,實(shí)現(xiàn)了廣義水動(dòng)力系數(shù)計(jì)算模塊多級(jí)異構(gòu)并行,提高程序并行度及可擴(kuò)展性能。THAFTS-Acoustic軟件流程圖如圖1所示。

        Fig.1 Flow chart of THAFTS-Acoustic software圖1 THAFTS-Acoustic軟件流程圖

        3 神威·太湖之光超級(jí)計(jì)算機(jī)系統(tǒng)簡(jiǎn)介

        3.1 SW26010處理器

        神威·太湖之光超級(jí)計(jì)算機(jī)全機(jī)由40 960 塊SW26010 異構(gòu)眾核處理器、20 480 塊計(jì)算板節(jié)點(diǎn)組成,共有10 649 600 個(gè)計(jì)算核心,系統(tǒng)峰值性能為125.4 PFlops,已連續(xù)4次蟬聯(lián)TOP500榜首。SW26010處理器架構(gòu)如圖2所示。

        SW26010異構(gòu)眾核處理器包含4個(gè)核組,每個(gè)核組包含1 個(gè)主核和64 個(gè)從核,核組內(nèi)提供8 GB 本地內(nèi)存。從核局部(local data memory,LDM)存儲(chǔ)空間大小為64 KB。從核訪問(wèn)LDM 速度較快,因此眾核優(yōu)化的關(guān)鍵是減少?gòu)暮嗽L主存次數(shù),提高LDM 利用率。

        3.2 “神威·太湖之光”并行方法

        “神威·太湖之光”計(jì)算機(jī)系統(tǒng)語(yǔ)言環(huán)境包括基礎(chǔ)語(yǔ)言系統(tǒng)、并行編程語(yǔ)言接口、用戶使用環(huán)境及基礎(chǔ)編程環(huán)境,支持消息并行模型、共享并行編程模型、加速并行編程模型,同時(shí)支持4種異構(gòu)并行方式:主從加速并行、主從協(xié)同并行、主從異步并行、主從動(dòng)態(tài)并行。異構(gòu)并行方式如圖3所示。

        Fig.2 Architecture of SW26010圖2 SW26010處理器架構(gòu)

        Fig.3 Heterogeneous parallel method on Sunway TaihuLight圖3 “神威·太湖之光”計(jì)算機(jī)系統(tǒng)異構(gòu)并行方法

        主從加速并行中,計(jì)算核心通過(guò)加速線程庫(kù)加載核心段到從核上完成加速計(jì)算,主核等待加速任務(wù)結(jié)束后完成通信、IO(input/output)和部分代碼計(jì)算;主從協(xié)同并行時(shí),主核作為一個(gè)核心,與從核一起完成核心任務(wù)計(jì)算;主從異步并行時(shí),主核完成計(jì)算、通信、IO操作,從核完成核心加速,可實(shí)現(xiàn)計(jì)算通信隱藏、計(jì)算IO 隱藏,優(yōu)化效果明顯;主從動(dòng)態(tài)并行主要應(yīng)用于從核計(jì)算任務(wù)時(shí)間不固定或者某些任務(wù)并行的程序。

        4 三維聲彈性軟件多級(jí)異構(gòu)并行算法實(shí)現(xiàn)及優(yōu)化

        本文基于異構(gòu)并行模型,根據(jù)船舶三維聲彈性算法特點(diǎn),以不同計(jì)算階段計(jì)算密度為特征,以變量依賴關(guān)系分析為基礎(chǔ),在以數(shù)據(jù)預(yù)處理和基本變化為主的前后端計(jì)算階段采用MPI(message passing interface)消息傳遞并行;在核心計(jì)算階段,研究多級(jí)異構(gòu)主從異步算法,增大程序并行度,采用分塊策略和通信計(jì)算隱藏策略,實(shí)現(xiàn)不同并行層次上的負(fù)載平衡。多級(jí)并行方案如圖4所示。

        Fig.4 Multi-level parallel schematic of THAFTS-Acoustic-hycof圖4 三維聲彈性軟件多級(jí)并行圖

        4.1 一維濕面元級(jí)并行算法實(shí)現(xiàn)

        假定船體離散后總濕面元數(shù)為IXX,總進(jìn)程數(shù)為numprocs,一維數(shù)據(jù)并行時(shí)數(shù)據(jù)并行方式如圖5所示。

        Fig.5 One-dimensional parallel strategy of wet surface element圖5 一維濕面元級(jí)并行策略

        采用一維濕面元并行操作較為簡(jiǎn)單,對(duì)程序的修改最少,進(jìn)程間通信次數(shù)和通信總的數(shù)據(jù)量可以達(dá)到最小,便于實(shí)現(xiàn)多級(jí)并行中各過(guò)程間數(shù)據(jù)銜接及多工況程序耦合。

        4.2 二維濕面元并行及模態(tài)并行算法實(shí)現(xiàn)

        一維濕面元并行可以較為簡(jiǎn)單地實(shí)現(xiàn)計(jì)算量線性依賴濕面元數(shù)的函數(shù),然而對(duì)于平方依賴或更高依賴濕面元的函數(shù)效果卻不是很好,如計(jì)算格林根數(shù)偏導(dǎo)VIN(IXX,IX)及求解源強(qiáng)SV(IXX,MODE),隨著濕面元數(shù)及求解模態(tài)數(shù)增加,程序并行效率降低。以由格林函數(shù)偏導(dǎo)求解源強(qiáng)為例,同一列VIN分布在不同的進(jìn)程中,主進(jìn)程需要通信收集列主元行號(hào),通信完成列主元行與當(dāng)前行交換,完成處理后,仍需要與其他進(jìn)程通信。當(dāng)并行規(guī)模較小時(shí),這種并行方案有一定并行加速效果,但是隨著進(jìn)程數(shù)增多,通信量急劇增大,加速效果越來(lái)越差,甚至出現(xiàn)倒加速。因此需要設(shè)計(jì)更為合理的并行模式。

        本文采用二維濕面元/模態(tài)分塊并行解決上述問(wèn)題。假設(shè)行進(jìn)程數(shù)為NPROW,列進(jìn)程數(shù)為NPCOL,行進(jìn)程分得塊大小為NNB,列進(jìn)程分塊大小為NNM,各進(jìn)程分得的行數(shù)為NNP,列數(shù)為NNQ,MYROW為行進(jìn)程號(hào),MYCOL為列進(jìn)程號(hào),MYID為當(dāng)前進(jìn)程組號(hào),數(shù)據(jù)劃分方式如圖6所示。

        二維分塊并行后,可以對(duì)進(jìn)程進(jìn)行分組操作,同時(shí)某進(jìn)程完成NNB行×NNM列計(jì)算后,在與其他進(jìn)程進(jìn)行塊通信同時(shí),可計(jì)算下一個(gè)NNB行×NNM列塊,便于實(shí)現(xiàn)通信和計(jì)算隱藏。

        對(duì)于某些計(jì)算量與濕面元數(shù)/模態(tài)數(shù)成平方依賴的函數(shù),采用二維濕面元并行程序擴(kuò)展性更好,同時(shí)便于利用更大的進(jìn)程數(shù)。

        4.3 基于athread的眾核并行算法實(shí)現(xiàn)及優(yōu)化

        SW26010處理器上每個(gè)從核配備了用戶可控的64 KB局部數(shù)據(jù)高速緩存(LDM),支持gld/gst直接離散訪問(wèn)主存及DMA批量數(shù)據(jù)訪問(wèn)主存,并將數(shù)據(jù)放置在LDM 中。從核訪問(wèn)主存訪問(wèn)效率很低,需要數(shù)百個(gè)時(shí)鐘周期,而從核訪問(wèn)LDM 數(shù)據(jù)僅需要數(shù)個(gè)時(shí)鐘周期。因此,眾核并行性能提升的關(guān)鍵是充分利用從核LDM,減少訪存次數(shù),降低訪存開(kāi)銷及通信開(kāi)銷。

        4.3.1 DMA通信數(shù)據(jù)的合并

        Fig.6 Two-dimensional block parallel strategy of wet surface element/mode圖6 二維濕面元/模態(tài)分塊并行策略

        減少通信和訪存開(kāi)銷的最直接方法就是減少通信次數(shù),減小需要通信的數(shù)據(jù)和增大單次數(shù)據(jù)通信的數(shù)據(jù)長(zhǎng)度。因此可以將需要通信的數(shù)據(jù)進(jìn)行合并和計(jì)算,減少通信次數(shù),提高通信帶寬利用率。

        三維聲彈性求解速度勢(shì)時(shí),觀察到格林函數(shù)數(shù)組GRNN(IXX,5,IX)與AR_A(IXX)數(shù)組,按照LDM大小分塊拷貝到從核時(shí),需要6次通信。將格林函數(shù)數(shù)組GRNN與AR_A數(shù)組合并為一個(gè)數(shù)組后,通信次數(shù)可降低為1,且可增大單次數(shù)據(jù)拷貝量,既減少了訪存,又增大通信帶寬利用率。

        4.3.2 循環(huán)分塊及循環(huán)合并

        異構(gòu)眾核并行及優(yōu)化中,需充分利用從核局存訪存性能,將數(shù)據(jù)盡量多地放到LDM 中,而SW26010 芯片的從核LDM 僅有64 KB,實(shí)際課題中無(wú)法將內(nèi)層循環(huán)相關(guān)物理量一次性拷貝到LDM 中,訪主存則加速性能較低。本文根據(jù)從核LDM 大小,選擇合適的分塊并行方式,提高從核訪存性能。

        實(shí)際應(yīng)用課題中,核心段一般包含多重循環(huán),如果僅按照最外層循環(huán)做任務(wù)劃分,易造成從核間負(fù)載不均衡。本文采用外層循環(huán)合并方式,增大程序并行度,提高程序的并行性能。循環(huán)分塊及循環(huán)合并實(shí)現(xiàn)如圖7所示。

        Fig.7 Loop tile and loop collapse multicore parallelization scheme圖7 循環(huán)合并及循環(huán)分裂眾核并行方案

        4.3.3 通信計(jì)算隱藏

        對(duì)于眾核加速計(jì)算程序,提高DMA 帶寬,降低從核DMA 通信時(shí)間是提升性能的另一關(guān)鍵策略。本文采用計(jì)算和通信隱藏方案,具體實(shí)現(xiàn)過(guò)程如圖8所示。

        Fig.8 Over hiding parallel scheme of communication and computation圖8 通信計(jì)算隱藏并行方案

        4.3.4 向量化

        SW26010處理器具備256位向量寄存器,可一次處理4 次浮點(diǎn)計(jì)算,8 次整型計(jì)算。因此一條SIMD(single instruction multiple data)指令相當(dāng)于一個(gè)小的循環(huán),可以減少指令數(shù)及由循環(huán)引起的控制相關(guān),充分利用SIMD擴(kuò)展結(jié)構(gòu)提高性能。

        SIMD編程在標(biāo)準(zhǔn)C的基礎(chǔ)上擴(kuò)展得到了6種標(biāo)準(zhǔn)數(shù)據(jù)類型intv8、unitv8、int256、uint256、floatv4 及doublev4,標(biāo)準(zhǔn)變量需要通過(guò)顯式SIMD 內(nèi)部函數(shù)調(diào)用、擴(kuò)充的數(shù)據(jù)類型等實(shí)現(xiàn)SIMD的功能。

        hycof 核心段內(nèi)主要為復(fù)矩陣運(yùn)算,計(jì)算兩個(gè)復(fù)數(shù)乘c=c+a*b時(shí),假設(shè)初始c=(c1+c2i),a=(a1+a2i),b=(b1+b2i),則c=(c1+a1*b1-a2*b2)+(c2+a1*b2+a2*b1)i。然而神威太湖之光系統(tǒng)沒(méi)有與復(fù)數(shù)類型匹配的擴(kuò)展數(shù)據(jù)類型,必須將復(fù)數(shù)矩陣轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)擴(kuò)展數(shù)據(jù)類型。復(fù)數(shù)分實(shí)部虛部,一個(gè)complex*16 相當(dāng)于兩個(gè)real*8。本文采用如下復(fù)數(shù)向量化方案,如圖9 所示:兩個(gè)復(fù)數(shù)可擴(kuò)展為一個(gè)doublev4 擴(kuò)展數(shù)據(jù)類型,之后通過(guò)SIMD 內(nèi)部函數(shù)調(diào)用,可分離數(shù)據(jù),得到復(fù)數(shù)計(jì)算實(shí)部虛部,再通過(guò)向量間運(yùn)算,實(shí)現(xiàn)復(fù)數(shù)的運(yùn)算操作,提高程序運(yùn)算性能。

        Fig.9 SIMD parallel scheme of three-dimensional acoustic elastic complex matrix圖9 三維聲彈性復(fù)矩陣SIMD并行方案

        4.4 I/O優(yōu)化

        由于I/O 性能的增長(zhǎng)速度跟不上系統(tǒng)本身處理能力的發(fā)展,I/O 性能成為高性能并行計(jì)算的主要性能瓶頸。THAFTS-Acoustic 軟件中采用文件保存臨時(shí)計(jì)算數(shù)組,當(dāng)數(shù)據(jù)的讀寫(xiě)量不大時(shí),能夠滿足需求,但是隨著數(shù)據(jù)規(guī)模的增大,對(duì)I/O 提出了更高的要求。本文采用以下三個(gè)優(yōu)化策略:(1)針對(duì)內(nèi)存占較大的臨時(shí)數(shù)組,程序中的格林函數(shù)GRNN 采用全局變量在各過(guò)程間傳輸數(shù)據(jù),刪除變量讀寫(xiě)I/O;(2)數(shù)值模式中所有通信域內(nèi)的進(jìn)程均參與數(shù)據(jù)文件的輸出,各進(jìn)程將其負(fù)責(zé)的數(shù)據(jù)寫(xiě)入獨(dú)立文件,提高I/O 并發(fā)度;(3)進(jìn)程分組收集數(shù)據(jù),將各進(jìn)程組內(nèi)數(shù)據(jù)合并,減少寫(xiě)文件I/O次數(shù),增大單次I/O數(shù)據(jù)量。

        5 并行性能測(cè)試及算例驗(yàn)證

        5.1 軟件并行性能測(cè)試

        本文采用濕面元數(shù)5 678,模態(tài)數(shù)1 500,計(jì)算頻率數(shù)為3的左舷半球殼的算例。

        5.1.1 多級(jí)異構(gòu)并行加速性能

        本文基于神威太湖之光系統(tǒng),采用64進(jìn)程及256進(jìn)程兩個(gè)并行規(guī)模,對(duì)二維濕面元/模塊并行程序及多級(jí)異構(gòu)并行程序相較一維濕面元并行程序的加速性能進(jìn)行了初步的測(cè)試,如圖10所示。

        64 進(jìn)程測(cè)試時(shí),二維濕面元/模態(tài)并行程序相較原始一維濕面元并行程序整體加速2.37 倍,多級(jí)異構(gòu)并行程序相較原始一維濕面元并行程序整體加速5.54 倍。隨著進(jìn)程數(shù)的增大,采用二維濕面元/模態(tài)并行及多級(jí)異構(gòu)并行的優(yōu)勢(shì)更為顯著。

        本文采用4~512 進(jìn)程測(cè)試多級(jí)異構(gòu)并行程序的MPI 擴(kuò)展性能,測(cè)試結(jié)果如圖11 所示。多級(jí)異構(gòu)并行規(guī)模小于256 進(jìn)程時(shí),具有較為理想的加速效率,但是隨著數(shù)據(jù)規(guī)模的擴(kuò)大,并行效率降低。這是由于算例濕面元數(shù)是5 678,當(dāng)進(jìn)程數(shù)大于256時(shí),進(jìn)程內(nèi)數(shù)據(jù)量減少,計(jì)算開(kāi)銷與通信、IO 開(kāi)銷比明顯降低,并行效率下降。

        Fig.10 Multi-level parallel acceleration performance圖10 多級(jí)并行加速性能

        Fig.11 Strong scalability of multi-level heterogeneous parallelization圖11 多級(jí)異構(gòu)并行強(qiáng)可擴(kuò)展性測(cè)試

        5.1.2 眾核加速性能測(cè)試

        本文采用濕面元數(shù)5 678,模態(tài)數(shù)1 500,計(jì)算頻率數(shù)3 的左舷半球殼的算例。基于神威太湖之光系統(tǒng),采用256進(jìn)程測(cè)試眾核并行加速性能。測(cè)試的對(duì)象包括源強(qiáng)求解及速度勢(shì)求解兩個(gè)過(guò)程。程序眾核加速性能如表1所示。

        Table 1 Multicore parallel acceleration ratio of kernel functions in THAFTS-Acoustic-hycof表1 THAFTS-Acoustic-hycof核心函數(shù)眾核并行加速比

        采用向量化、通信與計(jì)算隱藏、循環(huán)合并及循環(huán)分裂等優(yōu)化方法完成眾核并行后,程序求解速度勢(shì)加速17.7 倍。源強(qiáng)求解核心函數(shù)以塊為單位并行,求解中存在大量的進(jìn)程間通信,在計(jì)算完成后需要將數(shù)據(jù)塊使用進(jìn)程組通信發(fā)送給其他進(jìn)程,而通信過(guò)程無(wú)法使用眾核進(jìn)行加速。在通信成為瓶頸的情況下,源強(qiáng)求解函數(shù)仍然獲得了6.6 倍的整體加速效果。

        5.2 軟件正確性驗(yàn)證

        本文采用濕面元數(shù)5 678,模態(tài)數(shù)1 500,計(jì)算頻率數(shù)3的左舷半球殼的算例,驗(yàn)證多級(jí)異構(gòu)并行程序正確性。3個(gè)頻率點(diǎn)(每個(gè)頻率點(diǎn)計(jì)算2次,共計(jì)算6次)的物理量附連水質(zhì)量、附連水阻尼相較原始程序的協(xié)方差如圖12所示。

        由圖12可知:6次計(jì)算的附連水質(zhì)量協(xié)方差均在E-16 量級(jí),附連水阻尼的協(xié)方差均在E-14 量級(jí),誤差范圍合理。多級(jí)異構(gòu)并行結(jié)果與軟件初始版本計(jì)算結(jié)果一致。

        本文采用經(jīng)典的受徑向單位集中力作用下舷間充水雙層彈性球殼結(jié)構(gòu)聲輻射的算例模型進(jìn)行軟件正確性驗(yàn)證。計(jì)算模型如圖13 所示:該計(jì)算模型存在解析解及THAFTS 軟件模擬解,具體可參考文獻(xiàn)[6]。

        采用零航速,無(wú)界流場(chǎng),內(nèi)球殼半徑0.5 m,內(nèi)球殼壁厚1 mm,外球殼半徑0.65 m,外球殼壁厚0.3 mm,內(nèi)外球殼體密度7 800 kg/m3,楊氏模量2.1×1 011 N/m2,泊松比0.3,干模態(tài)阻尼比0.01,內(nèi)外場(chǎng)流體密度1 025 kg/m3,內(nèi)外場(chǎng)流體聲速1 500 m/s。內(nèi)球殼濕面元網(wǎng)格邊長(zhǎng)約0.05 m,外球殼濕面元網(wǎng)格邊長(zhǎng)約0.065 m。計(jì)算4個(gè)場(chǎng)點(diǎn)的輻射聲壓。軟件求解和解析計(jì)算結(jié)果比對(duì)情況如圖14所示。

        Fig.12 Correctness verification圖12 正確性驗(yàn)證

        Fig.13 Double layer concentric sphere and coordinate system圖13 雙層同心球和坐標(biāo)系

        測(cè)試結(jié)果表明,多級(jí)并行后,三維聲彈性計(jì)算程序是正確的,可應(yīng)用到實(shí)際工程領(lǐng)域。

        Fig.14 Comparison of calculation results圖14 計(jì)算結(jié)果對(duì)比

        6 總結(jié)與展望

        三維聲彈性力學(xué)的研究可廣泛應(yīng)用在改善船舶運(yùn)動(dòng)性能與安全性的應(yīng)用領(lǐng)域。在本文中,完成了三維聲彈性核心求解模塊THAFTS-Acoustic-hycof的多級(jí)異構(gòu)并行工作。主要包括以下幾點(diǎn):根據(jù)程序算法復(fù)雜度,完成了THAFTS-Acoustic-hycof 的一級(jí)濕面元并行、二級(jí)濕面元/模態(tài)并行,設(shè)計(jì)了三維聲彈性源強(qiáng)及速度勢(shì)求解過(guò)程的眾核并行及優(yōu)化,包括DMA 通信數(shù)據(jù)合并、循環(huán)分裂及循環(huán)合并、通信計(jì)算隱藏及SIMD等。測(cè)試結(jié)果表明,三維聲彈性多級(jí)并行程序具有良好的并行加速比和眾核加速性能,能夠有效地發(fā)揮SW26010 國(guó)產(chǎn)眾核處理器和神威?太湖之光超級(jí)計(jì)算機(jī)的強(qiáng)大計(jì)算能力,從而大大縮短實(shí)際工程應(yīng)用的項(xiàng)目周期,加速改善我國(guó)船舶運(yùn)動(dòng)性能、安全性、震動(dòng)噪聲等關(guān)鍵性能,提高船型整體設(shè)計(jì)研發(fā)效率。

        未來(lái)將在以下方面開(kāi)展工作:

        (1)THAFTS-Acoustic-hycof 軟件的頻率并行:目前測(cè)試階段計(jì)算頻率個(gè)數(shù)有限,但潛在頻率數(shù)比較大,因此如何實(shí)現(xiàn)頻率并行與濕面元、模態(tài)并行,眾核并行結(jié)合是進(jìn)一步提高程序并行效率的關(guān)鍵。

        (2)斷點(diǎn)恢復(fù)及容錯(cuò)功能:完善THAFTS-Acoustichycof在大規(guī)模異構(gòu)并行計(jì)算機(jī)系統(tǒng)硬件故障容錯(cuò)和重啟動(dòng)功能,保證計(jì)算結(jié)果的正確性和可靠性。

        (3)THAFTS-Acoustic 軟件的全過(guò)程并行及優(yōu)化:開(kāi)發(fā)THAFTS-Acoustic-flxbd 前處理模塊并行算法及程序,開(kāi)發(fā)THAFTS-Acoustic-hyelas后處理模塊的多級(jí)并行及優(yōu)化。

        猜你喜歡
        異構(gòu)進(jìn)程彈性
        試論同課異構(gòu)之“同”與“異”
        為什么橡膠有彈性?
        軍事文摘(2021年18期)2021-12-02 01:28:12
        為什么橡膠有彈性?
        注重低頻的細(xì)節(jié)與彈性 KEF KF92
        債券市場(chǎng)對(duì)外開(kāi)放的進(jìn)程與展望
        彈性?shī)A箍折彎模的改進(jìn)
        模具制造(2019年4期)2019-06-24 03:36:40
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        在新興異構(gòu)SoCs上集成多種系統(tǒng)
        社會(huì)進(jìn)程中的新聞學(xué)探尋
        国产一区视频在线免费观看| 蜜臀久久99精品久久久久久| 免费人妻无码不卡中文字幕系| 少妇被爽到高潮动态图| 巨乳av夹蜜桃站台蜜桃机成人| 国产精品黄色在线观看| 亚洲av永久无码精品网站| 中文字幕精品一区二区2021年| 91久久国产精品视频| 丰满少妇又爽又紧又丰满动态视频| 三级黄色片免费久久久| 国产精品第一国产精品| 国产精品亚洲欧美天海翼| 午夜精品一区二区久久做老熟女| 一区二区视频中文字幕| 极品少妇被猛的白浆直喷白浆| 四虎影视亚洲精品| 日韩一二三四区免费观看| 不卡一区二区黄色av| 熟妇丰满多毛的大隂户| 国产精品99久久久精品免费观看| 一区二区三区在线观看视频| 高黄暴h日本在线观看| 亚洲欧美激情在线一区| 欧美日韩性高爱潮视频| 亚洲av男人的天堂在线| 欧美成人秋霞久久aa片| 天天做天天躁天天躁| 尤物AV无码色AV无码麻豆 | 国产AV无码专区亚洲AV桃花庵| 国产黄色一级到三级视频| 亚洲国产精品综合久久网络 | 女优一区二区三区在线观看| 黄色a级国产免费大片| 精品国产乱码一区二区三区在线| 视频区一区二在线观看| 乱码丰满人妻一二三区| 在线播放a欧美专区一区| 国产精品不卡免费版在线观看| 人人妻人人添人人爽欧美一区| 亚洲人成绝费网站色www|