亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于阿里云的四維彈簧模型并行運(yùn)算性能

        2019-06-21 07:47:20趙高峰陳華
        關(guān)鍵詞:線程工作站內(nèi)存

        趙高峰,陳華

        (天津大學(xué) 建筑工程學(xué)院;水利工程仿真與安全國家重點(diǎn)實(shí)驗(yàn)室,天津 300072)

        由于具有可重復(fù)、經(jīng)濟(jì)及參數(shù)可控等優(yōu)點(diǎn),數(shù)值模擬已經(jīng)成為理論分析和物理實(shí)驗(yàn)之外的第3種研究方法[1-3]。數(shù)值模擬不但被廣泛應(yīng)用于隧道等地下工程在不同工況下的穩(wěn)定性分析,而且被用來研究特定工程災(zāi)變問題的內(nèi)在力學(xué)機(jī)理。例如,唐春安等[1]采用RFPA軟件對隧道洞室周邊的分區(qū)破壞機(jī)理和演化規(guī)律進(jìn)行了研究,吳順川等[2]采用三維離散元軟件研究了隧道巖爆的機(jī)理。上述兩個(gè)數(shù)值模擬案例分別采用了基于連續(xù)介質(zhì)的有限元法和基于離散介質(zhì)的離散元法。連續(xù)介質(zhì)方法的基本思路是先建立求解對象的偏微分方程,然后,通過數(shù)學(xué)離散方法求解,是一種自頂向下的方法。由于其連續(xù)假設(shè),連續(xù)介質(zhì)方法在求解動(dòng)態(tài)斷裂等問題時(shí)具有一定的局限性。將損傷模型引入連續(xù)介質(zhì)方法可增強(qiáng)其求解漸進(jìn)動(dòng)態(tài)破壞的能力,例如RFPA軟件[1]及LSDYNA軟件[4]采用了類似單元生死法來實(shí)現(xiàn)對材料漸進(jìn)破壞的描述,并已成功應(yīng)用于巖石動(dòng)態(tài)破壞及實(shí)際工程的計(jì)算。然而,這種關(guān)于破壞的處理方式?jīng)]有精確考慮破裂面的形態(tài)以及再接觸,因此,該方法對破壞后的描述可能會(huì)有偏差[5]。基于離散介質(zhì)的數(shù)值方法則考慮了破裂面的分離和再接觸,更適合于巖石動(dòng)態(tài)破壞問題,其中,最為著名的是Cundall等[6]提出的離散元和Shi[7]提出的非連續(xù)變形分析方法DDA。作為離散數(shù)值計(jì)算方法的一種,Lattice Spring Model (LSM)由亞歷山大博士于1941年最早提出[8],但由于泊松比限制問題,LSM發(fā)展一直很緩慢。為了解決該問題,Distinct Lattice Spring Model (DLSM)引入了多體剪切彈簧[8],該模型已被成功應(yīng)用于巖石與煤的動(dòng)態(tài)破壞研究[9-11]。最近,研究者提出了另一種解決方法,基于經(jīng)典LSM引入額外維相互作用,稱之為四維彈簧模型(Four-lattice spring model,4D-LSM)[12]。4D-LSM的基本元件是由彈簧鍵連接的顆粒,通過彈簧鍵的變形和破壞來反映固體的宏觀力學(xué)響應(yīng)。4D-LSM這種自底向上的建模方式與離散元類似,其單元(顆粒)數(shù)量必須達(dá)到一定規(guī)模才能得到足夠真實(shí)的模擬結(jié)果。因此,4D-LSM有龐大的計(jì)算需求,傳統(tǒng)的個(gè)人電腦已經(jīng)不能滿足,高效的并行計(jì)算是唯一的解決辦法。

        目前,并行計(jì)算器件主要分為多核CPU和GPU,而主要計(jì)算平臺(tái)是超級(jí)計(jì)算機(jī)。超級(jí)計(jì)算機(jī)擁有多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)一般是可以單獨(dú)實(shí)現(xiàn)CPU多核并行和(或)GPU并行的計(jì)算機(jī),節(jié)點(diǎn)間通過網(wǎng)絡(luò)連接實(shí)現(xiàn)消息傳遞,從而將計(jì)算資源整合利用,并達(dá)到超高的計(jì)算性能。全球超級(jí)計(jì)算機(jī)Top500中,目前排名第一的超級(jí)計(jì)算機(jī)“Summit”由4 608個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)搭載2個(gè)“Power9”CPU和6個(gè)“NVIDIA Tesla V100”GPU,CPU核心數(shù)量為202 752,GPU流處理器數(shù)量超過1.4億,其峰值性能為200PFLOPS[13]。近年來,GPU計(jì)算發(fā)展十分迅速[14],但是GPU計(jì)算并不能取代CPU計(jì)算,比如CPU更擅長處理邏輯控制密集任務(wù),CPU多核并行仍然是一種便捷、可靠并且廣泛使用的高性能計(jì)算方式。實(shí)現(xiàn)CPU多核并行主要依靠應(yīng)用程序接口,例如OpenMP(Open Multi-processing)等[15]。OpenMP是基于共享內(nèi)存的應(yīng)用程序接口,提供了對并行算法的高層抽象描述,非常適合多核CPU計(jì)算機(jī)的并行程序設(shè)計(jì)。OpenMP的顯著特點(diǎn)是精簡、易用,只需要在串行代碼中加入簡單的pragma指令即可實(shí)現(xiàn)并行,因此,OpenMP的使用非常普遍,例如4D-LSM和DLSM就采用OpenMP實(shí)現(xiàn)了多核并行[12,16]。

        高性能計(jì)算通常以高性能計(jì)算機(jī)為依托,但超級(jí)計(jì)算機(jī)硬件的高昂費(fèi)用和固定資產(chǎn)屬性常導(dǎo)致高性能計(jì)算的使用成本較高。近年來,計(jì)算領(lǐng)域中面向服務(wù)的“云計(jì)算”為解決這個(gè)問題提供了可能。云計(jì)算是指通過網(wǎng)絡(luò)按需提供虛擬計(jì)算資源和解決方案的有償服務(wù),相對于傳統(tǒng)的計(jì)算模式,其主要優(yōu)點(diǎn)是配置靈活、方便快捷、管理投入少等。例如,由“阿里云”提供的彈性云服務(wù)器類型有通用性、計(jì)算型、內(nèi)存型等,CPU核數(shù)從2核到160核不等,內(nèi)存從4 GB到1 920 GB不等[17],付費(fèi)方式也有按量計(jì)費(fèi)、按時(shí)間計(jì)費(fèi)等不同選擇。筆者主要研究多核4D-LSM在云計(jì)算及常規(guī)多核工作站和個(gè)人電腦上的并行運(yùn)算性能,通過大量數(shù)值模擬計(jì)算來研究線程數(shù)量、硬件配置、求解問題類型等對4D-LSM并行計(jì)算時(shí)間的影響,進(jìn)而找到4D-LSM在“阿里云”計(jì)算環(huán)境下的極限規(guī)模和瓶頸,最后,通過4D-LSM求解脆性材料的三維破裂問題來展示離散數(shù)值計(jì)算方法和并行計(jì)算相結(jié)合帶來的優(yōu)勢。

        1 四維彈簧模型

        1.1 基本原理

        在經(jīng)典物理學(xué)中,空間是三維的,時(shí)間作為第四維,它們共同構(gòu)成了四維時(shí)空。有些研究者為了統(tǒng)一自然界的4種基本力,通過引入一個(gè)額外的空間維度,提出了五維時(shí)空。4D-LSM借鑒了五維時(shí)空理論。4D-LSM模型的構(gòu)建過程如圖1所示。圖1(a)中,三維空間中的立方體晶格模型能夠再現(xiàn)各向同性彈性,其泊松比固定為0.25。該原始模型的彈簧鍵有兩種,即正彈簧(例如AB)和對角彈簧(例如AC),其剛度系數(shù)均為k。圖1(b)所示為原始模型在第四維的“平行體”,對于給定的質(zhì)點(diǎn)A,其“平行體”即為A′,“平行體”模型的構(gòu)造和彈簧剛度均與“本體”模型相同。然后,利用第四維相互作用(彈簧鍵)連接“本體”和“平行體”,如圖1(c),具體規(guī)則為:“本體”模型的一個(gè)彈簧(例如A-B)產(chǎn)生4個(gè)相應(yīng)的四維彈簧(A-A′、B-B′、A-B′和A′-B)。

        圖1 四維彈簧模型的構(gòu)建過程[12]Fig.1 The model building process of

        1.2 系統(tǒng)方程

        在4D-LSM中,假定三維世界是一個(gè)四維超膜,離散的四維顆粒由彈簧鍵連接。4D-LSM的描述和證明詳見文獻(xiàn)[12],這里只關(guān)注對實(shí)現(xiàn)并行化必不可少的有關(guān)方程。四維顆粒的空間位置和運(yùn)動(dòng)參數(shù)表示為

        xi=(xiyizi?i)T

        (1)

        (2)

        (3)

        (4)

        式中:t為時(shí)間;Δt為時(shí)間增量。以相同的方法,可以得到顆粒的速度公式

        (5)

        顆粒i和顆粒j之間四維距離為

        (6)

        如果這些顆粒通過剛度為k的彈簧連接,那么顆粒j對顆粒i的作用力為

        (7)

        (8)

        式中:mi為顆粒i的質(zhì)量;gx、gy和gz為重力加速度。在4D-LSM中,假設(shè)牛頓第二定律也適用于第四維,則顆粒i的加速度為

        (9)

        式(1)~式(9)是實(shí)現(xiàn)4D-LSM并行化涉及的所有基礎(chǔ)性計(jì)算。

        1.3 模型參數(shù)選取

        對于立方體四維晶格,有3種類型的四維彈簧,剛度分別為kα、kβ、kγ。對于彈性各向同性體,它們的剛度值需滿足關(guān)系[12]

        (10)

        式中:λ4D為四維剛度系數(shù);k為三維彈簧的剛度,k用式(11)計(jì)算。

        (11)

        式中:V為三維晶格模型的代表體積;E為彈性模量,li為三維晶格模型的初始彈簧長度;η為尺度參數(shù)。η可用式(12)計(jì)算[12]。

        0.416 136 15λ4D+1.003 692 23

        (12)

        四維剛度系數(shù)λ4D也可以由泊松比得到[12]。

        λ4D=-211.134 937 79v3+162.846 558 51v2-

        55.424 497 19v+6.929 022 11

        (13)

        式中:v是泊松比。結(jié)合式(10)和式(13)可算出式(7)所需的力學(xué)參數(shù)(彈簧剛度)。這些參數(shù)都是預(yù)先計(jì)算的,與4D-LSM的計(jì)算循環(huán)無關(guān),因此,參數(shù)計(jì)算部分不參與并行。更多細(xì)節(jié)和數(shù)學(xué)證明可以在4D-LSM的原始文獻(xiàn)[12]中找到。

        1.4 OpenMP多核并行

        圖2 4D-LSM的分叉并行策略Fig.2 Fork/Join parallel strategy of

        1.5 計(jì)算模型

        采用兩種4D-LSM計(jì)算模型,分別對應(yīng)彈性問題和破壞問題。如圖3所示,模型外觀均為立方體,選用的顆粒直徑為1 mm。第1計(jì)算模型為立方體單軸壓縮試驗(yàn),底端在豎直方向被固定,頂端施加豎直向下的位移荷載,整個(gè)模擬過程不破壞,屬于線彈性問題。第2個(gè)問題是爆炸開裂模型,模型中心有球形空洞(綠色部分),沖擊荷載施加在球體的內(nèi)表面,屬于動(dòng)態(tài)破壞問題。每個(gè)計(jì)算模型采用不同規(guī)模,立方體邊長分別為20、50、100、150、200、250、300 mm,因此,最大的模型顆粒數(shù)達(dá)到2 700萬(300×300×300)。

        圖3 兩種4D-LSM計(jì)算模型Fig.3 Two kinds of 4D-LSM computing

        1.6 并行性能分析

        云服務(wù)器是一種虛擬的計(jì)算機(jī),根據(jù)客戶的需求可以有不同配置。如果用戶選用的云服務(wù)器操作系統(tǒng)與自己本地計(jì)算機(jī)的操作系統(tǒng)一樣(如Windows系統(tǒng)或者Linux系統(tǒng)等),那么,云服務(wù)器的操作體驗(yàn)與本地計(jì)算機(jī)幾乎沒有區(qū)別,能夠在本地機(jī)運(yùn)行的程序同樣可以在云服務(wù)器上運(yùn)行,不需要做任何額外的更改,本文涉及的基于OpenMP的4D-LSM也是如此。如表1所示,選用的云服務(wù)器(CS)具有64核心、128 GB內(nèi)存容量,CPU頻率是2.5 GHz。線程測試選用的是單軸壓縮模型,模型的大小有3種,邊長為50、100、150 mm,分別記為“Cube_50”、“Cube_100”和“Cube_150”,相應(yīng)的顆粒數(shù)為12.5萬、100萬和337.5萬。將每一個(gè)模型在不同的計(jì)算機(jī)上采用不同的線程數(shù)進(jìn)行重復(fù)計(jì)算,記錄每次計(jì)算的時(shí)長,并換算出加速比,加速比定義為單線程計(jì)算時(shí)間與多線程計(jì)算時(shí)間的比值。

        表1 計(jì)算機(jī)主要參數(shù)Table 1 Main parameters of the computers

        阿里云上的測試結(jié)果如圖4所示,最大加速比約為16.8×。單從最大加速比來看,云計(jì)算優(yōu)于兩臺(tái)工作站W(wǎng)S-1和WS-2(見圖8,最大加速比約為9.0×),并且,云計(jì)算還有使用靈活、無需維護(hù)等優(yōu)點(diǎn)。但是,相較于本地計(jì)算資源,云計(jì)算也有不足之處。首先是性價(jià)比的問題,測試用的云服務(wù)器按時(shí)間計(jì)費(fèi),費(fèi)用約為350元/d,而工作站W(wǎng)S-2的一次性投入約為5萬元,該費(fèi)用只能購買該云服務(wù)器5個(gè)月左右,但通常情況下,一臺(tái)工作站的性能至少可以在3年內(nèi)保持相當(dāng)?shù)母偁幜?。?shù)值計(jì)算方面的科研工作,經(jīng)常需要修改模型的參數(shù),這樣的重復(fù)計(jì)算是對云計(jì)算資源的浪費(fèi)。因此,最合理的方式是利用本地計(jì)算資源調(diào)整數(shù)值模型,然后利用云服務(wù)一次性完成大規(guī)模計(jì)算。其次,大規(guī)模計(jì)算必定涉及到大量的數(shù)據(jù)存儲(chǔ)問題,由于云服務(wù)的存儲(chǔ)具有時(shí)效性,也不方便進(jìn)行后處理工作,因此,如何快速將海量數(shù)據(jù)保存到本地存儲(chǔ)空間是云服務(wù)應(yīng)用于數(shù)值分析計(jì)算面臨的另一個(gè)問題。

        圖4 阿里云計(jì)算環(huán)境下4D-LSM并行效率測試結(jié)果Fig.4 Parallel efficiency test results of 4D-LSM in Alibaba

        PC-1、PC-2、WS-1和WS-2的測試結(jié)果如圖5~圖8所示,最大加速比分別為2.6×、3.2×、10.8×和9.1×,隨著線程數(shù)的增加,計(jì)算速度總體上呈加快的趨勢。PC-1是4核8線程,由圖5可知,當(dāng)線程數(shù)超過4以后,加速效果明顯下降,例如“Cube_150”的模型使用2線程、4線程和8線程時(shí)的加速比分別為1.84×、2.54×和2.6×,意味著加速比從2線程到4線程的增幅為38%,而從4線程到8線程的增幅僅為15%,這說明物理核心的加速效果遠(yuǎn)遠(yuǎn)超出超線程技術(shù)的加速效果。兩臺(tái)工作站W(wǎng)S-1和WS-2是20核40線程的雙路計(jì)算機(jī),由圖7、圖8可知,當(dāng)線程數(shù)超過20以后,加速效果的提升即開始放緩。更值得關(guān)注的是,對于WS-1和WS-2這兩臺(tái)雙路計(jì)算機(jī)(每個(gè)CPU有10個(gè)核心、兩個(gè)CPU共20核),10線程和20線程的加速效果幾乎相同,例如WS-1上“Cube_150”模型使用10線程和20線程時(shí)的加速比分別為7.1×和7.7×,當(dāng)線程數(shù)介于10和20之間時(shí),加速比呈現(xiàn)先降后升的“凹”型曲線,計(jì)算資源的增加卻適得其反。

        圖5 4D-LSM在PC-1上并行效率測試結(jié)果Fig.5 Parallel efficiency test results of 4D-LSM on

        圖6 4D-LSM在PC-2上并行效率測試結(jié)果Fig.6 Parallel efficiency test results of 4D-LSM on

        圖7 4D-LSM在WS-1上并行效率測試結(jié)果Fig.7 Parallel efficiency test results of 4D-LSM on

        圖8 4D-LSM在WS-2上并行效率測試結(jié)果Fig.8 Parallel efficiency test results of 4D-LSM on

        1.7 并行性能影響因素及極限運(yùn)算分析

        1.7.1 求解類型的影響 4D-LSM模型中,破壞的顆粒在每一步的計(jì)算過程中都會(huì)進(jìn)行動(dòng)態(tài)接觸檢索,當(dāng)有其他顆粒接觸到該破壞顆粒時(shí),這兩個(gè)顆粒之間會(huì)產(chǎn)生一個(gè)新的特殊彈簧鍵,該彈簧鍵并不能受拉,其目的只是為了防止破壞顆粒由于運(yùn)動(dòng)而穿透其他顆粒,相對于非破壞模型,破壞模型的顆粒檢索將會(huì)消耗額外的時(shí)間。為了研究加速比與求解類型的關(guān)系,選用單軸壓縮模型和爆炸開裂模型進(jìn)行對比,前者代表彈性(Elastic)問題,后者代表破壞(Fracture)問題,模型外觀均為立方體且邊長均為100 mm,計(jì)算機(jī)選用工作站W(wǎng)S-2,測試結(jié)果如圖9。對于線程數(shù)與計(jì)算效率的總體關(guān)系,破壞模型與前述彈性模型一致,但是,對比彈性模型與破壞模型的加速比發(fā)現(xiàn),隨著線程數(shù)的增加,兩者的加速比差距越來越大,最終,使用40線程時(shí)彈性模型的加速比達(dá)到9.0×,而破壞模型相應(yīng)的加速比為5.8×,僅為前者的64%??傊⑿谢?D-LSM求解破壞問題所獲得的加速效果要低于非破壞問題,使用的線程數(shù)越多,這種差距越明顯。

        圖9 工作站W(wǎng)S-2對于彈性模型和破壞模型的并行效率測試結(jié)果Fig.9 Parallel efficiency test results for elastic model and failure model of 4D-LSM on

        1.7.2 計(jì)算規(guī)模的影響 由圖7、圖8可知,對于大小不同的模型,在相同條件下,其加速比有一定的區(qū)別。例如工作站W(wǎng)S-1使用40線程時(shí),“Cube_50”“Cube_100”和“Cube_150”的加速比分別為9.1×、8.0×和10.8×,而相同情況下,工作站W(wǎng)S-2上對應(yīng)的加速比分別為9.0×、8.2×和7.7×。若僅就這3種大小的模型而言,則工作站W(wǎng)S-1上“Cube_150”加速效果最好(10.8×),而工作站W(wǎng)S-2上“Cube_50”才是加速效果最好的(9.0×)。因此,模型的大小對加速效果有一定的影響,但這種影響沒有普遍的規(guī)律,隨計(jì)算機(jī)硬件配置的不同而不同。

        同時(shí)也發(fā)現(xiàn),彈性模型的計(jì)算時(shí)間與模型的規(guī)模呈正比,而破壞模型則并非如此。對于破壞模型而言,顆粒檢索會(huì)消耗額外的時(shí)間,破壞的顆粒越多,每一步的計(jì)算時(shí)間就越長,但每一個(gè)破壞顆粒額外消耗多長時(shí)間還不明確,整個(gè)破壞過程目前也無法預(yù)測。由于這些“復(fù)雜性”,測試結(jié)果中破壞模型的計(jì)算時(shí)間與規(guī)模大小的關(guān)系曲線并不具有普適性,只能說明一般情況下是非線性的,從而區(qū)別于彈性模型的線性關(guān)系。

        1.7.3 計(jì)算硬件的影響 CPU的主要參數(shù)包括頻率、核心數(shù)量和線程數(shù)量等,更高的CPU頻率、更多的核心或者線程都能夠獲得更快的計(jì)算速度。因此,由表1可知,一般情況下,擁有8線程3.6 GHz CPU的PC-1要比擁有4線程3.0 GHz CPU的PC-2更快,WS-1也會(huì)因?yàn)楦逤PU的頻率而獲得比WS-2更好的性能。將圖4中關(guān)于計(jì)算時(shí)間的數(shù)據(jù)做進(jìn)一步處理后得到表2,表中ΔPC、ΔWS分別為PC-1與PC-2、WS-1與WS-2計(jì)算同一模型所用時(shí)間之差。從表2來看,雖然有幾處Δ值為負(fù)數(shù),但都是在模型較小、整個(gè)計(jì)算時(shí)間較短的情況下發(fā)生,不具有代表性,而絕大部分Δ值都為正數(shù)。因此,從統(tǒng)計(jì)的角度,對于同一個(gè)模型,可以認(rèn)為PC-1比PC-2耗時(shí)更多,WS-1比WS-2耗時(shí)更多,也就是說,PC-2和WS-2計(jì)算速度更快,與之前的預(yù)測剛好相反,這說明4D-LSM的計(jì)算速度并非完全由CPU的性能決定。在表1中,對比4臺(tái)計(jì)算機(jī)的硬件,PC-2和WS-2唯一的優(yōu)勢就是擁有更高的內(nèi)存帶寬。由于計(jì)算時(shí)間不僅包括CPU處理數(shù)據(jù)的時(shí)間,也包括其他必要的時(shí)間消耗,如CPU和內(nèi)存交換數(shù)據(jù)的時(shí)間,高內(nèi)存帶寬意味著數(shù)據(jù)傳輸更快,最終的結(jié)果是PC-2和WS-2在計(jì)算時(shí)速度更快。因此,對于4D-LSM,若CPU性能差距不是很懸殊,則內(nèi)存帶寬成為計(jì)算速度非常重要的影響因素。

        表2 使用最大線程數(shù)計(jì)算不同大小模型的時(shí)間消耗表Table 2 Calculating time of different size models using maximum thread number

        1.7.4 并行計(jì)算量瓶頸分析 將兩組模型(單軸壓縮、爆炸開裂)按從小到大的順序依次運(yùn)行,記錄其計(jì)算時(shí)間以及消耗的物理內(nèi)存,測試時(shí),每臺(tái)計(jì)算機(jī)都使用最大線程,例如,PC-1使用8線程,而兩臺(tái)工作站W(wǎng)S-1、WS-2均使用40線程。從小到大的立方體模型的邊長為20、50、100、150、200、250、300、350、400 mm等,在此序列下,PC-1、PC-2、WS-1、WS-2能計(jì)算的最大模型邊長分別是150、150、250、300 mm,對應(yīng)的顆粒數(shù)分別為337.5萬、337.5萬、1 562.5萬和2 700萬。由此可見,不論是彈性模型還是破壞模型,模型大小(顆粒數(shù))與消耗的物理內(nèi)存呈同一個(gè)線性關(guān)系。事實(shí)上,經(jīng)過更進(jìn)一步的數(shù)據(jù)分析發(fā)現(xiàn),內(nèi)存消耗與使用哪臺(tái)計(jì)算機(jī)也沒有聯(lián)系,即模型的顆粒數(shù)量與內(nèi)存消耗存在一一對應(yīng)的關(guān)系(如圖10所示),每100萬顆粒約需要1.8 GB內(nèi)存,目前來看,4D-LSM的計(jì)算量由計(jì)算機(jī)的內(nèi)存容量決定。例如,WS-1的內(nèi)存容量是32 GB,當(dāng)計(jì)算邊長為250 mm的模型時(shí),4D-LSM消耗的內(nèi)存約為28 GB,而下一個(gè)模型邊長是300 mm,顆粒數(shù)量2 700萬,按前述標(biāo)準(zhǔn)約需要48 GB的內(nèi)存,因此,在WS-1上無法計(jì)算,最終,該模型在擁有64 GB內(nèi)存的工作站W(wǎng)S-2上運(yùn)行,而2 700萬顆粒也幾乎是WS-2的極限計(jì)算量。然而,對于阿里云來講,則可以最大運(yùn)行10億單元的計(jì)算模型。從這點(diǎn)上來講,云計(jì)算為一些對顆粒規(guī)模要求十分龐大的問題提供了除傳統(tǒng)超級(jí)計(jì)算集群之外的可行解決途徑。相比傳統(tǒng)超級(jí)計(jì)算集群,云計(jì)算無需對代碼進(jìn)行修改,也無需進(jìn)行昂貴的硬件投資。然而,4D-LSM是采用自建的圖形交互界面建模,能夠建立多大的模型受制于顯存。例如,WS-2配備的“NVIDIA Quadro M5000”具有8 GB的顯存,其構(gòu)建的最大模型是450×450×450(約9 000萬顆粒)。如果假設(shè)建模所需顯存與顆粒數(shù)成正比,構(gòu)建10億顆粒的模型則至少需要大約88 GB的顯存,因此,目前4D-LSM大規(guī)模并行的瓶頸在于前處理。

        圖10 模型大小與內(nèi)存消耗的關(guān)系Fig.10 The relationship between model size and

        2 應(yīng)用案例

        采用4D-LSM進(jìn)行三維裂紋擴(kuò)展分析。幣型裂紋試樣的尺寸及荷載條件如圖11(a)所示,裂紋形狀為圓形,直徑18 mm,厚度1 mm,中心位置與整個(gè)立方體試樣中心位置重合,裂紋面與試樣底面夾角θ=30°。建立兩個(gè)4D-LSM模型,一個(gè)解析度為110×110×110(約130萬顆粒),另一個(gè)解析度為220×220×220(顆粒數(shù)大約為1 060萬),除此之外,兩個(gè)模型并無其他任何差別。圖11給出了針對三維幣形裂紋的計(jì)算模型,采用并行4D-LSM進(jìn)行了求解。圖12展示了三維幣型裂紋模型在不同解析度下的裂紋發(fā)展過程。通過對比,低解析度模型雖然能大致展現(xiàn)裂紋的擴(kuò)展過程,但裂紋形態(tài)相對比較粗糙,裂紋擴(kuò)展的對稱性遠(yuǎn)不如高解析度模型。由此可見,更高解析度的4D-LSM模型對精準(zhǔn)模擬三維裂紋擴(kuò)展問題非常關(guān)鍵?;谠朴?jì)算的并行計(jì)算技術(shù)可以求解更高解析度的計(jì)算模型,非常適合于求解三維裂紋擴(kuò)展的計(jì)算。

        圖11 三維幣型裂紋擴(kuò)展模型Fig.11 The model of three-dimensional

        圖12 裂紋擴(kuò)展過程Fig.12 The crack propagation

        3 結(jié)論

        主要研究了4D-LSM在云計(jì)算環(huán)境下的并行性能,考慮了線程數(shù)量、硬件資源、模型大小、求解類型等因素。得到如下主要結(jié)論:

        1)4D-LSM具有較好的并行性能,在20核的雙路計(jì)算機(jī)上的最大加速比接近11.0×,而在64核的云服務(wù)器上的加速比接近17×。

        2)4D-LSM模型的規(guī)模對加速效果有一定的影響,并因使用的計(jì)算機(jī)不同而不同。

        3)4D-LSM求解彈性問題的加速效果優(yōu)于求解破壞問題,使用的線程數(shù)量越多,這種差別表現(xiàn)得越明顯。

        4)非破壞模型的計(jì)算時(shí)間與顆粒數(shù)呈正比關(guān)系,而破壞模型由于其“復(fù)雜性”,通常情況下不是正比關(guān)系。

        5)4D-LSM模型的顆粒數(shù)量與內(nèi)存消耗呈正比,計(jì)算機(jī)的極限計(jì)算量由內(nèi)存容量決定,每100萬顆粒大約需要1.8 GB的內(nèi)存,若要求解10億顆粒的模型,理論上至少需要1.8 TB的內(nèi)存。

        6)對于雙路計(jì)算機(jī)應(yīng)當(dāng)注意,當(dāng)線程數(shù)量介于單顆CPU的物理核心數(shù)和雙CPU的總物理核心數(shù)時(shí),計(jì)算效率會(huì)下降,并且造成計(jì)算資源的浪費(fèi)。

        7)雖然云計(jì)算非常靈活且能提供強(qiáng)大的高性能計(jì)算能力,但其性價(jià)比也值得商榷,使用時(shí)應(yīng)當(dāng)綜合考慮,有的放矢。

        另外,需要說明:

        1)在測試極限計(jì)算量時(shí)只考慮了物理內(nèi)存,實(shí)際上有些4D-LSM模型在內(nèi)存需求超過計(jì)算機(jī)的物理內(nèi)存時(shí)也可以計(jì)算,比如邊長為200 mm的單軸壓縮模型,顆粒數(shù)量是800萬,大約需要14.4 GB的內(nèi)存,卻可以在內(nèi)存容量8 GB的PC-2上運(yùn)行,這是因?yàn)橄到y(tǒng)自動(dòng)啟用了虛擬內(nèi)存(此處虛擬內(nèi)存是相對物理內(nèi)存而言,并非編程模式下所指的虛擬地址空間),但此時(shí)計(jì)算速度非常緩慢,不在可接受的范圍,因此,未予以考慮。

        2)對于雙路計(jì)算機(jī),當(dāng)使用的線程數(shù)量介于單顆CPU核心數(shù)和雙CPU總核心數(shù)時(shí),不僅計(jì)算效率會(huì)下降,而且多次重復(fù)計(jì)算的結(jié)果表明:在此區(qū)間計(jì)算時(shí)間的離散程度也急劇增加,即計(jì)算效率不穩(wěn)定,計(jì)算效率不穩(wěn)定的情況與求解類型無關(guān)。相差40%的結(jié)論是因?yàn)榻y(tǒng)計(jì)了WS-2在10線程和20線程之間重復(fù)計(jì)算100次同一個(gè)模型的計(jì)算時(shí)間,求出了計(jì)算時(shí)間的變異系數(shù),該變異系數(shù)最高為20%左右。因此,當(dāng)線程數(shù)量處于該區(qū)間時(shí),同樣模型的兩次計(jì)算時(shí)間有可能相差40%。

        3)對于本地計(jì)算機(jī),當(dāng)使用的線程數(shù)量超出計(jì)算機(jī)的最大線程數(shù)時(shí),其計(jì)算效率會(huì)下降20%左右,但對于云計(jì)算的虛擬服務(wù)器而言,超出最大線程后,計(jì)算效率并不會(huì)下降,而是保持在同一水平線上。

        猜你喜歡
        線程工作站內(nèi)存
        左權(quán)浙理大 共建工作站
        戴爾Precision 5750移動(dòng)工作站
        “春夏秋冬”的內(nèi)存
        淺談linux多線程協(xié)作
        移動(dòng)式CIP及SIP工作站(可記錄型)
        基于內(nèi)存的地理信息訪問技術(shù)
        Linux線程實(shí)現(xiàn)技術(shù)研究
        么移動(dòng)中間件線程池并發(fā)機(jī)制優(yōu)化改進(jìn)
        德鈞關(guān)愛工作站
        中國火炬(2009年12期)2009-10-17 02:27:04
        上網(wǎng)本為什么只有1GB?
        日本一区二区精品色超碰| 国模少妇一区二区三区| 二区三区视频| 亚洲va精品va国产va | 漂亮丰满人妻被中出中文字幕| 亚洲国产精品无码中文字| 国产白嫩美女在线观看| 毛片一级精油按摩无码| 国产精品自拍午夜伦理福利| 免费av一区二区三区无码| 亚洲av无码乱观看明星换脸va| www.日本一区| 男人的精品天堂一区二区在线观看| 国产成人av在线免播放观看新| 18禁美女裸身无遮挡免费网站| 国产视频在线一区二区三区四区| 美女福利视频在线观看网址| 特黄 做受又硬又粗又大视频| 少女高清影视在线观看动漫| 亚洲va在线va天堂va四虎| 熟女少妇精品一区二区三区| 久久久久亚洲av成人网人人软件| 成熟丰满熟妇高潮xxxxx| 国产av无码专区亚洲aⅴ| 亚洲高清国产成人精品久久| 久久精品夜色国产亚洲av | 国产乱子伦农村xxxx| 国产女人乱码一区二区三区| 国产专区一线二线三线码| 国产黄页网站在线观看免费视频| 国产不卡一区在线视频| 极品美女一区二区三区免费| 久久亚洲国产成人精品性色 | 亚洲午夜福利在线观看| 538亚洲欧美国产日韩在线精品| 国产精品又湿又黄九九九久久嫩草 | 精品一区二区av天堂| 国产我不卡在线观看免费| 亚洲欧美日韩另类精品一区| 亚洲最新偷拍网站| 中文字幕中文字幕人妻黑丝|