亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國產(chǎn)超級計(jì)算機(jī)實(shí)現(xiàn)10萬核FDTD并行計(jì)算

        2015-07-24 17:49:28江樹剛林中朝趙勛旺

        江樹剛,林中朝,張 玉,魏 兵,趙勛旺

        (1.西安電子科技大學(xué)天線與微波技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西西安 710071; 2.西安電子科技大學(xué)物理與光電工程學(xué)院,陜西西安 710071)

        國產(chǎn)超級計(jì)算機(jī)實(shí)現(xiàn)10萬核FDTD并行計(jì)算

        江樹剛1,林中朝1,張 玉1,魏 兵2,趙勛旺1

        (1.西安電子科技大學(xué)天線與微波技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西西安 710071; 2.西安電子科技大學(xué)物理與光電工程學(xué)院,陜西西安 710071)

        結(jié)合國產(chǎn)超級計(jì)算機(jī)研制中軟件能力不足的現(xiàn)狀,研究了超大規(guī)模并行時(shí)域有限差分法,實(shí)現(xiàn)了10萬核的并行時(shí)域有限差分法計(jì)算.以128CPU核為基準(zhǔn),在10 240 CPU核時(shí),該算法的并行效率可以達(dá)到65%以上.該文的研究結(jié)果表明,并行時(shí)域有限差分法可準(zhǔn)確有效地在國產(chǎn)超級計(jì)算平臺上解決復(fù)雜超電大電磁工程問題.

        并行算法;10萬核;時(shí)域有限差分法;計(jì)算電磁學(xué)

        時(shí)域有限差分法(Finite-Difference Time-Domain,FDTD)由文獻(xiàn)[1]提出后,經(jīng)過40多年的發(fā)展,已逐漸成為一種應(yīng)用廣泛的電磁算法,其包括輻射天線分析、目標(biāo)的雷達(dá)散射截面計(jì)算以及周期結(jié)構(gòu)分析等[2-3].然而,當(dāng)FDTD算法用來計(jì)算電大尺寸目標(biāo)的電磁問題時(shí),限制于其Courant穩(wěn)定性條件[2],為了保證足夠的計(jì)算精度,需要的Yee網(wǎng)格量很大,此時(shí)巨大的內(nèi)存資源和計(jì)算時(shí)間消耗成為了該算法的限制因素.為了解決這個(gè)問題,一種有效的途徑就是采用并行FDTD算法[4].

        對基于并行接口(Message Passing Interface,MPI)環(huán)境的并行FDTD算法,不同的虛擬拓?fù)鋾?huì)對程序的并行性能帶來不同程度的影響,尤其是在大規(guī)模并行計(jì)算時(shí),一個(gè)較優(yōu)的虛擬拓?fù)淠軌蚬?jié)省計(jì)算時(shí)間.也有相關(guān)文獻(xiàn)對虛擬拓?fù)涞倪x取進(jìn)行了研究[5-6],但所使用的CPU核數(shù)都比較小.文獻(xiàn)[5]所使用的CPU最大核數(shù)為128核,運(yùn)行環(huán)境為刀片服務(wù)器.在這種情況下所得出的虛擬拓?fù)溥x取規(guī)律,并不一定適用于跨節(jié)點(diǎn)的超級計(jì)算機(jī)集群.因此,筆者前期在某計(jì)算中心的通用計(jì)算機(jī)平臺上,對虛擬拓?fù)涞膬?yōu)化選取準(zhǔn)則進(jìn)行了研究[7].文中的電磁問題計(jì)算中同樣遵循這一準(zhǔn)則.

        隨著當(dāng)今計(jì)算機(jī)軟硬件的飛速發(fā)展,大型計(jì)算機(jī)集群為大規(guī)模復(fù)雜電磁問題的解決提供了可能.近年來,國內(nèi)外關(guān)于并行FDTD算法的研究工作也有很多的相關(guān)報(bào)道[8-13],其中,文獻(xiàn)[13]成功測試了并行規(guī)模為4 000 CPU核的FDTD算法.盡管關(guān)于并行FDTD算法的此類研究很多,但超過10 000,甚至100 000 CPU核的研究文獻(xiàn)極少.隨著計(jì)算規(guī)模的不斷增大,在長時(shí)間的計(jì)算過程中,算法的可擴(kuò)展性、各個(gè)進(jìn)程間的通信量和計(jì)算機(jī)節(jié)點(diǎn)的穩(wěn)定性問題成為制約更多的CPU核并行運(yùn)算的重要因素.在前期工作中,已經(jīng)在通用計(jì)算機(jī)平臺上對該并行FDTD算法成功進(jìn)行了移植、驗(yàn)證和測試工作,并取得了一定的工程應(yīng)用成果[14-15].但對于純國產(chǎn)計(jì)算機(jī),由于其編譯器等環(huán)境都是針對國產(chǎn)CPU的架構(gòu)自主開發(fā)的,與通用計(jì)算機(jī)平臺的環(huán)境存在著較大的差異,且在純國產(chǎn)超級計(jì)算平臺中對電磁應(yīng)用領(lǐng)域進(jìn)行相關(guān)的研究工作具有更高的安全性.因此,在國產(chǎn)計(jì)算機(jī)中對自主開發(fā)的并行FDTD算法程序進(jìn)行移植和測試顯得尤為重要.

        微帶天線陣的仿真是天線仿真的一個(gè)重要方面,相比于矩量法,FDTD算法對于較高相對介電常數(shù)的微帶天線陣具有優(yōu)勢,可以使用較少的計(jì)算資源和計(jì)算時(shí)間來對其進(jìn)行仿真.

        筆者在具有純自主知識產(chǎn)權(quán)的“神威藍(lán)光”超級計(jì)算機(jī)上對并行FDTD算法進(jìn)行了移植驗(yàn)證工作,并成功通過了100 000 CPU核的測試.文中簡單介紹了FDTD并行算法和“神威藍(lán)光”超級計(jì)算平臺.通過與矩量法計(jì)算結(jié)果的比較,說明文中算法的準(zhǔn)確性,并測試了FDTD并行算法從128到10 240 CPU核下的并行性能.最后,計(jì)算了大型微帶天線陣列(具有3 000多單元)的輻射特性以及電大飛機(jī)的散射特性.文中的研究成果表明,并行FDTD算法和國產(chǎn)巨型機(jī)相結(jié)合,可以對超電大尺寸問題進(jìn)行精確的電磁仿真.

        圖1 基本Yee網(wǎng)格與FDTD算法并行模型

        1 并行時(shí)域有限差分法簡介

        采用Yee網(wǎng)格(如圖1(a)所示)對麥克斯韋旋度方程差分離散,可以獲得FDTD算法的遞推計(jì)算式[2],以電場的x分量為例,則有

        在FDTD并行算法中,對于任意一個(gè)場量的迭代,都需要用到與它相鄰的場量,當(dāng)?shù)M(jìn)行到并行計(jì)算子區(qū)域交界處的場量時(shí),必須進(jìn)行場量信息的傳遞,也只有交界處的場量計(jì)算才需要信息傳遞,各子區(qū)域中的場量是不需要傳遞的,正因?yàn)槿绱?FDTD算法很適合于并行計(jì)算.而FDTD算法的并行運(yùn)算,概括起來,就是將整個(gè)FDTD算法的計(jì)算區(qū)域劃分為若干個(gè)子區(qū)域,每個(gè)進(jìn)程計(jì)算其中的1個(gè)或者多個(gè)子區(qū)域,各個(gè)進(jìn)程之間通過傳遞交界面上的電磁場量以確保FDTD算法的場值求解能夠進(jìn)行下去.如圖1(b)所示,FDTD算法的單進(jìn)程多數(shù)據(jù)(Single Program Multiple Data,SPMD)并行模型中,每個(gè)進(jìn)程都執(zhí)行相同的程序[4].

        2 計(jì)算平臺簡介

        這里使用的計(jì)算平臺為“神威藍(lán)光”超級計(jì)算機(jī).經(jīng)國家權(quán)威機(jī)構(gòu)測試,“神威藍(lán)光”超級計(jì)算機(jī)系統(tǒng)持續(xù)性能為0.796 PFlops(千萬億次浮點(diǎn)運(yùn)算/秒), LINPACK效率為74.4%,性能功耗比超過741 MFlops/W(百萬次浮點(diǎn)運(yùn)算/秒瓦).

        “神威藍(lán)光”超級計(jì)算機(jī)共包含8 704個(gè)“申威SW1600”處理器(其結(jié)構(gòu)框圖如圖2所示),每個(gè)處理器包含16核心,峰值性能為128 GFlops,內(nèi)存為16 GB,訪存帶寬達(dá)到102.4 GB/s,高速計(jì)算網(wǎng)絡(luò)接口帶寬為40 GB/s,以太網(wǎng)接口帶寬為1 GB/s.處理器CPU為SW1600 64 bit 16核心,主頻為1.0~1.1 GHz.I/O聚合帶寬為200 GB/s.網(wǎng)絡(luò)系統(tǒng)為InfiniBand QDR,鏈路速率為40 GB/s,聚合帶寬為69.6 TB/s.操作系統(tǒng)為“神威睿思”并行操作系統(tǒng).編程語言環(huán)境包括C、C++、Fortran、Java、MPI、Open MP.文中所使用的“神威藍(lán)光”超級計(jì)算機(jī)中的最大核心數(shù)為100 000.

        圖2 “申威SW1600”CPU結(jié)構(gòu)框圖

        圖3 傘形印刷振子天線陣列的模型與輻射方向圖

        3 算法的并行性能測試及應(yīng)用

        3.1 準(zhǔn)確性驗(yàn)證

        以包含14個(gè)傘形印刷振子單元的天線陣列為例,來驗(yàn)證該算法的準(zhǔn)確性.天線陣列仿真模型如圖3(a)和圖3(b)所示,其中,介質(zhì)板的相對介電常數(shù)εr=10.2,天線的工作頻率為2.5 GHz,整個(gè)計(jì)算區(qū)域的網(wǎng)格大小為d x=d y=d z=0.2 mm,總的迭代時(shí)間步為10 000步.采用并行FDTD算法計(jì)算該天線陣列的輻射方向圖,并與矩量法的計(jì)算結(jié)果進(jìn)行對比,如圖3(c)~圖3(f)所示.對比結(jié)果顯示,兩者在3個(gè)主平面內(nèi)吻合良好,表明該算法可以準(zhǔn)確地解決包含復(fù)雜結(jié)構(gòu)的電磁問題.

        圖4 測試模型及輻射方向圖

        3.2 并行規(guī)模及性能測試

        以具有288個(gè)傘形印刷振子單元的天線陣列為例,采用并行FDTD算法在純國產(chǎn)超級計(jì)算機(jī)上對該陣列的輻射特性進(jìn)行計(jì)算,仿真模型如圖4(a)所示.采用的CPU核數(shù)為100 000,測試的總網(wǎng)格數(shù)為1 550× 1 920×625=1 860 000 000(約18億),虛擬拓?fù)溥x取為50×80×25.該模型在“神威藍(lán)光”超級計(jì)算機(jī)上成功通過了100 000 CPU核的測試.該天線陣列的三維輻射方向圖如圖4(b)所示.同時(shí),還對算法的并行效率進(jìn)行了測試,測試選取的參數(shù)及所需時(shí)間如表1所示.相比于其他相關(guān)報(bào)道[5-6,13],由測試結(jié)果可以看出,對于CPU核數(shù)跨度如此大的情況下,以128 CPU核為基準(zhǔn),該算法在10 240 CPU核時(shí)的并行效率仍可達(dá)到67%,這表明該并行算法程序具有良好的并行性能.

        表1 天線陣列采用不同CPU核數(shù)計(jì)算時(shí)的時(shí)間對比

        3.3 大型微帶天線陣列的輻射特性

        以一個(gè)包含3 480個(gè)單元的微帶天線陣列為例,來證明文中算法的優(yōu)勢所在.天線陣列的仿真模型如圖5(a)所示,其中,天線單元為矩形貼片微帶天線,貼片的尺寸為30.16 mm×22.71 mm,天線陣列的尺寸為6 029.4 mm×977.76 mm×3 mm,介質(zhì)板的相對介電常數(shù)εr=4.5.天線的工作頻率為3 GHz.計(jì)算選取的網(wǎng)格大小d x=0.2 mm,d y=0.1 mm,d z=1.5 mm,總的計(jì)算網(wǎng)格為30 208×9 840×52(約154億),消耗內(nèi)存約為2 000 GB.在國產(chǎn)“神威藍(lán)光”超級計(jì)算機(jī)上選用10 240核對該微帶天線陣的輻射特性進(jìn)行計(jì)算.對于具有3 000多個(gè)單元的大規(guī)模微帶天線陣列,相比矩量法(幾乎不可能仿真計(jì)算出其整體解),該算法在計(jì)算時(shí)間及資源消耗上都擁有極大的優(yōu)勢.該微帶天線陣列的輻射方向圖如圖5(b)~圖5(c)所示.

        圖5 微帶天線陣列及其輻射方向圖

        圖6 某飛機(jī)模型及其RCS

        3.4 某飛機(jī)的散射特性

        在國產(chǎn)“神威藍(lán)光”超級計(jì)算機(jī)上選用10 240核分析計(jì)算了某飛機(jī)的散射特性.飛機(jī)的模型如圖6(a)所示.入射波的頻率為900 MHz,入射方向?yàn)槊嫦驒C(jī)頭方向入射,極化方向?yàn)?z.整個(gè)計(jì)算區(qū)域的網(wǎng)格大小為d x=d y=d z=0.005 m,總網(wǎng)格數(shù)為3 840×2 768×864(約91億網(wǎng)格),消耗內(nèi)存約為1 200 GB.該飛機(jī)模型雷達(dá)散射截面如圖6(b)和圖6(c)所示.

        4 結(jié)束語

        采用并行FDTD算法,以具有復(fù)雜結(jié)構(gòu)的傘形印刷振子天線陣為例,驗(yàn)證了該算法可以準(zhǔn)確解決包含復(fù)雜結(jié)構(gòu)的電磁問題.以具有288個(gè)單元的傘形印刷振子天線陣列為模型,該并行算法在“神威藍(lán)光”超級計(jì)算機(jī)上首次成功突破100 000 CPU核,表明了該算法具有極好的可擴(kuò)展性.并以128核為基準(zhǔn),測試了該算法的并行性能.測試結(jié)果顯示,CPU核數(shù)由128擴(kuò)大到10 240時(shí),該算法的并行效率依然可以達(dá)到67%,表明該算法具有良好的并行性能.對某具有3 000多單元的大型微帶天線陣列的輻射特性和某飛機(jī)的散射特性的成功仿真計(jì)算,體現(xiàn)了該并行FDTD算法的優(yōu)勢所在.筆者研究探索工作的成功實(shí)施,為在純國產(chǎn)超級計(jì)算機(jī)上采用自主開發(fā)的電磁算法解決系統(tǒng)級電磁仿真問題提供了可能.

        [1]Yee K S.Numerical Solution of Initial Boundary Value Problems Involving Maxwell Equations in Isotropic Media[J]. IEEE Transactions on Antennas and Propagation,1966,14(3):302-307.

        [2]葛德彪,閆玉波.電磁場時(shí)域有限差分方法[M].3版.西安:西安電子科技大學(xué)出版社,2011.

        [3]Taflove A.Computational Electrodynamics:the Finite-difference Time-domain Method[M].Norwood:Artech House, 2000.

        [4]張玉.電磁場并行計(jì)算[M].西安:西安電子科技大學(xué)出版社,2006.

        [5]雷繼兆,梁昌洪,張玉.并行FDTD結(jié)合服務(wù)器分析電大電磁問題[J].西安電子科技大學(xué)學(xué)報(bào),2009,36(5):846-850. Lei Jizhao,Liang Changhong,Zhang Yu.Solving Electrically Large EM Problems Using Parallel FDTD and HP Blade Server[J].Journal of Xidian University,2009,36(5):846-850.

        [6]He Z L,Huang K,Zhang Y,et al.Study on High Performance of MPI-based Parallel FDTD from Work-station to Super Computer Platform[J].International Journal of Antennas and Propagation,2012,2012:1-7.

        [7]Jiang S G,LüZ F,Zhang Y,et al.Analysis of Parallel Performance of MPI Based Parallel FDTD on Supercomputer [C]//IET Conference Publications.Stevenage:Institution of Engineering and Technology,2013:1-4.

        [8]Guo X M,Guo Q X,Zhao W,et al.Parallel FDTD Simulation Using NUMA Acceleration Technique[J].Progress in Electromagnetics Research Letters,2012,28:1-8.

        [9]徐磊,徐瑩,蔣榮琳,等.GPU集群上的三維UPML-FDTD算法的實(shí)現(xiàn)及優(yōu)化[J].計(jì)算機(jī)工程與科學(xué),2013,2013 (11):160-167. Xu Lei,Xu Ying,Jiang Ronglin,et al.Implementation and Optimization of Three-dimensional UPML-FDTD Algorithm on GPU Cluster[J].Computer Engineering and Science,2013,2013(11):160-167.

        [10]張立紅,余文華,楊小玲.加速并行時(shí)域有限差分仿真的新方法[J].電波科學(xué)學(xué)報(bào),2012,27(1):56-60. Zhang Lihong,Yu Wenhua,Yang Xiaoling.New Acceleration Technique for Parallel FDTD Simulation[J].Chinese Journal of Radio Science,2012,27(1):56-60.

        [11]Wang J,Yin W Y,Xia Y S.A Novel Conformal Surface Current Technique for Large Problems Based on Highperformance Parallel FDTD Method[J].IEEE Antennas and Wireless Propagation Letters,2013,12:11-14.

        [12]Hemmi T,Costen F,Garcia S,et al.Efficient Parallel LOD-FDTD Method for Debye-dispersive Media[J].IEEE Transactions on Antennas and Propagation,2014,62(3):1330-1338.

        [13]Yu W H,Yang X L,Liu Y J,et al.A New Direction in Computational Electromagnetics:Solving Large Problems Using the Parallel FDTD on the BlueGene/L Supercomputer Providing Teraflop-level Performance[J].IEEE Antennas and Propagation Magazine,2008,50(2):26-44.

        [14]江樹剛,張玉,趙勛旺,等.并行FDTD分析機(jī)載超短波天線[C]//2013年全國微波毫米波會(huì)議論文集.北京:電子工業(yè)出版社,2013:211-214.

        [15]Jiang S G,Wei B,Zhang Y.Analysis of Near-field Characteristic of Airborne Antenna[C]//Cross Strait Quad-regional Radio Science and Wireless Technology Conference.Washington:IEEE Computer Society,2013:160-162.

        (編輯:齊淑娟)

        Parallel FDTD computation of hundred thousand cores on a home-made supercomputer

        JIANG Shugang1,LIN Zhongchao1,ZHANG Yu1,WEI Bing2,ZH AO Xunwang1
        (1.Science and Technology on Antenna and Microwave Lab.,Xidian Univ.,Xi’an 710071,China; 2.School of Physics and Optoelectronic Engineering,Xidian Univ.,Xi’an 710071,China)

        The massively parallel Finite-Difference Time-Domain(FDTD)computation using 100000 CPU cores is firstly implemented.Test results show that the parallel efficiency can reach up to 65%on 10 240 CPU cores with 128 CPU cores as the benchmark.The research results in this paper indicate that the complicated electromagnetic problems can be solved accurately and efficiently using the method on the home-made supercomputer platform.

        parallel algorithms;100 000 CPU cores;finite-difference-time-domain;computational electromagnetics

        TN820

        A

        1001-2400(2015)05-0086-06

        2014-04-21< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:

        時(shí)間:2014-12-23

        國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2012AA01A308);國家自然科學(xué)基金資助項(xiàng)目(61301069,61072019);教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃資助項(xiàng)目(NCET-13-0949);陜西省青年科技新星資助項(xiàng)目(2013KJXX-67);中央高?;究蒲袠I(yè)務(wù)費(fèi)重點(diǎn)資助項(xiàng)目(JY10000902002)

        江樹剛(1985-),男,西安電子科技大學(xué)博士研究生,E-mail:yuseexidian@163.com.

        http://www.cnki.net/kcms/detail/61.1076.TN.20141223.0946.015.html

        10.3969/j.issn.1001-2400.2015.05.015

        中文字幕日韩精品中文字幕| 国产aⅴ无码专区亚洲av| 亚洲av永久无码精品网站在线观看 | 亚洲av综合永久无码精品天堂| 欧美性群另类交| 国产成人丝袜在线无码| 日韩五码一区二区三区地址| 中国美女a级毛片| 永久免费不卡在线观看黄网站| 2021精品综合久久久久| 久久国产精品免费专区| 国产精品爽爽ⅴa在线观看| 亚洲色大成网站www永久一区| 四虎国产精品免费久久麻豆| 成人自拍三级在线观看| 日本一卡二卡3卡四卡免费观影2022| 黑人玩弄人妻中文在线| 日韩久久av电影| 蜜桃精品视频一二三区| 一本精品99久久精品77| 真多人做人爱视频高清免费| 精品国产香蕉伊思人在线又爽又黄| 亚洲天堂免费成人av| 精品人妻一区二区三区久久| 精品人妻无码一区二区三区蜜桃一 | av黄色大片久久免费| 亚洲午夜久久久久久久久久| 色妺妺视频网| 亚洲二区三区在线播放| 亚洲桃色视频在线观看一区| 国产69精品久久久久999小说| 中文字幕亚洲无线码高清| 国产精品毛片毛片av一区二区| 久久国产成人精品国产成人亚洲| 亚洲精品无码久久久久牙蜜区| 亚洲欧洲日产国码无码AV一 | 99久久久无码国产精品动漫| 中文字幕日韩精品永久在线| 真实国产精品vr专区| 亚洲欧美日韩国产一区| 白白色青青草视频免费观看|