亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        以第一性原理計(jì)算進(jìn)行不同高性能計(jì)算集群架構(gòu)性能測(cè)評(píng)*

        2017-11-10 02:04:57張彥彬吳民耀石裕維肖熠琳任豪
        自動(dòng)化與信息工程 2017年5期

        張彥彬 吳民耀 石裕維 肖熠琳 任豪

        ?

        以第一性原理計(jì)算進(jìn)行不同高性能計(jì)算集群架構(gòu)性能測(cè)評(píng)*

        張彥彬1吳民耀1石裕維1肖熠琳2任豪2

        (1.廣州高能計(jì)算機(jī)科技有限公司 2.廣州市光機(jī)電技術(shù)研究院)

        高性能計(jì)算集群平臺(tái)種類繁多,按處理器種類可分為貝奧武夫架構(gòu)的個(gè)人計(jì)算機(jī)集群和服務(wù)器集群,目前對(duì)其性能測(cè)評(píng)的研究較少。以不同架構(gòu)、不同網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和不同網(wǎng)絡(luò)帶寬的高性能計(jì)算機(jī)集群為研究對(duì)象,利用第一性原理數(shù)值計(jì)算軟件為性能測(cè)評(píng)工具,對(duì)不同的計(jì)算集群進(jìn)行性能測(cè)評(píng),分析架構(gòu)、拓?fù)浣Y(jié)構(gòu)、帶寬等因素對(duì)計(jì)算效能的影響。

        性能測(cè)評(píng);高性能計(jì)算集群;CPMD;VASP;第一性原理

        0 引言

        利用高性能計(jì)算集群進(jìn)行科學(xué)模擬已成為現(xiàn)代科學(xué)研究主流,特別是利用高性能計(jì)算機(jī)仿真研究物質(zhì)內(nèi)部原子尺度的結(jié)構(gòu)特性,已經(jīng)成為物理、化學(xué)、生命與材料科學(xué)研究的有效方法。在諸多應(yīng)用領(lǐng)域中,科學(xué)模擬取得的計(jì)算成果不僅可解釋實(shí)驗(yàn)中觀察到的測(cè)量數(shù)據(jù),還可預(yù)測(cè)一些材料的性質(zhì),甚至是設(shè)計(jì)和創(chuàng)造新材料。但高性能計(jì)算集群建置成本昂貴。因此,利用個(gè)人計(jì)算機(jī)組成的貝奧武夫(Beowulf)架構(gòu)[1]建立的高性能計(jì)算集群得到了快速發(fā)展,其計(jì)算性能得到了用戶的肯定。但其具體計(jì)算性能與傳統(tǒng)服務(wù)器所搭建的集群對(duì)比研究較少,造成高性能計(jì)算集群選擇上的困難。鑒于此,本文針對(duì)3種不同硬件計(jì)算機(jī)集群(2種Beowulf架構(gòu),1種服務(wù)器架構(gòu))和3種不同的集群內(nèi)部資源網(wǎng)絡(luò)連接方法做性能測(cè)評(píng)。

        以密度泛函理論(density functional theory,DFT)為基礎(chǔ)的第一性原理計(jì)算,在解釋和預(yù)測(cè)材料結(jié)構(gòu)特性方面有非常重要的作用[2]。本文選擇CPMD(Car-Parrinello Molecular Dynamics)[3]和VASP(Vienna Ab-initio Simulation Package)進(jìn)行第一原理計(jì)算仿真,比較不同架構(gòu)下高性能計(jì)算集群的性能表現(xiàn)。

        CPMD是利用第一性原理分子動(dòng)力學(xué)方法,結(jié)合密度泛函理論和古典分子動(dòng)力學(xué)的計(jì)算機(jī)模擬技術(shù)[4]。

        VASP[5]是維也納大學(xué)Hafner小組開發(fā)的進(jìn)行電子結(jié)構(gòu)計(jì)算和量子力學(xué)—分子動(dòng)力學(xué)模擬軟件包。它是目前材料模擬和計(jì)算物質(zhì)科學(xué)研究中最流行的商用軟件之一。

        1 測(cè)試環(huán)境

        1.1 貝奧武夫架構(gòu)集群

        本文關(guān)于貝奧武夫架構(gòu)集群所使用的測(cè)試平臺(tái)為MCBW-I和MCBW-II高性能計(jì)算集群,其硬件和軟件配置如表1、2所示。

        表1 MCBW- I硬件和軟件配置

        表2 MCBW-II硬件和軟件配置

        1.2 服務(wù)器架構(gòu)集群

        本文關(guān)于服務(wù)器架構(gòu)集群所使用的測(cè)試平臺(tái)為SFCS(switch free cluster system)高性能計(jì)算集群,其硬件和軟件配置如表3所示。

        表3 SFCS硬件及軟件配置

        1.3 網(wǎng)絡(luò)拓?fù)浼軜?gòu)

        本文測(cè)試全直連(見圖1)、星狀連接(見圖2)和網(wǎng)絡(luò)交換機(jī)(見圖3)3種不同的連接架構(gòu)。

        圖1 全直連系統(tǒng)架構(gòu)

        圖2 星狀連接系統(tǒng)架構(gòu)

        圖3 網(wǎng)絡(luò)交換機(jī)系統(tǒng)架構(gòu)

        其中全直連系統(tǒng)架構(gòu)為每一個(gè)計(jì)算節(jié)點(diǎn)都與其他節(jié)點(diǎn)以直接鏈接的方式進(jìn)行通訊;星狀連接系統(tǒng)架構(gòu)為以一個(gè)計(jì)算節(jié)點(diǎn)為中心節(jié)點(diǎn),與其他計(jì)算節(jié)點(diǎn)連結(jié),中心節(jié)點(diǎn)的功能類似傳統(tǒng)網(wǎng)絡(luò)交換器;網(wǎng)絡(luò)交換機(jī)系統(tǒng)架構(gòu)為計(jì)算節(jié)點(diǎn)之間利用交換器進(jìn)行數(shù)據(jù)交換。為測(cè)試網(wǎng)絡(luò)帶寬對(duì)計(jì)算效能的影響,使用1 GE和10 GE 2種網(wǎng)絡(luò)帶寬進(jìn)行測(cè)試。

        2 測(cè)試結(jié)果

        2.1 MCBW-I測(cè)試結(jié)果

        在MCBW-I平臺(tái)上,利用CPMD計(jì)算碳60結(jié)構(gòu)的基態(tài)能量,不同網(wǎng)絡(luò)拓?fù)浼軜?gòu)和網(wǎng)絡(luò)帶寬的計(jì)算效能差異如圖4所示。其中,縱坐標(biāo)加速比以單節(jié)點(diǎn)計(jì)算時(shí)間為基準(zhǔn)。由圖4可知,第一影響因素是網(wǎng)絡(luò)帶寬;第二影響因素是網(wǎng)絡(luò)拓?fù)浼軜?gòu)。

        圖4 MCBW-I CPMD測(cè)試結(jié)果

        當(dāng)采用1 GE網(wǎng)絡(luò)帶寬時(shí),CPMD跨節(jié)點(diǎn)計(jì)算效率不理想。雖然全直連系統(tǒng)可提供較大的網(wǎng)絡(luò)帶寬(每臺(tái)節(jié)點(diǎn)有3條網(wǎng)絡(luò)線連接),但4節(jié)點(diǎn)計(jì)算僅提供2倍的加速比。

        當(dāng)采用10 GE帶寬進(jìn)行4節(jié)點(diǎn)計(jì)算時(shí),星狀連接和全直連系統(tǒng)架構(gòu)都提供超過3倍的加速比,效率超過80%。在節(jié)點(diǎn)增加時(shí),全直連系統(tǒng)架構(gòu)較星狀連接系統(tǒng)架構(gòu)效能增加更明顯,這是由于在全直連系統(tǒng)架構(gòu)下,計(jì)算節(jié)點(diǎn)以直接連結(jié)方式通訊;而星狀連接系統(tǒng)架構(gòu),除中心節(jié)點(diǎn),其他計(jì)算節(jié)點(diǎn)至少需要經(jīng)過1個(gè)計(jì)算節(jié)點(diǎn)才能與其他節(jié)點(diǎn)通訊,通信成本隨之增加。

        在MCBW-I平臺(tái)上,利用VASP計(jì)算HfO2電子結(jié)構(gòu)的跨機(jī)效能如圖5所示。VASP在1 GE帶寬下的跨機(jī)平行效率比CPMD高,全直連10 GE的4節(jié)點(diǎn)計(jì)算加速比最高,星狀連接10 GE以微小差距排第二。值得注意的是,VASP的計(jì)算會(huì)出現(xiàn)效率超過100%的情況,這是因?yàn)榧铀俦纫詥斡?jì)算節(jié)點(diǎn)的計(jì)算時(shí)間為基準(zhǔn)。當(dāng)單計(jì)算節(jié)點(diǎn)內(nèi)存帶寬不足時(shí),會(huì)出現(xiàn)如圖5所示情況。

        圖5 MCBW- I VASP測(cè)試結(jié)果

        2.2 SFCS測(cè)試結(jié)果

        為研究服務(wù)器架構(gòu)平臺(tái)在不同網(wǎng)絡(luò)拓?fù)浼軜?gòu)和網(wǎng)絡(luò)帶寬下的跨機(jī)運(yùn)算情況,進(jìn)行了與圖4、圖5相同的計(jì)算。SFCS CPMD測(cè)試結(jié)果如圖6所示,與圖4的跨機(jī)效能趨勢(shì)一致,CPMD的跨機(jī)運(yùn)算效能主要受到網(wǎng)絡(luò)帶寬的影響。SFCS VASP測(cè)試結(jié)果如圖7所示,全直連網(wǎng)絡(luò)拓?fù)浼軜?gòu)可有效提升1GE網(wǎng)絡(luò)帶寬下的跨機(jī)運(yùn)算效率。與CPMD計(jì)算相同,網(wǎng)絡(luò)帶寬主要決定了跨機(jī)運(yùn)算效率,而全直連網(wǎng)絡(luò)拓?fù)浼軜?gòu)的優(yōu)勢(shì)會(huì)在計(jì)算節(jié)點(diǎn)增加時(shí)出現(xiàn)。

        圖6 SFCS CPMD測(cè)試結(jié)果

        圖7 SFCS VASP測(cè)試結(jié)果

        2.3 MCBW-II測(cè)試結(jié)果

        MCBW-II為MCBW-I的二代版,主要差異為CPU頻率由4.0 GHz 提升到4.2 GHz,內(nèi)存帶寬由2400 MHz提升到3200 MHz。CPU頻率的提升有助于提高單核的計(jì)算效能。MCBW-I和MCBW-II的計(jì)算效能測(cè)試結(jié)果如圖8、圖9所示。根據(jù)圖4、圖5的測(cè)試結(jié)果,在較少節(jié)點(diǎn)情況下,星狀連接系統(tǒng)架構(gòu)和全直連系統(tǒng)架構(gòu)的計(jì)算效能接近,且不同的網(wǎng)絡(luò)架構(gòu)在1 GE帶寬下效能差別不大,所以接下來的測(cè)試將以星狀連接系統(tǒng)10 GE和1 GE網(wǎng)絡(luò)交換機(jī)系統(tǒng)架構(gòu)為主。

        圖8 CPMD測(cè)試結(jié)果

        圖9 VASP測(cè)試結(jié)果

        2.4 不同架構(gòu)、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及網(wǎng)絡(luò)帶寬的計(jì)算機(jī)集群性能對(duì)比

        由圖5和圖7可知,VASP跨機(jī)運(yùn)算效率出現(xiàn)超過100%的情況,上文已經(jīng)提到這現(xiàn)象與單機(jī)的內(nèi)存帶寬有關(guān)。為證明這點(diǎn),在MCBW-II的一個(gè)計(jì)算節(jié)點(diǎn)做測(cè)試:讓一個(gè)VASP僅使用單核進(jìn)行計(jì)算,依次將相同的工作增加到4個(gè)。理想狀況下,一個(gè)計(jì)算節(jié)點(diǎn)擁有4個(gè)運(yùn)算核心,一個(gè)節(jié)點(diǎn)執(zhí)行一個(gè)工作和同時(shí)執(zhí)行4個(gè)工作運(yùn)算時(shí)間是一樣的。MCBW-II單節(jié)點(diǎn)進(jìn)行VASP模擬的運(yùn)行時(shí)間如圖10所示,發(fā)現(xiàn)由于受到內(nèi)存帶寬和通信道數(shù)目的限制,同時(shí)執(zhí)行4個(gè)工作所花的計(jì)算時(shí)間僅是執(zhí)行1個(gè)工作的2.4倍。

        圖10 MCBW-II單節(jié)點(diǎn)進(jìn)行VASP模擬的運(yùn)行時(shí)間

        測(cè)試結(jié)果說明了多核計(jì)算由于內(nèi)存帶寬和通信道數(shù)的限制,使得內(nèi)存和CPU的通訊時(shí)間增長(zhǎng),最終造成運(yùn)算時(shí)間增加。SFCS單節(jié)點(diǎn)VASP并行計(jì)算測(cè)試結(jié)果如圖11所示。

        圖11 SFCS單節(jié)點(diǎn)VASP并行計(jì)算測(cè)試結(jié)果

        由圖11可以看出,使用5個(gè)核心進(jìn)行運(yùn)算時(shí),效能基本符合理論值,超過5個(gè)核心后,效能開始偏離理論值。由于SFCS每個(gè)計(jì)算節(jié)點(diǎn)具有2顆實(shí)體CPU(每顆CPU具有10個(gè)核心),除了內(nèi)存信道數(shù)目和帶寬限制,2顆CPU之間通訊的帶寬也會(huì)限制多核心的運(yùn)算效率。從圖5和圖7的測(cè)試結(jié)果顯示,跨機(jī)運(yùn)算可以解決單機(jī)內(nèi)存帶寬不足的限制。由圖10和圖11可知,以單計(jì)算節(jié)點(diǎn)的計(jì)算時(shí)間作為跨機(jī)效率的基準(zhǔn)存在問題,利用單核的計(jì)算時(shí)間作為基準(zhǔn)比較適合。

        圖12 利用跨節(jié)點(diǎn)計(jì)算的方式有效增加內(nèi)存帶寬提升多核運(yùn)算效率

        圖13 MCBW-II和SFCS單節(jié)點(diǎn)在相同核心數(shù)下運(yùn)算效能比較圖

        根據(jù)以上的測(cè)試結(jié)果可知,在網(wǎng)絡(luò)帶寬足夠的情況下,采用跨機(jī)運(yùn)算的方式比單機(jī)增加CPU核心數(shù)目更能有效提升計(jì)算效能。

        3 結(jié)論

        本文通過3種不同的網(wǎng)絡(luò)架構(gòu)對(duì)2大類型計(jì)算集群進(jìn)行第一性原理計(jì)算分析,對(duì)于集群?jiǎn)喂?jié)點(diǎn)性能、整體性能與網(wǎng)絡(luò)結(jié)構(gòu)及帶寬影響有了整體了解,并得出以下結(jié)論:

        1)全直連系統(tǒng)架構(gòu)可在千兆帶寬時(shí)提供與交換機(jī)網(wǎng)絡(luò)架構(gòu)相同的計(jì)算性能;

        2)計(jì)算量較大時(shí),采用直連萬兆帶寬可有效提升集群整體運(yùn)算性能;

        3)CPMD和VASP在跨機(jī)運(yùn)算時(shí)需要非常大的網(wǎng)絡(luò)帶寬,除了采用10 GE網(wǎng)絡(luò),搭配利用全直連系統(tǒng)或星狀連接系統(tǒng)的網(wǎng)絡(luò)拓?fù)浼軜?gòu)可以進(jìn)一步提升網(wǎng)絡(luò)帶寬;在第一性原理計(jì)算應(yīng)用過程中,為有效提升計(jì)算效率,可采用跨界點(diǎn)的并行計(jì)算方法;

        4)貝奧武夫集群可利用增加計(jì)算節(jié)點(diǎn)數(shù)的方式增加內(nèi)存帶寬,計(jì)算效能可持續(xù)增加;服務(wù)器集群因受限內(nèi)存和CPU之間通訊的帶寬,到16核心已出現(xiàn)效能飽和的情況,對(duì)計(jì)算效能提升并不明顯。

        [1] Wikipedia. Beowulf Cluster[EB/OL]. [2017-08-28]. https://en. wikipedia.org/wiki/Beowulf_cluster.

        [2] Marx D, Hutter J. Ab initio molecular dynamics: basic theory and advanced methods [J]. Cambridge University Press, Aug. 2011, 307:109-153.

        [3] CPMD Org. CPMD [EB/OL]. [2017-08-28]. http://www.cpmd. org/Copyright IBM Corp 2000-2017.

        [4] CPMD Org. CPMD manual[EB/OL]. [2017-08-28]. http://cpmd.org/downloadable-files/nouthentication/manual_v4_0_1.pdf.

        [5] Xsede.org. VASP manual [EB/OL]. [2017-08-28]. https:// www.xsede.org/wwwteragrid/archive/web/user-support/vasp_ benchmark.html.

        Performance Evaluation of Different HPC Cluster Architectures by Using First Principles Calculations

        Zhang Yanbin1Ng Mingyaw1Shi Yuwei1Xiao Yilin2Ren Hao2

        (1. Guangzhou HPC Technology Inc. 2. Guangzhou Research Institute of O-M-E Technology)

        Currently, there are many kinds of high performance computing system. According to the division of processor types, it can be simplified into two types - Beowulf PC cluster architecture and server cluster, but there were less performance evaluation studies between these two kinds of system. This paper carried out the study on their properties, with different architectures interconnect topologies and bandwidth, use the 1stprinciple software as the performance evaluation tools. The results can be useful for the HPC users in the future.

        Performance Evaluation; High Performance Computing Cluster; CPMD; VASP; First Principles

        張彥彬,男,1978年生,碩士,主要研究方向:熱流分析、并行計(jì)算、網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)、分布式計(jì)算、高性能計(jì)算系統(tǒng)。 E-mail: johnson.z@hpctek.com

        吳民耀,男,1979年生,博士,主要研究方向:近場(chǎng)光學(xué),第二型半導(dǎo)體量子點(diǎn)的激子效應(yīng)和納米材料的瞬時(shí)結(jié)構(gòu)動(dòng)力學(xué)。

        石裕維,男,1993年生,本科,主要研究方向:高性能計(jì)算系統(tǒng)、并行計(jì)算、網(wǎng)絡(luò)架構(gòu)。

        肖熠琳,女,1982年生,碩士,高級(jí)工程師,主要研究方向:項(xiàng)目資源與作業(yè)管理、并行計(jì)算。

        任豪,男,1972年生,博士后,教授級(jí)高工,主要研究方向:納米陶瓷薄膜材料。

        廣州市科技計(jì)劃項(xiàng)目(201508030009);廣東省科技計(jì)劃項(xiàng)目(2017A010109077)。

        无码人妻精品一区二区三| 国产在线精品亚洲视频在线| 久久精品国产亚洲av专区| 男人天堂这里只有精品| 欧美私人情侣网站| 国产激情对白一区二区三区四| 国产网友自拍亚洲av| 91精品国产九色综合久久香蕉| 亚洲精品无码专区在线在线播放| 国产午夜精品一区二区三区不卡| 亚洲精品成人av一区二区| 久久精品国产亚洲av夜夜| 国产精品久久久久久妇女| 国产人妻人伦精品1国产盗摄 | 久久亚洲伊人| 综合久久加勒比天然素人| 伊人久久综合无码成人网| 天堂а√在线中文在线新版| 视频一区精品自拍| 亚洲av网站在线免费观看| 蜜桃视频一区二区在线观看| 免费观看黄网站在线播放| 国产精品一区2区三区| 国产精品国产三级国产专播| 亚洲国产精品成人久久| 醉酒后少妇被疯狂内射视频| 国产成人精品aaaa视频一区| 亚洲男人的天堂av一区| 久久青青草原精品国产app| 国产目拍亚洲精品一区二区| 日韩女优中文字幕在线| 国产嫩草av一区二区三区| 久久久久国产一区二区| 精品一区二区av天堂| 男女视频在线观看一区二区| 天天做天天爱夜夜爽| 蜜桃av噜噜一区二区三区| 中国精品久久久久国产| 粉嫩极品国产在线观看免费一区| 丁香六月久久婷婷开心| 国产极品美女高潮抽搐免费网站|