亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中小型規(guī)模高性能計(jì)算集群的搭建與維護(hù)

        2019-10-21 09:15:38文洮金能智馬堯趙志威
        現(xiàn)代信息科技 2019年5期
        關(guān)鍵詞:搭建維護(hù)集群

        文洮 金能智 馬堯 趙志威

        摘 ?要:高性能計(jì)算在近幾年得到了充分的發(fā)展,越來越多的高校、科研院所開始搭建適合自己需求的高性能計(jì)算集群,搭建的過程除了硬件、軟件、運(yùn)行環(huán)境這些必要的條件以外,后期的維護(hù)也是需要重點(diǎn)關(guān)注的領(lǐng)域。本文分析了高性能計(jì)算集群的特征、搭建需求、整體思路以及后期維護(hù)需要注意的問題,并且通過實(shí)用的算例測試了集群并行效率,希望為該領(lǐng)域的科研用戶以及管理人員提供借鑒。

        關(guān)鍵詞:高性能計(jì)算;集群;搭建;維護(hù);并行效率

        中圖分類號(hào):TP393 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)05-0020-05

        Abstract:High-performance computing has been fully developed in recent years. More and more universities and research institutes have begun to build high-performance computing clusters that suit their needs. The construction process is in addition to the necessary conditions of hardware,software and operating environment,later maintenance should also be the area of focus. This paper analyzes the characteristics of the high-performance computing cluster,the requirements of the construction,the overall idea and the problems that need to be paid attention to in the later maintenance,and tests the parallel efficiency of the cluster with practical examples,which provides a reference for the technicians who use and maintain the high-performance computing cluster.

        Keywords:high performance computing;cluster;build;maintain;parallel efficiency

        0 ?引 ?言

        過去的20年中,我國各行業(yè)對計(jì)算資源的旺盛需求拉動(dòng)了高性能計(jì)算基礎(chǔ)設(shè)施的迅猛發(fā)展,目前已實(shí)現(xiàn)由17個(gè)高性能計(jì)算中心構(gòu)成的中國國家高性能計(jì)算服務(wù)環(huán)境,資源能力位居世界前列。這些發(fā)展成果得益于我國“863計(jì)劃”與“重點(diǎn)研發(fā)計(jì)劃”項(xiàng)目的實(shí)施,期間國際與國內(nèi)科研和工業(yè)的發(fā)展對整個(gè)行業(yè)也產(chǎn)生了巨大的影響。美國研究世界最尖端、最前沿的高性能計(jì)算集群部署在國家實(shí)驗(yàn)室、大學(xué)以及研究機(jī)構(gòu),與之相比,截至2017年,中國科技部批準(zhǔn)建立的國家超級(jí)計(jì)算中心共有六家。其中,2016年榮獲世界超級(jí)計(jì)算排行榜“TOP500”第一的“神威太湖之光”部署在國家超算無錫中心,;連續(xù)在世界超級(jí)計(jì)算排行榜“TOP500”中7次占據(jù)第一的“天河二號(hào)”超級(jí)計(jì)算機(jī)運(yùn)行于中山大學(xué)校園內(nèi)的國家超算廣州中心,依托湖南大學(xué)運(yùn)維的“天河一號(hào)”屬于國家超級(jí)計(jì)算長沙中心[1]。這說明國家級(jí)的超算中心依托于國內(nèi)大學(xué)和科研機(jī)構(gòu)在科研領(lǐng)域獲得了較好的成果,國家也在加大對這方面的投資。通過近幾年教育、研究和產(chǎn)業(yè)各個(gè)領(lǐng)域的合作,高性能計(jì)算的發(fā)展已經(jīng)具備了良好的創(chuàng)新生態(tài)環(huán)境,2013年舉辦中國高性能計(jì)算學(xué)術(shù)年會(huì)開始以來,參會(huì)人員從300多人增加到如今的2000多人[2]。相對應(yīng)地,中國的大學(xué)和科研機(jī)構(gòu)也在不斷地搭建適應(yīng)各自研發(fā)需求的高性能計(jì)算集群,但是高性能計(jì)算機(jī)的壽命通常只有4~5年,后期運(yùn)行維護(hù)復(fù)雜集群系統(tǒng)的費(fèi)用非常高。如果以每臺(tái)10萬元人民幣的價(jià)格購買5臺(tái)高性能計(jì)算刀片服務(wù)器,需投資50萬元人民幣作為設(shè)備費(fèi)。后期運(yùn)行維護(hù)所需的人力成本、設(shè)備維修、硬件損壞更換、電費(fèi)和制冷費(fèi)等,每年至少需要5萬元,以配套該刀片服務(wù)器,使這個(gè)集群正常運(yùn)行[3]。一般大規(guī)模高性能計(jì)算集群都有專業(yè)的機(jī)房和運(yùn)營團(tuán)隊(duì)進(jìn)行管理,但一些高校和科研機(jī)構(gòu)自主搭建的中小規(guī)模高性能計(jì)算集群系統(tǒng)一般缺少這方面的經(jīng)驗(yàn),硬件設(shè)備在實(shí)際的運(yùn)作中由于管理人員維護(hù)不當(dāng)和有限的機(jī)房環(huán)境條件造成計(jì)算刀片溫度過高、設(shè)備提前老化,大大減少了計(jì)算機(jī)設(shè)備的使用壽命,造成固定資產(chǎn)浪費(fèi)和資源流失等后果[3]。因此,在中小規(guī)模高性能計(jì)算系統(tǒng)設(shè)施數(shù)量不斷增長、計(jì)算性能不斷提高的情況下,高性能計(jì)算集群的需求、硬件安裝、配置調(diào)試、運(yùn)行維護(hù)等是需要關(guān)注的問題。只有對硬件和軟件,以及后期使用過程中的關(guān)鍵環(huán)節(jié)進(jìn)行專業(yè)協(xié)調(diào),才能最大程度地發(fā)揮其價(jià)值和作用。

        1 ?高性能計(jì)算集群

        1.1 ?高性能計(jì)算集群的概念

        高性能計(jì)算機(jī)是在近幾年發(fā)展迅速,并且計(jì)算能力超強(qiáng)的計(jì)算機(jī),逐漸成為計(jì)算機(jī)科學(xué)發(fā)展的一個(gè)分支[4]。將先進(jìn)的高可用技術(shù)與高性能計(jì)算機(jī)有機(jī)結(jié)合起來的系統(tǒng)稱之為高性能計(jì)算集群,應(yīng)用在越來越多的科學(xué)領(lǐng)域,例如能源短缺、環(huán)境污染、全球氣候變化、航空工業(yè)和高速鐵路等。

        1.2 ?高性能計(jì)算集群的原理

        使用高性能計(jì)算集群的目的是完成超大、超高和超復(fù)雜的計(jì)算任務(wù),顯然這樣的任務(wù)是單臺(tái)計(jì)算機(jī)無法實(shí)現(xiàn)的,需要由N(N≥3)臺(tái)計(jì)算機(jī)齊心協(xié)力完成整個(gè)系統(tǒng)承擔(dān)的工作負(fù)載[5]。其工作原理示意圖如圖1所示,需要一個(gè)性能較好的管理節(jié)點(diǎn)對所有的計(jì)算節(jié)點(diǎn),即nodes,進(jìn)行統(tǒng)一管理,每一子節(jié)點(diǎn)相當(dāng)于一臺(tái)計(jì)算機(jī),上面運(yùn)行自己獨(dú)立的操作系統(tǒng),各節(jié)點(diǎn)間通過內(nèi)部局域網(wǎng)進(jìn)行互相連接。當(dāng)管理節(jié)點(diǎn)接收到用戶提交的任務(wù)以后,通過作業(yè)管理系統(tǒng)將任務(wù)分發(fā)給各個(gè)節(jié)點(diǎn),各個(gè)節(jié)點(diǎn)通過安裝在它們系統(tǒng)中的高性能組件來完成計(jì)算任務(wù)。各個(gè)子節(jié)點(diǎn)在計(jì)算完成之后,將計(jì)算結(jié)果通過網(wǎng)絡(luò)返回給管理節(jié)點(diǎn),最終用戶通過外部網(wǎng)絡(luò)下載計(jì)算結(jié)果。

        1.3 ?高性能計(jì)算集群的特征

        高性能計(jì)算系統(tǒng)擁有超強(qiáng)的運(yùn)算能力,能夠解決大規(guī)模的計(jì)算問題,更容易實(shí)現(xiàn)性能擴(kuò)充,還可以根據(jù)計(jì)算能力的要求逐步擴(kuò)充[6]。每一個(gè)節(jié)點(diǎn)是獨(dú)立運(yùn)行的,如果其中某一個(gè)節(jié)點(diǎn)發(fā)生故障,它所運(yùn)行的程序與之相連的服務(wù)器自動(dòng)接管,這樣整個(gè)集群不會(huì)受到故障節(jié)點(diǎn)的影響,仍然可以提供服務(wù),這樣就提高了設(shè)備的利用率。這種技術(shù)避免了整個(gè)系統(tǒng)出現(xiàn)癱瘓的情況,減少了操作系統(tǒng)和應(yīng)用層的故障。集群系統(tǒng)的用戶可以通過網(wǎng)絡(luò)使用任何子節(jié)點(diǎn),而且減少與既定停機(jī)有關(guān)的停機(jī)時(shí)間,這對于一個(gè)科研團(tuán)隊(duì)或者用戶來說有著非常重要的意義。

        另外,高性能計(jì)算集群所使用的硬件在同類型產(chǎn)品中價(jià)格較為低廉,而且構(gòu)建整個(gè)軟件系統(tǒng)常用的工具,如Linux操作系統(tǒng)、MPICH編程環(huán)境、Intel編譯器、MKL數(shù)學(xué)庫等都可以從網(wǎng)上免費(fèi)下載,因此軟件方面的成本減少了許多,這樣科研人員可以不用花費(fèi)太多經(jīng)費(fèi)即可建立自己的高性能計(jì)算集群,從而將經(jīng)費(fèi)投入到更需要的研究中。

        2 ?高性能計(jì)算集群的搭建

        2.1 ?集群搭建的思路

        在搭建任何一個(gè)高性能計(jì)算集群系統(tǒng)之前,首要的任務(wù)是確定該集群的應(yīng)用類型,因?yàn)檫@些將對該系統(tǒng)計(jì)算節(jié)點(diǎn)的配置選型、節(jié)點(diǎn)間網(wǎng)絡(luò)通訊的類型以及采用哪種集群控制系統(tǒng)和操作系統(tǒng)起到?jīng)Q定性的作用。從應(yīng)用的層面可以分為三個(gè)方面來確定集群的類型,即應(yīng)用的粒度、應(yīng)用的計(jì)算特性和應(yīng)用的時(shí)效性[7]。例如,應(yīng)用粒度較大的計(jì)算,節(jié)點(diǎn)間通訊較少,而小粒度的應(yīng)用計(jì)算需要大量的節(jié)點(diǎn)間通訊;應(yīng)用的計(jì)算特性主要分為多媒體運(yùn)算、科學(xué)計(jì)算、數(shù)據(jù)庫應(yīng)用,其中科學(xué)計(jì)算主要使用浮點(diǎn)計(jì)算功能,這也是目前高性能計(jì)算系統(tǒng)的最主要應(yīng)用領(lǐng)域;應(yīng)用的時(shí)效性主要取決于完成計(jì)算任務(wù)的時(shí)間,如天氣預(yù)報(bào)模擬就需要非??焖俚挠?jì)算得出結(jié)果,否則就失去了意義。

        在確定高性能計(jì)算集群的應(yīng)用類型后,就可以確定系統(tǒng)的硬件參數(shù)、軟件等內(nèi)容。高性能計(jì)算集群系統(tǒng)的應(yīng)用示意圖如圖2所示,用戶在客戶端可以選擇適合自己的登陸方式,例如安裝SSH、Putty、WinSCP、VNC等遠(yuǎn)程登錄軟件來登陸集群。登陸集群之后可以進(jìn)行具體的建模過程,建立完成后,將計(jì)算的模型用命令行來提交作業(yè)。登陸節(jié)點(diǎn)的任務(wù)是接收作業(yè)任務(wù),而后通過作業(yè)管理軟件對任務(wù)進(jìn)行分配。當(dāng)用戶檢測到作業(yè)任務(wù)完成之后,通過登錄軟件下載結(jié)果數(shù)據(jù),最后對計(jì)算結(jié)果進(jìn)行處理后得出計(jì)算結(jié)論[8]。其中客戶端的安裝、作業(yè)提交、集群管理屬于集群的軟件系統(tǒng),而登陸節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、存儲(chǔ)系統(tǒng)則屬于集群的硬件系統(tǒng),最終共同通過網(wǎng)絡(luò)連接成一個(gè)統(tǒng)一的整體進(jìn)行運(yùn)營。

        下面以甘肅省計(jì)算中心進(jìn)行集群擴(kuò)容升級(jí)為例,分析高性能計(jì)算集群系統(tǒng)搭建的整個(gè)過程。按照甘肅省計(jì)算中心提供計(jì)算的用戶分類可知,用戶主要為科學(xué)計(jì)算與工程計(jì)算,大部分用戶來自甘肅省高校、科研院所與企業(yè)等,通過統(tǒng)計(jì)分析,這些用戶大多數(shù)應(yīng)用粒度大、應(yīng)用時(shí)效性要求較低,用于基礎(chǔ)科研的較多。下面將從集群硬件、集群軟件和集群配置方面進(jìn)行簡單的介紹。

        2.1.1 ?集群硬件

        該高性能計(jì)算集群硬件為中科曙光CX50-G20,其硬件體系架構(gòu)如圖3所示,分別由20臺(tái)兩路計(jì)算刀片服務(wù)器、1臺(tái)登錄節(jié)點(diǎn)、1臺(tái)管理節(jié)點(diǎn)以及存儲(chǔ)系統(tǒng)組成。所有計(jì)算節(jié)點(diǎn)通過56GB InfiniBand網(wǎng)絡(luò)互連,其中一臺(tái)千兆交換機(jī)與登錄節(jié)點(diǎn)和管理節(jié)點(diǎn)連接,該交換機(jī)接入外網(wǎng),集群用戶通過該交換機(jī)連接高性能計(jì)算集群提交作業(yè)任務(wù)。

        2.1.2 ?集群軟件

        通用集群系統(tǒng)的軟件系統(tǒng)一般由以下幾個(gè)軟件部分組成,操作系統(tǒng)、并行化應(yīng)用程序、作業(yè)管理、系統(tǒng)管理和開發(fā)環(huán)境等[9]。Linux操作系統(tǒng)依然是高性能計(jì)算集群操作系統(tǒng)的最佳選擇,其可擴(kuò)展性、可靠性、靈活性和易用性在集群管理中起到了非常重要的作用。本次擴(kuò)容升級(jí)的集群系統(tǒng)軟件層次結(jié)構(gòu)圖如圖4所示,系統(tǒng)構(gòu)建底層平臺(tái)是CentOS6.2,安裝了MPICH3.2、Intel編譯器、MKL數(shù)學(xué)庫等運(yùn)行環(huán)境,通過曙光的Gridview集群管理軟件監(jiān)控集群的狀態(tài)、性能,還可以進(jìn)行作業(yè)管理等工作。

        編譯器與數(shù)學(xué)庫在基于Linux的高性能計(jì)算集群系統(tǒng)中的作用非常重要,因?yàn)樵谠S多科學(xué)計(jì)算的應(yīng)用中,一些軟件是開放源碼程序,這些源碼程序由C++語言編寫,編譯器的作用就是將這些“C++”翻譯為“機(jī)器語言”的程序[10]。源程序經(jīng)過編譯器的編譯才能轉(zhuǎn)化成可執(zhí)行的程序。以下是編譯器的主要工作流程:源代碼(source code)→預(yù)處理器(preprocessor)→編譯器(compiler)→目標(biāo)代碼(object code)→鏈接器(linker)→可執(zhí)行程序(executables)[11]。該高性能集群在集群根目錄下安裝了Intel編譯器,供所有使用集群的用戶使用,其下載安裝包為parallel_studio_xe_ 2019_update1_cluster_edition.tgz。

        利用編譯器編譯完成的可執(zhí)行程序在運(yùn)行時(shí)還需要調(diào)用大量的數(shù)學(xué)庫進(jìn)行各種計(jì)算,現(xiàn)已有一些比較成熟的標(biāo)準(zhǔn)化數(shù)學(xué)庫,如線性代數(shù)方面的BLAS、LAPACK、ScaLAPACK和FFTW等等。通常情況下推薦使用具有更高性能的AMD官方ACML數(shù)學(xué)庫(AMD Core Math5-Library),該庫為PGI-7.0版本編譯器所匹配的數(shù)學(xué)庫[12]。由于該集群安裝了Intel編譯器,所以使用相關(guān)的MKL,即Intel?Math Kernel Library for Linux數(shù)學(xué)庫安裝包相匹配。數(shù)學(xué)庫與函數(shù)庫在集群安裝初期配置中并不是必須的,一些集成度高的商用計(jì)算軟件在集群上運(yùn)行計(jì)算任務(wù)時(shí),需要在腳本文件中寫入調(diào)用編譯器與數(shù)學(xué)庫的路徑,用戶也可以根據(jù)自己實(shí)際應(yīng)用的情況進(jìn)行下載安裝配置。

        2.1.3 ?集群配置

        在完成了高性能計(jì)算集群系統(tǒng)的硬件與軟件的準(zhǔn)備工作之后,要將集群運(yùn)行起來還必須進(jìn)行相關(guān)的配置工作[13]。最初的配置操作應(yīng)該在管理節(jié)點(diǎn)上進(jìn)行,其他子節(jié)點(diǎn)的配置過程與主節(jié)點(diǎn)類似,主節(jié)點(diǎn)配置完成后許多配置文件或者操作可以復(fù)制在子節(jié)點(diǎn)上。高性能計(jì)算集群基本配置過程如圖5所示。

        首先,為了避免用戶在節(jié)點(diǎn)數(shù)量多的情況下重復(fù)輸入用戶名和密碼,需要為集群配置無密碼訪問的操作。下面以rsh遠(yuǎn)程通信協(xié)議為例介紹實(shí)現(xiàn)集群無密碼訪問的功能,需要安裝rsh-server軟件包,然后配置/etc/hosts、/etc/hosts.equiv及/root/.rhosts文件,添加需要無密碼訪問的節(jié)點(diǎn),并且所有節(jié)點(diǎn)都要操作。編輯/etc/xinetd.d/rsh和/etc/xinetd.d/rlogin文件,將disable=yes更改為disable=no,并將rexec、rlogin、rsh加入到/etc/securetty中,然后重啟xinetd進(jìn)程。到此,可以通過rsh命令訪問不同的服務(wù)器,如果不需要密碼,則說明服務(wù)器之間可以無密碼訪問[14]。

        其次,需要進(jìn)行登陸節(jié)點(diǎn)的網(wǎng)絡(luò)配置。在確保所有節(jié)點(diǎn)計(jì)算機(jī)都已安裝TCIP/IP協(xié)議的情況下,為所有節(jié)點(diǎn)統(tǒng)一分配IP地址,所有節(jié)點(diǎn)的IP地址盡量在一個(gè)域中,以方便管理[15]。在某一個(gè)節(jié)點(diǎn)的配置文件/etc/hosts中,輸入集群內(nèi)全部節(jié)點(diǎn)的IP、名稱、別名等網(wǎng)絡(luò)配置信息,每一個(gè)子節(jié)點(diǎn)的網(wǎng)絡(luò)配置信息是一樣的,接著使用單一系統(tǒng)通過遠(yuǎn)程操作,復(fù)制/etc/hosts中的網(wǎng)絡(luò)配置文件到所有子節(jié)點(diǎn)。

        最后,進(jìn)行并行環(huán)境配置。以MPICH3.2的安裝為例,簡單介紹一些重要的安裝步驟:

        (1)從網(wǎng)站http://www.mpich.org/dowllloads/下載mpich-3.2.tar.gz安裝包;

        (2)#tar zxvf mpich-3.2.tar.gz,解壓縮到磁盤陣列;

        (3)#cd/root/mpich,進(jìn)入解壓后的目錄;

        (4)配置configure文件,#./configure--prefix=/publicl/home/user/user001/mpich3.2,--prefix為軟件所安裝的目錄;

        (5)#make

        (6)#make install

        3 ?集群搭建后的管理與維護(hù)

        3.1 ?集群作業(yè)管理系統(tǒng)

        曙光Gridview高性能計(jì)算的綜合管理系統(tǒng)基于TOR-QUE(Tera-scale Open-source Resource and Queue manager)來實(shí)現(xiàn)對集群的安裝部署、配置、狀態(tài)監(jiān)控、告警、報(bào)表分析等運(yùn)行維護(hù)管理工作,以及對高性能計(jì)算資源的調(diào)度分配、作業(yè)提交、作業(yè)管理、狀態(tài)監(jiān)控和統(tǒng)計(jì)記賬等功能[16]。以作業(yè)提交為例,Girdview有兩種作業(yè)提交方式,一種為腳本方式,可選擇已經(jīng)寫完整的腳本文件所在的絕對目錄進(jìn)行提交;另外一種方式為命令行方式,用戶需在命令行輸入界面輸入運(yùn)行作業(yè)相關(guān)的命令行。以下是作業(yè)提交中非常常見的簡單實(shí)用型腳本:

        #!/bin/bash

        #PBS–N testjob ? //指定作業(yè)名稱

        #PBS–l node=2:ppn=28 ? //作業(yè)所需要節(jié)點(diǎn)數(shù)以及每個(gè)節(jié)點(diǎn)運(yùn)行core數(shù)

        #PBS–q queue_name ? //指定作業(yè)提交到哪個(gè)隊(duì)列

        mpirun–np作業(yè)總core數(shù)–machinefile $PBS_NODEFILE./cpi ? //真正執(zhí)行作業(yè)的指令,其中總cores=no des×ppn。

        3.2 ?集群環(huán)境監(jiān)控與維護(hù)

        鑒于高性能計(jì)算集群的高可用性,一般用戶要求7×24小時(shí)×365天不間斷運(yùn)行。大量的計(jì)算任務(wù)提交到計(jì)算節(jié)點(diǎn)上,各個(gè)節(jié)點(diǎn)都處于高速運(yùn)轉(zhuǎn)的狀態(tài),計(jì)算刀片以及周邊設(shè)備發(fā)熱量驟增,服務(wù)器排風(fēng)口的溫度基本都在40℃左右。因此,良好的機(jī)房環(huán)境、制冷系統(tǒng)是保障該系統(tǒng)運(yùn)行的必要條件??茖W(xué)合理的機(jī)房氣流組織也是建立集群時(shí)必須考慮的問題之一,遵循“冷道在柜前、熱道在柜后”的原則,將冷熱通道區(qū)分開有利于空調(diào)快速帶走熱量,降低空調(diào)制冷系統(tǒng)能耗[17]。

        如上所述,該集群要進(jìn)行長期、穩(wěn)定的運(yùn)行需要機(jī)房空調(diào)設(shè)施來保持機(jī)房標(biāo)準(zhǔn)溫度,同時(shí)離不開不間斷的UPS電源保護(hù),這些工作除了由集群監(jiān)控軟件完成一部分以外,還需要有經(jīng)驗(yàn)、管理能力較強(qiáng)的技術(shù)人員去解決各個(gè)環(huán)節(jié)出現(xiàn)的問題。具體的措施如下:

        (1)對經(jīng)常出現(xiàn)故障的、容易老化的設(shè)備硬件做好記錄,并定期排查,出現(xiàn)問題及時(shí)進(jìn)行更換或維修處理;

        (2)密切監(jiān)控集群使用情況,若出現(xiàn)節(jié)點(diǎn)宕機(jī)、登陸節(jié)點(diǎn)死機(jī)、IO節(jié)點(diǎn)故障等要及時(shí)處理,以免造成用戶數(shù)據(jù)丟失;

        (3)制定合理的機(jī)房運(yùn)維制度、執(zhí)行制度和管理制度,提升集群管理人員技術(shù)水平,應(yīng)對日常問題和突發(fā)問題。

        4 ?集群并行效率測試

        通過作業(yè)提交軟件Gridview提交測試計(jì)算作業(yè),最大并行規(guī)模為140核,跨節(jié)點(diǎn)計(jì)算時(shí),每個(gè)節(jié)點(diǎn)用滿28核。作業(yè)正常結(jié)束后,根據(jù)Gridview作業(yè)統(tǒng)計(jì)信息,得到完成該作業(yè)所運(yùn)行的機(jī)時(shí)(Run Time),根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算出加速比以及并行效率。加速比即同一個(gè)任務(wù)在單處理器系統(tǒng)和N個(gè)并行處理器系統(tǒng)中運(yùn)行消耗時(shí)間的比率。

        4.1 ?測試環(huán)境

        測試集群計(jì)算節(jié)點(diǎn)的系統(tǒng)環(huán)境如表1所示。

        4.2 ?測試算例

        用VASP對含有62個(gè)原子的Ni孿晶模型進(jìn)行單點(diǎn)能計(jì)算,計(jì)算過程中采用的計(jì)算參數(shù)與模型完全相同。采用不同計(jì)算資源時(shí)的CPU性能分析,即運(yùn)行時(shí)間對比如表2所示。其中加速比=1166.551/不同節(jié)點(diǎn)CPU運(yùn)行時(shí)間,并行效率=加速比/節(jié)點(diǎn)數(shù)。

        測試結(jié)果如圖6所示,隨著并行核數(shù)的增加,加速比在28核與56核時(shí)線性加速非常明顯,隨著計(jì)算核數(shù)繼續(xù)增加,計(jì)算耗時(shí)不斷回落,加速比數(shù)據(jù)一直呈小幅攀升趨勢。當(dāng)并行測試規(guī)模擴(kuò)大至140核,也就是單節(jié)點(diǎn)28核的5倍時(shí),可以看到計(jì)算時(shí)間從單節(jié)點(diǎn)28核的1165.551秒縮短至492.118秒,也就是計(jì)算時(shí)長縮短了近1/2,計(jì)算時(shí)長并沒有縮短到理論的1/5,此時(shí)的加速比倍數(shù)為2.37,并且并行效率維持在47%的水平。因此,在使用VASP求解此類計(jì)算問題時(shí),需要及時(shí)注意計(jì)算資源的變化趨勢情況,根據(jù)求解問題類型和模型類型特點(diǎn)選用合理的區(qū)域分解方案和多核并行加速策略,以實(shí)現(xiàn)計(jì)算資源的優(yōu)化配置和最佳使用狀態(tài)。

        5 ?結(jié) ?論

        我國高性能計(jì)算應(yīng)用的發(fā)展已經(jīng)到了上升的關(guān)鍵時(shí)期,在國家大力的投入與支持下,將持續(xù)朝著良好的態(tài)勢發(fā)展。高性能計(jì)算集群不只是簡單地將一些硬件搭建在一起就能投入使用,而是需要詳盡的規(guī)劃來進(jìn)行建設(shè)。在集群數(shù)量持續(xù)上漲的同時(shí),許多維護(hù)的困擾也相應(yīng)出現(xiàn),在整個(gè)系統(tǒng)設(shè)計(jì)的初期應(yīng)該具有長遠(yuǎn)的眼光,謹(jǐn)慎地考慮問題。在搭建后使用的階段,更應(yīng)該根據(jù)實(shí)際運(yùn)行情況,不斷調(diào)整整個(gè)機(jī)器的資源調(diào)度策略和隊(duì)列設(shè)置等,以適應(yīng)用戶的需求。

        參考文獻(xiàn):

        [1] 鄭曉歡,陳明奇,唐川,等.全球高性能計(jì)算發(fā)展態(tài)勢分析 [J].世界科技研究與發(fā)展,2018,40(3):249-260.

        [2] 袁國興,姚繼鋒.2017年中國高性能計(jì)算機(jī)發(fā)展現(xiàn)狀分析 [J].計(jì)算機(jī)工程與科學(xué),2017,39(12):2161-2166.

        [3] 鄧賓.高性能計(jì)算集群的建立及管理 [J].自動(dòng)化與儀器儀表,2014(2):149-151.

        [4] 王濤,李強(qiáng).全球未來計(jì)算競爭態(tài)勢及對我國的啟示 [J].電信技術(shù),2018(6):43-46.

        [5] 錢德沛.我國高性能計(jì)算的回顧與展望 [J].民主與科學(xué),2017(4):20-23.

        [6] 孟玲玲.高性能計(jì)算集群系統(tǒng)建設(shè)與運(yùn)行管理研究 [J].軟件導(dǎo)刊,2017,16(3):138-140.

        [7] 遲學(xué)斌.高性能計(jì)算環(huán)境與應(yīng)用 [J].國防科技工業(yè),2018(5):21-22.

        [8] 鐘澤秀,詹曉東,裴春梅.低成本的高性能計(jì)算環(huán)境的搭建 [J].蕪湖職業(yè)技術(shù)學(xué)院學(xué)報(bào),2016,18(4):33-36.

        [9] 陳曉霞,孫婧.中國氣象局的高性能計(jì)算機(jī)系統(tǒng) [J].科研信息化技術(shù)與應(yīng)用,2012,3(5):83-90.

        [10] 黃建強(qiáng),孟永偉,曹騰飛,等.青海大學(xué)三江源數(shù)據(jù)分析中心高性能計(jì)算集群的構(gòu)建與設(shè)備管理[J].實(shí)驗(yàn)技術(shù)與管理,2014,31(12):237-240.

        [11] 高永國,鄧津.甘肅省地震局高性能計(jì)算系統(tǒng) [J].地震地磁觀測與研究,2018,39(1):149-153.

        [12] 游偉倩,盛樂標(biāo),張予倩.南京大學(xué)大型高性能計(jì)算集群平臺(tái)建設(shè)研究 [J].科技創(chuàng)新導(dǎo)報(bào),2018,15(4):126-127.

        [13] 郭宇,葛佳斌.高性能計(jì)算集群運(yùn)維自動(dòng)化研究 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017(6):59-61.

        [14] 金能智,者建武,李唐艷,等.基于Linux的高性能計(jì)算集群MPI并行環(huán)境配置研究 [J].科技創(chuàng)新導(dǎo)報(bào),2017,14(3):116-117.

        [15] 朱宏武,尹新懷,羅丹,等.湖南省氣象局遠(yuǎn)程高性能計(jì)算環(huán)境的設(shè)計(jì)與實(shí)現(xiàn) [J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,8(3):259-266.

        [16] 中科曙光.Gridview3.2普通用戶用戶手冊 [Z].曙光信息產(chǎn)業(yè)股份有限公司,2013.

        [17] 李博.通信機(jī)房的運(yùn)行維護(hù)工作探究 [J].信息系統(tǒng)工程,2018(9):101.

        作者簡介:文洮(1987-),女,漢族,甘肅人,助理研究員,研究生,研究方向:高性能計(jì)算、數(shù)值模擬等。

        猜你喜歡
        搭建維護(hù)集群
        集群式AUV可控分群控制算法
        一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        勤快又呆萌的集群機(jī)器人
        高中數(shù)學(xué)實(shí)踐教學(xué)體系平臺(tái)的搭建策略研究
        亞太教育(2016年35期)2016-12-21 20:12:41
        基于單節(jié)點(diǎn)單網(wǎng)卡環(huán)境的OpenStack平臺(tái)搭建
        基于云計(jì)算和移動(dòng)互聯(lián)技術(shù)的科技創(chuàng)新云服務(wù)平臺(tái)的搭建
        淺談初中信息技術(shù)高效課堂的構(gòu)建
        淺析日常輸配電線路運(yùn)行管理及維護(hù)措施
        中低壓配網(wǎng)桿塔防撞措施淺析
        中国黄色一区二区三区四区| 亚洲欧美日韩国产一区二区精品| 乱人伦中文字幕在线不卡网站| 肉丝高跟国产精品啪啪| 中文字幕亚洲视频一区| 特黄做受又硬又粗又大视频小说| 婷婷综合缴情亚洲| 无码视频一区二区三区在线播放| 亚洲女同性恋激情网站| 国产精品人人爱一区二区白浆 | 日韩一本之道一区中文字幕| 优优人体大尺大尺无毒不卡| 开心五月激情综合婷婷| 欧美成人免费看片一区| 一区二区三区国产天堂| 无码日韩精品一区二区免费暖暖| 国产精品美女久久久久| 欧美乱人伦中文字幕在线不卡| 国产av精品一区二区三区视频| 欧美成人家庭影院| a人片在线观看苍苍影院| 亚洲成a人片在线观看导航| 日本视频一区二区三区| 十八禁视频网站在线观看| 国产精品卡一卡二卡三| 亚洲a∨好看av高清在线观看 | 不卡的av网站在线观看| 精品人妻无码一区二区三区蜜桃一 | 日本黄色3级一区二区| 亚洲av无码乱码国产精品| 99久久久国产精品免费蜜臀| 国产亚洲激情av一区二区| 日本中文字幕有码网站| 亚洲日韩av无码中文字幕美国| 欧美伊人亚洲伊人色综| 亚洲综合一区二区三区久久| 特级做a爰片毛片免费看| 极品美女扒开粉嫩小泬| 美女叉开双腿让男人插| 男女男精品视频网站免费看| 7777奇米四色成人眼影|