王 彬
(國(guó)家氣象信息中心中國(guó)氣象局,北京100081)
高性能計(jì)算通過并行計(jì)算的方式解決對(duì)超級(jí)計(jì)算性能的需求。氣象是高性能計(jì)算的重要應(yīng)用領(lǐng)域之一。隨著氣象數(shù)值預(yù)報(bào)業(yè)務(wù)與科研工作的快速發(fā)展,氣象高性能計(jì)算的需求激增,中國(guó)氣象部門的高性能計(jì)算能力有了長(zhǎng)足的進(jìn)步,應(yīng)用水平不斷提高,為提高氣象業(yè)務(wù)信息化能力做出了重要貢獻(xiàn)。
根據(jù)文獻(xiàn)[1]中的定義,高性能計(jì)算(high performance computing,HPC)泛指量大、快速、高效的運(yùn)算。通常也把高性能計(jì)算稱為超級(jí)計(jì)算。目前,高性能計(jì)算已經(jīng)成為計(jì)算機(jī)科學(xué)技術(shù)的一個(gè)重要分支,主要是指從體系結(jié)構(gòu)、并行算法和軟件開發(fā)等方面研究開發(fā)高性能計(jì)算機(jī)的技術(shù),高性能計(jì)算是繼理論科學(xué)和實(shí)驗(yàn)科學(xué)之后科學(xué)研究的第三大支柱。從更廣泛的視野來看,高性能計(jì)算已不僅限于并行計(jì)算,與分布式計(jì)算、網(wǎng)格計(jì)算、網(wǎng)絡(luò)計(jì)算、云計(jì)算等密切聯(lián)系并日益融合。
根據(jù)Flynn分類法[2],現(xiàn)代的高性能計(jì)算機(jī)系統(tǒng)大都屬于MIMD(多指令流多數(shù)據(jù)流)類型的計(jì)算機(jī)。MIMD從結(jié)構(gòu)上和訪存方式上,又可以分為:
結(jié)構(gòu)模型:PVP(并行向量處理機(jī)),SMP(共享存儲(chǔ)型多處理機(jī)),MPP(大規(guī)模并行處理),DSM(分布共享存儲(chǔ)),COW(工作站集群)。
訪存模型:UMA(均勻存儲(chǔ)器存?。琋UMA(非均勻存儲(chǔ)器存?。?,COMA(只用高速緩存的存儲(chǔ)器結(jié)構(gòu)),CC-NUMA(一致性高速緩存非均勻存儲(chǔ)訪問模型),NORMA(非遠(yuǎn)程存儲(chǔ)訪問模型)。
集群系統(tǒng)(cluster)是一組相互獨(dú)立的計(jì)算機(jī),利用高速通信網(wǎng)絡(luò),按某種結(jié)構(gòu)連接起來,組成一個(gè)單一的計(jì)算機(jī)系統(tǒng),統(tǒng)一管理調(diào)度,實(shí)現(xiàn)高效并行處理的系統(tǒng)。其出發(fā)點(diǎn)是提供高可靠性、可擴(kuò)充性和抗災(zāi)難性。在2012年6月的世界超級(jí)計(jì)算機(jī)Top500中,集群系統(tǒng)架構(gòu)占據(jù)81%以上的市場(chǎng)份額。
目前衡量高性能計(jì)算機(jī)的關(guān)鍵性能指標(biāo)包括系統(tǒng)架構(gòu)、機(jī)器規(guī)模、處理器(核)數(shù)量、峰值速度、實(shí)測(cè)速度、運(yùn)行效率、網(wǎng)絡(luò)互聯(lián)性能、每瓦特性能等。
高性能計(jì)算進(jìn)入千萬億次(PFLOPS)時(shí)代后,主要廠商已經(jīng)開始探索ExaFlops(百億億次,千萬億次PFlops的1000倍)級(jí)的超級(jí)計(jì)算機(jī),預(yù)計(jì)首臺(tái)ExaFlops計(jì)算機(jī)系統(tǒng)將會(huì)在2018年左右出現(xiàn)[3]。
雖然性能提升速度迅猛,但是高性能計(jì)算領(lǐng)域面臨的高度計(jì)算密集、數(shù)據(jù)密集型應(yīng)用需求也急劇攀升?,F(xiàn)在和未來所有高性能計(jì)算系統(tǒng)面臨的挑戰(zhàn)有:低成本、低能耗、并行程序支持的可用性以及對(duì)現(xiàn)有代碼的有效沿用。
在過去的幾十年里,計(jì)算機(jī)處理器速度的發(fā)展一直遵循著摩爾定律。特定的應(yīng)用程序會(huì)隨著處理器頻率的提高而跑得更快。然而,未來單CPU芯片將需要更高的主頻,這就導(dǎo)致CPU能耗增加,產(chǎn)生散熱、漏電等單CPU芯片物理瓶頸,這些因素有力地推動(dòng)了多核處理器技術(shù)的發(fā)展。處理器性能的提高將不再單純依賴時(shí)鐘頻率的提高,而是要發(fā)揮多核/眾核的并行性。從Terascale發(fā)展到Petascale級(jí)甚至更高的高性能計(jì)算系統(tǒng)意味著系統(tǒng)內(nèi)的組件(內(nèi)核、互聯(lián)、存儲(chǔ)等)數(shù)量也在迅猛增加。目前機(jī)器規(guī)模最大的美國(guó)紅杉(Sequoia)超級(jí)計(jì)算機(jī)系統(tǒng)總共使用了157萬個(gè)處理器內(nèi)核。
圖形處理器(graphic processing unit,GPU)自問世以來,一直是作為CPU的附屬加速器來使用。隨著技術(shù)的發(fā)展和創(chuàng)新,GPU相對(duì)于CPU有更多的執(zhí)行單元數(shù)量,使GPU能夠在浮點(diǎn)處理能力上獲得優(yōu)勢(shì);GPU速度快、能耗低的優(yōu)勢(shì)日漸凸顯,逐漸演變成現(xiàn)在一些高性能計(jì)算機(jī)用于數(shù)據(jù)并行的組成部分。由于采用了專用的加速部件,混合架構(gòu)系統(tǒng)的性能/功耗比一般高于傳統(tǒng)的同構(gòu)系統(tǒng)[4]。因此,未來高性能計(jì)算機(jī)硬件體系結(jié)構(gòu)的可能將是CPU與GPU核組成的混合系統(tǒng)。
云計(jì)算是近幾年興起并廣受關(guān)注的一種資源提供、使用和計(jì)算模式:“云計(jì)算是由規(guī)模經(jīng)濟(jì)拖動(dòng),為互聯(lián)網(wǎng)上的外部用戶提供一組抽象的、虛擬化的、動(dòng)態(tài)可擴(kuò)展的、可管理的計(jì)算資源能力、存儲(chǔ)能力、平臺(tái)和服務(wù)的一種大規(guī)模分布式計(jì)算的聚合體”[5]。云計(jì)算環(huán)境中,計(jì)算任務(wù)分布在計(jì)算資源十分豐沛的計(jì)算資源池上,各種應(yīng)用系統(tǒng)能夠根據(jù)需要實(shí)時(shí)獲取計(jì)算能力、存儲(chǔ)空間和各種軟件服務(wù),云計(jì)算平臺(tái)可以按需對(duì)資源、平臺(tái)和軟件進(jìn)行動(dòng)態(tài)地部署、配置、重新配置以及取消等。云計(jì)算具有資源虛擬化、存儲(chǔ)高效可靠、高可擴(kuò)展性、集約管理、按需服務(wù)、“超瘦”客戶端、使用方便等特點(diǎn)。
氣象領(lǐng)域?qū)Ω咝阅苡?jì)算需求十分強(qiáng)烈,其需求主體是數(shù)值天氣預(yù)報(bào)模式的科學(xué)研究和業(yè)務(wù)運(yùn)行[6]。世界各國(guó)的業(yè)務(wù)數(shù)值預(yù)報(bào)也在有計(jì)劃、有步驟地快速發(fā)展,未來3~5年幾乎世界各主要國(guó)家的全球數(shù)值預(yù)報(bào)模式水平分辨率都將提高到10~20公里,達(dá)到了全球中尺度模式的水平,歐洲中期天氣預(yù)報(bào)中心的模式T1279 L91,水平分辨率已達(dá)16公里,日本氣象廳業(yè)務(wù)運(yùn)行的全球數(shù)值預(yù)報(bào)模式T959 L60,水平分辨率達(dá)到20公里[7]。
為適應(yīng)數(shù)值預(yù)報(bào)模式的快速發(fā)展,各國(guó)氣象部門的高性能計(jì)算機(jī)更新速度較快,歐美國(guó)家的氣象用機(jī)一般每?jī)赡昃蜁?huì)更新一次。截止到2012年6月份,全球前500名的系統(tǒng)中一共有15臺(tái)系統(tǒng)用于天氣和氣候應(yīng)用領(lǐng)域,基本采用了MPP架構(gòu)。
各國(guó)氣象部門計(jì)算能力,如圖1所示。
圖1 各國(guó)氣象部門計(jì)算能力
歐洲中期天氣預(yù)報(bào)中心(ECMWF)、美國(guó)、德國(guó)、英國(guó)、韓國(guó)和巴西等世界主要?dú)庀蟛块T都擁有世界上目前排名前500名的高性能計(jì)算機(jī)系統(tǒng),這些氣象部門在2008年至2012年間都進(jìn)行了設(shè)備的更新,并計(jì)劃在未來幾年引入性能超過千萬億次每秒(PFLOPS)的高性能計(jì)算機(jī)系統(tǒng)來支持氣象應(yīng)用。
高性能計(jì)算機(jī)系統(tǒng)是中國(guó)氣象信息系統(tǒng)的核心組成部分之一,其計(jì)算規(guī)模已成為氣象現(xiàn)代化建設(shè)水平的重要標(biāo)志之一。
中國(guó)氣象局國(guó)家級(jí)業(yè)務(wù)中心先后引進(jìn)了銀河Ⅱ、CRAY J90、CRAY EL98、CRAY C92、IBM SP2、IBM SP、曙光1000A、銀河Ⅲ、神威Ⅰ、神威新世紀(jì)-32I、神威新世紀(jì)-32P、IBM Cluster 1600、SGI Altix4700以及神威4000A等高性能計(jì)算機(jī)系統(tǒng)(如圖2所示),在支撐數(shù)值預(yù)報(bào)業(yè)務(wù)服務(wù)、研究開發(fā)及衛(wèi)星數(shù)據(jù)處理業(yè)務(wù)等工作中發(fā)揮了重大作用[8]。
圖2 國(guó)家級(jí)高性能計(jì)算機(jī)系統(tǒng)建設(shè)過程
從20世紀(jì)90年代初至今,氣象部門國(guó)家級(jí)計(jì)算能力基本上每5年增長(zhǎng)1個(gè)數(shù)量級(jí)。2005年底,21.76TFlops的IBM高性能計(jì)算機(jī)系統(tǒng)投入業(yè)務(wù)應(yīng)用后,用于業(yè)務(wù)和科研的計(jì)算能力比1978年提高了近2300萬倍,比“九五”期間提高了近200倍。
從發(fā)展過程來看,2000年前進(jìn)口國(guó)外高性能計(jì)算機(jī)系統(tǒng)占主導(dǎo)地位,2000年后國(guó)產(chǎn)高性能計(jì)算機(jī)與進(jìn)口并駕齊驅(qū)。
國(guó)家級(jí)氣象部門目前業(yè)務(wù)運(yùn)行的主要高性能計(jì)算機(jī)有4臺(tái),總計(jì)算能力近70TFLOPS,表1給出了國(guó)家級(jí)業(yè)務(wù)運(yùn)行的主要高性能計(jì)算機(jī)系統(tǒng)。
表1 氣象部門國(guó)家級(jí)業(yè)務(wù)運(yùn)行高性能計(jì)算機(jī)系統(tǒng)
IBM高性能計(jì)算機(jī)系統(tǒng)作為國(guó)家級(jí)主要計(jì)算業(yè)務(wù)平臺(tái),承擔(dān)數(shù)值天氣預(yù)報(bào)業(yè)務(wù)、短期氣候預(yù)測(cè)業(yè)務(wù)、氣候變化評(píng)估、數(shù)值預(yù)報(bào)準(zhǔn)業(yè)務(wù)及研發(fā)作業(yè)運(yùn)行等業(yè)務(wù)、科研任務(wù)。IBM高性能計(jì)算機(jī)系統(tǒng)包括IBM Cluster 1600系統(tǒng)的376個(gè)P655節(jié)點(diǎn)、6個(gè)P690節(jié)點(diǎn)、4個(gè)P630管理節(jié)點(diǎn)、25個(gè)HMC硬件管理控制臺(tái)、72個(gè)HPS互聯(lián)網(wǎng)絡(luò)、Fast T900磁盤陣列、網(wǎng)絡(luò)交換機(jī)以及其他的相關(guān)配件。整體計(jì)算性能為21.76TFlops。
神威4000A高性能計(jì)算機(jī)系統(tǒng)作為中國(guó)氣象局過渡期高性能計(jì)算機(jī)系統(tǒng),承擔(dān)著第二代短期氣候預(yù)測(cè)業(yè)務(wù)研發(fā)、IPCC-AR5、GRAPES模式研發(fā)、風(fēng)能資源預(yù)報(bào)服務(wù)等重要研發(fā)計(jì)算任務(wù)。神威4000A高性能計(jì)算機(jī)系統(tǒng)由296個(gè)計(jì)算節(jié)點(diǎn)、16個(gè)存儲(chǔ)節(jié)點(diǎn)、2個(gè)元數(shù)據(jù)服務(wù)器節(jié)點(diǎn),2個(gè)登錄節(jié)點(diǎn),2個(gè)管理服務(wù)器節(jié)點(diǎn)等部分組成。整體計(jì)算性能為33.75TFLOPS。
高性能計(jì)算資源對(duì)于中國(guó)氣象局而言始終是稀缺資源,由于國(guó)家級(jí)與地方之間,以及地方與地方之間在數(shù)值預(yù)報(bào)方面發(fā)展的不平衡,導(dǎo)致目前這一稀缺資源在部門之間分布(包括地理分布)的不均衡。對(duì)此,中國(guó)氣象局已著手依托國(guó)家級(jí)、區(qū)域級(jí)信息中心計(jì)算能力,建立一個(gè)氣象部門內(nèi)全國(guó)范圍分布的、跨廣域網(wǎng)絡(luò)的氣象計(jì)算資源管理與共享平臺(tái),進(jìn)行計(jì)算資源的整合和氣象模式的網(wǎng)格化應(yīng)用及推廣,解決氣象部門國(guó)家級(jí)、地方單位的資源整合、共享與協(xié)同管理等問題[9]。
在區(qū)域中心數(shù)值預(yù)報(bào)業(yè)務(wù)研究不斷發(fā)展、著力增強(qiáng)區(qū)域天氣氣候預(yù)報(bào)預(yù)測(cè)水平和業(yè)務(wù)能力的同時(shí),自2000年以來,一些區(qū)域和省級(jí)氣象部門也根據(jù)業(yè)務(wù)發(fā)展需要和實(shí)際情況,先后購(gòu)置建設(shè)了不同規(guī)模的高性能計(jì)算機(jī)系統(tǒng)[10,11]。
隨著多核/眾核處理器、超大規(guī)模并行處理、GPU計(jì)算、云計(jì)算等新技術(shù)的出現(xiàn),業(yè)界正處于計(jì)算技術(shù)發(fā)展的轉(zhuǎn)折點(diǎn),科學(xué)計(jì)算算法將經(jīng)歷技術(shù)和思維兩方面的變革。這些新興技術(shù)正在或已經(jīng)對(duì)現(xiàn)有高性能計(jì)算技術(shù)產(chǎn)生了不可忽視的影響和促進(jìn),未來的發(fā)展趨勢(shì)將是多方面的融合,這將對(duì)氣象部門的高性能計(jì)算應(yīng)用、研發(fā)產(chǎn)生深遠(yuǎn)的影響,將極大推動(dòng)包括高性能計(jì)算機(jī)業(yè)務(wù)在內(nèi)的氣象部門信息化建設(shè)[12]??梢灶A(yù)見,在未來,高性能計(jì)算技術(shù)將與數(shù)值氣象預(yù)報(bào)的應(yīng)用研究日益融合,不斷創(chuàng)新發(fā)展。
為了滿足數(shù)值天氣與氣候預(yù)報(bào)模式業(yè)務(wù)運(yùn)行和科研工作發(fā)展需要,十二五期間將通過實(shí)施能力建設(shè)工程項(xiàng)目,引進(jìn)建設(shè)新一代千萬億次以上國(guó)家級(jí)高性能計(jì)算機(jī)系統(tǒng),緩解國(guó)家級(jí)計(jì)算資源緊張局面,支撐同期數(shù)值天氣預(yù)報(bào)、氣候預(yù)測(cè)與氣候變化等業(yè)務(wù)研究工作。區(qū)域級(jí)也將建設(shè)適當(dāng)規(guī)模的計(jì)算能力,支撐發(fā)展本區(qū)域內(nèi)業(yè)務(wù)。同時(shí),制訂和施行配套的高性能計(jì)算資源分配、資源賬戶、資源評(píng)估、資源變更等管理規(guī)范[8]。
建立全國(guó)和區(qū)域級(jí)計(jì)算資源綜合管理平臺(tái),制定推行計(jì)算資源整合準(zhǔn)入方案,研制氣象計(jì)算資源綜合管理軟件,建立基于用戶行為的資源管理模式。引進(jìn)吸收先進(jìn)軟件技術(shù),建設(shè)全國(guó)范圍跨區(qū)域的氣象高性能計(jì)算平臺(tái),實(shí)現(xiàn)計(jì)算資源的統(tǒng)一管理、分配調(diào)劑與互備支撐。促進(jìn)資源集約使用,提高資源利用效率和精細(xì)化管理水平。圖3是未來CMAGRID建成后的格局。
圖3 CMAGRID
未來的國(guó)家級(jí)異地業(yè)務(wù)應(yīng)急備份中心,將建立備份高性能計(jì)算系統(tǒng)和存儲(chǔ)系統(tǒng),支撐國(guó)家級(jí)數(shù)值天氣預(yù)報(bào)業(yè)務(wù)數(shù)值模式的異地運(yùn)行。
高性能計(jì)算是信息技術(shù)發(fā)展較快的方向之一,氣象領(lǐng)域一直是高性能計(jì)算應(yīng)用的重要領(lǐng)域。幾十年以來,由于數(shù)值天氣預(yù)報(bào)模式研究和業(yè)務(wù)運(yùn)行對(duì)計(jì)算資源的強(qiáng)烈需要,國(guó)內(nèi)外氣象部門的高性能計(jì)算機(jī)及應(yīng)用蓬勃發(fā)展起來。中國(guó)氣象國(guó)家級(jí)及區(qū)域級(jí)的高性能計(jì)算應(yīng)用水平飛速提升,成為氣象現(xiàn)代化水平的重要標(biāo)志之一。從未來趨勢(shì)看,兩者結(jié)合將日趨緊密,并不斷相得益彰,創(chuàng)新發(fā)展。
[1]CHEN Guoliang,WU Junmin.High performance computing and high performance computer[EB/OL].[2012-12-03].http://wenku.baidu.com/view/bfa91636f111f18583d05a14.html(in Chinese).[陳國(guó)良,吳俊敏.高性能計(jì)算與高性能計(jì)算機(jī)[EB/OL].[2012-12-03].http://wenku.baidu.com/view/bfa91636f111f18583d05a14.html.]
[2]Flynn M.Flynn's taxonomy[EB/OL].[2013-05-04].http://en.wikipedia.org/wiki/Flynn's_taxonomy.
[3]LI Guojie.Information science and technology outlook for the first half of the 21st century[J].Bulletin of Chinese Academy of Sciences,2010,25(1):78-86(in Chinese).[李國(guó)杰.21世紀(jì)上半葉信息科學(xué)技術(shù)展望[J].中國(guó)科學(xué)院院刊,2010,25(1):78-86.]
[4]LIN Yisong,YANG Xuejun,TANG Tao,et al.An integrated energy optimization approach for CPU-GPU heterogeneous systems based on critical path analysis[J].Chinese Journal of Computers,2012,35(1):123-133(in Chinese).[林一松,楊學(xué)軍,唐滔,等.一種基于關(guān)鍵路徑分析的CPU-GPU異構(gòu)系統(tǒng)綜合能耗優(yōu)化方法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(1):123-133.]
[5]Foster I,Yong Z,Raicu I,et al.Cloud computing and grid computing 360-degree compared[C]//Proc Grid Comput Environ Workshop,Austin,Texas:IEEE Press,2008:1-10.
[6]WEI Min,WANG Bin,SUN Jing,et al.Analysis of the applicability of tianhe-1 supercomputer in the field of meteorology[J].Advances in Meteorological Science and Technology,2012,2(1):31-35(in Chinese).[魏敏,王彬,孫婧,等.“天河一號(hào)”系列超級(jí)計(jì)算機(jī)系統(tǒng)氣象領(lǐng)域適用性分析[J].氣象科技進(jìn)展,2012,2(1):31-35.]
[7]WANG Bin.An introduction to the 15th ECMWF workshop on high performance computing in meteorology[J].Scientific and Technological Cooperation in Meteorology,2013(2):11-17(in Chinese).[王彬.第15屆ECMWF高性能計(jì)算機(jī)在氣象中的應(yīng)用研討會(huì)簡(jiǎn)介[J].氣象科技合作動(dòng)態(tài),2013(2):11-17.]
[8]ZHAO Licheng.Meteorological information system[M].Beijing:China Meteorological Press,2011:72-84(in Chinese).[趙立成,氣象信息系統(tǒng)[M].北京:氣象出版社,2011:72-84.]
[9]WANG Bin,ZONG Xiang,TIAN Hao.Design and establishment of a nationwide meteorological computational grid[J].Journal of Applied Meteorological Science,2010,21(5):632-640(in Chinese).[王彬,宗翔,田浩.國(guó)家氣象計(jì)算網(wǎng)格的設(shè)計(jì)與建立[J].應(yīng)用氣象學(xué)報(bào),2010,21(5):632-640.]
[10]XIAO Wenming,LI Yongsheng,CHEN Xiaoyu,et al.Study on performance evaluation of HPC system[J].Computer Systems &Applications,2008(3):115-118(in Chinese).[肖文名,李永生,陳曉宇,等.高性能計(jì)算系統(tǒng)性能評(píng)測(cè)關(guān)鍵問題探討[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008(3):115-118.]
[11]YUAN Weihua,ZHAO Yujuan,MENG Dongmei,et al.Design and implementation of Tianjin mesoscale numerical weather prediction system[J].Meteorological Science and Technology,2011,39(6):828-833(in Chinese).[袁衛(wèi)華,趙玉娟,孟冬梅,等.天津市中尺度數(shù)值預(yù)報(bào)業(yè)務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].氣象科技,2011,39(6):828-833.]
[12]SHEN Wenhai.Future meteorological informationization trends through cloud computing[J].Advances in Meteorological Science and Technology,2012,2(2):49-56(in Chinese).[沈文海.從云計(jì)算看氣象部門未來的信息化趨勢(shì)[J].氣象科技進(jìn)展,2012,2(2):49-56.]