導(dǎo)語:當(dāng)前,高性能計(jì)算應(yīng)用軟件的發(fā)展落后于計(jì)算機(jī)系統(tǒng)的發(fā)展是不爭(zhēng)的事實(shí)。然而,有一種觀點(diǎn)認(rèn)為,通過引進(jìn)國(guó)外商業(yè)軟件就可以在高性能計(jì)算機(jī)上滿足我國(guó)高性能計(jì)算應(yīng)用需求,甚至將高性能計(jì)算等同于高性能計(jì)算機(jī),這是極其片面和非常有害的。高性能計(jì)算機(jī)的速度是一個(gè)國(guó)家計(jì)算機(jī)領(lǐng)域研制和發(fā)展能力的體現(xiàn),而高性能計(jì)算應(yīng)用的規(guī)模和質(zhì)量則是一個(gè)國(guó)家各學(xué)科研究和發(fā)展能力的體現(xiàn)。
高性能計(jì)算(High Performance Computing)也稱數(shù)值計(jì)算,或數(shù)值模擬實(shí)驗(yàn),能夠利用先進(jìn)的計(jì)算能力去實(shí)施和解決復(fù)雜問題,特別是理論、實(shí)驗(yàn)難以解決或無法解決的科學(xué)問題。加速高性能計(jì)算與應(yīng)用的發(fā)展,對(duì)提升我國(guó)自主創(chuàng)新能力,增強(qiáng)國(guó)家競(jìng)爭(zhēng)力、保障國(guó)家安全,促進(jìn)國(guó)民經(jīng)濟(jì)建設(shè)發(fā)展具有十分重要的現(xiàn)實(shí)意義。
高性能計(jì)算機(jī)系統(tǒng)和高性能應(yīng)用軟件是推動(dòng)高性能計(jì)算發(fā)展的兩個(gè)必要支撐條件。堅(jiān)持高性能計(jì)算應(yīng)用軟件和高性能計(jì)算機(jī)系統(tǒng)的統(tǒng)籌規(guī)劃、均衡投資、協(xié)調(diào)發(fā)展,是高性能計(jì)算與應(yīng)用發(fā)展的關(guān)鍵。
高性能計(jì)算機(jī)系統(tǒng)
現(xiàn)狀
高性能計(jì)算機(jī)系統(tǒng)不僅是現(xiàn)代高新技術(shù)的基礎(chǔ),而且也是現(xiàn)代科學(xué)前沿研究的平臺(tái)。當(dāng)前科學(xué)研究與工程實(shí)施正在向更大規(guī)模、更高復(fù)雜度、更加微觀或宏觀的領(lǐng)域發(fā)展,這種復(fù)雜、多樣的應(yīng)用需求,驅(qū)動(dòng)了多種類型、不同結(jié)構(gòu)的計(jì)算機(jī)芯片和計(jì)算機(jī)的研發(fā),并推動(dòng)計(jì)算機(jī)系統(tǒng)性能的不斷提高。
主要應(yīng)用領(lǐng)域包括納米技術(shù)、燃燒模擬、核聚變、氣候模擬和空間物理等復(fù)雜物理過程的數(shù)學(xué)模型是一組非定常的非線性微分方程,這類問題的數(shù)值求解數(shù)據(jù)往返交換多、計(jì)算量大、計(jì)算時(shí)間長(zhǎng),要求計(jì)算精度高,分辨率高,這對(duì)計(jì)算機(jī)系統(tǒng)的處理器(CPU)主頻、訪存和互連帶寬和延遲、穩(wěn)定性、可靠性和易用性等都提出了極高的要求。這就是定制能力型(Capability)MPP超級(jí)計(jì)算機(jī)系統(tǒng)/通用(General Purpose)系統(tǒng),它致力于解決最具挑戰(zhàn)性的問題。這種計(jì)算機(jī)系統(tǒng)建造困難、研制周期長(zhǎng)、造價(jià)高,且數(shù)量有限,需要國(guó)家進(jìn)行專項(xiàng)投資。這種計(jì)算機(jī)系統(tǒng)的研制,可以逐步滿足高端計(jì)算不斷提出的對(duì)計(jì)算機(jī)系統(tǒng)性能的要求,而且促進(jìn)和驅(qū)動(dòng)計(jì)算機(jī)技術(shù)的全面提升,也將推動(dòng)普適性計(jì)算機(jī)系統(tǒng)(如集群系統(tǒng))技術(shù)的提高。
在數(shù)據(jù)處理、通訊、金融、自動(dòng)控制等對(duì)計(jì)算機(jī)訪存、通信等要求不是特別高的行業(yè)應(yīng)用領(lǐng)域,使用的是普適性計(jì)算機(jī)系統(tǒng)(如集群-Cluster系統(tǒng))。它基于工業(yè)標(biāo)準(zhǔn)生產(chǎn),采用商品化的處理器、互連網(wǎng)絡(luò)等硬件,采用標(biāo)準(zhǔn)的(或開源)的Linux操作系統(tǒng),通用/商用數(shù)據(jù)庫、管理軟件等。這類計(jì)算機(jī)稱作容量型(Capacity)計(jì)算機(jī)系統(tǒng),它建造周期短,整體性能低于定制能力型MPP計(jì)算機(jī)系統(tǒng),造價(jià)也低很多,同樣峰值的集群系統(tǒng)和定制能力型計(jì)算機(jī)系統(tǒng)之間價(jià)格有數(shù)倍之差,是目前國(guó)際上占有量最大的高性能計(jì)算機(jī)系統(tǒng),2010年世界TOP500排行榜所列的全世界500臺(tái)最快超級(jí)計(jì)算機(jī)系統(tǒng)中,集群系統(tǒng)就有414臺(tái)之多,占82.80%的份額。當(dāng)前稱為業(yè)界熱點(diǎn)的“云計(jì)算”應(yīng)用大多運(yùn)行在這種類型的計(jì)算機(jī)系統(tǒng)之上。
以目前的半導(dǎo)體技術(shù)能力,主要靠提升處理器芯片主頻來提升計(jì)算系統(tǒng)計(jì)算速度,這種做法將會(huì)導(dǎo)致系統(tǒng)漏電急劇增加、系統(tǒng)無法及時(shí)散熱和用戶難以承受功耗負(fù)擔(dān)等問題。多核處理器和加速部件如Cell、GPGPU等的推出和混合使用將計(jì)算機(jī)系統(tǒng)的性能提高到了一個(gè)新的高度,并將系統(tǒng)性能功耗比控制在較好的水平,成為目前國(guó)內(nèi)外低功耗體系結(jié)構(gòu)的主流方式。面向高端裝備制造、生物醫(yī)藥、石油數(shù)據(jù)處理、海洋環(huán)境工程、天氣預(yù)報(bào)與氣候預(yù)測(cè)、數(shù)字媒體與動(dòng)漫渲染等主要應(yīng)用需求,由國(guó)防科學(xué)技術(shù)大學(xué)研制,安裝在中國(guó)國(guó)家超級(jí)計(jì)算天津中心的“天河-1A”就是這種CPU和GPU混用的異構(gòu)型計(jì)算機(jī)系統(tǒng)?!疤旌?1A”由7168個(gè)結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)由2個(gè)Intel X5670(2.9GHz,6核),1個(gè)NVIDIA tesla M2050 GPU(1.15GHz,14核,448個(gè)CUDA核),以及32GB的內(nèi)存構(gòu)成,封裝在112個(gè)水風(fēng)混合冷卻機(jī)柜里(柜高2米,寬1.45米,深1.2米)。全系統(tǒng)采用光電混合網(wǎng)絡(luò)相連接,鏈路雙向帶寬為160Gbps,理論峰值性能為4.701Petaflops(千萬億次),LINPACK測(cè)試性能為2.566Petaflops,創(chuàng)下了全新的世界紀(jì)錄,成為當(dāng)今世界最快的高性能計(jì)算機(jī)。實(shí)現(xiàn)這一性能時(shí)消耗的電力為404萬瓦特,即每瓦特能耗可實(shí)現(xiàn)每秒635.15百萬億次浮點(diǎn)運(yùn)算,這個(gè)效能值也排名世界第二位。這種CPU+GPU異構(gòu)型集群比單一CPU的集群價(jià)格又要低數(shù)倍。
以上列舉出的三類計(jì)算機(jī)——定制MPP、單一CPU集群和CPU+GPU異構(gòu)集群,由于研制難度不同,性價(jià)比不同,適用領(lǐng)域不同,各自均有自己的生存空間。因此,應(yīng)用的原則應(yīng)該是:只要能滿足應(yīng)用需求,能用易構(gòu)建、性價(jià)比高的計(jì)算機(jī),就不用其它類型的計(jì)算機(jī)。
應(yīng)用軟件
制約高性能計(jì)算發(fā)展
高性能計(jì)算應(yīng)用軟件(簡(jiǎn)稱應(yīng)用軟件)是高性能計(jì)算應(yīng)用的具體體現(xiàn),應(yīng)用問題不同,與之相應(yīng)的應(yīng)用軟件就不同。應(yīng)用軟件的開發(fā)、研制和驗(yàn)證是一個(gè)系統(tǒng)工程,應(yīng)用問題越復(fù)雜,應(yīng)用軟件的開發(fā)、研制就越困難,研制周期就越長(zhǎng)。
應(yīng)用軟件的研制和發(fā)展對(duì)高性能計(jì)算應(yīng)用發(fā)展具有舉足輕重的地位。毋庸諱言,高性能計(jì)算應(yīng)用軟件的發(fā)展落后于計(jì)算機(jī)系統(tǒng)的發(fā)展是不爭(zhēng)的事實(shí)。應(yīng)用軟件的發(fā)展越來越引起人們的關(guān)注,特別是在高端計(jì)算應(yīng)用領(lǐng)域中。2004年,美國(guó)Jack Dongarra教授就指出“高端計(jì)算的真正危機(jī)在于軟件,軟件成本已成為現(xiàn)代技術(shù)中最主要的經(jīng)濟(jì)開支”。應(yīng)用軟件是高性能計(jì)算的基礎(chǔ),其生命周期一般可持續(xù)幾十年,而一般高性能計(jì)算機(jī)的生命周期才不過五年左右,其重要性和價(jià)值可見一斑。
高性能計(jì)算的關(guān)鍵是高科學(xué)置信度,也就是高性能計(jì)算的結(jié)果要有一個(gè)可信度的量化表示,而且隨著科技的發(fā)展對(duì)這種可信度量化表示的要求也會(huì)越來越高。為此,美國(guó)能源部、美國(guó)宇航局等部門制定了以此為目標(biāo)的規(guī)劃和投資。美國(guó)能源部ASC計(jì)劃的軟件目標(biāo)是:研制和開發(fā)高逼真度、可檢驗(yàn)、高效的三維預(yù)言性程序(能正確地揭示或預(yù)測(cè)未知的規(guī)律和現(xiàn)象的程序)。
美國(guó)科學(xué)家總結(jié)過去60多年核武器的研究和1149次核試驗(yàn)后認(rèn)為:美國(guó)至今仍然沒有研究出一套能明確地把物理現(xiàn)象和基本原理連接起來的核武器定理和方程式。他們認(rèn)為,物理模型是高性能計(jì)算應(yīng)用軟件的出發(fā)點(diǎn),ASC計(jì)劃把它放在建立可信計(jì)算能力(2030年基本實(shí)現(xiàn))的關(guān)鍵研究領(lǐng)域位置。
開發(fā)、研制應(yīng)用軟件的目標(biāo)之一是實(shí)現(xiàn)全系統(tǒng)(全過程)計(jì)算,要求研究的數(shù)值方法和算法高效、可擴(kuò)展,能實(shí)現(xiàn)數(shù)千、數(shù)萬至數(shù)十萬個(gè)處理器核的大規(guī)模并行,同時(shí)研究匹配的可擴(kuò)展物理參數(shù)。其目標(biāo)之二是逐步實(shí)現(xiàn)高分辨率、更高精密度的計(jì)算。在這個(gè)研究過程中將用解驗(yàn)證(Solution Verification)方法進(jìn)行先驗(yàn)估計(jì),定量估計(jì)離散誤差、迭代誤差和舍入誤差,分析評(píng)估它們對(duì)計(jì)算精度的影響和計(jì)算模型對(duì)真實(shí)物理模型反映的程度,并用程序驗(yàn)證(Code Verification)的方法查驗(yàn)可能出現(xiàn)的算法錯(cuò)誤、參數(shù)錯(cuò)誤和編程錯(cuò)誤,確保應(yīng)用程序正確地求解物理模型。ASC計(jì)劃把確認(rèn)(Validation)和驗(yàn)證(Verification)作為確保數(shù)值模擬置信度的一種系統(tǒng)方法,設(shè)立專門機(jī)構(gòu)、編制專門人員、撥付專門經(jīng)費(fèi)從事這項(xiàng)工作。
ASC計(jì)劃根據(jù)研究任務(wù)的需要和應(yīng)用軟件所能達(dá)到的能力提出了近十年(至2018年)平衡配置容量(Capacity)、能力(Capability)和先進(jìn)型(Advance)計(jì)算平臺(tái)的計(jì)劃,于2018年實(shí)現(xiàn)艾級(jí)(Exascale,1018)規(guī)模的計(jì)算。
高性能計(jì)算應(yīng)用軟件作為國(guó)家戰(zhàn)略科技創(chuàng)新的基本工具,直接服務(wù)于國(guó)家重大科技項(xiàng)目,專業(yè)性和多學(xué)科交叉性非常強(qiáng),需要國(guó)家的長(zhǎng)期規(guī)劃和長(zhǎng)期穩(wěn)定的經(jīng)費(fèi)支持和人員配備,這也完全不同于市場(chǎng)運(yùn)作的商業(yè)軟件。
應(yīng)有計(jì)劃地發(fā)展
高性能計(jì)算與應(yīng)用
經(jīng)過幾十年的不懈努力,目前,高性能計(jì)算已經(jīng)在我國(guó)的一些重要科技領(lǐng)域得到了有效的應(yīng)用,取得了十分重要的成果。例如:在核武器的研制中,高性能計(jì)算已經(jīng)成為禁試后核武器理論設(shè)計(jì)中唯一可行的實(shí)驗(yàn)驗(yàn)證手段;在大氣環(huán)流、海洋環(huán)流和氣候變化的數(shù)值模擬方面,我國(guó)發(fā)展了獨(dú)具中國(guó)特色的四代氣候系統(tǒng)模式,而且已利用它們?cè)诟咝阅苡?jì)算機(jī)上模擬了人類活動(dòng)對(duì)全球變化的可能影響以及未來氣候的可能演變趨勢(shì),為世界各國(guó)經(jīng)濟(jì)發(fā)展長(zhǎng)遠(yuǎn)規(guī)劃和科學(xué)研究提供了重要參考;在業(yè)務(wù)數(shù)值天氣預(yù)報(bào)方面,不僅能對(duì)全球范圍的天氣形勢(shì)做出3到10天的中期天氣預(yù)報(bào),而且通過同化各種觀測(cè)資料,能對(duì)區(qū)域尺度的劇烈天氣事件做出24#12316;48小時(shí)短期精細(xì)預(yù)報(bào);在海洋災(zāi)害方面,不僅能利用高性能計(jì)算機(jī)對(duì)厄爾尼諾作長(zhǎng)期預(yù)報(bào),而且能對(duì)風(fēng)暴潮、海浪、海流和海冰作日常業(yè)務(wù)預(yù)報(bào),以及對(duì)溢油等緊急事件作應(yīng)急預(yù)報(bào);在新藥研發(fā)方面,能夠利用高性能計(jì)算機(jī)實(shí)現(xiàn)活性化合物的虛擬篩選,從篩選的活性化合物出發(fā)進(jìn)行靶點(diǎn)的發(fā)現(xiàn)與確證,以及進(jìn)行大分子動(dòng)力學(xué)模擬來研究靶標(biāo)的構(gòu)象空間與作用機(jī)理。
不久前,研制成功并投入使用的天河-1A的應(yīng)用計(jì)算也取得了一些可喜的結(jié)果。例如,用24576個(gè)CPU核進(jìn)行了地球外核熱流體數(shù)值模擬;最多使用85860個(gè)核進(jìn)行了石油地震資料處理。此外,“天河-1A”的強(qiáng)大計(jì)算資源還為藥物機(jī)理、飛機(jī)制造,中長(zhǎng)期天氣預(yù)報(bào)等研究提供了多種規(guī)模的數(shù)值模擬,取得了滿意的結(jié)果。
雖然我國(guó)高性能計(jì)算機(jī)系統(tǒng)裝機(jī)峰值已處世界領(lǐng)先地位,并取得了一些應(yīng)用成果,但高性能計(jì)算的應(yīng)用能力與西方先進(jìn)國(guó)家比,還存在很大差距,要使高性能計(jì)算在實(shí)際應(yīng)用中真正成為科技創(chuàng)新的重要手段,仍然面臨巨大挑戰(zhàn)。
實(shí)際上,除了一些國(guó)防建設(shè)和國(guó)民經(jīng)濟(jì)建設(shè)的重要單位擁有各自的高性能計(jì)算機(jī)資源并從高性能計(jì)算中得到科技創(chuàng)新能力外,許多高等院校和科研院所的研究人員對(duì)高性能計(jì)算的使用還處于各自為政的狀態(tài),使用個(gè)人電腦或小規(guī)模集群/集群的少量處理器(核)進(jìn)行數(shù)值計(jì)算。同時(shí),大量使用的是商用軟件或開源軟件,很多軟件的源碼不可得,使用的只是目標(biāo)程序。因此,很難或根本就沒辦法去研究這些軟件的物理假設(shè)、簡(jiǎn)化、參數(shù)的不確定度和計(jì)算格式、算法的逼近度和誤差等問題,這些程序計(jì)算精度和分辨率不高,計(jì)算規(guī)模受限,很難發(fā)揮高性能計(jì)算機(jī),如數(shù)百萬億次、數(shù)千萬億次計(jì)算機(jī)系統(tǒng)強(qiáng)大的計(jì)算能力,關(guān)鍵應(yīng)用受限制,嚴(yán)重地影響和阻礙了我國(guó)的自主創(chuàng)新。有一種觀點(diǎn)認(rèn)為,通過引進(jìn)國(guó)外商業(yè)軟件就可以在高性能計(jì)算機(jī)上滿足我國(guó)高性能計(jì)算應(yīng)用需求,甚至將高性能計(jì)算等同于高性能計(jì)算機(jī),這是極其片面和非常有害的。高性能計(jì)算機(jī)的速度是一個(gè)國(guó)家計(jì)算機(jī)領(lǐng)域研制和發(fā)展能力的體現(xiàn),而高性能計(jì)算應(yīng)用的規(guī)模和質(zhì)量則是一個(gè)國(guó)家各學(xué)科研究和發(fā)展能力的體現(xiàn)。
鑒于此,我們應(yīng)該借鑒國(guó)外發(fā)展經(jīng)驗(yàn)盡快改變當(dāng)前我國(guó)高性能計(jì)算應(yīng)用落后的現(xiàn)狀。首先,應(yīng)從國(guó)家層面制定高性能計(jì)算整體戰(zhàn)略規(guī)劃,統(tǒng)一領(lǐng)導(dǎo)、組織和管理我國(guó)的高性能計(jì)算。其次,應(yīng)堅(jiān)持高性能計(jì)算應(yīng)用軟件和高性能計(jì)算機(jī)系統(tǒng)的長(zhǎng)期支持、均衡投資、協(xié)調(diào)發(fā)展,以推動(dòng)高性能計(jì)算與應(yīng)用的發(fā)展。再次,高性能計(jì)算涉及應(yīng)用科學(xué)、科學(xué)與工程計(jì)算和計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科,高等教育應(yīng)該建立相關(guān)學(xué)科,建立合理的評(píng)價(jià)機(jī)制,加大經(jīng)費(fèi)支持,鼓勵(lì)和提高研究人員從事高性能計(jì)算與應(yīng)用的積極性。
高性能計(jì)算與應(yīng)用發(fā)展任重道遠(yuǎn),讓我們堅(jiān)持高性能計(jì)算應(yīng)用軟件、計(jì)算機(jī)系統(tǒng)和計(jì)算機(jī)環(huán)境的協(xié)調(diào)同步發(fā)展,有計(jì)劃、有步驟地建設(shè)千萬億次、億億次,以及更高計(jì)算能力的計(jì)算系統(tǒng),適應(yīng)我國(guó)國(guó)民經(jīng)濟(jì)發(fā)展和國(guó)家安全的需要。
袁國(guó)興 北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所,研究員。主要研究方向?yàn)閿?shù)值方法,并行計(jì)算、計(jì)算機(jī)性能評(píng)測(cè)研究和高性能計(jì)算應(yīng)用。
張?jiān)迫?中國(guó)科學(xué)院軟件研究所研究員,CCF高級(jí)會(huì)員、高性能計(jì)算專業(yè)委員會(huì)秘書長(zhǎng),研究方向?yàn)榇笮筒⑿袛?shù)值軟件、并行程序設(shè)計(jì)和性能評(píng)價(jià)、并行計(jì)算模型和計(jì)算性能評(píng)測(cè)等。
邵京云 北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所高級(jí)工程師,高性能計(jì)算中心副主任,CCF會(huì)員,主要研究方向?yàn)楦咝阅苡?jì)算機(jī)系統(tǒng)系統(tǒng)配置、性能評(píng)測(cè)以及管理。