白香君
中國航空研究院
高性能計算是指利用多處理單元所形成的強(qiáng)大計算能力來解決用單個工作站無法完成的密集型計算任務(wù)。高性能計算的發(fā)展水平已經(jīng)成為衡量一個國家綜合實力和高科技發(fā)展水平的重要標(biāo)志,美國、歐盟、日本、英國都高度重視高性能計算的發(fā)展,并在國家層面設(shè)有專門機(jī)構(gòu)負(fù)責(zé)研究、制定高性能計算發(fā)展策略,我國也逐漸將高性能計算的發(fā)展提升到了國家戰(zhàn)略層面。
高性能計算能夠推進(jìn)人類對諸如星系等太大、原子等太小、核聚變等太快、宇宙等太慢、破壞性試驗等太危險或昂貴的問題的研究。高性能計算集群(HPC)拆解復(fù)雜問題的能力可以非常顯著地縮短突破科技創(chuàng)新瓶頸、解決實際問題的時間,為快速實現(xiàn)科技創(chuàng)新帶來機(jī)遇,為工業(yè)領(lǐng)域取得跨越式發(fā)展奠定基礎(chǔ)。
本文從我國高性能計算發(fā)展現(xiàn)狀分析入手,通過中美高性能計算發(fā)展多維度對標(biāo)分析,高性能計算技術(shù)管理多方面難點(diǎn)剖析,提出中國高性能計算發(fā)展的四大總體策略,并設(shè)計出未來工業(yè)領(lǐng)域高性能計算發(fā)展的架構(gòu)模型。
當(dāng)前,我國高性能計算在宇宙探索、氣候模擬、材料研發(fā)、工業(yè)設(shè)計、試驗研究等領(lǐng)域發(fā)揮著重要的作用,對國防建設(shè)和國民經(jīng)濟(jì)發(fā)展具有不可替代的作用。
從2021 年中國高性能計算性能(Linpack 測試)TOP100 排行榜前10 名(見表1)來看,中國最強(qiáng)超算僅有20%由國家機(jī)構(gòu)研制并安裝在國家超算中心;60%由網(wǎng)絡(luò)公司研制安裝,占比過半??梢?,我國高性能計算技術(shù)能力十分分散,缺少國家層面的統(tǒng)籌。
表1 2021年中國高性能計算性能TOP100排行榜前10名
從TOP100 高性能計算機(jī)應(yīng)用發(fā)展趨勢(如圖1所示)來看,數(shù)據(jù)分析/機(jī)器學(xué)習(xí)等新興領(lǐng)域的應(yīng)用占比由2015 年的27%上升到了2020 年的55%,已遠(yuǎn)遠(yuǎn)超過科學(xué)/工程計算的占比,可見我國高性能計算正在由科學(xué)計算向應(yīng)用計算領(lǐng)域發(fā)展。
圖1 TOP100高性能計算機(jī)應(yīng)用發(fā)展趨勢圖
從2021 年高性能計算應(yīng)用領(lǐng)域份額來看(如圖2所示),算力服務(wù)占比達(dá)到46%,人工智能應(yīng)用占比達(dá)到9%,金融、互聯(lián)網(wǎng)、教育科研、能源/石油、電子商務(wù)、工業(yè)/制造、電信等應(yīng)用領(lǐng)域都開始使用高性能計算機(jī),高性能計算正在成為產(chǎn)業(yè)發(fā)展的重要基礎(chǔ)設(shè)施。
圖2 2021年高性能計算應(yīng)用領(lǐng)域份額
美國高性能計算發(fā)展水平一直處于國際前列,具
有示范引領(lǐng)作用,本節(jié)從戰(zhàn)略規(guī)劃、能力提升、軟件研發(fā)、高性能計算應(yīng)用等4 個層面,對中美高性能計算發(fā)展現(xiàn)狀進(jìn)行對標(biāo)分析,明確我國高性能計算發(fā)展存在的主要短板弱項,為后續(xù)提出我國高性能計算發(fā)展策略奠定基礎(chǔ)。
在戰(zhàn)略規(guī)劃層面,美國從2015 年就發(fā)布了“國家戰(zhàn)略性計算計劃”(NSCI),NSCI 是比較全面的國家級頂層規(guī)劃,在此計劃下應(yīng)運(yùn)而生的HPC4EI 計劃更是涵蓋了制造技術(shù)改進(jìn)、新材料研發(fā)、移動系統(tǒng)發(fā)展等3 個能源創(chuàng)新型子計劃。我國通過國家高技術(shù)研究發(fā)展計劃(“863”計劃)和國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(“973”計劃)支持過一批高性能計算技術(shù)研究和基礎(chǔ)建設(shè)的項目,但至今沒有類似“國家戰(zhàn)略計算”的頂層規(guī)劃。因缺少國家層面持續(xù)性的戰(zhàn)略性計劃支持,多數(shù)網(wǎng)絡(luò)公司利用自身力量難以維持高性能計算領(lǐng)域長足的發(fā)展,缺少高層次項目統(tǒng)攬全局,各平行的高性能計算項目之間難以協(xié)同創(chuàng)新。
在能力提升層面,美國發(fā)展高性能計算主要是靠應(yīng)用牽引,其E 級計算機(jī)研制成功的標(biāo)志不僅是Linpack 測試,而是25 個應(yīng)用的幾何平均值。我國E級計算機(jī)研制成功的標(biāo)志仍然停留在Linpack 測試階段,但隨著大數(shù)據(jù)、人工智能等新興領(lǐng)域?qū)τ诟咝阅苡嬎泱w系結(jié)構(gòu)的要求越來越高,單純追求“容量型”高性能計算的計算速度而忽略了“能力型”高性能計算的計算效率,顯然不是明智之舉。
在軟件研發(fā)層面,我國常用高性能計算軟件主要依靠進(jìn)口,自主研發(fā)軟件使用極少,并且在超算經(jīng)費(fèi)投入中用于軟件研發(fā)的費(fèi)用還不足10%,距離實現(xiàn)軟件自主可控差距較大。美國高性能計算常用軟件主要依靠自主研發(fā),其每年在軟件研發(fā)方面投入的經(jīng)費(fèi)約為中國的6 倍。
在高性能計算應(yīng)用層面,我國使用高性能計算機(jī)較多的是網(wǎng)絡(luò)公司,制造業(yè)普遍使用高性能計算較少,且規(guī)模較小。美國汽車、航空航天、電子通信等制造業(yè)普遍使用高性能計算機(jī),每家企業(yè)都有多個高性能計算中心,美國公司的總體超算規(guī)模約為中國的10 倍。只有大多數(shù)企業(yè)使用高性能計算集群,才能加速科技創(chuàng)新,使國家走向高質(zhì)量發(fā)展的道路。
從工業(yè)領(lǐng)域來看,當(dāng)前各單位高性能計算在技術(shù)和管理層面均存在一些難點(diǎn),制約其持續(xù)發(fā)展。
在技術(shù)層面,高性能計算運(yùn)行維護(hù)涉及專業(yè)技術(shù)廣泛,各單位普遍缺乏HPC 專業(yè)人員;高性能計算軟件購買成本高,各單位Licence 軟件普遍不夠用;高性能計算主要支撐復(fù)雜計算任務(wù),內(nèi)存需求量極大,存儲容量不足現(xiàn)象頻現(xiàn);同一項目的不同單位人員分別在本單位高性能計算集群進(jìn)行計算,協(xié)同設(shè)計十分困難;除此之外,存在計算網(wǎng)格量巨大,本單位高性能計算資源難以支撐;用戶個性化定制成本過高,存儲數(shù)據(jù)量利用率極低等問題,嚴(yán)重制約了本單位高性能計算的高效運(yùn)行。在管理層面,當(dāng)計算項目較多時,各單位存在階段性應(yīng)用需求旺盛、資源不足的現(xiàn)象;當(dāng)計算項目較少時,又會出現(xiàn)階段性資源空閑的情況;各單位高性能計算軟件研發(fā)能力分散,自主創(chuàng)新能力不強(qiáng),持續(xù)性維護(hù)成本高,科研投入支撐十分薄弱,持續(xù)性維護(hù)高性能計算機(jī)存在資金困難。
面對國內(nèi)、國際高性能計算發(fā)展現(xiàn)狀及趨勢,為加速科技創(chuàng)新,加快構(gòu)建高性能計算發(fā)展的良好生態(tài)環(huán)境,我國應(yīng)當(dāng)從以下4 個方面發(fā)力。
一是制定高性能計算發(fā)展頂層規(guī)劃,強(qiáng)化國家層面統(tǒng)籌,促進(jìn)高層次項目間的協(xié)同創(chuàng)新,系統(tǒng)提升高性能計算實力。二是注重現(xiàn)有高性能計算資源的統(tǒng)籌,充分利用已有優(yōu)勢資源力量,構(gòu)建現(xiàn)階段高性能計算技術(shù)發(fā)展生態(tài)環(huán)境。三是注重高性能計算應(yīng)用牽引,促進(jìn)大數(shù)據(jù)、人工智能與高性能計算的深度融合,大力發(fā)展“能力型”高性能計算。四是加強(qiáng)高性能計算軟件研發(fā)投資,提升自研軟件應(yīng)用占比,爭取實現(xiàn)軟件自主可控。
面對工業(yè)領(lǐng)域高性能計算發(fā)展現(xiàn)狀及普遍存在的問題,高性能計算云平臺將會是工業(yè)領(lǐng)域高性能計算未來主要的架構(gòu)模型。高性能計算云平臺能夠從技術(shù)上解決各單位軟硬件資源不足、存儲容量不夠,協(xié)同設(shè)計困難等問題;從管理上解決高性能計算維護(hù)成本高、自主創(chuàng)新能力不足等問題。
高性能計算云平臺架構(gòu)模型如圖3 所示。它具體指的是以行業(yè)內(nèi)某單位其中一個高性能計算集群為中心,以各單位高性能計算分中心為節(jié)點(diǎn),連接所有高性能計算中心,整合各單位閑時計算、存儲資源,形成一個大的資源池,對計算資源、存儲資源進(jìn)行統(tǒng)籌管理,根據(jù)各單位實際使用需求,合理調(diào)配、占用其他單位閑時資源,大幅提高計算、存儲資源使用效率;利用軟件浮動Licence,實現(xiàn)各單位軟件資源的共享,大幅降低行業(yè)軟件購買成本;聯(lián)合各單位自研軟件研發(fā)團(tuán)隊,在線協(xié)同設(shè)計,促進(jìn)科技創(chuàng)新,提升自研軟件占比;聘請高性能計算專業(yè)團(tuán)隊,對高性能計算云平臺進(jìn)行管理,不斷優(yōu)化管理水平,提升自主創(chuàng)新能力。
圖3 高性能計算云平臺架構(gòu)模型
行業(yè)內(nèi)高性能計算云平臺將形成計算資源調(diào)度能力,應(yīng)用軟件共享能力,數(shù)據(jù)管理分析能力,自研軟件創(chuàng)新能力,應(yīng)用發(fā)展支撐能力等五大能力,支撐本領(lǐng)域高質(zhì)量發(fā)展。
行業(yè)內(nèi)高性能計算云平臺建設(shè)第一階段的主要任務(wù)是解決各單位高性能計算資源連接起來、統(tǒng)一調(diào)度起來的問題;第二階段的難點(diǎn)是構(gòu)建高性能計算的“高速公路”,即解決行業(yè)內(nèi)不同單位高性能計算連接網(wǎng)絡(luò)帶寬、速率的問題?,F(xiàn)階段,部分工業(yè)領(lǐng)域可使用5G網(wǎng)絡(luò)連接高性能計算,但如航空、航天、船舶等軍工行業(yè)因保密原因,僅能使用行業(yè)內(nèi)專網(wǎng)連接高性能計算資源,且網(wǎng)絡(luò)帶寬嚴(yán)格受限。行業(yè)內(nèi)統(tǒng)一設(shè)計、部署實施高速網(wǎng)絡(luò)是高性能計算云平臺建設(shè)第二階段的重點(diǎn),也是行業(yè)走上高質(zhì)量發(fā)展道路的關(guān)鍵一步。高性能計算云平臺建設(shè)第三階段應(yīng)重點(diǎn)關(guān)注大數(shù)據(jù)應(yīng)用技術(shù)的發(fā)展,行業(yè)高性能計算云平臺的一個顯著特點(diǎn)是解決的問題均是行業(yè)內(nèi)復(fù)雜難點(diǎn)問題,數(shù)據(jù)存儲量大;存儲數(shù)據(jù)均為行業(yè)內(nèi)計算數(shù)據(jù),數(shù)據(jù)類型較統(tǒng)一;利用高性能計算云平臺的大數(shù)據(jù)優(yōu)勢,發(fā)展本行業(yè)大數(shù)據(jù)應(yīng)用技術(shù),對于支撐行業(yè)重大決策部署,成為尖端科技發(fā)展的引領(lǐng)者具有重大意義。