編譯 李軍平
在至關重要的高性能計算(HPC)領域,美國已不再是當之無愧的全球領導者。日本、歐盟和中國已經(jīng)推出了與美國最快的超級計算機不相上下的系統(tǒng)。從半導體到科學軟件,任何產(chǎn)品的供應鏈都呈現(xiàn)出全球化特征。然而,美國的經(jīng)濟前景和安全在很大程度上取決于美國是否有能力以比競爭對手更快的速度進行創(chuàng)新,而創(chuàng)新的速度越來越取決于大規(guī)模計算科學和工程,因此也越來越取決于高性能計算。美國應如何應對這一挑戰(zhàn)?本報告旨在就這一重要問題發(fā)起一場新的、可能具有變革意義的全國性討論。
美國能源部(DOE)先進科學計算研究(ASCR)項目完全有能力在全球科學探索發(fā)現(xiàn)領域中,就美國應在哪些領域開展合作以及在哪些領域開展競爭做出明智而有針對性的決策。通過聚焦對美國和世界至關重要的問題,開展富有成效的合作,進行戰(zhàn)略性投資,ASCR能夠恢復并鞏固美國在關鍵領域的科學領先地位,同時加強美國的研究基礎設施,培養(yǎng)多元化的科學家。最終,ASCR及其培養(yǎng)出的科學家將為美國安全繁榮的未來鋪平道路。
30多年來,ASCR計劃提供了高性能計算和網(wǎng)絡能力及專業(yè)知識,支持DOE履行推進美國國家安全、經(jīng)濟安全和能源安全的使命。該計劃現(xiàn)在面臨的挑戰(zhàn)是開發(fā)和部署下一代高性能計算系統(tǒng)和技術,將高性能計算和人工智能(AI)技術廣泛應用于科學和工程研究問題。在研發(fā)過程中,ASCR計劃還必須推動HPC發(fā)展,促進科學發(fā)現(xiàn)和技術創(chuàng)新。
為此,美國需要大幅增加投資,并制定創(chuàng)新性的政策和計劃。本小組委員會意識到,美國是在資源有限的情況下提出建議并呼吁采取行動的。國家領導人必須平衡各種相互競爭的優(yōu)先事項,以新的方式利用資源,并在設施和運營方面尋求效率。但是,我們不能因此讓想象力受限,也不能停止主張。ASCR計劃是美國科研基礎設施的重要組成部分,也是美國經(jīng)濟增長和競爭力的重要組成部分。ASCR有責任以決心和熱情履行使命:推進高性能科學計算、人工智能技術應用以及建設先進研究設施。
為履行科學事業(yè)之于國家的責任,ASCR應制定發(fā)布清晰的愿景,闡述工作目標、優(yōu)先事項和相關建議。除此之外,還應爭取長期資助,展示科學的領導力,這將使該項目能夠在已有成就的基礎上更上一層樓,實現(xiàn)其雄心勃勃的愿景,并持續(xù)作出貢獻。
對國家具有重要意義的科學和工程應用將需要更高性能的先進計算系統(tǒng),以模擬復雜現(xiàn)象,處理、分析和管理海量數(shù)據(jù),支持尖端實驗。要滿足這些要求進而保持國際領先地位,就必須在計算、網(wǎng)絡、數(shù)學和人工智能技術方面不斷取得重大進步。國家實驗室及其大學合作伙伴有條件做到這一點,但前提是在領導力、愿景以及資金方面得到適當?shù)闹С帧?/p>
在能源部的主要領導下,美國在應用數(shù)學和計算科學與工程研究領域一直處于國際領先地位,并利用其專業(yè)知識提升建模和仿真能力,服務科學、能源和核安全領域的國家優(yōu)先事項。美國在計算機科學領域一直處于領先地位,能源部的作用主要集中在與高性能計算有關的領域(如編程、并行算法和性能優(yōu)化技術)以及網(wǎng)絡和數(shù)據(jù)科學(科學發(fā)現(xiàn)的方法和工具)。
大數(shù)據(jù)和高性能計算對科學發(fā)現(xiàn)都非常重要,而且兩者具有協(xié)同作用。整個能源部科學辦公室的實驗設施對前沿計算和網(wǎng)絡設施、方法和服務的需求與日俱增。這些需求包括移動、分析、共享和管理來自觀測傳感器和科學儀器的數(shù)據(jù)集的能力,以及使用人工智能技術將數(shù)據(jù)與基于物理和數(shù)據(jù)驅(qū)動的模型進行集成的能力,這些模型本身可能會產(chǎn)生巨大的數(shù)據(jù)集,并需要大量計算來進行模型訓練和推理。
超大規(guī)模計算計劃是美國在高性能計算領域發(fā)揮領導作用的典例,該計劃將最新的數(shù)學和計算創(chuàng)新成果融入到科學應用中,創(chuàng)建了一個全面的超大規(guī)模軟件堆棧,并提高了一流計算設施的能力,使未來的科學突破成為可能。
能源部與行業(yè)伙伴密切合作,開發(fā)、部署和應用先進技術,特別是在領先的計算機系統(tǒng)和尖端網(wǎng)絡服務方面。能源部實驗室與工業(yè)界的最終用戶密切合作,取得了許多具有重大影響的成果,擴大了與公司合作的機會。
超大規(guī)模計算項目(ECP)的結束既是一項成就,也帶來了巨大的風險。該項目提供了強有力的人力、技術等相關能力。但現(xiàn)在,由于未來的資金來源尚不明確,能源部極易流失訓練有素的員工。
美國、能源部和ASCR在關鍵領域的領導地位正受到威脅,造成這種局面的原因是國際競爭加劇和地緣政治變化(例如與其他國家的合作與競爭關系的變化),美國市場壓力增大,近期一些商業(yè)目標對于人才、資金吸引力較強,獲得了較多注意力。
技術領域已經(jīng)發(fā)生了根本性的變化:登納德縮放比例定律十年前便已謝幕,摩爾定律的效果現(xiàn)在也在減弱。超大規(guī)模企業(yè)(如云計算和社交網(wǎng)絡公司)在計算方面的投資規(guī)模巨大,正推動市場朝向其特定需求發(fā)展。目前,人工智能相關計算已成為工業(yè)領域和超級分頻器數(shù)據(jù)中心內(nèi)高端高性能計算系統(tǒng)的主要性能驅(qū)動因素。定制/半定制硅(晶圓級人工智能芯片、芯片組、可擴展甚至開放式指令集架構等)興起,為利用商品技術創(chuàng)造了新的可能性。目前潛在的顛覆性技術,如量子計算和網(wǎng)絡(設備、架構、模型)獲得持續(xù)投資,但這些技術可能需要幾十年的時間才能完善和成熟。
與過去不同,今天的科研格局和高性能計算供應鏈是橫向的、國際化的,包括硬件、軟件、網(wǎng)絡組件和人才。要想在高性能計算領域取得領先地位,就必須像科學辦公室的其他學科,如高能物理(HEP)、聚變能源科學(FES)一樣,主動、長期、持續(xù)地參與這一廣泛的國際生態(tài)系統(tǒng)。行業(yè)伙伴關系至關重要,需要加以關注和改進,特別是在共同設計方面,可以從ECP和其他國際努力中吸取經(jīng)驗教訓,以便改進。
ASCR研究經(jīng)費的實際水平正在下降,在量子信息科學(QIS)和人工智能/機器學習(ML)等新研究方向上的經(jīng)費分配更加分散。與此同時,為滿足支持超大規(guī)模計算計劃部署的超大規(guī)模平臺的需求,ASCR對設施的投資在不斷增加?,F(xiàn)有的研究經(jīng)費越來越多地用于短期競爭性項目,而對“穩(wěn)定”基礎經(jīng)費的撥款卻在減少。ECP項目即將結束,卻沒有后續(xù)計劃來吸引那些訓練有素、技術精湛、才華橫溢的研究人員留在DOE實驗室。由此產(chǎn)生的不確定性,在實驗室工作人員中,尤其是初級研究人員中,引發(fā)了極大的焦慮。而與此同時,來自產(chǎn)業(yè)界的人才競爭卻日益加劇。因此,ASCR在研發(fā)創(chuàng)新技術和解決方案方面的領導地位面臨著巨大風險。
國家實驗室的吸引力和聲望一直在下降。造成這一問題的因素既有內(nèi)部因素,又有外部因素,包括實驗室內(nèi)部缺乏長期計劃、愿景和穩(wěn)定資金,以及與高性能計算、人工智能和大數(shù)據(jù)等行業(yè)的競爭加劇。實驗室崗位的自主性和靈活性也有所下降。受新冠疫情影響,許多公司的工作崗位比國家級實驗室所提供的工作機會靈活性更強,表現(xiàn)為擁有更多學術界和產(chǎn)業(yè)界的聯(lián)合任命以及開源合作的項目,這些都有助于提高研究影響力,縮小報酬差距。
在當前資源緊張的環(huán)境下,大科學和先進的科學計算與網(wǎng)絡越來越需要國際合作,并能為各方參與者帶來益處。我們也注意到了全球范圍內(nèi)人員、思想、軟件和技術交流卓有成效的許多例子。
從超大規(guī)模計算和以往計算進展中可以發(fā)現(xiàn),要想實現(xiàn)能源部和國家所需的科學突破,必須在硬件系統(tǒng)和軟件基礎設施兩方面進行創(chuàng)新。推動ASCR設施發(fā)展需要依賴以共同設計為基礎的跨學科方法,而不是僅僅依賴供應商市場。ASCR將繼續(xù)鼓勵科學團隊、計算研究人員、設施工作人員和供應商開展合作。
四個關鍵領域 憑借在應用數(shù)學和計算科學與工程中高級計算和獨特的用戶設施方面的現(xiàn)有優(yōu)勢,ASCR今后的工作重點需要放在四個關鍵領域并追求領域內(nèi)的領先地位:科學與工程領域的高端建模與仿真(如應用數(shù)學、軟件、高級應用);科學與工程領域的人工智能(如人工智能方法、軟件、數(shù)據(jù)集、高級應用);超大規(guī)模前沿計算架構和系統(tǒng)(如硬件架構、軟件、部署的基礎設施);應用于綜合研究性基礎設施的先進網(wǎng)絡和未來互聯(lián)網(wǎng)架構(如架構、軟件、已部署的基礎設施)。
值得注意的是,這四個領域都與白宮的關鍵和新興技術清單相一致。這四個領域中的每個領域都有長期的研究挑戰(zhàn),應通過基礎計劃資助(促進職業(yè)發(fā)展)和機會性任命(提供靈活性)相結合的方式加以應對。每個領域還需要開發(fā)和部署能夠支撐廣泛研究事業(yè)的基礎設施,如代碼、圖書館、模型、高性能計算、人工智能、數(shù)據(jù)和邊緣硬件設施、國家設施等。
戰(zhàn)略與路線圖 A S C R領導層應與D O E實驗室合作,基于ASCR在數(shù)學和計算方面的優(yōu)勢,與能源部的世界級設施合作開展研究,制定十年期以上的愿景和戰(zhàn)略。這項工作的重點應放在提供持續(xù)的投資,以保持和擴大ASCR在應用數(shù)學和計算科學與工程研究與多學科團隊合作方面的領先地位。同時也要在新興課題方面建立新的應用領域,如用于科學、能源和安全的數(shù)字孿生和人工智能,以及在摩爾定律不再適用時應對艱巨的計算挑戰(zhàn)。
該戰(zhàn)略應包括制定相關的ASCR技術和投資路線圖,其中包括以下內(nèi)容:1)達成超大規(guī)模后的關鍵技術投資計劃,包括多周期十年設施路線圖,滿足建模、模擬和人工智能領域日益增長的計算需求;全球領先系統(tǒng)所需的電源和冷卻因素考量,開展提高硬件能效的研究;考慮新出現(xiàn)的和非常規(guī)的架構,并為外部提供的替代方案開展探路活動。2)對ASCR已確立領導地位的領域進行再投資,防止美國失去領導地位以及鞏固該地位所需的智力資源(如用于科學計算的軟件工具和數(shù)字圖書館)。3)重視在能源部有能力建立領導地位的新興領域的前瞻性投資,例如,大規(guī)模人工智能方法,側重于能源部任務領域中世界領先的科學問題。4)重視人力資源。這一工作的關鍵是要有一個長期愿景,并輔之以穩(wěn)定的長期研究資助模式,以招募和留住先進科學計算領域的頂尖人才,尤其要重視培養(yǎng)代表人數(shù)不足的群體。5)明確工業(yè)合作伙伴的作用,留住人才。應特別關注聯(lián)合任命和其他類型的合作,發(fā)揮其在提高實驗室人員能力方面的積極作用。
國際合作 ASCR需要為以超大規(guī)模計算和網(wǎng)絡為重點的國際合作闡明愿景、相關目標和里程碑。ASCR應與實驗室合作,確定關鍵的研究和設施機會,這些機會可能依托國際合作伙伴關系。ASCR應與戰(zhàn)略伙伴建立信任,確定協(xié)議結構(可能超越傳統(tǒng)的合作備忘錄),并為發(fā)展靈活的多方合作提供資源。
前瞻性投資 ASCR需要對先進計算機體系結構和系統(tǒng)概念方面的長期前瞻性共同設計研究進行投資,以確定推動可持續(xù)發(fā)展的潛在方案,持續(xù)提升未來的科學計算系統(tǒng)的生產(chǎn)力。共同設計工作需要政府大幅增加對基礎研發(fā)的投資。此外,能源部還應資助硬件和軟件原型的大規(guī)模建造,以便使用定制硅片和相關軟件測試新想法。
資料來源ASCAC