錢(qián)德沛
回顧過(guò)去20年中國(guó)高性能計(jì)算的發(fā)展,可謂舉步維艱,成績(jī)卓然。簡(jiǎn)單算一筆賬,國(guó)際上通常的發(fā)展速度是10年性能提高1000倍,20年差不多100萬(wàn)倍,但我們提高了5000多萬(wàn)倍,我們?cè)?0年走完了別人30年甚至40年走的路。
一、高性能計(jì)算發(fā)展的回顧
高性能計(jì)算是戰(zhàn)略性、前沿性的高技術(shù),是發(fā)達(dá)國(guó)家爭(zhēng)奪的戰(zhàn)略制高點(diǎn)。
高性能計(jì)算是解決國(guó)家經(jīng)濟(jì)建設(shè)、社會(huì)發(fā)展、科學(xué)進(jìn)步、國(guó)家安全方面一系列重大挑戰(zhàn)性問(wèn)題的重要手段,是國(guó)家創(chuàng)新體系的重要組成部分。高性能計(jì)算產(chǎn)生的原始創(chuàng)新和高端技術(shù)會(huì)影響下游產(chǎn)業(yè)的發(fā)展,因此美國(guó)、日本、歐盟在這方面均有大量的投入,包括資金和人力,以確保他們的技術(shù)始終保持著領(lǐng)先地位。
我國(guó)的高性能計(jì)算發(fā)展得益于“863計(jì)劃”的實(shí)施,受?chē)?guó)際及國(guó)內(nèi)科研和工業(yè)發(fā)展需求的變化,期間經(jīng)歷了幾次研究重點(diǎn)的轉(zhuǎn)變。1987年啟動(dòng)之初,研究重點(diǎn)是智能計(jì)算機(jī)系統(tǒng),當(dāng)時(shí)受到日本五代機(jī)的影響,而且80年代人工智能處于高潮時(shí)期,當(dāng)時(shí)的重點(diǎn)是研究Lisp機(jī)、Prolog機(jī),目標(biāo)是實(shí)現(xiàn)高效規(guī)約、推理,從而支持人工智能應(yīng)用。1990年,根據(jù)國(guó)內(nèi)科研與工業(yè)的現(xiàn)實(shí)需求,重點(diǎn)轉(zhuǎn)向研制并行計(jì)算機(jī),像SMP、MPP等,期間成立國(guó)家智能機(jī)中心,并于1993年成立曙光公司。1998年,受美國(guó)網(wǎng)格計(jì)劃的影響,研究重點(diǎn)從研制單臺(tái)高性能計(jì)算機(jī)轉(zhuǎn)向高性能計(jì)算機(jī)與網(wǎng)絡(luò)計(jì)算環(huán)境并重,目的是建立互聯(lián)網(wǎng)上普遍共享的計(jì)算能力,形成國(guó)家計(jì)算基礎(chǔ)設(shè)施。2006年,又提出高性能向高效能的轉(zhuǎn)變,這導(dǎo)致計(jì)算機(jī)研制技術(shù)路線的變化,從單純強(qiáng)調(diào)峰值性能變?yōu)閺?qiáng)調(diào)除性能指標(biāo)之外的可編程性、可移植性和系統(tǒng)的可靠性。在強(qiáng)調(diào)依托自主技術(shù)實(shí)現(xiàn)E級(jí)計(jì)算機(jī)的今天,我們又處在一個(gè)轉(zhuǎn)折的節(jié)點(diǎn),面臨研究重點(diǎn)新的轉(zhuǎn)變,即強(qiáng)調(diào)如何建立基于自主技術(shù)的高性能計(jì)算生態(tài)環(huán)境。
過(guò)去的15年里,“863計(jì)劃”連續(xù)支持了三個(gè)重大的項(xiàng)目,即2002—2005年的重大專(zhuān)項(xiàng)“高性能計(jì)算機(jī)及核心軟件”,2006—2011年的重大項(xiàng)目“高效能計(jì)算機(jī)及網(wǎng)格服務(wù)環(huán)境”,2011—2016年的重大項(xiàng)目“高效能計(jì)算機(jī)及應(yīng)用服務(wù)環(huán)境”。歷經(jīng)多年努力,研制了一系列的高性能計(jì)算機(jī),包括 “天河” “神威” “曙光”以及聯(lián)想的“深騰”。這些機(jī)器構(gòu)成了我國(guó)的計(jì)算資源,很好地支持了一批重要的應(yīng)用。
回顧過(guò)去20年中國(guó)高性能計(jì)算的發(fā)展,可謂舉步維艱,成績(jī)卓然。1996年的“曙光1000”,計(jì)算能力是25億次,當(dāng)時(shí)美國(guó)的計(jì)算能力是萬(wàn)億次,相差400倍。2016年中國(guó)制造的“神威·太湖之光”,計(jì)算能力是12.5億億次,性能提升了5000萬(wàn)倍,領(lǐng)先美國(guó)最快的TITAN系統(tǒng)4倍多。簡(jiǎn)單算一筆賬,國(guó)際上通常的發(fā)展速度是10年性能提高1000倍,20年差不多100萬(wàn)倍,但我們提高了5000多萬(wàn)倍。我們?cè)?0年走完了別人30年甚至40年走的路程。
從過(guò)去20年我國(guó)高性能計(jì)算環(huán)境與美國(guó)的對(duì)比,可以了解我國(guó)高性能計(jì)算基礎(chǔ)設(shè)施的發(fā)展情況。1996年,我國(guó)在合肥建立了第一個(gè)國(guó)家高性能計(jì)算中心,裝備了計(jì)算能力6.4億次的曙光一號(hào)。同期美國(guó)在NSF的PACI計(jì)劃支持下,由NCSA和SDSC兩個(gè)超算中心牽頭,建立了美國(guó)國(guó)家級(jí)計(jì)算網(wǎng)格,當(dāng)時(shí)我們大大落后于美國(guó)。到了2016年,我國(guó)實(shí)現(xiàn)了由17個(gè)高性能計(jì)算中心構(gòu)成的中國(guó)國(guó)家高性能計(jì)算服務(wù)環(huán)境,資源能力位居世界前列。此時(shí)美國(guó)的共享計(jì)算基礎(chǔ)設(shè)施XSEDE環(huán)境也是由十多個(gè)超級(jí)計(jì)算中心構(gòu)成。實(shí)際上,我們和美國(guó)已經(jīng)實(shí)現(xiàn)了并跑。
過(guò)去20年,我國(guó)高性能計(jì)算應(yīng)用的廣度和深度有了長(zhǎng)足的進(jìn)步。1996年,我國(guó)高性能計(jì)算的應(yīng)用范圍僅限于氣象預(yù)報(bào)、石油勘探等少數(shù)領(lǐng)域,達(dá)到的并行性也僅有十幾個(gè)到幾十個(gè)處理器,使用的應(yīng)用軟件主要依賴(lài)進(jìn)口。到了2016年,我國(guó)的高性能計(jì)算應(yīng)用已擴(kuò)展到諸多領(lǐng)域,例如大飛機(jī)研發(fā)、高鐵列車(chē)設(shè)計(jì)、石油勘探、新藥發(fā)現(xiàn)、集合氣象預(yù)報(bào)、生物信息、汽車(chē)研發(fā)、流體機(jī)械優(yōu)化設(shè)計(jì)、電磁環(huán)境計(jì)算等。在“863計(jì)劃”支持下,研發(fā)了一批大規(guī)模并行應(yīng)用軟件,并在相關(guān)行業(yè)和領(lǐng)域得到應(yīng)用,發(fā)揮了實(shí)際的作用。并行應(yīng)用的規(guī)模已經(jīng)突破千萬(wàn)核處理器。硬件和應(yīng)用規(guī)模的突破,使得我們能夠獲得國(guó)際高性能計(jì)算應(yīng)用水平標(biāo)志性獎(jiǎng)——戈登·貝爾獎(jiǎng)。
在過(guò)去20年的發(fā)展歷程中,我們積累了很多的經(jīng)驗(yàn)。首先是國(guó)家科技計(jì)劃與地方、應(yīng)用部門(mén)的發(fā)展計(jì)劃相結(jié)合。這種結(jié)合不僅實(shí)現(xiàn)了多渠道籌資研制高效能計(jì)算機(jī),而且實(shí)現(xiàn)了科技部和地方政府共同出資建設(shè)國(guó)家超算中心。其次是產(chǎn)學(xué)研用的結(jié)合。高性能計(jì)算中心作為提供計(jì)算服務(wù)的單位,在高效能計(jì)算機(jī)的研制過(guò)程中發(fā)揮了重要作用。例如,由高性能計(jì)算中心提出系統(tǒng)的性能指標(biāo),參與遴選研制隊(duì)伍。企業(yè)通過(guò)直接參與國(guó)家計(jì)劃,提升了自身的技術(shù)水平,同時(shí)也促進(jìn)了其市場(chǎng)份額的提高。此外,應(yīng)用單位牽頭研發(fā)應(yīng)用軟件,也保證了軟件的實(shí)用性。再次是始終堅(jiān)持機(jī)器、環(huán)境、應(yīng)用三者的均衡發(fā)展,相互促進(jìn)。高性能計(jì)算機(jī)體現(xiàn)了計(jì)算機(jī)技術(shù)的最新成就,為高性能計(jì)算應(yīng)用提供計(jì)算資源,推動(dòng)了高性能計(jì)算應(yīng)用和計(jì)算機(jī)產(chǎn)業(yè)的進(jìn)步。高性能計(jì)算環(huán)境實(shí)現(xiàn)了計(jì)算資源的共享,提高了資源的利用率,降低了高性能計(jì)算的應(yīng)用門(mén)檻,促進(jìn)了高性能計(jì)算應(yīng)用的普及和提高。高性能計(jì)算應(yīng)用的發(fā)展對(duì)計(jì)算機(jī)技術(shù)的發(fā)展起到了直接的牽引作用,同時(shí)產(chǎn)生應(yīng)用實(shí)效。
當(dāng)然,在高性能計(jì)算機(jī)的發(fā)展過(guò)程中也暴露出一些問(wèn)題,值得我們關(guān)注。首先,我國(guó)的高性能計(jì)算發(fā)展缺少?lài)?guó)家級(jí)的長(zhǎng)期戰(zhàn)略規(guī)劃。目前的情況是,國(guó)家層面每五年論證一次,高性能計(jì)算需要和很多兄弟領(lǐng)域競(jìng)爭(zhēng)國(guó)家的經(jīng)費(fèi)支持。從近年來(lái)的情況來(lái)看,對(duì)高性能計(jì)算應(yīng)用的經(jīng)費(fèi)支持力度偏低。其次,當(dāng)前高性能計(jì)算機(jī)研制的基本模式是國(guó)家、地方和應(yīng)用部門(mén)共同出資,而國(guó)撥經(jīng)費(fèi)的比例偏低有可能使這種模式難以為繼。另外,探索新的發(fā)展模式是高性能計(jì)算環(huán)境發(fā)展必須思考的問(wèn)題,國(guó)家支持與有償服務(wù)相結(jié)合的發(fā)展機(jī)制也許值得探討。
我國(guó)在高性能計(jì)算核心關(guān)鍵技術(shù)方面與美國(guó)相比還有較大差距。我國(guó)在高性能計(jì)算機(jī)的基礎(chǔ)關(guān)鍵器件(處理器、存儲(chǔ)器等)、大規(guī)模并行算法與軟件等核心關(guān)鍵技術(shù)方面仍依賴(lài)國(guó)外。要實(shí)現(xiàn)高性能計(jì)算的可持續(xù)發(fā)展,必須加強(qiáng)基礎(chǔ)研究,提高技術(shù)儲(chǔ)備的縱深,其中,發(fā)展應(yīng)用軟件是關(guān)鍵。目前的現(xiàn)狀是,高性能計(jì)算機(jī)硬件技術(shù)發(fā)展較快,而進(jìn)口的軟件卻跟不上國(guó)產(chǎn)應(yīng)用計(jì)算機(jī)的并行規(guī)模,所以需要通過(guò)自主研發(fā)、開(kāi)源、共享等技術(shù)手段,來(lái)解決并行應(yīng)用軟件的問(wèn)題。
我國(guó)高性能計(jì)算領(lǐng)域的人才儲(chǔ)備嚴(yán)重不足,嚴(yán)重制約了應(yīng)用發(fā)展,要通過(guò)學(xué)科交叉,拓寬人才培養(yǎng)渠道,在實(shí)踐中再培訓(xùn),切實(shí)解決人才不足的問(wèn)題。
最后,發(fā)展高性能計(jì)算,要建立產(chǎn)學(xué)研用相結(jié)合、多學(xué)科協(xié)作的長(zhǎng)效機(jī)制,形成群體優(yōu)勢(shì)力量,這是高性能計(jì)算長(zhǎng)久穩(wěn)定發(fā)展的必需。
二、為什么要發(fā)展高性能計(jì)算
我國(guó)的經(jīng)濟(jì)建設(shè)、社會(huì)發(fā)展和國(guó)家安全需要E級(jí)高性能計(jì)算
我國(guó)社會(huì)經(jīng)濟(jì)發(fā)展和國(guó)家安全對(duì)E級(jí)高性能計(jì)算有迫切需求。以百億億次量級(jí)的計(jì)算需求為例,首先解決國(guó)家發(fā)展的重大挑戰(zhàn)性問(wèn)題,如能源短缺、環(huán)境污染、全球氣候變化等對(duì)E級(jí)計(jì)算有迫切需求;其次,E級(jí)計(jì)算在促進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)中有重要作用,如航空工業(yè)、高速鐵路、重大裝備制造、汽車(chē)工業(yè)等領(lǐng)域,技術(shù)的研發(fā)都對(duì)計(jì)算提出強(qiáng)烈需求;第三,高性能計(jì)算能幫助提高人民生活水平,例如,涉及老百姓生活和身體健康的精準(zhǔn)醫(yī)學(xué)、個(gè)性化藥物研發(fā)、突發(fā)惡性傳染病的應(yīng)對(duì)等方面,E級(jí)計(jì)算都可以發(fā)揮巨大作用;最后,重大科學(xué)發(fā)現(xiàn)和基礎(chǔ)科學(xué)研究,更是高性能計(jì)算的傳統(tǒng)應(yīng)用領(lǐng)域,如高能物理、天文物理、材料高通量計(jì)算等,對(duì)高性能計(jì)算的依賴(lài)程度非常高。
高性能計(jì)算促進(jìn)我國(guó)信息產(chǎn)業(yè)發(fā)展
高性能計(jì)算對(duì)我國(guó)信息產(chǎn)業(yè)的發(fā)展具有極大的促進(jìn)作用。首先,高端計(jì)算系統(tǒng)的研發(fā)和技術(shù)輻射促進(jìn)了我國(guó)服務(wù)器產(chǎn)業(yè)的進(jìn)步。目前,國(guó)內(nèi)HPC和服務(wù)器的銷(xiāo)售額已經(jīng)接近200億元,在國(guó)際市場(chǎng)上也占有一席之地。高端系統(tǒng)和服務(wù)器產(chǎn)業(yè)的發(fā)展極大促進(jìn)了我國(guó)核心部件和關(guān)鍵元器件的自主研發(fā),為形成具有自主產(chǎn)權(quán)的硬件系統(tǒng)奠定了基礎(chǔ)。其次,高性能計(jì)算應(yīng)用的研發(fā)和普及為國(guó)產(chǎn)高性能計(jì)算軟件產(chǎn)業(yè)的發(fā)展奠定了基礎(chǔ)。長(zhǎng)期以來(lái),我國(guó)的應(yīng)用軟件主要依賴(lài)進(jìn)口,尤其是在工業(yè)生產(chǎn)領(lǐng)域和基礎(chǔ)科學(xué)研究領(lǐng)域,支出大量采購(gòu)經(jīng)費(fèi),且軟件升級(jí)受制于外方。因此,在發(fā)展硬件技術(shù)的同時(shí),拓展應(yīng)用軟件市場(chǎng),逐步占據(jù)高端市場(chǎng),輻射低端市場(chǎng),最終替換商業(yè)軟件,搶占HPC軟件的市場(chǎng),是我國(guó)應(yīng)用軟件發(fā)展的必由之路。最后,國(guó)家高性能計(jì)算環(huán)境的發(fā)展,催生我國(guó)計(jì)算服務(wù)業(yè)的發(fā)展,通過(guò)環(huán)境運(yùn)行,探索運(yùn)營(yíng)與盈利的新模式,從單純提供計(jì)算機(jī)向提供解決方案和交鑰匙服務(wù)方向轉(zhuǎn)變,這將促進(jìn)我國(guó)高性能計(jì)算服務(wù)業(yè)的發(fā)展,也有利于提升我國(guó)相關(guān)企業(yè)的競(jìng)爭(zhēng)力。
自主可控是我國(guó)高性能計(jì)算發(fā)展的必由之路
處理器是計(jì)算機(jī)的核心部件,長(zhǎng)期以來(lái)中國(guó)超級(jí)計(jì)算機(jī)的處理器依賴(lài)進(jìn)口。隨著我國(guó)超級(jí)計(jì)算機(jī)規(guī)模的提高,計(jì)算能力不斷增強(qiáng),引起美國(guó)的關(guān)注。美國(guó)于2015年起開(kāi)始對(duì)中國(guó)禁運(yùn)新一代微處理器,拖延了“天河二號(hào)”超級(jí)計(jì)算機(jī)的升級(jí)。同時(shí),國(guó)外限制高端應(yīng)用軟件向我國(guó)的出口,也造成國(guó)家超算中心應(yīng)用軟件采購(gòu)受限,直接影響服務(wù)質(zhì)量?,F(xiàn)實(shí)告訴我們,中國(guó)的高性能計(jì)算事業(yè)不能完全建立在國(guó)外技術(shù)的基礎(chǔ)上,中國(guó)必須大力發(fā)展自主關(guān)鍵技術(shù),提升高性能計(jì)算的核心技術(shù)水平和自主可控能力。
三、發(fā)展E級(jí)計(jì)算面臨的挑戰(zhàn)
E級(jí)計(jì)算機(jī)核心技術(shù)的挑戰(zhàn)
E級(jí)計(jì)算機(jī)的研制面臨巨大的技術(shù)挑戰(zhàn),主要體現(xiàn)在功耗 (Power consumption)、應(yīng)用性能 (Performance)、可編程性 (Programmability)和可靠性 (Resilience)幾個(gè)方面,可簡(jiǎn)單總結(jié)為3個(gè)P,1個(gè)R。
為了應(yīng)對(duì)這些挑戰(zhàn),我們需要在體系結(jié)構(gòu)上有所突破,探索突破當(dāng)前異構(gòu)加速、異構(gòu)多態(tài)、國(guó)產(chǎn)眾核等途徑的新型體系結(jié)構(gòu)。在核心關(guān)鍵技術(shù)方面要有創(chuàng)新,尋求在高性能處理器、高速互連、低功耗技術(shù)、系統(tǒng)軟件、并行算法等方面的技術(shù)創(chuàng)新。同時(shí)要以軟硬件協(xié)同的方式,改善系統(tǒng)性能,提高系統(tǒng)可靠性,降低系統(tǒng)能耗。
大規(guī)模并行軟件的挑戰(zhàn)
應(yīng)用軟件方面的挑戰(zhàn)主要來(lái)自E級(jí)計(jì)算應(yīng)用軟件的大規(guī)模并行性。要充分考慮如何發(fā)展適應(yīng)體系結(jié)構(gòu)的大規(guī)模并行算法,如何支持?jǐn)?shù)百萬(wàn)核至數(shù)千萬(wàn)核水平的大規(guī)模并行程序的開(kāi)發(fā),如何應(yīng)對(duì)異構(gòu)體系結(jié)構(gòu)帶來(lái)的新的編程問(wèn)題,如何實(shí)現(xiàn)大規(guī)模并行程序的調(diào)試和性能調(diào)優(yōu)。如果這些基本問(wèn)題得不到解決,我國(guó)高性能計(jì)算的應(yīng)用水平難以提高。
高性能計(jì)算環(huán)境建設(shè)的挑戰(zhàn)
除了硬件和軟件之外,高性能計(jì)算的推廣離不開(kāi)良好的生態(tài)環(huán)境。要建立環(huán)境可持續(xù)發(fā)展的運(yùn)行模式,研發(fā)支撐軟件平臺(tái),實(shí)現(xiàn)高性能計(jì)算環(huán)境的基礎(chǔ)設(shè)施生態(tài)運(yùn)行;一方面要注重不斷豐富環(huán)境的資源,另一方面要建立有效的資源共享模式與機(jī)制,提高資源利用率,充分發(fā)揮資源的效益;要發(fā)展新的應(yīng)用服務(wù)模式,拓展環(huán)境的應(yīng)用;要與時(shí)俱進(jìn),在新的技術(shù)條件下提供更高質(zhì)量、更好體驗(yàn)的服務(wù)。這些都是值得我們探討和努力解決的問(wèn)題。
構(gòu)建高性能計(jì)算生態(tài)環(huán)境任務(wù)緊迫
當(dāng)前國(guó)際形勢(shì)下,采用國(guó)產(chǎn)處理器實(shí)現(xiàn)E級(jí)計(jì)算機(jī),不是應(yīng)該不應(yīng)該,而是不得不采取的措施,依托自主技術(shù)已經(jīng)成為我國(guó)高性能計(jì)算發(fā)展的必然選擇。要發(fā)揮基于國(guó)產(chǎn)處理器的E級(jí)計(jì)算機(jī)系統(tǒng)的作用,必須建立適應(yīng)國(guó)產(chǎn)處理器的應(yīng)用生態(tài)環(huán)境,需要我們?cè)谙到y(tǒng)軟件、工具軟件、應(yīng)用軟件方面有所建樹(shù)。事實(shí)上,在應(yīng)用生態(tài)環(huán)境建設(shè)方面我們?nèi)匀淮嬖诜浅4蟮膯?wèn)題。做一兩臺(tái)高端的計(jì)算機(jī)不是我們的終點(diǎn),恰恰是新的起點(diǎn)。未來(lái)需要有更多的企業(yè)、研發(fā)部門(mén)、應(yīng)用部門(mén)、學(xué)術(shù)界一同努力,共同推進(jìn)我國(guó)高性能計(jì)算機(jī)產(chǎn)業(yè),特別是服務(wù)器產(chǎn)業(yè)的發(fā)展。只有很多人來(lái)做這件事情,國(guó)產(chǎn)處理器的應(yīng)用生態(tài)問(wèn)題才能得到解決。