錢(qián) 煒
在世界超級(jí)計(jì)算機(jī)權(quán)威組織TOP500今年發(fā)布的榜單上,中國(guó)的首臺(tái)千萬(wàn)億次超級(jí)計(jì)算機(jī)“天河一號(hào)”打破了美國(guó)長(zhǎng)期保持的世界第一的紀(jì)錄,成為超級(jí)計(jì)算機(jī)新的世界之冠。“天河一號(hào)”研發(fā)團(tuán)隊(duì)贏得的并非只是一場(chǎng)“看誰(shuí)更快”的競(jìng)賽,而是一場(chǎng)為榮譽(yù)為國(guó)家的理想主義之戰(zhàn)。
由國(guó)防科技大學(xué)的年輕科技工作者組成“天河一號(hào)”研發(fā)團(tuán)隊(duì),平均年齡只有30歲。他們出于對(duì)“銀河”(我國(guó)第一臺(tái)億次巨型計(jì)算機(jī))的熱愛(ài)而聚到一起,堅(jiān)持走自主創(chuàng)新之路,努力突破核心元器件技術(shù)瓶頸,沖到了該領(lǐng)域的世界之巔。
“這是一項(xiàng)偉大的事業(yè),參與者都有莫大的自豪感,這是多少金錢(qián)也買(mǎi)不來(lái)的?!?/p>
皮膚白凈、身材高挑的盧宇彤,在以男性居多的“天河一號(hào)”研發(fā)團(tuán)隊(duì)里,可算是“萬(wàn)綠叢中一點(diǎn)紅”。當(dāng)記者問(wèn)她身為一名女性,當(dāng)初為何要來(lái)軍校這么枯燥單調(diào)的地方時(shí),她不假思索地說(shuō):“因?yàn)槲覐男【蛷臅?shū)上知道,這里是銀河—Ⅰ誕生的地方,我向往這里??!”
隨著“天河一號(hào)”再次載入史冊(cè),盧宇彤完美地實(shí)現(xiàn)了自己的“銀河夢(mèng)”。
2010年11月17日,世界超級(jí)計(jì)算機(jī)權(quán)威組織TOP500發(fā)布了最新一屆世界超級(jí)計(jì)算機(jī)500強(qiáng)榜單。由中國(guó)國(guó)防科技大學(xué)研發(fā)的千萬(wàn)億次級(jí)超級(jí)計(jì)算機(jī)“天河一號(hào)”榮膺第一。
從國(guó)防科大的北門(mén)進(jìn)去,一眼就能望見(jiàn)按照“天河一號(hào)”的樣子新建起來(lái)的計(jì)算機(jī)學(xué)院科研樓。由于整臺(tái)機(jī)器現(xiàn)已安裝在天津的超算中心,一樓近千平方米的機(jī)房如今已是“機(jī)去樓空”。倒是在舊樓實(shí)驗(yàn)室里,記者看到了一臺(tái)正運(yùn)行著的小型超級(jí)計(jì)算機(jī),深銀灰色的機(jī)組群上閃爍著藍(lán)色的指示燈,就像夜空中的繁星。身為團(tuán)隊(duì)主任設(shè)計(jì)師的盧宇彤告訴記者,這里,就是“天河一號(hào)”開(kāi)始的地方。
成功“翻墻”的混搭結(jié)構(gòu)
2007年夏,天河研發(fā)團(tuán)隊(duì)總設(shè)計(jì)師、國(guó)防科大副校長(zhǎng)楊學(xué)軍教授在國(guó)際計(jì)算機(jī)體系結(jié)構(gòu)年會(huì)上發(fā)表了論文《64位流處理器體系結(jié)構(gòu)研究》,引起轟動(dòng)。其原因,不僅僅由于這是近十幾年來(lái)中國(guó)內(nèi)地學(xué)者首次獨(dú)立在這一頂尖水平會(huì)議上發(fā)表成果。
普通個(gè)人電腦的結(jié)構(gòu),就是主機(jī)+顯示屏,而主機(jī)的心臟是CPU。據(jù)“天河一號(hào)”工程辦公室主任李楠介紹,從上世紀(jì)90年代開(kāi)始,超級(jí)計(jì)算機(jī)的主流技術(shù)路線(xiàn)是大規(guī)模并行,簡(jiǎn)單地說(shuō),就是把幾十、幾百、上千個(gè)CPU聯(lián)結(jié)在一起。但到了2000年,當(dāng)超級(jí)計(jì)算機(jī)的速度達(dá)到了萬(wàn)億次并向更高的水平發(fā)展時(shí),人們發(fā)現(xiàn),CPU數(shù)量增加到一定程度時(shí),并不能帶來(lái)運(yùn)算速度的提高,卻遇到了一系列的瓶頸無(wú)法解決。
科研人員將這些問(wèn)題形象地稱(chēng)之為“墻”。比如,有“內(nèi)存墻”,CPU多了但內(nèi)存帶寬有限,這會(huì)影響CPU讀取數(shù)據(jù)的速度,就像一條4車(chē)道的高速公路上擠滿(mǎn)了車(chē),跑不快。有“功耗墻”,超級(jí)計(jì)算機(jī)規(guī)模越來(lái)越大,用電量也隨之增大。一臺(tái)千萬(wàn)億次的超級(jí)計(jì)算機(jī)的用電量就將相當(dāng)于一個(gè)中等城市的用電量。曾有專(zhuān)家說(shuō):“如果不解決功耗問(wèn)題,今后超級(jí)計(jì)算機(jī)只能與核電站建在一起?!边€有“造價(jià)墻”,國(guó)外建造一臺(tái)超級(jí)計(jì)算機(jī)往往要斥資上十億美元,投入巨大。
為翻過(guò)這些“墻”,國(guó)際上有人提出“異構(gòu)”的概念,將CPU與某種加速器結(jié)合起來(lái)以提高效率。但至于用什么類(lèi)型的加速器,二者如何融合,大家都在研究。
楊學(xué)軍的論文,正是從理論上確定了CPU+GPU這種異構(gòu)結(jié)構(gòu)的可行性,意義非凡。于是,國(guó)防科大決定根據(jù)這個(gè)思路來(lái)研發(fā)千萬(wàn)億次超級(jí)計(jì)算機(jī)。
科研人員從國(guó)外買(mǎi)回性能最好的GPU,將其與CPU連在一起,卻發(fā)現(xiàn)運(yùn)算效率只有20%?!爱?dāng)時(shí)我們看到這個(gè)結(jié)果,心里都涼了半截,但經(jīng)過(guò)分析發(fā)現(xiàn),從技術(shù)原理上來(lái)說(shuō),這個(gè)結(jié)構(gòu)是應(yīng)該能達(dá)到更高效率的?!崩铋f(shuō),
“原因很簡(jiǎn)單,就好像我倆跑步速度不一樣,我要等你趕上來(lái)了才能一起執(zhí)行下一個(gè)任務(wù),效率肯定低了。”天河研發(fā)團(tuán)隊(duì)副總設(shè)計(jì)師胡慶豐解釋說(shuō)。實(shí)際上,GPU適合處理結(jié)構(gòu)比較規(guī)整的批量數(shù)據(jù),而CPU擅長(zhǎng)復(fù)雜的邏輯運(yùn)算,如果能合理分配任務(wù),讓二者分別干自己適合的事情,這樣就能大幅提高效率。
“但這就不只是硬件的問(wèn)題了,而是要從底層軟件的層面讓二者更好地融合。”胡慶豐說(shuō)。
為了突破這個(gè)難關(guān),他們拉著核心團(tuán)隊(duì)去長(zhǎng)沙郊區(qū)一個(gè)叫母山基地的地方去“閉關(guān)”。那個(gè)地方手機(jī)信號(hào)差,不通公交車(chē),人呆在那兒更容易沉下心來(lái)思考問(wèn)題。
長(zhǎng)達(dá)半年的“閉關(guān)”取得了突破性進(jìn)展——在實(shí)驗(yàn)室條件下,CPU+GPU的性能最高達(dá)到了70%,之前的那些“墻”都被一一成功翻越。
目前整個(gè)“天河一號(hào)”二期系統(tǒng),共使用了16384個(gè)CPU,7168個(gè)GPU。GPU結(jié)構(gòu)簡(jiǎn)單,功耗低,價(jià)格也比CPU便宜很多。
美國(guó)斯坦福大學(xué)計(jì)算機(jī)系主任比爾·戴利教授就曾表示:“中國(guó)的天河計(jì)算機(jī)采取的CPU+GPU的結(jié)構(gòu),代表了未來(lái)高性能計(jì)算機(jī)的發(fā)展趨勢(shì)。隨著計(jì)算機(jī)規(guī)模的不斷拓展,這種結(jié)構(gòu)雖然不是唯一的解決方法,但目前看來(lái)是最好的?!?/p>
“這是一項(xiàng)偉大的事業(yè)”
楊學(xué)軍還清楚地記得他在1988年曾經(jīng)歷的一幕:中國(guó)氣象局有一間專(zhuān)門(mén)的屋子,里面放著從國(guó)外租來(lái)的超級(jí)計(jì)算機(jī)。因?yàn)槊绹?guó)人不愿意把這種計(jì)算機(jī)賣(mài)給中國(guó),中國(guó)氣象局只能租用。計(jì)算機(jī)拉到中國(guó)后,放置它的屋子有24小時(shí)監(jiān)控,中國(guó)人不能進(jìn),連操作的技術(shù)人員都是外國(guó)人。
“過(guò)去我們經(jīng)常遇到這種情況,大家心里都有種被刺痛的感覺(jué)。所以,我們一定要有自己的超級(jí)計(jì)算機(jī)?!彼f(shuō)。
超級(jí)計(jì)算機(jī)的發(fā)展規(guī)律是每十年性能提高1000倍。2000年的國(guó)際先進(jìn)水平是萬(wàn)億次,那么到2010年左右將會(huì)達(dá)到千萬(wàn)億次。因此在2005年,當(dāng)國(guó)產(chǎn)超級(jí)計(jì)算機(jī)才剛剛突破十萬(wàn)億次之時(shí),楊學(xué)軍感到,如果要占領(lǐng)制高點(diǎn),就要盡快攻克千萬(wàn)億次超級(jí)計(jì)算機(jī)系統(tǒng)。
“我們?cè)凇旌右惶?hào)的研制過(guò)程中,堅(jiān)持走自主創(chuàng)新之路,努力突破核心元器件技術(shù)瓶頸,極大增強(qiáng)了自主創(chuàng)新能力”,團(tuán)隊(duì)副總設(shè)計(jì)師、計(jì)算機(jī)學(xué)院院長(zhǎng)廖湘科教授說(shuō)。
整個(gè)天河研發(fā)團(tuán)隊(duì)非常年輕,平均年齡只有30歲,總設(shè)計(jì)師楊學(xué)軍也才46歲。“因?yàn)榇蠹叶际悄贻p人,每次開(kāi)會(huì)討論問(wèn)題,大家都爭(zhēng)得臉紅脖子粗,就像吵架一樣,沒(méi)有老師學(xué)生的區(qū)別,沒(méi)有上下級(jí)的區(qū)別。這樣輕松開(kāi)放的氛圍,才利于我們盡快找出問(wèn)題的癥結(jié)所在,才能出新?!北R宇彤告訴記者。
團(tuán)隊(duì)里,有很多人都像盧宇彤一樣,出于對(duì)“銀河”的向往而來(lái)到這里?!啊貞炎鎳?guó)、團(tuán)結(jié)協(xié)作、志在高峰、奮勇拼搏,正因?yàn)槲覀冇羞@樣的‘銀河精神,才能有今天的成績(jī)?!眹?guó)防科大計(jì)算機(jī)學(xué)院政委劉學(xué)民表示。
據(jù)說(shuō),曾有外國(guó)公司以年薪30萬(wàn)美元的高薪來(lái)挖團(tuán)隊(duì)里的骨干,卻空手而歸。
“天河一號(hào)”除了在結(jié)構(gòu)上有突破,還擁有多項(xiàng)創(chuàng)新,如自主設(shè)計(jì)的高階路由芯片和高速網(wǎng)絡(luò)接口芯片。此外,值得一提的是,“天河一號(hào)”的CPU芯片中,有一部分為國(guó)防科大自主研發(fā)的飛騰—1000。
“目前之所以沒(méi)有全部使用國(guó)產(chǎn)CPU,一個(gè)重要原因是考慮到用戶(hù)使用的很多第三方軟件都在基于國(guó)外芯片環(huán)境開(kāi)發(fā)的,在飛騰上無(wú)法運(yùn)行?!崩铋忉屨f(shuō)。
TOP500自1993年發(fā)布以來(lái),就成了超級(jí)計(jì)算機(jī)的“奧運(yùn)會(huì)”。而美國(guó)長(zhǎng)期在此占據(jù)第一名的位置,并在榜單中擁有最多席位,只在2002年,被日本研發(fā)的“地球模擬器”首次超越。兩年半后,美國(guó)重返榜首。此次“天河一號(hào)”的后來(lái)居上,再次打破了美國(guó)已連續(xù)保持6年第一的紀(jì)錄,在國(guó)外同行中引起震動(dòng)。
然而,超級(jí)計(jì)算機(jī)究竟有什么用?是不是像有些人想象的那樣,各國(guó)爭(zhēng)相研發(fā)超級(jí)計(jì)算機(jī)只是一場(chǎng)單純的“看誰(shuí)更快”的競(jìng)賽?
對(duì)此,李楠表示,超級(jí)計(jì)算機(jī)可以幫助眾多領(lǐng)域的科學(xué)家更好地理解自然世界、發(fā)現(xiàn)科學(xué)規(guī)律,從而推動(dòng)科技進(jìn)步,涉及的領(lǐng)域包括生物醫(yī)學(xué)、氣候預(yù)測(cè)、地球物理勘測(cè)和材料科學(xué)等。尤其在國(guó)防領(lǐng)域,目前美國(guó)已基本停止了核武器試驗(yàn),而改在超級(jí)計(jì)算機(jī)上進(jìn)行模擬試驗(yàn)。因此,超級(jí)計(jì)算機(jī)對(duì)于國(guó)防來(lái)說(shuō),具有重大意義。
盧宇彤告訴記者,“天河一號(hào)”在天津超算中心投入使用后,已經(jīng)有幾十家用戶(hù)排隊(duì)預(yù)約。中石油有項(xiàng)運(yùn)算任務(wù),在以前的超級(jí)計(jì)算機(jī)上,需要3個(gè)月才能算完,在“天河一號(hào)”上只跑了不到一個(gè)星期就完成了。
不過(guò),即使是目前“天河一號(hào)”的運(yùn)算速度,也不能完全滿(mǎn)足目前的科研需要,胡慶豐說(shuō),“估計(jì)當(dāng)計(jì)算速度達(dá)到百億億次時(shí),才能滿(mǎn)足需求。但到了那時(shí),也許科學(xué)上又會(huì)出現(xiàn)新的更復(fù)雜的問(wèn)題,對(duì)超級(jí)計(jì)算速度提出更高要求。不過(guò)我們也樹(shù)立了新的目標(biāo),要向億億次發(fā)起沖擊?!薄?/p>