文/李京 張煥杰
中科大超算中心:發(fā)力學(xué)科探索
文/李京 張煥杰
高性能計算設(shè)施是研究型大學(xué)的重要平臺,在學(xué)校教學(xué)、科研活動中發(fā)揮著不可替代的作用。
高性能計算應(yīng)用領(lǐng)域非常廣泛,幾乎在所有學(xué)科中,高性能計算都能發(fā)揮作用。比如空間物理、地球化學(xué)、地球物理等涉及到地球圈層相互作用的環(huán)境效應(yīng)等學(xué)科,此外,生命科學(xué)、高能物理、天體力學(xué)等許多學(xué)科在計算機(jī)的幫助下,可以取得更快的研究進(jìn)展。所以說,高性能計算是研究型大學(xué)學(xué)科發(fā)展的一大平臺。
按照不同的分類方式,高性能計算設(shè)施有不同的劃分。具體來說,可以有三個不同類別的劃分。
通用型/專用型。通用型指的是:在作業(yè)系統(tǒng)管理下,多學(xué)科、多人共享使用,提供通常的計算服務(wù),適合學(xué)校統(tǒng)一建設(shè)管理。專用型指的是使用特定的操作系統(tǒng)和軟件環(huán)境,某個系統(tǒng)或應(yīng)用專用,往往加入到一個網(wǎng)格中,參與網(wǎng)絡(luò)計算,適合按照應(yīng)用建設(shè),統(tǒng)一管理。
計算密集型/數(shù)據(jù)密集型。計算密集型指的是計算量大,但數(shù)據(jù)存儲需要的不多。數(shù)據(jù)密集型指的是數(shù)據(jù)量非常大,如高能物理計算需要非常多的數(shù)據(jù)存儲空間。
通信密集型/松耦合型。為提高計算速度,往往需要多CPU共同完成計算任務(wù),將一個計算任務(wù)劃分成子進(jìn)程分別在多個CPU上同時運(yùn)行。通信密集型指的是子進(jìn)程間通信密集,在SMP、CCnuma等共享內(nèi)存或使用infiniband等高速網(wǎng)絡(luò)互聯(lián)機(jī)器上運(yùn)行效率高。松耦合型指的是子進(jìn)程間通信少,在以太網(wǎng)廉價互連的機(jī)器上運(yùn)行,性價比很高。
從1995年開始,伴隨Linux和Internet的發(fā)展,中國科技大學(xué)多個院系、研究組建設(shè)了大大小小的Linux集群用于高性能計算。2004年中科大設(shè)立超級運(yùn)算中心,掛靠在網(wǎng)絡(luò)信息中心,對全校用戶提供高性能計算服務(wù)和支持。超算中心是科大五大公共實驗中心之一。超算中心設(shè)專家委員會,專家由用戶和計算機(jī)學(xué)院老師組成。
目前,中科大高性能計算設(shè)施的現(xiàn)狀是:
第一,集中式與分散式計算設(shè)施并存。首先,在大范圍內(nèi),由學(xué)校超算中心統(tǒng)一建設(shè)、運(yùn)行管理,用戶共享使用,計算能力10TFLOPS。此外,部分院系、項目組用科研經(jīng)費(fèi)建設(shè)了各自的高性能計算設(shè)施,供小范圍使用,以Linux集群為主,總計算能力超過20TFLOPS。
第二,高性能CC-numa機(jī)器與廉價Linux集群并存。CC-numa機(jī)器價格高,但通信性能最快,Linux集群通信性能偏低,但價格也低,性價比很高。
第三,校內(nèi)外計算資源共用。部分項目組,除了使用學(xué)校的計算資源,也會使用校外性價比高的計算資源,如上海超算中心、科學(xué)院超算中心的計算資源。
集中式設(shè)備由超算中心負(fù)責(zé)建設(shè)與運(yùn)行管理。在投入方面,從2004年至今總投入約1500萬,現(xiàn)有計算資源約10 TFLOPS,在今年10月剛增加了一套GPU高性能計算機(jī)(CPU性能5TFLOPS,GPU單精度性能205TFLOPS),年底前還將再增加一套約6TFLOPS高性能計算機(jī)。
超算中心現(xiàn)有設(shè)備有:高性能共享內(nèi)存計算機(jī) HP SuperDome,峰值0.77TFLOPS,2004年購買; 高性能計算集群HP RX2600,峰值0.38TFLOPS,2004年購買;IBM刀片計算集群,峰值1.8TFLOPS,2007年購買;聯(lián)想深騰1800高性能Linux計算集群, 峰值4.7TFLOPS,2008年聯(lián)想公司贈送;曙光4000A;基于國產(chǎn)龍芯2CPU的KD50-I萬億次高性能計算機(jī);聯(lián)想GPU高性能計算機(jī)等。
在分散式計算設(shè)施方面,各院系根據(jù)自己的需求,建立了各自的計算設(shè)施。比如,我校楊金龍教授研究組建設(shè)有3組Cluster,作為組內(nèi)計算使用,除使用校內(nèi)計算資源外,還付費(fèi)使用上海超算等優(yōu)質(zhì)廉價計算資源。此外,還有物理學(xué)院Science Grid網(wǎng)格分支。物理學(xué)院初步建成Science Grid高性能計算中心,為粒子、天體、等離子體物理、理論學(xué)科發(fā)展提供大規(guī)模數(shù)據(jù)處理、及仿真模擬分析所需的計算機(jī)資源,其計劃處理器核數(shù)量:3000~5000核,預(yù)計投入1200萬元人民幣。
超算平臺經(jīng)過近六年的建設(shè)和運(yùn)行,發(fā)展處于一個瓶頸期。希望能通過以下措施,細(xì)化超算平臺的的服務(wù)內(nèi)容,改進(jìn)服務(wù)方式,提高服務(wù)水平,更好地為科大的科研和教學(xué)提供服務(wù)。
首先, 對超算用戶進(jìn)行細(xì)分,提供更細(xì)致的服務(wù)。對剛開始接觸高性能計算的新用戶加強(qiáng)宣傳、培訓(xùn)與服務(wù),幫助其盡快掌握一些高性能計算的基礎(chǔ)知識。對于科研產(chǎn)出率高的用戶進(jìn)行重點(diǎn)服務(wù)和支持,優(yōu)先使用,細(xì)致服務(wù)。針對商業(yè)或開源軟件用戶,提供相關(guān)的軟件環(huán)境和硬件環(huán)境,盡量滿足用戶需求。針對自己開發(fā)軟件的用戶,需提供深入的開發(fā)支持,必要時幫助用戶進(jìn)行優(yōu)化,提高運(yùn)行速度。針對托管系統(tǒng)用戶,需要提供系統(tǒng)托管服務(wù)。
其次,對程序模式進(jìn)行細(xì)分,提供最合適的平臺。不同的平臺價格差異很大,要盡量發(fā)揮各種機(jī)器的優(yōu)勢。大內(nèi)存、高通信、大I/O的應(yīng)用,適合在單節(jié)點(diǎn)性能高(當(dāng)然也比較昂貴)的機(jī)器上運(yùn)行,取得很高的實際計算性能;而多任務(wù)應(yīng)用一般適合在集群系統(tǒng)上運(yùn)行,可以在非常低的成本下獲取滿意的性能。
此外,對超算中心的工作內(nèi)容細(xì)分,引進(jìn)合格的技術(shù)人員。在工作內(nèi)容細(xì)分與崗位要求方面,要注意這幾個方面。首先,日常運(yùn)行和支持方面, 機(jī)器的常規(guī)運(yùn)行和技術(shù)支持,人員要求較低;其次,平臺建設(shè)與維護(hù)方面,要充分了解各種程序、各種機(jī)器的特性;收集基準(zhǔn)測試程序,對各種機(jī)器進(jìn)行評測和比較;負(fù)責(zé)系統(tǒng)規(guī)劃、建設(shè)、維護(hù)的全過程;對用戶程序提供運(yùn)行環(huán)境支持;人員素質(zhì)要求高;第三,高級用戶支持方面,對用戶提供1對1的系統(tǒng)和開發(fā)支持,人員素質(zhì)要求最高。后兩項工作對人員素質(zhì)要求很高,可以借助部分高級用戶的力量來完成一些工作。
總之,在工作中,設(shè)備是基礎(chǔ),人員是關(guān)鍵。我們的關(guān)鍵詞是:細(xì)分用戶級別、深化服務(wù)內(nèi)容、改進(jìn)服務(wù)方式、提高服務(wù)水平、支撐學(xué)校發(fā)展。
未來五年,我們計劃再建設(shè)一個400平米的超算專用機(jī)房,聚合計算性能發(fā)展到50~100T FLOPS,軟件環(huán)境具備3種以上的系統(tǒng)和運(yùn)行環(huán)境,提供10種以上公用計算軟件。實現(xiàn)服務(wù)分級,重點(diǎn)支持5個以上研究組,提供高等級服務(wù)。管理方面,要具備不同層次8~10名技術(shù)人員。爭取對外合作,與企業(yè)建立合作關(guān)系,為國家和地方經(jīng)濟(jì)提供計算服務(wù)。
(作者單位為中國科技大學(xué)網(wǎng)絡(luò)信息中心)
互聯(lián)網(wǎng)有多重?
你考慮過這個問題嗎?所謂虛擬的互聯(lián)網(wǎng)到底有幾千克重?
不過CNET有人做出了這個終極問題的答案。他們計算出來了目前鏈接到互聯(lián)網(wǎng)上的每臺電腦、每臺服務(wù)器以及線纜的重量,最終得出的結(jié)果是:498,438,559,990千克。你可能從未意識到我們的互聯(lián)網(wǎng)也是如此龐大臃腫的一個玩意。有趣的是這里面還包含了iPhone、 Blackberry。
根據(jù)CNET的計算,他們認(rèn)為世界上大約有570,937,778臺電腦正鏈接到互聯(lián)網(wǎng),然后以平均每臺約40千克計算。
以下是一些相關(guān)的數(shù)據(jù):
服務(wù)器的重量約是 175,480,931千克
線纜的重量以每米5.8千克計算,最后的結(jié)果87,000,000千克以上
IPhone 銷售了4200萬部,大概607.5萬千克重
黑莓銷售了5000萬部,重680萬千克
互聯(lián)網(wǎng)目前有287,524種病毒
而我們每天瀏覽的網(wǎng)站綜合相當(dāng)于不到0.01千克重的煎蛋
你也可以“作個火星人”
美國宇航局和微軟公司日前宣布合作開設(shè)火星探索網(wǎng)站——“作個火星人”(beamartian.jpl.nasa.gov)網(wǎng)站。用戶登陸該網(wǎng)站不僅能了解美國宇航局迄今數(shù)百次火星探索任務(wù)的進(jìn)展情況,而且可親身參與火星探索。
美國宇航局火星探索項目主任道格·麥奎遜說:“火星探索任務(wù)獲得了極其豐富的資料,我們現(xiàn)在到了一個人人都能當(dāng)探索家的歷史階段?!彼f,網(wǎng)站用戶能夠自由擴(kuò)展或創(chuàng)建自己的“火星任務(wù)”,并對美國宇航局的科研項目做出貢獻(xiàn)。比如統(tǒng)計火星環(huán)形山的數(shù)目任務(wù)艱巨,僅憑計算機(jī)或科學(xué)家難以完成,成千上萬的網(wǎng)民參與將加速這項工作的完成。用戶還能幫助科學(xué)家繪制精確的火星地圖,并因此獲得游戲“積分”。
(來自美國宇航局)