文/李南
隨著科學(xué)研究和工程創(chuàng)新的持續(xù)進(jìn)步,大量研究領(lǐng)域都逐漸開始使用各自學(xué)科的計(jì)算分析工具對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行解析,通過對實(shí)驗(yàn)數(shù)據(jù)和計(jì)算分析的跨域整合,更全面地描繪研究對象,挖掘研究對象在應(yīng)用理論或基礎(chǔ)理論層面的含義。雖然此類方法在不同領(lǐng)域有不同的名稱,如數(shù)值仿真、理論模擬、數(shù)據(jù)分析、統(tǒng)計(jì)分析、建模預(yù)測等,但這些應(yīng)用的共同點(diǎn)是,依賴于不同規(guī)模的算力來完成特定算法下的數(shù)值計(jì)算。
近年來,人工智能領(lǐng)域迅猛發(fā)展,AlphaFold、DeepMD等人工智能驅(qū)動的科學(xué)研究(AI for Science)推動相關(guān)領(lǐng)域取得幾十年以來的最大突破,ChatGPT和GPT-4等以大型語言模型(LLM)為代表的通用人工智能工具,其準(zhǔn)確性和實(shí)用性也遠(yuǎn)超預(yù)期。未來,這些進(jìn)展有望在眾多領(lǐng)域促進(jìn)生產(chǎn)力跨越性提升,成為推動社會發(fā)展和科研創(chuàng)新的顛覆性工具。無論是計(jì)算分析還是人工智能領(lǐng)域的研究,都依賴于高質(zhì)量成規(guī)模的算力。而這些需求投射至高等學(xué)校,就體現(xiàn)在對高校計(jì)算中心或超算中心建設(shè)的要求上。
西湖大學(xué)
西湖大學(xué)高性能計(jì)算中心(簡稱“計(jì)算中心”)成立于2019年6月,是實(shí)驗(yàn)室與科研設(shè)施部下轄的6個(gè)校級公共服務(wù)平臺之一。 計(jì)算中心為西湖大學(xué)“高起點(diǎn)、小而精、研究型”的辦學(xué)定位提供堅(jiān)實(shí)的高性能計(jì)算基礎(chǔ)支持,為全校各研究機(jī)構(gòu)提供高質(zhì)量、高可靠性、高定制化的科學(xué)計(jì)算和數(shù)據(jù)分析解決方案,滿足各學(xué)科領(lǐng)域?qū)τ诖笠?guī)模數(shù)據(jù)處理和大規(guī)模科學(xué)計(jì)算的需求。2019~2022年,計(jì)算中心共支持205篇SCI收錄論文和計(jì)算機(jī)會議論文發(fā)表,其中11篇發(fā)表在Science、Nature、Cell等高水平期刊上。
目前計(jì)算中心共有服務(wù)器機(jī)房500平方米和科學(xué)計(jì)算集群、冷凍電鏡集群、人工智能集群三類高性能集群資源。
服務(wù)器機(jī)房采用冷凍水系統(tǒng)冷卻和封閉冷熱通道設(shè)計(jì)。這種設(shè)計(jì)相比風(fēng)冷方式,降低了機(jī)房PUE(電源使用效率)值(圖1)。
圖1 西湖大學(xué)高性能計(jì)算服務(wù)器機(jī)房
計(jì)算中心通過各種類型的計(jì)算資源服務(wù)支撐學(xué)校各項(xiàng)科學(xué)研究,其中計(jì)算集群是科研支撐中的核心資源。截至2022年底,冷凍電鏡集群和人工智能集群在全國高等院校中算力規(guī)模排名第一。從全校各集群總算力看,CPU算力為1.5 PFLOP/s(FP64雙精度浮點(diǎn)計(jì)算能力),GPU算力為20 PFLOP/s(FP32單精度浮點(diǎn)計(jì)算能力),存儲總量達(dá)40PB。
計(jì)算集群通過高速計(jì)算專用網(wǎng)絡(luò)連接匯聚算力和存儲。在使用時(shí)可以將數(shù)據(jù)分配至各計(jì)算節(jié)點(diǎn),實(shí)現(xiàn)大量算力資源同時(shí)調(diào)用,也可以使用MPI(多點(diǎn)接口)等通信方式將多個(gè)計(jì)算節(jié)點(diǎn)算力整合利用,以解決單一應(yīng)用同時(shí)使用大量CPU或GPU的需求。
校內(nèi)集群建設(shè)按照技術(shù)架構(gòu)和功能進(jìn)行劃分。其中,科學(xué)工程計(jì)算集群服務(wù)于通用CPU計(jì)算和GPU加速計(jì)算,支持生物學(xué)、化學(xué)、數(shù)學(xué)、物理學(xué)、計(jì)算機(jī)科學(xué)、電子科學(xué)、材料科學(xué)、環(huán)境科學(xué)、基礎(chǔ)醫(yī)學(xué)等學(xué)科的計(jì)算需求;冷凍電鏡集群服務(wù)于結(jié)構(gòu)生物學(xué)數(shù)據(jù)解析,應(yīng)對持續(xù)的單日TB量級數(shù)據(jù)產(chǎn)出和快速處理等分析挑戰(zhàn);人工智能計(jì)算支持自然語言處理、圖像、音頻、人工智能驅(qū)動的科學(xué)研究等各方向模型訓(xùn)練需求,并支持基于容器的調(diào)度和部署。
集群服務(wù)于各種類型的用戶,既滿足長期使用少量資源的用戶需求,也滿足在特定時(shí)間內(nèi)同時(shí)調(diào)用上千個(gè)CPU核心或者上百張GPU卡的用戶應(yīng)用需求或緊急算力需求。
同時(shí),計(jì)算中心還對全校研究團(tuán)隊(duì)自購機(jī)器提供集群整合服務(wù)。集群整合服務(wù)即研究團(tuán)隊(duì)自購服務(wù)器可以并入集群,作為集群資源的一部分供研究團(tuán)隊(duì)授權(quán)的用戶使用。這項(xiàng)服務(wù)在計(jì)算資源、系統(tǒng)運(yùn)維、用戶管理三個(gè)層面進(jìn)行整合操作,擴(kuò)容集群可用計(jì)算資源規(guī)模,降低整體系統(tǒng)運(yùn)維成本,通過統(tǒng)一管理降低用戶管理復(fù)雜度,同時(shí)便于研究團(tuán)隊(duì)用戶在計(jì)算資源不足時(shí)快速擴(kuò)大計(jì)算規(guī)模,并使用集群更多的計(jì)算資源。
總之,通過統(tǒng)一集中的算力資源并配合合理調(diào)度和管理政策,高性能計(jì)算集群可為校內(nèi)大部分算力需求提供服務(wù)。
在大部分情況下,集群算力服務(wù)對計(jì)算平臺用戶而言是自助服務(wù)。不同經(jīng)驗(yàn)的用戶在集群上的計(jì)算效率和使用體驗(yàn)會產(chǎn)生很大差別。因而在集群算力服務(wù)之外,中心還探索更多定制化支撐研究團(tuán)隊(duì)科研需求的服務(wù),如應(yīng)用優(yōu)化、架構(gòu)支持、項(xiàng)目支持、數(shù)據(jù)管理、云平臺、培訓(xùn)支持等。這些服務(wù)建基于集群算力,根據(jù)研究項(xiàng)目或團(tuán)隊(duì)的需求合作開展,提升計(jì)算效率,解決數(shù)據(jù)安全,擴(kuò)大研究成果的影響力,增強(qiáng)了高性能計(jì)算中心工程師團(tuán)隊(duì)的技術(shù)能力和項(xiàng)目經(jīng)驗(yàn)。多樣性的科研需求和定制化服務(wù)也推動了計(jì)算中心從集群算力服務(wù)逐漸演化到綜合算力服務(wù)。
其中,中心在生物醫(yī)學(xué)數(shù)據(jù)分析云平臺建設(shè)的嘗試是綜合算力服務(wù)的一個(gè)典型例子。生物信息分析云平臺涵蓋了部署單細(xì)胞測序、表觀遺傳學(xué)、蛋白預(yù)測等校內(nèi)常用應(yīng)用。
在生物醫(yī)學(xué)數(shù)據(jù)分析中,很多成熟的流程已形成最佳實(shí)踐,工具和關(guān)鍵參數(shù)都基本確定,對于這些成熟流程可以通過網(wǎng)頁方式提供服務(wù),從而省去用戶自己重新部署流程操作的步驟。同時(shí),對于研究團(tuán)隊(duì)已經(jīng)確立的私有流程,可以通過云平臺共享給研究團(tuán)隊(duì)授權(quán)用戶使用。此外,對于研究團(tuán)隊(duì)需共享給整個(gè)科學(xué)共同體的數(shù)據(jù)和算法,也需要統(tǒng)一的架構(gòu)提供便利的用戶訪問和底層算力對接。
圍繞這些需求,我們構(gòu)建了一套SaaS(軟件即服務(wù))服務(wù)系統(tǒng),通過輕數(shù)據(jù)分析、流程分析、科研算力服務(wù)三個(gè)層級選擇不同工具,對接集群底層算力和存儲,為研究團(tuán)隊(duì)提供更便利的數(shù)據(jù)分析服務(wù)。
據(jù)統(tǒng)計(jì),整個(gè)生物醫(yī)學(xué)數(shù)據(jù)分析云平臺年度任務(wù)量超過8000個(gè),支持近百名用戶使用。目前,計(jì)算中心支持科研團(tuán)隊(duì)數(shù)據(jù)算法公共服務(wù)網(wǎng)站(圖2)4個(gè),支持1篇文章發(fā)表,2篇文章在投;接受來自全球36個(gè)機(jī)構(gòu)的用戶訪問,共提交近千個(gè)計(jì)算任務(wù),提升了研究成果的可及性并增強(qiáng)研究項(xiàng)目的影響力。
圖2 數(shù)據(jù)算法公共服務(wù)網(wǎng)站
集群算力服務(wù)對信息化服務(wù)系統(tǒng)也提出了更高的要求。通過建立綜合信息平臺,為用戶提供一站式計(jì)算服務(wù)、集群狀態(tài)和服務(wù)數(shù)據(jù)查詢是國內(nèi)高校計(jì)算中心和超算中心的通行做法。
西湖大學(xué)高性能計(jì)算中心的綜合信息平臺可以為系統(tǒng)管理員、用戶、研究團(tuán)隊(duì)負(fù)責(zé)人提供不同的服務(wù),包括集群狀態(tài)、任務(wù)狀態(tài)、各類算力服務(wù)入口、機(jī)時(shí)和賬單查詢等功能。信息化服務(wù)平臺為提升用戶服務(wù)質(zhì)量、優(yōu)化對接流程、降低計(jì)算中心運(yùn)營人力成本提供了重要支撐,同時(shí)為未來可能的算力規(guī)模擴(kuò)張?zhí)峁┝诵畔⒒A(chǔ)架構(gòu)。
計(jì)算中心建設(shè)對于高校而言是重大資產(chǎn)投入。計(jì)算中心的建設(shè)和規(guī)劃需要綜合評估資源需求、投資規(guī)模、場地條件、技術(shù)路線、運(yùn)營模式、團(tuán)隊(duì)建設(shè)等多方面因素,提前論證規(guī)劃來保證建成后的高水平運(yùn)行。
在規(guī)劃過程中,需考慮到學(xué)校整體學(xué)科發(fā)展規(guī)劃以及擬投入的資金規(guī)模,綜合相關(guān)學(xué)科對計(jì)算資源的需求情況,確定計(jì)算資源規(guī)模,如CPU和GPU的數(shù)量、存儲容量和帶寬、計(jì)算網(wǎng)絡(luò)技術(shù)和規(guī)模等。根據(jù)計(jì)算資源規(guī)模和未來擴(kuò)容需求,可以確定基礎(chǔ)設(shè)施規(guī)模,如電力配置和機(jī)房場地位置和面積等。此外,計(jì)算中心對電力資源需求巨大,建設(shè)時(shí)需根據(jù)規(guī)模和未來規(guī)劃來評估機(jī)房制冷技術(shù)投入以及預(yù)估PUE值,以滿足國家對機(jī)房能耗的政策性要求,降低運(yùn)行周期內(nèi)的總電力成本和低能耗制冷技術(shù)的總投入成本。
如何平衡計(jì)算中心運(yùn)營成本也是計(jì)算中心建設(shè)過程中需要考慮的重要內(nèi)容,包括是否有穩(wěn)定的專項(xiàng)經(jīng)費(fèi)支持運(yùn)營成本,或者是否需要通過計(jì)算資源費(fèi)用收取來平衡運(yùn)營成本。在沒有專項(xiàng)經(jīng)費(fèi)支持運(yùn)營或?qū)m?xiàng)經(jīng)費(fèi)不足以完全支持運(yùn)營的情況下,付費(fèi)模式有利于降低計(jì)算中心的運(yùn)營壓力;同時(shí),在付費(fèi)模式下,計(jì)算中心也可以和用戶共同挖掘滿足科研需要的核心計(jì)算需求。
不論采用何種運(yùn)營模式,工程師團(tuán)隊(duì)都是計(jì)算中心最重要的資源。計(jì)算中心的運(yùn)行、服務(wù)質(zhì)量和發(fā)展速度都依賴于運(yùn)維師團(tuán)隊(duì)的技術(shù)能力和整體水平。能力突出的工程師團(tuán)隊(duì)也是計(jì)算中心高效平穩(wěn)運(yùn)行的重要條件,而這就要求在規(guī)劃時(shí),需提前考慮工程師團(tuán)隊(duì)的職能分配、待遇、職業(yè)規(guī)劃等問題。
隨著科研團(tuán)隊(duì)對計(jì)算中心的服務(wù)質(zhì)量要求不斷提升,計(jì)算中心工程師團(tuán)隊(duì)的職責(zé)逐漸從機(jī)房服務(wù)器等偏硬件和操作系統(tǒng)方面的維護(hù),擴(kuò)展至科研應(yīng)用在計(jì)算系統(tǒng)上的高效運(yùn)行維護(hù)。因此,工程師團(tuán)隊(duì)需要組合承擔(dān)機(jī)房和服務(wù)器平穩(wěn)運(yùn)行的運(yùn)維工程師,和理解特定科研領(lǐng)域應(yīng)用的應(yīng)用工程師,通過團(tuán)隊(duì)合作提升科研團(tuán)隊(duì)?wèi)?yīng)用運(yùn)行效率和降低資源使用難度。
由于計(jì)算中心工程師在互聯(lián)網(wǎng)和其他IT行業(yè)也擁有廣泛的職業(yè)選擇和晉升機(jī)會,因而還需要特別關(guān)注工程師團(tuán)隊(duì)在高校體系內(nèi)的待遇和職業(yè)發(fā)展路徑。
此外,在自建工程師團(tuán)隊(duì)的同時(shí),還可以將部分運(yùn)維業(yè)務(wù)轉(zhuǎn)交給服務(wù)商團(tuán)隊(duì)承擔(dān),在降低人力成本的同時(shí)增加業(yè)務(wù)靈活性。