陳園園,崔貫勛
(重慶理工大學(xué),重慶 400054)
在高??茖W(xué)研究中,隨著各領(lǐng)域研究問題的計(jì)算量大幅增加,數(shù)據(jù)規(guī)模呈數(shù)量級(jí)增長,高性能計(jì)算方面的快速發(fā)展為研究這些科學(xué)問題提供了強(qiáng)有力的支持。但高性能計(jì)算平臺(tái)在管理上存在很多難點(diǎn):
(1)服務(wù)器異構(gòu)、數(shù)量多、類型復(fù)雜,管理技術(shù)人員配比少,只依靠人工管理方式無法完成系統(tǒng)運(yùn)維;
(2)故障類型多,定位故障要求專業(yè)技術(shù)程度高并處理及時(shí);
(3)高性能計(jì)算平臺(tái)需7*24h對(duì)外提供運(yùn)行穩(wěn)定、不間斷的服務(wù)。
基于以上現(xiàn)狀[1],為使高性能計(jì)算平臺(tái)滿足高校多學(xué)科應(yīng)用的需求,并具備可持續(xù)發(fā)展的科研競(jìng)爭(zhēng)實(shí)力,重慶理工大學(xué)明確平臺(tái)定位,將“服務(wù)用戶”理念[2]落實(shí)到平臺(tái)建設(shè)、運(yùn)維和管理服務(wù)等各個(gè)方面,吸引校內(nèi)外用戶,促進(jìn)平臺(tái)健康發(fā)展。
1.1.1 高校對(duì)高性能計(jì)算的需求
重慶理工大學(xué)是一所包含理、工、文、管、經(jīng)、法、醫(yī)、藝等多學(xué)科協(xié)調(diào)發(fā)展的綜合應(yīng)用研究型大學(xué)。其中,理、工、醫(yī)等主要學(xué)科在高性能計(jì)算方面有著巨大需求,特別是在理論物理、氣候分析、機(jī)械工程、材料科學(xué)、汽車制造、電力通信、生物醫(yī)學(xué)等領(lǐng)域。目前有多個(gè)科研團(tuán)隊(duì)承擔(dān)著國家自然科學(xué)基金項(xiàng)目和科技攻關(guān)等項(xiàng)目,都依賴于高性能計(jì)算平臺(tái)來完成海量計(jì)算工作。
1.1.2 高校高性能計(jì)算平臺(tái)按需建設(shè)
2016年,重慶理工大學(xué)以開放、共享為前提部署一套高性能計(jì)算平臺(tái),集群總體計(jì)算能力為20 Tflop/s、數(shù)據(jù)存儲(chǔ)能力為100 TB。該平臺(tái)正好滿足學(xué)校目前科研與教學(xué)的需求。后期將根據(jù)學(xué)校發(fā)展需要,遵照“按需建設(shè),逐步升級(jí)”的建設(shè)原則,實(shí)行資源與應(yīng)用需求同步增長,提高資源利用率,使其發(fā)揮最大作用。
高性能計(jì)算集群[3]是整個(gè)高性能計(jì)算平臺(tái)的核心,是融合了計(jì)算、網(wǎng)絡(luò)、軟件和存儲(chǔ)的綜合體系。重慶理工大學(xué)高性能計(jì)算集群系統(tǒng)為異構(gòu)系統(tǒng)[4],集群系統(tǒng)架構(gòu)如圖1所示。
圖1 高性能計(jì)算集群系統(tǒng)架構(gòu)
1.2.1 高性能計(jì)算集群硬件
重慶理工大學(xué)高性能計(jì)算集群系統(tǒng)采用Cluster集群架構(gòu)[5]。其中計(jì)算節(jié)點(diǎn)由雙路刀片通用計(jì)算節(jié)點(diǎn)、四路SMP胖計(jì)算節(jié)點(diǎn)和眾核GPU計(jì)算節(jié)點(diǎn)組成,并配置一臺(tái)管理監(jiān)控節(jié)點(diǎn)用于集群的管理,在該節(jié)點(diǎn)上部署集群管理系統(tǒng)GridView3.2、PBS作業(yè)調(diào)度系統(tǒng)和用戶主要應(yīng)用軟件,負(fù)責(zé)整個(gè)集群系統(tǒng)的軟硬件管理、監(jiān)控與維護(hù);同時(shí)該節(jié)點(diǎn)復(fù)用為I/O存儲(chǔ)節(jié)點(diǎn),部署1套NFS文件系統(tǒng)。配置一臺(tái)登錄節(jié)點(diǎn),為普通用戶提供登錄和高性能計(jì)算服務(wù)。將管理節(jié)點(diǎn)與登錄節(jié)點(diǎn)分開,大大提高了集群的安全性。
1.2.2 高性能計(jì)算集群網(wǎng)絡(luò)
整個(gè)集群配置3套網(wǎng)絡(luò)系統(tǒng)[6]:FDR InfiniBand計(jì)算網(wǎng)、千兆管理/監(jiān)控網(wǎng)絡(luò)(Eth1)和硬件管理網(wǎng)(Eth2)。計(jì)算網(wǎng)由所有服務(wù)器節(jié)點(diǎn)通過InfiniBand萬兆交換機(jī)連接,使得這些節(jié)點(diǎn)可以高速訪問,但只允許普通用戶通過登錄節(jié)點(diǎn)訪問計(jì)算網(wǎng),通過PBS作業(yè)調(diào)度系統(tǒng)提交作業(yè)使用計(jì)算資源,以保證系統(tǒng)安全。Eth1千兆管理/監(jiān)控網(wǎng)絡(luò)傳輸整個(gè)千兆網(wǎng)的控制信號(hào)。Eth2管理網(wǎng)絡(luò)為千兆以太網(wǎng),用來管理硬件設(shè)備。高性能計(jì)算集群拓?fù)鋄7]如圖2所示。
圖2 高性能計(jì)算集群拓?fù)?/p>
另外,系統(tǒng)內(nèi)嵌1臺(tái)筆記本電腦作為系統(tǒng)管理的物理顯示端,并配置一套Cluskvm100 KVM以供系統(tǒng)安裝調(diào)試用。
1.2.3 高性能計(jì)算平臺(tái)軟件
平臺(tái)除部署高性能計(jì)算必需的編譯器、數(shù)學(xué)庫、并行庫外,還安裝了各學(xué)科領(lǐng)域用戶常用的開源或商用等軟件,逐步構(gòu)建一個(gè)簡(jiǎn)便、友好的平臺(tái)使用環(huán)境。
為向用戶提供良好的科研環(huán)境,中心在運(yùn)維管理體系[8]建設(shè)中不斷完善管理制度、隊(duì)伍建設(shè)以及管理技術(shù),三者的有機(jī)結(jié)合,保障高性能計(jì)算平臺(tái)安全、高效、穩(wěn)定運(yùn)行。高性能計(jì)算平臺(tái)運(yùn)維管理體系如圖3所示。
圖3 高性能計(jì)算平臺(tái)運(yùn)維管理體系
嚴(yán)格的制度管理是設(shè)備安全、穩(wěn)定運(yùn)行的前提保障。中心制定了《高性能計(jì)算平臺(tái)管理辦法(試行)》《高性能計(jì)算平臺(tái)操作管理手冊(cè)》《高性能計(jì)算平臺(tái)值班巡檢守則》《用戶使用手冊(cè)》等規(guī)章制度。另外為規(guī)范資源申請(qǐng)流程[9],改紙質(zhì)為線上申請(qǐng),提高資源準(zhǔn)備效率。資源申請(qǐng)流程如圖4所示。
圖4 資源申請(qǐng)流程
2.2.1 提高專業(yè)技術(shù)服務(wù)水平
高性能計(jì)算平臺(tái)的建設(shè)和管理對(duì)管理人員[10]要求非常高,除了精通硬件、網(wǎng)絡(luò)和軟件等專業(yè)技術(shù),還要具備各學(xué)科知識(shí)背景,了解各應(yīng)用領(lǐng)域研究現(xiàn)狀,具體涉及各學(xué)科專業(yè)軟件的使用。因此中心鼓勵(lì)技術(shù)人員努力學(xué)習(xí)各領(lǐng)域知識(shí),提供參加高性能計(jì)算行業(yè)先進(jìn)技術(shù)培訓(xùn)和溝通交流的機(jī)會(huì)。
2.2.2 管理隊(duì)伍“傳、幫、帶”
為提供高效、穩(wěn)定的高性能計(jì)算服務(wù),平臺(tái)管理人員需要定期檢查設(shè)備、查看分析系統(tǒng)日志、正確判斷問題故障、熟練掌握解決辦法,確保設(shè)備正常運(yùn)行。在管理人員欠缺的情況下,中心申請(qǐng)1~2名相關(guān)專業(yè)的研究生助管,由管理人員教導(dǎo)助管進(jìn)行設(shè)備檢查和故障排除,在維護(hù)中傳授高性能計(jì)算基礎(chǔ)知識(shí)和實(shí)踐經(jīng)驗(yàn),為高性能計(jì)算平臺(tái)的運(yùn)維管理提供保障。
2.2.3 增加科研經(jīng)歷
鼓勵(lì)管理人員參與科研,加入課題小組,在提供高性能計(jì)算平臺(tái)技術(shù)服務(wù)的同時(shí)提升其科研能力。通過參與科研,力圖打造一支技術(shù)過硬,多學(xué)科交叉,科研經(jīng)歷豐富的管理團(tuán)隊(duì)。
2.3.1 環(huán)境監(jiān)控
為保證集群系統(tǒng)7*24h提供服務(wù),機(jī)房配有不間斷電源UPS,并配備一套智能監(jiān)控系統(tǒng)[11],包括:供配電監(jiān)控、空調(diào)監(jiān)控、溫濕度監(jiān)控、視頻監(jiān)控、漏水監(jiān)測(cè)、消防報(bào)警、聲光報(bào)警、防雷、短信報(bào)警等。另外,管理人員每天進(jìn)入機(jī)房對(duì)集群系統(tǒng)進(jìn)行例行檢查,每周做一次全面檢查,以保證安全性[12]。
2.3.2 集群管理系統(tǒng)——GridView
平臺(tái)采用曙光GridView集群管理系統(tǒng)[13],該系統(tǒng)整合了clusconf、clussoft、HPC_installer等工具。GridView提供對(duì)節(jié)點(diǎn)硬件的實(shí)時(shí)全狀態(tài)監(jiān)控及遠(yuǎn)程協(xié)助管理。
2.3.3 PBS作業(yè)調(diào)度系統(tǒng)
中心采用PBS作業(yè)調(diào)度系統(tǒng)[14]為高性能計(jì)算資源提供統(tǒng)一的Web訪問接口,整合集群軟硬件資源及認(rèn)證信息,控制用戶權(quán)限,為用戶作業(yè)統(tǒng)一分配資源,避免沖突。平臺(tái)采用Web Portal方式[15]提交用戶作業(yè),Web Portal包括了basic類型的mpi、serial、general三個(gè)基本應(yīng)用portal。用戶無需安裝客戶端,僅通過Web界面就能完成提交作業(yè)、傳輸文件、查看結(jié)果等操作,簡(jiǎn)便易用。
2.3.4 安全、可靠的遠(yuǎn)程終端訪問
當(dāng)管理人員或用戶需要傳輸數(shù)據(jù)或使用命令調(diào)試運(yùn)行程序時(shí),可通過SSH、PuTT、VNC等工具遠(yuǎn)程終端軟件訪問平臺(tái)[16]。
2.3.5 用戶管理
(1)用戶信息登記備案。
中心根據(jù)用戶資源申請(qǐng)表相關(guān)信息建立用戶信息庫,了解用戶背景和需求,根據(jù)用戶需求及其研究內(nèi)容為用戶作業(yè)配置資源隊(duì)列,再根據(jù)其課題和成果設(shè)置用戶優(yōu)先級(jí)[17],優(yōu)先保障對(duì)國家級(jí)重大課題的支持。年終,中心根據(jù)用戶研究成果及論文發(fā)表情況給予機(jī)時(shí)獎(jiǎng)勵(lì),保證獲得高水平研究成果的用戶更多使用計(jì)算資源,形成良性循環(huán)。
(2)用戶目錄隔離。
用戶訪問高性能計(jì)算平臺(tái)門戶網(wǎng)站[18],系統(tǒng)將建立用戶唯一訪問目錄/public/userName,用戶之間相互隔離。在用戶整個(gè)會(huì)話期內(nèi),系統(tǒng)管理用戶證書,以此提供更加細(xì)粒度的資源分配和服務(wù)控制。
(3)作業(yè)提交隔離。
用戶一律通過作業(yè)管理系統(tǒng)提交作業(yè)、隊(duì)列計(jì)算和查詢結(jié)果,嚴(yán)禁繞過作業(yè)管理系統(tǒng)使用計(jì)算資源,不可查詢他人作業(yè)。
重慶理工大學(xué)高性能計(jì)算平臺(tái)建設(shè)至今,積極開展各種形式的對(duì)外合作與交流,充分發(fā)揮自身優(yōu)勢(shì)為不同用戶和企業(yè)提供優(yōu)質(zhì)的服務(wù)。已發(fā)展成為集高性能計(jì)算應(yīng)用、科學(xué)研究與創(chuàng)新、技術(shù)咨詢、產(chǎn)學(xué)研合作、人才培養(yǎng)等多功能為一體的技術(shù)先進(jìn)、服務(wù)優(yōu)良、成果突出的科研創(chuàng)新支撐平臺(tái)。通過不斷地創(chuàng)新和探索,總結(jié)出面向校內(nèi)外開放、資源共享的校級(jí)高性能計(jì)算平臺(tái)服務(wù)模式[19],如圖5所示。
圖5 高性能計(jì)算平臺(tái)服務(wù)模式框架
作為校級(jí)公共計(jì)算資源平臺(tái),始終以“服務(wù)用戶”為宗旨,為校內(nèi)的科研團(tuán)隊(duì)、教師和學(xué)生提供高效、穩(wěn)定的計(jì)算服務(wù)。在滿足校內(nèi)需求的同時(shí),向社會(huì)開放應(yīng)用,滿足社會(huì)用戶的計(jì)算需求,提高服務(wù)水平。
3.2.1 專業(yè)培訓(xùn)
平臺(tái)大部分用戶為非計(jì)算機(jī)專業(yè)的教師和學(xué)生,對(duì)高性能計(jì)算平臺(tái)熟悉程度參差不齊。因此,中心根據(jù)用戶的不同情況,創(chuàng)辦難度不同的培訓(xùn)班,并撰寫《用戶使用手冊(cè)》。培訓(xùn)內(nèi)容包括Linux基礎(chǔ)、專業(yè)軟件安裝優(yōu)化、并行程序開發(fā)等,為不同層次、不同需求的用戶提供高性能計(jì)算培訓(xùn)[20]。
3.2.2 咨詢服務(wù)
在使用平臺(tái)計(jì)算服務(wù)的過程中,管理人員認(rèn)真回答用戶在使用過程中遇到的問題,并撰寫“用戶常見問題與解答”等技術(shù)文檔,幫助用戶了解高性能計(jì)算的專業(yè)知識(shí)和技術(shù),以提供優(yōu)質(zhì)的咨詢服務(wù)。
中心積極參與學(xué)校和本地區(qū)各類高性能計(jì)算項(xiàng)目的申報(bào),加強(qiáng)與兄弟院校、研究所、企業(yè)之間的交流合作[21],鼓勵(lì)并支持平臺(tái)管理人員深入到重大科研項(xiàng)目中,建立跨學(xué)科、專業(yè)聯(lián)合的科研模式,發(fā)揮各自所長,充分體現(xiàn)各專業(yè)聯(lián)合優(yōu)勢(shì),使項(xiàng)目研究取得顯著突破,使平臺(tái)服務(wù)水平獲得質(zhì)的飛躍。
采用多種方式加強(qiáng)平臺(tái)的推廣[22],體現(xiàn)開放、共享、交流特色。
3.4.1 大力宣傳和推廣平臺(tái)
為宣傳和推廣高性能計(jì)算平臺(tái),中心搭建了高性能計(jì)算平臺(tái)門戶網(wǎng)站[23],一是用于展示中心資源、發(fā)布新聞通知、技術(shù)培訓(xùn)、論文發(fā)表、科研成果等信息,體現(xiàn)科研競(jìng)爭(zhēng)實(shí)力;二是用于促進(jìn)合作交流,擴(kuò)大資源開放共享范圍。通過宣傳和推廣,努力將其建設(shè)成為設(shè)施一流,功能齊全,面向社會(huì)開放,資源共享的高性能計(jì)算公共服務(wù)平臺(tái)。
3.4.2 開展平臺(tái)應(yīng)用交流活動(dòng)
作為學(xué)??蒲蟹?wù)平臺(tái)的建設(shè)單位,中心積極與國內(nèi)超算中心、相關(guān)實(shí)驗(yàn)室和企業(yè)交流,邀請(qǐng)高性能計(jì)算專家來校指導(dǎo),舉辦高性能計(jì)算應(yīng)用系列講座,探討高性能計(jì)算平臺(tái)建設(shè)管理經(jīng)驗(yàn),大力創(chuàng)新服務(wù)模式。
3.4.3 定期用戶回訪,提高服務(wù)質(zhì)量
加強(qiáng)用戶溝通交流對(duì)提高服務(wù)質(zhì)量起到至關(guān)重要的作用。平臺(tái)定期對(duì)用戶進(jìn)行調(diào)查回訪和意見收集,對(duì)用戶使用情況進(jìn)行統(tǒng)計(jì)分析,不斷優(yōu)化系統(tǒng)管理,提高服務(wù)質(zhì)量。
重慶理工大學(xué)高性能計(jì)算平臺(tái)自2016年底建成即投入使用,該文以2017~2018年高性能計(jì)算平臺(tái)開戶情況(圖6)、提交作業(yè)數(shù)(表1)、使用機(jī)時(shí)(表2)等情況作為參考,分析改進(jìn)管理模式的有效性[24],如下。
圖6 2017~2018年HPC開戶情況對(duì)比
表1 2017~2018年提交作業(yè)數(shù)情況
表2 2017~2018年機(jī)時(shí)使用情況(核時(shí))
從圖6、表1中可以看出,在2017年使用初期,只有計(jì)算機(jī)、藥學(xué)、理學(xué)、車輛、電氣等幾個(gè)專業(yè)申請(qǐng)開戶,只計(jì)算一些簡(jiǎn)單、用時(shí)少的作業(yè),資源利用率低。發(fā)現(xiàn)問題后,中心通過提高管理人員專業(yè)技能、廣泛宣傳、組織培訓(xùn)交流、提供咨詢等方式,大膽進(jìn)行管理制度和運(yùn)行機(jī)制的創(chuàng)新。從2018年的開戶情況上看,學(xué)科專業(yè)領(lǐng)域在橫向和縱向上都有所增長。從圖7、圖8看,雖然2017~2018年在作業(yè)提交數(shù)和機(jī)時(shí)使用量上有浮動(dòng),但從月度使用差額來看,總體趨勢(shì)向上。
圖7 2017~2018年提交作業(yè)數(shù)情況對(duì)比
圖8 2017~2018年機(jī)時(shí)使用情況對(duì)比
改進(jìn)管理模式后,平臺(tái)使用量自2018年11月顯著增長,極大地提高了平臺(tái)的科研服務(wù)水平和資源利用率,更好地保障了學(xué)校激增的科研計(jì)算需求,成效顯著。
在圍繞把重慶理工大學(xué)建設(shè)成為國內(nèi)一流的高水平應(yīng)用研究型大學(xué)的總體要求下,該校高性能計(jì)算平臺(tái)的建設(shè)與發(fā)展以智慧校園建設(shè)為核心,引進(jìn)先進(jìn)技術(shù),升級(jí)管理系統(tǒng),整合各重點(diǎn)學(xué)科優(yōu)勢(shì),對(duì)平臺(tái)管理機(jī)制、服務(wù)模式進(jìn)行全面探索與創(chuàng)新,加強(qiáng)與研究機(jī)構(gòu)的交流與合作,積極吸引和開拓用戶群,構(gòu)建一個(gè)技術(shù)先進(jìn)、服務(wù)優(yōu)良、成果突出的科研創(chuàng)新支撐平臺(tái),從而促進(jìn)學(xué)?;A(chǔ)科研的發(fā)展,提高核心競(jìng)爭(zhēng)力。