亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高性能計(jì)算平臺(tái)建設(shè)、運(yùn)行與服務(wù)模式的探索

        2021-08-02 03:35:28陳園園崔貫勛
        關(guān)鍵詞:作業(yè)用戶服務(wù)

        陳園園,崔貫勛

        (重慶理工大學(xué),重慶 400054)

        0 引 言

        在高??茖W(xué)研究中,隨著各領(lǐng)域研究問題的計(jì)算量大幅增加,數(shù)據(jù)規(guī)模呈數(shù)量級(jí)增長,高性能計(jì)算方面的快速發(fā)展為研究這些科學(xué)問題提供了強(qiáng)有力的支持。但高性能計(jì)算平臺(tái)在管理上存在很多難點(diǎn):

        (1)服務(wù)器異構(gòu)、數(shù)量多、類型復(fù)雜,管理技術(shù)人員配比少,只依靠人工管理方式無法完成系統(tǒng)運(yùn)維;

        (2)故障類型多,定位故障要求專業(yè)技術(shù)程度高并處理及時(shí);

        (3)高性能計(jì)算平臺(tái)需7*24h對(duì)外提供運(yùn)行穩(wěn)定、不間斷的服務(wù)。

        基于以上現(xiàn)狀[1],為使高性能計(jì)算平臺(tái)滿足高校多學(xué)科應(yīng)用的需求,并具備可持續(xù)發(fā)展的科研競(jìng)爭(zhēng)實(shí)力,重慶理工大學(xué)明確平臺(tái)定位,將“服務(wù)用戶”理念[2]落實(shí)到平臺(tái)建設(shè)、運(yùn)維和管理服務(wù)等各個(gè)方面,吸引校內(nèi)外用戶,促進(jìn)平臺(tái)健康發(fā)展。

        1 高校高性能計(jì)算平臺(tái)的搭建

        1.1 高校對(duì)高性能計(jì)算的需求與建設(shè)

        1.1.1 高校對(duì)高性能計(jì)算的需求

        重慶理工大學(xué)是一所包含理、工、文、管、經(jīng)、法、醫(yī)、藝等多學(xué)科協(xié)調(diào)發(fā)展的綜合應(yīng)用研究型大學(xué)。其中,理、工、醫(yī)等主要學(xué)科在高性能計(jì)算方面有著巨大需求,特別是在理論物理、氣候分析、機(jī)械工程、材料科學(xué)、汽車制造、電力通信、生物醫(yī)學(xué)等領(lǐng)域。目前有多個(gè)科研團(tuán)隊(duì)承擔(dān)著國家自然科學(xué)基金項(xiàng)目和科技攻關(guān)等項(xiàng)目,都依賴于高性能計(jì)算平臺(tái)來完成海量計(jì)算工作。

        1.1.2 高校高性能計(jì)算平臺(tái)按需建設(shè)

        2016年,重慶理工大學(xué)以開放、共享為前提部署一套高性能計(jì)算平臺(tái),集群總體計(jì)算能力為20 Tflop/s、數(shù)據(jù)存儲(chǔ)能力為100 TB。該平臺(tái)正好滿足學(xué)校目前科研與教學(xué)的需求。后期將根據(jù)學(xué)校發(fā)展需要,遵照“按需建設(shè),逐步升級(jí)”的建設(shè)原則,實(shí)行資源與應(yīng)用需求同步增長,提高資源利用率,使其發(fā)揮最大作用。

        1.2 高性能計(jì)算集群簡(jiǎn)介

        高性能計(jì)算集群[3]是整個(gè)高性能計(jì)算平臺(tái)的核心,是融合了計(jì)算、網(wǎng)絡(luò)、軟件和存儲(chǔ)的綜合體系。重慶理工大學(xué)高性能計(jì)算集群系統(tǒng)為異構(gòu)系統(tǒng)[4],集群系統(tǒng)架構(gòu)如圖1所示。

        圖1 高性能計(jì)算集群系統(tǒng)架構(gòu)

        1.2.1 高性能計(jì)算集群硬件

        重慶理工大學(xué)高性能計(jì)算集群系統(tǒng)采用Cluster集群架構(gòu)[5]。其中計(jì)算節(jié)點(diǎn)由雙路刀片通用計(jì)算節(jié)點(diǎn)、四路SMP胖計(jì)算節(jié)點(diǎn)和眾核GPU計(jì)算節(jié)點(diǎn)組成,并配置一臺(tái)管理監(jiān)控節(jié)點(diǎn)用于集群的管理,在該節(jié)點(diǎn)上部署集群管理系統(tǒng)GridView3.2、PBS作業(yè)調(diào)度系統(tǒng)和用戶主要應(yīng)用軟件,負(fù)責(zé)整個(gè)集群系統(tǒng)的軟硬件管理、監(jiān)控與維護(hù);同時(shí)該節(jié)點(diǎn)復(fù)用為I/O存儲(chǔ)節(jié)點(diǎn),部署1套NFS文件系統(tǒng)。配置一臺(tái)登錄節(jié)點(diǎn),為普通用戶提供登錄和高性能計(jì)算服務(wù)。將管理節(jié)點(diǎn)與登錄節(jié)點(diǎn)分開,大大提高了集群的安全性。

        1.2.2 高性能計(jì)算集群網(wǎng)絡(luò)

        整個(gè)集群配置3套網(wǎng)絡(luò)系統(tǒng)[6]:FDR InfiniBand計(jì)算網(wǎng)、千兆管理/監(jiān)控網(wǎng)絡(luò)(Eth1)和硬件管理網(wǎng)(Eth2)。計(jì)算網(wǎng)由所有服務(wù)器節(jié)點(diǎn)通過InfiniBand萬兆交換機(jī)連接,使得這些節(jié)點(diǎn)可以高速訪問,但只允許普通用戶通過登錄節(jié)點(diǎn)訪問計(jì)算網(wǎng),通過PBS作業(yè)調(diào)度系統(tǒng)提交作業(yè)使用計(jì)算資源,以保證系統(tǒng)安全。Eth1千兆管理/監(jiān)控網(wǎng)絡(luò)傳輸整個(gè)千兆網(wǎng)的控制信號(hào)。Eth2管理網(wǎng)絡(luò)為千兆以太網(wǎng),用來管理硬件設(shè)備。高性能計(jì)算集群拓?fù)鋄7]如圖2所示。

        圖2 高性能計(jì)算集群拓?fù)?/p>

        另外,系統(tǒng)內(nèi)嵌1臺(tái)筆記本電腦作為系統(tǒng)管理的物理顯示端,并配置一套Cluskvm100 KVM以供系統(tǒng)安裝調(diào)試用。

        1.2.3 高性能計(jì)算平臺(tái)軟件

        平臺(tái)除部署高性能計(jì)算必需的編譯器、數(shù)學(xué)庫、并行庫外,還安裝了各學(xué)科領(lǐng)域用戶常用的開源或商用等軟件,逐步構(gòu)建一個(gè)簡(jiǎn)便、友好的平臺(tái)使用環(huán)境。

        2 高性能計(jì)算平臺(tái)運(yùn)維管理

        為向用戶提供良好的科研環(huán)境,中心在運(yùn)維管理體系[8]建設(shè)中不斷完善管理制度、隊(duì)伍建設(shè)以及管理技術(shù),三者的有機(jī)結(jié)合,保障高性能計(jì)算平臺(tái)安全、高效、穩(wěn)定運(yùn)行。高性能計(jì)算平臺(tái)運(yùn)維管理體系如圖3所示。

        圖3 高性能計(jì)算平臺(tái)運(yùn)維管理體系

        2.1 管理制度建設(shè)

        嚴(yán)格的制度管理是設(shè)備安全、穩(wěn)定運(yùn)行的前提保障。中心制定了《高性能計(jì)算平臺(tái)管理辦法(試行)》《高性能計(jì)算平臺(tái)操作管理手冊(cè)》《高性能計(jì)算平臺(tái)值班巡檢守則》《用戶使用手冊(cè)》等規(guī)章制度。另外為規(guī)范資源申請(qǐng)流程[9],改紙質(zhì)為線上申請(qǐng),提高資源準(zhǔn)備效率。資源申請(qǐng)流程如圖4所示。

        圖4 資源申請(qǐng)流程

        2.2 管理隊(duì)伍建設(shè)

        2.2.1 提高專業(yè)技術(shù)服務(wù)水平

        高性能計(jì)算平臺(tái)的建設(shè)和管理對(duì)管理人員[10]要求非常高,除了精通硬件、網(wǎng)絡(luò)和軟件等專業(yè)技術(shù),還要具備各學(xué)科知識(shí)背景,了解各應(yīng)用領(lǐng)域研究現(xiàn)狀,具體涉及各學(xué)科專業(yè)軟件的使用。因此中心鼓勵(lì)技術(shù)人員努力學(xué)習(xí)各領(lǐng)域知識(shí),提供參加高性能計(jì)算行業(yè)先進(jìn)技術(shù)培訓(xùn)和溝通交流的機(jī)會(huì)。

        2.2.2 管理隊(duì)伍“傳、幫、帶”

        為提供高效、穩(wěn)定的高性能計(jì)算服務(wù),平臺(tái)管理人員需要定期檢查設(shè)備、查看分析系統(tǒng)日志、正確判斷問題故障、熟練掌握解決辦法,確保設(shè)備正常運(yùn)行。在管理人員欠缺的情況下,中心申請(qǐng)1~2名相關(guān)專業(yè)的研究生助管,由管理人員教導(dǎo)助管進(jìn)行設(shè)備檢查和故障排除,在維護(hù)中傳授高性能計(jì)算基礎(chǔ)知識(shí)和實(shí)踐經(jīng)驗(yàn),為高性能計(jì)算平臺(tái)的運(yùn)維管理提供保障。

        2.2.3 增加科研經(jīng)歷

        鼓勵(lì)管理人員參與科研,加入課題小組,在提供高性能計(jì)算平臺(tái)技術(shù)服務(wù)的同時(shí)提升其科研能力。通過參與科研,力圖打造一支技術(shù)過硬,多學(xué)科交叉,科研經(jīng)歷豐富的管理團(tuán)隊(duì)。

        2.3 安全、高效的集群管理

        2.3.1 環(huán)境監(jiān)控

        為保證集群系統(tǒng)7*24h提供服務(wù),機(jī)房配有不間斷電源UPS,并配備一套智能監(jiān)控系統(tǒng)[11],包括:供配電監(jiān)控、空調(diào)監(jiān)控、溫濕度監(jiān)控、視頻監(jiān)控、漏水監(jiān)測(cè)、消防報(bào)警、聲光報(bào)警、防雷、短信報(bào)警等。另外,管理人員每天進(jìn)入機(jī)房對(duì)集群系統(tǒng)進(jìn)行例行檢查,每周做一次全面檢查,以保證安全性[12]。

        2.3.2 集群管理系統(tǒng)——GridView

        平臺(tái)采用曙光GridView集群管理系統(tǒng)[13],該系統(tǒng)整合了clusconf、clussoft、HPC_installer等工具。GridView提供對(duì)節(jié)點(diǎn)硬件的實(shí)時(shí)全狀態(tài)監(jiān)控及遠(yuǎn)程協(xié)助管理。

        2.3.3 PBS作業(yè)調(diào)度系統(tǒng)

        中心采用PBS作業(yè)調(diào)度系統(tǒng)[14]為高性能計(jì)算資源提供統(tǒng)一的Web訪問接口,整合集群軟硬件資源及認(rèn)證信息,控制用戶權(quán)限,為用戶作業(yè)統(tǒng)一分配資源,避免沖突。平臺(tái)采用Web Portal方式[15]提交用戶作業(yè),Web Portal包括了basic類型的mpi、serial、general三個(gè)基本應(yīng)用portal。用戶無需安裝客戶端,僅通過Web界面就能完成提交作業(yè)、傳輸文件、查看結(jié)果等操作,簡(jiǎn)便易用。

        2.3.4 安全、可靠的遠(yuǎn)程終端訪問

        當(dāng)管理人員或用戶需要傳輸數(shù)據(jù)或使用命令調(diào)試運(yùn)行程序時(shí),可通過SSH、PuTT、VNC等工具遠(yuǎn)程終端軟件訪問平臺(tái)[16]。

        2.3.5 用戶管理

        (1)用戶信息登記備案。

        中心根據(jù)用戶資源申請(qǐng)表相關(guān)信息建立用戶信息庫,了解用戶背景和需求,根據(jù)用戶需求及其研究內(nèi)容為用戶作業(yè)配置資源隊(duì)列,再根據(jù)其課題和成果設(shè)置用戶優(yōu)先級(jí)[17],優(yōu)先保障對(duì)國家級(jí)重大課題的支持。年終,中心根據(jù)用戶研究成果及論文發(fā)表情況給予機(jī)時(shí)獎(jiǎng)勵(lì),保證獲得高水平研究成果的用戶更多使用計(jì)算資源,形成良性循環(huán)。

        (2)用戶目錄隔離。

        用戶訪問高性能計(jì)算平臺(tái)門戶網(wǎng)站[18],系統(tǒng)將建立用戶唯一訪問目錄/public/userName,用戶之間相互隔離。在用戶整個(gè)會(huì)話期內(nèi),系統(tǒng)管理用戶證書,以此提供更加細(xì)粒度的資源分配和服務(wù)控制。

        (3)作業(yè)提交隔離。

        用戶一律通過作業(yè)管理系統(tǒng)提交作業(yè)、隊(duì)列計(jì)算和查詢結(jié)果,嚴(yán)禁繞過作業(yè)管理系統(tǒng)使用計(jì)算資源,不可查詢他人作業(yè)。

        3 服務(wù)模式探索

        重慶理工大學(xué)高性能計(jì)算平臺(tái)建設(shè)至今,積極開展各種形式的對(duì)外合作與交流,充分發(fā)揮自身優(yōu)勢(shì)為不同用戶和企業(yè)提供優(yōu)質(zhì)的服務(wù)。已發(fā)展成為集高性能計(jì)算應(yīng)用、科學(xué)研究與創(chuàng)新、技術(shù)咨詢、產(chǎn)學(xué)研合作、人才培養(yǎng)等多功能為一體的技術(shù)先進(jìn)、服務(wù)優(yōu)良、成果突出的科研創(chuàng)新支撐平臺(tái)。通過不斷地創(chuàng)新和探索,總結(jié)出面向校內(nèi)外開放、資源共享的校級(jí)高性能計(jì)算平臺(tái)服務(wù)模式[19],如圖5所示。

        圖5 高性能計(jì)算平臺(tái)服務(wù)模式框架

        3.1 科學(xué)研究服務(wù)

        作為校級(jí)公共計(jì)算資源平臺(tái),始終以“服務(wù)用戶”為宗旨,為校內(nèi)的科研團(tuán)隊(duì)、教師和學(xué)生提供高效、穩(wěn)定的計(jì)算服務(wù)。在滿足校內(nèi)需求的同時(shí),向社會(huì)開放應(yīng)用,滿足社會(huì)用戶的計(jì)算需求,提高服務(wù)水平。

        3.2 承擔(dān)技術(shù)培訓(xùn)和咨詢服務(wù)

        3.2.1 專業(yè)培訓(xùn)

        平臺(tái)大部分用戶為非計(jì)算機(jī)專業(yè)的教師和學(xué)生,對(duì)高性能計(jì)算平臺(tái)熟悉程度參差不齊。因此,中心根據(jù)用戶的不同情況,創(chuàng)辦難度不同的培訓(xùn)班,并撰寫《用戶使用手冊(cè)》。培訓(xùn)內(nèi)容包括Linux基礎(chǔ)、專業(yè)軟件安裝優(yōu)化、并行程序開發(fā)等,為不同層次、不同需求的用戶提供高性能計(jì)算培訓(xùn)[20]。

        3.2.2 咨詢服務(wù)

        在使用平臺(tái)計(jì)算服務(wù)的過程中,管理人員認(rèn)真回答用戶在使用過程中遇到的問題,并撰寫“用戶常見問題與解答”等技術(shù)文檔,幫助用戶了解高性能計(jì)算的專業(yè)知識(shí)和技術(shù),以提供優(yōu)質(zhì)的咨詢服務(wù)。

        3.3 產(chǎn)學(xué)研合作

        中心積極參與學(xué)校和本地區(qū)各類高性能計(jì)算項(xiàng)目的申報(bào),加強(qiáng)與兄弟院校、研究所、企業(yè)之間的交流合作[21],鼓勵(lì)并支持平臺(tái)管理人員深入到重大科研項(xiàng)目中,建立跨學(xué)科、專業(yè)聯(lián)合的科研模式,發(fā)揮各自所長,充分體現(xiàn)各專業(yè)聯(lián)合優(yōu)勢(shì),使項(xiàng)目研究取得顯著突破,使平臺(tái)服務(wù)水平獲得質(zhì)的飛躍。

        3.4 加強(qiáng)平臺(tái)推廣

        采用多種方式加強(qiáng)平臺(tái)的推廣[22],體現(xiàn)開放、共享、交流特色。

        3.4.1 大力宣傳和推廣平臺(tái)

        為宣傳和推廣高性能計(jì)算平臺(tái),中心搭建了高性能計(jì)算平臺(tái)門戶網(wǎng)站[23],一是用于展示中心資源、發(fā)布新聞通知、技術(shù)培訓(xùn)、論文發(fā)表、科研成果等信息,體現(xiàn)科研競(jìng)爭(zhēng)實(shí)力;二是用于促進(jìn)合作交流,擴(kuò)大資源開放共享范圍。通過宣傳和推廣,努力將其建設(shè)成為設(shè)施一流,功能齊全,面向社會(huì)開放,資源共享的高性能計(jì)算公共服務(wù)平臺(tái)。

        3.4.2 開展平臺(tái)應(yīng)用交流活動(dòng)

        作為學(xué)??蒲蟹?wù)平臺(tái)的建設(shè)單位,中心積極與國內(nèi)超算中心、相關(guān)實(shí)驗(yàn)室和企業(yè)交流,邀請(qǐng)高性能計(jì)算專家來校指導(dǎo),舉辦高性能計(jì)算應(yīng)用系列講座,探討高性能計(jì)算平臺(tái)建設(shè)管理經(jīng)驗(yàn),大力創(chuàng)新服務(wù)模式。

        3.4.3 定期用戶回訪,提高服務(wù)質(zhì)量

        加強(qiáng)用戶溝通交流對(duì)提高服務(wù)質(zhì)量起到至關(guān)重要的作用。平臺(tái)定期對(duì)用戶進(jìn)行調(diào)查回訪和意見收集,對(duì)用戶使用情況進(jìn)行統(tǒng)計(jì)分析,不斷優(yōu)化系統(tǒng)管理,提高服務(wù)質(zhì)量。

        4 高性能計(jì)算平臺(tái)管理情況分析

        重慶理工大學(xué)高性能計(jì)算平臺(tái)自2016年底建成即投入使用,該文以2017~2018年高性能計(jì)算平臺(tái)開戶情況(圖6)、提交作業(yè)數(shù)(表1)、使用機(jī)時(shí)(表2)等情況作為參考,分析改進(jìn)管理模式的有效性[24],如下。

        圖6 2017~2018年HPC開戶情況對(duì)比

        表1 2017~2018年提交作業(yè)數(shù)情況

        表2 2017~2018年機(jī)時(shí)使用情況(核時(shí))

        從圖6、表1中可以看出,在2017年使用初期,只有計(jì)算機(jī)、藥學(xué)、理學(xué)、車輛、電氣等幾個(gè)專業(yè)申請(qǐng)開戶,只計(jì)算一些簡(jiǎn)單、用時(shí)少的作業(yè),資源利用率低。發(fā)現(xiàn)問題后,中心通過提高管理人員專業(yè)技能、廣泛宣傳、組織培訓(xùn)交流、提供咨詢等方式,大膽進(jìn)行管理制度和運(yùn)行機(jī)制的創(chuàng)新。從2018年的開戶情況上看,學(xué)科專業(yè)領(lǐng)域在橫向和縱向上都有所增長。從圖7、圖8看,雖然2017~2018年在作業(yè)提交數(shù)和機(jī)時(shí)使用量上有浮動(dòng),但從月度使用差額來看,總體趨勢(shì)向上。

        圖7 2017~2018年提交作業(yè)數(shù)情況對(duì)比

        圖8 2017~2018年機(jī)時(shí)使用情況對(duì)比

        改進(jìn)管理模式后,平臺(tái)使用量自2018年11月顯著增長,極大地提高了平臺(tái)的科研服務(wù)水平和資源利用率,更好地保障了學(xué)校激增的科研計(jì)算需求,成效顯著。

        5 結(jié)束語

        在圍繞把重慶理工大學(xué)建設(shè)成為國內(nèi)一流的高水平應(yīng)用研究型大學(xué)的總體要求下,該校高性能計(jì)算平臺(tái)的建設(shè)與發(fā)展以智慧校園建設(shè)為核心,引進(jìn)先進(jìn)技術(shù),升級(jí)管理系統(tǒng),整合各重點(diǎn)學(xué)科優(yōu)勢(shì),對(duì)平臺(tái)管理機(jī)制、服務(wù)模式進(jìn)行全面探索與創(chuàng)新,加強(qiáng)與研究機(jī)構(gòu)的交流與合作,積極吸引和開拓用戶群,構(gòu)建一個(gè)技術(shù)先進(jìn)、服務(wù)優(yōu)良、成果突出的科研創(chuàng)新支撐平臺(tái),從而促進(jìn)學(xué)?;A(chǔ)科研的發(fā)展,提高核心競(jìng)爭(zhēng)力。

        猜你喜歡
        作業(yè)用戶服務(wù)
        快來寫作業(yè)
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        招行30年:從“滿意服務(wù)”到“感動(dòng)服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        作業(yè)
        故事大王(2016年7期)2016-09-22 17:30:08
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        少妇内射兰兰久久| 丝袜美腿制服诱惑一区二区| 韩国女主播一区二区三区在线观看| 久久精品国产亚洲AⅤ无码| 久久这里只有精品9| 国产精品天天看大片特色视频| 亚洲精品国产老熟女久久| 免费人人av看| 色视频日本一区二区三区| 亚洲国产综合久久天堂| 一本大道av伊人久久综合| 3d动漫精品啪啪一区二区免费 | 少妇无码av无码专区| 亚洲av无码av日韩av网站| 亚洲一区二区三区偷拍女厕| 热久久网站| 日本久久黄色高清视频| 在线日本国产成人免费精品| 天堂视频在线观看一二区| 久久伊人精品一区二区三区| 欧美人与物videos另类| 黄又色又污又爽又高潮动态图| 中文字幕国产91| 久久国产精品懂色av| 日本黄色3级一区二区| 在线观看人成视频免费| 亚洲av无码一区二区三区不卡| 免费a级毛片无码a| 亚洲AV永久无码精品导航| 蜜桃av无码免费看永久| 亚洲乱码中文字幕第一页| 亚洲中文字幕日韩综合| 夹得好湿真拔不出来了动态图| 卡一卡二卡三无人区| 欧美老妇与禽交| 浪荡少妇一区二区三区| 国产精品av网站在线| av成人一区二区三区| 亚洲欧美国产精品久久| 男女扒开双腿猛进入免费看污| 初尝人妻少妇中文字幕在线|