亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        南京航空航天大學(xué)算力服務(wù)模式探索

        2023-08-15 07:19:28劉佳王興虎張玉
        中國教育網(wǎng)絡(luò) 2023年4期
        關(guān)鍵詞:作業(yè)用戶服務(wù)

        文 / 劉佳 王興虎 張玉

        科學(xué)計算已成為與理論分析和科學(xué)實驗并列的第三種科學(xué)研究方法,是促進重大科學(xué)發(fā)現(xiàn)和社會經(jīng)濟發(fā)展的戰(zhàn)略性支撐技術(shù)。高性能計算中心是利用高性能計算平臺和技術(shù)開展科學(xué)計算、支撐科技創(chuàng)新的基地,對于推動科學(xué)研究、工程應(yīng)用和經(jīng)濟發(fā)展具有不可或缺的作用。

        2020年,南京航空航天大學(xué)(簡稱“南航”)正式成立校級高性能計算中心,以“服務(wù)科研應(yīng)用,兼顧教學(xué)實驗”為工作導(dǎo)向,結(jié)合校情完成一期建設(shè)并投入運行,并且在運維管理、科研服務(wù)、課程開發(fā)等方面開展了一系列有益的實踐與探索。

        建設(shè)背景

        南京航空航天大學(xué)作為一所以工為主、理工結(jié)合、多學(xué)科協(xié)調(diào)發(fā)展、具有航空航天民航特色的研究型大學(xué),對高性能計算有著天然且旺盛的應(yīng)用需求,但卻長期為以下問題所困擾:

        1.建設(shè)和管理的主體不明確,缺乏統(tǒng)一規(guī)劃;

        2.整體計算資源匱乏,只有少量院系或課題組建設(shè)了計算集群,且以自用為主,算力有限,地點分散,配置差異大,難以共享;

        3.經(jīng)費少的院系無力獨自承擔計算集群的建設(shè)、使用和維護工作;

        4.計算集群多由非專業(yè)人員管理,應(yīng)用水平低,安全風(fēng)險高;

        5.計算集群多由教師和研究生使用,本科生基本無緣接觸此類設(shè)備。

        為推動學(xué)科發(fā)展,促進創(chuàng)新研究,滿足師生對高性能計算資源和服務(wù)的迫切需求,南航以“服務(wù)科研應(yīng)用,兼顧教學(xué)實驗”為工作導(dǎo)向,由信息化處負責,從平臺建設(shè)、科研服務(wù)、課程建設(shè)和實驗室建設(shè)4個方面打造校級高性能計算中心(簡稱“中心”)。中心建設(shè)構(gòu)架見圖1,其中:

        圖1 高性能計算中心建設(shè)構(gòu)架

        1.平臺建設(shè)重點在于建立校級高性能計算平臺,合理購置和部署相關(guān)軟硬件,開展人員培訓(xùn),是中心建設(shè)的根基和載體;

        2.科研服務(wù)重點在于根據(jù)學(xué)校學(xué)科建設(shè)的要求和特點,為科研項目和工程應(yīng)用提供計算資源、部署計算軟件,以及其他相關(guān)的技術(shù)支持和服務(wù);

        3.課程建設(shè)重點在于沿著高性能計算的行業(yè)應(yīng)用和技術(shù)發(fā)展兩條主線,由淺入深開設(shè)課程,推動高性能計算在學(xué)校的教學(xué)發(fā)展;

        4.實驗室建設(shè)重點在于一方面輔助課程建設(shè),開設(shè)相應(yīng)的實驗課程;另一方面為師生提供高性能計算環(huán)境和培訓(xùn),推動自主創(chuàng)新活動。

        平臺建設(shè)

        平臺架構(gòu)

        高性能計算平臺是整個高性能計算中心的核心,是融合了計算、網(wǎng)絡(luò)、存儲和軟件的綜合體系。南航高性能計算平臺(下文簡稱“平臺”)一期采用浪潮天梭TS10000集群,整體架構(gòu)見圖2。

        圖2 高性能計算平臺架構(gòu)

        師生用戶通過網(wǎng)絡(luò)遠程登錄到平臺的管理節(jié)點上提交計算作業(yè);作業(yè)調(diào)度系統(tǒng)根據(jù)計算作業(yè)的請求分配計算資源,執(zhí)行和管理計算作業(yè);計算結(jié)果保存在存儲系統(tǒng)中,供用戶取回和處理。

        計算資源

        平臺的計算資源包括:

        1.CPU節(jié)點62個,每個節(jié)點配置2顆Intel Xeon 6248 20核2.5GHz處理器;其中33個節(jié)點配置192GB內(nèi)存,29個節(jié)點配置384G內(nèi)存。

        2.GPU節(jié)點31個,其中29個為4卡節(jié)點,每個節(jié)點配置2顆Intel Xeon 4210 10核2.4GHz處理器、192GB內(nèi)存、4塊NVIDIA Tesla V100 32GB GPU卡;2個為8卡節(jié)點,每個節(jié)點配置2顆Intel Xeon 6248 20核2.5GHz處理器、192GB內(nèi)存、8塊NVIDIA Tesla V100 32GB GPU卡。

        平臺的理論雙精度峰值浮點計算能力達到1173.3Tflops,其中CPU部分249.3Tflops,GPU部分924Tflops。

        網(wǎng)絡(luò)系統(tǒng)

        平臺的網(wǎng)絡(luò)系統(tǒng)包括100G計算網(wǎng)、萬兆帶內(nèi)管理網(wǎng)和千兆帶外IPMI網(wǎng)3套網(wǎng)絡(luò)。

        1.100G計算網(wǎng)以1臺Mellanox QM8790 InfiniBand交換機為核心,配備HDR 200G/s端口,采用Splitter Cables連接HDR100 100G/s端口,實現(xiàn)所有計算節(jié)點和存儲節(jié)點之間100G高速互聯(lián)。

        2.萬兆帶內(nèi)管理網(wǎng)采用3臺48口萬兆接入交換機,實現(xiàn)所有節(jié)點10G接入,并通過40G端口上連至1臺匯聚交換機實現(xiàn)集群互通。在計算網(wǎng)出現(xiàn)故障時,萬兆帶內(nèi)管理網(wǎng)可以作為臨時的計算網(wǎng)絡(luò),保障計算作業(yè)正常運行。

        3.IPMI網(wǎng)采用3臺48口千兆接入交換機,下連至各節(jié)點BMC獨立管理端口,并通過10G端口上連至匯聚交換機,實現(xiàn)集群IPMI管理互通。

        存儲系統(tǒng)

        平臺的存儲系統(tǒng)采用聯(lián)想DSS-G220存儲系統(tǒng),包含2臺SR650 IO節(jié)點及4臺磁盤擴展柜,裸容量達1PB。通過GPFS文件系統(tǒng)實現(xiàn)高性能IO,讀寫帶寬均可達20GB/s。

        軟件資源

        平臺選用CentOS 7.6 64位版操作系統(tǒng),使用Slurm作業(yè)調(diào)度系統(tǒng)管理計算作業(yè),將用戶請求的計算作業(yè)分配到合適的計算節(jié)點上運行。

        平臺部署了高性能計算必需的集群并行環(huán)境、編譯調(diào)試環(huán)境和開發(fā)軟件包,安裝了學(xué)校各學(xué)科領(lǐng)域常用的開源或商用軟件,并對常用軟件配置了modulefile以方便加載應(yīng)用軟件所需的環(huán)境變量。

        平臺管理系統(tǒng)(見圖3)提供用戶管理、計費管理、作業(yè)管理、資產(chǎn)管理等模塊,實時監(jiān)控計算資源的分配占用、計算作業(yè)的運行調(diào)度、計算設(shè)備的工作情況等數(shù)據(jù)。

        圖3 高性能計算平臺管理系統(tǒng)

        機房環(huán)境監(jiān)控系統(tǒng)負責監(jiān)控機房的溫濕度、用電量、水浸、煙火、電力配送、UPS、精密空調(diào)、備用電池等數(shù)據(jù)或設(shè)備,是保障安全和實現(xiàn)高性能計算平臺高可用的重要系統(tǒng)。其提供的數(shù)據(jù)還是平臺系統(tǒng)調(diào)優(yōu)、節(jié)能降耗的重要依據(jù)。

        運維管理

        制度建設(shè)

        為保障平臺安全、平穩(wěn)、有效運行,信息化處發(fā)布和實施了一系列規(guī)章制度,主要包括《高性能計算平臺服務(wù)管理辦法》《高性能計算中心機房安全管理規(guī)定》《高性能計算室管理條例》等,從不同層次、不同角度規(guī)范了平臺的服務(wù)和管理。

        運維模式

        鑒于中心成立時間短且事項繁雜,專職人員少且較難招募,運維管理采用了“校內(nèi)專人+服務(wù)外包”的模式。

        校內(nèi)專人:由學(xué)校在職人員專職從事中心和平臺的管理工作,包括:設(shè)備現(xiàn)場巡檢;用戶的開戶激活、協(xié)議簽訂、費用結(jié)算、技術(shù)支持;學(xué)校相關(guān)政策和制度的制定、執(zhí)行和解答等。校內(nèi)專人具有航空航天學(xué)科背景和學(xué)術(shù)能力,同時具備高性能計算的使用經(jīng)驗,既可以從專業(yè)角度幫助指導(dǎo)用戶開展計算工作,又可以在師生用戶和運維團隊之間起到溝通橋梁的作用。

        服務(wù)外包:由專業(yè)的高性能計算服務(wù)廠商承擔平臺的運維工作,包括:設(shè)備遠程和現(xiàn)場巡檢;平臺管理、作業(yè)調(diào)度等系統(tǒng)的維護與開發(fā);計算軟件的安裝與維護;用戶技術(shù)支持與培訓(xùn),如作業(yè)腳本糾錯、失敗作業(yè)分析、計算軟件測試運行等。

        用戶管理

        用戶通過學(xué)校網(wǎng)上辦事大廳“高性能計算平臺用戶申請”流程申請開戶,登記項目信息和軟硬件需求,并與中心簽訂使用協(xié)議,以獲得平臺使用權(quán)。開戶流程見圖4。

        圖4 高性能計算平臺用戶申請流程

        平臺將為用戶建立獨立的訪問目錄,用戶之間相互隔離,不能訪問他人的目錄和作業(yè)內(nèi)容。用戶可以在自己的目錄中上傳、下載數(shù)據(jù)文件,提交計算作業(yè),也可以安裝計算所需要的軟件,而不使用平臺提供的軟件版本。用戶必須通過作業(yè)管理系統(tǒng)提交作業(yè)、查詢計算隊列和計算結(jié)果,嚴禁繞過作業(yè)管理系統(tǒng)使用計算資源。

        服務(wù)模式

        科研服務(wù)

        中心提供的科研服務(wù)包括科學(xué)計算和仿真計算,覆蓋學(xué)校所有理工科學(xué)院、科研技術(shù)部門和部分文科學(xué)院。服務(wù)內(nèi)容主要包括:

        1.一對一技術(shù)支持:中心為每個簽訂使用協(xié)議的老師設(shè)立用戶組(老師及其學(xué)生各自擁有獨立的平臺賬號,但歸于同一個用戶組之下),單獨建立微信群,在微信群里配置學(xué)校專職人員和運維廠商技術(shù)人員,指導(dǎo)用戶正確合理地使用平臺,幫助用戶解決計算中出現(xiàn)的各類問題,提高技術(shù)支持的針對性和時效性。

        2.定期提醒:定期檢查運行中的計算作業(yè),根據(jù)各個用戶組的計算作業(yè)特點對超時的長任務(wù)(如計算時常超過1個月)或者出現(xiàn)錯誤的計算作業(yè),及時提醒用戶檢查作業(yè)情況,終止錯誤作業(yè),節(jié)約計算經(jīng)費。

        3.用戶培訓(xùn):通過多種形式培訓(xùn)用戶,包括在中心官網(wǎng)發(fā)布和及時修訂平臺資源信息和用戶手冊,定期開展線下用戶培訓(xùn)等活動。

        4.圖形化節(jié)點:針對多數(shù)仿真計算用戶使用圖形化軟件進行仿真建模和結(jié)果數(shù)據(jù)處理等工作的習(xí)慣,平臺單獨配置1個圖形化節(jié)點,與存儲系統(tǒng)打通,安裝帶GUI的CentOS系統(tǒng)以及常用仿真軟件的圖形化版本,使用體驗與Windows版本一致。用戶遠程登錄此節(jié)點,便可以直接在平臺上處理模型和計算數(shù)據(jù),取回處理后的結(jié)果數(shù)據(jù)或圖形圖像,既符合用戶的操作習(xí)慣,又節(jié)省了下載和處理數(shù)據(jù)的時間,解決了數(shù)據(jù)量過大時用戶難以下載到本地處理等問題。

        5.計算室建設(shè):配合南航“一校兩地四區(qū)”的辦學(xué)格局,為各學(xué)院建設(shè)了20個高性能計算室,通過獨立光纖與平臺直接連接,實現(xiàn)高速穩(wěn)定的網(wǎng)絡(luò)接入,解決通過校園網(wǎng)等公共網(wǎng)絡(luò)訪問平臺時用戶多、網(wǎng)速慢的問題。

        教學(xué)服務(wù)

        除了為《云計算》《人工智能》《分布與并行計算》等課程提供教學(xué)和實驗平臺,中心還積極探索新工科背景下的新型教學(xué)思路,推進本科生高性能計算相關(guān)課程實踐,與公共實驗教學(xué)部協(xié)同,面向?qū)W校長空學(xué)院開展“高性能計算平臺探索”教學(xué)活動。

        活動包括參觀高性能計算中心、高性能計算宣講、計算作業(yè)操作演示等環(huán)節(jié),每次安排本科生70人,時間1.5小時,共有800多人參加,通過體驗科學(xué)計算和工程應(yīng)用案例,提高了本科生對高性能計算的認知水平。中心還為100多名本科生安排了1.5小時的上機操作課程,讓學(xué)生親自執(zhí)行計算作業(yè),體會平臺的計算能力和使用的難易程度,破除學(xué)生眼中高性能計算的神秘感,推廣平臺應(yīng)用。

        大型儀器共享

        中心本著“堅持共享原則,打通共享渠道,實現(xiàn)共享結(jié)算,降低使用成本”的原則,在平臺建設(shè)伊始就積極參與學(xué)校大型儀器設(shè)備共享工作。與國資處協(xié)調(diào)制定了平臺收費標準、使用與結(jié)算流程(見圖5),并與學(xué)校大型儀器設(shè)備共享平臺(簡稱“大儀平臺”)同期建設(shè),完成了“高性能計算平臺->大儀平臺->財務(wù)平臺”的無縫對接,成為最早落地大儀平臺,落實大儀共享的校級平臺。

        圖5 高性能計算平臺使用及結(jié)算流程

        通過向大儀平臺定時推送計算日志數(shù)據(jù)等技術(shù)手段,實現(xiàn)了:1.計算作業(yè)查詢與統(tǒng)計、賬單制作與結(jié)算、服務(wù)協(xié)議管理等功能;2.基于用戶組的多種使用模式的作業(yè)計費;3.“高性能計算平臺使用->大儀平臺結(jié)算->財務(wù)平臺繳費”全流程管理。通過開放共享,平臺實際使用機時、經(jīng)費結(jié)算等指標在學(xué)校大型儀器設(shè)備中遙遙領(lǐng)先。

        運營情況分析

        申請使用情況

        平臺于2020年6月上線運行,全校師生廣泛參與,注冊用戶超過540人,覆蓋學(xué)校所有理工科學(xué)院和專業(yè)技術(shù)部門。承載科研項目400余項,基本覆蓋學(xué)校全部理工類學(xué)科,有效滿足了航空航天、機械設(shè)計、電氣工程、電子信息、材料科學(xué)、人工智能、數(shù)理基礎(chǔ)等學(xué)科的計算需求,對航空航天相關(guān)學(xué)科的支撐尤為明顯。項目的學(xué)院和學(xué)科分布見圖6。

        圖6 項目的學(xué)院分布和學(xué)科分布

        學(xué)校立項建設(shè)高性能計算平臺后,已不再批準各單位自行建設(shè)高性能計算的相關(guān)采購。經(jīng)初步估算,累計節(jié)約建設(shè)經(jīng)費約500萬元,累計節(jié)約計算費近80萬元。

        作業(yè)統(tǒng)計分析

        平臺上線以來,累計完成計算作業(yè)近190萬個(圖7),累計完成計算量超過2090萬核時,每個作業(yè)平均計算量在10核時左右。其中最長的作業(yè)占用CPU資源40核,運行2229小時,計算量達89189核時,充分驗證了平臺的穩(wěn)定性和可靠性。

        圖7 計算作業(yè)數(shù)量統(tǒng)計

        將計算隊列的作業(yè)數(shù)和核時數(shù)餅圖(圖8)對比可發(fā)現(xiàn):1.計算作業(yè)主要由CPU完成,占比達96%,針對這種情況,中心已啟動二期建設(shè),擴充CPU節(jié)點。2.雖然GPU作業(yè)數(shù)量只占3.56%,但核時數(shù)占比達18.8%,說明每個GPU作業(yè)的計算量都非常大。

        圖8 計算隊列的作業(yè)數(shù)和核時數(shù)對比

        從作業(yè)狀態(tài)的作業(yè)數(shù)和核時數(shù)餅圖(圖9)對比可見,95%以上的作業(yè)能夠正常完成(COMPLETED)。但取消(CANCELLED)的作業(yè)所占的核時達到了43%,說明存在不少試算、程序錯誤、計算不收斂且耗時長的作業(yè),中心針對這種情況提供了定期提醒服務(wù)。

        從作業(yè)核數(shù)-作業(yè)數(shù)、作業(yè)核數(shù)-核時數(shù)(圖10)的對比中發(fā)現(xiàn),雖然使用10核以下計算資源完成的作業(yè)數(shù)占比達94.6%,但核時數(shù)只占4.6%。而40核以上的多核計算貢獻了絕大部分的計算量,占比達86.2%,是平臺應(yīng)用的主力和中心關(guān)注的重點。

        圖10 核數(shù)-作業(yè)、核數(shù)-核時對比

        通過兩年的探索和實踐,南京航空航天大學(xué)高性能計算中心圍繞平臺建設(shè)、運維管理、科研服務(wù)和課程建設(shè),建立了穩(wěn)定高效的工作模式,形成了校級平臺應(yīng)有的服務(wù)保障能力,推動了學(xué)校高性能計算的應(yīng)用和發(fā)展。通過運營數(shù)據(jù)分析,證明了優(yōu)秀的計算資源、創(chuàng)新的服務(wù)模式、專業(yè)的技術(shù)支持是吸引用戶,提高平臺利用率,促進高性能計算中心發(fā)展的關(guān)鍵因素。

        猜你喜歡
        作業(yè)用戶服務(wù)
        快來寫作業(yè)
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        招行30年:從“滿意服務(wù)”到“感動服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        作業(yè)
        故事大王(2016年7期)2016-09-22 17:30:08
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        成人全视频在线观看免费播放| 蜜臀久久99精品久久久久久小说| 国产成人无码一二三区视频| 国产亚洲精品性爱视频| 国产另类av一区二区三区| 亚洲av无码成人精品国产| 国产一卡2卡3卡四卡国色天香| 狠狠躁夜夜躁人人爽天天| 激情乱码一区二区三区| 亚洲乱码av中文一区二区| 亚洲国产午夜精品理论片在线播放 | 亚洲人成人77777网站| 国产熟女精品一区二区三区| 亚洲av毛片在线播放| 亚洲 欧美 偷自乱 图片| 国产成人精品电影在线观看| 国产午夜精品一区二区三区不| 成人在线视频亚洲国产| 香蕉久久一区二区不卡无毒影院| 亚洲男人第一无码av网站| 久久婷婷色香五月综合激情| 蜜桃视频网址在线观看| 午夜dy888国产精品影院| 香蕉久久久久久久av网站| 亚洲成AV人久久| 精品乱色一区二区中文字幕 | 依依成人影视国产精品| 国产精品国产三级国产an不卡| 十八禁视频网站在线观看| 大胆欧美熟妇xxbbwwbw高潮了| 亚洲性爱区免费视频一区| 精品人妻av一区二区三区麻豆| 中文字幕人妻中文| 亚洲毛片网| 久久久噜噜噜噜久久熟女m| 欧美激情一区二区三区成人| 蜜桃av噜噜一区二区三区| 日本激情视频一区在线观看| 久久精品女人av一区二区| ā片在线观看免费观看| 免费国产黄片视频在线观看|