亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向科研院校服務(wù)的高性能計算集群平臺的設(shè)計與實現(xiàn)

        2022-03-29 15:00:45涂金龍
        河南科技 2022年3期

        涂金龍

        摘 要:本研究闡述了高性能計算集群平臺的特點,然后介紹了平臺的硬件和軟件組成,并簡要地闡述了平臺的構(gòu)建過程,最后通過一個測試案例探討了利用平臺進行作業(yè)調(diào)度的流程和方法,希望可以為企業(yè)高性能計算運維人員提供一些借鑒和參考。

        關(guān)鍵詞:高性能計算;集群部署;高校科學(xué)計算

        中圖分類號:TP38 ? ? 文獻標(biāo)志碼:A ? ? 文章編號:1003-5168(2022)3-0026-04

        DOI:10.19968/j.cnki.hnkj.1003-5168.2022.03.006

        Design and Implementation of High Performance Computing Cluster Platform for Scientific Research Institutions

        TU Jinlong

        (Network and Information Technology Center of Jiangxi University of Chinese Medicine,

        Nanchang 330004,China)

        Abstract:This paper describes the characteristics of high-performance computing cluster platform, then introduces the hardware and software composition of the platform, and briefly describes the construction process of the platform. Finally, through a test case, this paper discusses the process and method of job scheduling using the platform, hoping to provide some reference for enterprise high-performance computing operation and maintenance personnel.

        Keywords:high performance computing; cluster deployment; scientific computing in colleges and universities

        0 引言

        高性能計算(High Performance Computing,HPC)也被稱為數(shù)據(jù)分析的超級計算機,是一套計算性能強大、數(shù)據(jù)傳輸率超高、具有大規(guī)模存儲空間和完整軟件的系統(tǒng),通常包含計算處理單元、并行存儲單元、網(wǎng)絡(luò)單元、管理調(diào)度軟件單元,主要采用集群架構(gòu),通過網(wǎng)絡(luò)將大量的服務(wù)器連接起來,讓所有服務(wù)器協(xié)調(diào)工作來完成一系列計算任務(wù)[1]。超級計算機和傳統(tǒng)的計算機不同,它具有超強的計算能力,能夠解決很多在日常生活中難以處理的問題。當(dāng)前,計算與理論方法、試驗手段并列為人類認(rèn)識世界的三大主要手段[2]。在大型工程中,試驗和理論方法在解決尖端問題,如開展科學(xué)研究等,存在著一定程度的瓶頸。因此,使用高性能計算技術(shù)來解決此類問題,就成為發(fā)展的必然趨勢?,F(xiàn)代科技和經(jīng)濟的發(fā)展使高性能計算服務(wù)應(yīng)用的門檻不斷降低。美國、日本等發(fā)達國家在高性能計算技術(shù)發(fā)展的支持下,其工業(yè)、科學(xué)研究、新材料、新能源、服務(wù)行業(yè)等產(chǎn)業(yè)發(fā)展很快,高性能計算技術(shù)已經(jīng)與社會生產(chǎn)發(fā)展實現(xiàn)了深度融合。

        江西省在物理、化學(xué)、生物、新能源、新材料等領(lǐng)域?qū)Ω咝阅苡嬎愕男枨罂偭糠逯颠_100萬億次以上。然而,江西省的高性能計算基礎(chǔ)設(shè)施非常薄弱并且較分散,基本以科研單位購買自用為主。江西省內(nèi)各高校對各類科學(xué)計算的超算資源需求都比較旺盛。但目前各類研究單位在高性能計算能力方面相對比較薄弱,資源供給無法滿足應(yīng)用發(fā)展的需求。因此,迫切需要構(gòu)建一個集中公共的高性能計算服務(wù)平臺,來應(yīng)對各類科學(xué)計算服務(wù)。建設(shè)基于高性能計算集群的服務(wù)平臺,可以大大緩解這樣的不利局面。

        1 高性能計算集群平臺的設(shè)計

        1.1 高性能計算集群的硬件配置

        某高校高性能集群系統(tǒng)拓撲圖如圖1所示。該系統(tǒng)包含以下幾部分。

        1.1.1 管理節(jié)點。由一臺管理節(jié)點組成,負責(zé)用戶登錄、管理調(diào)度整個集群、任務(wù)提交等,對整個系統(tǒng)進行監(jiān)控管理,所配的型號為NF5270M4。

        1.1.2 登錄節(jié)點。包括一臺登錄節(jié)點服務(wù)器,為用戶登錄平臺使用,是直接和用戶交互的節(jié)點,便于用戶作業(yè)的上傳、程序代碼的編寫、作業(yè)的提交和任務(wù)結(jié)果的查看等,所配的型號為NF5270M4。

        1.1.3 存儲節(jié)點。配置了分布式存儲系統(tǒng)和Lustre并行文件系統(tǒng),負責(zé)存儲大量的計算數(shù)據(jù),高可用、高安全,所配置型號為SA5224H。

        1.1.4 計算節(jié)點。由25臺高性能刀片服務(wù)器組成,承載平臺的計算任務(wù)請求,所配置的型號為NX5440M4;胖節(jié)點型號為NF8460M3;MIC加速節(jié)點、GPU加速節(jié)點型號為NF5588M3。

        1.1.5 網(wǎng)絡(luò)子系統(tǒng)。由管理網(wǎng)絡(luò)和業(yè)務(wù)網(wǎng)絡(luò)組成,管理網(wǎng)絡(luò)負責(zé)集群管理使用,由以太網(wǎng)1 000 M連接管理交換機。業(yè)務(wù)網(wǎng)絡(luò)由Infiniband網(wǎng)絡(luò)連接計算節(jié)點和存儲子系統(tǒng),是業(yè)務(wù)數(shù)據(jù)通信的專用網(wǎng)絡(luò)。

        1.1.6 KVM切換器。KVM系統(tǒng)用于連接所有計算節(jié)點、存儲節(jié)點和管理節(jié)點,方便運維人員系統(tǒng)調(diào)式和管理使用。

        1.1.7 顯示系統(tǒng)。配置2臺電視顯示屏和1臺筆記本電腦,電視大屏作為集群平臺監(jiān)控和作業(yè)調(diào)度可視化,為TCL電視,掛壁安裝。

        1.2 高性能集群平臺的軟件組成

        高性能集群平臺的軟件包括底層Linux操作系統(tǒng)、集群管理系統(tǒng)、集群作業(yè)調(diào)度系統(tǒng)、集群平行環(huán)境和集群開發(fā)環(huán)境[3]。

        ①集群平臺運行環(huán)境管理節(jié)點和計算節(jié)點均安裝Redhat as 6.5企業(yè)版64位操作系統(tǒng)。

        ②集群管理系統(tǒng)。實現(xiàn)集群集中管理和集中監(jiān)控的功能,部署的軟件為ClusterEnginer。

        ③集群作業(yè)調(diào)度系統(tǒng)。OpenPBS作業(yè)調(diào)度系統(tǒng)以支持命令行及web方式實現(xiàn)作業(yè)的提交、查看等。

        ④集群平行開發(fā)環(huán)境。安裝Intel C++/Fortran編譯器、Intel編譯、調(diào)試軟件等編譯器,Intel MKL數(shù)學(xué)核心庫等數(shù)學(xué)庫,滿足大部分科學(xué)計算需要。

        2 高性能計算集群平臺的部署

        2.1 高性能計算集群平臺基礎(chǔ)環(huán)境的配置

        高性能計算集群平臺基礎(chǔ)環(huán)境的配置主要包括RSH、NIS、NFS、SSH等4個服務(wù)的配置過程。

        2.1.1 RSH服務(wù)。需要在集群全部的節(jié)點中配置RSH權(quán)限,配置步驟如下:首先,在其中的一個節(jié)點的配置HOSTS文件中,配置全部計算節(jié)點的IP地址及計算機名信息;其次,共享給其他節(jié)點通用;然后,需要對操作系統(tǒng)中的RHOSTS和HOSTS.EQUIV文件配置加入全部節(jié)點的計算機名信息;最后,完成RSH服務(wù)配置,可以重啟RSH服務(wù)。

        2.1.2 NIS服務(wù)。NIS服務(wù)是一項目錄服務(wù)技術(shù),用來對多個系統(tǒng)管理的數(shù)據(jù)庫作集中控制的網(wǎng)絡(luò)產(chǎn)品服務(wù)[4]。客戶端用戶不用自己建立自己的/etc/passwd,可利用NIS服務(wù)使用服務(wù)器端的管理文件,需要負責(zé)維護在NIS服務(wù)器的文件即可。服務(wù)端的NIS配置#echo 'nisdomainname TS10K' >>/etc/rc.d/rc.local。

        2.1.3 NFS服務(wù)。NFS服務(wù)是網(wǎng)絡(luò)文件共享服務(wù)。NFS的作用是借助于計算機網(wǎng)絡(luò),可以把自己的文件目錄共享給他人使用,遠程服務(wù)器端的文件,能夠被用戶和程序隨機地訪問和使用[5]。在本集群管理節(jié)點中配置好共享。配置的步驟如下:

        建立文件/etc/exports

        vi/etc/exports/,在文件內(nèi)添加上語句:

        /home*(rw,insecure,no_root_squash,sync)

        /opt*(rw,insecure,no_root_squash,sync)

        啟動nfs

        #/sbin/chkconfig nfs on

        #/sbin/service nfs restart

        在客戶端通過利用命令showmount-e IP查看服務(wù)器端開放共享出來的文件目錄。

        2.1.4 SSH服務(wù)。SSH服務(wù)能夠提供一種較可靠、專為桌面遠程登錄使用、為其他網(wǎng)絡(luò)服務(wù)等提供的一種安全性的協(xié)議[6]。集群節(jié)點之間一般都是通過腳本配置無密碼訪問,在腳本中配置HOSTFILE文件中加入需要SSH服務(wù)的節(jié)點的主機名稱。

        2.2 集群管理軟件的部署

        批處理是指通過命令對所有計算節(jié)點進行統(tǒng)一操作。本集群平臺批處理采用的是開源軟件Tentakel。Tentakl是集群常用軟件,能十分方便地在管理節(jié)點中安裝配置軟件。# vi /etc/tentakel.conf 中添加需要管理的機器名和群組。使用普通用戶登錄集群,然后所有計算節(jié)點執(zhí)行以下命令,如果正常輸出,可說明節(jié)點狀態(tài)正常。輸入# tentakel -g allc 'date'來驗證Tentakel是否正常部署。

        2.3 集群平臺平行開發(fā)環(huán)境的配置

        ①將intel編譯器壓縮包放到/root下。輸入如下命令,安裝編譯程序。

        # tar -xvf parallel_studio_xe_2015_update1.tgz # 。/install.sh

        ②配置環(huán)境變量??梢酝ㄟ^編寫.sh腳本,配置全局環(huán)境變量,將腳本放在/etc/profile.d下。如果是單用戶的變量,可以寫入每個用戶的$HOME/.bashrc下。

        # vi /etc/profile.d/intel.sh source /opt/intel/composer_xe_2015.1.133/bin/compilervars.sh intel64so-urce /opt/intel/mkl/bin/intel64/mklvars_intel64.sh

        2.4 集群平臺作業(yè)調(diào)度軟件的配置

        作業(yè)調(diào)度軟件是專為高性能集群平臺而開發(fā)的一款作業(yè)調(diào)度軟件,底層用openpbs和maui作業(yè)調(diào)度管理軟件。作業(yè)管理提供負載均衡共享服務(wù),有時被稱作為負載管理。它主要用于用戶的作業(yè)調(diào)度,能最優(yōu)地調(diào)度和優(yōu)化系統(tǒng)中的各類計算資源[7]。目的是有效地管理集群,合理地調(diào)度作業(yè),充分利用集群的軟硬件資源及寶貴的CPU時間,提高系統(tǒng)的吞吐率和利用率,如圖2所示。

        3 作業(yè)提交調(diào)度實踐

        利用作業(yè)調(diào)度系統(tǒng),可以對集群平臺中的硬件資源和軟件資源進行集中統(tǒng)一的管理,也可以管理用戶所提交的作業(yè)任務(wù),并根據(jù)集群中資源使用的實際情況,合理調(diào)度作業(yè)執(zhí)行,從而達到提高各類資源的利用率及用戶作業(yè)的執(zhí)行度的作用[8]。作業(yè)調(diào)度過程如圖3所示。

        下面以一個實際的案例,闡述作業(yè)提交的步驟和作業(yè)調(diào)度的流程。

        3.1 添加新用戶

        在集群中添加新用戶,首先在管理節(jié)點mu01上添加新用戶,編輯/var/yp 目錄,這樣client端可以使用創(chuàng)建的用戶登錄系統(tǒng)。創(chuàng)建完用戶后,在NIS基礎(chǔ)上,節(jié)點間實現(xiàn)ssh無密碼訪問后,還需要針對環(huán)境變量進行相關(guān)設(shè)定。只需要在mu01節(jié)點上修改(/home/tujl1010目錄是共享的),使用Tentakel工具在所有節(jié)點上執(zhí)行source命令即可。在bashrc添加對應(yīng)的環(huán)境變量,環(huán)境變量中可以指定Intel c、Intel fortran、MKL和MPI的安裝路徑。此處修改后就不需要在pbs腳本中指定。bashrc文件輸入如下命令。

        #vi? /home/tujl1010/.bashrc

        source /opt/intel/composer_xe_2015.1.133/bin/compilervars.sh intel64

        source /opt/intel/impi_5.0.2/bin64/mpivars.sh

        source /opt/intel/mkl/bin/mklvars.sh intel64

        以lammps應(yīng)用為例,圖4介紹PBS腳本文件的編寫。

        3.2 提交作業(yè)

        使用普通用戶,登錄到mu01節(jié)點,使用#qsub sleep.pbs提交作業(yè),每個作業(yè)提交后必有一個作業(yè)號碼。

        3.3 查看作業(yè)狀態(tài)及結(jié)果

        通過qstat -n命令查看作業(yè)的狀態(tài),計算完畢后查看輸出結(jié)果,以sleep為例,這里的名字取決于在腳本中設(shè)定的作業(yè)名字,后面的數(shù)字15即作業(yè)號。運行后看到多出了文件sleep.e15 sleep.o15,其中e代表錯誤輸出,o代表正確輸出。同時也可以通過web監(jiān)控界面觀察作業(yè)調(diào)度情況,如圖5所示。Job statistics 中Q為排隊狀態(tài)、R為正在執(zhí)行狀態(tài)、C為執(zhí)行結(jié)束狀態(tài)。

        4 結(jié)語

        高性能計算集群平臺要求有直觀的界面化操作,以虛擬化技術(shù)快速部署資源,實現(xiàn)動態(tài)的、可伸縮可擴展的服務(wù),按需求提供資源,通過互聯(lián)網(wǎng)提供服務(wù)等智能化的管理體系來提高科學(xué)計算的效率、節(jié)省計算成本。平臺的建立將極大地推動超級計算機的普及應(yīng)用和產(chǎn)業(yè)化,解決目前科研院校計算資源不足的問題,從而促進藥物設(shè)計、新材料、新能源等領(lǐng)域的發(fā)展,有效地推進了江西省產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化升級、發(fā)展方式轉(zhuǎn)變。

        參考文獻:

        [1] 黃建強,孟永偉,曹騰飛,等.青海大學(xué)三江源數(shù)據(jù)分析中心高性能計算集群的構(gòu)建與設(shè)備管理[J].實驗技術(shù)與管理,2014(12):237-240.

        [2] 廖湘科,肖儂.新型高性能計算系統(tǒng)與技術(shù)[J].中國科學(xué):信息科學(xué),2016(9):1175-1210.

        [3] 安喜鋒.高性能計算集群管理系統(tǒng)與作業(yè)調(diào)度技術(shù)研究與實現(xiàn)[D].西安:西北工業(yè)大學(xué),2005.

        [4] 吳夢蕓.一種基于1分布式數(shù)值計算模式軟件的實現(xiàn)[D].成都:電子科技大學(xué),2016.

        [5] 劉建.基于CIFS的文件屬性信息掃描方法研究[J].硅谷,2012(24):100-101.

        [6] 郭默.分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D].西安:西北大學(xué),2016.

        [7] 葉慶華.基于服務(wù)的機群作業(yè)管理系統(tǒng)設(shè)計與實現(xiàn)[D].北京:中國科學(xué)院研究生院(計算技術(shù)研究所),2002.

        亚洲综合激情五月丁香六月| 中文字幕精品久久一区二区三区| 亚洲天堂久久午夜福利| 亚洲精品第一国产综合精品 | 免费国产调教视频在线观看| 一本色道加勒比精品一区二区| 国产精品久久久久久人妻无| 亚洲av成人无码网站…| 妺妺窝人体色www在线直播| 亚洲综合av一区在线| 中文字幕久区久久中文字幕| 视频区一区二在线观看| 小说区激情另类春色| 免费无码又爽又刺激网站| 亚洲先锋影院一区二区| 男子把美女裙子脱了摸她内裤| 亚洲中文字幕久久在线| 少妇高潮流白浆在线观看| 99在线播放视频| 黄色国产一区在线观看| 日韩中文字幕版区一区二区三区| 又黄又爽又无遮挡免费的网站| 日产无人区一线二线三线新版| 国产精品99久久久精品免费观看| 中文字幕一区二区区免| 7194中文乱码一二三四芒果| 亚洲av不卡一区二区三区| 精品手机在线视频| 大岛优香中文av在线字幕| 狠狠cao日日橹夜夜十橹| 久久精品国产第一区二区三区 | 亚洲国产av玩弄放荡人妇系列| 国产一级毛片AV不卡尤物| 国产精品一区二区黄色片| 无码日韩精品一区二区免费暖暖 | 亚洲精品国产一区二区| 亚洲日本在线电影| 色婷婷综合激情| 日本久久黄色高清视频| 国产在线第一区二区三区| 日日躁夜夜躁狠狠躁超碰97|