亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        安徽大學HPC平臺資源管理優(yōu)化策略

        2022-12-21 03:02:18段運生
        中國教育網絡 2022年8期
        關鍵詞:進程作業(yè)資源

        文/段運生

        隨著信息技術的飛速發(fā)展,高性能計算HPC得到眾多科研領域的青睞,如生物基因、材料設計、金融計算、計算機科學等領域[1]。高性能計算是計算機科學的分支之一,其采用并行化技術,將計算復雜度較高的計算任務分解成眾多小型計算任務,將其分配給眾多處理器同時計算,以實現高性能計算的目的[2]。目前,高性能計算已成為繼理論科學和實驗科學之后科學探索的第三范式,被廣泛應用在高能物理學、材料科學、航天航空飛行器設計、國民經濟預測與決策、能源勘探、衛(wèi)星圖像處理、情報分析、互聯網服務、工業(yè)仿真等領域,對國民經濟發(fā)展和國防建設具有重要價值。

        高性能計算平臺一般由管理節(jié)點、登錄節(jié)點、網絡管理節(jié)點、計算節(jié)點和存儲資源構成,其中計算節(jié)點一般包括CPU計算節(jié)點和GPU計算節(jié)點[3]。此外,高性能計算平臺還可以擴展公有云的校外計算資源,由此構成一套完整的異構化的混合計算平臺。高性能計算平臺中各計算節(jié)點由高性能網絡(InfiniBand/ OPA)相互連接,構成一個高性能計算集群。

        Slurm是可用于高性能計算集群的開源集群管理器和作業(yè)調度系統(tǒng),維護待處理的作業(yè)隊列并管理此集群的整體資源[4,5]。針對Slurm的調度軟件的應用,眾多學者在其基礎上提出了許多適應于自身平臺的優(yōu)化改進策略。例如,為應對超大規(guī)模計算系統(tǒng)帶來的大量監(jiān)控數據,文獻[6]提出了超大規(guī)模計算系統(tǒng)的監(jiān)控、調度及網絡優(yōu)化實踐,使集群節(jié)點數量可以達到上萬。針對Slurm的計費功能,文獻[7]提出了一種基于Slurm作業(yè)調度系統(tǒng)的預計費裝置和方法,通過將Slurm調度系統(tǒng)與GOLD機時記賬系統(tǒng)集成,將作業(yè)使用機時從用戶可用機時中預約,作業(yè)結束后扣除機時。此外,文獻[8]還提出一種基于Slurm作業(yè)管理的可視化調度系統(tǒng),通過Web前端實現了用戶以可視化方式使用作業(yè)調度系統(tǒng)。

        Slurm系統(tǒng)也存在不足,Slurm調度系統(tǒng)默認實現用戶在各節(jié)點間的無障礙跳轉,也就是說用戶可以通過登錄節(jié)點直接SSH登錄任意計算節(jié)點,并在此節(jié)點直接繞過Slurm調度軟件進行作業(yè)計算[9]。這將導致用戶可以不再受Slurm資源管理的限制,隨意使用計算資源,造成管理和運維的不便。此外,Slurm在登錄節(jié)點的監(jiān)管方面也存在嚴重缺陷,用戶可以直接無限制使用資源,而這將增加平臺登錄節(jié)點宕機的可能性。

        針對上述問題,本文提出一套基于Slurm的智能化高性能計算資源管理方法,該方法包含一系列的控制功能:限制節(jié)點訪問、智能化管理資源、資源異常查殺等,為平臺的有效運行提供了一套完備的管理手段和策略。

        Slurm簡介

        Slurm資源調度工具是面向Linux、Unix類似內核的免費和開源工作調度程序,由世界上許多超級計算機和計算機集群使用。它提供了三個關鍵功能:首先,它在一段時間內為用戶分配對資源(計算機節(jié)點)獨占和/或非獨占的訪問權限,以便他們可以執(zhí)行工作;其次,它提供了一個框架,用于在一組分配的節(jié)點上啟動、執(zhí)行和監(jiān)視工作(通常是并行作業(yè),例如MPI);最后,它通過管理待處理作業(yè)隊列來仲裁資源爭用。

        Slurm的設計非常模塊化,有大約100個可選插件。在最簡單的配置中,它可以在幾分鐘內完成安裝和配置,并為更復雜的配置提供數據庫集成,管理資源限制和工作負載優(yōu)先級[10]。

        Slurm資源管理系統(tǒng)的正常運行還需要一些系統(tǒng)服務與支撐環(huán)境的正確設置,比如系統(tǒng)配置、節(jié)點、分區(qū)、調度、記賬存儲、網絡拓撲等。Slurm提供了豐富的配置文件,如主配置文件、記賬存儲服務配置文件、節(jié)點配置文件、分區(qū)配置文件和通用資源配置文件等。

        Slurm資源管理系統(tǒng)由多個部分構成,如控制進程、記賬存儲進程、節(jié)點監(jiān)控進程、作業(yè)管理進程、命令工具等,其系統(tǒng)結構如圖1所示。

        圖1 Slurm系統(tǒng)結構

        基于Slurm的資源管理策略優(yōu)化

        本文主要針對高性能計算集群的登錄節(jié)點、管理節(jié)點和計算節(jié)點進行資源和權限的管理配置,其中使用到的軟件資源有:Slurm、CpuLimit模塊、pam_access.so插件和Linux基本的指令集。實現的功能如下:

        1.對各節(jié)點的root進行固定IP訪問限制;

        2.限制登錄節(jié)點中用戶的資源使用;

        3.限制用戶登錄無作業(yè)的計算節(jié)點;

        4.在計算節(jié)點查殺非Slurm用戶的大計算進程;

        5.GPU節(jié)點的異常作業(yè)處理。

        通過上述工具配置相應策略,可實現高性能計算平臺的安全運行和資源智能化、自動化的監(jiān)管與調度。

        root固定IP訪問限制

        高性能計算平臺默認為用戶提供計算服務器,所以訪問端口對外開放。root用戶擁有整個系統(tǒng)中至高無上的權力,為了避免一些潛在的風險,我們需對root用戶進行訪問權限的設置。該功能需要使用pam_access.so插件,該插件的功能和作用是根據主機名(包括普通主機名或者FQDN)、IP地址和用戶實現全面的訪問控制。pam_access.so模塊的具體工作行為根據配置文件/etc/security/access.conf來決定。具體設置策略如下:

        管理節(jié)點只允許指定IP地址root訪問,禁止非root用戶訪問;登錄節(jié)點允許指定IP的root訪問和所有用戶訪問;計算節(jié)點允許指定IP的root訪問,禁止用戶直接訪問。

        實現方法:

        1.在/etc/pam.d/sshd添加如下一句account required pam_access.so

        2.在 /etc/security/access.conf添加+ : root : xxx.xxx.xxx.xxx-: root : ALL+ : ALL : ALL

        該配置文件的主體包含了三個字段:權限、用戶和訪問發(fā)起方。格式上是一個用“:”隔開的表。其中第一個字段:權限(permission),使用“+”表示授予權限,用“-”表示禁止權限。第二個字段:用戶(user),定義了用戶、組以及用“@”表示的不同主機上的同名用戶和同一主機上不同名用戶。第三個字段:訪問發(fā)起方(origins),定義了發(fā)起訪問的主機名稱、域名稱和終端名稱。

        登錄節(jié)點中用戶的資源使用限制

        登錄節(jié)點是高性能計算的門戶,主要用于用戶的登錄訪問和作業(yè)提交功能。若用戶在登錄節(jié)點執(zhí)行大規(guī)模的計算任務,會導致該登錄節(jié)點宕機。我們通過定時檢測用戶的進程信息,對CPU使用率比較高的進程進行CPU資源限制。CPU資源限制選用的是cpulimit插件,具體設置策略如下:

        1.通過在登錄節(jié)點執(zhí)行如下命令實現對用戶進程的獲取(grep -h '^.[0-9]{4}'是依據安徽大學的賬戶規(guī)則進行的匹配篩選):ps -o ruser=userForLongName -e -o pid,%cpu--sort=-%cpu |grep -v root |grep -v PID|head-10 |grep -h '^.[0-9]{4}'

        2.對檢測到的進行pid,進行CPU資源對比,超過閾值的pid進行cpu限制:if [ $(echo "$cpu>80"|bc) == 1 ]; then cpulimit --pid $pid --limit 50 &fi

        登錄節(jié)點的大規(guī)模計算資源限制的處理流程如圖2所示,配置crontab定時任務計劃,使腳本定制執(zhí)行。

        圖2 登錄節(jié)點資源限制流程

        限制用戶登錄無作業(yè)的計算節(jié)點

        該功能主要實現用戶在登錄節(jié)點無法直接SSH到計算節(jié)點,只有用戶通過Slurm提交作業(yè)后,才有權限SSH到運行該作業(yè)的計算節(jié)點。本功能需要使用Slurm的PAM插件來實現。

        實現方法:

        1.添加不包含pam_systemd.so的PAM配置:grep -v pam_systemd.so /etc/pam.d/passwordauth> /etc/pam.d/password-auth-no-systemd

        2./etc/security/access.conf 里添加如下:+:root:ALL-:ALL:ALL

        3./etc/pam.d/sshd 添加:account sufficient pam_access.so account required pam_slurm.so

        4.在/etc/pam.d/目錄下創(chuàng)建slurm文件,文件內容如下:auth required pam_localuser.so account required pam_unix.so session required pam_limits.so

        計算節(jié)點查殺非Slurm用戶的大計算進程

        用戶在作業(yè)運行期間,可以SSH到相應的計算節(jié)點。這時用戶可以直接在該計算節(jié)點進行提交作業(yè)操作,這個操作是系統(tǒng)不允許的。但是如果作業(yè)結束后,直接阻截該用戶的所有進程,也不合理。為此,我們添加了對計算節(jié)點異常進程的查殺操作,操作流程如圖3所示,其具體設置策略如下:

        圖3 計算節(jié)點的異常進程處理流程

        1.通過squeue查詢當前計算節(jié)點的作業(yè)信息;

        2.通過ps指令查詢排除提交作業(yè)用戶的進程信息;

        3.對各進程信息的CPU使用率進行檢測,對使用率較高的進程進行查殺操作。

        GPU節(jié)點異常作業(yè)處理

        GPU計算節(jié)點主要用于計算深度學習等高性能計算,不允許提交傳統(tǒng)的CPU計算作業(yè),但是Slurm無法準確判斷和管理該功能。為此,我們編寫了在異常GPU作業(yè)查殺的模塊。其操作流程如圖4所示,具體設置策略如下所示:

        圖4 GPU節(jié)點的異常進程處理流程

        1.通過squeue查詢當前計算節(jié)點的作業(yè)信息;

        2.通過scontrol輪詢各作業(yè),判斷是否有申請GPU的字段信息(TresPerNode=gpu),對未使用GPU的作業(yè)進行scancel操作。

        策略部署與性能測試

        本文針對安徽大學校級高性能計算平臺在實際運行中遇到的問題提出了基于Slurm的資源管理調度優(yōu)化方法。該優(yōu)化策略包括:根據IP地址的類型確定是否允許IP地址訪問對應的節(jié)點,以及根據用戶的類型確定是否允許用戶訪問對應的節(jié)點;根據用戶在登錄節(jié)點使用的CPU資源和預設的CPU資源閾值,確定是否進行CPU限制;根據用戶提交作業(yè)的情況,確定是否允許用戶登錄到計算節(jié)點;獲取已提交作業(yè)的用戶信息,根據非作業(yè)用戶進程的CPU使用率和預設的使用率閾值,確定是否查殺該用戶進程;對GPU計算節(jié)點中的非GPU作業(yè)進行取消等功能。

        本文將Slurm的優(yōu)化策略在安徽大學校級高性能計算平臺進行部署,并測試其性能。安徽大學高性能計算平臺是集傳統(tǒng)超算和GPU計算于一體的混合計算平臺,該平臺系統(tǒng)拓撲圖如圖5所示。

        圖5 安徽大學高性能計算平臺拓撲

        目前,該平臺的建設規(guī)模如下:

        存儲空間186T,CPU總核數3340核,GPU總卡數59張,總計算節(jié)點數量為85個CPU節(jié)點和10個GPU節(jié)點,平臺單精度性能總算力1316.8 Tflops。

        安徽大學高性能計算平臺于2021年底部署了基于Slurm的資源管理優(yōu)化策略,并結合用戶培訓、群里通知等方式協助管理。經過2022年第一季度實際測試,統(tǒng)計異常平臺記錄如表1所示。從表中可以看出,平臺的異常IP的節(jié)點訪問現象顯著降低,有效解決了登錄節(jié)點異常宕機的問題,同時切實保證了作業(yè)正常運行,極大減少了平臺運維工程師的工作量。

        表1 安徽大學高性能計算平臺的異常信息統(tǒng)計

        本文提出一種基于Slurm的智能化的高性能計算平臺的資源管理優(yōu)化策略,其能夠保證高性能計算平臺資源管理和分配,有效避免了Slurm的常見漏洞;此外,該策略能夠限制root的安全訪問權限和計算節(jié)點的權限訪問,同時也限制登錄節(jié)點中用戶的資源使用和計算節(jié)點的異常進程查殺。

        猜你喜歡
        進程作業(yè)資源
        基礎教育資源展示
        快來寫作業(yè)
        一樣的資源,不一樣的收獲
        債券市場對外開放的進程與展望
        中國外匯(2019年20期)2019-11-25 09:54:58
        資源回收
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        作業(yè)
        故事大王(2016年7期)2016-09-22 17:30:08
        社會進程中的新聞學探尋
        民主與科學(2014年3期)2014-02-28 11:23:03
        我國高等教育改革進程與反思
        我想要自由
        亚洲欧洲一区二区三区波多野| 摸进她的内裤里疯狂揉她动图视频| 人妻少妇久久中文字幕一区二区| 亚洲av无码国产精品久久| 中文字幕欧美人妻精品一区| 性夜影院爽黄a爽在线看香蕉 | 欧美国产精品久久久乱码| 国产精品原创巨作av无遮 | 国产精品视频白浆免费视频| 精品国产精品国产偷麻豆| 亚洲乱码日产精品bd在线观看 | 国产美女三级视频网站| 水蜜桃在线精品视频网| 天天爽夜夜爽人人爽一区二区| 国产jizzjizz视频免费看| 国产在线精品亚洲视频在线 | 亚洲国产理论片在线播放| 无码国产一区二区色欲| 午夜福利视频一区二区二区| 蜜桃日本免费看mv免费版| 在线播放人成午夜免费视频| 亚洲精品二区三区在线观看| 女同视频一区二区在线观看| 4hu四虎永久在线观看| 亚洲性啪啪无码AV天堂| 国产大片在线观看91| 秋霞在线视频| 亚洲欧美综合在线天堂| 亚洲夫妻性生活视频网站| 亚洲国产精品久久婷婷| 精品国产一区av天美传媒| 人妻丰满熟妇AV无码片| 在线亚洲妇色中文色综合| 无码av中文一区二区三区桃花岛| 国产女女做受ⅹxx高潮| 日本岛国大片不卡人妻| 国产日产久久高清ww| 亚洲av成人无码网站大全| 国产在线欧美日韩一区二区| 精品人妻一区二区三区狼人| 大屁股人妻女教师撅着屁股|