亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “魔方-3”高性能計(jì)算機(jī)運(yùn)維管理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

        2020-11-05 04:43:02趙奇奇
        關(guān)鍵詞:故障作業(yè)管理

        趙奇奇

        (上海超級(jí)計(jì)算中心,上海 201203)

        1 引言

        進(jìn)入信息社會(huì),人類對(duì)數(shù)據(jù)處理的要求越來(lái)越高,為了滿足科學(xué)計(jì)算、工程計(jì)算等海量數(shù)據(jù)的處理需求,超級(jí)計(jì)算機(jī)被廣泛應(yīng)用到各行各業(yè)。2019年7月“魔方-3”高性能計(jì)算機(jī)在上海超級(jí)計(jì)算中心建成并投入使用?!澳Х?3”能顯著提升上海超算的計(jì)算能力,為天文氣象、生命科學(xué)、能源勘探等領(lǐng)域的模擬計(jì)算提供有力支撐。

        為了保障“魔方-3”的穩(wěn)定運(yùn)行,提高運(yùn)維效率,需要有一套能對(duì)軟硬件進(jìn)行監(jiān)控管理的系統(tǒng)。由于上海超級(jí)計(jì)算中心是一個(gè)面向社會(huì)的開(kāi)放計(jì)算平臺(tái),應(yīng)用場(chǎng)景紛繁復(fù)雜。而主機(jī)廠商提供的集群管理軟件作為一套通用化的軟件,并沒(méi)有針對(duì)上海超算的應(yīng)用場(chǎng)景進(jìn)行優(yōu)化和定制,日常使用過(guò)程中存在諸多不便。正是在這樣的需求推動(dòng)下,上海超級(jí)計(jì)算中心系統(tǒng)運(yùn)維部組織開(kāi)發(fā)了一套適合超算中心運(yùn)行模式的主機(jī)運(yùn)維管理平臺(tái)。

        2 平臺(tái)設(shè)計(jì)

        主機(jī)運(yùn)維管理平臺(tái)采用瀏覽器/服務(wù)器(B/S)結(jié)構(gòu)[1]。平臺(tái)的運(yùn)行離不開(kāi)數(shù)據(jù)的支撐,本平臺(tái)的基本數(shù)據(jù)主要分成2大類:集群硬件數(shù)據(jù)和用戶作業(yè)數(shù)據(jù)。平臺(tái)通過(guò)調(diào)用“魔方-3”的IPMI(Intelligent Platform Management Interface)管理網(wǎng)絡(luò)接口獲取集群運(yùn)行的溫度、CPU、內(nèi)存、硬盤(pán)、網(wǎng)絡(luò)等硬件信息,通過(guò)IBM Platform LSF作業(yè)調(diào)度軟件接口獲取用戶作業(yè)運(yùn)行信息,并將獲取的信息進(jìn)行組織、篩選、分析,最終實(shí)現(xiàn)平臺(tái)的各項(xiàng)功能。各類數(shù)據(jù)的采集頻率可根據(jù)集群運(yùn)行狀況隨時(shí)調(diào)節(jié),獲取數(shù)據(jù)之后定時(shí)導(dǎo)入MySQL數(shù)據(jù)庫(kù)。用戶通過(guò)終端瀏覽器訪問(wèn)Web服務(wù)器獲取數(shù)據(jù)庫(kù)里的信息,如圖1所示。

        Figure 1 Framework of Magic Cube-3 maintenance and management platform圖1 “魔方-3”運(yùn)維管理平臺(tái)架構(gòu)

        平臺(tái)采用模塊化架構(gòu),針對(duì)功能需要?jiǎng)討B(tài)性、可擴(kuò)展性,構(gòu)建運(yùn)維管理平臺(tái)軟件模塊“熱插拔”機(jī)制,靈活應(yīng)對(duì)平臺(tái)的動(dòng)態(tài)擴(kuò)展需求。這種模塊插件架構(gòu)體系的核心理念是基于松散的模塊積累方式,通過(guò)新增模塊插件以及升級(jí)原有模塊插件的方法來(lái)完善平臺(tái)的功能。一個(gè)模塊的更新不需要對(duì)整個(gè)運(yùn)維管理平臺(tái)進(jìn)行重新編譯,不會(huì)影響其它模塊。模塊插件架構(gòu)體系的優(yōu)點(diǎn)非常明顯,像硬件一樣即插即用。在開(kāi)發(fā)的初期只需劃分好模塊,只要遵循接口協(xié)議,就能開(kāi)發(fā)出互不影響的模塊插件,方便開(kāi)發(fā)和調(diào)試;由于其靈活性,可以實(shí)現(xiàn)平臺(tái)的靈活定制,當(dāng)需要新增功能或者修改功能時(shí),只需要對(duì)相應(yīng)模塊插件進(jìn)行修改即可實(shí)現(xiàn),為平臺(tái)的后續(xù)擴(kuò)展帶來(lái)了極大的靈活度。

        目前平臺(tái)集成了機(jī)房運(yùn)維、集群監(jiān)控、自動(dòng)巡檢和數(shù)據(jù)統(tǒng)計(jì)分析4大模塊。為了提升操作便利性,顯示內(nèi)容直觀明了,該平臺(tái)采用了基于Web的圖形界面。使用者只要通過(guò)Web Portal登錄運(yùn)維管理平臺(tái),點(diǎn)擊鼠標(biāo)打開(kāi)界面即可獲取當(dāng)前主機(jī)運(yùn)行狀況,包括各結(jié)點(diǎn)CPU使用率、集群當(dāng)前負(fù)載、各隊(duì)列作業(yè)數(shù)量等眾多信息,可生成統(tǒng)計(jì)分析報(bào)表,也可對(duì)集群的軟硬件故障進(jìn)行處置。

        硬件配置:Intel Xeon E5-2620,32 GB 內(nèi)存,雙網(wǎng)卡獨(dú)立服務(wù)器;

        操作系統(tǒng):選用CentOS release 6.4版本;

        數(shù)據(jù)庫(kù)軟件:選用MySQL共享版;

        服務(wù)器端軟件:選用Tomcat;

        主機(jī)端開(kāi)發(fā)工具:Java、shell腳本語(yǔ)言;

        服務(wù)器端開(kāi)發(fā)工具:選用Java、JSP語(yǔ)言、echart繪圖插件。

        3 數(shù)據(jù)采集

        主機(jī)運(yùn)維管理平臺(tái)通過(guò)數(shù)據(jù)采集引擎對(duì)多種采集方式進(jìn)行封裝,并對(duì)底層硬件以及作業(yè)調(diào)度軟件進(jìn)行數(shù)據(jù)采集。在保存這些信息時(shí)引入硬件池、指標(biāo)池、線程池和數(shù)據(jù)池概念,對(duì)采集的各類數(shù)據(jù)進(jìn)行分類存儲(chǔ),從而搭建運(yùn)維管理平臺(tái)的采集框架。通過(guò)采集框架對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一分發(fā),為上層監(jiān)控、巡檢、統(tǒng)計(jì)分析等模塊提供數(shù)據(jù)支撐。

        3.1 硬件數(shù)據(jù)采集

        “魔方-3”擁有管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)[1]和OPA(Omni-Path Architecture)計(jì)算存儲(chǔ)網(wǎng)絡(luò)3套網(wǎng)絡(luò)系統(tǒng),如圖2所示。其中IPMI由千兆以太網(wǎng)組成網(wǎng)絡(luò),并通過(guò)一臺(tái)萬(wàn)兆交換機(jī)匯聚所有千兆IPMI交換機(jī)。刀箱通過(guò)管理模塊的千兆網(wǎng)口接入IPMI網(wǎng)絡(luò)。系統(tǒng)管理員通過(guò)計(jì)算結(jié)點(diǎn)的IPMI網(wǎng)絡(luò)接口和機(jī)柜中的IPMI監(jiān)控交換機(jī)構(gòu)建IPMI遠(yuǎn)程管理網(wǎng)絡(luò)。通過(guò)IPMI網(wǎng)絡(luò)接口,對(duì)集群內(nèi)各個(gè)結(jié)點(diǎn)的CPU、內(nèi)存、硬盤(pán)、網(wǎng)卡、功耗、溫度等信息進(jìn)行采集監(jiān)控,以實(shí)現(xiàn)日志歷史查詢、遠(yuǎn)程開(kāi)關(guān)機(jī)、遠(yuǎn)程訪問(wèn)結(jié)點(diǎn)圖形界面等功能。

        Figure 2 IPMI topographic map of Magic Cube-3圖2 “魔方-3”的IPMI網(wǎng)絡(luò)拓?fù)鋱D

        “魔方-3”預(yù)裝了Gridview軟件,開(kāi)機(jī)后啟動(dòng)Gridview服務(wù)進(jìn)程,該軟件會(huì)通過(guò)IPMI網(wǎng)絡(luò)采集集群硬件信息并導(dǎo)入Gridview自帶的數(shù)據(jù)庫(kù)。系統(tǒng)管理員可以通過(guò)Gridview數(shù)據(jù)庫(kù)接口和Gridview API接口2種方式來(lái)獲取實(shí)時(shí)硬件信息。

        3.1.1 通過(guò)訪問(wèn)數(shù)據(jù)庫(kù)直接獲取

        利用mysqldump命令遠(yuǎn)程登錄Gridview的數(shù)據(jù)庫(kù)安裝節(jié)點(diǎn),獲取并壓縮數(shù)據(jù);通過(guò)管道符號(hào)將傳回的數(shù)據(jù)導(dǎo)入“魔方-3”運(yùn)維管理平臺(tái)的數(shù)據(jù)庫(kù)。例如:“mysqldump-h 遠(yuǎn)程ip-u用戶名-p密碼-P 指定端口--opt--compress 數(shù)據(jù)表--skip-lock-tables | mysql-h 本地ip-u用戶名-p密碼 本地?cái)?shù)據(jù)庫(kù)”。這種方法的優(yōu)點(diǎn)是獲取數(shù)據(jù)簡(jiǎn)便直接,可以通過(guò)一次傳輸獲取所有的硬件信息。缺點(diǎn)是在后期進(jìn)行數(shù)據(jù)篩選時(shí),需要知曉Gridview源數(shù)據(jù)庫(kù)中每個(gè)字段以及對(duì)應(yīng)數(shù)值的含義,耦合性較高。

        3.1.2 利用API接口獲取

        Gridview API接口為HTTP形式,支持HTTP協(xié)議。接口采用基于HTTP cookie與session用戶認(rèn)證機(jī)制,調(diào)用接口時(shí)需要先調(diào)用登錄接口進(jìn)行登錄,服務(wù)器將在cookie中返回登錄的會(huì)話信息,在調(diào)用接口時(shí)將會(huì)話信息同時(shí)傳遞。默認(rèn)返回結(jié)果為JSON格式,接口中定義的對(duì)象都將轉(zhuǎn)換為JSON格式,字符編碼格式為UTF-8。數(shù)據(jù)返回時(shí)客戶端首先需要判斷HTTP響應(yīng)的狀態(tài)碼(Status Code),如果狀態(tài)碼為404,500這一類請(qǐng)求錯(cuò)誤狀態(tài),則按照瀏覽器等常用HTTP客戶端的慣例處理;如果返回狀態(tài)碼為200,表示服務(wù)器處理正常。返回結(jié)果的對(duì)象屬性基本類型如下:string:字符型;integer:數(shù)值型;boolean:布爾型true/false。對(duì)象在接口中都將被轉(zhuǎn)換為JSON格式,對(duì)象的屬性為key,對(duì)象實(shí)例值為value。例如,機(jī)房對(duì)象實(shí)際格式為:

        {"id":10001,"name":"room001","displayName":"Data Center","description":"This is the first Data Center"}。

        3.2 用戶作業(yè)數(shù)據(jù)采集

        “魔方-3”集群選用IBM Platform LSF作為作業(yè)調(diào)度軟件來(lái)統(tǒng)一管理和調(diào)度所有軟硬件資源,同時(shí)監(jiān)控并收集用戶作業(yè)信息。作業(yè)信息分為運(yùn)行中作業(yè)信息和已完成作業(yè)信息。運(yùn)行中作業(yè)信息保存在LSF服務(wù)器的內(nèi)存中,可通過(guò)LSF命令行形式輸出作業(yè)信息。已完成作業(yè)信息以文本形式保存在lsb.acct文件中。

        獲取LSF作業(yè)數(shù)據(jù)的方式有2種:一是通過(guò)ElasticSearch分布式的搜索與數(shù)據(jù)分析引擎,這種方式需要另外安裝elasticsearch-head客戶端;二是通過(guò)LSF提供的命令行腳本方式獲取。在此本文選用第2種方式。

        使用bjobs-u all-r命令可獲取運(yùn)行中作業(yè)信息,但默認(rèn)輸出的格式并不符合本文的要求,需要用awk、sed等文本處理工具進(jìn)行篩選、轉(zhuǎn)換后將數(shù)據(jù)保存到文件,然后導(dǎo)入數(shù)據(jù)庫(kù)。bacct命令可輸出已完成作業(yè)信息,同樣需要對(duì)輸出格式進(jìn)行篩選轉(zhuǎn)換再導(dǎo)入數(shù)據(jù)庫(kù)。本文在調(diào)試作業(yè)采集腳本時(shí)發(fā)現(xiàn),LSF提供的bacct命令隨著歷史作業(yè)的累積增加,輸出的數(shù)據(jù)量非常龐大,頻繁運(yùn)行bacct命令會(huì)使服務(wù)器負(fù)載上升,輸出響應(yīng)時(shí)間變長(zhǎng),影響數(shù)據(jù)采集效率。LSF的作業(yè)記賬信息是保存在lsb.acct文件中的,當(dāng)執(zhí)行bacct這個(gè)命令腳本時(shí)其實(shí)會(huì)去讀取lsb.acct的內(nèi)容并且輸出作業(yè)信息,那么可以改用Java程序直接讀取lsb.acct文件內(nèi)容,僅篩選截取本文需要的數(shù)據(jù)內(nèi)容,并按既定格式輸出數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)[3]。這樣可以大大降低服務(wù)器負(fù)載,提高數(shù)據(jù)采集效率。

        4 “魔方-3”運(yùn)維管理平臺(tái)的功能及實(shí)現(xiàn)

        “魔方-3”運(yùn)維管理平臺(tái)實(shí)現(xiàn)的功能均基于“魔方-3”集群運(yùn)維需求,可按使用者角色和應(yīng)用場(chǎng)景提供不同的功能,顯示界面簡(jiǎn)潔直觀,具有良好的交互性和操作體驗(yàn),如圖3所示。

        平臺(tái)主要功能模塊如下所示:

        (1)系統(tǒng)監(jiān)控模塊。

        (2)自動(dòng)巡檢模塊。

        (3)機(jī)房運(yùn)維管理模塊。

        (4)數(shù)據(jù)統(tǒng)計(jì)分析模塊。

        Figure 3 Home page of Magic Cube-3 maintenance and management platform圖3 魔方-3運(yùn)維管理平臺(tái)

        4.1 系統(tǒng)監(jiān)控

        系統(tǒng)監(jiān)控模塊可分為2類,一類是對(duì)“魔方-3”集群的硬件運(yùn)行狀態(tài)進(jìn)行監(jiān)控,另一類是對(duì)集群上運(yùn)行的作業(yè)和隊(duì)列進(jìn)行監(jiān)控。

        硬件監(jiān)控主要對(duì)集群CPU利用率、內(nèi)存利用率、磁盤(pán)I/O利用率和網(wǎng)絡(luò)I/O利用率等進(jìn)行監(jiān)控。圖4所示監(jiān)控界面又分為單結(jié)點(diǎn)監(jiān)控和全機(jī)監(jiān)控、實(shí)時(shí)監(jiān)控和歷史監(jiān)控?!澳Х?3”集群一共有21個(gè)機(jī)柜。每一小方格代表一個(gè)計(jì)算結(jié)點(diǎn),根據(jù)結(jié)點(diǎn)CPU利用率的高低,小方格的顏色會(huì)發(fā)生變化,利用率為0~50顯示綠色,利用率為51~80顯示黃色,利用率為80以上顯示紅色。左下方的3個(gè)圓形碼表顯示集群全機(jī)實(shí)時(shí)CPU使用率、內(nèi)存使用率和1分鐘負(fù)載。右下方的柱狀圖以小時(shí)為單位顯示集群全機(jī)歷史使用率,時(shí)間軸長(zhǎng)度為12小時(shí)。

        Figure 4 Monitoring interface of Magic Cube-3 maintenance and management platform圖4 運(yùn)維管理系統(tǒng)監(jiān)控界面

        圖5所示作業(yè)監(jiān)控系統(tǒng)實(shí)時(shí)顯示“魔方-3”集群各個(gè)作業(yè)隊(duì)列中運(yùn)行的作業(yè)。界面左側(cè)以核數(shù)進(jìn)行分塊,每個(gè)計(jì)算結(jié)點(diǎn)32核,全機(jī)共35 840核。不同用戶提交的作業(yè)用不同顏色顯示,當(dāng)前有哪些作業(yè)運(yùn)行在哪些結(jié)點(diǎn)上、共占用了多少核數(shù)可一目了然。右側(cè)的柱狀圖滾動(dòng)顯示當(dāng)前提交作業(yè)的用戶單位、賬號(hào)、核數(shù)、作業(yè)數(shù)等信息。下方的餅圖按作業(yè)占用核數(shù)的比例顯示全機(jī)運(yùn)行的作業(yè)規(guī)模分布,按0~4核、5~16核、17~64核、65~128核、129~512核來(lái)劃分。

        Figure 5 Job state of Magic Cube-3 maintenance and management platform圖5 “魔方-3”運(yùn)維管理平臺(tái)作業(yè)監(jiān)控界面

        圖6所示為隊(duì)列監(jiān)控界面,上方以柱狀圖的形式顯示“魔方-3”集群各隊(duì)列中運(yùn)行作業(yè)和排隊(duì)作業(yè)的數(shù)量,時(shí)間軸長(zhǎng)度為3天。通過(guò)這種形式可直觀反映集群各隊(duì)列作業(yè)排隊(duì)和運(yùn)行情況,為今后隊(duì)列調(diào)整提供參考依據(jù)。下方滾動(dòng)顯示作業(yè)ID、用戶賬號(hào)、作業(yè)名、提交隊(duì)列、占用核數(shù)、作業(yè)狀態(tài)、結(jié)點(diǎn)號(hào)等實(shí)時(shí)信息。

        Figure 6 Queue state of Magic Cube-3 maintenance and management platform圖6 “魔方-3”運(yùn)維管理平臺(tái)隊(duì)列監(jiān)控界面

        4.2 自動(dòng)巡檢

        自動(dòng)巡檢功能是通過(guò)IPMI管理網(wǎng)絡(luò)和SNMP及采集代理對(duì)計(jì)算刀片、機(jī)箱、功能結(jié)點(diǎn)、磁盤(pán)陣列、網(wǎng)絡(luò)交換機(jī)等硬件設(shè)備的運(yùn)行指標(biāo)進(jìn)行定時(shí)采集[4],并通過(guò)自動(dòng)巡檢引擎進(jìn)行數(shù)據(jù)篩選和分析。如果發(fā)現(xiàn)設(shè)備異常,會(huì)觸發(fā)主動(dòng)報(bào)警,以此實(shí)現(xiàn)7*24小時(shí)的集群全面監(jiān)控,保障集群的正常運(yùn)行。系統(tǒng)管理員可通過(guò)Web客戶端界面查看自動(dòng)巡檢引擎的返回信息,如圖7和圖8所示,直觀掌握各類設(shè)備的運(yùn)行狀態(tài),并可以依據(jù)獲取的監(jiān)控?cái)?shù)據(jù)對(duì)設(shè)備狀態(tài)進(jìn)行分析,預(yù)測(cè)集群運(yùn)行風(fēng)險(xiǎn)和隱患,提高運(yùn)維管理的效率,保障集群始終運(yùn)行在穩(wěn)定的健康狀態(tài)。自動(dòng)巡檢主要監(jiān)測(cè)項(xiàng)目如表1所示。

        Figure 7 Fault list of Magic Cube-3 maintenance and management platform圖7 “魔方-3”運(yùn)維管理平臺(tái)故障列表

        Figure 8 Troubleshooting interface of Magic Cube-3 maintenance and management platform圖8 “魔方-3”運(yùn)維管理平臺(tái)故障處理界面

        當(dāng)自動(dòng)巡檢引擎發(fā)現(xiàn)某個(gè)設(shè)備出現(xiàn)故障時(shí),會(huì)啟動(dòng)郵件發(fā)送功能向系統(tǒng)管理員發(fā)送故障告警郵件,并且會(huì)在Web客戶端界面彈出告警窗口顯示故障信息。系統(tǒng)管理員可根據(jù)這些信息快速定位發(fā)生故障的設(shè)備,并初步判定故障類型。系統(tǒng)管理員也可結(jié)合結(jié)點(diǎn)健康度和集群運(yùn)行負(fù)載情況對(duì)告警閾值進(jìn)行靈活調(diào)整,以提高巡檢準(zhǔn)確率。自動(dòng)巡檢還可根據(jù)某一設(shè)備健康指標(biāo)的歷史表現(xiàn),結(jié)合該設(shè)備的固有故障模型,預(yù)測(cè)出未來(lái)某段時(shí)間的設(shè)備故障概率,從而將設(shè)備告警從事后處理提前到事前預(yù)防。

        Table 1 Automatic detection services of Magic Cube-3 maintenance and management platform表1 魔方-3運(yùn)維管理平臺(tái)自動(dòng)巡檢項(xiàng)目

        故障處理流程如下所示:

        (1)監(jiān)控集群:根據(jù)集群現(xiàn)狀實(shí)時(shí)采集各設(shè)備運(yùn)行信息。

        (2)自動(dòng)告警:巡檢程序判斷異常后向系統(tǒng)管理員發(fā)送告警信息,并生成故障case。

        (3)故障判斷:系統(tǒng)管理員在收到告警并判斷故障問(wèn)題后,對(duì)故障case給出解決方案。

        (4)故障處置:按解決方案修復(fù)故障,如無(wú)法修復(fù)故障可將case反饋主機(jī)廠商解決。

        (5)處置完成:故障修復(fù)后平臺(tái)會(huì)更新case狀態(tài),每月匯總故障case生成運(yùn)維月報(bào)。

        4.3 機(jī)房運(yùn)維管理

        上海超級(jí)計(jì)算中心擁有多套主機(jī)系統(tǒng)及外圍基礎(chǔ)設(shè)備,涵蓋了科學(xué)計(jì)算、工程計(jì)算、大數(shù)據(jù)和云計(jì)算等多個(gè)應(yīng)用領(lǐng)域,運(yùn)維人員在控制機(jī)房?jī)?nèi)對(duì)這些設(shè)備進(jìn)行操控和管理。通過(guò)本平臺(tái)的機(jī)房運(yùn)維管理模塊對(duì)控制機(jī)房?jī)?nèi)的日常運(yùn)維工作實(shí)現(xiàn)信息化管理,使整個(gè)運(yùn)維過(guò)程變得有序、連貫、可控,如圖9所示。

        Figure 9 Control room management platform interface圖9 魔方-3運(yùn)維管理平臺(tái)機(jī)房管理界面

        日?qǐng)?bào)發(fā)送功能將自動(dòng)記錄當(dāng)日集群運(yùn)行的各項(xiàng)性能指標(biāo)以及發(fā)生的故障情況,并生成報(bào)表通過(guò)郵件方式發(fā)送,接班的系統(tǒng)管理員閱覽郵件即可快速了解上一個(gè)班次集群運(yùn)行狀況。機(jī)房環(huán)境記錄和運(yùn)行監(jiān)測(cè)記錄是要求當(dāng)班的運(yùn)維人員在規(guī)定的機(jī)房巡視檢查時(shí)間段-10分鐘 ~+30分鐘內(nèi)將水冷、UPS供電、環(huán)境溫濕度等數(shù)據(jù)錄入平臺(tái),同時(shí)提供歷史數(shù)據(jù)查詢功能,超過(guò)規(guī)定時(shí)間將無(wú)法錄入數(shù)據(jù)。通過(guò)上述一系列方式將運(yùn)維人員的日常工序形成數(shù)字化記錄管理,使得日常工作考核有據(jù)可依,有助于減少運(yùn)維人員簡(jiǎn)單、重復(fù)工作,提高員工的工作效率,并提升管理集群的能力和水平。

        4.4 統(tǒng)計(jì)分析

        數(shù)據(jù)統(tǒng)計(jì)分析是通過(guò)采集用戶提交的作業(yè)信息統(tǒng)計(jì)“魔方-3”集群在某時(shí)間段內(nèi)的CPU利用率、內(nèi)存使用率、作業(yè)平均運(yùn)行效率、平均排隊(duì)時(shí)間、作業(yè)吞吐量和應(yīng)用對(duì)資源的使用情況,并通過(guò)多角度的數(shù)據(jù)挖掘生成分析報(bào)表,能直觀反映“魔方-3”集群運(yùn)行效率,找出影響系統(tǒng)性能的資源瓶頸[5],為今后升級(jí)優(yōu)化,改善用戶使用體驗(yàn)提供科學(xué)的決策依據(jù)。

        機(jī)時(shí)查詢可統(tǒng)計(jì)“魔方-3”集群所有用戶賬號(hào)在某一時(shí)間段內(nèi)提交作業(yè)的運(yùn)行時(shí)間,統(tǒng)計(jì)單位為“core/小時(shí)”,統(tǒng)計(jì)結(jié)果默認(rèn)包含該時(shí)間段內(nèi)正在運(yùn)行還未結(jié)束的作業(yè)機(jī)時(shí),也可輸入某一用戶賬號(hào),進(jìn)行精確匹配統(tǒng)計(jì),如圖10所示。

        Figure 10 User CPU time statistics interface圖10 用戶機(jī)時(shí)統(tǒng)計(jì)界面

        作業(yè)規(guī)模查詢按作業(yè)使用核數(shù)規(guī)模劃分來(lái)統(tǒng)計(jì)某一時(shí)間段內(nèi)在“魔方-3”上運(yùn)行作業(yè)的規(guī)模比例,如圖11所示?!澳Х?3”單個(gè)計(jì)算結(jié)點(diǎn)為32核,故作業(yè)規(guī)模通常按32的倍數(shù)來(lái)劃分,也可小于32。有典型代表的規(guī)模區(qū)間為1~16核、17~32核、33~64核、65~128核和256核以上。通過(guò)作業(yè)規(guī)模分析可得出某一時(shí)間段內(nèi)大小作業(yè)的運(yùn)行比例,并據(jù)此來(lái)調(diào)整隊(duì)列配置和作業(yè)提交策略。

        Figure 11 Job scale statistics interface圖11 作業(yè)規(guī)模統(tǒng)計(jì)界面

        CPU利用率查詢可按天顯示在指定時(shí)間段內(nèi)程序占用集群CPU資源的情況,反映集群的使用負(fù)荷。core占用率可按天顯示指定時(shí)間段內(nèi)程序占用全機(jī)核數(shù)的百分比。上海超級(jí)計(jì)算中心作為一個(gè)開(kāi)放計(jì)算平臺(tái),有來(lái)自各領(lǐng)域不同類別的用戶提交不同的作業(yè),有些作業(yè)運(yùn)行時(shí)會(huì)占用大量CPU資源,而有些作業(yè)特性是雖然占用了內(nèi)核運(yùn)行,但CPU利用率并不高。這種情況下單純通過(guò)CPU利用率不能準(zhǔn)確反映“魔方-3”集群使用情況,結(jié)合core占用率這個(gè)指標(biāo)可更全面完整地反映集群使用情況,“魔方-3”core占用率如圖12所示。

        Figure 12 Occupancy rate of core of Magic Cube-3 computer圖12 “魔方-3”core占用率

        5 結(jié)束語(yǔ)

        主機(jī)運(yùn)維管理平臺(tái)通過(guò)軟件和硬件不同渠道對(duì)“魔方-3”集群進(jìn)行全面監(jiān)控、數(shù)據(jù)校對(duì)和分析、告警,根據(jù)數(shù)據(jù)分析結(jié)果提供自動(dòng)巡檢功能,進(jìn)行集群巡檢,并根據(jù)故障結(jié)點(diǎn)的數(shù)量和健康狀況調(diào)整監(jiān)控頻率及監(jiān)控閾值。利用歷史數(shù)據(jù)通過(guò)故障模型來(lái)實(shí)現(xiàn)故障預(yù)測(cè)。能實(shí)時(shí)將各管理點(diǎn)傳輸來(lái)的監(jiān)控?cái)?shù)據(jù)從數(shù)據(jù)隊(duì)列中取出,通過(guò)各資源池進(jìn)行分類匯總后存儲(chǔ)到數(shù)據(jù)庫(kù)中,通過(guò)瀏覽器為用戶提供統(tǒng)一的界面入口,使得運(yùn)維人員能夠清晰地瀏覽集群中各服務(wù)器結(jié)點(diǎn)的實(shí)時(shí)狀態(tài)及監(jiān)控?cái)?shù)據(jù)。

        根據(jù)高性能計(jì)算、深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算幾類應(yīng)用特征,借助IPMI網(wǎng)絡(luò)協(xié)議并融合作業(yè)調(diào)度軟件,通過(guò)可訂制化的策略配置,實(shí)現(xiàn)運(yùn)維管理平臺(tái)靈活、彈性部署在“魔方-3”高性能計(jì)算機(jī)之上,對(duì)所有軟件、硬件、虛擬化資源進(jìn)行統(tǒng)一的管理、監(jiān)控和調(diào)度,保障集群高效運(yùn)行。

        猜你喜歡
        故障作業(yè)管理
        棗前期管理再好,后期管不好,前功盡棄
        快來(lái)寫(xiě)作業(yè)
        故障一點(diǎn)通
        作業(yè)
        故事大王(2016年7期)2016-09-22 17:30:08
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        “這下管理創(chuàng)新了!等7則
        雜文月刊(2016年1期)2016-02-11 10:35:51
        故障一點(diǎn)通
        人本管理在我國(guó)國(guó)企中的應(yīng)用
        江淮車故障3例
        我想要自由
        女人夜夜春高潮爽a∨片| 亚洲精品久久视频网站| 一本到在线观看视频| 帮老师解开蕾丝奶罩吸乳视频| 久久精品国产精品亚洲毛片| 极品av在线播放| 国产视频在线观看一区二区三区| 小雪好紧好滑好湿好爽视频| 欧美日韩色另类综合| 国产a级午夜毛片| 94久久国产乱子伦精品免费| 久久国产精彩视频| 一区二区三区岛国av毛片| 日韩亚洲精选一区二区三区| 情爱偷拍视频一区二区| 55夜色66夜色国产精品视频| 99国产精品久久久蜜芽| 国语自产啪在线观看对白| 多毛小伙内射老太婆| 中文字幕精品一区二区2021年| 8av国产精品爽爽ⅴa在线观看| 久久久99精品国产片| 亚洲av无码国产精品色| 欧美野外疯狂做受xxxx高潮| 麻豆国产乱人伦精品一区二区 | 日韩一区二区中文天堂| 日韩人妻熟女中文字幕a美景之屋| 天美传媒精品1区2区3区| 日韩中文字幕网站| 日韩精品在线观看在线| 人妻体体内射精一区二区| 欧美日本国产三级在线| 久久本道久久综合一人| 18禁免费无码无遮挡不卡网站| 国产亚洲日韩在线三区| 1234.com麻豆性爰爱影| 日本视频在线观看二区| 无人视频在线观看免费播放影院 | 黄色视频在线免费观看| 亚洲国产剧情一区在线观看| 精品亚洲第一区二区三区 |