秦運(yùn)龍 許 瑋 張冰松 湖北省氣象信息與技術(shù)保障中心
?
華中區(qū)域高性能計(jì)算機(jī)監(jiān)控管理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
秦運(yùn)龍 許 瑋 張冰松 湖北省氣象信息與技術(shù)保障中心
【文章摘要】
【關(guān)鍵詞】
HPC;監(jiān)控管理;跨平臺(tái)管理;AIX;Linux
隨著氣象預(yù)報(bào)業(yè)務(wù)越來越豐富,預(yù)報(bào)精度越來越高,數(shù)值預(yù)報(bào)計(jì)算量呈現(xiàn)出膨脹式增長。氣象工作對高性能計(jì)算資源的需求也變得越來越緊迫。
高性能計(jì)算機(jī)(High performance computing以下簡稱:HPC)及其附屬配套設(shè)施龐大而復(fù)雜,對其監(jiān)控和管理是一件繁瑣而復(fù)雜的過程,如何實(shí)時(shí)、全面、準(zhǔn)確的在統(tǒng)一的平臺(tái)上監(jiān)控和管理不同區(qū)域的HPC,提高監(jiān)控效率,簡化管理方式已成為日常值班亟待解決的問題。高性能計(jì)算機(jī)監(jiān)控和管理平臺(tái)采用先進(jìn)的顯示與監(jiān)控技術(shù),將所有監(jiān)控和管理任務(wù)同一平臺(tái)上,可提供跨系統(tǒng)、跨區(qū)域HPC全面、實(shí)時(shí)、高效、友好的監(jiān)控和管理功能。
目前,隨著快速循環(huán)系統(tǒng)等高頻率高精度業(yè)務(wù)模式的運(yùn)行,模式運(yùn)算量呈現(xiàn)膨脹式發(fā)展,HPC的建設(shè)將不斷增加,高效的監(jiān)控和管理所有HPC系統(tǒng)已成為HPC建設(shè)的一個(gè)重要任務(wù)。
為滿足當(dāng)前和今后HPC發(fā)展的監(jiān)控和管理需求,建設(shè)具有高集成度的HPC監(jiān)控和管理系統(tǒng),應(yīng)該有下面幾個(gè)特點(diǎn)。
(1)系統(tǒng)兼容性。能實(shí)現(xiàn)跨系統(tǒng)、跨區(qū)域的監(jiān)控和管理,兼容AΙX、 Linux等操作系統(tǒng),對不同區(qū)域機(jī)房的HPC系統(tǒng)均能有效監(jiān)控管理。
(2)監(jiān)控和顯示技術(shù)。a.能提供HPC所有硬件和軟件系統(tǒng)的實(shí)時(shí)狀態(tài)報(bào)警;b.能提供所有業(yè)務(wù)作業(yè)的運(yùn)行狀態(tài)監(jiān)視;c.以曲線圖方式實(shí)時(shí)顯示計(jì)算資源使用情況。
(3) 管理技術(shù)。提供Windows系統(tǒng)管理平臺(tái),可直接通過平臺(tái)對HPC發(fā)出管理查詢指令。并返回執(zhí)行結(jié)果,操作方式直接、簡單。
“高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺(tái)”由5個(gè)模塊組成,主要包括ΙBM曙光HPC實(shí)時(shí)信息采集模塊;信息解碼模塊;數(shù)據(jù)庫存儲(chǔ)模塊;信息統(tǒng)一監(jiān)控平臺(tái);ΙBM曙光HPC命令執(zhí)行模塊。
圖1 監(jiān)控管理平臺(tái)數(shù)據(jù)流程圖
(1) ΙBM曙光HPC實(shí)時(shí)信息采集模塊
ΙBMHPC實(shí)時(shí)信息采集模塊由一套基于AΙX和Linux系統(tǒng)設(shè)計(jì)的Shell腳本組成,包括對關(guān)鍵節(jié)點(diǎn)狀態(tài)、所有節(jié)點(diǎn)性能狀態(tài)、作業(yè)提交及運(yùn)行狀態(tài)、根卷組一致性狀態(tài)、磁盤陣列狀態(tài)、等主要內(nèi)容運(yùn)行狀態(tài)信息的采集。
(2)信息解碼模塊
信息解碼模塊主要由Windows下C# 程序設(shè)計(jì)的解碼入庫軟件解碼入庫,實(shí)現(xiàn)對所有獲取的監(jiān)控信息進(jìn)行解碼,并存儲(chǔ)到數(shù)據(jù)庫中。
(3)數(shù)據(jù)庫存儲(chǔ)模塊
數(shù)據(jù)庫存儲(chǔ)模塊采用SQL Server2008 R2關(guān)系數(shù)據(jù)庫存儲(chǔ),數(shù)據(jù)庫設(shè)計(jì)采用不同監(jiān)控系統(tǒng)信息分開存儲(chǔ)分開管理,并且實(shí)現(xiàn)數(shù)據(jù)庫自動(dòng)維護(hù),以提高數(shù)據(jù)庫監(jiān)控性能需求。
(4)信息統(tǒng)一監(jiān)控平臺(tái)
信息統(tǒng)一監(jiān)控平臺(tái)采用c#、 PHP等網(wǎng)頁設(shè)計(jì)語言設(shè)計(jì)[2],通過實(shí)時(shí)查詢數(shù)據(jù)庫存儲(chǔ)模塊的最新信息,將所有監(jiān)控信息直觀的表現(xiàn)在平臺(tái)主頁上,并標(biāo)注信息采集時(shí)間。監(jiān)控項(xiàng)紅色為異常,綠色為正常。
(5)ΙBM曙光HPC命令執(zhí)行模塊
HPC命令執(zhí)行模塊采用c#語言基于Windows平臺(tái)開發(fā),可實(shí)現(xiàn)在Windows平臺(tái)上對AΙX、 Linux系統(tǒng)發(fā)出指令執(zhí)行,并返回結(jié)果。
“高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺(tái)”采用LΙNUX、 AΙX系統(tǒng)下的Shell腳本集采集系統(tǒng)信息,通過信息解碼程序?qū)顟B(tài)信息進(jìn)行解碼入庫存儲(chǔ)。系統(tǒng)客戶端通過監(jiān)控與操作管理平臺(tái)實(shí)時(shí)讀取數(shù)據(jù)庫狀態(tài)信息,并可通過客戶端界面向ΙBM和曙光HPC發(fā)送常命令,并執(zhí)行。見圖1。
4.1高性能計(jì)算機(jī)監(jiān)控平臺(tái)
高性能計(jì)算機(jī)監(jiān)控平臺(tái)主要由shell腳本集、信息解碼、數(shù)據(jù)庫、監(jiān)控顯示平臺(tái)四個(gè)模塊組成。見圖2。
(1) shell腳本集
shell腳本集部署在AΙX系統(tǒng)和Linux系統(tǒng)上分別獲取ΙBM和曙光HPC系統(tǒng)和作業(yè)狀態(tài)。
(2)信息解碼模塊
信息解碼模塊部署在Windows系統(tǒng)上實(shí)時(shí)解析獲取的HPC系統(tǒng)和作業(yè)狀態(tài)信息,解析重要信息并存儲(chǔ)入庫。
(3)監(jiān)控顯示平臺(tái)
監(jiān)控顯示平臺(tái)采用B/S結(jié)構(gòu)設(shè)計(jì)網(wǎng)頁平臺(tái),通過每10分鐘刷新獲取數(shù)據(jù)庫狀態(tài)信息,可查詢作業(yè)運(yùn)行狀態(tài),故障錯(cuò)誤詳情。
4.2高性能計(jì)算機(jī)管理平臺(tái)
高性能計(jì)算機(jī)管理平臺(tái)采用C/S模式開發(fā)[3][4],基于Routrek.granados模塊實(shí)現(xiàn)Windows系統(tǒng)下對AΙX和Linux發(fā)送指令執(zhí)行并返回執(zhí)行結(jié)果。見圖3。
部分實(shí)現(xiàn)代碼如下:
圖2 高性能計(jì)算機(jī)監(jiān)控平臺(tái)
圖3 高性能計(jì)算機(jī)管理平臺(tái)
4.3數(shù)據(jù)庫設(shè)計(jì)
數(shù)據(jù)庫用于存儲(chǔ)所有運(yùn)行狀態(tài)信息[5],為監(jiān)控平臺(tái)實(shí)時(shí)顯示和歷史查詢提供給信息數(shù)據(jù)。數(shù)據(jù)庫采用Sql2008r2設(shè)計(jì),主要包括如下八個(gè)數(shù)據(jù)表。見表1。
表1 數(shù)據(jù)庫設(shè)計(jì)
本文提供的監(jiān)控管理平臺(tái)系統(tǒng),采用跨區(qū)域、跨系統(tǒng)的方式具有極強(qiáng)的兼容性、實(shí)時(shí)性和可靠性,在業(yè)務(wù)值班中極大的降低了值班員的工作量,提升了工作效率,具有一定的可推廣性。但該系統(tǒng)對作業(yè)運(yùn)行中發(fā)生的死鎖及異常掛起不能提供準(zhǔn)確的原因,這也是用戶比較關(guān)心的問題,因此后期在這一部分還需進(jìn)一步完善。
【參考文獻(xiàn)】
[1] 秦運(yùn)龍,楊代才,龔賢創(chuàng),馬啟明.地面智能觀測顯示與監(jiān)控綜合處理系統(tǒng)[J].氣象科技,2014,42(3)
[2] 衛(wèi)建國,張曉煜等.基于GIS的寧夏干旱監(jiān)測預(yù)警系統(tǒng)設(shè)計(jì)與應(yīng)用[J].氣象科技,2011,39(5):635-640
[3]李永利,康利,王英等.內(nèi)蒙古氣象信息網(wǎng)絡(luò)傳輸業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)[J].內(nèi)蒙古氣象,2001,(3):25-27
[4]趙福祥.山東省氣象通信網(wǎng)絡(luò)業(yè)務(wù)運(yùn)行及監(jiān)控系統(tǒng)[J],山東氣象,2005,25(4):30-33
[5]秦運(yùn)龍,邢麗平,楊代才等.基于linux平臺(tái)省級(jí)上行數(shù)據(jù)補(bǔ)傳系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).湖北氣象局,2015,24(1)
基金項(xiàng)目:湖北省氣象局青年科技專項(xiàng)基金“高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺(tái)研制”項(xiàng)目資助
隨著氣象數(shù)值模式預(yù)報(bào)精度越來精細(xì)化,其對高性能計(jì)算資源依賴程度也越來越高,因此研發(fā)一套高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺(tái),不僅是當(dāng)前業(yè)務(wù)值班人員的迫切需求,更是保障氣象預(yù)報(bào)業(yè)務(wù)模式安全穩(wěn)定運(yùn)行的重要手段。本文提出并實(shí)現(xiàn)了華中區(qū)域高性能計(jì)算機(jī)監(jiān)控管理平臺(tái),該平臺(tái)系統(tǒng)采用AIX、Linux的shell設(shè)計(jì),基于Routrek.granados模塊進(jìn)行操作指令傳遞,通過直觀、形象、智能的方式對所有高性能計(jì)算機(jī)系統(tǒng)及作業(yè)進(jìn)行監(jiān)控和管理。在高性能業(yè)務(wù)值班中極大的提高了值班的工作效率,降低了值班員的工作量。
作者簡介:秦運(yùn)龍,男,1984年生,工程師,主要從事氣象信息保障研究