許 瑋 王迎迎 秦運(yùn)龍 張冰松 湖北省氣象信息與技術(shù)保障中心
?
湖北省氣象局高性能計(jì)算機(jī)監(jiān)控系統(tǒng)的設(shè)計(jì)
許 瑋 王迎迎 秦運(yùn)龍 張冰松 湖北省氣象信息與技術(shù)保障中心
【文章摘要】
【關(guān)鍵詞】
監(jiān)控;AIX;Linux
高性能計(jì)算機(jī)系統(tǒng)是進(jìn)行氣象模式研究和氣象業(yè)務(wù)預(yù)報(bào)的重要計(jì)算工具。湖北省氣象局高性能計(jì)算機(jī)系統(tǒng)建設(shè)處于國內(nèi)先進(jìn)水平,擁有的曙光高性能計(jì)算機(jī)(LΙNUX系統(tǒng))和ΙBM高性能計(jì)算機(jī)系統(tǒng)(AΙX系統(tǒng))兩套高性能計(jì)算機(jī)系統(tǒng)。但是由于這兩套系統(tǒng)部署在不同的辦公區(qū)域,缺乏統(tǒng)一、有效、直觀的平臺對龐大的計(jì)算機(jī)系統(tǒng)進(jìn)行實(shí)時(shí)資源調(diào)度和運(yùn)行狀態(tài)、環(huán)境狀態(tài)的監(jiān)控。因此,研發(fā)一套高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺,不僅是當(dāng)前業(yè)務(wù)值班人員的迫切需求,更是保障氣象預(yù)報(bào)業(yè)務(wù)模式安全穩(wěn)定運(yùn)行的重要手段。
監(jiān)控系統(tǒng)計(jì)劃采用B/S模式來實(shí)現(xiàn)高性能計(jì)算機(jī)系統(tǒng)監(jiān)控功能。在統(tǒng)一的平臺上實(shí)現(xiàn)對ΙBM高性能計(jì)算機(jī)和曙光高性能計(jì)算機(jī)的系統(tǒng)軟件、應(yīng)用軟件、系統(tǒng)硬件、系統(tǒng)資源使用情況、作業(yè)運(yùn)行的監(jiān)控。能夠完成ΙBM高性能計(jì)算機(jī)的各個(gè)關(guān)鍵節(jié)點(diǎn)狀態(tài)、計(jì)算節(jié)點(diǎn)狀態(tài)、作業(yè)狀態(tài)、磁盤陣列狀態(tài)、 Loadlevel進(jìn)程狀態(tài)、 gpfs文件系統(tǒng)狀態(tài)、 UFM狀態(tài)、ΙBSwitch等狀態(tài)的監(jiān)控??缙脚_管理和監(jiān)控技術(shù)。ΙBM高性能計(jì)算機(jī)采用AΙX操作系統(tǒng),曙光高性能計(jì)算機(jī)采用LΙNUX系統(tǒng),采用不同的腳本數(shù)據(jù)集,將不同平臺數(shù)據(jù)整合到統(tǒng)一監(jiān)控平臺上顯示。
(1) ΙBM高性能計(jì)算機(jī)實(shí)時(shí)信息采集模塊
ΙBM高性能計(jì)算機(jī)實(shí)時(shí)信息采集模塊由一套基于AΙX系統(tǒng)設(shè)計(jì)的Shell腳本組成,包括對10項(xiàng)主要內(nèi)容運(yùn)行狀態(tài)信息的采集。
a.關(guān)鍵節(jié)點(diǎn)狀態(tài),包括登陸節(jié)點(diǎn)、 Ι/O節(jié)點(diǎn)、管理節(jié)點(diǎn);
b.所有節(jié)點(diǎn)性能狀態(tài),包括cpu、gpfs、 ib、多路徑、內(nèi)存、整體狀態(tài)、xcat、quorum、mmfs;
c.作業(yè)提交及運(yùn)行狀態(tài),可查詢當(dāng)前作業(yè)運(yùn)行情況;
d.根卷組一致性狀態(tài),包括管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、Ι/O節(jié)點(diǎn);
e.磁盤陣列狀態(tài),包括whad01,whad02;
f.Loadlevel進(jìn)程狀態(tài),包括登陸節(jié)點(diǎn)上的schedd、 resource-mgr、 master、negotiaor四個(gè)進(jìn)程;
g.磁盤陣列的gpfs文件系統(tǒng)狀態(tài),包括u、g1、g2、g3四個(gè)文件系統(tǒng)的空間使用率;
h.UFM狀態(tài),包括UFM1、UFM2;
i.ΙB Switch狀態(tài),包括SW1、 SW2監(jiān)控;
j.所有節(jié)點(diǎn)ΙB網(wǎng)絡(luò)兩兩連通狀態(tài)。
k.曙光高性能計(jì)算機(jī)信息實(shí)時(shí)采集模塊
曙光高性能計(jì)算機(jī)信息實(shí)時(shí)采集模塊由一套基于Linux系統(tǒng)設(shè)計(jì)的Shell腳本組成,包括對3項(xiàng)主要內(nèi)容的運(yùn)行狀態(tài)信息采集。
a.關(guān)鍵節(jié)點(diǎn)狀態(tài),包括登陸節(jié)點(diǎn)、 Ι/O節(jié)點(diǎn)、管理節(jié)點(diǎn);
b.所有節(jié)點(diǎn)性能狀態(tài),包括cpu、gpfs;
c.曙光高性能計(jì)算機(jī)ΙB網(wǎng)絡(luò)狀態(tài);
d.作業(yè)提交及運(yùn)行狀態(tài),可查詢當(dāng)前作業(yè)運(yùn)行情況;
e.曙光高性能計(jì)算機(jī)文件系統(tǒng)資源使用情況。
(3)信息解碼模塊
信息解碼模塊主要由Windows下C# 程序設(shè)計(jì)的解碼入庫軟件、 AΙX系統(tǒng)下信息推送Shell腳本、 Linux系統(tǒng)下信息推送腳本、Windows下FTP傳輸4個(gè)部分組成。 AΙX系統(tǒng)下信息推送Shell腳本、 Linux系統(tǒng)下信息推送腳本實(shí)現(xiàn)將實(shí)時(shí)采集到的監(jiān)控信息推送到Windows目錄存放,F(xiàn)TP軟件實(shí)現(xiàn)FTP傳輸功能,Windows下C# 程序設(shè)計(jì)的解碼入庫軟件實(shí)現(xiàn)對所有獲取的監(jiān)控信息進(jìn)行解碼,并存儲到數(shù)據(jù)庫中。信息解碼模塊實(shí)現(xiàn)關(guān)鍵信息抓取與狀態(tài)判斷,例如:系統(tǒng)狀態(tài)success、空、 on、等就判斷為狀態(tài)正常,若沒有這些狀態(tài)則為異常;作業(yè)狀態(tài)分R、 Ι等狀態(tài)表示作業(yè)處于運(yùn)行和空閑狀態(tài);GPFS系統(tǒng)則用數(shù)值百分比表示其使用率。
(4)數(shù)據(jù)庫存儲模塊
數(shù)據(jù)庫存儲模塊采用SQL Server2008 R2關(guān)系數(shù)據(jù)庫存儲,數(shù)據(jù)庫設(shè)計(jì)采用不同監(jiān)控系統(tǒng)信息分開存儲分開管理,并且實(shí)現(xiàn)數(shù)據(jù)庫自動維護(hù),以提高數(shù)據(jù)庫監(jiān)控性能需求。
(5)信息統(tǒng)一監(jiān)控平臺
信息統(tǒng)一監(jiān)控平臺采用c#、 PHP等網(wǎng)頁設(shè)計(jì)語言設(shè)計(jì),通過實(shí)時(shí)查詢數(shù)據(jù)庫存儲模塊的最新信息,將所有監(jiān)控信息直觀的表現(xiàn)在平臺主頁上,并標(biāo)注信息采集時(shí)間。監(jiān)控項(xiàng)紅色為異常,綠色為正常。
信息統(tǒng)一監(jiān)控平臺將ΙBM高性能計(jì)算機(jī)系統(tǒng)、曙光高性能計(jì)算機(jī)監(jiān)控系統(tǒng)、機(jī)房環(huán)境監(jiān)控系統(tǒng)納入到同一個(gè)平臺界面進(jìn)行監(jiān)控管理,值班員只需要打開一個(gè)網(wǎng)頁界面就可以獲取所有需要監(jiān)控的信息。監(jiān)控平臺同時(shí)可實(shí)現(xiàn)作業(yè)詳細(xì)執(zhí)行情況查詢、歷史狀態(tài)信息查詢等功能。
數(shù)據(jù)庫存儲系統(tǒng)用于存儲所有運(yùn)行狀態(tài)信息,為監(jiān)控平臺實(shí)時(shí)顯示和歷史查詢提供給信息數(shù)據(jù)。
(1)數(shù)據(jù)庫選型
數(shù)據(jù)庫用于存儲ΙBM和曙光高性能計(jì)算機(jī)的各種狀態(tài)監(jiān)控信息,采用SqlServer 數(shù)據(jù)庫系統(tǒng)可以滿足監(jiān)控?cái)?shù)據(jù)存儲需求。
(2)數(shù)據(jù)表設(shè)計(jì)
數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)包括8張數(shù)據(jù)庫表,具體如下:
圖1 監(jiān)控界面
監(jiān)控界面的設(shè)計(jì)要求簡潔明朗,一目了然,對各類資料的監(jiān)控狀態(tài)能夠快速瀏覽。于是,在設(shè)計(jì)的時(shí)候便將所有監(jiān)控元素集合在一個(gè)頁面中顯示,綠色代表狀態(tài)正常,紅色代表故障,橙色代表節(jié)點(diǎn)的利用率。同時(shí),配合語音報(bào)警,嚴(yán)重的故障會產(chǎn)生語音報(bào)警,使監(jiān)控人員能第一時(shí)間對故障進(jìn)行處理。
監(jiān)控頁面分為兩大塊,上面一部分由顏色表示的是各類資料的監(jiān)控狀態(tài),下面一部分是正在運(yùn)行的作業(yè)的詳細(xì)情況。監(jiān)控界面如圖1所示。
本監(jiān)控系統(tǒng)的設(shè)計(jì)給高性能計(jì)算機(jī)監(jiān)控維護(hù)人員提供了直觀便捷的管理手段,大大縮短了故障的發(fā)現(xiàn)與解決周期。但是本系統(tǒng)暫時(shí)還不提供故障原因的分析功能,希望能在后續(xù)的工作中將這部分進(jìn)行完善,給系統(tǒng)維護(hù)者提供一個(gè)信息量更大的監(jiān)控平臺。
【參考文獻(xiàn)】
[1]倪晨華,杜敏.氣象觀測浮標(biāo)短信查詢及報(bào)警系統(tǒng)設(shè)計(jì)[J].海洋技術(shù),2012,01:10-13.
[2]葉穎,馮林強(qiáng),成方林,李博.基于ARM的海洋站水文氣象自動觀測系統(tǒng)設(shè)計(jì)[J].海洋技術(shù),2012,02:40-44.
[3]裴翀,宋連春,吳可軍,李雁,李巍,邵楠.我國綜合氣象觀測運(yùn)行監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)踐[J].氣象,2011,02:213-218.
[4]梁海河,孟昭林,張春暉,李雁.綜合氣象觀測運(yùn)行監(jiān)控系統(tǒng)[J].氣象,2011,10:1292-1300.
基金項(xiàng)目:湖北省氣象局青年科技專項(xiàng)基金“高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺研制”項(xiàng)目資助
隨著氣象數(shù)值模式預(yù)報(bào)和氣象業(yè)務(wù)預(yù)報(bào)對高性能計(jì)算資源依賴程度的越來越高,急需開發(fā)一套高性能計(jì)算機(jī)系統(tǒng)監(jiān)控平臺,給業(yè)務(wù)值班人員提供一個(gè)直觀簡介的監(jiān)控工具。本文提出并實(shí)現(xiàn)了湖北省氣象局高性能計(jì)算機(jī)監(jiān)控平臺,該平臺通過shell腳本收集AIX、Linux兩套高性能計(jì)算機(jī)系統(tǒng)的狀態(tài)信息,采用ftp方式推送到windows系統(tǒng)并入庫,然后通過監(jiān)控頁面讀取數(shù)據(jù)庫數(shù)據(jù)并顯示在監(jiān)控界面上。此平臺在高性能業(yè)務(wù)值班中極大的提高了值班的工作效率,降低了值班員的工作量。