許 瑋 王迎迎 秦運龍 張冰松 湖北省氣象信息與技術(shù)保障中心
?
湖北省氣象局高性能計算機監(jiān)控系統(tǒng)的設(shè)計
許 瑋 王迎迎 秦運龍 張冰松 湖北省氣象信息與技術(shù)保障中心
【文章摘要】
【關(guān)鍵詞】
監(jiān)控;AIX;Linux
高性能計算機系統(tǒng)是進行氣象模式研究和氣象業(yè)務(wù)預(yù)報的重要計算工具。湖北省氣象局高性能計算機系統(tǒng)建設(shè)處于國內(nèi)先進水平,擁有的曙光高性能計算機(LΙNUX系統(tǒng))和ΙBM高性能計算機系統(tǒng)(AΙX系統(tǒng))兩套高性能計算機系統(tǒng)。但是由于這兩套系統(tǒng)部署在不同的辦公區(qū)域,缺乏統(tǒng)一、有效、直觀的平臺對龐大的計算機系統(tǒng)進行實時資源調(diào)度和運行狀態(tài)、環(huán)境狀態(tài)的監(jiān)控。因此,研發(fā)一套高性能計算機系統(tǒng)監(jiān)控管理平臺,不僅是當(dāng)前業(yè)務(wù)值班人員的迫切需求,更是保障氣象預(yù)報業(yè)務(wù)模式安全穩(wěn)定運行的重要手段。
監(jiān)控系統(tǒng)計劃采用B/S模式來實現(xiàn)高性能計算機系統(tǒng)監(jiān)控功能。在統(tǒng)一的平臺上實現(xiàn)對ΙBM高性能計算機和曙光高性能計算機的系統(tǒng)軟件、應(yīng)用軟件、系統(tǒng)硬件、系統(tǒng)資源使用情況、作業(yè)運行的監(jiān)控。能夠完成ΙBM高性能計算機的各個關(guān)鍵節(jié)點狀態(tài)、計算節(jié)點狀態(tài)、作業(yè)狀態(tài)、磁盤陣列狀態(tài)、 Loadlevel進程狀態(tài)、 gpfs文件系統(tǒng)狀態(tài)、 UFM狀態(tài)、ΙBSwitch等狀態(tài)的監(jiān)控。跨平臺管理和監(jiān)控技術(shù)。ΙBM高性能計算機采用AΙX操作系統(tǒng),曙光高性能計算機采用LΙNUX系統(tǒng),采用不同的腳本數(shù)據(jù)集,將不同平臺數(shù)據(jù)整合到統(tǒng)一監(jiān)控平臺上顯示。
(1) ΙBM高性能計算機實時信息采集模塊
ΙBM高性能計算機實時信息采集模塊由一套基于AΙX系統(tǒng)設(shè)計的Shell腳本組成,包括對10項主要內(nèi)容運行狀態(tài)信息的采集。
a.關(guān)鍵節(jié)點狀態(tài),包括登陸節(jié)點、 Ι/O節(jié)點、管理節(jié)點;
b.所有節(jié)點性能狀態(tài),包括cpu、gpfs、 ib、多路徑、內(nèi)存、整體狀態(tài)、xcat、quorum、mmfs;
c.作業(yè)提交及運行狀態(tài),可查詢當(dāng)前作業(yè)運行情況;
d.根卷組一致性狀態(tài),包括管理節(jié)點、計算節(jié)點、Ι/O節(jié)點;
e.磁盤陣列狀態(tài),包括whad01,whad02;
f.Loadlevel進程狀態(tài),包括登陸節(jié)點上的schedd、 resource-mgr、 master、negotiaor四個進程;
g.磁盤陣列的gpfs文件系統(tǒng)狀態(tài),包括u、g1、g2、g3四個文件系統(tǒng)的空間使用率;
h.UFM狀態(tài),包括UFM1、UFM2;
i.ΙB Switch狀態(tài),包括SW1、 SW2監(jiān)控;
j.所有節(jié)點ΙB網(wǎng)絡(luò)兩兩連通狀態(tài)。
k.曙光高性能計算機信息實時采集模塊
曙光高性能計算機信息實時采集模塊由一套基于Linux系統(tǒng)設(shè)計的Shell腳本組成,包括對3項主要內(nèi)容的運行狀態(tài)信息采集。
a.關(guān)鍵節(jié)點狀態(tài),包括登陸節(jié)點、 Ι/O節(jié)點、管理節(jié)點;
b.所有節(jié)點性能狀態(tài),包括cpu、gpfs;
c.曙光高性能計算機ΙB網(wǎng)絡(luò)狀態(tài);
d.作業(yè)提交及運行狀態(tài),可查詢當(dāng)前作業(yè)運行情況;
e.曙光高性能計算機文件系統(tǒng)資源使用情況。
(3)信息解碼模塊
信息解碼模塊主要由Windows下C# 程序設(shè)計的解碼入庫軟件、 AΙX系統(tǒng)下信息推送Shell腳本、 Linux系統(tǒng)下信息推送腳本、Windows下FTP傳輸4個部分組成。 AΙX系統(tǒng)下信息推送Shell腳本、 Linux系統(tǒng)下信息推送腳本實現(xiàn)將實時采集到的監(jiān)控信息推送到Windows目錄存放,F(xiàn)TP軟件實現(xiàn)FTP傳輸功能,Windows下C# 程序設(shè)計的解碼入庫軟件實現(xiàn)對所有獲取的監(jiān)控信息進行解碼,并存儲到數(shù)據(jù)庫中。信息解碼模塊實現(xiàn)關(guān)鍵信息抓取與狀態(tài)判斷,例如:系統(tǒng)狀態(tài)success、空、 on、等就判斷為狀態(tài)正常,若沒有這些狀態(tài)則為異常;作業(yè)狀態(tài)分R、 Ι等狀態(tài)表示作業(yè)處于運行和空閑狀態(tài);GPFS系統(tǒng)則用數(shù)值百分比表示其使用率。
(4)數(shù)據(jù)庫存儲模塊
數(shù)據(jù)庫存儲模塊采用SQL Server2008 R2關(guān)系數(shù)據(jù)庫存儲,數(shù)據(jù)庫設(shè)計采用不同監(jiān)控系統(tǒng)信息分開存儲分開管理,并且實現(xiàn)數(shù)據(jù)庫自動維護,以提高數(shù)據(jù)庫監(jiān)控性能需求。
(5)信息統(tǒng)一監(jiān)控平臺
信息統(tǒng)一監(jiān)控平臺采用c#、 PHP等網(wǎng)頁設(shè)計語言設(shè)計,通過實時查詢數(shù)據(jù)庫存儲模塊的最新信息,將所有監(jiān)控信息直觀的表現(xiàn)在平臺主頁上,并標(biāo)注信息采集時間。監(jiān)控項紅色為異常,綠色為正常。
信息統(tǒng)一監(jiān)控平臺將ΙBM高性能計算機系統(tǒng)、曙光高性能計算機監(jiān)控系統(tǒng)、機房環(huán)境監(jiān)控系統(tǒng)納入到同一個平臺界面進行監(jiān)控管理,值班員只需要打開一個網(wǎng)頁界面就可以獲取所有需要監(jiān)控的信息。監(jiān)控平臺同時可實現(xiàn)作業(yè)詳細執(zhí)行情況查詢、歷史狀態(tài)信息查詢等功能。
數(shù)據(jù)庫存儲系統(tǒng)用于存儲所有運行狀態(tài)信息,為監(jiān)控平臺實時顯示和歷史查詢提供給信息數(shù)據(jù)。
(1)數(shù)據(jù)庫選型
數(shù)據(jù)庫用于存儲ΙBM和曙光高性能計算機的各種狀態(tài)監(jiān)控信息,采用SqlServer 數(shù)據(jù)庫系統(tǒng)可以滿足監(jiān)控數(shù)據(jù)存儲需求。
(2)數(shù)據(jù)表設(shè)計
數(shù)據(jù)庫系統(tǒng)設(shè)計包括8張數(shù)據(jù)庫表,具體如下:
圖1 監(jiān)控界面
監(jiān)控界面的設(shè)計要求簡潔明朗,一目了然,對各類資料的監(jiān)控狀態(tài)能夠快速瀏覽。于是,在設(shè)計的時候便將所有監(jiān)控元素集合在一個頁面中顯示,綠色代表狀態(tài)正常,紅色代表故障,橙色代表節(jié)點的利用率。同時,配合語音報警,嚴重的故障會產(chǎn)生語音報警,使監(jiān)控人員能第一時間對故障進行處理。
監(jiān)控頁面分為兩大塊,上面一部分由顏色表示的是各類資料的監(jiān)控狀態(tài),下面一部分是正在運行的作業(yè)的詳細情況。監(jiān)控界面如圖1所示。
本監(jiān)控系統(tǒng)的設(shè)計給高性能計算機監(jiān)控維護人員提供了直觀便捷的管理手段,大大縮短了故障的發(fā)現(xiàn)與解決周期。但是本系統(tǒng)暫時還不提供故障原因的分析功能,希望能在后續(xù)的工作中將這部分進行完善,給系統(tǒng)維護者提供一個信息量更大的監(jiān)控平臺。
【參考文獻】
[1]倪晨華,杜敏.氣象觀測浮標(biāo)短信查詢及報警系統(tǒng)設(shè)計[J].海洋技術(shù),2012,01:10-13.
[2]葉穎,馮林強,成方林,李博.基于ARM的海洋站水文氣象自動觀測系統(tǒng)設(shè)計[J].海洋技術(shù),2012,02:40-44.
[3]裴翀,宋連春,吳可軍,李雁,李巍,邵楠.我國綜合氣象觀測運行監(jiān)控系統(tǒng)的設(shè)計與實踐[J].氣象,2011,02:213-218.
[4]梁海河,孟昭林,張春暉,李雁.綜合氣象觀測運行監(jiān)控系統(tǒng)[J].氣象,2011,10:1292-1300.
基金項目:湖北省氣象局青年科技專項基金“高性能計算機系統(tǒng)監(jiān)控管理平臺研制”項目資助
隨著氣象數(shù)值模式預(yù)報和氣象業(yè)務(wù)預(yù)報對高性能計算資源依賴程度的越來越高,急需開發(fā)一套高性能計算機系統(tǒng)監(jiān)控平臺,給業(yè)務(wù)值班人員提供一個直觀簡介的監(jiān)控工具。本文提出并實現(xiàn)了湖北省氣象局高性能計算機監(jiān)控平臺,該平臺通過shell腳本收集AIX、Linux兩套高性能計算機系統(tǒng)的狀態(tài)信息,采用ftp方式推送到windows系統(tǒng)并入庫,然后通過監(jiān)控頁面讀取數(shù)據(jù)庫數(shù)據(jù)并顯示在監(jiān)控界面上。此平臺在高性能業(yè)務(wù)值班中極大的提高了值班的工作效率,降低了值班員的工作量。