文|羅紅艷
深圳氣象高性能計(jì)算機(jī)系統(tǒng)升級改造與應(yīng)用
文|羅紅艷
深圳氣象高性能計(jì)算機(jī)系統(tǒng)位于深圳市氣象局蔡屋圍氣象觀測基地,建成于2011年初,采用曙光5000A刀片集群系統(tǒng),共170臺刀片服務(wù)器組成,峰值計(jì)算能力達(dá)到34萬億次,配有共享存儲116TB,現(xiàn)在主要運(yùn)行實(shí)時同化預(yù)報系統(tǒng)、四維實(shí)時數(shù)據(jù)同化系統(tǒng)、數(shù)值預(yù)報綜合系統(tǒng)、臨近預(yù)報決策平臺、雷達(dá)數(shù)據(jù)處理等氣象預(yù)報業(yè)務(wù)系統(tǒng)和數(shù)值預(yù)報模式。經(jīng)過近幾年運(yùn)行發(fā)展,高性能計(jì)算機(jī)系統(tǒng)效能逐年下降,設(shè)備宕機(jī)故障偶有發(fā)生,進(jìn)行必要的升級改造不僅是業(yè)務(wù)發(fā)展需求,同時也是系統(tǒng)高效運(yùn)行管理的要求。
(一)總體結(jié)構(gòu)
深圳氣象高性能計(jì)算機(jī)系統(tǒng)根據(jù)計(jì)算資源需求劃分為業(yè)務(wù)區(qū)和科研區(qū),其中業(yè)務(wù)區(qū)共80個刀片服務(wù)器、科研區(qū)共90個刀片服務(wù)器,配有6臺管理登入刀片服務(wù)器和14臺I/O節(jié)點(diǎn)刀片服務(wù)器,千兆光纖互聯(lián);在存儲部分,配有一套ParaStor100并行存儲系統(tǒng),兩套全光纖存儲曙光DS800-F20應(yīng)用于業(yè)務(wù)區(qū)高端存儲,一套曙光DS800-F10應(yīng)用于科研區(qū)大容量存儲,千兆光纖互聯(lián);在控制部分,配有一套集群控制系統(tǒng)(含集群容錯)和一套Gridview商用版作業(yè)調(diào)度系統(tǒng)??傮w結(jié)構(gòu)見圖1。
(二)存在的主要問題
隨著近幾年深圳氣象業(yè)務(wù)和科研需求日益增加,高性能計(jì)算資源利用率不斷上升,在運(yùn)行過程中也陸續(xù)遇到一些問題,很大程度上影響了高性能計(jì)算資源和存儲資源的正常、高效利用,主要問題有:
1. 在科研開發(fā)過程時,大多數(shù)用戶需要大量頻繁地訪問外部數(shù)據(jù),對高性能計(jì)算機(jī)系統(tǒng)的網(wǎng)絡(luò)帶寬和穩(wěn)定性要求較高,但目前只有一個節(jié)點(diǎn)(node182)能夠下載數(shù)據(jù),已遠(yuǎn)遠(yuǎn)不能滿足需求。
2. 隨著數(shù)值預(yù)報模式業(yè)務(wù)和科學(xué)研究量的大幅增長,高性能計(jì)算機(jī)系統(tǒng)的存儲空間需求也越來越大,現(xiàn)有存儲空間僅為116TB,而在運(yùn)行的三大業(yè)務(wù)系統(tǒng)每月數(shù)據(jù)量約為28TB,因存儲空間所限,導(dǎo)致系統(tǒng)系統(tǒng)僅能在線保留三個月數(shù)據(jù),許多中間產(chǎn)品被迫刪除,這些中間產(chǎn)品一旦需要時又必須重新計(jì)算得出,給業(yè)務(wù)和科研帶來諸多不便。
3. 快速存儲部分(/data02)集群海量小文件數(shù)(inode總量140M)使用已經(jīng)到98%了,連接存儲的I/O節(jié)點(diǎn)內(nèi)存使用率高達(dá)99%,嚴(yán)重影響了系統(tǒng)運(yùn)行和用戶訪問效率。
4. 現(xiàn)有超算資源監(jiān)控和作業(yè)調(diào)度系統(tǒng)較為低端,一方面用戶無法對所有計(jì)算資源的使用情況進(jìn)行一個整體把握,另一方面基于移動終端作業(yè)任務(wù)提交功能尚未建立,無法滿足氣象預(yù)警預(yù)報全天候24小時服務(wù)需求。
針對存在問題和不足,堅(jiān)持利舊及兼容原則,堅(jiān)持可擴(kuò)充性原則以不斷適應(yīng)高性能計(jì)算機(jī)新技術(shù)發(fā)展,重點(diǎn)對登錄節(jié)點(diǎn)、存儲資源、作業(yè)調(diào)度系統(tǒng)進(jìn)行升級改造。
(一)登錄節(jié)點(diǎn)改造
系統(tǒng)共6個管理登錄節(jié)點(diǎn)(node171、node172、node173、node181、node182、node183),業(yè)務(wù)區(qū)和科研區(qū)各3個,現(xiàn)有配置為2顆六核2.2GHz CPU、16GB內(nèi)存以及一塊146GB的 SAS硬盤,一塊Infiniband網(wǎng)卡(20Gbps)和一塊千兆以太網(wǎng)網(wǎng)卡,分別實(shí)現(xiàn)Infiniband交換機(jī)與氣象局局域網(wǎng)互聯(lián),實(shí)現(xiàn)氣象數(shù)據(jù)和應(yīng)用產(chǎn)品傳輸。改造方案包含三個方面,一是將node171、node172、node181、node182等四個節(jié)點(diǎn)的網(wǎng)卡升級為萬兆網(wǎng)卡與氣象局局域網(wǎng)互聯(lián);二是對所有管理登錄節(jié)點(diǎn)的內(nèi)存從原來的16GB升級為32GB;三是在確保信息安全基礎(chǔ)上,利用Infiniband專用接口以直連方式連接高性能計(jì)算機(jī)的Infiniband交換機(jī)和氣象局局域網(wǎng),以簡化node173、node183原有管理登錄功能。
圖1 深圳氣象高性能計(jì)算機(jī)邏輯拓?fù)鋱D
(二)存儲資源升級
對于存儲系統(tǒng),一方面要考慮擴(kuò)容,滿足未來的數(shù)值模式業(yè)務(wù)和氣象科學(xué)研究需求,另一方面要重點(diǎn)考慮解決海量小文件存儲問題。根據(jù)對當(dāng)前及未來三年業(yè)務(wù)和科研需求測算,在現(xiàn)有/data02存儲空間116TB基礎(chǔ)上,新增一套ParaStor200并行存儲系統(tǒng),分別配置容量為192TB的ParaStor200高帶寬配置存儲和高IOPS配置存儲,前者配置2個索引控制器(4個24×4T的數(shù)據(jù)控制器)重點(diǎn)解決數(shù)據(jù)存儲空間不足的問題,后者新增一個數(shù)據(jù)控制器(新增擴(kuò)容39塊600G2.5SAS硬盤至海量小文件存儲容量為28T)解決海量小文件存儲的問題,滿足至少三年業(yè)務(wù)和科研數(shù)據(jù)的存儲需求。
按此思路改造后新增兩套存儲系統(tǒng)data03和data04,系統(tǒng)data03為28T的SAS高速空間用來存儲海量小文件,data04為192T的SATA低速空間,作為高性能計(jì)算的數(shù)據(jù)存儲倉庫,將原data01和data02的數(shù)據(jù)遷移至data04中,釋放data01和data02存儲空間以提高數(shù)值預(yù)報模式業(yè)務(wù)和科研開發(fā)計(jì)算效率。具體見圖2。
圖2 改造后的存儲系統(tǒng)邏輯圖
(三)作業(yè)調(diào)度系統(tǒng)優(yōu)化
一方面要解決高性能存儲升級后原有作業(yè)調(diào)度系統(tǒng)的兼容性問題,一方面要滿足超算資源有效監(jiān)控和調(diào)度需求,本次改造重點(diǎn)是對高性能集群110個計(jì)算節(jié)點(diǎn)的作業(yè)調(diào)度系統(tǒng)進(jìn)行升級,實(shí)現(xiàn)多集群統(tǒng)一監(jiān)控平臺,即可實(shí)現(xiàn)多地計(jì)算資源在同一軟件界面的實(shí)時監(jiān)控、基于移動終端的任務(wù)提交以及智能化監(jiān)控整個系統(tǒng)計(jì)算能力使用情況、存儲使用情況、存儲I/O情況。特別是針對災(zāi)害性天氣時,隨時可以通過移動客戶端實(shí)施監(jiān)控高性能計(jì)算機(jī)運(yùn)行狀況以及提交作業(yè),進(jìn)而有效提高高性能計(jì)算機(jī)運(yùn)行效率。作業(yè)調(diào)度工作流程見圖3。
圖3 優(yōu)化后的作業(yè)調(diào)度工作流程
深圳氣象高性能計(jì)算機(jī)系統(tǒng)是國內(nèi)氣象系統(tǒng)中第一個擁有國內(nèi)前100強(qiáng)高性能計(jì)算機(jī)的單位,是深圳氣象數(shù)值化氣象預(yù)報的關(guān)鍵業(yè)務(wù)支撐平臺。從業(yè)務(wù)應(yīng)用和科研需求上來看,目前深圳氣象可以同化的觀測資料主要為深圳及周邊地區(qū)雷達(dá)和自動觀測站等氣象資料。本次升級改造后有效增加了對廣東省范圍內(nèi)2000多個自動氣象站觀測資料和泛華南雷達(dá)組網(wǎng)數(shù)據(jù)的實(shí)時同化,使預(yù)報范圍由4公里精細(xì)到2公里,并將提供精細(xì)到覆蓋全市74個街道0~3小時降雨和氣溫預(yù)報,有效提高我市數(shù)值化氣象服務(wù)技術(shù)能力。主要效益有如下三個方面:
(一)有效提高天氣預(yù)報精準(zhǔn)度。數(shù)值天氣預(yù)報是從大氣物理規(guī)律和機(jī)理出發(fā),建立數(shù)學(xué)及物理模型,用數(shù)學(xué)及物理的方法,并借助現(xiàn)代并行計(jì)算技術(shù)預(yù)測反演未來天氣趨勢,因此是當(dāng)前世界各大氣象預(yù)報中心的核心預(yù)報技術(shù)和關(guān)鍵手段,也是不斷提高天氣預(yù)報準(zhǔn)確率的重要發(fā)展方向之一,它使得預(yù)報區(qū)域的精度提高一倍甚至更多,其涉及的數(shù)據(jù)量在現(xiàn)有基礎(chǔ)上還要提高16倍,同時數(shù)據(jù)同化所需要的計(jì)算能力越強(qiáng),計(jì)算得出的預(yù)報信息才越精確。因此要想準(zhǔn)確預(yù)報復(fù)雜多變的天氣,高性能計(jì)算機(jī)系統(tǒng)的計(jì)算能力和高效的數(shù)據(jù)讀取能力是關(guān)鍵。
(二)有效提高氣象預(yù)警預(yù)報自動化水平。精細(xì)化數(shù)值預(yù)報是在空間和時間尺度上的精細(xì)預(yù)報,由于深圳受海陸、復(fù)雜地形、季節(jié)等因素的影響,需要同化更多的稠密觀測資料,提供更多接近真實(shí)大氣的中小尺度天氣系統(tǒng)特征信息,更好的預(yù)報中小尺度天氣的能力。同時,經(jīng)過數(shù)值預(yù)報產(chǎn)品的診斷,生成的數(shù)值預(yù)報釋用產(chǎn)品可以大大簡化預(yù)報員的工作量,預(yù)報員可以在此基礎(chǔ)上進(jìn)行訂正即可,也極大地提高了氣象預(yù)報預(yù)警服務(wù)的自動化水平。
(三)有效提高氣象服務(wù)精細(xì)化水平。依托高性能計(jì)算機(jī)系統(tǒng)的數(shù)值模式系統(tǒng)可提供時空分辨率和準(zhǔn)確率更高的氣象預(yù)報產(chǎn)品,為全市防災(zāi)減災(zāi)的組織提供更強(qiáng)有力的科學(xué)依據(jù),并推廣應(yīng)用于深圳文博會、高交會、春節(jié)春運(yùn)等重大社會活動中,有效提升社會的防災(zāi)減災(zāi)能力,保障城市安全運(yùn)行。同時,高性能計(jì)算機(jī)上強(qiáng)大的計(jì)算資源也有助于為社會公眾提供全程、連續(xù)、滾動、個性和新媒體化的氣象產(chǎn)品。
通過對深圳氣象高性能計(jì)算機(jī)系統(tǒng)升級改造,初步解決了I/O節(jié)點(diǎn)通信瓶頸和存儲空間的不足,同時結(jié)合實(shí)際對作業(yè)調(diào)度系統(tǒng)進(jìn)行優(yōu)化實(shí)現(xiàn)了一站式統(tǒng)一監(jiān)控平臺和移動客戶端作業(yè)調(diào)度功能,達(dá)到了項(xiàng)目預(yù)期目標(biāo)。未來,隨著氣象探測、預(yù)警預(yù)報、氣象服務(wù)等業(yè)務(wù)和科研事業(yè)快速發(fā)展,對高性能計(jì)算機(jī)系統(tǒng)的計(jì)算資源需求將越來越高,當(dāng)前34萬億次計(jì)算資源短缺也將在未來三到五年內(nèi)逐漸顯現(xiàn),建設(shè)200萬億次甚至400萬億次的更高性能超算中心也在規(guī)劃中。
作者單位:深圳市國家氣候觀象臺