劉丹楓 施佳馳
摘 要:本文是對湖南省MICAPS 4.0分布式數(shù)據(jù)環(huán)境運維方法的總結(jié)與歸納,詳細(xì)介紹了如何查看服務(wù)器監(jiān)控頁面、Cassandra與DPC集群狀態(tài)、資料達(dá)到情況,并對現(xiàn)有的運維方法提出了改進(jìn)思路,本文可視為對氣自動化運維技術(shù)應(yīng)用的一次積極探索。
關(guān)鍵詞:MICAPS4.0,分布式數(shù)據(jù)環(huán)境,運維方法。
1? MICAPS4分布式數(shù)據(jù)環(huán)境背景介紹
MICAPS是中國氣象部門氣象衛(wèi)星、天氣雷達(dá)和數(shù)值預(yù)報、站點實況等產(chǎn)品綜合應(yīng)用最強有力的業(yè)務(wù)技術(shù)支撐平臺,是中國氣象部門氣象預(yù)報最主要的預(yù)報業(yè)務(wù)系統(tǒng)。自1995年起至今,它已經(jīng)歷過4個版本的嬗變。MICAPS4作為其最新版本,首創(chuàng)海量數(shù)據(jù)分布式流式計算的前處理系統(tǒng),衛(wèi)星雷達(dá)數(shù)據(jù)可實現(xiàn)毫秒級寫入性能,數(shù)據(jù)訪問性能相比傳統(tǒng)訪問性能提升了兩個數(shù)量級。在氣象實時數(shù)據(jù)處理方面,MICAPS4首創(chuàng)從文件到數(shù)據(jù)庫,從集中式到分布式的解決方案,達(dá)到了國際先進(jìn)水平。
2016年11月,在國家氣象中心、國家氣象信息中心、清華大學(xué)的大力支持下,湖南省順利完成CIMISS-MICAPS4數(shù)據(jù)環(huán)境部署。分布式數(shù)據(jù)環(huán)境目前已正常運行1000余天,可為預(yù)報員提供多源異構(gòu)資料的集中整合與分析顯示、為預(yù)報員呈現(xiàn)清晰的四維大氣結(jié)構(gòu)以及運動趨勢,為湖南省各級氣象部門提供高效、精準(zhǔn)的氣象數(shù)據(jù)服務(wù)。并且,分布式數(shù)據(jù)環(huán)境可支持長達(dá)22天的模式實時數(shù)據(jù)存儲,目前已接入近10個模式系統(tǒng)數(shù)據(jù),多達(dá)60個以上的模式空間層次,1700多個模式物理量。省級數(shù)據(jù)中心每分鐘訪問量可達(dá)1049次,全天訪問可達(dá)150萬次。
數(shù)據(jù)分布式流式計算的前處理系統(tǒng),針對集合預(yù)報數(shù)據(jù)可以實現(xiàn)“到達(dá)即可見”的效果,衛(wèi)星雷達(dá)數(shù)據(jù)可以實現(xiàn)毫秒級寫入性能。其大規(guī)模擴(kuò)展物理集群的架構(gòu),可以應(yīng)對高并發(fā)訪問,解放市縣一級的數(shù)據(jù)維護(hù)負(fù)擔(dān),湖南省所有 MICAPS4用戶可直連省級數(shù)據(jù)中心。
2? 湖南MICAPS4分布式數(shù)據(jù)環(huán)境檢查流程
湖南MICAPS4分布式數(shù)據(jù)環(huán)境日常巡檢主要查看Cassandra集群狀態(tài)、進(jìn)程是否存在、磁盤利用率、資源狀況、服務(wù)器上一次啟動時間;查看DPC集群日志、進(jìn)程是否存在、磁盤利用率、資源狀況、服務(wù)器上一次啟動時間等。
2.1? 查看服務(wù)器監(jiān)控頁面
MICAPS4.0數(shù)據(jù)應(yīng)用環(huán)境的網(wǎng)頁監(jiān)控共需要查看三個網(wǎng)頁內(nèi)容,分別是:查看CIMISS-MCP監(jiān)控頁面有沒有EI告警信息、查看http://10.110.172.62:8080,確認(rèn)所有的Workers是否都存在且狀態(tài)正常、查看http://10.110.172.62:4040,確認(rèn)所有Jobs的Submitted是否為最近一次計算集合預(yù)報的時間以及原始數(shù)據(jù)是否到達(dá)及時。
2.2? 查看Cassandra集群狀態(tài)
通過ssh方式登入到Cassandra服務(wù)器,切換到/home/micapsserver/cassandra/bin目錄,執(zhí)行命令:./nodetool status micapsdataserver,來查看集群運行狀態(tài),確保所有節(jié)點的狀態(tài)都是UN(UN = Up Normal),保證負(fù)載基本均衡;使用df –h命令,查看所有磁盤的利用率,確保長期沒有變化(導(dǎo)入了新數(shù)據(jù)或者延長了數(shù)據(jù)的保存時效等情況除外);使用last reboot命令,查看服務(wù)器上一次啟動時間,確保服務(wù)器沒有意外斷電或重啟;使用ps - ef | grep java命令,查看進(jìn)程號,確保Cassandra等進(jìn)程處于運行狀態(tài)。
2.3? 查看DPC集群狀態(tài)
使用jps命令,查看進(jìn)程號,確保DPC(DPC.jar)、JobScheduler(JobScheduler.jar)等進(jìn)程處于運行狀態(tài)。使用top命令,查看系統(tǒng)的資源狀況,進(jìn)入top后,可以使用x鍵高亮顯示,然后使用>鍵切換排序列,一般按照內(nèi)存使用率排序的話,DPC、JobScheduler等Java進(jìn)程會排在前幾位,便于查看;切換到/data/DPC/log與/data/JobScheduler/log,查看日志文件,確保當(dāng)前進(jìn)程工作正常。使用df –h命令,查看所有磁盤的利用率,確保長期沒有變化;使用ps - ef | grep java命令,查看進(jìn)程號,確保DPC等進(jìn)程處于運行狀態(tài)。
2.4? 查看資料達(dá)到情況
分布式數(shù)據(jù)環(huán)境里的資料來大多源于廣播衛(wèi)星CMACast下發(fā),經(jīng)省級CIMISS接收后再分發(fā)至分布式數(shù)據(jù)環(huán)境各個DPC服務(wù)器的ftp接口目錄,現(xiàn)有ftp接口目錄接收資料如圖1所示。運維檢查時需要查看接口目錄下的資料達(dá)到情況,由于接收資料繁多,因此檢查時需要耗費較多時間。
3? 改進(jìn)方法思考
原有的MICAPS4分布式數(shù)據(jù)環(huán)境檢查流程比較繁瑣,對分布式數(shù)據(jù)環(huán)境進(jìn)行一次完整的檢查至少需要耗費半個小時,因此可采用自動化運維方式對檢查流程進(jìn)行優(yōu)化。自動化運維方式可通過開發(fā)監(jiān)控系統(tǒng)來實現(xiàn),監(jiān)控系統(tǒng)采用C/S結(jié)構(gòu),在服務(wù)器中部署通過python編寫的監(jiān)控進(jìn)程,通過ssh、ftp等方式遠(yuǎn)程登入DPC與Cassandra集群,將檢查后的運行結(jié)果情況寫入到MySQL數(shù)據(jù)庫。通過桌面客戶端訪問MySQL數(shù)據(jù)庫獲取集群運行狀態(tài)。
4? 小結(jié)
本文是對湖南省MICAPS 4.0分布式數(shù)據(jù)環(huán)境運維方法的總結(jié)與歸納,并對現(xiàn)有的運維方法提出了大致的改進(jìn)優(yōu)化思路,下一步的工作是將改進(jìn)優(yōu)化思路通過程序開發(fā)加以實現(xiàn)。