聶元丁
(國(guó)家氣象信息中心,北京 100081)
國(guó)家氣象信息中心承擔(dān)著國(guó)家級(jí)氣象基礎(chǔ)信息、計(jì)算機(jī)、骨干網(wǎng)絡(luò)和通信資源的運(yùn)行、管理、維護(hù)、建設(shè)及服務(wù)工作。重點(diǎn)服務(wù)用戶包括國(guó)家氣象中心、國(guó)家氣候中心、國(guó)家衛(wèi)星氣象中心、氣象探測(cè)中心、公共氣象服務(wù)中心等,做好信息化工作是天氣預(yù)報(bào)準(zhǔn)確及時(shí)的基礎(chǔ)。
氣象行業(yè)近年來(lái)推進(jìn)信息化工作成果顯著,在《氣象大數(shù)據(jù)云平臺(tái)設(shè)計(jì)方案》(氣預(yù)函〔2016〕58號(hào))和《氣象信息化基礎(chǔ)設(shè)施資源池建設(shè)指南》(氣預(yù)函〔2016〕35號(hào))相繼發(fā)布,在氣象“云+端”新技術(shù)體制的指導(dǎo)下,通過(guò)“全國(guó)氣象雷達(dá)國(guó)家級(jí)IT基礎(chǔ)設(shè)施資源擴(kuò)建項(xiàng)目”和“山洪地質(zhì)災(zāi)害防治氣象保障工程”等多個(gè)國(guó)家級(jí)項(xiàng)目的建設(shè),基于云計(jì)算技術(shù)初步建設(shè)了國(guó)家級(jí)氣象資源池,目前服務(wù)于1 000多用戶,已經(jīng)初具規(guī)模。隨著資源池系統(tǒng)承載的重要業(yè)務(wù)系統(tǒng)越來(lái)越多,精細(xì)化服務(wù)的需求也越來(lái)越高,借助智能化運(yùn)維管理工具,利用智能管理技術(shù)設(shè)計(jì)開(kāi)發(fā),精細(xì)化管理資源池用戶的需求需要得到很好的支持。
目前,不斷增長(zhǎng)的業(yè)務(wù)對(duì)信息基礎(chǔ)設(shè)施建設(shè)和運(yùn)維的要求越來(lái)越高,因此需要進(jìn)行信息網(wǎng)絡(luò)基礎(chǔ)設(shè)施資源池的規(guī)范設(shè)計(jì)和統(tǒng)一建設(shè)。氣象業(yè)務(wù)資源池在氣象業(yè)務(wù)中應(yīng)用虛擬化技術(shù),提供資源共享、快速擴(kuò)展、可度量、可定制的低成本氣象數(shù)據(jù)處理和服務(wù)有著非常重要的意義[1]。已經(jīng)將云計(jì)算虛擬化技術(shù)用于國(guó)家級(jí)氣象業(yè)務(wù)資源池的構(gòu)建,以解決信息孤島、設(shè)備利用率低等問(wèn)題,在投入業(yè)務(wù)運(yùn)行以來(lái)遇到了一些具體問(wèn)題,隨著氣象資源池承載的業(yè)務(wù)系統(tǒng),服務(wù)的用戶數(shù)量增加,提出了許多合理需求。作為云計(jì)算的關(guān)鍵技術(shù)之一,云計(jì)算環(huán)境中的資源池管理技術(shù)值得深入研究和探討,有關(guān)氣象資源池并沒(méi)有系統(tǒng)的方法可供遵循,氣象行業(yè)同時(shí)又具有自身的特殊性和重要性,都加劇了資源池管理規(guī)劃和建設(shè)的難度。該文在理解云計(jì)算的基礎(chǔ)上,結(jié)合氣象業(yè)務(wù)的自身特點(diǎn)和用戶需求,重點(diǎn)研究了智能化精細(xì)化管理技術(shù)在氣象行業(yè)中資源池的設(shè)計(jì)規(guī)劃、建設(shè)部署和相關(guān)應(yīng)用開(kāi)展情況,同時(shí)對(duì)該建設(shè)部署的投資收益進(jìn)行分析,說(shuō)明了該技術(shù)的可行性和有效性。目前,業(yè)界沒(méi)有成熟的資源池智能管理的技術(shù)方案,該文提到的智能管理技術(shù)在國(guó)家級(jí)氣象行業(yè)的應(yīng)用會(huì)給氣象行業(yè)以及其他行業(yè)帶來(lái)很好的借鑒。
作為以信息獲取、信息加工處理和信息服務(wù)為特征的氣象行業(yè),各業(yè)務(wù)單位所從事的業(yè)務(wù)工作無(wú)一例外的是氣象信息相關(guān)工作,業(yè)務(wù)系統(tǒng)無(wú)一例外的是信息系統(tǒng)[2]。由于歷史原因,早期企業(yè)部門(mén)間的IT建設(shè)缺乏統(tǒng)一管理,應(yīng)用需求差異較大且開(kāi)發(fā)時(shí)間不一致,導(dǎo)致多個(gè)軟硬件平臺(tái)的信息系統(tǒng)同時(shí)運(yùn)行[3]。氣象行業(yè)業(yè)務(wù)系統(tǒng)的產(chǎn)生是根據(jù)某一個(gè)或某些具有共性的一類特定需求如短期氣象預(yù)報(bào)、長(zhǎng)期氣候預(yù)報(bào)、山洪地質(zhì)災(zāi)害預(yù)報(bào)等進(jìn)行獨(dú)立開(kāi)發(fā)的,由于目的與用途不同,所得到的業(yè)務(wù)系統(tǒng)也彼此不同。目前國(guó)家氣象信息中心服務(wù)器主要以X86服務(wù)器為主,小型機(jī)為輔,運(yùn)行著天氣預(yù)報(bào)預(yù)測(cè),氣候監(jiān)測(cè)預(yù)警,數(shù)據(jù)庫(kù)、文件共享、通信傳輸、安全等業(yè)務(wù)系統(tǒng),基本上是采取1臺(tái)或者多臺(tái)服務(wù)器部署1個(gè)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)部署方式,這就造成了服務(wù)器資源的浪費(fèi),多數(shù)服務(wù)器沒(méi)有得到充分的利用,有的負(fù)載長(zhǎng)期5%以下,導(dǎo)致了大量的硬件、空間以及電力的空耗。
產(chǎn)生這些問(wèn)題的一個(gè)重要原因在于:信息孤島。在這種技術(shù)環(huán)境中,系統(tǒng)之間絕少相互通信,無(wú)法共享資源,致使服務(wù)器與存儲(chǔ)性能得不到充分利用。這些都將直接導(dǎo)致IT管理者面臨如何快速地滿足不斷變化的業(yè)務(wù)需求,如何降低管理、維護(hù)的成本,從而增大用于創(chuàng)新投資比例等方面的嚴(yán)峻挑戰(zhàn)。這就推動(dòng)信息系統(tǒng)從傳統(tǒng)大型主機(jī)向開(kāi)放架構(gòu)[4-6]、從分布式架構(gòu)向云計(jì)算服務(wù)演進(jìn)[7]。
云計(jì)算是近年來(lái)興起并廣受關(guān)注的一種資源提供、使用和計(jì)算模式:“云計(jì)算是由規(guī)模經(jīng)濟(jì)拖動(dòng),為互聯(lián)網(wǎng)上的外部用戶提供一組抽象的、虛擬化的、動(dòng)態(tài)可擴(kuò)展的、可管理的計(jì)算資源能力、存儲(chǔ)能力、平臺(tái)和服務(wù)的一種大規(guī)模分布式計(jì)算的聚合體[8],云計(jì)算環(huán)境中的資源池管理是云計(jì)算的關(guān)鍵技術(shù)之一[9]。跨越IT架構(gòu)實(shí)現(xiàn)對(duì)資源的統(tǒng)一管理、調(diào)度和監(jiān)控,進(jìn)而提高系統(tǒng)整體的靈活性和效益[10]?;谠朴?jì)算的虛擬化技術(shù)憑借較高的可用性、靈活性、擴(kuò)展性等優(yōu)勢(shì)受到人們的追逐。
依托國(guó)家發(fā)展改革委工程建設(shè)項(xiàng)目“氣象雷達(dá)國(guó)家級(jí)IT基礎(chǔ)設(shè)施資源擴(kuò)建項(xiàng)目”“山洪地質(zhì)災(zāi)害防治氣象保障工程”,氣象小型建設(shè)項(xiàng)目“氣象政府網(wǎng)站集約化平臺(tái)資源池?cái)U(kuò)充和網(wǎng)絡(luò)安全建設(shè)項(xiàng)目”,目前已經(jīng)初具規(guī)模,已經(jīng)建設(shè)成基于云計(jì)算技術(shù)的國(guó)家級(jí)氣象資源池系統(tǒng),整個(gè)氣象云資源池由VMWARE和華為FusionCloud兩個(gè)虛擬化資源池組成,分別部署在局域網(wǎng)和互聯(lián)網(wǎng)區(qū)域,為局域網(wǎng)和互聯(lián)網(wǎng)網(wǎng)絡(luò)區(qū)域的業(yè)務(wù)系統(tǒng)提供計(jì)算和存儲(chǔ)資源服務(wù),整個(gè)資源池服務(wù)于中國(guó)氣象局各個(gè)業(yè)務(wù)單位,提供IT資源及平臺(tái)環(huán)境服務(wù),涵蓋業(yè)務(wù)、政務(wù)、科研等方面,共承載包括強(qiáng)天氣預(yù)報(bào)系統(tǒng),國(guó)家級(jí)氣象業(yè)務(wù)內(nèi)網(wǎng),中國(guó)氣象科學(xué)數(shù)據(jù)網(wǎng),軍事保障平臺(tái)等多個(gè)重要業(yè)務(wù)系統(tǒng)。氣象資源池架構(gòu)參考圖1。
資源池包括109臺(tái)X86服務(wù)器承載國(guó)家氣象中心、國(guó)家氣候中心、國(guó)家衛(wèi)星氣象中心等1 358個(gè)虛機(jī)用戶,滿足423個(gè)氣象業(yè)務(wù)和政務(wù)系統(tǒng)的運(yùn)行,氣象資源池計(jì)算資源CPU總核數(shù)為6 147個(gè),內(nèi)存總數(shù)為40 TB,分配給用戶使用的CPU資源為10 067個(gè),CPU分配164%,處于超分狀態(tài),內(nèi)存分配21 TB,分配率為53%,物理機(jī)與虛擬機(jī)的集約化比為1∶12。整個(gè)氣象云資源池的規(guī)模參考表1。
氣象資源池于2018年投入業(yè)務(wù)運(yùn)行,隨著資源池承載的用戶和業(yè)務(wù)系統(tǒng)的數(shù)量的日益增加,運(yùn)維部門(mén)在日常運(yùn)維過(guò)程中發(fā)現(xiàn)存在一些問(wèn)題。主要集中在以下兩個(gè)方面:
圖1 氣象云資源池架構(gòu) 表1 氣象云資源池規(guī)模
區(qū)域主機(jī)數(shù)量虛機(jī)數(shù)量CPU總數(shù)(核)CPU分配(核)內(nèi)存總數(shù)/TB內(nèi)存分配/TB集約比氣象網(wǎng)絡(luò)1091 3586 14710 06740211∶12
氣象云資源池實(shí)現(xiàn)了資源的有效利用和集約整合,1∶12的集約比體現(xiàn)了資源池集約化效益。但是,用戶在申請(qǐng)資源基本上是估算。典型例子就是用戶如果評(píng)估應(yīng)用會(huì)很占資源,就申請(qǐng)16核32 GB內(nèi)存的虛擬機(jī)資源,實(shí)際使用過(guò)程中沒(méi)有直觀的資源性能數(shù)據(jù)展示給用戶,造成了用戶使用資源的盲目性以及資源使用過(guò)程中的不確定性。
氣象云資源池由國(guó)家氣象信息中心資源池系統(tǒng)管理員統(tǒng)一運(yùn)維管理,目前承載1 358個(gè)虛機(jī)用戶,隨著新業(yè)務(wù)的不斷上線,用戶數(shù)量還在陸續(xù)增加。用戶申請(qǐng)的資源五花八門(mén),涉及到不同類型的操作系統(tǒng)(如windows,Centos Linux,Redhat Linux,Ubuntu Linux等),還涉及到操作系統(tǒng)的不同版本,因此,面對(duì)來(lái)自如氣象中心、氣候中心等不同業(yè)務(wù)使用部門(mén)類型多樣化的大量用戶資源申請(qǐng),運(yùn)維管理員在處理資源申請(qǐng)發(fā)放虛機(jī)的時(shí)候感到應(yīng)接不暇,力不從心。
同時(shí),資源池用戶在使用過(guò)程中遇到技術(shù)問(wèn)題,例如虛機(jī)掛死、機(jī)器重啟、軟件包安裝等常規(guī)維護(hù)都會(huì)求助資源池系統(tǒng)管理員,系統(tǒng)管理員數(shù)量有限,無(wú)形中造成大量運(yùn)維壓力。
4.1.1 完整性原則
滿足系統(tǒng)設(shè)計(jì)要求,滿足系統(tǒng)結(jié)構(gòu)和功能要求,滿足系統(tǒng)性能指標(biāo)要求,滿足系統(tǒng)硬件指標(biāo),完全適用于資源池要求,遵循具有很好的完整性和適用性原則,保證系統(tǒng)正常實(shí)施和運(yùn)行。
4.1.2 實(shí)用性原則
系統(tǒng)為用戶提供簡(jiǎn)單、方便、易操作的人機(jī)對(duì)話界面,功能布局采用人性化設(shè)計(jì),在便于日常工作實(shí)際操作的基礎(chǔ)上滿足系統(tǒng)功能要求,系統(tǒng)做到簡(jiǎn)便、實(shí)用、易配置、易學(xué)習(xí)、易操作、易維護(hù)、易升級(jí),遵循實(shí)用性原則。
依照設(shè)計(jì)原則,針對(duì)用戶盲目申請(qǐng),造成資源浪費(fèi)以及用戶數(shù)量劇增,運(yùn)維壓力加大的兩個(gè)業(yè)務(wù)需求,分別提出兩個(gè)設(shè)計(jì)思路。
4.2.1 掌握系統(tǒng)資源利用情況
傳統(tǒng)模式下,用戶拿到申請(qǐng)的計(jì)算和存儲(chǔ)資源后,會(huì)遵循拿來(lái)即用的觀念,只關(guān)心利用計(jì)算存儲(chǔ)資源部署的業(yè)務(wù)系統(tǒng)運(yùn)行正常與否,對(duì)于底層資源的利用效率關(guān)心不夠。考慮利用現(xiàn)有系統(tǒng)引入人性化設(shè)計(jì),針對(duì)不同業(yè)務(wù)層次,從不同組織單位、不同業(yè)務(wù)系統(tǒng)、不同系統(tǒng)管理員方面提供細(xì)粒度的資源使用情況展示,有利于管理人員不同維度掌握資源的使用效率。
4.2.2 自主管控資源分配
用戶在使用資源的過(guò)程中,業(yè)務(wù)上線需要經(jīng)過(guò)環(huán)境部署、代碼調(diào)試、開(kāi)發(fā)測(cè)試、安全審計(jì)等多個(gè)環(huán)節(jié)。用戶對(duì)于虛機(jī)需要進(jìn)行多次的維護(hù)操作,通過(guò)不同層次的賬戶功能授權(quán),將資源運(yùn)維界面推送給用戶運(yùn)維操作,對(duì)于開(kāi)關(guān)機(jī)、遠(yuǎn)程登陸等常規(guī)操作,實(shí)現(xiàn)自助式服務(wù),同時(shí)提升處理效率。
4.3.1 細(xì)粒度精細(xì)化監(jiān)視系統(tǒng)
目前,氣象部門(mén)建設(shè)了“天鏡”氣象業(yè)務(wù)綜合監(jiān)控平臺(tái),該平臺(tái)采用分布式架構(gòu),利用Storm流處理、rabbitmq消息隊(duì)列、elasticsearch分布式搜索、cassandra云數(shù)據(jù)庫(kù)等大數(shù)據(jù)處理技術(shù),具有海量運(yùn)維數(shù)據(jù)存儲(chǔ)和處理能力,同時(shí)構(gòu)建了CMDB配置管理數(shù)據(jù)庫(kù)及運(yùn)維流程管理平臺(tái)?;凇疤扃R”系統(tǒng),在CMDB的基礎(chǔ)上建設(shè)國(guó)家級(jí)氣象云資源池監(jiān)視系統(tǒng),實(shí)現(xiàn)不同粒度不同維度的展示,從用戶需求著手,對(duì)不同部門(mén)的用戶設(shè)置不同權(quán)限的用戶,實(shí)現(xiàn)不同維度的資源展示。
氣象云資源池通過(guò)CMDB權(quán)限控制,針對(duì)不同組織級(jí)別用戶賦予不同權(quán)限,設(shè)計(jì)四級(jí)管理員。例如,一級(jí)系統(tǒng)管理員登陸界面,可以看到不同時(shí)間段(1小時(shí)、6小時(shí)、1天、15天)1 358臺(tái)虛機(jī)整體的運(yùn)行狀況,如CPU、內(nèi)存以及本地存儲(chǔ)使用率等信息。
二級(jí)管理員如氣象中心管理員登錄后,可以看到共300個(gè)氣象中心用戶虛機(jī)的運(yùn)行狀況。三級(jí)管理員如氣象中心預(yù)報(bào)處管理員登錄后,可以看到共50個(gè)強(qiáng)天氣預(yù)報(bào)處用戶虛機(jī)的運(yùn)行狀況。四級(jí)管理員如天氣預(yù)報(bào)A系統(tǒng)管理員登錄后,可以看到10個(gè)屬于A系統(tǒng)用戶虛機(jī)的運(yùn)行狀況。由此實(shí)現(xiàn)用戶對(duì)于自己申請(qǐng)資源的動(dòng)態(tài)監(jiān)視。按照不同組織架構(gòu)設(shè)計(jì)氣象云資源池用戶權(quán)限,如圖2所示。
圖2 氣象云資源池用戶權(quán)限設(shè)計(jì)
通過(guò)創(chuàng)新性地引入統(tǒng)一的基礎(chǔ)實(shí)施資源展示,屏蔽了氣象私有云IaaS虛擬化底層的VMWARE和FusionCloud異構(gòu)云平臺(tái)架構(gòu),實(shí)現(xiàn)了不同虛擬化平臺(tái)資源層面的統(tǒng)一展示,有利于用戶更好地掌握屬于不同業(yè)務(wù)部門(mén)、不同業(yè)務(wù)系統(tǒng)的資源利用情況。
4.3.2 自助式運(yùn)維模式
為了緩解資源池運(yùn)維管理員的日常運(yùn)維壓力,借鑒了類似于阿里、騰訊公有云面向公眾用戶的運(yùn)維模式,基于FusionCloud系統(tǒng)在氣象私有云運(yùn)維中創(chuàng)新性地引入公有云的自助式運(yùn)維模式技術(shù),自助式運(yùn)維模式之前在整個(gè)氣象行業(yè)私有云運(yùn)維過(guò)程中沒(méi)有采用過(guò),引入VDC(虛擬數(shù)據(jù)中心)技術(shù),設(shè)計(jì)三級(jí)VDC系統(tǒng)。氣象云資源池自助式運(yùn)維架構(gòu)如圖3所示。
圖3 氣象云資源池自助式運(yùn)維架構(gòu)
一級(jí)VDC管理員為氣象私有云超級(jí)管理員,對(duì)于二級(jí)VDC,可以設(shè)置不同的資源配額,例如,給氣象中心二級(jí)VDC分配200核CPU,128 GB內(nèi)存以及2 TB存儲(chǔ)資源的總配額,氣象中心二級(jí)VDC管理員可以對(duì)屬于自己VDC內(nèi)部的資源進(jìn)行自助式運(yùn)維,按照本部門(mén)內(nèi)部的個(gè)性化需求,進(jìn)行不同規(guī)格不同操作系統(tǒng)的虛機(jī)資源分配,包括對(duì)虛機(jī)的開(kāi)關(guān)機(jī)操作。同樣,二級(jí)VDC管理員可以將超級(jí)VDC管理員分配給自己的總配額拆分成小配額分配給三級(jí)VDC,例如氣象中心二級(jí)VDC管理員可以分配給預(yù)報(bào)處三級(jí)VDC 50核CPU,32 GB內(nèi)存以及1 TB存儲(chǔ)資源的配額,預(yù)報(bào)處三級(jí)VDC管理員同樣可以根據(jù)本部門(mén)內(nèi)部的個(gè)性化需求,進(jìn)行不同規(guī)格不同操作系統(tǒng)的虛機(jī)資源分配,包括對(duì)虛機(jī)的開(kāi)關(guān)機(jī)操作。
通過(guò)不同組織VDC分級(jí)自助式管理實(shí)現(xiàn)了各級(jí)組織架構(gòu)用戶對(duì)于本部門(mén)資源的自助式運(yùn)維管理,針對(duì)資源利用空閑多的虛機(jī),可以自行釋放資源,針對(duì)資源運(yùn)行緊張的系統(tǒng),可以自助補(bǔ)充增加資源,真正實(shí)現(xiàn)本部門(mén)自助式運(yùn)維資源的目的,緩解了氣象私有云系統(tǒng)管理員的運(yùn)維壓力。
借助創(chuàng)新引入了細(xì)粒度精細(xì)化監(jiān)視技術(shù)和自助式運(yùn)維模式,通過(guò)一年多的業(yè)務(wù)運(yùn)行,氣象私有云系統(tǒng)管理員和氣象業(yè)務(wù)系統(tǒng)用戶聯(lián)合對(duì)氣象私有云資源持續(xù)地進(jìn)行了資源動(dòng)態(tài)調(diào)配以及優(yōu)化調(diào)整,氣象云資源池整體計(jì)算資源利用率得到顯著提升,整個(gè)系統(tǒng)資源利用率由創(chuàng)新技術(shù)使用之前的40%提升到60%,資源利用集約化效益顯著,氣象云資源池資源利用率得到極大的提升,在物理機(jī)虛擬機(jī)集約比1∶12的基礎(chǔ)上,運(yùn)維部門(mén)接到的技術(shù)支持運(yùn)維熱線同比下降了50%,大大緩解了運(yùn)維人員的運(yùn)維壓力,同時(shí)也提升了用戶用好管好資源的能動(dòng)性。
通過(guò)氣象云資源池智能管理技術(shù)的應(yīng)用,初步實(shí)現(xiàn)了在數(shù)據(jù)中心機(jī)房對(duì)氣象業(yè)務(wù)和辦公應(yīng)用基于IaaS層的虛擬化、集中部署和智能管理,實(shí)現(xiàn)的虛擬機(jī)管理主要指IaaS層的資源管理[11],包括各種物理資源和邏輯資源的管理,對(duì)云計(jì)算不同服務(wù)層的統(tǒng)一集中資源管理的研究還很少,作為一個(gè)SaaS服務(wù)的資源管理的研究則更少[12]。目前更多關(guān)于云架構(gòu)的研究是在基礎(chǔ)設(shè)施層架構(gòu)的研究[13]。不過(guò)促進(jìn)資源集約使用,提高利用效率和精細(xì)化管理水平[14]是氣象部門(mén)一直面對(duì)的挑戰(zhàn)。
在企業(yè)數(shù)字化轉(zhuǎn)型需求的拉動(dòng)下,未來(lái)幾年企業(yè)對(duì)數(shù)據(jù)庫(kù)、中間件、微服務(wù)等PaaS服務(wù)的需求將持續(xù)增長(zhǎng)。SaaS市場(chǎng)規(guī)模增速較穩(wěn)定,發(fā)展空間大,2020年受疫情影響,預(yù)計(jì)未來(lái)市場(chǎng)的接受周期會(huì)縮短。該文結(jié)合具體氣象私有云應(yīng)用現(xiàn)狀由運(yùn)維痛點(diǎn)出發(fā),介紹了氣象私有云實(shí)際運(yùn)行過(guò)程中的業(yè)務(wù)需求,通過(guò)IaaS層智能管理技術(shù),設(shè)計(jì)原則和解決思路,創(chuàng)新地引入公有云服務(wù)應(yīng)用模式到氣象私有云管理,同時(shí)將異構(gòu)虛擬化平臺(tái)的用戶權(quán)限集中統(tǒng)一展示,值得其他行業(yè)類似應(yīng)用模式借鑒和參考。未來(lái)將有更多的云計(jì)算、大數(shù)據(jù)研究成果應(yīng)用到氣象業(yè)務(wù)工作的方方面面,為氣象模式提供支撐,通過(guò)氣象模式模擬,預(yù)測(cè)未來(lái)氣候與氣象變化[15],并進(jìn)一步提升氣象預(yù)報(bào)、服務(wù)效果。