鄭海勇
本文以省級單位數(shù)據(jù)中心建設(shè)云計算基礎(chǔ)設(shè)施平臺的探索實踐為例,探討云計算基礎(chǔ)設(shè)施平臺的建設(shè)思路,以期探索出一條特色的節(jié)能高效硬件管理現(xiàn)代化之路,為落實“互聯(lián)網(wǎng)+”行動及大數(shù)據(jù)應(yīng)用提供重要基礎(chǔ)保障。
一、平臺搭建背景
隨著經(jīng)濟(jì)的發(fā)展,現(xiàn)代數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,數(shù)據(jù)量隨之急速增長,計算存儲設(shè)備數(shù)量與規(guī)模呈幾何級別的增長,數(shù)據(jù)中心的維護(hù)與管理開始出現(xiàn)以下問題:
1.1服務(wù)器增長對機房容量消耗快
短短幾年間,服務(wù)器由原來的幾十臺迅速增長到了幾百臺,呈現(xiàn)出幾何級的增長速度,其他外設(shè)、存儲、網(wǎng)絡(luò)設(shè)備也快速增長,對機房空間和電力的消耗非常大。
1.2服務(wù)器部署管理難度大
應(yīng)用系統(tǒng)往往要求在極短的時間內(nèi)甚至需求當(dāng)天完成計算機環(huán)境準(zhǔn)備和部署,對服務(wù)器資源調(diào)撥提出了極高的管理要求,操作系統(tǒng)、軟件、應(yīng)用、配置的重復(fù)安裝浪費了大量時間精力,使日常維護(hù)變得更為復(fù)雜繁瑣。
1.3服務(wù)器資源利用率低
據(jù)統(tǒng)計,目前數(shù)據(jù)中心小型機的利用率一般在10%到20%,服務(wù)器普遍低于3%。即便是在每月、每年的業(yè)務(wù)高峰期、高峰時段,業(yè)務(wù)的壓力主要在數(shù)據(jù)庫、小型機,而前端應(yīng)用服務(wù)器CPU利用率一般也不高于10%,造成原本就不充足的服務(wù)器資源大量浪費虛置。
1.4硬件故障恢復(fù)時間長
目前大部分?jǐn)?shù)據(jù)中心除了采取雙機熱備的少部分服務(wù)器和小型機外,設(shè)備一旦有任何硬件故障,都必須停機檢查、更換零件,耗費的時間少則半個小時,多則一兩天,直接影響到應(yīng)用系統(tǒng)的可持續(xù)服務(wù)。
二、平臺搭建與管理的具體實踐
經(jīng)過前期的摸索和測試,通過采取新、老結(jié)合的方式,對傳統(tǒng)基礎(chǔ)設(shè)施體系進(jìn)行改造,積極探索搭建云計算基礎(chǔ)設(shè)施平臺,推動高效率、低能耗的綠色數(shù)據(jù)中心建設(shè)。
2.1前期調(diào)研籌備
在這個階段主要明確三點:平臺能做什么、需要做什么、該怎么建設(shè)。經(jīng)過充分調(diào)研,確定了云計算基礎(chǔ)設(shè)施平臺的架構(gòu)圖,如圖1所示,并決定先搭建底層的虛擬化平臺,為云計算基礎(chǔ)設(shè)施平臺奠定重要基礎(chǔ)。
2.2虛擬化平臺的搭建
虛擬化平臺按功能定位,細(xì)分為“測試應(yīng)用集群”“核心內(nèi)網(wǎng)應(yīng)用集群…‘核心外網(wǎng)應(yīng)用集群”,每個集群(cluster)由若干臺物理服務(wù)器組成。如圖2所示:
2.3虛擬化平臺的使用與管理
1.虛擬化平臺的使用。虛擬化平臺投入使用后,第一步是對舊平臺資源進(jìn)行整合,淘汰老舊物理主機,將較重要的應(yīng)用系統(tǒng)遷入到核心內(nèi)網(wǎng)集群中,保障其性能與穩(wěn)定性。第二步則從兩方面著手,一方面根據(jù)新應(yīng)用系統(tǒng)的上線需求,將符合“準(zhǔn)入標(biāo)準(zhǔn)”的新應(yīng)用系統(tǒng)部署到虛擬化平臺中,另一方面對年代久遠(yuǎn)、不能下線又無法重新部署的舊應(yīng)用系統(tǒng)進(jìn)行虛擬化遷移,下架故障率高的舊物理服務(wù)器,降低對機房的資源消耗和空間占用。2.虛擬化平臺的管理。當(dāng)前采取的管理措施包括:一是虛擬機管理。登記每臺虛擬機的資源配置、運載應(yīng)用系統(tǒng)、使用部門和使用人等資料,并及時升級操作系統(tǒng)的虛擬機模板,安裝漏洞補丁。二是硬件資源管理。跟蹤分析現(xiàn)有硬件資源消耗情況,提前增加硬件資源,并對物理服務(wù)器進(jìn)行定期巡檢、修復(fù)故障。此外,監(jiān)控虛擬機資源實際使用情況并動態(tài)調(diào)整每臺虛擬機的資源配置,提高資源使用效率。三是制度流程管理。建立虛擬化平臺巡檢制度、虛擬機增刪改流程、故障應(yīng)急處理流程、性能監(jiān)控分析報告制度,使虛擬化工作管理有據(jù)可依。
2.4虛擬化平臺成效初步凸顯
1.提高資源利用率,省電省錢省空間。目前物理服務(wù)器與虛擬機達(dá)到1:10的使用比例,即平均每臺物理服務(wù)器上能運行10個應(yīng)用系統(tǒng),直接節(jié)約物理服務(wù)器資源達(dá)90%,服務(wù)器數(shù)量的大幅減少,一方面節(jié)約了大量的服務(wù)器購置費用,另一方面有效降低了電耗和機房空間占有率。以100臺服務(wù)器的數(shù)據(jù)中心為例,使用云平臺后可節(jié)約39%的電力,節(jié)省約203平方米的空間。隨著虛擬化和云計算技術(shù)的進(jìn)一步推廣使用,經(jīng)費、電力和空間的節(jié)省效果將會更加明顯,利于推進(jìn)節(jié)能省電綠色可持續(xù)發(fā)展。
2.提高系統(tǒng)可用性,稅收業(yè)務(wù)不間斷。除了完善的VDP數(shù)據(jù)備份保護(hù)外,平臺還實現(xiàn)了對應(yīng)用系統(tǒng)的HA故障保護(hù)。經(jīng)上百次的測試結(jié)果表明,故障服務(wù)器上的虛擬機能全部自動轉(zhuǎn)移到正常的服務(wù)器上,以保證應(yīng)用系統(tǒng)不間斷。目前未出現(xiàn)因物理服務(wù)器故障而導(dǎo)致虛擬機服務(wù)中斷的情況。
3.資源優(yōu)化再配置,系統(tǒng)提速又增效。據(jù)監(jiān)測數(shù)據(jù)分析,調(diào)整后,以100臺虛擬機為例,可節(jié)約了18%的資源,物理服務(wù)器有效利用率從原來的61%提高到73%以上,各應(yīng)用系統(tǒng)的運行效率也有了明顯提高。
4.延長軟件生命期,應(yīng)用安全更穩(wěn)定。利用虛擬機的熱遷移功能,將已使用較久、應(yīng)用系統(tǒng)暫時又無法下線的舊服務(wù)器進(jìn)行完整克隆、生成虛擬機,大大提高了信息應(yīng)用的安全性和穩(wěn)定性。
三、深化虛擬化和云計算應(yīng)用探索的思考
1、完善優(yōu)化“集群化”的構(gòu)成模式?;谔摂M化平臺每個集群內(nèi)的物理服務(wù)器型號配置相同,因此若配置不同時,可能導(dǎo)致大型虛擬機占用的資源可能是小型虛擬機的數(shù)倍,導(dǎo)致小型虛擬機的請求無法實時響應(yīng)的情況,造成“性能下降”的假象。此外,越是多路多核的CPU、空間越大的內(nèi)存,尋址時間偏長,影響小型虛擬機,并隨著虛擬機數(shù)量增加,矛盾隨之加劇。為此,需要進(jìn)一步合理優(yōu)化硬件資源,提高虛擬機實際性能。
2、合理部署“一對多”的業(yè)務(wù)模式。在設(shè)計虛擬化平臺時,必須考慮性能優(yōu)化的問題,具體又分為兩種情況:功能相同性,即是幾個應(yīng)用終端虛擬機的功能是相同的,就必須盡量將它們分散到不同的物理服務(wù)器上,分散風(fēng)險,避免相互搶占資源。另一種情況是,功能連續(xù)性,即同一個業(yè)務(wù)系統(tǒng)的幾個應(yīng)用終端相互之間要頻繁交流數(shù)據(jù),應(yīng)將它們都放到一個物理服務(wù)器上,避免占用物理網(wǎng)絡(luò)資源,提高數(shù)據(jù)交換效率。為此,在大型應(yīng)用系統(tǒng)上線之前,系統(tǒng)管理員要加強對應(yīng)用的了解,合理部署終端虛擬機,提高系統(tǒng)性能。
3、深入挖掘“可還原”的備份模式?;谔摂M機的熱遷移技術(shù)(VMotion)、HA技術(shù)、VDP備份技術(shù)、克隆和快照、Replication技術(shù)的技術(shù)缺陷,在未來需通過反復(fù)細(xì)致的研究和試驗,綜合運用虛擬化平臺的各種還原功能,使特殊應(yīng)用系統(tǒng)的故障還原時間、數(shù)據(jù)丟失風(fēng)險與資源占用達(dá)到最佳平衡點。
4、搭建應(yīng)用“虛擬化”的開發(fā)環(huán)境。在未來逐步搭建起一個“虛擬化開發(fā)環(huán)境”平臺,安裝開發(fā)人員需要使用的所有開發(fā)工具,使應(yīng)用系統(tǒng)從開發(fā)起就在虛擬化的環(huán)境中進(jìn)行,降低應(yīng)用系統(tǒng)在虛擬機環(huán)境中出錯的概率。
5、打造全新“云計算”的基礎(chǔ)環(huán)境。繼續(xù)深入探索存儲虛擬化、網(wǎng)絡(luò)虛擬化、物理設(shè)備與虛擬設(shè)備互融組合、計算資源規(guī)?;渴鸬?,積極利用先進(jìn)技術(shù),對傳統(tǒng)IT基礎(chǔ)環(huán)境進(jìn)行完善,為大數(shù)據(jù)時代創(chuàng)造一套基礎(chǔ)設(shè)備資源優(yōu)化、互融、規(guī)?;渴鸸芾淼男履J?,以技術(shù)革新開創(chuàng)“互聯(lián)網(wǎng)+”行動的新局面。