[孫淳曄 李紅雙 趙秋爽 鈐程程]
隨著云計(jì)算技術(shù)的成熟及推廣,近年來(lái)運(yùn)營(yíng)商以實(shí)現(xiàn)資源的按需分配為直接目的進(jìn)行了大量的資源池建設(shè),有對(duì)外提供服務(wù)的公有云資源池,對(duì)內(nèi)提供服務(wù)的私有云資源池,電信業(yè)進(jìn)入了云時(shí)代。
資源池的建設(shè)打破了傳統(tǒng)各業(yè)務(wù)系統(tǒng)煙囪式的建設(shè)模式,以追求業(yè)務(wù)敏捷性、實(shí)現(xiàn)統(tǒng)一管理及共享使用為目的,引入了虛擬化、容器、微服務(wù)、多租戶等技術(shù),搭建了標(biāo)準(zhǔn)統(tǒng)一的云管理平臺(tái),實(shí)現(xiàn)了資源的統(tǒng)一分配及管理。但現(xiàn)實(shí)中,資源池的利用率普遍偏低,2017 年Q3,中國(guó)移動(dòng)集團(tuán)總部的私有云利用率僅為5.12%。建設(shè)效果并未達(dá)到初衷[1]。
基于以上背景,文章針對(duì)資源池的建設(shè)及運(yùn)營(yíng)情況進(jìn)行深入分析,從技術(shù)上和管理機(jī)制上針對(duì)性提出改進(jìn)方案,實(shí)現(xiàn)資源池的精細(xì)化管理,充分發(fā)揮資源池的使用效果及價(jià)值。
早期的運(yùn)營(yíng)商資源池多為省獨(dú)立建設(shè)模式,主要以私有云模式為主,部署本地化業(yè)務(wù)及應(yīng)用,平臺(tái)異構(gòu),廠家多元,歷經(jīng)多期建設(shè),體量龐大。在系統(tǒng)的規(guī)劃期、分配期、使用期、回收期等關(guān)鍵環(huán)節(jié)或多或少存在一些問(wèn)題,缺乏科學(xué)的規(guī)劃及評(píng)估體系。
(1)容量規(guī)劃期,資源池建設(shè)主體單位一般采用讓各需求單位直接提出物理機(jī)和虛擬機(jī)的服務(wù)器規(guī)模、性能需求。業(yè)務(wù)部門(mén)為追求業(yè)務(wù)發(fā)展的穩(wěn)定性,會(huì)盡量多地申請(qǐng)資源,缺乏合理、科學(xué)的設(shè)備擴(kuò)容原則。
(2)資源分配期,資源池只是進(jìn)行了IT基礎(chǔ)設(shè)施的池化,并沒(méi)有實(shí)現(xiàn)資源實(shí)時(shí)動(dòng)態(tài)地根據(jù)業(yè)務(wù)需求自動(dòng)調(diào)整分配。需求單位無(wú)償使用資源,在資源池的資源有限時(shí),資源池投資主體單位在分配時(shí)一定會(huì)優(yōu)先保障自身對(duì)資源的使用需求。業(yè)務(wù)使用部門(mén)從業(yè)務(wù)穩(wěn)定性角度出發(fā),會(huì)按最大資源申請(qǐng)。
(3)資源使用期,資源池各節(jié)點(diǎn)利用率差異較大,部分節(jié)點(diǎn)利用率低,但并沒(méi)有將資源進(jìn)行釋放供其他節(jié)點(diǎn)使用,即使利用率低也沒(méi)有動(dòng)力將資源進(jìn)行釋放,造成資源池忙閑不均,資源浪費(fèi)。
(4)資源回收期:資源池的后評(píng)估體系不夠完善,無(wú)法衡量資源池的實(shí)際使用效果,造成資源池低利用率設(shè)備無(wú)法回收,只能等待設(shè)備達(dá)到使用年限下線。
以上各環(huán)節(jié)導(dǎo)致資源池投資較大,但效果不強(qiáng);建設(shè)規(guī)模較大,但利用率不高,在當(dāng)前云資源池大規(guī)模建設(shè)的階段,除了使用先進(jìn)的技術(shù)手段予以解決,更重要是做好前評(píng)估,制定一套合理的流程機(jī)制進(jìn)行規(guī)避。
云資源的建設(shè)及管理首先要考慮投資效益和資源分配,云服務(wù)的提供要在云資源使用共享的基礎(chǔ)上考慮業(yè)務(wù)敏捷靈活、高效安全的運(yùn)營(yíng)。云資源池的建設(shè)與維護(hù)體現(xiàn)在其整個(gè)生命周期的各個(gè)環(huán)節(jié)上,需要從規(guī)劃期進(jìn)行合理的規(guī)劃、在使用期進(jìn)行科學(xué)的分配、在維護(hù)期進(jìn)行最優(yōu)的管控,如表1 所示。
表1 業(yè)務(wù)現(xiàn)狀梳理分類(lèi)
需要考慮未上云系統(tǒng)如何高效上云,打造未上云系統(tǒng)的“業(yè)務(wù)云化全景圖”,系統(tǒng)摸排業(yè)務(wù)運(yùn)行狀態(tài),促進(jìn)業(yè)務(wù)上云,形成合理的云化方案。對(duì)于已上云系統(tǒng)根據(jù)在網(wǎng)利用率進(jìn)行合理擴(kuò)容。
如圖1 所示,結(jié)合云管平臺(tái),制定標(biāo)簽規(guī)范,建立業(yè)務(wù)全景圖。
圖1 標(biāo)簽規(guī)范架構(gòu)組成
針對(duì)即將上云的業(yè)務(wù)系統(tǒng)合理評(píng)估使用資源,合理高效上云。除了計(jì)算、存儲(chǔ),網(wǎng)絡(luò)等基礎(chǔ)資源,還要兼顧安全,業(yè)務(wù)連續(xù)性、性能等方面,遵循以下原則,如表2 所示。
表2 上云評(píng)估體系
上云原則:制定針對(duì)不同業(yè)務(wù)的上云策略。業(yè)務(wù)逐漸從X86 物理機(jī)遷移到虛擬機(jī),從Scale Up 轉(zhuǎn)向Scale Out,用小規(guī)格虛擬機(jī)分布式橫向彈性伸縮擴(kuò)展?jié)M足業(yè)務(wù)需求,集中式存儲(chǔ)替換為分布式存儲(chǔ),數(shù)據(jù)庫(kù)采用數(shù)據(jù)庫(kù)一體機(jī)替換。
通過(guò)規(guī)劃期內(nèi)對(duì)上云業(yè)務(wù)系統(tǒng)進(jìn)行全面摸排,并對(duì)需求資源進(jìn)行合理的評(píng)估,能夠從源頭上進(jìn)行把控,避免盲目大規(guī)模的建設(shè),節(jié)省投資;同時(shí)兼顧一定的上云原則,優(yōu)化了業(yè)務(wù)邏輯,提升了系統(tǒng)性能、穩(wěn)定性及可擴(kuò)展性。
使用部門(mén)根據(jù)最佳實(shí)踐進(jìn)行云化資源申請(qǐng):將業(yè)務(wù)分類(lèi)分場(chǎng)景(Web 型,應(yīng)用型,數(shù)據(jù)庫(kù)型等)做典型模型的性能測(cè)試,推薦業(yè)務(wù)系統(tǒng)資源申請(qǐng)的最優(yōu)VM 規(guī)格配置,供業(yè)務(wù)系統(tǒng)資源申請(qǐng)時(shí)做參考,優(yōu)先小顆粒VM 資源分配做橫向擴(kuò)展。
(1)制定針對(duì)不同設(shè)備的優(yōu)化措施,提升資源利用率,如表3 所示。
表3 優(yōu)化措施
(2)建立內(nèi)部結(jié)算機(jī)制,形成成本制約。
基于降低TCO 本質(zhì),實(shí)現(xiàn)成本的精細(xì)化管理。建立資源池成本核算指標(biāo)體系[3],并將部門(mén)/業(yè)務(wù)申請(qǐng)資源、成本計(jì)價(jià)進(jìn)行綜合,建立虛擬結(jié)算機(jī)制,將結(jié)果并納入資源池后評(píng)估。
資源池的成本模型需要結(jié)合當(dāng)前最新的集采典配模型成本、各種機(jī)房配套成本、統(tǒng)一的備份及管理、人力等成本,制定合理的成本定價(jià),形成內(nèi)部結(jié)算依據(jù),如表4 所示。
表4 資源池指標(biāo)體系
業(yè)務(wù)部門(mén)在申請(qǐng)使用資源時(shí),需要同步考慮成本定價(jià),資源池分配部門(mén)定期針對(duì)云資源池上的業(yè)務(wù)平臺(tái)進(jìn)行評(píng)估,針對(duì)有收入的平臺(tái)進(jìn)行投入產(chǎn)出比評(píng)估,針對(duì)不產(chǎn)生直接收入的平臺(tái)進(jìn)行利用率評(píng)估,制定資源回收、下線標(biāo)準(zhǔn),對(duì)評(píng)估良好的平臺(tái)提升資源分配優(yōu)先級(jí)。將評(píng)估結(jié)果納入資源池后評(píng)估體系。
使用期為需求單位最重要的一個(gè)時(shí)期,使用單位需根據(jù)業(yè)務(wù)忙閑特性通過(guò)技術(shù)手段對(duì)不同類(lèi)別的資源進(jìn)行優(yōu)化提升,從而真正實(shí)現(xiàn)了資源池的彈性伸縮,提高了資源利用率;同時(shí)從管理機(jī)制上進(jìn)行了內(nèi)部成本約束,形成考核體系,督促使用單位自發(fā)進(jìn)行資源調(diào)優(yōu)。
實(shí)現(xiàn)業(yè)務(wù)流程的全貫通。根據(jù)需求進(jìn)行組織適配調(diào)整,做到建設(shè)流程的閉環(huán);引入專(zhuān)業(yè)化、智能化的運(yùn)維工具實(shí)現(xiàn)智能運(yùn)維。
(1)針對(duì)資源池成立虛擬工作組,覆蓋一線、二線、三線等多類(lèi)人員,全流程運(yùn)維打通,避免規(guī)劃不知維護(hù)情況,維護(hù)不知規(guī)劃兩張皮情況出現(xiàn),如圖2 所示。
圖2 虛擬組織架構(gòu)
(2)規(guī)范化云運(yùn)維流程,云運(yùn)維活動(dòng)多級(jí)細(xì)化,分層展示活動(dòng)頻次、人員技能要求、活動(dòng)工作量、交付模式和自動(dòng)化程度,并根據(jù)業(yè)界標(biāo)桿制定自動(dòng)化提升方向。
(3)針對(duì)資源使用趨勢(shì),引入AI 智能預(yù)測(cè)容量變化,提前預(yù)警。云管平臺(tái)定期生成報(bào)表,抽象統(tǒng)計(jì)成:vCPU、Mem,預(yù)測(cè)未來(lái)周期(3 個(gè)月、半年、一年),提前做好資源儲(chǔ)備。
(4)隨著業(yè)務(wù)的資源池云化部署,設(shè)備規(guī)模愈加龐大,且應(yīng)用逐步向容器化和微服務(wù)化方向演進(jìn),導(dǎo)致系統(tǒng)復(fù)雜度越來(lái)越高,需要引入自動(dòng)化、專(zhuān)業(yè)化的運(yùn)維工具,實(shí)現(xiàn)智能運(yùn)維。
維護(hù)期作為系統(tǒng)上線后的關(guān)鍵階段,期間會(huì)暴露各種問(wèn)題,對(duì)整個(gè)系統(tǒng)的穩(wěn)定運(yùn)行至關(guān)重要,通過(guò)建立閉環(huán)流程,能夠?qū)崿F(xiàn)運(yùn)維階段至規(guī)劃階段的反哺支撐,形成良性循環(huán);同時(shí)引入一些智能工具也能在海量的資源運(yùn)維過(guò)程中降低運(yùn)維復(fù)雜度,釋放運(yùn)維人員壓力。
隨著云技術(shù)的發(fā)展和云服務(wù)的豐富,傳統(tǒng)粗放式的管理將被精細(xì)化的方式取代,精細(xì)化是一個(gè)持續(xù)更新、不斷迭代的過(guò)程。本文拋磚引玉,從多角度、多階段提出資源池全生命周期端到端優(yōu)化解決方法,不僅需要通過(guò)技術(shù)手段實(shí)現(xiàn),更多的是通過(guò)流程制度的建立,將資源池的精細(xì)化管理徹底重視起來(lái),最終目的是實(shí)現(xiàn)公司節(jié)能減排、降本增效。