范麗麗?阮前?蘇超
摘要:隨著云計算、大數(shù)據(jù)等技術(shù)的普遍使用,業(yè)務(wù)上云已經(jīng)成為主流趨勢,云服務(wù)商業(yè)似雨后春筍般出現(xiàn)。云資源的規(guī)模也越來越大,動輒幾萬甚至幾十萬臺服務(wù)器的規(guī)模;云上承載的業(yè)務(wù)系統(tǒng)數(shù)量迅速增至幾百甚至幾千,運營分析的維度也變得精細化、多樣化,傳統(tǒng)粗獷的云資源運營管理方式已無法滿足日益增長的運營分析需求。一套有效的云資源全生命周期精細化管理運營體系,能為云用戶提供便捷得云資源服務(wù),也能充分發(fā)揮“云”的優(yōu)勢,實現(xiàn)云資源的可控、可管、可查,助力云服務(wù)商、云用戶實現(xiàn)降本增效。
關(guān)鍵詞:AI分析;精細化運營;云資源運營;云資源管理
一、背景
隨著微服務(wù)技術(shù)的快速發(fā)展和廣泛應(yīng)用,以及“業(yè)務(wù)應(yīng)用”與底層“云資源”的不斷解耦,云資源使用的方式基本實現(xiàn)“按需擴縮”,使用的便捷性逐步增強,“業(yè)務(wù)云化”已成為主流趨勢。很多企業(yè)采用租用云服務(wù)商的云資源,實現(xiàn)業(yè)務(wù)的快速部署。同時,云服務(wù)商的“云”的規(guī)模也快速增加,從幾萬增加至幾十萬。傳統(tǒng)粗獷的資源運營管理方式無法滿足“云”模式下,更加精細化和多樣的資源運營需求。因此建立一套適用于“云”模式下的云資源全生命周期精細化管理運營體系,合理有效地對云資源進行管控勢在必行。這既便于云用戶實時了解所租用云資源的使用情況、業(yè)務(wù)運行情況、及時擴縮云資源,有效控制成本,也為云服務(wù)商擴建云資源提供評估依據(jù),避免云資源空置,以提升云資源效能。
二、云資源全生命周期管理
構(gòu)建“事前、事中、事后”的云資源全生命周期運營管理,以云用戶資源申請為起點,以云用戶使用的資源回收至云為終點,打通資源交付、資源開通、云資源回收三個關(guān)鍵云資源狀態(tài)節(jié)點,實現(xiàn)云資源的全生命閉環(huán)管理。管理以“事中”的資源監(jiān)控和資源運營分析結(jié)果為依據(jù),向前支撐“事前”云資源申請的審批評估,向后支撐“事后”云資源回收評估。
(一)資源申請
資源申請為云用戶使用云資源的第一步,在此之前云用戶需要根據(jù)即將上云的業(yè)務(wù)特點、需求、業(yè)務(wù)量等參數(shù)進行云資源需求評估。上云的業(yè)務(wù)系統(tǒng)架構(gòu)設(shè)計必須為高可用架構(gòu),原則上應(yīng)為集群部署方式,需求評估需同步考慮架構(gòu)設(shè)計因素帶來的云資源冗余。云服務(wù)商會面向云用戶發(fā)布云資源產(chǎn)品目錄清單,云用戶可以根據(jù)評估后的需求進行選擇申請。如果是擴容的業(yè)務(wù)系統(tǒng)則可結(jié)合現(xiàn)網(wǎng)運行業(yè)務(wù)的云資源分析結(jié)果進行“事前”的需求評估。云用戶通過訂單或者工單的方式向云服務(wù)商提交資源申請。云服務(wù)商根據(jù)云用戶提交的資源申請材料對資源申請需求進行評估,對合理的需求進行交付,不合理的需求反饋云用戶進行優(yōu)化調(diào)整。
(二)資源交付
資源交付為云用戶使用云資源的起點,也是成本費用計算、云資源使用分析的時間起點。云資源交付的數(shù)量以資源申請階段完成需求評估后,云用戶所提交的訂單或者為準,為云用戶后續(xù)使用云資源數(shù)量的上限閾值,云用戶在此閾值范圍內(nèi)可以進行按需自服務(wù)創(chuàng)建和使用云資源。云資源交付的同時,云上的自動化工具也面向云用戶同步開放,云用戶可以按需使用。同時云服務(wù)商可對訂單或工單的審核、交付、通知進行閉環(huán)管理并對交付數(shù)據(jù)進行分析。
(三)資源開通
資源開通為資源交付后云用戶通過自服務(wù)方式按需對云資源進行創(chuàng)建。開通后的云資源,云管理系統(tǒng)將會綁定開通時間、云用戶ID、業(yè)務(wù)系統(tǒng)ID等相關(guān)配置信息,用于后續(xù)云資源分析使用。云用戶開通云資源時,可以使用云管理系統(tǒng)提供的自動化工具批量安裝標準化的操作系統(tǒng)、鏡像、監(jiān)控工具等,如遇到相關(guān)問題,可以通過“云服務(wù)臺”向云服務(wù)商發(fā)起咨詢,云服務(wù)商有義務(wù)協(xié)助云用戶完成資源開通,配置策略等相關(guān)工作。云用戶可以通過工單的方式發(fā)起網(wǎng)絡(luò)策略、安全策略等云資源相關(guān)的其他需求。
(五)資源變更
資源變更主要是云用戶根據(jù)自身使用需求,變更云資源類型或者配置關(guān)系。主要用于云用戶內(nèi)部業(yè)務(wù)系統(tǒng)之間調(diào)整云資源數(shù)量、類型,或者變更與云資源相關(guān)的組織管理關(guān)系等,均由云用戶通過工單方式或者內(nèi)部其他流程自主發(fā)起,經(jīng)審批后生效。云管理系統(tǒng)會記錄資源變更生效時間,用于后續(xù)資源運營分析使用。
(六)資源監(jiān)控
資源監(jiān)控是云資源全生命周期管理過程的“眼睛”,主要是對已開通資源的類型、狀態(tài)、性能進行監(jiān)控。資源類型包括裸金屬、云主機、云存儲等;資源狀態(tài)包括測試中、運行中、關(guān)機中等,性能數(shù)據(jù)包括CPU利用率、內(nèi)存利用率、存儲利用率、網(wǎng)絡(luò)資源利用率等。監(jiān)控中發(fā)現(xiàn)異常會向云用戶、云服務(wù)商發(fā)送告警信息。監(jiān)控數(shù)據(jù)的來源大多為專業(yè)網(wǎng)管,通過數(shù)據(jù)接口方式獲取,如kafka等。
資源監(jiān)控的數(shù)據(jù)是云資源運營分析的基礎(chǔ)數(shù)據(jù),外部獲取的監(jiān)控數(shù)據(jù)格式一般不適用運營分析,無法直接使用,需按照運營分析相關(guān)要求進行數(shù)據(jù)預(yù)處理,將從外部系統(tǒng)獲取的監(jiān)控數(shù)據(jù)按照預(yù)處理規(guī)則,規(guī)范化處理后寫入運營分析使用的數(shù)據(jù)庫。在數(shù)據(jù)處理規(guī)程中需配置一定的數(shù)據(jù)排查稽核規(guī)則,及時發(fā)現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)漏傳、數(shù)據(jù)漏取,以及數(shù)據(jù)異常等問題,并將相關(guān)問題及時向數(shù)據(jù)源反饋,以便及時排查、定位和修復相關(guān)數(shù)據(jù)問題。監(jiān)控數(shù)據(jù)排查稽核周期應(yīng)盡量短,建議設(shè)置為天,或者小時,過長的排查稽核周期會影響運營分析質(zhì)量,同時也會導致數(shù)據(jù)問題排查周期長、問題定位難度大、排查效率低,也會進一步影響云用戶使用體驗。
(七)資源回收
資源回收主要是指云用戶結(jié)合自身業(yè)務(wù)發(fā)展情況,以及云資源運營分析情況,經(jīng)綜合評估后,對計劃不再使用的云資源通過訂單或者工單的方式進行釋放。釋放后的云資源回歸云服務(wù)商進行再分配使用,并停止計費。
三、資源運營分析
資源運營分析為云資源全生命周期管理最為核心的部分,向前為“事前”的資源申請?zhí)峁┬枨蠓治?、需求評審依據(jù),向后為“事后”的資源回收提供優(yōu)化部署、縮減資源的分析依據(jù)。
資源運營分析的基礎(chǔ)數(shù)據(jù)包括資源監(jiān)控的數(shù)據(jù)、資源交付和資源開通相關(guān)的配置數(shù)據(jù),資源分析的主要目的是為用戶提供詳細的資源使用情況分析,以及改進建議。內(nèi)容包括云用戶申請的資源類型和數(shù)量、開通使用的資源類型和數(shù)量、資源利用率情況,資源整體效能情況等,展現(xiàn)形式通常為月度總結(jié)報告、月度賬單、月度/年度趨勢曲線等。也可以結(jié)合AI等技術(shù)對未來一段時間內(nèi)的資源使用情況進行預(yù)測等。
(一)云資源使用效能評估分析
資源運行分析常見是使用CPU利用率、內(nèi)存利用率,單一的指標無法全面體現(xiàn)云用戶資源的真實的使用情況,因此需要構(gòu)建一個綜合的評估模型,用綜合指標來告知云用戶資源的整體使用情況及后續(xù)的整改建議。
綜合效能評估模型可以將CPU峰值、CPU均值、內(nèi)存峰值、內(nèi)存均值以及其他參數(shù)作為輸入?yún)?shù),并根據(jù)專家判斷法設(shè)置各參數(shù)權(quán)重,利用Bagging集成方法對輸入?yún)?shù)進行AI模型訓練,基于學習器包括K近鄰、決策樹和LSTM等方法,將計算的結(jié)果作為云用戶、業(yè)務(wù)系統(tǒng)的綜合效能評估得分,并反饋云用戶資源使用優(yōu)化的建議。比如回收某個業(yè)務(wù)系統(tǒng)云主機資源VCPU或者內(nèi)存利用率較低,建議回收部分VCPU和內(nèi)存資源;或者某個業(yè)務(wù)系統(tǒng)的裸金屬資源選型不合理,建議選擇性能更高或者更低配置的產(chǎn)品等。綜合效能評估一般按月進行,并面向用戶發(fā)布當月以及一定歷史周期內(nèi)的趨勢分析情況。
(二)低效無效資源分析
資源效能評估是以用戶、業(yè)務(wù)系統(tǒng)為對象分別進行評估,評估云用戶、業(yè)務(wù)系統(tǒng)維度整體的資源使用情況,也是宏觀的角度提升優(yōu)化方向,但是如果云用戶、業(yè)務(wù)系統(tǒng)有較多低效或者無效資源,資源利用率或者效能評估的分析結(jié)果也會較差,低效無效資源分析是以單臺設(shè)備為最小顆粒度進行云資源運營分析,為云用戶提供設(shè)備維度的更精準的優(yōu)化建議,進一步為云用戶節(jié)約成本,提升資源效能。
低效資源主要是指長期處于利用率低或者低效能的云資源,判斷規(guī)則可以根據(jù)云資源實際運營情況進行設(shè)定,可以根據(jù)一個指標設(shè)定判斷規(guī)則,也可以綜合幾個指標設(shè)定判斷規(guī)則。通常是采用單臺云資源的CPU利用率和內(nèi)存利用率兩個指標,通過專家判斷法或者構(gòu)建AI模型分析來設(shè)定閾值,附加一定的時間周期設(shè)定判斷規(guī)則。最后統(tǒng)計低效資源占比情況分析,公式為低效資源總量/已交付的云資源總量,計算值越大,說明該云用戶或者業(yè)務(wù)系統(tǒng)低效資源占比越多,云資源效能提升的空間越大,云資源成本的優(yōu)化空間也越大。同時,通過低效資源占比分析結(jié)果可以向下查詢低效資源的明細,包括但不限于設(shè)備ID、設(shè)備位置、歸屬業(yè)務(wù)系統(tǒng)、歸屬云用戶。
(三)云資源使用預(yù)測分析
資源運行分析除分析資源現(xiàn)網(wǎng)運行外,需對未來一段時間內(nèi)趨勢進行預(yù)測,便于云用戶預(yù)知未來一段時間內(nèi)資源使用趨勢,提前做好需求評估,提前進行資源擴縮申請。
結(jié)合一定歷史周期內(nèi)的資源利用率、資源效能情況,對未來進行趨勢預(yù)測,建議評估周期選擇至少13個月,兼顧同比和環(huán)比分析,采用數(shù)據(jù)統(tǒng)計分析方法計算設(shè)定預(yù)測合理區(qū)間的閾值,構(gòu)建AI訓練模型,并將預(yù)測的結(jié)果發(fā)送給云用戶,如果預(yù)測結(jié)果不在合理區(qū)間,則同步給云用戶發(fā)送預(yù)警。
(四)云資源成本費用分析
云資源費用分析為云用戶提供清晰明了的云資源賬單,包含但不限于云用戶使用的云資源類型、云資源數(shù)量、使用時間、計費單價、計費總價等,并同時為云用戶提供一定歷史時間內(nèi)的資源使用量的趨勢分析、賬單費用趨勢分析等。云資源賬單應(yīng)具備向下鉆取、可溯源等能力。
資源成本分析需要包含云用戶預(yù)算管理,結(jié)合云資源使用預(yù)測分析結(jié)果,當預(yù)測有預(yù)算超支風險時,提前向云用戶發(fā)布預(yù)警。同時,結(jié)合低效無效資源分析情況,向云用戶發(fā)布閑置費用/隱藏費用的總量、占比等分析情況,便于云用戶及時釋放低效無效資源,節(jié)約成本。
四、結(jié)束語
云資源全生命周期管理各流程中云資源相關(guān)的屬性、狀態(tài)、性能等數(shù)據(jù)會產(chǎn)生變化,而這些數(shù)據(jù)均為資源精細化運營分析的基礎(chǔ)數(shù)據(jù),因此在各流程環(huán)節(jié)中務(wù)必要有稽核、校驗等機制,以保障運營分析數(shù)據(jù)的準確性。同時,外部系統(tǒng)輸入的數(shù)據(jù),如專業(yè)網(wǎng)管的性能采集數(shù)據(jù)等,在進行運營分析前也需保障數(shù)據(jù)的質(zhì)量,一般會先按照運營分析相關(guān)需求進行數(shù)據(jù)治理,以保障外部輸入數(shù)據(jù)的完整性和準確性,也便于及時發(fā)現(xiàn)和解決性能采集數(shù)據(jù)的質(zhì)量問題。
作者單位:范麗麗 阮前 蘇超 中移動信息技術(shù)有限公司
參? 考? 文? 獻
[1]猴子·數(shù)據(jù)分析學院.數(shù)據(jù)分析思維方法分析和業(yè)務(wù)知識.清華大學出版社.2020.11
[2]云計算開源產(chǎn)業(yè)聯(lián)盟.云優(yōu)化治理白皮書第一部分:成本優(yōu)化.2022.05
[3]云計算開源產(chǎn)業(yè)聯(lián)盟.云優(yōu)化治理白皮書第一部分:云資源效益優(yōu)化.2022.07
[4]孫宇熙.云計算與大數(shù)據(jù).人民郵電出版社.2017.01
[5]徐小龍等.云數(shù)據(jù)中心智能管理.電子工業(yè)出版社.2021.09
范麗麗(1982.03-),女,漢族,吉林長春,本科,中級,研究方向:云資源運營管理。