中國移動通信集團(tuán)廣西有限公司信息技術(shù)管理部|宮大鵬 雷蕾 王濤
IT支撐系統(tǒng)是移動業(yè)務(wù)正常運(yùn)行的基礎(chǔ)保障和支撐,在確保IT支撐系統(tǒng)的準(zhǔn)確性和可靠性的同時,如何提升企業(yè)IT 支撐系統(tǒng)的支撐效能,實現(xiàn)IT支撐系統(tǒng)的高投資回報率,實現(xiàn)資源的合理配置,正逐漸成為電信運(yùn)營商中相關(guān)部門關(guān)注的焦點。本文通過使用多種大數(shù)據(jù)算法進(jìn)行容量預(yù)測和分析,希望在容量預(yù)測準(zhǔn)確性上有進(jìn)一步的突破。
容量分析規(guī)劃是指對移動IT支撐系統(tǒng)進(jìn)行關(guān)鍵業(yè)務(wù)及相應(yīng)的設(shè)備容量、性能的關(guān)系分析。根據(jù)關(guān)鍵指標(biāo)數(shù)據(jù)與設(shè)備性能數(shù)據(jù)之間的關(guān)系,建立容量數(shù)學(xué)分析模型,結(jié)合各種因素(IT設(shè)備生命周期,系統(tǒng)優(yōu)化,業(yè)務(wù)的生命周期規(guī)律)對容量數(shù)學(xué)分析模型不斷改進(jìn)優(yōu)化,模型修正。容量管理服務(wù)引擎,是根據(jù)容量數(shù)學(xué)分析模型,結(jié)合設(shè)備性能數(shù)據(jù),關(guān)鍵業(yè)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行智能計算分析,得出IT設(shè)備的負(fù)載能力及未來業(yè)務(wù)的容量規(guī)劃能力,及時發(fā)現(xiàn)并預(yù)警容量性能瓶頸問題。
目前移動用戶在IT支撐系統(tǒng)設(shè)備容量管理方面存在的主要問題包括:
1.缺乏對業(yè)務(wù)未來發(fā)展的預(yù)測分析(業(yè)務(wù)類型、業(yè)務(wù)功能、用戶量、性能需求等等);
2.缺乏對容量管理角色,以及其流程文檔化、規(guī)范化、標(biāo)準(zhǔn)化的清晰認(rèn)識;
3.缺乏對引發(fā)IT容量問題根源的分析;
4.缺乏對大量、準(zhǔn)確的性能數(shù)據(jù)的收集和積累。
容量管理的目標(biāo)就是在合適時間、合適地點以及適當(dāng)?shù)某杀咎峁┖线m的資源,同時滿足移動業(yè)務(wù)的持續(xù)增長需要。
首先,通過收集業(yè)務(wù)和資源數(shù)據(jù),分析出業(yè)務(wù)量與資源容量使用情況的關(guān)系,建立起業(yè)務(wù)量與系統(tǒng)資源消耗量間的數(shù)學(xué)模型。
其次,從業(yè)務(wù)角度出發(fā),分析用戶使用業(yè)務(wù)的規(guī)律,找出業(yè)務(wù)發(fā)展的現(xiàn)有水平和未來趨勢,并結(jié)合分析數(shù)學(xué)模型和業(yè)務(wù)發(fā)展水平,得出該系統(tǒng)的容量規(guī)劃和資源分配方案。
最后,根據(jù)業(yè)務(wù)的需求進(jìn)行虛擬資源再分配,從而解決因虛擬資源分配不合理,引起系統(tǒng)資源的頻繁回收與分配,造成部署的業(yè)務(wù)相互影響的問題。
基礎(chǔ)的容量數(shù)據(jù)已經(jīng)由監(jiān)控管理模塊或其它模塊采集,容量預(yù)測模塊通過接口直接獲取這些已有的數(shù)據(jù),以進(jìn)行容量預(yù)測。
數(shù)據(jù)據(jù)預(yù)處理主要對指標(biāo)數(shù)據(jù)進(jìn)行消噪溯源,對異常數(shù)據(jù)進(jìn)行特殊處理,避免異常數(shù)據(jù)影響預(yù)測模型的準(zhǔn)確性,異常數(shù)據(jù)主要來源于系統(tǒng)故障、節(jié)假日等,系統(tǒng)容量出現(xiàn)大的波動,如圖1所示。
通過系統(tǒng)容量歷史采樣數(shù)據(jù),利用指數(shù)平滑法對容量數(shù)據(jù)進(jìn)行平滑,并利用線性回歸算法建立容量預(yù)測模型。在本方案中,對于容量預(yù)測模型的建立主要通過數(shù)據(jù)層的Spark進(jìn)行,容量預(yù)測模型的建立步驟分為:一,計算容量分析指標(biāo)的平滑因子;二,計算容量分析指標(biāo)一次和二次指數(shù)平滑值;三,計算出線性回歸參數(shù)αt和βt,即截距和斜率;四,計算出容量分析指標(biāo)的調(diào)整因子。
在預(yù)計未來基礎(chǔ)架構(gòu)容量的需要時,必須將業(yè)務(wù)發(fā)展變化需要的影響考慮到容量的發(fā)展變化當(dāng)中。將業(yè)務(wù)量變化的因素加入到性能指標(biāo)變化的過程中,更好地對未來性能指標(biāo)的發(fā)展做出預(yù)測,是否要計算模型的調(diào)整因子,主要基于模型未調(diào)整前的精確度來決定。
利用大數(shù)據(jù)分析技術(shù),在大數(shù)據(jù)分析平臺的Hadoop框架中通過對IaaS、PaaS和SaaS各資源指標(biāo)的性能數(shù)據(jù)和告警數(shù)據(jù)基于MapReduce任務(wù)進(jìn)行批處理作業(yè),進(jìn)行智能分析計算,根據(jù)預(yù)測算法得出最后的預(yù)測數(shù)據(jù)。
能夠預(yù)測未來時間段的業(yè)務(wù)容量趨勢。
針對性能數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量檢查;篩選法定節(jié)假日等特殊時段;處理性能與業(yè)務(wù)指標(biāo)數(shù)據(jù)的采集周期,使其保持一致或近似;對CPU性能指標(biāo)、內(nèi)存性能指標(biāo)和虛擬內(nèi)存利用率指標(biāo),篩選出每天業(yè)務(wù)量最大值的產(chǎn)生時刻時的取值,用于計算資源容量預(yù)測;對磁盤使用率、數(shù)據(jù)庫表空間使用率指標(biāo),按小時取平均值然后取每天的最大值,用于存儲資源容量預(yù)測,如圖2所示。
圖1 數(shù)據(jù)處理邏輯流程
運(yùn)行指數(shù):衡量資源運(yùn)行壓力趨勢,越高表示越忙。
能力指數(shù):衡量資源可用情況,對能力指數(shù)趨勢預(yù)測分析,可衡量業(yè)務(wù)系統(tǒng)主機(jī)的能力,取值范圍0-1。
對目前已經(jīng)納入到BOMC監(jiān)控范圍內(nèi)的系統(tǒng)平臺的歷史性能數(shù)據(jù)進(jìn)行采集,保留至少2年的歷史數(shù)據(jù),以便于歷史分析。
容量管理后臺計算引擎程序,根據(jù)計算模型,選取忙日忙時段的峰值數(shù)據(jù),進(jìn)行數(shù)據(jù)的處理計算,得到運(yùn)行指數(shù)和能力指數(shù),并結(jié)合業(yè)務(wù)指標(biāo)數(shù)據(jù),及預(yù)測模型進(jìn)行數(shù)據(jù)的趨勢預(yù)測分析,評估未來的容量規(guī)劃需求。
趨勢分析根據(jù)之前N個周期預(yù)測未來N個周期(月或天)資源性能負(fù)載情況,采用相應(yīng)的預(yù)測算法,對數(shù)據(jù)進(jìn)行預(yù)測分析,智能判斷是否發(fā)生性能瓶頸或性能空閑,并能提前通過告警的方式通知用戶,采取應(yīng)對措施。說明:
圖2 CPU容量預(yù)測與內(nèi)存容量預(yù)測
1. 運(yùn)行指數(shù)公式(用戶數(shù)×每用戶月服務(wù)請求次數(shù)×月忙日集中系數(shù)×日忙時集中系數(shù)×每筆業(yè)務(wù)處理事物數(shù)/60/CPU使用閥值)。
2. 能力指數(shù)公式[(月話單量×話單長度×存儲周期+其他)×盤陣RAID系數(shù)×(1+磁盤損耗)/存儲使用閾值]。
3. 如果運(yùn)算需要的指標(biāo)權(quán)重,運(yùn)行指數(shù)公式參數(shù),能力指數(shù)公式參數(shù)發(fā)生變化,則需要重新進(jìn)行該修改后的歷史數(shù)據(jù)的計算。
容量管理在電信企業(yè)管理中扮演著很重要的角色,它可以確保所有在云計算基礎(chǔ)架構(gòu)中任何與容量有關(guān)的變化都能夠支撐業(yè)務(wù)需求,通過容量管理,管理者可以在面對容量需求時作出最具成本效益的選擇。
對容量預(yù)測的深入研究,將以業(yè)務(wù)為基礎(chǔ),以建立的性能模型為依據(jù),避免傳統(tǒng)過于依賴規(guī)劃人員經(jīng)驗的問題,使得容量規(guī)劃和資源的分配更加準(zhǔn)確。一方面使得系統(tǒng)處理能力能夠適應(yīng)業(yè)務(wù)快速變化發(fā)展的需求;另一方面,通過對資源的整合,減少硬件設(shè)備數(shù)量,有效地降低環(huán)境運(yùn)行成本,進(jìn)一步提升運(yùn)維管理水平。