亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ARIMA和CART的負載預測模型

        2019-05-24 03:51:18王電鋼梅克進牛新征
        深圳大學學報(理工版) 2019年3期
        關鍵詞:參數(shù)估計內(nèi)存殘差

        王電鋼,黃 林,常 健,梅克進,牛新征

        1) 國網(wǎng)四川省電力公司信息通信公司,四川成都 610015; 2)電子科技大學計算機科學與工程學院,四川成都 611731

        隨著業(yè)務量的上升,服務器主機上的負載壓力不斷增大,而長時間處于高負載狀態(tài)不利于主機設備的穩(wěn)定運行,需要運維操作人員及時發(fā)現(xiàn)并釋放資源,這對運維工作帶來了困難.雖然現(xiàn)有的運維監(jiān)控系統(tǒng)中已有對CPU和內(nèi)存等的監(jiān)控功能,并可以通過設置告警閾值提醒運維人員,但這種事后處理的方式具有一定滯后性,存在問題處理不及時的風險.因此,對CPU和內(nèi)存等資源的歷史負載信息和波動模式進行分析挖掘,并預測未來一段時間的負載趨勢,對于智能化運維工作是極其重要的.負載的趨勢預測有助于提高運維工作的預見性,為運維人員制定解決方案提供一定的緩沖期,對于可能出現(xiàn)的問題防患于未然.

        對于負載預測的研究,目前主流的方法是利用歷史數(shù)據(jù)建立線性預測模型.然而在實際工作中,主機負載受復雜的內(nèi)外部環(huán)境影響,如溫度、網(wǎng)絡、業(yè)務量和硬件狀況等.真實的主機負載信息并不嚴格滿足線性關系,存在一定的非線性部分,而現(xiàn)有的一些方法并未對非線性部分進行預測,預測效果較差.如李剛等[1-3]基于特定范圍內(nèi)的歷史數(shù)據(jù),采用自回歸差分滑動平均(autoregressive integrated moving average,ARIMA)模型來預測未來特定范圍的值,可以較好地擬合線性部分,但并未考慮非線性部分,丟失了部分模型精度.此外,雖然部分研究提出不同的參數(shù)估計方法來提升模型精度.如單銳等[4-5]提出基于改進譜共軛梯度的ARIMA模型參數(shù)估計法,通過調(diào)整參數(shù),使得算法滿足充分下降條件或者共軛條件,達到優(yōu)化的目的.張宗華等[6]提出了基于加權改進的AR模型的負載預測,他認為不同時間點對當前時間點的影響不同,離當前時間點距離越近,通常對預測造成更大的影響,應在不同的時間點上分配不同的權值,讓影響更大的點擁有更大的權值,減小偏遠點的影響,提升精度.上述方法盡管在不同層次上提升了模型對負載數(shù)據(jù)的預測效果,但是這種提升僅體現(xiàn)在對模型線性部分的預測,并未真正解決數(shù)據(jù)中非線性部分的預測問題.為此,本研究提出將負載數(shù)據(jù)分解為線性部分和非線性部分,并分別對兩部分進行訓練和預測,采用基于加權最小二乘參數(shù)估計方法[7]的線性模型ARIMA[8]預測負載數(shù)據(jù)的線性部分,采用基于Fayyad邊界判定[9]優(yōu)化方法的分類回歸樹[10-11](classification and regression tree,CART)模型擬合負載數(shù)據(jù)的非線性部分,最后將預測結果融合,提升預測精度.

        1 負載預測模型

        給定數(shù)據(jù)集D={x1,x2, …,xt}, 其中,xt表示以負載數(shù)據(jù)作為時間序列時t時刻的負載值,負載預測模型解決的是t時刻后續(xù)的多個數(shù)據(jù)值的預測問題.

        1.1 ARIMA模型

        ARIMA模型是一種基于時間序列的預測方法,它用某種數(shù)學模型將時間和預測對象組成的序列擬合起來.一旦模型確定后,就可以通過這個模型預測未來,被廣泛應用在實際中,如就業(yè)發(fā)展趨勢分析、機場客流量預測、疫情分析和負荷預測等.ARIMA模型滿足

        (1)

        (2)

        當模型中心化后,可簡寫為

        xt=φ1xt-1+…+φpxt-p+εt-

        θ1εt-1-…-θqεt-q

        (3)

        ARIMA模型的建模步驟如下:

        1)首先用ADF[12]單位根檢驗法判斷數(shù)據(jù)的平穩(wěn)性.當數(shù)據(jù)不平穩(wěn)時,對序列進行差分處理.差分階數(shù)的選取方法一般為將其從1逐漸增大,直至序列滿足ADF校驗.

        ADF單位根檢驗法:

        如果序列經(jīng)過d階差分后平穩(wěn),不妨設

        |λi<1|;i=1, 2, …,p

        (4)

        (5)

        由式(5)可知,ARIMA模型共有p+d個根,其中,p個根在單位圓外,d個根在單位圓上.當d≠0時,ARIMA模型不平穩(wěn).

        2)根據(jù)樣本自相關函數(shù)ACF和偏自相關函數(shù)PACF的拖尾性和截尾性來確定p和q值.采用AIC[13]標準,選擇使AIC達到最小值的自回歸滑動平均模型(autoregressive moving average model,ARMA)進行擬合.AIC標準函數(shù)為

        AIC=nlnL+2(p+q+1)

        (6)

        其中,L為似然函數(shù).選擇最佳p、q值使得AIC達到最?。?/p>

        3)估計線性預測模型中參數(shù)的值.常用的方法是最小二乘法.

        在ARIMA中,記

        (7)

        θ1εt-1-…-θqεt-q

        (8)

        其中,φi為自回歸系數(shù);θi為移動平滑系數(shù);εi為零均值白噪聲序列. 則殘差項為

        (9)

        4)檢驗模型的顯著性.如果擬合模型未通過檢驗,則轉(zhuǎn)向步驟2)重新選擇模型再擬合,直到殘差序列為白噪聲為止.

        5)利用擬合的模型,預測將來的走勢.

        1.2 CART模型

        CART是一種非線性的分類和回歸模型.它能很好地處理高維數(shù)據(jù),并篩選出重要的變量,具有良好的可解釋性.在機器學習中,利用對象屬性和對象值之間的映射關系,可以將回歸樹作為預測模型.但當訓練集太大時,需要多次順序掃描數(shù)據(jù)集,因此傳統(tǒng)構造回歸樹的算法效率比較低.本研究對傳統(tǒng)CART算法的分裂策略進行了優(yōu)化.傳統(tǒng)CART回歸樹的訓練算法包括2個步驟.

        1.2.1 CART的生成

        CART的生成是決策樹的核心問題之一,決策樹的生長是反復分支的過程,當分支沒有意義,即分支后結果差異不再顯著下降,就不再分組.也就是說,分組的目的是為了使輸出變量更加接近.在CART中,為了使預測的效果更好,通常使GINI值更小.GINI值為

        (10)

        其中,pi為在樣本集中取到分類為Ci的子集的概率;l為子集數(shù)量.對于回歸樹來說,采用均方根誤差來確定分法,均方根誤差公式為

        (11)

        其中,xi為樣本值;μ為樣本均值;n為樣本數(shù)量.σ越小,表明預測效果越好.因此要選擇使回歸方差最小的屬性作為分裂方案.

        1.2.2 剪枝

        對決策樹的精簡,是另一個核心問題.回歸樹的剪枝是為了防止模型過擬合,CART使用CCP[14-15]算法進行剪枝,在訓練集上計算表面誤差增益率為

        (12)

        其中,R(t)為結點數(shù)t的錯誤代價,為

        R(t)=r(t)p(t)

        (13)

        其中,r(t)為結點t的錯分樣本率;p(t)為所有樣本中落入結點t的樣本所占的比例;R(T)為子樹T的錯誤代價;N(T)為子樹中的結點數(shù).CCP的剪枝策略為取出最小指標α對應的節(jié)點,將其剪掉,生成第1個子樹,重復這個過程,直到只剩下根節(jié)點時,將其作為最后一個子樹.然后利用驗證集去驗證所有子樹,取誤差最小的樹.

        1.3 基于ARIMA和CART的負載預測模型

        運用組合模型對負載序列進行預測,存在兩個關鍵點:

        1)需要通過ARIMA模型較好的擬合序列中存在的線性因素,使序列的線性因素基本提取完全.因此,本研究在傳統(tǒng)ARIMA模型參數(shù)估計方法上做了優(yōu)化,采用加權最小二乘估計法來消除異方差性,使得參數(shù)估計更加準確,模型擬合更好.

        2)當擬合完序列中存在的線性因素后,需要對殘差序列的非線性因素進行提取,本研究采用CART來擬合非線性因素,降低了訓練時間,并且分類更為簡單.

        1.3.1 加權最小二乘的ARIMA參數(shù)估計

        定義wi為滯后i階的數(shù)據(jù)的權重,我們認為,殘差更大的項占有的權值應該更低,這樣能使誤差更?。疄榱讼撎枎淼挠绊懀脷埐畹钠椒絹肀磉_,即

        (14)

        以此構建對角權重矩陣[16]

        (15)

        (16)

        (17)

        xi為時間序列;Y為預測時間t前真實值組成的(n-p)×1矩陣.

        1.3.2 基于邊界判定的CART分裂策略

        Fayyad邊界點判定與熵[17]有關,其熵越小,對屬性進行分類所需的平均信息量就越少.熵值為

        (18)

        其中,pi表示在樣本集中取到分類為Ci的子集的概率. 由于熵值和GINI系數(shù)的變化趨勢相同,因此,要找到最小GINI系數(shù),只需要找到使平均類熵達到最小的值.由Fayyad邊界點判定原理可知,該值在排序后兩個相鄰異類樣本之間.本研究的CART分裂屬性為連續(xù)屬性,所以每次只需要找出一個將屬性取平均值后的分界點作為分割閾值,將樣本集分為兩邊,此時,閾值點即為該分界點.此方法并不需要計算每個分割點的GINI系數(shù),大大提升了訓練效率.只有當出現(xiàn)屬性值達到最小這種不理想情況時,才會與原來的分類次數(shù)相同.

        1.3.3 組合算法

        通過改進的ARIMA模型得到預測數(shù)據(jù)和歷史數(shù)據(jù)的線性組合,即式(3).由于εt參數(shù)的不可獲得性,所以xt的估計值為

        (19)

        (20)

        由式(20)得到負載數(shù)據(jù)的非線性部分后,需要利用改進的CART回歸樹對滯后期從1到p階的歷史數(shù)據(jù)進行殘差擬合訓練,提取序列中的非線性關系,得到擬合更為準確的非線性關系,即

        (21)

        最終i時刻的觀測值可以表示為

        (22)

        具體算法為:

        步驟1:數(shù)據(jù)預處理,并通過AIC標準確定最優(yōu)階數(shù)p、q;

        步驟2:通過加權最小二乘參數(shù)估計法得到ARIMA的相應參數(shù),得到線性預測模塊ARIMA的預測模型;

        步驟3:將觀測值與預測模型的擬合值作差,得到殘差序列;

        步驟4:通過步驟一中所定階數(shù)p, 用CART回歸樹將p個歷史數(shù)據(jù)與對應殘差進行訓練;

        步驟5:結合ARIMA模型和CART模型的預測結果,得到最終結果.

        2 實驗結果及分析

        2.1 實驗數(shù)據(jù)集

        本研究采用不同采樣頻率的CPU和內(nèi)存負載數(shù)據(jù),采集自某企業(yè)真實的主機(表1).算法采用Python實現(xiàn),實驗環(huán)境為Windows8.1、Intel Core i7-4510CPU@2.60 GHz、4 Gbyte內(nèi)存.

        表1 實驗數(shù)據(jù)集

        2.2 實驗結果

        本研究在采樣頻率為5、10和20 min的CPU負載上進行訓練,并預測未來的40個數(shù)據(jù),與傳統(tǒng)ARIMA模型進行對比,實驗結果如圖1至圖3.

        圖1 CPU_5負載預測結果對比Fig.1 (Color online) CPU_5 load prediction results comparison

        圖2 CPU_10負載預測結果對比Fig.2 (Color online) CPU_10 load prediction results comparison

        圖3 CPU_20負載預測結果對比Fig.3 (Color online) CPU_20 load prediction results comparison

        從圖1至圖3可見,ARIMA+CART組合模型對偏遠點的預測均比ARIMA模型準確,整體的預測效果也要比ARIMA模型好.這是由于它預測了負載數(shù)據(jù)中的非線性部分,更接近實際數(shù)據(jù)分布.

        進一步,以不同采樣間隔的內(nèi)存負載數(shù)據(jù)分別對ARIMA模型和ARIMA+CART組合模型進行訓練并預測,實驗結果如圖4至圖6.

        圖4 內(nèi)存_5利用率預測結果對比Fig.4 (Color online) Memory_5 utilization rate prediction results comparison

        圖 5 內(nèi)存_10利用率預測結果對比Fig.5 (Color online) Memory_10 utilization rate prediction results comparison

        圖 6 內(nèi)存_20利用率預測結果對比Fig.6 (Color online) Memory_20 utilization rate prediction results comparison

        從圖4至圖6可見,ARIMA+CART組合模型的預測均比ARIMA模型準確,這是由于組合模型擬合了殘差中含有的非線性因素,所以比ARIMA更貼近真實值,誤差更?。诓煌瑫r間間隔的內(nèi)存利用率數(shù)據(jù)中,組合模型同樣有更好的效果.

        為了量化本研究算法的預測精度,我們采用平均絕對誤差和作為評價標準,即

        (23)

        通過分析實驗數(shù)據(jù),得到ARIMA模型和ARIMA+CART組合模型的負載預測誤差,如表2.

        表2 不同模型的負載預測誤差對比

        從表2可見,ARIMA+CART模型相比ARIMA模型的預測誤差有明顯降低,預測精度比傳統(tǒng)ARIMA模型提高了15%以上,證明了本研究模型的預測精度更高.

        結 語

        本研究提出基于加權參數(shù)估計法的ARIMA和CART的組合負載預測模型,較單一線性模型而言,CART解決了負載數(shù)據(jù)中非線性部分的預測問題,模型預測精度得到明顯提升.實驗結果證明,本研究模型對一些波動較大的偏遠點預測要更優(yōu)于單一線性模型,這是由于CART對殘差的非線性部分的預測彌補了線性模型的缺陷,使得模型的最終預測值要比傳統(tǒng)模型更靠近真實值,整體的預測精度提高了15%以上.

        猜你喜歡
        參數(shù)估計內(nèi)存殘差
        基于雙向GRU與殘差擬合的車輛跟馳建模
        基于新型DFrFT的LFM信號參數(shù)估計算法
        基于殘差學習的自適應無人機目標跟蹤算法
        “春夏秋冬”的內(nèi)存
        當代陜西(2019年13期)2019-08-20 03:54:22
        基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
        自動化學報(2019年6期)2019-07-23 01:18:32
        Logistic回歸模型的幾乎無偏兩參數(shù)估計
        基于向前方程的平穩(wěn)分布參數(shù)估計
        基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計
        平穩(wěn)自相關過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        基于內(nèi)存的地理信息訪問技術
        中文字幕亚洲乱码熟女1区| 2022国内精品免费福利视频| 久久久高清免费视频| 丰满人妻被公侵犯的视频| 久久亚洲精品中文字幕| 国产麻豆md传媒视频| 囯产精品无码va一区二区| 亚洲处破女av一区二区| 肥老熟女性强欲五十路| 亚洲日韩国产一区二区三区在线 | 免费观看在线视频一区| 亚洲av三级黄色在线观看| 3d动漫精品啪啪一区二区免费| 无码人妻一区二区三区免费| 黄色大片一区二区中文字幕| 国产亚洲一本二本三道| 国产人成无码视频在线观看 | 狼狼综合久久久久综合网| 国产精品久久久av久久久| 超清无码AV丝袜片在线观看| 蜜桃视频一区二区三区四| 国产午夜毛片v一区二区三区| 欧美精品一区二区性色a+v| 网红极品女神精品视频在线| 一本色道久久88—综合亚洲精品| 日本最大色倩网站www| 久久精品无码一区二区三区不| 国产噜噜亚洲av一二三区| 亚洲欧洲av综合色无码| 又色又爽又黄又硬的视频免费观看| 国产h视频在线观看网站免费| av中文字幕在线直播| 天天摸夜夜摸摸到高潮| 久久精品中文字幕第23页| 中文字幕国产精品专区| 国产成人av无码精品| 国产精品欧美成人| 国产丝袜精品丝袜一区二区 | 天天爽夜夜爽夜夜爽| 国产精品麻豆A啊在线观看| 高清不卡av一区二区|