亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LSTM網(wǎng)絡(luò)的移動(dòng)云計(jì)算多元負(fù)載預(yù)測(cè)模型

        2021-06-29 07:20:44陳絲雨
        關(guān)鍵詞:特征方法模型

        陳絲雨,莊 毅,李 靜

        (南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)

        0 引 言

        2006年,Google公司初次在業(yè)界會(huì)議中提出了“云計(jì)算”這一概念[1],促成了目前正如火如荼推進(jìn)的移動(dòng)互聯(lián)網(wǎng)革命。用戶在云計(jì)算模式下,無(wú)需購(gòu)置大量實(shí)體設(shè)備,而是可以按使用量從基礎(chǔ)架構(gòu)及服務(wù)提供商中對(duì)虛擬的計(jì)算資源按需付費(fèi),包含網(wǎng)絡(luò)、存儲(chǔ)等資源。近年來(lái)隨著網(wǎng)絡(luò)帶寬速度的提升和智能設(shè)備的普及,云計(jì)算的關(guān)注熱點(diǎn)從主機(jī)開(kāi)始向移動(dòng)設(shè)備轉(zhuǎn)移。移動(dòng)終端設(shè)備面臨著移動(dòng)支付、移動(dòng)游戲、移動(dòng)教育以及虛擬現(xiàn)實(shí)技術(shù)這樣更加復(fù)雜的用戶需求帶來(lái)的極大的計(jì)算、存儲(chǔ)、安全等方面的挑戰(zhàn),移動(dòng)云計(jì)算(Mobile Cloud Computing, MCC)技術(shù)[2]應(yīng)運(yùn)而生。移動(dòng)云計(jì)算將移動(dòng)互聯(lián)網(wǎng)與云計(jì)算技術(shù)聯(lián)合起來(lái),移動(dòng)云計(jì)算的用戶通過(guò)網(wǎng)絡(luò)運(yùn)營(yíng)商或是無(wú)線接入連接到部署在不同地方的移動(dòng)云計(jì)算數(shù)據(jù)中心,云數(shù)據(jù)中心海量的存儲(chǔ)和高速的計(jì)算能力為移動(dòng)設(shè)備彌補(bǔ)了運(yùn)算性能、電池續(xù)航和存儲(chǔ)空間有限的不足[3]。

        隨著移動(dòng)云計(jì)算技術(shù)的發(fā)展,許多科技公司都為其云服務(wù)產(chǎn)品提供了彈性的自動(dòng)伸縮功能,能夠在系統(tǒng)運(yùn)行時(shí)動(dòng)態(tài)改變系統(tǒng)的資源分配量。在云數(shù)據(jù)中心精確地進(jìn)行資源管理可以使云服務(wù)供應(yīng)商能夠最大化數(shù)據(jù)中心利用率,通過(guò)減少開(kāi)啟的機(jī)器數(shù)量來(lái)促進(jìn)數(shù)據(jù)中心綠色計(jì)算,同時(shí)將其運(yùn)營(yíng)成本降至最低?,F(xiàn)有的資源管理方案通常分為被動(dòng)與主動(dòng)管理資源2種。在被動(dòng)管理方案下,當(dāng)主機(jī)工作負(fù)載增加或減少到預(yù)設(shè)的特定閾值時(shí),將進(jìn)行資源管理或虛擬機(jī)遷移。但是,這種方案下,可能會(huì)導(dǎo)致因?yàn)樘摂M機(jī)的供應(yīng)和遷移耗時(shí)過(guò)長(zhǎng)而無(wú)法應(yīng)對(duì)工作負(fù)載突然變化所造成的違反服務(wù)水平協(xié)議(Service-Level Agreement, SLA)的問(wèn)題。主動(dòng)管理方案則通過(guò)識(shí)別云計(jì)算中心中資源使用模式、預(yù)測(cè)未來(lái)時(shí)間的主機(jī)工作負(fù)載來(lái)對(duì)云計(jì)算中心中的虛擬機(jī)或其他資源動(dòng)態(tài)調(diào)整,可解決被動(dòng)資源管理方案中對(duì)負(fù)載變化響應(yīng)慢的問(wèn)題。所以,準(zhǔn)確估計(jì)云數(shù)據(jù)中心中的資源負(fù)載情況可以大幅度提高云數(shù)據(jù)中心的運(yùn)行效率以及計(jì)算資源的利用率,有助于預(yù)先計(jì)劃資源容量和實(shí)現(xiàn)智能資源拓展,對(duì)滿足SLA具有重要意義。因此,云計(jì)算中的負(fù)載預(yù)測(cè)已成為研究的熱點(diǎn)。并且由于移動(dòng)云計(jì)算環(huán)境下多用戶共同托管的任務(wù)具有動(dòng)態(tài)和隨時(shí)間變化的特點(diǎn),因此準(zhǔn)確估計(jì)數(shù)據(jù)中心未來(lái)的資源使用率具有挑戰(zhàn)性。

        現(xiàn)有的一些負(fù)載預(yù)測(cè)算法主要可以分成以下3類,傳統(tǒng)的基于時(shí)間序列數(shù)據(jù)的負(fù)載統(tǒng)計(jì)預(yù)測(cè)模型、基于機(jī)器學(xué)習(xí)的負(fù)載預(yù)測(cè)模型和混合集成的負(fù)載預(yù)測(cè)模型。前者的數(shù)據(jù)規(guī)律通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析得到,統(tǒng)計(jì)預(yù)測(cè)模型有自回歸(AutoRegressive, AR)[4]模型、自回歸移動(dòng)平均(AutoRegressive Moving Average, ARMA)[5]模型和差分自回歸移動(dòng)平均(AutoRegressive Integrated Moving Average, ARIMA)[6]模型等。但不幸的是,這些模型高度依賴所收集數(shù)據(jù)的固定形式和工作人員有經(jīng)驗(yàn)的參數(shù)調(diào)整,并且傳統(tǒng)方法很難進(jìn)行長(zhǎng)時(shí)間預(yù)測(cè)。最近,人們開(kāi)始使用機(jī)器學(xué)習(xí)技術(shù)應(yīng)對(duì)這些問(wèn)題,機(jī)器學(xué)習(xí)方法作為新興工具被用在了負(fù)載預(yù)測(cè)中,如貝葉斯方法[7]、支持向量機(jī)算法(SVM)[8]、隨機(jī)森林算法[9]、神經(jīng)網(wǎng)絡(luò)等。很多機(jī)器學(xué)習(xí)模型過(guò)于簡(jiǎn)單導(dǎo)致無(wú)法有效利用長(zhǎng)期依賴關(guān)系、預(yù)測(cè)精度不高,難以針對(duì)移動(dòng)云計(jì)算負(fù)載波動(dòng)大、無(wú)周期的特點(diǎn)進(jìn)行預(yù)測(cè)。結(jié)合了傳統(tǒng)的預(yù)測(cè)算法和機(jī)器學(xué)習(xí)方法的集成預(yù)測(cè)算法研究已經(jīng)成為解決負(fù)荷預(yù)測(cè)問(wèn)題的趨勢(shì)。通過(guò)將多種預(yù)測(cè)模型相結(jié)合,預(yù)測(cè)模型往往可以得到更好的性能。但是這些方法都使用單變量預(yù)測(cè),無(wú)法準(zhǔn)確地捕獲其他特征對(duì)目標(biāo)工作負(fù)載的影響。

        本文提出了一種新穎的利用聯(lián)合特征選擇策略,是無(wú)抽取的小波變換方法后的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)的編-解碼結(jié)構(gòu)模型——AR-LSTM-ED負(fù)載預(yù)測(cè)模型。LSTM作為神經(jīng)網(wǎng)絡(luò)的一種特殊形式,解決了很多機(jī)器學(xué)習(xí)模型忽略長(zhǎng)期依賴的問(wèn)題,本文將采用LSTM作為編碼器-解碼器網(wǎng)絡(luò)的組成部分,進(jìn)一步結(jié)合了自回歸模型(AR)以處理負(fù)載中的線性數(shù)據(jù)。

        本文的主要研究工作及貢獻(xiàn)如下:

        1)針對(duì)資源的預(yù)測(cè)不僅取決于其過(guò)去的趨勢(shì)(如在單變量時(shí)間序列預(yù)測(cè)中),而且還取決于其他資源度量趨勢(shì)的問(wèn)題,比如在預(yù)測(cè)CPU負(fù)載時(shí)還需考慮與CPU資源利用率最相關(guān)的其他資源特征的使用情況(如內(nèi)存存儲(chǔ)量、磁盤(pán)使用率等),但是云數(shù)據(jù)中心中其他特征多且復(fù)雜,本文設(shè)計(jì)了多變量資源聯(lián)合特征選擇策略,可以選擇出各個(gè)數(shù)據(jù)中心中對(duì)目標(biāo)資源負(fù)載預(yù)測(cè)有效的關(guān)鍵特征,不僅可以減少預(yù)測(cè)模型的訓(xùn)練時(shí)間,還提高了在線預(yù)測(cè)的準(zhǔn)確性。并且提出了基于無(wú)抽取小波變換的分解方法,可以將原始時(shí)間序列各個(gè)子成分分離,并對(duì)各個(gè)尺度上的子序列進(jìn)行單獨(dú)預(yù)測(cè),以應(yīng)對(duì)移動(dòng)云計(jì)算中高采樣頻率和負(fù)載動(dòng)態(tài)變化帶來(lái)的問(wèn)題。

        2)本文提出一種將經(jīng)典的自回歸(AR)模型和編-解碼器(Encoder-Decoder)網(wǎng)絡(luò)進(jìn)行融合的AR-LSTM-ED負(fù)載預(yù)測(cè)模型,采用自回歸(AR)模型作為線性組件,與LSTM組成的編-解碼網(wǎng)絡(luò)的非線性特性結(jié)合,提升模型對(duì)負(fù)載線性方面的負(fù)載預(yù)測(cè)能力和對(duì)長(zhǎng)期負(fù)載信息的捕捉能力。

        最后,本文使用Google云計(jì)算數(shù)據(jù)集驗(yàn)證算法,對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的方法在Google云計(jì)算數(shù)據(jù)集上取得了比現(xiàn)有基準(zhǔn)算法更好的性能。

        1 相關(guān)研究

        主機(jī)負(fù)載預(yù)測(cè)由于其對(duì)改善資源分配和提高資源利用率等潛在的作用,始終受到研究人員的大量關(guān)注。通過(guò)大量閱讀國(guó)內(nèi)外文獻(xiàn),筆者認(rèn)為負(fù)載預(yù)測(cè)技術(shù)的研究方法可以分為3個(gè)類別,分別為傳統(tǒng)的基于時(shí)間序列數(shù)據(jù)的負(fù)載統(tǒng)計(jì)預(yù)測(cè)方法、基于機(jī)器學(xué)習(xí)技術(shù)的負(fù)載預(yù)測(cè)模型和多種算法混合集成的負(fù)載預(yù)測(cè)模型。

        傳統(tǒng)的基于時(shí)間序列數(shù)據(jù)的統(tǒng)計(jì)預(yù)測(cè)方法目前已經(jīng)擁有了很多成熟的算法,具有代表性的算法主要有AR模型[4]、ARMA模型[5]和ARIMA模型[6]。Kumar等人[10]為了更準(zhǔn)確地預(yù)測(cè)未來(lái)的工作量來(lái)降低能源成本,使用最新的自回歸移動(dòng)平均(ARMA)類型的模型,如分形自回歸聚合滑動(dòng)模型與使用奇異頻譜分析模型的預(yù)測(cè)性能進(jìn)行比較,發(fā)現(xiàn)在預(yù)測(cè)網(wǎng)絡(luò)的突發(fā)負(fù)載變化時(shí),最簡(jiǎn)單的ARIMA模型優(yōu)于其他復(fù)雜的ARMA類模型。他們表明當(dāng)輸入大小增加時(shí),分形自回歸聚合滑動(dòng)模型反而會(huì)耗費(fèi)大量計(jì)算時(shí)間,所以增加輸入的負(fù)載序列大小不一定能提供更好的預(yù)測(cè)結(jié)果。Dinda等人[11]使用了一個(gè)公開(kāi)可用的數(shù)據(jù)集,其中包含4種類型的UNIX分布式系統(tǒng)工作負(fù)載跟蹤。他們?cè)跀?shù)據(jù)集上比較使用了AR模型、MA(Moving Average Model)模型和ARIMA模型,通過(guò)評(píng)估預(yù)測(cè)模型來(lái)構(gòu)建相對(duì)準(zhǔn)確地用于主機(jī)負(fù)載性能和網(wǎng)絡(luò)帶寬的在線預(yù)測(cè)系統(tǒng),研究發(fā)現(xiàn)簡(jiǎn)單的AR模型具有最佳的預(yù)測(cè)能力,然而Dinda等人只對(duì)短期單步的未來(lái)時(shí)間進(jìn)行了預(yù)測(cè)。

        在近年來(lái)研究較多的新興方法中,機(jī)器學(xué)習(xí)方法得到關(guān)注,具有代表性的有貝葉斯方法、支持向量機(jī)算法(SVM)、隨機(jī)森林算法、神經(jīng)網(wǎng)絡(luò)和自然啟發(fā)式算法[12]等。Zhong等人[13]提出了一種基于支持向量機(jī)的WWSVM模型,使用母小波變換作為SVM中的核函數(shù),并且根據(jù)樣本的重要性為樣本加權(quán)。Bey等人[14]開(kāi)發(fā)了一種用于CPU負(fù)載的單步預(yù)測(cè)模型,該模型對(duì)通過(guò)C-均值聚類過(guò)程獲得的CPU負(fù)載的聚類狀態(tài)使用模糊推理和貝葉斯網(wǎng)絡(luò)來(lái)預(yù)測(cè)未來(lái)的CPU負(fù)載。Yang等人[15]提出了一種新的方法預(yù)測(cè)主機(jī)負(fù)載,該方法將自動(dòng)編碼器用作回波狀態(tài)網(wǎng)絡(luò)的遞歸特征層。他們?yōu)榱烁玫乇硎据斎?,引入了自?dòng)編碼器來(lái)學(xué)習(xí)輸入數(shù)據(jù),能更好地捕獲負(fù)載跡線之間的相似性。Zhang等人[16]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型訓(xùn)練網(wǎng)絡(luò)并預(yù)測(cè)云集群中的工作負(fù)載狀況,并通過(guò)對(duì)正交實(shí)驗(yàn)設(shè)計(jì)結(jié)果的分析找到最佳的參數(shù)組合。研究表明基于RNN的方法適合求解負(fù)載時(shí)間序列,但它只能解決短期時(shí)間序列,當(dāng)面對(duì)長(zhǎng)期時(shí)間序列預(yù)測(cè)任務(wù)時(shí)基于RNN的方法表現(xiàn)得不是很好。Song等人[17]使用改進(jìn)的RNN即LSTM網(wǎng)絡(luò)來(lái)預(yù)測(cè)提前多步的工作量,實(shí)驗(yàn)結(jié)果表明LSTM網(wǎng)絡(luò)具有學(xué)習(xí)長(zhǎng)期依賴的能力和良好的自適應(yīng)能力,并且在2個(gè)數(shù)據(jù)集中均取得了良好的成果。

        隨著對(duì)負(fù)載預(yù)測(cè)算法研究的不斷深入,集成的資源負(fù)載預(yù)測(cè)算法是近年來(lái)的研究熱點(diǎn)。結(jié)合多種預(yù)測(cè)方法,預(yù)測(cè)模型往往可以得到更好的性能。主要有機(jī)器學(xué)習(xí)預(yù)測(cè)方法和傳統(tǒng)的統(tǒng)計(jì)預(yù)測(cè)方法的結(jié)合、自然啟發(fā)式算法和機(jī)器學(xué)習(xí)預(yù)測(cè)方法的結(jié)合等。Bi等人[18]提出了一種混合方法,結(jié)合了小波分解和ARIMA統(tǒng)計(jì)方法來(lái)對(duì)下一個(gè)時(shí)間間隔進(jìn)行預(yù)測(cè)。在這種方法中,任務(wù)序列通過(guò)Savitzky-Golay濾波進(jìn)行平滑,然后通過(guò)將平滑后的序列小波分解為多個(gè)序列,再通過(guò)ARIMA模型預(yù)測(cè)共同獲得到達(dá)任務(wù)的數(shù)量。與包括單ARIMA預(yù)測(cè)方法和一些典型的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法相比,該方法可獲得更好的預(yù)測(cè)結(jié)果。Mason等人[19]提出了一項(xiàng)提前預(yù)測(cè)主機(jī)CPU消耗水平的研究,這項(xiàng)研究使用了進(jìn)化神經(jīng)網(wǎng)絡(luò)(ENN)來(lái)做出這些預(yù)測(cè),采取了一些優(yōu)化算法來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò):粒子群優(yōu)化(PSO)方法、協(xié)方差矩陣適應(yīng)的進(jìn)化策略(CMA-ES)方法或差分進(jìn)化(DE)方法。他們的實(shí)驗(yàn)結(jié)果表明,盡管CPU利用率數(shù)據(jù)中存在大量的噪音,但是經(jīng)過(guò)CMA-ES、PSO和DE訓(xùn)練的進(jìn)化神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生比其他更為準(zhǔn)確的預(yù)測(cè)。Iqbal等人[20]提出了一種新穎的利用多個(gè)機(jī)器學(xué)習(xí)方法集成的算法以估計(jì)數(shù)據(jù)中心的資源利用率,該方法可以自適應(yīng)地從多個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)中自動(dòng)識(shí)別最合適的模型,該研究利用歷史資源使用情況的統(tǒng)計(jì)特征和多個(gè)機(jī)器學(xué)習(xí)預(yù)測(cè)模型的結(jié)果訓(xùn)練隨機(jī)決策森林分類器,從而自動(dòng)決定適當(dāng)?shù)念A(yù)測(cè)模型。但是該方法主要使用序列的統(tǒng)計(jì)特征訓(xùn)練機(jī)器學(xué)習(xí)分類器,而不能利用神經(jīng)網(wǎng)絡(luò)捕獲時(shí)間序列的特征。

        經(jīng)過(guò)大量文獻(xiàn)的閱讀,筆者發(fā)現(xiàn)RNN是許多建模場(chǎng)景的熱門(mén)話題。在包括數(shù)據(jù)中心資源預(yù)測(cè)的場(chǎng)景下,RNN和它的改進(jìn)方法如LSTM、門(mén)控循環(huán)單元(Gated Recurrent Unit, GRU)表現(xiàn)良好。但是現(xiàn)有的方法大多數(shù)只考慮了單一特征來(lái)進(jìn)行預(yù)測(cè),比如預(yù)測(cè)CPU資源時(shí)只是利用歷史CPU資源軌跡來(lái)輸入模型,因此本文提出了利用聯(lián)合特征選擇算法的策略來(lái)進(jìn)行多元相關(guān)性特征選擇,利用無(wú)抽取小波變換分解原始序列;進(jìn)一步考慮采用自回歸模型和編解碼框架下的長(zhǎng)短期記憶-網(wǎng)絡(luò)相結(jié)合的AR-LSTM-ED模型來(lái)增強(qiáng)主機(jī)負(fù)載的預(yù)測(cè)。

        2 AR-LSTM-ED多元云主機(jī)負(fù)載預(yù)測(cè)模型

        移動(dòng)云計(jì)算數(shù)據(jù)中心的主機(jī)負(fù)載是波動(dòng)大且非線性的,建立準(zhǔn)確的模型來(lái)預(yù)測(cè)主機(jī)負(fù)載尤為重要。LSTM網(wǎng)絡(luò)模型是RNN的一種改進(jìn)的變體,可以充分利用RNN在處理非線性問(wèn)題和長(zhǎng)期時(shí)間序列數(shù)據(jù)方面的優(yōu)勢(shì),阻止RNN中存在的梯度爆炸和梯度消失問(wèn)題的產(chǎn)生[31]。此外鑒于LSTM以及由LSTM所組成的編-解碼器(Encoder-Decoder)結(jié)構(gòu)在自然語(yǔ)言處理上所取得的成功,其表現(xiàn)出對(duì)于時(shí)間序列很強(qiáng)的建模性能,本文在主機(jī)負(fù)載模型中引入這一結(jié)構(gòu)。因?yàn)槔脝我惶卣鬟M(jìn)行預(yù)測(cè)往往會(huì)丟失掉其他特征對(duì)目標(biāo)預(yù)測(cè)序列的影響信息,所以本文提出的云數(shù)據(jù)中心負(fù)載預(yù)測(cè)模型通過(guò)聯(lián)合特征選擇將一組與目標(biāo)預(yù)測(cè)變量高度相關(guān)的特征作為多元負(fù)載預(yù)測(cè)輸入的一部分,以提高預(yù)測(cè)精度。

        2.1 特征聯(lián)合選擇

        在云數(shù)據(jù)中心中,如果任由資源無(wú)監(jiān)管自行運(yùn)行,會(huì)面臨難以預(yù)計(jì)的危險(xiǎn),因此云數(shù)據(jù)中心的監(jiān)控系統(tǒng)無(wú)時(shí)不刻地監(jiān)視著復(fù)雜的數(shù)據(jù)中心主機(jī)運(yùn)行,也記錄了大量的系統(tǒng)監(jiān)測(cè)數(shù)據(jù)和性能指標(biāo),如CPU資源利用率、網(wǎng)絡(luò)帶寬使用量、磁盤(pán)利用率、當(dāng)前任務(wù)數(shù)量等。這些特征之間彼此相對(duì)獨(dú)立,也有一些具有關(guān)聯(lián)或因果關(guān)系。目前現(xiàn)有的主機(jī)負(fù)載預(yù)測(cè)算法大多數(shù)只通過(guò)單變量來(lái)進(jìn)行預(yù)測(cè)[16-17],比如只通過(guò)歷史CPU資源利用率來(lái)預(yù)測(cè)未來(lái)CPU資源利用率,歷史網(wǎng)絡(luò)帶寬使用量來(lái)預(yù)測(cè)未來(lái)帶寬使用量。在文獻(xiàn)[21]中可觀察到通過(guò)分析其他特征有利于分析和理解目標(biāo)特征。比如,如果內(nèi)存使用率在同一時(shí)期從20%增長(zhǎng)到90%,預(yù)測(cè)內(nèi)存會(huì)繼續(xù)增長(zhǎng),且系統(tǒng)會(huì)開(kāi)始分頁(yè)到磁盤(pán),增大磁盤(pán)利用率,這就在云主機(jī)負(fù)載預(yù)測(cè)問(wèn)題中提出了多元時(shí)間序列預(yù)測(cè)的需求。在仔細(xì)考慮給定的系統(tǒng)后,領(lǐng)域?qū)<铱梢赃x擇這組多元特征,但是很難找到這樣的專家,并且為不同的移動(dòng)云數(shù)據(jù)中心對(duì)不同的工作負(fù)載進(jìn)行所需的工作是不可行的。因此,本文的目標(biāo)是設(shè)計(jì)一個(gè)有效的聯(lián)合特征選擇算法來(lái)選擇與目標(biāo)預(yù)測(cè)特征最相關(guān)的多元特征集,可以為多種工作負(fù)載下的云平臺(tái)提供作用。采取這種策略可以使預(yù)測(cè)模型結(jié)果更加準(zhǔn)確,使模型時(shí)間和空間復(fù)雜度保持在可計(jì)算的水平。

        定義1 云數(shù)據(jù)中心中k個(gè)主機(jī)收集到的特征向量集合M={M1,M2,…,Mi,…,Mk},第i個(gè)主機(jī)的特征向量集合Mi={P1,P2,…,Pj,…,Pm},其中P1到Pm為定期從主機(jī)收集得到的m個(gè)特征,如CPU利用率、內(nèi)存使用率、磁盤(pán)輸入/輸出時(shí)間、磁盤(pán)空間、正在運(yùn)行的任務(wù)數(shù)等。每個(gè)特征Pj均具有T個(gè)觀測(cè)值,即Pj={pj1,pj2,…,pjt,…,pjT}。

        需要從所有m個(gè)特征集合中選擇與目標(biāo)預(yù)測(cè)特征最相關(guān)的s個(gè)特征,而云資源主機(jī)的負(fù)載是高度動(dòng)態(tài)的,且會(huì)隨著時(shí)間波動(dòng),較難發(fā)現(xiàn)其規(guī)律性。如果使用預(yù)測(cè)模型在候選的特征集合中進(jìn)行窮舉搜索需要大量時(shí)間,且采用單一的相關(guān)性指標(biāo)不能準(zhǔn)確刻畫(huà)負(fù)載的相關(guān)性。因此,本文將使用一種魯棒性的聯(lián)合模型,對(duì)目標(biāo)預(yù)測(cè)特征與其他待選特征的關(guān)聯(lián)性進(jìn)行挖掘。其中包括3種相關(guān)性評(píng)價(jià)算法,Pearson相關(guān)系數(shù)算法[22]、Spearman相關(guān)系數(shù)算法[23]和最大互信息系數(shù)算法(Maximal Information Coefficient, MIC)[24]。Pearson相關(guān)系數(shù)從波形相似度來(lái)判斷特征變量之間的相關(guān)性;Spearman相關(guān)系數(shù)從序列變動(dòng)趨向一致性來(lái)計(jì)算特征變量是否相關(guān);MIC相關(guān)系數(shù)算法根據(jù)概率密度分布的特征計(jì)算特征變量間的相關(guān)性。所有這些技術(shù)都需要計(jì)算候選資源特征與目標(biāo)預(yù)測(cè)特征之間的成對(duì)關(guān)系。

        Pearson相關(guān)系數(shù)算法用于度量2個(gè)特征序列之間的線性相關(guān)程度,2個(gè)負(fù)載資源特征Px和Py之間的Pearson相關(guān)系數(shù)rpearPx,Py的計(jì)算公式如式(1)[22]:

        (1)

        其中,cov(Px,Py)為資源特征Px和Py的協(xié)方差,μPx和μPy分別表示特征Px和Py的平均值,σPx和σPy分別表示特征Px和Py的標(biāo)準(zhǔn)差,任意資源特征Px表示為Px={px1,px2,…,pxT}。rpearPx,Py的值介于[-1,1]之間,如果Px和Py這2個(gè)特征變量彼此獨(dú)立,則rpearPx,Py值為0。

        Spearman相關(guān)系數(shù)利用單調(diào)方程評(píng)價(jià)2個(gè)特征變換的強(qiáng)度和趨向,比如2個(gè)變量可能一起變化,但并不一定以相同的速率在一致的方向變化。已知Px和Py是分別為具有T個(gè)觀測(cè)值的2個(gè)資源特征,通過(guò)將等級(jí)1分別分配給Px和Py中T個(gè)觀測(cè)值中的最低值,將等級(jí)2分別分配給下一個(gè)最低值,依此類推,獲得Px和Py中每個(gè)值的等級(jí),被觀測(cè)的第t時(shí)刻Px和Py等級(jí)的差值為d′t。Spearman相關(guān)系數(shù)rspearPx,Py的計(jì)算方法如式(2)[23]:

        (2)

        最大互信息系數(shù)算法本質(zhì)上是計(jì)算2個(gè)特征間的互信息值,最大互信息系數(shù)主要利用互信息和網(wǎng)格劃分方法進(jìn)行計(jì)算。任意資源特征Px均具有T個(gè)觀測(cè)值,Px={px1,px2,…,pxT}。Px和Py間的互信息系數(shù)MIPx,Py的計(jì)算方法如式(3)[26]:

        (3)

        其中,p(px,py)表示px和py的聯(lián)合概率密度,p(px)和p(py)分別表示px和py的邊緣概率密度。在給定的網(wǎng)格分辨率下,對(duì)由資源變量px和py構(gòu)成的二維散點(diǎn)圖按照不同的劃分方案進(jìn)行劃分,取劃分方案中互信息值的最大值,將該最大值進(jìn)行歸一化。改變網(wǎng)格分辨率,求出不同網(wǎng)格尺度下最大的互信息值,把該值作為資源變量px和py的MIC值。MIC系數(shù)MICPx,Py的計(jì)算方法如式(4)[24]:

        (4)

        其中,a和b表示將變量Px的值域分成a段,將變量Py的值域分成b段,B(T)是一個(gè)關(guān)于觀測(cè)規(guī)模T的函數(shù),表示網(wǎng)格劃分a×b的上限。一般地,當(dāng)B(T)=T0.6時(shí)效果最好,因此本文中也采用該值,Px和Py的相關(guān)性和MIC的絕對(duì)值正相關(guān)。

        根據(jù)以上3種技術(shù)可以得出不同特征的3種相關(guān)度系數(shù)值,可聯(lián)合表示負(fù)載數(shù)據(jù)局部的波形相似度、變化趨勢(shì)和概率密度分布特點(diǎn)。若將3種指標(biāo)值隨機(jī)加權(quán)會(huì)影響特征選擇的準(zhǔn)確性和穩(wěn)定性,因此本文提出結(jié)合熵權(quán)法[25]的聯(lián)合特征選擇算法,如果相關(guān)度指標(biāo)能提供的信息量越大,在所有技術(shù)指標(biāo)的整體評(píng)價(jià)中的作用也就更大,占整體技術(shù)指標(biāo)的權(quán)重就應(yīng)該越高。而信息熵的大小和信息量成正比。因此,通過(guò)對(duì)計(jì)算出的指標(biāo)的信息熵計(jì)算可以得出每種指標(biāo)的信息量,根據(jù)指標(biāo)的信息量分配權(quán)重,得出具有魯棒性的相關(guān)性指標(biāo)。

        聯(lián)合特征選擇算法具體步驟如算法1所示。

        算法1 聯(lián)合特征選擇算法

        輸入:數(shù)據(jù)中心中的某臺(tái)主機(jī)的負(fù)載特征向量集合M={M1,M2,…,Mi,…,Mk},目標(biāo)預(yù)測(cè)特征集合Px。Mi中共有m個(gè)負(fù)載特征向量,Mi={P1,P2,…,Pj,…,Pm}。任意的負(fù)載特征向量Pj都具有T個(gè)觀測(cè)值,即Pj={pj1,pj2,…,pjt,…,pjT}。目標(biāo)預(yù)測(cè)特征集合Px初始時(shí)包含在Mi中。

        輸出:候選特征MZi={P1,P2,…,Ps}。

        步驟2 因?yàn)樽畲蠡バ畔⒅档娜≈翟赱0,1]之間,rpearPx,Py和rspearPx,Py的取值在[-1,1]之間,所以將相關(guān)度矩陣的各子項(xiàng)取絕對(duì)值,令CMj,u=|CMj,u|。

        步驟3 依據(jù)計(jì)算公式(5)分別計(jì)算3項(xiàng)指標(biāo)的信息熵Eu的值。

        (5)

        步驟4 根據(jù)公式(6)計(jì)算3項(xiàng)指標(biāo)對(duì)應(yīng)的權(quán)重wu:

        (6)

        步驟5 根據(jù)得到的權(quán)重wu和公式(7)計(jì)算聯(lián)合關(guān)聯(lián)度CMj的值:

        (7)

        步驟6 初始化輸出候選特征矩陣MZi={},在Mi中選取聯(lián)合關(guān)聯(lián)度值CMj中最大的s個(gè)特征向量,將選中的特征向量Pj加入MZi。

        步驟7 得到MZi={P1,P2,…,Ps}為聯(lián)合特征選擇算法最終輸出的候選特征。

        聯(lián)合特征選擇輸出的MZi為AR-LSTM-ED預(yù)測(cè)模型的輸入信息。目標(biāo)預(yù)測(cè)特征集合Px的分解方法將在下一節(jié)中介紹。

        2.2 無(wú)抽取小波分解

        由于在移動(dòng)云計(jì)算負(fù)載預(yù)測(cè)領(lǐng)域,數(shù)據(jù)采集間隔短,采集頻率越來(lái)越高,一方面可以得到更多的信息,另一方面會(huì)引入大量的隨機(jī)噪聲。雖然這些隨機(jī)噪聲在采集頻率較低的數(shù)據(jù)中也同樣存在,但是低頻的采集起到了低通濾波的作用,平滑了時(shí)間序列,過(guò)濾掉了高頻噪聲。與此相反,在移動(dòng)云計(jì)算負(fù)載數(shù)據(jù)中這一問(wèn)題更加嚴(yán)重。因?yàn)橐苿?dòng)云計(jì)算中心無(wú)時(shí)無(wú)刻不在處理來(lái)自各地移動(dòng)設(shè)備的任務(wù),它的負(fù)載序列很難具有周期性和平穩(wěn)性,甚至有用的信息都可能會(huì)被噪聲淹沒(méi)。對(duì)高頻快速變化的負(fù)載數(shù)據(jù)直接預(yù)測(cè)難以達(dá)到滿意的效果,可以利用時(shí)間序列分解和神經(jīng)網(wǎng)絡(luò)組合的混合模型來(lái)進(jìn)行預(yù)測(cè)。所以本節(jié)引入了一種無(wú)抽取小波分解方法作為移動(dòng)云計(jì)算負(fù)載預(yù)測(cè)模型的基礎(chǔ)。

        時(shí)間序列分解方法將不同的時(shí)序數(shù)據(jù)進(jìn)行變換,分解成一系列低耦合的子成分,有利于進(jìn)一步分析與預(yù)測(cè)。小波變換通過(guò)一些特定的母小波去描述輸入信號(hào),比如縮小或放大原始信號(hào)、將原始信號(hào)平移等。近年來(lái),越來(lái)越多時(shí)間序列研究領(lǐng)域的學(xué)者開(kāi)始將小波變換引入到時(shí)序預(yù)測(cè)方向上[18],可以使用小波變換對(duì)原負(fù)載序列進(jìn)行解析,分解成多個(gè)較平穩(wěn)的細(xì)節(jié)信號(hào)和一個(gè)近似信號(hào),從而挖掘出序列中的規(guī)律以及變化趨向。小波分解通常使用基于多分辨率分析的Mallat算法[27],該方式可以用于對(duì)非平穩(wěn)時(shí)間序列進(jìn)行預(yù)測(cè),但是在分解過(guò)程中,每當(dāng)獲取到新的時(shí)間序列時(shí),小波變換的系數(shù)需要重新計(jì)算,導(dǎo)致同樣的歷史序列分解出的分量發(fā)生改變,計(jì)算量大,沒(méi)有充足的時(shí)間對(duì)變換后的數(shù)據(jù)進(jìn)行再次訓(xùn)練。Mallat算法這種不具有時(shí)移不變性的方法難以滿足移動(dòng)云計(jì)算負(fù)載預(yù)測(cè)模型對(duì)于在線預(yù)測(cè)的要求,而無(wú)抽取的à trous離散小波變換算法[28]解決了這一問(wèn)題,任意時(shí)刻t序列的分解都不需要t時(shí)刻之后的數(shù)據(jù)來(lái)計(jì)算,所以在得到新的時(shí)序數(shù)據(jù)時(shí),無(wú)需重新計(jì)算系數(shù)。并且具有時(shí)移不變性,同一時(shí)刻的各個(gè)分解序列可以直接產(chǎn)生關(guān)聯(lián),適用于云計(jì)算中心負(fù)載在線預(yù)測(cè)的場(chǎng)景。因此本文采用à trous小波變換將目標(biāo)預(yù)測(cè)序列Px分解成式(8)的形式,Px={px1,px2,…,pxT},à trous小波分解得到的序列長(zhǎng)度仍然是T。

        (8)

        集合{D1,D2,…,DJ,SJ}為目標(biāo)負(fù)載序列Px分解到分辨率為M的小波分解序列集合,其中SJ是目標(biāo)負(fù)載序列Px的近似信號(hào)序列,而Dj為目標(biāo)負(fù)載序列Px的細(xì)節(jié)信號(hào)序列,SJ={sJ1,sJ2,…,sJT},Dj={dj1,dj2,…,djT},都具有T個(gè)觀測(cè)值。將卷積核定義為k(h),分辨率為j的分解序列在時(shí)間t處的近似信號(hào)sjt由卷積核k對(duì)原始時(shí)間序列進(jìn)行卷積操作,如式(9):

        (9)

        對(duì)負(fù)載序列進(jìn)行分辨率為m的分解后的序列Dj在時(shí)刻t處的細(xì)節(jié)信號(hào)djt由sjt表示,如式(10):

        djt=sjt-s(j-1)t

        (10)

        為了適應(yīng)移動(dòng)云負(fù)載的預(yù)測(cè),降低小波變換的計(jì)算量,本文采用簡(jiǎn)單的濾波器k(h)=[1/2,1/2]作為低通濾波器,計(jì)算近似信號(hào)的方法如式(11):

        sjt=0.5(s(j-1)(t-2j)+s(j-1)t)

        (11)

        根據(jù)式(9)和式(11)可以將Px分解為式(8)的形式。通過(guò)上述變換可以看出,在任意時(shí)刻t都不需要t時(shí)刻之后的數(shù)據(jù)來(lái)計(jì)算近似信號(hào)和細(xì)節(jié)信號(hào)分量,可滿足本文研究中的實(shí)時(shí)性要求,并且因?yàn)樨?fù)載數(shù)據(jù)不斷變換和更新,前面計(jì)算得到的負(fù)載信號(hào)分量可被后面的計(jì)算使用;并且如果數(shù)據(jù)不斷更新(即獲得新的測(cè)量結(jié)果),則不必重新計(jì)算之前分解的信號(hào),提高了計(jì)算效率。另外,考慮分解的層數(shù)過(guò)多會(huì)產(chǎn)生太多細(xì)節(jié)信號(hào),層數(shù)過(guò)少近似信號(hào)不夠平滑。根據(jù)實(shí)驗(yàn),本文將分辨率J設(shè)置為3,可以分解出較為平滑的近似信號(hào),最終可以將目標(biāo)負(fù)載序列Px根據(jù)式(8)分解,得到3個(gè)不同分辨率下的細(xì)節(jié)信號(hào)序列D1、D2、D3和一個(gè)近似信號(hào)序列S3。這些序列將作為預(yù)測(cè)特征的內(nèi)部特征輸入到本文的模型中,且由于變換的冗余性,他們的時(shí)間長(zhǎng)度與原始的目標(biāo)負(fù)載序列Px相等,所以每一個(gè)時(shí)間序列的同一個(gè)時(shí)間點(diǎn)可以建立直接聯(lián)系,之間的規(guī)律可以被下一節(jié)提出的模型獲取到。

        2.3 AR-LSTM-ED模型

        本文提出一種與AR模型相結(jié)合的編解碼框架下的長(zhǎng)短期記憶網(wǎng)絡(luò)模型,即AR-LSTM-ED模型,該模型不僅可以捕捉不同時(shí)間序列的長(zhǎng)期時(shí)間依賴關(guān)系,還可以增強(qiáng)基本LSTM的線性預(yù)測(cè)能力,對(duì)處理移動(dòng)云負(fù)載序列預(yù)測(cè)問(wèn)題具有良好的性能。AR-LSTM-ED模型由2個(gè)基本組件組成,包括線性組件和非線性組件,其架構(gòu)圖如圖1所示。本文采用經(jīng)典的AR模型作為線性組件來(lái)捕捉輸入序列中的線性成分。非線性組件采取了編-解碼器的結(jié)構(gòu),包括LSTM網(wǎng)絡(luò)構(gòu)成的編碼器部分和解碼器部分,編碼器封裝了輸入向量時(shí)序數(shù)據(jù)中信息的編碼形式,解碼器將編碼器構(gòu)建的表示形式解碼為預(yù)測(cè)輸出序列。

        圖1 AR-LSTM-ED模型架構(gòu)圖

        主機(jī)負(fù)載時(shí)間序列依據(jù)時(shí)間順序分成固定窗口大小的相連續(xù)的歷史序列和預(yù)測(cè)序列:歷史和預(yù)測(cè)序列分別用作AR-LSTM-ED的輸入和受監(jiān)督的輸出標(biāo)簽。輸入向量為X,由聯(lián)合特征選擇算法中得到的MZi={P1,P2,…,Ps}、原始目標(biāo)負(fù)載序列Px和根據(jù)式(9)分解后得到的序列{D1,D2,D3,S3}構(gòu)成,即X={Px,P1,P2,…,Ps,D1,D2,D3,S3}。且X具有T個(gè)觀測(cè)點(diǎn),即X={x1,x2,…,xt,…,xω},輸入AR-LSTM-ED模型得到的輸出預(yù)測(cè)序列為Y,Y={yω+1,…,yt,…,yω+t′}。t′=1時(shí)Y是主機(jī)未來(lái)單個(gè)時(shí)間間隔的預(yù)測(cè)負(fù)載序列,序列長(zhǎng)度為1;t′>1時(shí)是未來(lái)多個(gè)時(shí)間間隔的預(yù)測(cè)負(fù)載序列。參考文獻(xiàn)[10],本文用于從云數(shù)據(jù)中心中收集數(shù)據(jù)的最小間隔為5 min。

        隨著深度學(xué)習(xí)近年來(lái)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)被越來(lái)越多地應(yīng)用到實(shí)際問(wèn)題中,RNN是一個(gè)能夠?qū)顟B(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞的網(wǎng)絡(luò)[29]。但是,當(dāng)歷史負(fù)載序列很長(zhǎng)時(shí),RNN將無(wú)法從遠(yuǎn)離當(dāng)前時(shí)刻的負(fù)載中學(xué)習(xí)信息,時(shí)間步t中的信息傳輸?shù)较乱粋€(gè)時(shí)間步時(shí),上一步中信息的影響將減小。并且,RNN在建立長(zhǎng)期依賴模型時(shí)常常會(huì)受到梯度無(wú)法在較長(zhǎng)序列中傳遞產(chǎn)生的消失問(wèn)題和梯度爆炸問(wèn)題的困擾[31]。而RNN的一種改良的變體LSTM網(wǎng)絡(luò)可以解決RNN中的梯度消失問(wèn)題[32],在處理負(fù)載預(yù)測(cè)相關(guān)的時(shí)間序列問(wèn)題中表現(xiàn)出更強(qiáng)的優(yōu)勢(shì)。因此,本文選擇了LSTM模型作為基本負(fù)載預(yù)測(cè)模型。

        LSTM網(wǎng)絡(luò)使用多個(gè)門(mén)控機(jī)制來(lái)跟蹤序列的狀態(tài),門(mén)控單元有4種類型:忘記門(mén)ft、輸入門(mén)it、單元門(mén)gt和輸出門(mén)ot,它們共同控制如何將信息更新為狀態(tài),如圖2[33]所示。LSTM網(wǎng)絡(luò)通常通過(guò)忘記門(mén)來(lái)增強(qiáng)學(xué)習(xí)長(zhǎng)期依賴的能力,可以學(xué)習(xí)需要記憶早先成千上萬(wàn)甚至數(shù)百萬(wàn)個(gè)離散時(shí)間步長(zhǎng)發(fā)生的事件的任務(wù),即使在重大事件之間存在較長(zhǎng)的延遲,LSTM網(wǎng)絡(luò)仍可以工作。

        圖2 LSTM的體系結(jié)構(gòu)

        當(dāng)LSTM網(wǎng)絡(luò)接收時(shí)間步t時(shí)刻的輸入xt時(shí),根據(jù)公式(12)[18],4個(gè)門(mén)都會(huì)進(jìn)行更新。忘記門(mén)ft用來(lái)控制記住還是遺忘上一個(gè)時(shí)間步的單元狀態(tài)ct-1,ft取值為[0,1],表示上一個(gè)時(shí)間步的單元狀態(tài)遺忘的概率。輸入門(mén)it負(fù)責(zé)確定當(dāng)前輸入xt的重要程度,即負(fù)載數(shù)據(jù)xt中哪些信息能夠被儲(chǔ)存在神經(jīng)元中,單元門(mén)gt對(duì)輸入執(zhí)行非線性變換,而輸出門(mén)ot控制新的單元狀態(tài)ct進(jìn)入到LSTM網(wǎng)絡(luò)的當(dāng)前輸出的ht的量,ht是隱藏狀態(tài)。

        (12)

        其中,Wf、Wi、Wg和Wo是權(quán)重矩陣,激活函數(shù)是非線性的Sigmoid函數(shù),bf、bi、bg和bo是偏差向量。從式(13)中可以看到,當(dāng)前時(shí)間步t的單元狀態(tài)ct在單元門(mén)ft、it、gt的控制下進(jìn)行更新。最后,根據(jù)式(14)使用ot和ct更新本層的輸出。

        ct=ft×ct-1+it×gt

        (13)

        ht=ot×tanh(ct)

        (14)

        本文研究的任務(wù)是預(yù)測(cè)移動(dòng)云計(jì)算中心中目標(biāo)負(fù)載在未來(lái)一個(gè)時(shí)刻或多個(gè)時(shí)刻的值,輸入向量X為多個(gè)時(shí)間步的序列,所以是一個(gè)多對(duì)多或多對(duì)一的序列預(yù)測(cè)形式。由于Encoder-Decoder模型[32]能夠使用編碼器將輸入的序列編碼轉(zhuǎn)換為固定長(zhǎng)度的向量,并使用解碼器解析這個(gè)固定長(zhǎng)度的向量并輸出需要長(zhǎng)度的預(yù)測(cè)序列,且輸入和輸出都可以是不定長(zhǎng)序列,對(duì)于本文中對(duì)單步或多步負(fù)載預(yù)測(cè)問(wèn)題具有普適性,所以本文將編-解碼器引入。編碼器和解碼器各由一個(gè)LSTM網(wǎng)絡(luò)構(gòu)成,編碼器將t時(shí)刻輸入變量xt映射到隱藏狀態(tài)ht,ht中包含更高維的信息,使用另一個(gè)基于LSTM的遞歸神經(jīng)網(wǎng)絡(luò)作為解碼器對(duì)編碼的輸入信息進(jìn)行解碼,解碼器的輸入ht由上一次編碼器得到,解碼器的輸出sω為需要的預(yù)測(cè)長(zhǎng)度形式的序列。

        經(jīng)過(guò)LSTM網(wǎng)絡(luò)的學(xué)習(xí),可以得到解碼器的輸出sω,最后用一個(gè)全連接層將其轉(zhuǎn)為非線性組件部分的最終預(yù)測(cè)結(jié)果YED,全連接層的輸出計(jì)算如式(15):

        YED=WEDst+bED

        (15)

        其中,st是Decoder部分的預(yù)測(cè)輸出結(jié)果,WED和bED是全連接層需要學(xué)習(xí)的參數(shù)。

        (16)

        如式(17)所示,將AR線性組件的預(yù)測(cè)結(jié)果Yar和長(zhǎng)短期內(nèi)存編碼器-解碼器的預(yù)測(cè)結(jié)果YED集成而獲得最終AR-LSTM-ED模型預(yù)測(cè)結(jié)果Y,且Y={yω+1,…,yt,…,yω+t′}。t′=1時(shí)Y表示對(duì)主機(jī)未來(lái)一個(gè)時(shí)間步預(yù)測(cè)的負(fù)載序列,序列長(zhǎng)度為1;t′>1時(shí)Y表示對(duì)未來(lái)t′個(gè)時(shí)間步預(yù)測(cè)的負(fù)載序列。其中,yt表示AR-LSTM-ED模型在時(shí)間步t的最終預(yù)測(cè)。

        Y=YED+Yar

        (17)

        3 基于AR-LSTM-ED的移動(dòng)云計(jì)算多元負(fù)載預(yù)測(cè)算法

        基于AR-LSTM-ED的移動(dòng)云計(jì)算多元負(fù)載預(yù)測(cè)算法分為4個(gè)部分,分別為預(yù)處理階段、小波分解階段、模型訓(xùn)練階段和負(fù)載預(yù)測(cè)階段。具體步驟如下:

        步驟1 在數(shù)據(jù)預(yù)處理步驟中,使用邏輯歸約函數(shù)對(duì)移動(dòng)云數(shù)據(jù)中心的監(jiān)控?cái)?shù)據(jù)集中的主機(jī)負(fù)載數(shù)據(jù)進(jìn)行歸一化。然后將歸一化后得到的主機(jī)特征向量集合和目標(biāo)預(yù)測(cè)特征集合,通過(guò)算法1進(jìn)行聯(lián)合特征選擇和目標(biāo)負(fù)載變化相關(guān)性最高的關(guān)鍵特征P1,P2,…,Ps以降低監(jiān)測(cè)開(kāi)銷及模型復(fù)雜度。

        步驟2 在小波分解處理步驟中,提取出目標(biāo)預(yù)測(cè)負(fù)載序列,使用非抽取小波變換算法根據(jù)式(9)和式(11)將目標(biāo)預(yù)測(cè)負(fù)載分解為3個(gè)細(xì)節(jié)信號(hào)分量D1、D2、D3和一個(gè)近似信號(hào)S3。

        步驟3 在模型訓(xùn)練階段,取出監(jiān)控?cái)?shù)據(jù)集中得到的原始目標(biāo)序列、步驟1中得到的外部多元特征序列和步驟2中得到的內(nèi)部小波分解序列,合并得到X={Px,P1,P2,…,Ps,D1,D2,D3,S3}作為監(jiān)控?cái)?shù)據(jù)集輸入到AR-LSTM-ED模型中。負(fù)載訓(xùn)練樣本的序列長(zhǎng)度為T(mén),將其分割為歷史序列長(zhǎng)度為ω,預(yù)測(cè)序列長(zhǎng)度為t′的片段進(jìn)行訓(xùn)練,得到AR-LSTM-ED模型對(duì)訓(xùn)練數(shù)據(jù)集的預(yù)測(cè)誤差,不停調(diào)整參數(shù)進(jìn)行訓(xùn)練,得到最優(yōu)模型。

        步驟4 負(fù)載預(yù)測(cè)階段,利用步驟3中訓(xùn)練好的AR-LSTM-ED模型根據(jù)式(12)~式(17)對(duì)監(jiān)控?cái)?shù)據(jù)集中的輸入序列進(jìn)行預(yù)測(cè),得到輸出序列。

        本文提出的基于AR-LSTM-ED的移動(dòng)云計(jì)算多元負(fù)載預(yù)測(cè)算法框架如圖3所示。

        圖3 基于AR-LSTM-ED的移動(dòng)云計(jì)算多元負(fù)載預(yù)測(cè)算法框架

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 數(shù)據(jù)集和預(yù)處理

        在本文中,一個(gè)從真實(shí)云環(huán)境中收集的數(shù)據(jù)集[10]將用于評(píng)估本文提出的基于AR-LSTM-ED的移動(dòng)云計(jì)算多元負(fù)載預(yù)測(cè)算法的性能。這個(gè)數(shù)據(jù)集記錄了谷歌公司的云計(jì)算數(shù)據(jù)中心中大約12000臺(tái)服務(wù)器的工作負(fù)載信息,包括了各個(gè)任務(wù)的資源、調(diào)度等信息,例如調(diào)度類型、事件類型、資源請(qǐng)求、優(yōu)先級(jí)、資源利用率等。在本實(shí)驗(yàn)中,將專注于預(yù)測(cè)未來(lái)的CPU使用趨勢(shì)。同時(shí),其他的資源特征因?yàn)榕cCPU使用率存在相關(guān)性,因此也用于多元預(yù)測(cè)CPU使用率。如果對(duì)其他的資源如內(nèi)存、磁盤(pán)使用量、帶寬進(jìn)行預(yù)測(cè),本文提出的算法仍然是實(shí)用的。

        數(shù)據(jù)集中的每個(gè)作業(yè)在不同的時(shí)刻都伴隨有一組資源請(qǐng)求和資源使用量度。云計(jì)算中心中的每臺(tái)主機(jī)都提供長(zhǎng)期應(yīng)用程序和批處理工作的任務(wù)負(fù)載,給定時(shí)間不同主機(jī)上正在運(yùn)行的任務(wù)的總負(fù)載是該主機(jī)的實(shí)時(shí)負(fù)載。本文首先需要對(duì)不同任務(wù)的負(fù)載數(shù)據(jù)進(jìn)行分析和聚類預(yù)處理從而得到需要的在一段觀測(cè)時(shí)間的不同類型的負(fù)載數(shù)據(jù)。對(duì)數(shù)據(jù)集處理和分析后獲得的資源特征名稱及描述分別是CPU(CPU使用率)、JOBS(正在運(yùn)行的作業(yè)總數(shù))、MEM(內(nèi)存使用率)、VM(分配但不一定使用的內(nèi)存使用量)、UPC(未映射的頁(yè)面緩存量)、TPC(總頁(yè)面緩存使用量)、MAXM(最大內(nèi)存使用率)、DIO(磁盤(pán)I/O時(shí)間總和)、DSP(磁盤(pán)空間使用量)、MAXC(最大CPU使用率)、MAXD(采樣頻率間隔內(nèi)最大磁盤(pán)I/O時(shí)間)、CPI(每個(gè)指令在所有節(jié)點(diǎn)上的平均周期)、MAI(每條指令的平均內(nèi)存訪問(wèn))。在本文的實(shí)驗(yàn)中,以上數(shù)據(jù)集中按時(shí)間順序7∶3劃分訓(xùn)練集和測(cè)試集,訓(xùn)練集為歷史已知數(shù)據(jù),測(cè)試集為訓(xùn)練集之后的未知數(shù)據(jù),可以避免未來(lái)時(shí)間的信息泄露導(dǎo)致預(yù)測(cè)不準(zhǔn)的問(wèn)題。數(shù)據(jù)采樣頻率為5 min一次。所有時(shí)間序列數(shù)據(jù)通過(guò)極大極小歸一化操作歸一化到0~1的范圍。

        圖4 聯(lián)合關(guān)聯(lián)度值

        在本文提出的聯(lián)合特征選擇策略中,以上13個(gè)特征的序列為特征向量集合Mi,CPU使用率的序列作為目標(biāo)預(yù)測(cè)集合Px,根據(jù)算法1,得出了除了目標(biāo)預(yù)測(cè)特征CPU外的12項(xiàng)特征的聯(lián)合關(guān)聯(lián)值,如圖4所示。將s=5作為閾值,通過(guò)選擇聯(lián)合關(guān)聯(lián)度值最高的5個(gè)特征,得到候選特征MEM、VM、MAXM、DSP、MAXC作為AR-LSTM-ED模型的輸入。聯(lián)合特征選擇技術(shù)能避免某一關(guān)聯(lián)度指標(biāo)失效的情況,可以從全部可用的特征集中識(shí)別出最相關(guān)的特征集,具有有效性和可行性。

        4.2 實(shí)驗(yàn)設(shè)計(jì)及參數(shù)設(shè)定

        表1給出了本文方法的超參數(shù)。超參數(shù)是通過(guò)多種方式確定的。根據(jù)預(yù)測(cè)的序列長(zhǎng)度分成單步和多步預(yù)測(cè),單步預(yù)測(cè)對(duì)未來(lái)下一個(gè)時(shí)間步的負(fù)載值進(jìn)行預(yù)測(cè),得到的預(yù)測(cè)序列的長(zhǎng)度為1;多步預(yù)測(cè)對(duì)未來(lái)多個(gè)時(shí)間步的CPU負(fù)載值進(jìn)行預(yù)測(cè),預(yù)測(cè)序列的長(zhǎng)度分別為2、6和12。通過(guò)網(wǎng)格搜索確定編、解碼器網(wǎng)絡(luò)層中隱藏狀態(tài)的個(gè)數(shù),通過(guò)自相關(guān)性分析得到輸入模型的歷史窗口長(zhǎng)度ω。

        表1 AR-LSTM-ED模型的參數(shù)值范圍

        遠(yuǎn)程依賴性是時(shí)序數(shù)列中的一種常見(jiàn)現(xiàn)象,下一步驟負(fù)載值的增加或是減少受到序列中幾個(gè)過(guò)去時(shí)間負(fù)載滯后的影響[36]。自相關(guān)是數(shù)據(jù)的特征,它顯示相同變量在不同時(shí)間點(diǎn)的值之間的相似程度。自相關(guān)系數(shù)為可以表示這種遠(yuǎn)程依賴性的參數(shù),參考文獻(xiàn)[34],序列第t步的自相關(guān)系數(shù)rt的計(jì)算方法如式(18)所示,rt越大,自相關(guān)性越大:

        (18)

        其中,xi代表序列中第i個(gè)樣本的值,μx為序列的均值。計(jì)算歷史窗口長(zhǎng)度ω的公式如式(19)所示,其中,χs(rt)是指示函數(shù),S={rt|rt≤thresholdr},thresholdr為自相關(guān)系數(shù)的閾值,可以求出輸入模型的歷史窗口長(zhǎng)度ω。

        (19)

        本文對(duì)數(shù)據(jù)中心負(fù)載進(jìn)行了自相關(guān)分析,數(shù)據(jù)中心CPU利用率負(fù)載特征的自相關(guān)圖如圖5所示。將自相關(guān)閾值thresholdr設(shè)定為0.6,經(jīng)過(guò)計(jì)算可得歷史窗口長(zhǎng)度ω=17,本文的預(yù)測(cè)模型選擇歷史負(fù)載序列X={x1,…,xt,…,x17}作為輸入。

        圖5 數(shù)據(jù)中心CPU利用率負(fù)載特征的自相關(guān)圖

        4.3 實(shí)驗(yàn)評(píng)估

        (20)

        (21)

        為了度量聯(lián)合特征選擇算法的效果,需要對(duì)特征選擇后的數(shù)據(jù)集進(jìn)行預(yù)測(cè)實(shí)驗(yàn),本文實(shí)驗(yàn)中的特征包含圖4中的12個(gè)特征和1個(gè)目標(biāo)預(yù)測(cè)特征。將使用本文提出的聯(lián)合特征選擇算法的結(jié)果和其他算法結(jié)果對(duì)比,如單一的特征選擇方法和選擇全部特征的方法??梢詮谋?中發(fā)現(xiàn),對(duì)于使用全部特征的多元AR-LSTM-ED模型的誤差小于僅使用CPU特征的模型誤差,這表示多元特征預(yù)測(cè)具有有效性。在多元特征方法中,使用Pearson相關(guān)系數(shù)選擇特征的方法效果不如選擇全部特征的預(yù)測(cè)效果,此時(shí)Pearson相關(guān)系數(shù)不能很好地挖掘其他特征負(fù)載序列與CPU負(fù)載序列的相關(guān)性,而采用其他相關(guān)系數(shù)選擇特征的方法預(yù)測(cè)效果較好,本文所提出的聯(lián)合特征選擇策略具有有效避免某一指標(biāo)下關(guān)聯(lián)度評(píng)判失效的情況,具有魯棒性。且聯(lián)合特征選擇策略比起單特征預(yù)測(cè)可以提供更多的信息提高預(yù)測(cè)效果,還可以在保證預(yù)測(cè)效果的情況下減少冗余特征變量從而減少構(gòu)建預(yù)測(cè)模型所需的時(shí)間。本文又對(duì)進(jìn)行小波分解和不進(jìn)行小波分解方法的預(yù)測(cè)準(zhǔn)確性進(jìn)行實(shí)驗(yàn),“WD”表示小波分解,對(duì)AR-LSTM-ED模型而言,在結(jié)合小波分解后的最終預(yù)測(cè)結(jié)果優(yōu)于不經(jīng)過(guò)分解的結(jié)果。經(jīng)過(guò)分解后的近似信號(hào)相當(dāng)于在原始CPU序列上進(jìn)行了平滑濾波,可以更加準(zhǔn)確地預(yù)測(cè)趨勢(shì),而不用受到分解出的高頻的細(xì)節(jié)信號(hào)影響。

        表2 各模型預(yù)測(cè)CPU資源準(zhǔn)確性對(duì)比

        為了更準(zhǔn)確地評(píng)估本文提出的基于AR-LSTM-ED多元預(yù)測(cè)算法模型的預(yù)測(cè)性能,另外選擇了ARIMA算法模型[22]、LSTM算法模型[11]、SVR算法模型和BiLSTM算法模型作為比較實(shí)驗(yàn)的基準(zhǔn)。本文將模型預(yù)測(cè)的時(shí)間步分別設(shè)置為單步和多步預(yù)測(cè),實(shí)驗(yàn)中多步預(yù)測(cè)為預(yù)測(cè)2、6、12個(gè)時(shí)間步,時(shí)間步間隔時(shí)間同采樣的間隔一致,為5 min一次。根據(jù)圖5的自相關(guān)分析發(fā)現(xiàn)CPU負(fù)載序列不平穩(wěn),所以ARIMA算法對(duì)負(fù)載序列執(zhí)行一次差分,將時(shí)間序列的差分次數(shù)d設(shè)置為1,將自回歸項(xiàng)的數(shù)量p設(shè)置為3,移動(dòng)平均項(xiàng)數(shù)q=2,即ARIMA算法的參數(shù)設(shè)置為(3,1,2)。ARIMA算法模型和SVR算法模型中使用單特征,即只使用了CPU特征進(jìn)行預(yù)測(cè)。其他LSTM和BiLSTM算法與文獻(xiàn)[12]不同的是,本文采用聯(lián)合特征選擇得到的是外部特征集合和CPU負(fù)載特征小波變換后得到的內(nèi)部特征,而不僅僅是單一CPU的特征。

        本文對(duì)上述不同的預(yù)測(cè)模型進(jìn)行實(shí)驗(yàn),并對(duì)結(jié)果進(jìn)行繪圖分析。圖6表現(xiàn)了單步預(yù)測(cè)中本文提出的模型和ARIMA、LSTM、SVR、BiLSTM這4種算法的預(yù)測(cè)結(jié)果以及實(shí)際情況下采集到的CPU利用率的對(duì)比。

        圖6 實(shí)際負(fù)載序列與不同預(yù)測(cè)模型的預(yù)測(cè)結(jié)果序列

        從圖7中可以直觀地看出本文提出的AR-LSTM-ED預(yù)測(cè)算法對(duì)于谷歌數(shù)據(jù)集在單步預(yù)測(cè)時(shí)的預(yù)測(cè)結(jié)果更接近實(shí)際數(shù)據(jù),但無(wú)法直觀地分辨預(yù)測(cè)誤差。為了更清楚地看到結(jié)果,圖7展示了本文提出的算法和ARIMA、LSTM、SVR、BiLSTM算法的單步預(yù)測(cè)結(jié)果和實(shí)際負(fù)載值的差,從中可以看到,本文提出的算法的預(yù)測(cè)誤差大多數(shù)情況下遠(yuǎn)小于ARIMA算法,稍小于其他算法。

        圖7 采用不同預(yù)測(cè)模型的單步預(yù)測(cè)誤差

        本文計(jì)算了單步預(yù)測(cè)下每種算法與原始負(fù)載相比的誤差,采用式(20)和式(21)的RMSE和MAE這2種評(píng)估指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行定量評(píng)估,評(píng)估結(jié)果如表3所示。

        表3 各模型預(yù)測(cè)CPU資源準(zhǔn)確性對(duì)比

        由表3可見(jiàn),無(wú)論是RMSE還是MAE的評(píng)估指標(biāo),本文提出的基于AR-LSTM-ED的多元負(fù)載預(yù)測(cè)算法模型的預(yù)測(cè)精準(zhǔn)度都要高于其他模型。盡管ARIMA具備完善的理論基礎(chǔ),但它很難將非線性的歷史負(fù)載序列預(yù)測(cè)模型轉(zhuǎn)換為固定的預(yù)測(cè)形式,所以面對(duì)復(fù)雜的負(fù)載變化,誤差較大。在基于LSTM的方法中,本文方法的得分均優(yōu)于基本LSTM和BiLSTM模型,這表明編-解碼器體系結(jié)構(gòu)的有效性,編碼器網(wǎng)絡(luò)可以提取上下文的隱藏特征和整個(gè)序列的隱藏特征,并且解碼器網(wǎng)絡(luò)可以選擇輸出預(yù)測(cè)未來(lái)負(fù)載時(shí)隱藏的特征,并且線性AR模塊增加了處理線性分量的能力。為了進(jìn)一步評(píng)估本文所提模型的效果,在單步預(yù)測(cè)的基礎(chǔ)上,本文分別預(yù)測(cè)了未來(lái)2步、6步、12步的負(fù)載,即預(yù)測(cè)窗口長(zhǎng)度t′=2,6,12。得到的結(jié)果如圖8所示,可以看出本文提出的AR-LSTM-ED模型得分優(yōu)于其他的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

        5 結(jié)束語(yǔ)

        預(yù)測(cè)資源使用情況對(duì)于在云服務(wù)器中做出更好的自動(dòng)擴(kuò)展和負(fù)載平衡決策非常有用[20],并且有助于云服務(wù)供應(yīng)商為他們的客戶提供更好的服務(wù)質(zhì)量并獲取最大的利潤(rùn)。本文提出了一種用于云計(jì)算資源負(fù)載預(yù)測(cè)的新穎模型——AR-LSTM-ED模型。相比同類RNN的方法,本文使用聯(lián)合特征選擇策略和非抽取式小波分解方法得到目標(biāo)預(yù)測(cè)資源負(fù)載的外部和內(nèi)部特征來(lái)對(duì)目標(biāo)云負(fù)載進(jìn)行多元方式的預(yù)測(cè)。聯(lián)合特征選擇技術(shù)對(duì)移動(dòng)云計(jì)算監(jiān)控中心得到的多個(gè)特征自動(dòng)選取與目標(biāo)負(fù)載特征最相關(guān)外部特征序列,小波分解將不穩(wěn)定的目標(biāo)負(fù)載特征分解為低頻和高頻的4個(gè)內(nèi)部特征序列。該模型利用LSTM編解碼器網(wǎng)絡(luò)處理長(zhǎng)期序列預(yù)測(cè)問(wèn)題的優(yōu)勢(shì),提取歷史序列的隱藏特征并預(yù)測(cè)工作量,同時(shí)使用AR模塊彌補(bǔ)了LSTM在線性預(yù)測(cè)方面的不足,增強(qiáng)了AR-LSTM-ED模型的預(yù)測(cè)能力。實(shí)驗(yàn)結(jié)果表明本文的模型相比于同類研究具有更好的預(yù)測(cè)效果。

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        男人进去女人爽免费视频| 在线观看高清视频一区二区三区 | 久久婷婷综合缴情亚洲狠狠| 永久黄网站色视频免费看| 国产主播一区二区三区在线观看| 日韩美无码一区二区三区| 亚洲精品国产成人久久av盗摄| 无码少妇丰满熟妇一区二区| 美女视频黄的全免费视频网站| 在线观看视频亚洲| 91精品国产综合久久久蜜臀九色 | 亚洲成a人片在线观看天堂无码 | 国产成人一区二区三区影院动漫 | 亚洲国产区男人本色| 亚洲精品乱码久久久久久按摩高清| 亚洲国产最新免费av| 久人人爽人人爽人人片av| 欧美xxxx黑人又粗又长精品| 国产丝袜免费精品一区二区| 人妻系列中文字幕av| 天天爽夜夜爽人人爽| 亚洲av无码成人黄网站在线观看| 国产精品久久无码免费看| 成人免费av高清在线| 亚洲成a人片在线观看无码3d| 国产日韩欧美亚洲精品中字| 强d乱码中文字幕熟女1000部| 日本亚洲视频一区二区三区| 午夜性无码专区| 在线观看亚洲AV日韩A∨| 国产一区二区三区不卡在线播放| 日韩av无码一区二区三区| 夜夜嗨av一区二区三区| 亚洲国产AⅤ精品一区二区不卡| 一区二区三区精品免费| 真实国产精品vr专区| 国产在线高清视频| 亚洲综合网中文字幕在线| 无套内谢孕妇毛片免费看| 黄色视频在线免费观看| 中文字幕高清无码不卡在线|