哈 渭 濤
(渭南師范學(xué)院 網(wǎng)絡(luò)安全與信息化學(xué)院,陜西 渭南 714099)
?
【自然科學(xué)基礎(chǔ)理論研究】
云計算中服務(wù)質(zhì)量的概率預(yù)測和評估方法研究
哈 渭 濤
(渭南師范學(xué)院 網(wǎng)絡(luò)安全與信息化學(xué)院,陜西 渭南 714099)
基于連續(xù)時間馬爾可夫鏈提出了在云計算中組合服務(wù)質(zhì)量的預(yù)測模型,模型針對QoS屬性定義了基于線性時序邏輯區(qū)間的質(zhì)量約束規(guī)范,進一步使用M/M/1隊列實現(xiàn)QoS概率預(yù)測。另外,引入了VaR(Value-at-Risk),以貨幣的形式度量服務(wù)違例風險。并定義了不同網(wǎng)絡(luò)環(huán)境下的補償策略,給出了組合云服務(wù)聚合的VaR計算方法。通過將QoS預(yù)測模型在智能電網(wǎng)中實例測試,得到實際預(yù)測時間小于服務(wù)更新時間,預(yù)測準確率較高。風險評估機制與其他計算方法相比可信度較高。
云服務(wù);QoS(Quality of Service);SLA違例;連續(xù)時間的馬爾可夫鏈;風險評估
在云環(huán)境中,受網(wǎng)絡(luò)擁堵、隨機中斷、資源限制等因素的影響,致使云服務(wù)在執(zhí)行過程中用戶獲得實際QoS與云服務(wù)提供商和用戶之間的服務(wù)質(zhì)量等級協(xié)議(Service Level Agreement,SLA)相違背,造成SLA違例,這一方面影響用戶對云服務(wù)的使用,另一方面云服務(wù)提供商需要向用戶賠償一定的違約金,無疑增加了云服務(wù)提供商的成本。所以連續(xù)地監(jiān)測云服務(wù)執(zhí)行過程,盡早預(yù)測QoS違例的云服務(wù),可有效避免或減輕其帶來的影響,對于保護用戶和云服務(wù)提供商利益都是至關(guān)重要的。[1-4]基于以上分析,首先,本文提出了一種新的云服務(wù)QoS預(yù)測方法,利用概率模型對被監(jiān)控工作流實施QoS違例預(yù)測。在該方法中,為了防止狀態(tài)參數(shù)過多,利用運行著的服務(wù)實例的特征參數(shù)進行分析。在QoS預(yù)測中,對監(jiān)測的正在運行服務(wù)實例抽取特征參數(shù)值,以此為依據(jù),實施對下一階段要運行服務(wù)出現(xiàn)SLA違例的概率進行估算,得出量化的QoS可靠性估算值。其次,借鑒方法論中循環(huán)風險管理框架,提出了QoS違例量化賠償方法,并針對云服務(wù)的業(yè)務(wù)價值設(shè)計了開放的、具有廣泛性風險的響應(yīng)方法。
1.1 云服務(wù)質(zhì)量約束規(guī)范的定義
為了有效識別組合服務(wù)QoS屬性的SLA違例,針對QoS屬性,本文定義了基于線性時間的時序邏輯區(qū)間的QC(質(zhì)量約束)規(guī)范。利用定義的基于QC的操作檢測QoS屬性的KPI(關(guān)鍵性能指標)[5]。
定義1(QC)QC是對于KPI(關(guān)鍵性能指標)的布爾判定條件。
對于QC(質(zhì)量約束)定義了3個時序操作:along,within,prec(φ)。
PalongT:在屬于時間區(qū)間T的任意時刻,P為真。
PwithinT:至少存在某個時刻iT,P為真。
prec(φ):該操作符能夠接受時序邏輯表達式φ為操作數(shù),利用CEP工具估算prec(φ)。
along是對于區(qū)間T的全局線性時序邏輯約束操作符,而within是對于區(qū)間T的最終線性時序邏輯約束操作符。將要執(zhí)行的某狀態(tài)下某時刻的KPI概率時序表達式用φ表示,prec(φ)為概率是否成立邏輯判斷。
1.2 云服務(wù)QoS隊列模型
在本文中KPI(關(guān)鍵性能指標)主要指可量化的服務(wù)性能指標(如資源利用情況、被請求的服務(wù)數(shù)等)。在此利用M/M/1隊列模型預(yù)測組合服務(wù)中未執(zhí)行的組件服務(wù)KPI。到達的可用服務(wù)請求滿足泊松分布,到達率為。服務(wù)時間遵循均值為μ的指數(shù)分布。
設(shè)變量k表示單個KPI,k∈Vk=Av∪Cv∪Iv。 Av為可允許值集合,當k在該集合中時,當前系統(tǒng)在該狀態(tài)下,所有定義在該KPI的QC完全滿足。Cv為臨界值集合,當k在該集合中時,當前系統(tǒng)在該狀態(tài)下仍能滿足最低質(zhì)量要求。Iv為不可允許值集合,當k在該集合中時,當前系統(tǒng)在該狀態(tài)下至少有一項已經(jīng)不能滿足服務(wù)質(zhì)量要求的約束值(即QC)。假設(shè)Vk滿足全序關(guān)系并且它的子集不相交,則有任意的a,b,c:a∈Av,b∈Cv,c∈Iv,滿足a2 業(yè)務(wù)相關(guān)的服務(wù)風險評估
利用云服務(wù)QoS預(yù)測機制檢測到服務(wù)處于非穩(wěn)態(tài)時,啟動違例預(yù)警,調(diào)整將要運行的服務(wù)避免違例或減輕違例的影響。然而當違反了SLA約定QoS違例不可避免發(fā)生時,應(yīng)具有完整風險評估方案,對出現(xiàn)的風險有效應(yīng)對。通過風險評估提高云服務(wù)滿足需求的能力,降低云服務(wù)提供商的經(jīng)營風險。下面提出對于單個服務(wù)風險的評估。
2.1 補償策略制定
當QoS違例發(fā)生了,云服務(wù)提供商對違約行為進行補償或賠償。支付罰金是一種常見的賠償手段。它也是影響云服務(wù)風險的一個重要因素。而補償策略是指將罰金表示為基于服務(wù)環(huán)境參數(shù)的函數(shù)。當服務(wù)失敗出現(xiàn)并持續(xù)時間t,罰金表示為p,則對于單個服務(wù)而言p=f(t),且為凸函數(shù)。下面針對不同環(huán)境給出補償策略,即罰金補償函數(shù)定義:
(1)連續(xù)性云服務(wù)補償策略。連續(xù)性云服務(wù)是指該服務(wù)必須連續(xù)執(zhí)行不可中斷。即使很短暫的中斷也會引發(fā)服務(wù)失敗。如短暫通信連接或者實時流量控制的敏感數(shù)據(jù),即使瞬時中斷或者快速恢復(fù)都無法彌補這類服務(wù)失效[6]。對于該類云服務(wù),它的補償罰金與服務(wù)中斷時間t無關(guān),所以其罰金補償函數(shù)為:
plianxu=const。
(1)
(2)時距不可用補償策略。時距不可用是指罰金在一個時距內(nèi)并不是恒定的,它和服務(wù)不可操作t時間成比例。該類補償通常面對執(zhí)行持續(xù)較長時間的服務(wù),如文件傳輸、郵件傳輸?shù)确?wù),所以其罰金補償函數(shù)與不可操作t時間之間表示為:
pshijin=wit。
(2)
(3)綜合補償策略。上面兩種補償可能會同時出現(xiàn)在同一服務(wù)執(zhí)行過程中,該服務(wù)不可操作時間小于SLA協(xié)定時距時,補償被認為與中斷時間t無關(guān),認為t=0。當超過時距時,認為和時間成比例。在此種情況下罰金補償函數(shù)為:
pzonghe=wi(t+const)。
(3)
(4)非線性補償策略。罰金補償函數(shù)并不一定總是和時間呈線性關(guān)系。如文獻[7]中涉及的“雪球效應(yīng)”,它就是一個典型的非線性函數(shù),表示罰金和服務(wù)失效累積時間。這種補償針對的服務(wù)特征為:相對持續(xù)時間較短攜帶有重要或敏感信息且能容忍短時間的服務(wù)中斷。通常提前如預(yù)約服務(wù)或具有嚴格響應(yīng)時間通信服務(wù)具有這些特征。這種“雪球”式的非線性平滑罰金補償函數(shù)為:
(4)
2.2 Web服務(wù)的風險價值VaR評估
(5)
通過VaRη獲得單個服務(wù)風險價值,但是在當前網(wǎng)絡(luò)環(huán)境中為了更好地滿足用戶需求,更多情況是將原來多個單個服務(wù)組合成新服務(wù)提供給用戶。對于云服務(wù)組合后的風險價值并不能簡單地將單個服務(wù)風險價值累加獲得,因為VaRη是不具有次加性的。
下面從云服務(wù)生存的不可靠的網(wǎng)絡(luò)環(huán)境出發(fā),研究帶給組合云服務(wù)的風險及其評估策略。對于云服務(wù)不可靠網(wǎng)絡(luò)環(huán)境在此用圖結(jié)構(gòu)表示(V,E),其中:V表示網(wǎng)絡(luò)中節(jié)點集合,E表示連接網(wǎng)絡(luò)節(jié)點的鏈路集合。所有這些元素都是不可靠的,都存在失敗和修復(fù)的可能。因此對于每個不可靠元素聯(lián)合考慮如下兩方面的概率分布函數(shù):(1)失敗間隔時間;(2)服務(wù)中斷時間。在某段時間需要確定單個網(wǎng)絡(luò)元素c的失敗率c和修復(fù)率μc,c(V∪E),每個元素失敗和修復(fù)過程都是獨立的。組合云服務(wù)風險評估算法通過下面幾個步驟完成:
(1)為了得到準確的風險模型,首先需要根據(jù)賠償策略獲得每個云服務(wù)的罰金;
(2)構(gòu)建每個服務(wù)罰金的連續(xù)時間的馬爾可夫鏈,并利用該馬爾可夫鏈獲得所有服務(wù)相關(guān)補償政策下的聚合罰金價值的均值和方差;
(3)獲取通過均值和方差的參數(shù)化聚合罰金全概率分布,在這兩個分布中,其中一個呈橢圓分布,該分布與對數(shù)正態(tài)分布最佳擬合。最后根據(jù)獲得風險全分布,得到包括風險價值VaR在內(nèi)的分位數(shù)。
為了計算VaR等分位數(shù)實施風險評估,根據(jù)組件云服務(wù)罰金,估算給定時區(qū)的罰金全概率分布函數(shù)。但是各組件云服務(wù)罰金是相關(guān)的,單個組件服務(wù)失敗會影響其他組件執(zhí)行。
首先設(shè)X=[X1,…,Xd,…]為隨機向量,表示單個組件服務(wù)d的罰金,則
(6)
我們用Nd(t)表示服務(wù)d在觀測時區(qū)t中中斷的次數(shù),用pd表示單個服務(wù)d的單次服務(wù)中斷的罰金。每一個服務(wù)的罰金是多個中斷獨立罰金的隨機總和。假設(shè)Nd(t)和pd已知,則在時區(qū)t中單個服務(wù)d總罰金的均值為:
E[Xd]=E[Nd(t)]E[pd]。
(7)
方差為:
D2[Xd]=E[Nd(t)]D2[pd]+E2[pd]D2[Nd(t)]。
(8)
3.1 組合云服務(wù)的QoS概率預(yù)測數(shù)據(jù)測試
表1 隊列長度、服務(wù)大小、花費時間一覽表
在本實驗方案中,假設(shè)平衡范圍為800 MW,則[minb=-400,maxb=400]。首先針對大小不同規(guī)模服務(wù)模型估算其在QoS預(yù)測階段花費的時間。在表1中,第一列給出了隊列長度,反映了不同規(guī)模的服務(wù),第二列和第三列不同大小服務(wù)表示不同規(guī)模服務(wù)的狀態(tài)數(shù)和變遷數(shù)。根據(jù)服務(wù)的狀態(tài)數(shù)和變遷數(shù),利用CEP等工具,得到第四列QoS預(yù)測階段花費的時間,在前面介紹的隊列模型中,該時間應(yīng)該符合指數(shù)分布。從實際測量的第四列數(shù)據(jù)特征可以看出,它恰好符合指數(shù)分布。另外,最后一行數(shù)據(jù)服務(wù)規(guī)模非常大,狀態(tài)數(shù)和變遷數(shù)都超過了百萬,但是實際QoS預(yù)測時間為563.831 s,這個速度和智能電網(wǎng)更新速度匹配,所以使用該模型能做到較好的服務(wù)質(zhì)量預(yù)測,對可能出現(xiàn)的SLA違例能給出及時的預(yù)報。
下面選擇了隊列長度為40的服務(wù),從另一個角度對本文提出的預(yù)測模型進行測試。引發(fā)平衡變化的隊列生率和滅率基本單元值為20 MW??稍试S最小值admmin=-200,可允許最大值admmax=200,臨界最小值crimin=-380,臨界最大值crimax=380。針對第二種QoS 的約束條件:prec(ρ=?[F≤30“違例狀態(tài)”])≤0.05 within 30 m,進行如下3種測試:
測試1:電力生產(chǎn)商輸入電網(wǎng)的電力與電力
用戶需求平衡;
圖1 違例概率分布(隊列長度=40)
測試2:電力用戶需求是電力生產(chǎn)商輸入電網(wǎng)電力的2倍;
測試3:電力生產(chǎn)商輸入電網(wǎng)的電力超過了電力用戶需求。
圖2給出了3種不同測試方案下的違例概率。在第一種測試方案中,通過圖1看出違例概率在平衡點雙側(cè)均勻?qū)ΨQ分布,這和需求平衡現(xiàn)實相吻合。在第二種測試方案中,最小違例概率高于其他兩種情況。在第三種測試方案中,所有生產(chǎn)過剩狀態(tài)都具有較高違例概率,而在過載狀態(tài)時卻擁有較低違例概率。
3.2 組合服務(wù)總風險價值和風險價值上界測試
在本測試中選擇Weibull分布特征建模失效時間,同時提供指數(shù)分布的啟發(fā)式選擇與之對應(yīng)。Weibull分布在正常運行時間被表示成指數(shù)分布。利用兩個簡單的ON-OFF系統(tǒng)模擬組合云服務(wù)。第一個正常運行時間為Weibull分布,中斷時間為指數(shù)分布(該系統(tǒng)仍稱為Weib),第二個全部為指數(shù)分布(該系統(tǒng)稱為Exp),Weibull分布可以被表示成指數(shù)分布:
mWeib+ασWeib=mExp+ασExp。
其中:mWeib、mExp表示兩個系統(tǒng)在tmax時段期望風險價值;而ασWeib、ασExp表示標準差。設(shè)α=1.2時能準確地表示總罰金上界,對所有服務(wù)經(jīng)過計算參數(shù)為罰金對數(shù)正態(tài)分布后,設(shè)分位數(shù)η=0.9,0.95,0.99,0.999四個等級,每個組合服務(wù)中包含10個組件服務(wù),補償策略為FixedRestart。計算VaRTh(表示組合云服務(wù)罰金上界)、VaR(Σ)(表示組合云服務(wù)總罰金)、∑(VaR)(組件服務(wù)VaR之和)。結(jié)果如圖2所示。
圖2 網(wǎng)絡(luò)NGe 中VaRTh,VaR(Σ),∑(VaR)比較
根據(jù)圖2對比結(jié)果可知:即使VaR不具有次可加性,但是將組件單個VaR求和獲得的∑(VaR)比組合服務(wù)最壞情況總風險上界值還要悲觀。而它比VaR(Σ)高出近10%。這表明∑(VaR)并不能準確反映組合服務(wù)聚合風險。相較而言,VaRTh和VaR(Σ)差距在0.10%。由此可見,利用上界值可以準確估算出總罰金風險價值,而且無需使用所有補償策略中的大量服務(wù)仿真測試,節(jié)約了工作量,具有較高效率。
本文首先提出一種有效的服務(wù)質(zhì)量預(yù)測模型,利用概率模型定量和定性的分析技術(shù),實現(xiàn)了對云環(huán)境中SLA違例預(yù)測。在本模型中使用參數(shù)化的QoS模型(KPI)完成了概率化模型監(jiān)測分析,以此估算未執(zhí)行的服務(wù)QoS關(guān)鍵指標。利用這種QoS預(yù)警機制,能對服務(wù)提供商服務(wù)質(zhì)量監(jiān)控,盡可能地避免服務(wù)違例。然而當違例不可避免發(fā)生了,接著給出了一套完整風險評估方案,對出現(xiàn)風險有效應(yīng)對。通過風險評估提高云服務(wù)滿足需求的能力,降低云服務(wù)提供商的經(jīng)營風險。
[1] Pacheco-Sanchez S,Casale G,Scotney B,et al.Markovian Workload Characterization for QoS Prediction in the Cloud[C]//Proceeding of 2011 IEEE 4th International Conference on Cloud Computing. Washington, DC:IEEE, 2011.147-154.
[2] Islam S, Keung J, Lee K, et al. Empirical prediction models for adaptive resource provisioning in the cloud[J].Future Generation Computer Systems,2012,28:155-162.
[3] Leitner P, Wetzstein B, Rosenberg F, et al. Runtime Prediction of Service Level Agreement Violations for Composite Services[C]//Service-Oriented Computing. Berlin:Springer, 2010.176-186.
[4] Leitner P, Michlmayr A, Rosenberg F, et al. Monitoring, Prediction and Prevention of SLA Violations in Composite Services[C]// Proceeding of 2010 IEEE International Conference on Web Services. Miami, FL:IEEE, 2010.369-376.
[5] Cardellini V, Casalicchio E, Grassi V, et al. Qos-driven runtime adaptation of service oriented architectures[C]// Proceedings of the the 7th joint meeting of the European software engineering conference and the ACM SIGSOFT symposium on The foundations of software engineering. New York:ACM,2009.131-140.
[6] 林凡.面向服務(wù)的云計算系統(tǒng)風險評測模型研究[D].廈門:廈門大學(xué)碩士學(xué)位論文,2013.
[7] Franke U.Optimal IT service availability: shorter outages, or fewer?[J].IEEE Trans. Netw. Serv. Manag,2012,9(1):22-33.
【責任編輯 牛懷崗】
A Study of Probabilistic Prediction and Evaluation for Quality of Web Service in Cloud Computing
HA Wei-tao
(School of Network Security and Informationization, Weinan Normal University, Weinan 714099, China)
Firstly, prediction model of composite service quality is proposed in cloud computing which is based on continuous time Markov chain. In the model, constraint specification for QoS properties is defined based on Linear-time Temporal Logic, and QoS probabilistic prediction is further realized by using M/M/1 queuing. In addition, VaR (Value-at-Risk) evaluates violation risk in monetary terms. It defines compensation policies in different networks, and proposes calculation method of aggregation VaR. Through the practical test in the smart grids, prediction spent less time comparable with the updating rate usually considered for smart grids, and had the advantage of high accuracy. Comparing with alternative calculation methods, the mechanism of risk assessment is efficient and high in reliability.
Cloud service; Quality of Service; SLA violation; continuous time Markov chain; risk assessment
TP393
A
1009-5128(2016)24-0009-05
2016-10-16
陜西省教育廳專項科研計劃項目:利用有色Petri網(wǎng)的服務(wù)組合中帶有時序邏輯的交互一致性研究(16JK1273);渭南師范學(xué)院科研計劃項目:秦東地區(qū)社會網(wǎng)絡(luò)分析中關(guān)鍵性問題的研究(13YKS006)
哈渭濤(1975—),男(回族),陜西渭南人,渭南師范學(xué)院網(wǎng)絡(luò)安全與信息化學(xué)院副教授,主要從事智能專家系統(tǒng)與數(shù)據(jù)挖掘研究。