張超越 余積寶 王紫陽 張歡
摘? ?要:計(jì)算機(jī)集群是目前中大型系統(tǒng)建設(shè)的重要發(fā)展方向,計(jì)算機(jī)集群技術(shù)是支撐國家戰(zhàn)略威懾手段和戰(zhàn)略安全的中堅(jiān)力量。目前,國內(nèi)對其工作效能評估尚無有效的方法和模型。本文采用由美國空軍提出的ADC系統(tǒng)效能評估模型,對中大型計(jì)算機(jī)集群的工作效能進(jìn)行了建模。將集群狀態(tài)分為正常、降級和故障3種情況,以概率論為基礎(chǔ),推導(dǎo)出了可行性的計(jì)算矩陣。根據(jù)計(jì)算機(jī)集群的工作能力、計(jì)算速度、實(shí)時(shí)推算能力3個(gè)指標(biāo)給出了集群能力的計(jì)算方法。最后對模型進(jìn)行仿真得到計(jì)算機(jī)集群工作效能隨單個(gè)計(jì)算節(jié)點(diǎn)的平均故障間隔時(shí)間和工作時(shí)長的變化關(guān)系,對于計(jì)算機(jī)集群的應(yīng)用和指標(biāo)設(shè)計(jì)具有重要指導(dǎo)意義。
關(guān)鍵詞:計(jì)算機(jī)集群? ADC模型? 工作效能
計(jì)算機(jī)集群可以通過多臺計(jì)算機(jī)完成同一工作,具有高性價(jià)比、高可靠性和高計(jì)算速度的特點(diǎn)[1]。作為集群的核心設(shè)備,計(jì)算機(jī)集群節(jié)點(diǎn)的性能顯得尤為重要。以計(jì)算機(jī)集群節(jié)點(diǎn)的性能為基礎(chǔ),對集群的工作效能進(jìn)行評估,能夠有效掌握集群目前的能力,同時(shí)在合理調(diào)度使用節(jié)點(diǎn)方面,有著指導(dǎo)性的作用。本文將基于美國空軍經(jīng)典的ADC系統(tǒng)效能評估模型[2],建立可適用于計(jì)算機(jī)集群的工作效能評估模型[3],用于對同一體制的集群進(jìn)行工作效能評估。
1? ADC效能評估模型
本文采用的效能評估模型最初由美國空軍提出,簡稱ADC模型。該模型最終用一個(gè)向量來表示系統(tǒng)的工作效能[4],整個(gè)系統(tǒng)的n個(gè)明顯不同的狀態(tài)是建立該向量的基礎(chǔ)。美國空軍給出的系統(tǒng)效能表達(dá)式如式(1)所示。
式中,A是一個(gè)向量,為系統(tǒng)可用性因子。用于度量系統(tǒng)是否能夠正常使用,可以對使用前的系統(tǒng)是否處于正常狀態(tài)進(jìn)行量度,確認(rèn)系統(tǒng)是否正常工作。
D是一個(gè)矩陣,為系統(tǒng)可靠性因子。用于度量系統(tǒng)在工作過程中的可靠性,測算系統(tǒng)在工作過程中不發(fā)生故障的概率。
C也是一個(gè)向量,為系統(tǒng)的能力因子。這是使用者最關(guān)心的指標(biāo),也是最能體現(xiàn)系統(tǒng)效能的指標(biāo)。用于表示系統(tǒng)完成工作任務(wù)能力的量度。
明顯可以看出,基于以上的評估模型,如果系統(tǒng)的狀態(tài)、故障概率和能力指標(biāo)不一致,那么獲得的效能評估結(jié)果也就不一致。
2? 計(jì)算機(jī)集群工作效能建模
2.1 可用性因子建模
把計(jì)算機(jī)集群處于不同工作狀態(tài)的概率用可用性因子A來表示[5]。計(jì)算機(jī)集群由多個(gè)相互獨(dú)立的計(jì)算節(jié)點(diǎn)組成,可以分為正常節(jié)點(diǎn)和故障節(jié)點(diǎn)。與傳統(tǒng)單個(gè)計(jì)算機(jī)不同,即使故障計(jì)算節(jié)點(diǎn)較多,計(jì)算機(jī)集群仍能工作,只是性能會下降[6]。
計(jì)算機(jī)集群的工作效能直接受故障節(jié)點(diǎn)影響,可以將計(jì)算機(jī)集群工作狀態(tài)分為正常狀態(tài)、降級狀態(tài)和故障狀態(tài),其中降級狀態(tài)指計(jì)算機(jī)集群的性能受到影響,但是仍然能夠擔(dān)負(fù)工作任務(wù)。故障節(jié)點(diǎn)的數(shù)量不同,計(jì)算機(jī)集群性能降級的情況也可以細(xì)分為很多種。根據(jù)故障節(jié)點(diǎn)的數(shù)量對計(jì)算機(jī)集群的工作狀態(tài)進(jìn)行定義,并建立簡化模型:
狀態(tài)1:系統(tǒng)工作正常,故障節(jié)點(diǎn)數(shù)量少于計(jì)算機(jī)集群節(jié)點(diǎn)總數(shù)量的4%;
狀態(tài)2:系統(tǒng)性能降級,故障節(jié)點(diǎn)數(shù)量在計(jì)算機(jī)集群節(jié)點(diǎn)總數(shù)量的4%~16%之間;
狀態(tài)3:系統(tǒng)工作故障,故障節(jié)點(diǎn)數(shù)量大于計(jì)算機(jī)集群節(jié)點(diǎn)總數(shù)量的16%。
此時(shí),計(jì)算機(jī)集群的可用性因子A可以表示為以下向量:
單個(gè)計(jì)算節(jié)點(diǎn)變?yōu)楣收瞎?jié)點(diǎn)的平均間隔時(shí)間為t1,通過修復(fù)使故障節(jié)點(diǎn)恢復(fù)成正常節(jié)點(diǎn)的間隔時(shí)間為t2,單個(gè)計(jì)算節(jié)點(diǎn)變?yōu)楣收瞎?jié)點(diǎn)的概率可以表示為PW。
那么n個(gè)正常節(jié)點(diǎn)同時(shí)變?yōu)楣收瞎?jié)點(diǎn)的概率為:
接著推導(dǎo)a1的表達(dá)式,即故障節(jié)點(diǎn)數(shù)量少于計(jì)算節(jié)點(diǎn)總數(shù)量4%的概率。設(shè)計(jì)算機(jī)集群節(jié)點(diǎn)總數(shù)量為N,那么當(dāng)故障節(jié)點(diǎn)數(shù)量少于時(shí),計(jì)算機(jī)集群處于正常狀態(tài)。計(jì)算機(jī)集群處于正常工作狀態(tài)的概率a1為:
同理可得,計(jì)算機(jī)集群處于故障工作狀態(tài)的概率,既a3的表達(dá)式為:
2.2 可靠性因子建模
系統(tǒng)可靠性因子D同樣分為三個(gè)階段:d1、d2、d3,對應(yīng)可用性因子A的三個(gè)階段。在系統(tǒng)工作過程中,系統(tǒng)存在狀態(tài)之間的轉(zhuǎn)換,比如系統(tǒng)從正常工作狀態(tài)轉(zhuǎn)換為降級狀態(tài),我們將這個(gè)過程命名為:d12。類似的,我們命名d23為降級狀態(tài)轉(zhuǎn)換為故障狀態(tài),d13為正常工作狀態(tài)轉(zhuǎn)換為故障狀態(tài)。由此類推,可以得到矩陣如下:
式(11)表示系統(tǒng)在正常工作過程中變換到各種狀態(tài)的概率矩陣。我們假設(shè)在工作狀態(tài)下無法修復(fù)故障節(jié)點(diǎn),并且故障節(jié)點(diǎn)無法自動恢復(fù),所以式(11)可以簡化為:
假設(shè)一次系統(tǒng)工作時(shí)長為t,那么整個(gè)過程中單個(gè)計(jì)算節(jié)點(diǎn)正常工作的概率為:
2.3 能力因子建模
系統(tǒng)能力因子向量表示了計(jì)算機(jī)集群在三個(gè)不同狀態(tài)下的作戰(zhàn)能力。采用計(jì)算機(jī)集群的工作能力、計(jì)算速度、實(shí)時(shí)推算能力三個(gè)評價(jià)因子,表示為β1、β2和β3,三個(gè)評價(jià)因子的權(quán)重根據(jù)實(shí)際應(yīng)用情況確定,表示為ω1、ω2和ω3,則能力因子向量C可表示為:
當(dāng)計(jì)算機(jī)集群處于正常工作狀態(tài)時(shí),β1、β2和β3的取值均為1;當(dāng)計(jì)算機(jī)集群處于故障狀態(tài)時(shí),β1、β2和β3的取值均為0;當(dāng)計(jì)算機(jī)集群處于性能降級狀態(tài)時(shí),計(jì)算機(jī)集群的工作能力β1下降為0.5,β2計(jì)算速度下降為0.5,實(shí)時(shí)推算能力β3下降為0.8。那么,能力因子向量C可表示為:
3? 計(jì)算機(jī)集群工作效能仿真
為了對某型計(jì)算機(jī)集群進(jìn)行工作效能評估,在搭建有效模型時(shí),我們采用以下仿真參數(shù)。
(1)計(jì)算機(jī)集群節(jié)點(diǎn)數(shù)量:N=50。
(2)故障節(jié)點(diǎn)修復(fù)間隔時(shí)間:t2=10h。
(3)三個(gè)評價(jià)因子的權(quán)重取值為:(ω1、ω2、ω3)=(0.5,0.5,0.8)。
在上述參數(shù)設(shè)定下,系統(tǒng)工作時(shí)長t=20h時(shí),計(jì)算機(jī)集群工作效能隨單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間的變化趨勢如圖1所示。由圖1可得,在故障節(jié)點(diǎn)校正間隔時(shí)間和系統(tǒng)工作時(shí)長的約束下,單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間小于6000h時(shí),計(jì)算機(jī)集群的工作效能隨單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間的增加先上升后下降;單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間為3000h時(shí),計(jì)算機(jī)集群的工作效能達(dá)到第一個(gè)峰值,隨后開始下降;當(dāng)單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間大于6000h時(shí),計(jì)算機(jī)集群的工作效能開始隨著單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間的增加而增加;當(dāng)單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間大于100000h時(shí),計(jì)算機(jī)集群工作效能接近最佳值。
當(dāng)單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間一定時(shí),計(jì)算機(jī)集群的工作效能隨系統(tǒng)工作時(shí)長的變化趨勢如圖2所示。由圖2可得,當(dāng)單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間一定時(shí),計(jì)算機(jī)集群的工作效能隨系統(tǒng)工作時(shí)長的增加而減少;單個(gè)計(jì)算節(jié)點(diǎn)平均故障時(shí)間越小,計(jì)算機(jī)集群的工作效能隨系統(tǒng)工作時(shí)長的增加而減小的速度越快。
4? 結(jié)語
本文針對計(jì)算機(jī)集群的工作效能評估,對正常、降級和故障3種狀態(tài)進(jìn)行分析。通過仿真結(jié)果可知,計(jì)算機(jī)集群的工作效能受單個(gè)計(jì)算節(jié)點(diǎn)的平均故障時(shí)間和系統(tǒng)工作時(shí)長的影響。當(dāng)系統(tǒng)工作時(shí)長和故障節(jié)點(diǎn)校正間隔時(shí)間一定,單個(gè)計(jì)算節(jié)點(diǎn)的平均故障時(shí)間小于6000h時(shí),計(jì)算機(jī)集群的工作效能并不是線性增加的,當(dāng)單個(gè)計(jì)算節(jié)點(diǎn)的平均故障時(shí)間大于6000h時(shí),計(jì)算機(jī)集群的工作效能隨單個(gè)計(jì)算節(jié)點(diǎn)的平均故障時(shí)間的增加而增加;當(dāng)單個(gè)計(jì)算節(jié)點(diǎn)的平均故障時(shí)間和故障節(jié)點(diǎn)修復(fù)間隔時(shí)間一定時(shí),系統(tǒng)工作時(shí)長越大,計(jì)算機(jī)集群的工作效能將會降低,單個(gè)計(jì)算節(jié)點(diǎn)的平均故障時(shí)間越短,計(jì)算機(jī)集群的工作效能下降的速度越快。
參考文獻(xiàn)
[1] William W.Hargrove.The Do-It-Yourself[J].Scientific American,2011-10-18(2):72-79.
[2] 李耀,馮明翰.基于ADC模型的雷達(dá)網(wǎng)工作效能評估[J].火控雷達(dá)技術(shù),2016(2):96-99.
[3] 梁桂琳,周曉紀(jì),王亞瓊.基于ADC模型的遙感武器系統(tǒng)地面系統(tǒng)效能評估[J].指揮控制與仿真,2018(5):96-99.
[4] 董雪.基于ADC模型的潛艇作戰(zhàn)系統(tǒng)效能評估與工具實(shí)現(xiàn)[D].南京:南京航空航天大學(xué),2018.
[5] 李彤巖,王培國,張婷.基于ADC模型的通信網(wǎng)絡(luò)效能評估方法研究[J].電子技術(shù)應(yīng)用,2015(9):621-625.
[6] 梁波.計(jì)算機(jī)集群節(jié)點(diǎn)的狀態(tài)測量與節(jié)能優(yōu)化的研究[D].湘潭:湘潭大學(xué),2015.