翁子寒
摘 要: 目前,計算數(shù)據(jù)中心設(shè)計動態(tài)數(shù)據(jù)聚集算法,通過仿真實驗進行驗證分析,表明動態(tài)數(shù)據(jù)聚集算法能夠保障計算數(shù)據(jù)中心的服務(wù)質(zhì)量,提高計算機設(shè)備穩(wěn)定性,提升計算機數(shù)據(jù)中心的服務(wù)質(zhì)量,并且還可以在不同時段動態(tài)分配數(shù)據(jù)使用,實現(xiàn)有效的聚集數(shù)據(jù)分配模式,從而確保系統(tǒng)計算存儲節(jié)點可以輪流運轉(zhuǎn),提升計算機數(shù)據(jù)中心區(qū)域溫控設(shè)備的精度,充分利用計算數(shù)據(jù)中心資源,滿足用戶的實際服務(wù)需求,降低計算數(shù)據(jù)中心系統(tǒng)動態(tài)數(shù)據(jù)分配能耗。
關(guān)鍵詞: 計算數(shù)據(jù)中心; 動態(tài)數(shù)據(jù); 聚集算法; 仿真實驗
中圖分類號: TN919.2?34 文獻標識碼: A 文章編號: 1004?373X(2015)17?0142?02
Research on aggregation algorithm of dynamic data in computing data center
WENG Zihan
(Shanghai Children′s Medical Center, Shanghai 200127, China)
Abstract: The aggregation algorithm of dynamic data was designed according to current computing data center, which was verified and analyzed by simulation experiments. The simulation results show that this algorithm can ensure service quality of compu?ting data center, enhance the stability of computer equipment and improve service quality of computer data center. Data usage can be allocated dynamically at different time period to achieve effective allocation pattern of aggregate data, which can ensure that the storage nodes of system computation operate in turns, and improve the accuracy of temperature control equipments in the area of computer data center. This algorithm can make full use of the resources in computing data center to satisfy the actual service demands for users, and reduce the allocation energy consumption of dynamic data in computing data center system.
Keywords: computing data center; dynamic data; aggregation algorithm; simulation experiment
本研究針對當前計算數(shù)據(jù)中心的動態(tài)數(shù)據(jù)分配及數(shù)據(jù)分配方法中存在的問題,其局限性、公式復雜、算法運行效率低等弊端,提出動態(tài)數(shù)據(jù)聚集算法,并結(jié)合計算數(shù)據(jù)中心實際情況進行改進,仿真研究動態(tài)數(shù)據(jù)聚集算法在計算數(shù)據(jù)中心的應(yīng)用效果。
1 淺析動態(tài)數(shù)據(jù)聚集算法
動態(tài)數(shù)據(jù)聚集算法中,聚類是數(shù)據(jù)挖掘中一類重要的問題,在許多領(lǐng)域有其應(yīng)用之處。聚類的定義是:給定一個由許多數(shù)據(jù)元素組成的集合,將其分為不同的組(類、簇),使得組內(nèi)的元素盡可能相似,不同組之間的元素盡可能不同[1]。在動態(tài)數(shù)據(jù)聚集算法中,其數(shù)據(jù)流具有以下特點:數(shù)據(jù)實時到達,數(shù)據(jù)到達次序獨立,不受系統(tǒng)控制;數(shù)據(jù)量巨大,不能預知其大??;單次掃描,數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能再次被處理。由于計算機數(shù)據(jù)中心數(shù)據(jù)流的特點,要求數(shù)據(jù)壓縮表達,并且可以迅速、增量地處理新到達的數(shù)據(jù),要求該算法可以快速、清晰地識別離群點。
2 計算數(shù)據(jù)中心應(yīng)用動態(tài)數(shù)據(jù)聚集算法實現(xiàn)
對動態(tài)聚類算法中的數(shù)據(jù)流,在每一個時刻,動態(tài)聚類算法的在線部分連續(xù)地讀入一個新的記錄,將多維的數(shù)據(jù)放置到對應(yīng)多維空間中的離散密度網(wǎng)格。在第一個gap時間內(nèi)產(chǎn)生了初始簇[2],然后,算法周期性地移除松散的網(wǎng)格以及調(diào)整簇,由于不可能保留原始數(shù)據(jù),D?Stream將多維數(shù)據(jù)空間分為許多密度網(wǎng)格,然后由這些網(wǎng)格形成簇,如圖1所示。
文本中,假設(shè)輸入的數(shù)據(jù)有[d]維,在計算機數(shù)據(jù)中心空間中定義數(shù)據(jù):
[S=S1×S2×…×Sd]
在動態(tài)數(shù)據(jù)聚集中,可以將[d]維的空間[S]劃分成密度網(wǎng)格。假設(shè)對于每一維,它的空間是[Si,][i=1,2,…,d]被分為[pi]個部分。
[Si=Si,1∪Si,2∪…∪Si,pi]
這樣數(shù)據(jù)空間[S]被分成了[N=i=1d=pi]個密度網(wǎng)格。每個密度網(wǎng)格[g]是由[S1, j1×S2, j2×…×Sd,jd,][ji=1,]2,…,[pi]組成,將它表示為:
[g=(j1, j2,…, jd)]
一個數(shù)據(jù)記錄[X=(x1,x2,…,xd)]可以映射到下面一個密度網(wǎng)格[g(x):]
[g(x)=(j1, j2,…, jd) where Xi∈Si,ji]
根據(jù)網(wǎng)格密度變動,更新網(wǎng)格密度,當一個新的計算機中心數(shù)據(jù)到網(wǎng)格,接收數(shù)據(jù)記錄,設(shè)一個網(wǎng)格[g]在時刻[tn]接收到一個新的數(shù)據(jù)記錄,假設(shè)[g]接收到最后的數(shù)據(jù)記錄是在時刻[tl(tn>tl),]那么[g]的密度可以按下面的方式更新:
[D(g,tn)=λtn-tlD(g,tl)+1]
計算數(shù)據(jù)中心動態(tài)數(shù)據(jù)聚集算法的實現(xiàn)中,其最基本的計算思想是,在聚集數(shù)據(jù)的最中心對象,對[n]個對象給予[k]個劃分區(qū)域;并且此代表對象也可以被稱為中心點,而其他的對象為非代表對象,反復使用非代表對象替換代表對象,從而動態(tài)地找出數(shù)據(jù)中心更好的中心點,改進數(shù)據(jù)中心聚類質(zhì)量。自定義一個函數(shù):
function [result,c,s,index,label]=kpam(data,k);
[N,n]=size(data);
index=randperm(N);
v=data(index(1:k),:);
for t=1:100
if k==1
for j=1:N
label(j)=1;
end
else
for i=1:k
label(index(i))=i;
end
for j=k+1:N
for i=1:k
dist(:,i)=sqrt(sum((data(index(j),:)?v(i,:)).^2));
end
[m,l]=min(dist');
label(index(j))=l;
end
end
for i=1:k
c(i,:)=v(i,:);
end
一個非中心點代替一個中心點的總代價s
s((h?k),:,i)=sum(cjih(:,:),1);
end
end
if min(min(s))==0
for i=1:k
for h=k+1:N
if s((h?k),:,i)==min(min(s))
s((h?k),:,i)=1;
end
end
end
end
3 計算數(shù)據(jù)中心動態(tài)數(shù)據(jù)聚集算法仿真研究
3.1 仿真試驗環(huán)境搭建
對于計算數(shù)據(jù)中心動態(tài)數(shù)據(jù)聚集算法,針對動態(tài)數(shù)據(jù)聚集算法實施仿真試驗,在一臺帶有1.7 GHz CPU和256 MB內(nèi)存的PC上進行,用VC++ 6.0以及一個Matlab圖形接口實現(xiàn)動態(tài)聚類算法仿真。研究其算法性能及結(jié)果準確性,數(shù)據(jù)中心將10個節(jié)點存放于一個機架上,環(huán)境參數(shù)見表1。
在動態(tài)數(shù)據(jù)聚集算法仿真試驗中,可以設(shè)置:[Cm=]3.0,[Cl=0.8,][λ=0.998,][β=0.3,]使用兩個測試集。第一個就是測試數(shù)據(jù)集,也是一個真實的數(shù)據(jù)集合KDD CUP?99,它包含由MIT林肯實驗室收集的網(wǎng)絡(luò)入侵數(shù)據(jù)流。也使用人工數(shù)據(jù)集測試動態(tài)聚類算法的伸縮性。這個人工數(shù)據(jù)集包含的數(shù)據(jù)數(shù)量從35 000~85 000不等,簇的數(shù)目被設(shè)定為4,維度的數(shù)目范圍[3]從2~40。在動態(tài)數(shù)據(jù)聚集算法仿真試驗中,將數(shù)據(jù)集的所有屬性規(guī)格化為[0,1]。每個維度被均勻地分為多個數(shù)據(jù)段,每個段的長度為len。
3.2 仿真結(jié)果評估
將評估計算數(shù)據(jù)中心的動態(tài)聚類質(zhì)量與效率與傳統(tǒng)計算數(shù)據(jù)中心的算法進行比較,本文算法能提高算法時間、空間效率,對于計算中心高速的數(shù)據(jù)流不損失聚類質(zhì)量,有獨特的優(yōu)勢,準確地識別實時數(shù)據(jù)流,并實施演化行為。計算數(shù)據(jù)中心動態(tài)聚類算法與傳統(tǒng)數(shù)據(jù)分配算法相比,數(shù)據(jù)準確性得到提升,為98.2%,常規(guī)數(shù)據(jù)分配準確率為83.6%,有明顯優(yōu)勢(P<0.05)。計算數(shù)據(jù)中心動態(tài)聚類算法的應(yīng)用,可以提升計算數(shù)據(jù)中心系統(tǒng)的穩(wěn)定性。
4 總 結(jié)
基于計算機數(shù)據(jù)中心數(shù)據(jù)分配中,在數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)基礎(chǔ)上,由于數(shù)據(jù)節(jié)點可以自由移動,這樣會降低數(shù)據(jù)分配進度,從而降低系統(tǒng)性能,導致計算機數(shù)據(jù)中心網(wǎng)絡(luò)維護開銷過高。故此,針對計算機數(shù)據(jù)中心數(shù)據(jù)分配,應(yīng)該改進傳統(tǒng)靜態(tài)數(shù)據(jù)流數(shù)據(jù)方法,實現(xiàn)動態(tài)數(shù)據(jù)聚集,減少信息冗余,提升數(shù)據(jù)計算效率及安全性。
參考文獻
[1] 李文華,羅霄,張樂.飛控計算機數(shù)據(jù)模擬器的設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),2014,37(11):104?106.
[2] 徐小龍,楊庚,李玲娟,等.面向綠色云計算數(shù)據(jù)中心的動態(tài)數(shù)據(jù)聚集算法[J].系統(tǒng)工程與電子技術(shù),2012,34(9):1923?1929.
[3] 郭建波.動態(tài)數(shù)據(jù)聚集算法探究:以綠色云計算數(shù)據(jù)中心為研究方向[J].中國信息化,2013(4):108?109.
[4] 翁祖泉,張琪.基于物聯(lián)網(wǎng)海量數(shù)據(jù)處理的數(shù)據(jù)庫技術(shù)分析與研究[J].物聯(lián)網(wǎng)技術(shù),2014,4(6):88?90.
[5] 李海濤.云計算用戶數(shù)據(jù)傳輸與存儲安全研究[J].現(xiàn)代電子技術(shù),2013,36(20):24?26.
[6] 楊波.基于云計算的作戰(zhàn)數(shù)據(jù)存儲系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2013,36(19):12?14.