韓冬 韓春慶
摘 要: 針對在協(xié)同云計算下差異區(qū)域數(shù)據(jù)挖掘偏差較大,準(zhǔn)確度不高的問題,提出基于非線性時間序列分析且分層調(diào)度控制的差異區(qū)域數(shù)據(jù)挖掘方法。首先構(gòu)建協(xié)同云計算下差異區(qū)域數(shù)據(jù)的信息傳輸模型,進(jìn)行數(shù)據(jù)信息流的時間序列采樣分析;然后采用非線性時間序列分析方法重構(gòu)特征空間,在重構(gòu)的特征相空間進(jìn)行自適應(yīng)分層調(diào)度控制,提取關(guān)聯(lián)規(guī)則特征,有效挖掘數(shù)據(jù);最后進(jìn)行仿真測試,結(jié)果表明該方法的數(shù)據(jù)挖掘精度較高,抗擾性能較強(qiáng)。
關(guān)鍵詞: 協(xié)同云計算; 數(shù)據(jù)挖掘; 調(diào)度控制; 平臺設(shè)計
中圖分類號: TN915?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)05?0118?04
Abstract: Since the difference area data mining has large deviation and low accuracy under collaborative cloud computing, a difference area data mining method based on nonlinear time series analysis and hierarchical scheduling control is proposed. The information transmission model of the difference area data under collaborative cloud computing was constructed to analyze the time series sampling of the data information stream. The nonlinear time series analysis method is used to reconstruct the feature space, in which the adaptive hierarchical scheduling control was conducted to extract the characteristics of the association rules and mine the data effectively. The method was performed with simulation test. The results show that the method has high data mining precision, and strong interference resistance.
Keywords: collaborative cloud computing; data mining; scheduling control; platform design
0 引 言
協(xié)同云計算平臺是一個高度開放、異構(gòu)、分布的信息空間,由于資源信息的特征差異性以及干擾作用,出現(xiàn)差異區(qū)域數(shù)據(jù),對協(xié)同云計算下差異區(qū)域數(shù)據(jù)挖掘是進(jìn)行云計算資源調(diào)度和優(yōu)化分區(qū)學(xué)習(xí)的重要環(huán)節(jié),研究協(xié)同云計算下差異區(qū)域數(shù)據(jù)挖掘方法具有重要意義[1]。
在以往的協(xié)同云計算差異區(qū)域數(shù)據(jù)挖掘中,采用子圖同構(gòu)檢測技術(shù),結(jié)合頻繁項挖掘方法加強(qiáng)信息語義特征,提高數(shù)據(jù)挖掘的數(shù)據(jù)導(dǎo)向性。協(xié)同云計算下的差異區(qū)域數(shù)據(jù)具有非線性、自耦合性等特點[2],傳統(tǒng)方法需要建立學(xué)習(xí)資源本體,采用非線性特征分析和自耦合控制進(jìn)行信息特征空間采樣和重構(gòu),結(jié)合特征壓縮設(shè)計,降低數(shù)據(jù)挖掘的開銷[3?4]。美國Washington大學(xué)開發(fā)的PROMPT數(shù)據(jù)挖掘平臺,通過本體匹配方法構(gòu)建協(xié)同云計算的資源本體匹配,結(jié)合數(shù)據(jù)核心集DCMS進(jìn)行差異數(shù)據(jù)挖掘[5?6]。
為了提高協(xié)同云計算下差異區(qū)域數(shù)據(jù)挖掘的精度,提出一種基于非線性時間序列分析和分層調(diào)度控制的差異區(qū)域數(shù)據(jù)挖掘方法,通過仿真實驗進(jìn)行性能測試,驗證了本文方法的優(yōu)越性。
1 協(xié)同云計算的差異區(qū)域數(shù)據(jù)采樣模型
在協(xié)同云計算環(huán)境下,差異區(qū)域數(shù)據(jù)采用區(qū)間概念格中的節(jié)點模型進(jìn)行存儲機(jī)制構(gòu)架,采用有向圖模型[G1=Mα1,Mβ1,Y1,][G2Mα2,Mβ2,Y2]描述差異區(qū)域數(shù)據(jù)的存儲結(jié)構(gòu)分布式層次模型,[G1?G2?Y1?Y2。]令[A=a1,a2,…,an]為信息采樣時間序列,數(shù)據(jù)挖掘本體結(jié)構(gòu)為一個五元組[O=(C,I,P,Hc,R,A0)],其中,[C]為數(shù)據(jù)語義本體模型的階數(shù),[I]是字符串實例集,協(xié)同云計算下差異區(qū)域數(shù)據(jù)挖掘的總體結(jié)構(gòu)模型如圖1所示。
3 性能測試
實驗訓(xùn)練集和測試集協(xié)同云計算平臺下的兩個區(qū)域性特征大數(shù)據(jù)集,訓(xùn)練集記為set1,測試集記為set2,set1采用分區(qū)間隔特征頻率為12.5 Hz,區(qū)域分區(qū)數(shù)據(jù)包大小為15.2 MB,初始校驗頻率[B=1 000]Hz,CSLOGS為實際數(shù)據(jù)集,包括兩個大小為4.24 MB的分區(qū)。首先進(jìn)行協(xié)同云計算下的差異區(qū)域數(shù)據(jù)采樣,采樣點[N=1 024],采樣通道為3通道,得到協(xié)同云計算中出現(xiàn)差異區(qū)域數(shù)據(jù)時的特征采樣結(jié)果如圖3所示。
將訓(xùn)練樣本輸入到本文構(gòu)建的協(xié)同云計算下差異區(qū)域數(shù)據(jù)挖掘平臺中,圖4為本文方法和傳統(tǒng)方法在set1和set2數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘時隨不同數(shù)據(jù)點數(shù)變化的平均運行時間性能對比結(jié)果。從圖4可知,兩種方法的運行時間曲線均隨差異區(qū)域數(shù)據(jù)點數(shù)的增大而增大,但本文方法運行時間隨數(shù)據(jù)規(guī)模的增大相對平緩,運行時間的差異性隨著數(shù)據(jù)規(guī)模的增大而增加,說明本文方法更適用于大數(shù)據(jù)規(guī)模下的差異區(qū)域數(shù)據(jù)挖掘。
見本文方法和傳統(tǒng)方法隨著數(shù)據(jù)維數(shù)變化的運行時間對比結(jié)果見圖5。從圖5可知,隨著數(shù)據(jù)維數(shù)的增大,運行時間增長,這是因為在高維狀態(tài)下,數(shù)據(jù)點相對分散,數(shù)據(jù)挖掘的計算開銷較大,本文方法的運行時間低于傳統(tǒng)方法,可高效完成數(shù)據(jù)的處理。
4 結(jié) 語
本文提出了一種基于非線性時間序列分析和分層調(diào)度控制的差異區(qū)域數(shù)據(jù)挖掘方法,構(gòu)建協(xié)同云計算下差異區(qū)域數(shù)據(jù)的信息傳輸模型,采用非線性時間序列分析方法重構(gòu)特征空間,在重構(gòu)的特征相空間進(jìn)行自適應(yīng)分層調(diào)度控制,實現(xiàn)關(guān)聯(lián)規(guī)則特征提取。結(jié)果說明,本文方法可以實現(xiàn)對差異區(qū)域數(shù)據(jù)的準(zhǔn)確挖掘,效率較高,且具有較強(qiáng)的魯棒性。
參考文獻(xiàn)
[1] 鄭海雁,王遠(yuǎn)方,熊政,等.標(biāo)簽集約束近似頻繁模式的并行挖掘[J].計算機(jī)工程與應(yīng)用,2015,51(9):135?141.
[2] 邢長征,劉劍.基于近鄰傳播與密度相融合的進(jìn)化數(shù)據(jù)流聚類算法[J].計算機(jī)應(yīng)用,2015,35(7):1927?1932.
[3] 楊來,史忠植,梁帆,等.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報,2013,25(5):936?944.
[4] 張國良,姚二亮,湯文俊,等.一種自適應(yīng)的GraphSLAM魯棒閉環(huán)算法[J].信息與控制,2015,44(3):316?320.
[5] AGUILA?CAMACHO N, DUARTE?MERMOUD M A, GALLEGOS J A. Lyapunov functions for fractional order systems [J]. Communications in nonlinear science and numerical simulation, 2014, 19(9): 2951?2957.
[6] 張博雅,胡曉輝.一種基于全域子空間分解挖掘的QoS準(zhǔn)確預(yù)測方法[J].計算機(jī)科學(xué),2014,41(1):217?224.
[7] 孫超,楊春曦,范莎,等.能量高效的無線傳感器網(wǎng)絡(luò)分布式分簇一致性濾波算法[J].信息與控制,2015,44(3):379?384.
[8] 竇慧晶,王千龍,張雪.基于小波閾值去噪和共軛模糊函數(shù)的時頻差聯(lián)合估計算法[J].電子與信息學(xué)報,2016,38(5):1123?1128.
[9] 余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺模糊核聚類算法研究[J].通信學(xué)報,2015,36(5):74?80.
[10] 黃國順,文翰.基于邊界域和知識粒度的粗糙集不確定性度量[J].控制與決策,2016,31(6):983?989.