鐘若武+王惠平
摘 要: 為了提高對高校云計算管理系統(tǒng)的數(shù)據(jù)管理和信息調(diào)度能力,提出一種數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù)。分析高校云計算管理系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)和分布狀態(tài)模型,采用數(shù)據(jù)流的互信息特征提取方法進行特定數(shù)據(jù)的關(guān)聯(lián)積分挖掘,采用定量遞歸分析方法進行數(shù)據(jù)降維,降低數(shù)據(jù)挖掘的計算開銷,實現(xiàn)特征數(shù)據(jù)的準確查詢。仿真結(jié)果表明,采用該方法進行高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢的查準率較高,數(shù)據(jù)挖掘的抗干擾性較強。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 關(guān)聯(lián)積分挖掘; 云計算管理; 查詢技術(shù); 數(shù)據(jù)管理; 信息調(diào)度
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2018)02?0130?03
Abstract: To improve the data management and information scheduling capability of the cloud computing management system in university, a data mining based specific data query technology for the cloud computing management system in university is proposed. Data structure and distribution status model of the cloud computing management system in university are analyzed. The data flow′s mutual information feature extraction method is adopted to perform correlation integral mining of specific data. The quantification recurrence analysis method is adopted for data dimension reduction to reduce computation cost of data mining and achieve accurate query of feature data. The simulation results show that the method has high query precision ratio for specific data query of cloud computing management system in university and strong anti?interference capability of data mining.
Keywords: data mining; correlation integral mining; cloud computing management; query technology; data management;information scheduling
0 引 言
隨著Web技術(shù)和云計算技術(shù)的不斷發(fā)展,各大高校逐漸構(gòu)建和完善高校信息管理系統(tǒng),實現(xiàn)高校資源信息的智能管理[1]。在對高校信息管理中,需要對高校云計算管理系統(tǒng)中的特征數(shù)據(jù)進行準確檢索和信息查詢[2]。通過Web查詢接口跨平臺訪問這些高校云計算管理系統(tǒng)中的特定數(shù)據(jù),獲得教師和學(xué)生等用戶需要的高校管理信息,準確有效訪問是數(shù)據(jù)庫和云計算管理系統(tǒng)[3],提高數(shù)據(jù)信息的挖掘和檢索效率,實現(xiàn)高校資源信息的智能化管理。本文提出數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù),提高數(shù)據(jù)挖掘和查詢的效率。最后進行仿真測試,展示了本文方法在優(yōu)化特征數(shù)據(jù)查詢準確性和效率方面的優(yōu)越性。
1 數(shù)據(jù)分布式結(jié)構(gòu)分析
1.1 高校云計算管理系統(tǒng)的數(shù)據(jù)分布模型
云計算管理系統(tǒng)的數(shù)據(jù)分布結(jié)構(gòu)模型主要分為基于位置結(jié)構(gòu)的分布模型、層關(guān)聯(lián)分布模型、鏈路層分布模型、隱含層分布模型和相干匹配的分布結(jié)構(gòu)模型[4]。根據(jù)高校云計算管理系統(tǒng)數(shù)據(jù)分布結(jié)構(gòu)模型,進行資源信息匹配和特征數(shù)據(jù)的信息查詢鏈路分析[5],采用四元組描述云計算系統(tǒng)的特征數(shù)據(jù)結(jié)構(gòu)組合模型[6],得到特征數(shù)據(jù)查詢最佳路徑為:
式中:表示管理系統(tǒng)中特定數(shù)據(jù)的元組數(shù);表示管理系統(tǒng)中特定數(shù)據(jù)集中滿足查詢屬性組合的元組數(shù)。在搜索空間中建立特點數(shù)據(jù)的特征匹配模型,假設(shè)待查詢數(shù)據(jù)序列的長度為,數(shù)據(jù)流之間的關(guān)聯(lián)積分為:
式中,數(shù)據(jù)挖掘點個數(shù)為,兩組數(shù)據(jù)信息流在整個管理系統(tǒng)空間距離為:
在數(shù)據(jù)結(jié)構(gòu)和分布模型分析基礎(chǔ)上,根據(jù)數(shù)據(jù)分布的密度與終端位置進行定位挖掘和自適應(yīng)特征匹配。
1.2 特定數(shù)據(jù)的特征提取
根據(jù)上述數(shù)據(jù)結(jié)構(gòu)分析,采用數(shù)據(jù)流的互信息特征提取方法進行特征數(shù)據(jù)的關(guān)聯(lián)挖掘,得到互信息特征提取的判定函數(shù)為:
式中:為特定數(shù)據(jù)實參數(shù);分別為文本信息實體分布參數(shù)。
高校云計算管理系統(tǒng)中,根據(jù)采樣樣本數(shù)據(jù)的屬性值和用戶檢索的需求,結(jié)合語義特征提取方法進行文本信息匹配[7],根據(jù)特定數(shù)據(jù)的查詢條件,構(gòu)建多元假設(shè)模型,得到數(shù)據(jù)查詢的二元統(tǒng)計函數(shù)為:
結(jié)合自相關(guān)特征匹配方法,通過數(shù)據(jù)挖掘,形成一個初始的查詢結(jié)果,對應(yīng)的查詢數(shù)據(jù)信息流的特征向量為
2 數(shù)據(jù)查詢關(guān)鍵技術(shù)實現(xiàn)
2.1 數(shù)據(jù)挖掘技術(shù)
在進行高校云計算管理系統(tǒng)的數(shù)據(jù)分布模型設(shè)計和數(shù)據(jù)結(jié)構(gòu)分析的基礎(chǔ)上,本文提出基于數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù)。采用最小均方誤差估計方法進行數(shù)值屬性權(quán)重評估[8],得到估計誤差為:
式中:表示管理系統(tǒng)中數(shù)據(jù)重復(fù)因素;表示數(shù)據(jù)挖掘的采樣時間間隔;表示信息篩選的控制變量,通過關(guān)聯(lián)積分挖掘方法[9],得到數(shù)據(jù)挖掘結(jié)果為:endprint
式中,兩次輸出結(jié)構(gòu)分布在不同的查詢接口單元,時刻和時刻之間的輸出數(shù)據(jù)的查詢周期為,采用多元特征重組方法進行數(shù)據(jù)的級聯(lián)挖掘,采用時間衰減函數(shù)控制數(shù)據(jù)挖掘的連續(xù)性,以此提高數(shù)據(jù)查詢的準確度。
2.2 數(shù)據(jù)降維
為了降低數(shù)據(jù)挖掘和數(shù)據(jù)查詢的計算開銷,還需要進行數(shù)據(jù)降維處理,采用數(shù)據(jù)挖掘算法得到高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢數(shù)據(jù)的信息流R1為:
式中,μw為數(shù)據(jù)特征空間維數(shù)。采用定量遞歸分析方法進行數(shù)據(jù)降維,得到數(shù)據(jù)降維處理后特定數(shù)據(jù)挖掘的輸出結(jié)構(gòu)模型為R2,可表示為:
式中,為高校云計算管理系統(tǒng)中特定數(shù)據(jù)差異查詢屬性值,采用包含匹配(Subsume)和相干匹配(Intersection)兩種方式[10]。
通過特征降維處理,最終得到特定數(shù)據(jù)查詢輸出為:
3 仿真分析
仿真試驗中,構(gòu)建一組包含1 200組查詢數(shù)據(jù)屬性分布集數(shù)據(jù)結(jié)構(gòu)模型。在云計算管理系統(tǒng)中進行特征數(shù)據(jù)查詢設(shè)計,采用Matlab仿真軟件進行算法設(shè)計。分析數(shù)據(jù)查詢的準確性和抗干擾性等性能。特征數(shù)據(jù)查詢節(jié)點個數(shù)為42個,數(shù)據(jù)采集容量為12 Gbit,數(shù)據(jù)的初始采樣頻率為120 kHz,云計算管理系統(tǒng)中存儲了100 TB的高校資源信息,每個分割間隔為1 MB。根據(jù)上述仿真環(huán)境和參量設(shè)定,進行數(shù)據(jù)挖掘查詢仿真分析,原始數(shù)據(jù)的采樣時間為0~50 ms,采用本文方法和傳統(tǒng)方法,測試特征數(shù)據(jù)查詢的查準率和的時間開銷對比,得到對比結(jié)果如圖1、圖2所示。
分析圖1結(jié)果得知,采用本文方法進行高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢,由于采用了互信息特征提取方法挖掘了特定數(shù)據(jù)的關(guān)聯(lián)積分,提高了數(shù)據(jù)的查準率。
分析圖2得出,隨著待挖掘數(shù)據(jù)規(guī)模的增大,計算時間開銷增大,本文方法的時間開銷總體低于傳統(tǒng)方法,提高了對云計算管理系統(tǒng)的特定數(shù)據(jù)訪問和挖掘的效率。
4 結(jié) 語
本文研究了高校云計算管理系統(tǒng)特定數(shù)據(jù)查詢問題,提出數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù),采用數(shù)據(jù)流的互信息特征提取方法進行特定數(shù)據(jù)的關(guān)聯(lián)積分挖掘。為了降低計算開銷,還進行了數(shù)據(jù)降維處理,實現(xiàn)特征數(shù)據(jù)的準確查詢。研究得出結(jié)論,采用本文方法進行數(shù)據(jù)查詢的查準率較高,計算時間開銷較短,提高了高校云計算管理系統(tǒng)的特定數(shù)據(jù)查詢挖掘的準確性和效率,具有一定的應(yīng)用價值。
參考文獻
[1] SUN L, GUO C H. Incremental affinity propagation clustering based on message passing [J]. IEEE transactions on knowledge and data engineering, 2014, 26(11): 2731?2744.
[2] 周唯,鄒東升,牛寶君.基于移動云計算的高校教學(xué)資源整合系統(tǒng)[J].計算機應(yīng)用,2016,36(z1):33?36.
ZHOU W, ZOU D S, NIU B J. Teaching resources integration system for colleges and universities based on mobile cloud computing [J]. Journal of computer application, 2016, 36(z1): 33?36.
[3] 陳翔.面向云計算模型的高??蒲泄芾硇畔⑾到y(tǒng)實施策略研究[J].邵陽學(xué)院學(xué)報(自然科學(xué)版),2015,12(2):18?21.
CHEN X. Research on the implementation of university research management information system based on cloud computing model [J]. Journal of Shaoyang University (Natural science edition), 2015, 12(2): 18?21.
[4] MERNIK M, LIU S H, KARABOGA M D, et al. On clarifying misconceptions when comparing variants of the artificial bee colony algorithm by offering a new implementation [J]. Information sciences, 2015, 291(10): 115?127.
[5] 邢行,尚穎,趙瑞蓮,等.面向多目標測試用例優(yōu)先排序的蟻群算法信息素更新策略[J].計算機應(yīng)用,2016,36(9):2497?2502.
XING X, SHANG Y, ZHAO R L, et al. Pheromone updating strategy of ant colony algorithm for multi?objective test case prioritization [J]. Journal of computer application, 2016, 36(9): 2497?2502.
[6] HAN J, KAMBER M. Data mining concepts and techniques [M]. 3rd ed. San Francisco: Morgan Kaufmann Publishers, 2012.
[7] KESHAVAMURTHY B N, KHAN A M, TOSHNIWAL D. Privacy preserving association rule mining over distributed databases using genetic algorithm [J]. Neural computing & applications, 2013, 22(1): 351?364.
[8] MORADI M, KEYVANPOUR M R. An analytical review of XML association rules mining [J]. Artificial intelligence review, 2015, 43(2): 277?300.
[9] 張嘯劍,孟小峰.面向數(shù)據(jù)發(fā)布和分析的差分隱私保護[J].計算機學(xué)報,2014,37(4):927?949.
ZHANG X J, MENG X F. Differential privacy in data publication and analysis [J]. Chinese journal of computers, 2014, 37(4): 927?949.
[10] 張磊,王鵬,黃焱,等.基于相空間的云計算仿真系統(tǒng)研究與設(shè)計[J].計算機科學(xué),2013,40(2):84?86.
ZHANG L, WANG P, HUANG Y, et al. Research and design of cloud computing simulation system based on phase space [J]. Computer science, 2013, 40(2): 84?86.endprint