楊麗君
(新疆工程學院信息工程學院,烏魯木齊 830091)
云計算作為新一代數(shù)據處理與存儲技術,實現(xiàn)了數(shù)據的快速處理與移動應用[1]。由于海量的數(shù)據信息深度挖掘問題已經成為一個急需解決的難題,因此,設計了一種基于云計算的數(shù)據挖掘聚類算法。數(shù)據挖掘聚類指的就是盡可能復用前人已經完成的人工識別工作,從而提高工作效率。解決形式上的數(shù)據挖掘聚類問題并不困難,最簡單直接的辦法就是為各種基本數(shù)據格式兩兩之間開發(fā)一個轉換器,因為流行的數(shù)據格式數(shù)量不多,并且轉換規(guī)則明確,這是一個只要投入一定人力就能解決的問題[2]。但語義上的數(shù)據挖掘聚類比較復雜,因此,本文進行基于云計算的數(shù)據挖掘聚類算法研究。
考慮到傳統(tǒng)的數(shù)據挖掘聚類算法已經不能滿足對海量數(shù)據高效、準確挖掘聚類的要求[3]。因此,利用云計算數(shù)據庫來存儲數(shù)據并對這些數(shù)據進行智能挖掘成為需要重點研究的課題。在基于云計算的數(shù)據挖掘聚類算法研究中,首先,確定數(shù)據挖掘聚類的白化權函數(shù),進而實現(xiàn)基于云計算的數(shù)據挖掘聚類。
白化權函數(shù)作為基于云計算的數(shù)據挖掘聚類算法中最重要的指標,必須確定數(shù)據挖掘聚類的白化權函數(shù)才能保證基于云計算的數(shù)據挖掘聚類算法的準確性。本文采用這種方法確定數(shù)據挖掘聚類的白化權函數(shù)。設確定數(shù)據挖掘聚類的集合為數(shù)據挖掘聚類的白化權函數(shù)的計算公式為:
在公式(1)中,w、c為數(shù)據挖掘聚類的壓縮函數(shù),f(x)為未知參數(shù),但均為實數(shù)。為數(shù)據挖掘聚類的向量、和輸入數(shù)據挖掘聚類向量x的點積。根據數(shù)據挖掘聚類的概率質量函數(shù)最大值與最小值削減和合并結果調整聚類中心數(shù)目,當聚類中心數(shù)目保持穩(wěn)定或滿足迭代結束條件時停止計算。
根據數(shù)據挖掘聚類的白化權函數(shù)的確定,選擇一個可以準確評價基于云計算的數(shù)據挖掘聚類算法的指標。在數(shù)據挖掘聚類迭代過程中,隨著聚類中心的數(shù)目不斷減少,各個聚類中心的位置也會隨之發(fā)生變化。必須運用云計算技術建立數(shù)據挖掘聚類數(shù)據庫,將聚類中心的位置整合數(shù)據的形式存儲在數(shù)據庫中。運用云計算技術建立的數(shù)據庫是對海量數(shù)據挖掘聚類的集成與管理,將大量類型相同的海量數(shù)據挖掘聚類構成同構數(shù)據庫。再通過數(shù)據挖掘聚類迭代過程不斷地位移,最后剩下的聚類中心的坐標就已經能夠非常接近真實的聚類中心?;谠朴嬎愕臄?shù)據挖掘聚類算法可以最大限度的提高數(shù)據挖掘聚類覆蓋率,實現(xiàn)基于云計算的數(shù)據挖掘聚類。
為驗證基于云計算的數(shù)據挖掘聚類算法的有效性,通過對比實驗的方法對比基于云計算的數(shù)據挖掘聚類算法與傳統(tǒng)的數(shù)據挖掘聚類算法的聚類覆蓋率,設置傳統(tǒng)的數(shù)據挖掘聚類算法為對照組。將集成化數(shù)據均衡分組,選用25臺計算機構成并行計算環(huán)境,為確保實驗的公正性,所選用的服務器處理器統(tǒng)一為IntelCBR1S350,主頻為1.98GHz。
根據上述設計的仿真實驗,統(tǒng)計實驗結果,如下圖1所示。
圖1 數(shù)據挖掘聚類覆蓋率對比圖
通過圖1可得出如下的結論,本文設計的基于云計算的數(shù)據挖掘聚類算法的聚類覆蓋率高于傳統(tǒng)的數(shù)據挖掘聚類算法,可以實現(xiàn)數(shù)據挖掘聚類。
隨著云計算環(huán)境下計算機聯(lián)網的逐步實現(xiàn),數(shù)據挖掘的聚類問題顯得越來越重要?;谠朴嬎愕臄?shù)據挖掘聚類算法是針對數(shù)據挖掘進行聚類的最實用和最可靠的方法。針對基于云計算的數(shù)據挖掘聚類算法的研究可以大幅度提高數(shù)據挖掘的聚類覆蓋率,完成傳統(tǒng)的數(shù)據挖掘聚類算法所不能完成的任務?;谠朴嬎愕臄?shù)據挖掘聚類算法是數(shù)據挖掘聚類的核心技術,為數(shù)據挖掘聚類提供學術意義。