陳健
摘要:基于云計算的海量數據挖掘模型中,進行海量數據的處理和存儲時都是在云計算的環(huán)境之中所進行的。隨著時代的不斷發(fā)展所需進行數據挖掘的數量也在逐漸增加,這種新的數據挖掘方式更加能適應時代的發(fā)展。
關鍵詞:云計算;海量數據挖掘研究;數據預處理
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2017)07-0131-02
隨著時代的不斷發(fā)展,信息技術的發(fā)展也越來越快,所產生的數據的數量也在快速上升,據不完全統計現今18月的數據產生量相當與以前幾千年所產生的數據量的總和[1]。隨著數據產生的量的不斷增多,人們可以得到的信息也在不斷增多,但隨著而來的是從海量數據中挖掘有用信息的難度也在不斷的增加?;谠朴嬎愕暮A繑祿诰蚴窃谠朴嬎闫脚_基礎之上進行海量數據挖掘,云計算平臺可以進行動態(tài)資源調度和分配、具有高度虛擬化和高可用性等特點[2],因此可以在很大程度上滿足海量數據挖掘的要求。
1 云計算概述
云計算從其開發(fā)到現在已經有很長一段時間了,在其運用方面仍然還存在一定的問題,因此從其開發(fā)到現在仍然沒有確切的定義。維基百科對其的定義為:云計算是一種能夠通過互聯網為用戶提供服務的計算模式,云計算提供的主要是能夠進行動態(tài)伸縮地虛擬化了的資源,用戶不需要了解如何管理那些支持云計算的基礎設施[3]。簡而言之就是可以將云計算看作一種比較新的商業(yè)模式,在進行任務的處理時低成本的特點,因為它在工作時只需要大量的低成本的相互連接在互聯網上的計算機就可以完成。
2 基于云計算的海量數據挖掘
2.1 數據挖掘
數據挖掘是指從海量數據中發(fā)現一些比較新的、有效的或者存在潛在價值的模式的過程[4]。而對于一個企業(yè)而言,海量數據挖掘就是從海量的數據中挖掘出有用的、有價值的知識,同時要求數據的規(guī)模要盡可能的大,數據的規(guī)模越大從中所挖掘的信息的準確性也就越高。企業(yè)對于數據挖掘的要求是非常高的,為了達到高要求的海量數據挖掘的目的,就需要創(chuàng)造出高要求的開發(fā)環(huán)境和應用環(huán)境。針對這一情況來說,采用基于云計算的海量數據挖掘是最好的方式,因為云計算平臺具有存儲量大、可以進行動態(tài)資源調度和分配、高度虛擬化和高可用性等特點,采用云計算技術來結合海量數據挖掘技術可以在很大程度上保證數據挖掘的高效率和準確性。
2.2 基于云計算的海量數據挖掘模型
基于云計算的海量數據挖掘服務是在云計算的基礎之上所進行的,它主要是通過云計算的特性來進行海量數據的挖掘,如圖1所示??梢钥闯?,整個基于云計算的海量數據挖掘模型總體來說可以分為三個層次,分別是云計算服務層、數據挖掘處理層和與用戶層。對于云計算服務服層而言,它主要的任務是提供分布式并行數據處理及數據的海量存儲。對于數據挖掘處理層而言,它主要任務可以分為兩個方面:一方面是數據的預處理,其主要內容是將海量的數據先進行預處理,將一些不規(guī)則的數據先進行一定的處理方便云計算進行數據的處理;一方面是海量數據挖掘算法并行化,這是海量數據挖掘的關鍵點。對于用戶層而言,它所面對的是用戶,主要是接收用戶的請求并將其傳送給其他兩層進行處理,處理完成以后將結果反饋給用戶。
3 結語
隨著時代的不斷變化,信息技術的不斷發(fā)展,現如今所產生的數據量也在逐年快速增長,傳統的數據挖掘方式已經逐漸不能跟上時代的變化了,因此為了改善這一情況就需要改變以往的數據挖掘方法了。云計算技術是一種很早之前就存在的技術,具有動態(tài)資源調度和分配、高度虛擬化和高可用性等特點,與此同時云計算在使用時的效率是非產高的,且所需要的成本也是非常低的,因此將云計算技術運用到海量數據挖掘技術中可以在很大程度上改善傳統海量數據挖掘方式所存在的問題。總的來說,基于云計算的海量數據挖掘是一種非常好的方式來進行海量數據的處理,并且在未來具有良好的發(fā)展趨勢,雖然云計算的安全還存在一些問題,但仍然值得推廣和發(fā)展。
參考文獻
[1]丁巖,楊慶平,錢煜明.基于云計算的數據挖掘平臺架構及其關鍵技術研究[J].中興通訊技術,2013,19(1):53-56.
[2]趙華茗. 搭建基于云計算的開源海量數據挖掘平臺[C].全國計算機信息管理學術研討會.2010:76-81.
[3]何清,莊福振,曾立,等.PDMiner:基于云計算的并行分布式數據挖掘工具平臺[J].中國科學:信息科學,2014,44(7):871-885.endprint