摘 要:云計算的快速發(fā)展帶來了基于海量數(shù)據(jù)的數(shù)據(jù)挖掘技術的研究與發(fā)展,基于云計算的數(shù)據(jù)挖掘是采用MapReduce模型對數(shù)據(jù)實現(xiàn)并行處理,比傳統(tǒng)數(shù)據(jù)挖掘更高效、準確和可行,是對云計算時代海量數(shù)據(jù)進行數(shù)據(jù)挖掘的必然趨勢。
關鍵詞:云計算;海量數(shù)據(jù);數(shù)據(jù)挖掘
隨著云計算、物聯(lián)網(wǎng)和信息技術的發(fā)展,海量形式多樣復雜的數(shù)據(jù)爆炸式的迅速增長,對這些海量數(shù)據(jù)進行挖掘,分析出其潛在隱藏的巨大價值對經(jīng)濟社會的發(fā)展具有重要的指導作用。云計算具有的海量數(shù)據(jù)存儲能力和彈性的計算能力為海量數(shù)據(jù)挖掘提供了一種有效的方式。文章首先介紹數(shù)據(jù)挖掘的定義、起源和方法,然后論述了數(shù)據(jù)挖掘的優(yōu)勢和存在問題,最后分析了數(shù)據(jù)挖掘?qū)崿F(xiàn)的步驟、功能和關鍵技術。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)的過程,是指從數(shù)據(jù)庫中包含的海量數(shù)據(jù)中提取出隱含的、未知的、有潛在利用價值的信息的過程,這個過程主要由數(shù)據(jù)準備、數(shù)據(jù)挖掘和結(jié)果表達與解釋這三個階段構成[1]。數(shù)據(jù)挖掘具有決策支持功能,能夠高效自動地對企事業(yè)的海量數(shù)據(jù)進行分析,挖掘出潛在的有利用價值的信息,從而幫助決策者做出正確合理的決策。
數(shù)據(jù)挖掘因其可對海量數(shù)據(jù)進行挖掘提取出有潛在價值的信息而被廣泛關注,其主要經(jīng)歷了電子郵件、信息發(fā)布、電子商務和全程電子商務這四個階段,軟件即服務模式的出現(xiàn)形成了如今全程電子商務模式[1]。
對數(shù)據(jù)進行挖掘所采用的方法論主要有5種,分別是數(shù)據(jù)取樣,數(shù)據(jù)特征探索分析和預處理,問題明確化、數(shù)據(jù)調(diào)整和技術選擇,模型的研發(fā)和知識的發(fā)現(xiàn),模型和知識的綜合解釋與評價。只要采用合理有效的數(shù)據(jù)挖掘方法才能高效的實現(xiàn)數(shù)據(jù)挖掘任務,提取出有價值的信息。數(shù)據(jù)挖掘可以從不同角度進行,具體來說,數(shù)據(jù)挖掘方法有分類、回歸分析、聚類分析、關聯(lián)規(guī)則、特征分析、變化和偏差分析、Web頁挖掘等[1,2]。但是,并沒有一種方法可以適用于所有數(shù)據(jù)類型的挖掘,實際應用中需要依據(jù)所挖掘數(shù)據(jù)的類型找到合適的方法對數(shù)據(jù)進行挖掘。數(shù)據(jù)挖掘具有較高的商業(yè)價值,在通信、醫(yī)療、制造和財務金融等行業(yè)應用較多。
2 基于云計算的數(shù)據(jù)挖掘優(yōu)勢和存在問題
采用基于云計算方式的海量數(shù)據(jù)挖掘具有其獨特的優(yōu)勢,主要表現(xiàn)在以下幾方面:云計算有較好的開發(fā)環(huán)境和應用環(huán)境來處理海量數(shù)據(jù),從中挖掘出有價值的信息;云計算模式可進行分布式的并行數(shù)據(jù)挖掘,實現(xiàn)實時、高效的數(shù)據(jù)挖掘;基于云計算的數(shù)據(jù)挖掘開發(fā)更方便,利用現(xiàn)有設備對海量數(shù)據(jù)的處理能力和速度得到提高,可自由增加結(jié)點,容錯性也有提高;基于云計算的數(shù)據(jù)挖掘?qū)?shù)據(jù)挖掘的門檻較低,滿足了海量數(shù)據(jù)挖掘需求,同時確保了數(shù)據(jù)挖掘的共享性[3,4]。
云計算技術的應用雖然已經(jīng)很廣泛了,但其技術并不是很成熟,因此,基于云計算的數(shù)據(jù)挖掘也存在如下一些問題:數(shù)據(jù)挖掘任務、采集以及預處理具有不確定性;采用合適的算法和并行策略來處理目前海量的數(shù)據(jù)挖掘,以提高數(shù)據(jù)挖掘的并行效率;數(shù)據(jù)挖掘的方法與結(jié)果具有不確定性;對數(shù)據(jù)挖掘的結(jié)果所做出的評價具有不確定性;要確保軟件和服務的正確性、安全性和高質(zhì)量[3]。對于上述存在的這些問題,已經(jīng)有一些策略可以去解決。
3 數(shù)據(jù)挖掘的步驟、功能和技術
3.1 數(shù)據(jù)挖掘?qū)崿F(xiàn)的步驟
不同應用領域的數(shù)據(jù)挖掘有著不同的步驟,且任何一種數(shù)據(jù)挖掘技術都有自己特有的特性和步驟,數(shù)據(jù)挖掘的過程也會因問題和需求的不同而不同。但是數(shù)據(jù)挖掘?qū)崿F(xiàn)的步驟大致可分以下幾步:對數(shù)據(jù)的來源和數(shù)據(jù)深入理解,獲取相關的知識和技術,對數(shù)據(jù)進行整合和檢查,將錯誤和不一致的數(shù)據(jù)踢出去,對模型和假設進行建立,數(shù)據(jù)挖掘工作的實施,對數(shù)據(jù)挖掘結(jié)果進行測試和驗證,對獲取的信息進行解釋和應用[1]。從這個處理過程可以看出,大部分工作是數(shù)據(jù)的預處理,只有完成了預處理階段的工作才能更有效地對數(shù)據(jù)進行挖掘和分析。
3.2 數(shù)據(jù)挖掘功能
數(shù)據(jù)挖掘通過對獲取的潛在的有價值信息進行分析來預測未來的發(fā)展趨勢,幫助決策者做出合理正確的決策。數(shù)據(jù)挖掘的功能可以概括為以下五個方面[1]:對未來的發(fā)展趨勢和行為做出自動預測,通過對數(shù)據(jù)庫中數(shù)據(jù)關聯(lián)進行分析生成的規(guī)則有較高的可性度,通過聚類增強對客觀現(xiàn)實的認識和有利于描述概念與分析偏差,數(shù)據(jù)挖掘有利于對對象的內(nèi)涵和相關特征進行描述,從數(shù)據(jù)庫中對存在偏差的數(shù)據(jù)進行檢測。
3.3 數(shù)據(jù)挖掘關鍵技術
數(shù)據(jù)挖掘的關鍵技術主要有人工神經(jīng)網(wǎng)絡、決策樹、遺傳算法、K近鄰算法和關聯(lián)式規(guī)則[1]。人工神經(jīng)網(wǎng)絡是通過采用類似于大腦神經(jīng)突觸連接結(jié)構對信息進行處理的一種數(shù)學模型,具有自學習、聯(lián)想存儲和高速尋找最優(yōu)解的功能。決策樹是預測模型,通過決策圖和可能的結(jié)果來對目標進行規(guī)劃,是特殊的樹結(jié)構,包含決策節(jié)點、機會節(jié)點和終節(jié)點三種節(jié)點,一個決策樹的產(chǎn)生有分類樹、回歸樹和CART三種方法,決策樹容易理解和實現(xiàn)、前期準備工作量小、能同時處理不同的數(shù)據(jù)類型、是一個白盒模型、能通過靜態(tài)測試做出預測、得到可行高效的結(jié)果[1]。遺傳算法通過類似于生物進化過程的隨機化搜索方法來尋求最優(yōu)解,需要經(jīng)歷初始化、選擇、交叉、變異、全局最優(yōu)收斂這幾個過程,具有隨機性、并行性、容錯能力強等優(yōu)點。K近鄰算法一種機器學習算法,只能計算最近的樣本、且計算量很大。關聯(lián)式規(guī)則是從海量的數(shù)據(jù)中挖掘出有利用價值的數(shù)據(jù)項之間的關聯(lián)性,可以根據(jù)關聯(lián)規(guī)則處理的數(shù)據(jù)類型、涉及的數(shù)據(jù)的維數(shù)和抽象層次分為不同類型,采用關聯(lián)規(guī)則進行數(shù)據(jù)挖掘的一些相關算法主要有Apriori算法、基于劃分的算法和FP-樹頻集算法。數(shù)據(jù)挖掘還需要用到哈希函數(shù)、二維存儲器和冪定律等一些相關知識。
4 結(jié)束語
文章研究了基于云計算的數(shù)據(jù)挖掘技術,相比于傳統(tǒng)數(shù)據(jù)挖掘,基于云計算模式的數(shù)據(jù)挖掘在成本、計算速度、容錯性、和程序的開發(fā)等方面都表現(xiàn)出明顯的優(yōu)勢。隨著云計算技術的發(fā)展,數(shù)據(jù)挖掘研究將會有新的突破和更有利的技術支撐,能夠更高效地從海量的數(shù)據(jù)中挖掘出隱藏的具有潛在利用價值的信息來服務于各行各業(yè)的決策者,幫助其更快速合理地做出正確的決策。
參考文獻
[1]周品.云時代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013,10.
[2]李曉輝.基于云計算的數(shù)據(jù)挖掘應用探析[J].長春大學學報,
2012,22(12):1472-1475.
[3]周晏,桑書娟.淺談基于云計算的數(shù)據(jù)挖掘技術[J].電腦知識與技術,2010,6(34):9681-9683.
[4]賀瑤,王文慶,薛飛.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術與發(fā)展,2013,23(2):69-72.
作者簡介:何婧媛(1987-),女,陜西省延安市人,助教,碩士,研究方向:云計算、大數(shù)據(jù)。