趙芳
摘 要:由于計算機的迅速發(fā)展,基于云計算的數據挖掘技術已經是一種十分高效可信的技術,它可以解決傳統數據挖掘方式不適合海量數據的問題。本文介紹了數據挖掘、云計算的相關概念,分析了基于云計算的數據挖掘技術及其優(yōu)點、問題。
關鍵詞:數據挖掘;云計算
1 概述
隨著物聯網、移動互聯網的迅猛發(fā)展,數據呈指數形式增加,當今時代已處于信息數據過載的海量數據時代,這對數據挖掘系統帶來了難題。而云計算可以使分布在大量不同計算機的數據集中在統一的云端,便于各種應用系統的數據獲取。云計算因為具有可彈性變化的計算能力和海量的存儲能力成為解決海量數據挖掘的有效方式。
1.1 數據挖掘
數據挖掘也稱數據庫中的知識發(fā)現過程,是指在大量不完全的、隨機的、模糊的、有噪聲的數據中發(fā)現具有潛在實用價值或者新穎、有效的信息表示為模式、概念、規(guī)律、規(guī)則等形式的過程。數據挖掘的目標是找出事先不知道的數據關系,尤其是來源于不同數據庫的數據之間的關系。
1.2 云計算
狹義上講,云計算指的是通過網絡以便于擴展、按照需求的方式獲得資源(硬件、軟件、平臺),是一種IT基礎設施的交付和使用模式,云就是網絡中的軟、硬件資源。廣義上講,云計算是指服務提供者根據用戶需求、以便于擴展的方式提供服務,用戶按需獲取服務,是一種服務的提供和使用模式,而服務既可以是關于IT的,也可以是其他領域的。
云計算的特點:(一)資源虛擬化。云計算對用戶的地理位置、接入時間方式、使用終端都沒有嚴格要求,“云”中的資源是無形的、動態(tài)的,實際用戶不會關心應用運行的具體位置。(二)價格便宜,速度快。“云”的構成節(jié)點極其廉價,所以降低了數據中心管理需要的成本消耗。“云”不僅成本低廉,資源利用率也大幅提升了,運行速度會更快。(三)服務器規(guī)模很大?!霸啤钡囊?guī)模巨大,而且能夠提供強大的計算能力,Google云計算擁有的服務器已達到上百萬臺。(四)通用性較高。一個“云”可以支撐不同的、千變萬化的應用,“云”可以根據自身資源形成多種應用,而且可以同時運行。(五)按需服務?!霸啤笔莻€資源倉庫,提供的服務很多,“云”可以像水電這樣的基礎設施計費,所以用戶可以按需購買,按量計費。(六)較高的可靠性?!霸啤敝胁扇×藬祿喔北救蒎e、計算節(jié)點同構可互換等措施,使得云計算的服務更可靠,甚至高于本地計算機。(七)可以擴展。“云”的規(guī)??梢詣討B(tài)伸展來滿足用戶和應用數量的增長引發(fā)的需求。
2 基于云計算的數據挖掘技術
基于云計算的數據挖掘要進行數據預處理、數據挖掘、結果模式評價,這與傳統數據挖掘過程一樣。但是在數據的處理和存儲方式上會不同,這是因為云計算中的數據格式與傳統的不一致,它們大多來自于點擊流。
2.1 數據收集處理
在進行數據收集和處理時,第一步要應用決策樹判別出是Web機器人訪問數據還是用戶訪問數據,第二步要把海量數據過濾、轉換、清洗、整合,變成半結構化的XML文件保存?,F在流行的是用Map-Reduce模式收集數據,但不足的是開發(fā)工具還不完善。今后結合分形維數和其他技術的方法是新的發(fā)展方向。例如:結合網絡聚類和分形維數的思想產生的基于網絡和分形維數的聚類方法(GFDC),是運用合計數法進行分形維數,可以改進為運用關聯維數法進行。
2.2 數據存儲
云計算系統運用最廣泛的數據存儲方式是分布式存儲策略,同一個數據存儲為多個副本,這保證了數據的可靠性。這不是冗余復制。 同時系統還要有錯誤隔離、心跳檢測等措施。
3 基于云計算的數據挖掘技術優(yōu)勢
運用云計算進行數據挖掘的優(yōu)點有:(一)因為要從海量的數據中挖掘出信息需要大規(guī)模的數據挖掘,而且挖掘的任務比搜索的任務更加復雜,更需要良好的應用環(huán)境和開發(fā)環(huán)境??紤]到這些因素,基于云計算的方法更合適。(二)基于云計算的數據挖掘隱蔽了底層,開發(fā)更方便,用戶不用考慮數據劃分、計算調度任務和計算分配等問題。(三)云計算提高了大規(guī)模數據處理速度和能力。(四)數據處理成本降低了,也不再需要高性能機器。
4 基于云計算數據挖掘面臨的問題和挑戰(zhàn)
云計算還處于初級階段,發(fā)展還不成熟,還存在一些問題和挑戰(zhàn)。主要包括以下幾個方面:(一)算法選擇問題。關鍵問題就是要選擇合適的算法和并行策略來進行數據處理。(二)軟件及服務的可信度。云環(huán)境下要突出考慮的就是隱私安全問題。(三)有太多不確定性。不確定的方面有:數據挖掘任務的描述、數據挖掘的方法和結果、挖掘結果的評價等。
[參考文獻]
[1]Jiawie Han,Micheline Kambe,Jian Pei.數據挖掘概念與技術[M]. 北京:機械工業(yè)出版社,2012.
[2]紀俊.一種基于云計算的數據挖掘平臺架構設計與實現[D].青島:青島大學,2009.
[3]余永紅,向曉軍,高陽,等.面向服務的云數據挖掘引擎的研究[J].計算機科學與探索,2012(1): 46-57.
[4]周晏,桑書娟.淺談基于云計算的數據挖掘技術[J].電腦知識與技術,2010,6(34):9682- 9683.