石 杰(1.山東青年政治學(xué)院 實驗設(shè)備管理處,山東 濟南 250103;2.山東省高校信息安全與智能控制重點實驗室,山東 濟南 250103)
云計算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用*
石杰1,2
(1.山東青年政治學(xué)院實驗設(shè)備管理處,山東 濟南 250103;2.山東省高校信息安全與智能控制重點實驗室,山東濟南 250103)
云計算是一個新的商業(yè)模型,它可以提供無限的廉價存儲和計算能力。而數(shù)據(jù)挖掘中面臨的主要問題是項目集合的空間需求問題,并且其操作非常巨大。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到云計算環(huán)境中,可以按需從云服務(wù)運營商那里獲取項目集合所需空間,從而解決了數(shù)據(jù)挖掘需要巨大空間的問題。文章論述和分析了將數(shù)據(jù)挖掘應(yīng)用到云計算環(huán)境的有效性。
數(shù)據(jù)挖掘;云計算;頻繁模式;云存儲
“云計算”被描述為是一個平臺系統(tǒng)或軟件應(yīng)用程序。首先,平臺系統(tǒng)意味著云計算系統(tǒng)可以實時地動態(tài)部署、配置、再部署、再配置。在云計算平臺下,服務(wù)器是一個物理服務(wù)器或一個虛擬服務(wù)器。云計算通常包括很多計算資源。
云計算是一個新的商業(yè)模型[1-2]。它描述了計算任務(wù)到資源池的過程。資源池由大量計算機組成,從而保證各種應(yīng)用可以按需獲得計算能力、存儲空間和各種軟件服務(wù)。云計算的新穎性在于它可以提供無限的廉價存儲和計算能力,這可以使其存儲和挖掘大量的數(shù)據(jù)。
處理高維度和大規(guī)模數(shù)據(jù)有很多方法,但請求處理通常是瓶頸。認識發(fā)現(xiàn)任務(wù)算法通常被應(yīng)用到多維未來空間廣泛搜索或最近鄰居搜索[3]。商業(yè)智能和數(shù)據(jù)倉庫可以存放T字節(jié)級以上的數(shù)據(jù)。云計算作為數(shù)據(jù)挖掘的需求正被廣泛使用。Map Reduce是一個程序框架,并且被用于處理大的數(shù)據(jù)集合。分割、調(diào)度和失敗處理以及通信等細節(jié)被Map Reduce隱藏[4]。
云計算是一種計算服務(wù)而不單單是一個產(chǎn)品,它由計算資源、軟件和各種信息組成。通過網(wǎng)絡(luò)在任何地點,可以使用計算機或其他設(shè)備等終端訪問。云是一個并行和分布式系統(tǒng),由相互連接的虛擬計算機構(gòu)成,可以被動態(tài)部署,并作為一個或多個統(tǒng)一的計算資源呈現(xiàn)出來。云計算基于服務(wù)運營商和用戶簽訂的服務(wù)等級協(xié)議提供服務(wù)。
數(shù)據(jù)連接緊密度的增長和數(shù)據(jù)量增長導(dǎo)致許多運營商和部分數(shù)據(jù)中心使用大的、可以動態(tài)均衡負載的基礎(chǔ)設(shè)施作為云計算平臺。通過按需地在服務(wù)器上分布和復(fù)制數(shù)據(jù),資源利用率顯著提高。
“云”是一個彈性的資源執(zhí)行環(huán)境,涉及到多個利益方,并能提供可以計量的服務(wù)。這些服務(wù)可以分為多個粒度級別。換言之,本文中所講的云是基礎(chǔ)平臺,可以在多種資源上面以各種形式執(zhí)行。從而提供資源和服務(wù)的管理性、彈性和系統(tǒng)平臺獨立性等能力。
目前有幾種主要的數(shù)據(jù)挖掘技術(shù)已經(jīng)開發(fā)并應(yīng)用到數(shù)據(jù)挖掘項目中。包括關(guān)聯(lián)規(guī)則、分類、聚類、預(yù)測和序列模式。下面將簡要地介紹這些數(shù)據(jù)挖掘技術(shù)的例子。
(1)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是一種最好的已知的數(shù)據(jù)挖掘技術(shù)。對關(guān)聯(lián)規(guī)則挖掘的研究可分為兩種類型,一種是Apriori算法研究,一種是頻繁模式增長算法研究[5](FP-growth增長等)。在關(guān)聯(lián)規(guī)則中,一種模式的發(fā)現(xiàn)是基于在同一個交易數(shù)據(jù)庫中特定項目與其他項目的關(guān)系。例如,該技術(shù)用于市場購物籃分析中確定什么樣的產(chǎn)品客戶經(jīng)常一起購買?;谠摂?shù)據(jù)業(yè)務(wù)會有相應(yīng)的營銷活動,從而銷售更多的產(chǎn)品,創(chuàng)造更大的利潤。
(2)分類
分類是一種基于機器學(xué)習(xí)的經(jīng)典的數(shù)據(jù)挖掘技術(shù)。分類方法是利用數(shù)學(xué)方法實現(xiàn),如決策樹,線性規(guī)劃,神經(jīng)網(wǎng)絡(luò)和統(tǒng)計。在分類過程中,軟件可以學(xué)習(xí)如何將數(shù)據(jù)項分到不同的組中。例如,可以應(yīng)用于“給那些離開公司的員工過去的記錄應(yīng)用分類,預(yù)測當前的雇員很可能在將來離開”,在這種情況下,把員工的記錄分為兩組,“離開”、“留下”,然后,可以利用數(shù)據(jù)挖掘軟件將雇員劃分到每個組。
(3)聚類
聚類分析是數(shù)據(jù)挖掘技術(shù)中很有意義或有用的一種自動聚類技術(shù)。不同于分類技術(shù),聚類技術(shù)也定義了類和類中的對象,而在分類中,對象被分配到預(yù)定義的類中。以圖書館為例,在圖書館里圖書的種類有很多,如何使讀者能夠在如此廣泛的主題中找到相關(guān)主題的書目是一個很麻煩的問題。利用聚類技術(shù),使相似類型的圖書歸在一起或放在同一個書架上,通過標簽標識有意義的名稱。這樣讀者想獲取書中的主題時,只需去那個書架就可找到,而不必在整個圖書館中查找。
(4)預(yù)測
正如它的名字暗示的,預(yù)測是一種數(shù)據(jù)挖掘技術(shù),用于發(fā)現(xiàn)自變量之間及自變量和因變量之間的關(guān)系。例如,預(yù)測分析技術(shù),如果考慮銷售額是一個自變量,利潤可能是一個因變量,那就可以預(yù)測將來的銷售利潤,根據(jù)歷史銷售數(shù)據(jù)和利潤數(shù)據(jù),就可以得出一個用于預(yù)測盈利的回歸擬合曲線。
(5)序列模式
序列模式分析是一種發(fā)現(xiàn)事件間在順序上的相關(guān)性的數(shù)據(jù)挖掘技術(shù)。發(fā)現(xiàn)的模式是用于識別數(shù)據(jù)之間關(guān)系的進一步分析。
2010年,Kawuu W.Lin等人[6]提出了一套多任務(wù)的頻繁模式挖掘的策略。通過各種模擬條件下的實驗,算法在執(zhí)行時間上表現(xiàn)出較好的性能。
2011年,李玲娟等人[7]提出了一種在云計算環(huán)境中的關(guān)聯(lián)規(guī)則挖掘算法。該算法利用 Hadoop框架平臺及MapReduce編程模型,以實現(xiàn)云計算環(huán)境下的并行挖掘為目標,給出了改進 Apriori算法在 Hadoop框架平臺中MapReduce編程模型上的執(zhí)行過程。算法在頻繁項集挖掘中表現(xiàn)出較好的性能和實用性。
2011年,T.R.Gopalakrishnan Nair等人[8]提出了 k-均值算法,算法通過迭代過程把數(shù)據(jù)集分為不同類別,使評價聚類性能的準則函數(shù)達到最優(yōu),且每個聚類內(nèi)緊湊,類間獨立。
云計算作為大幅降低成本技術(shù),在受到追捧的同時也面臨著諸多挑戰(zhàn)性問題。
(1)安全
在使用云計算服務(wù)時,用戶往往不清楚自己數(shù)據(jù)存放的位置,這樣就會導(dǎo)致用戶對數(shù)據(jù)安全的擔心,云計算架構(gòu)于互聯(lián)網(wǎng)之上,傳統(tǒng)安全問題依然存在,如病毒、木馬的入侵、隱私信息的泄露等,新的安全問題也將浮出水面。另外,身份認證、授權(quán)與訪問控制、責(zé)任認定、安全與隱私等技術(shù)問題也都還處于探索階段。
(2)Ad-hoc網(wǎng)絡(luò)模式
Ad-hoc網(wǎng)絡(luò)是一個沒有有線基礎(chǔ)設(shè)施支持的移動網(wǎng)絡(luò),是一種無線多跳網(wǎng)絡(luò)。在Ad-Hoc網(wǎng)絡(luò)中,所有的節(jié)點都是由移動主機構(gòu)成的。與傳統(tǒng)的無線網(wǎng)絡(luò)相比,它不依賴于任何固定的基礎(chǔ)設(shè)施和管理中心,而是由一組自主的移動節(jié)點臨時組成,通過移動節(jié)點間的相互協(xié)作和自我組織,保持網(wǎng)絡(luò)連接,實現(xiàn)數(shù)據(jù)的傳遞。其特點是:動態(tài)變化的網(wǎng)絡(luò)拓撲結(jié)構(gòu),多條通信,較低的安全性。
(3)管理性
易管理性在云計算中非常重要,與傳統(tǒng)的系統(tǒng)相比,受有限的人工干涉、工作負載變化幅度大和多種多樣的共享設(shè)備這三個因素的影響,云計算中管理更加復(fù)雜。大多數(shù)情況下,沒有協(xié)助基于云的應(yīng)用開發(fā)的數(shù)據(jù)庫管理員和系統(tǒng)管理員。甚至是單一用戶的負載隨時間都會發(fā)生大幅度的變化。
(4)龐大的規(guī)模
現(xiàn)有的SQL數(shù)據(jù)庫不能簡單地處理放置在云中的海量數(shù)據(jù)。在存儲方面,是用不同的事務(wù)實現(xiàn)技術(shù),還是用不同的存儲技術(shù),或者二者都用來解決一些限制性問題還不確定。在這個問題上,目前在數(shù)據(jù)庫領(lǐng)域內(nèi)有很多提議?,F(xiàn)有的云計算已經(jīng)開始探索一些簡單的實用性方法,但是還需要做更多的工作來融合現(xiàn)有的云計算機制中的好思想。
(5)新的應(yīng)用場景
預(yù)測一些需要預(yù)載大量數(shù)據(jù)集(像股票價格、天氣歷史數(shù)據(jù)以及網(wǎng)上檢索等)的服務(wù)。從私有和公共環(huán)境中獲取有用信息引起人們越來越多的注意。這就需要從結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)的異構(gòu)數(shù)據(jù)中提取出有用信息。
(6)延遲
延遲通常是因特網(wǎng)上的常見問題。云計算中產(chǎn)生的延遲并不是致命的,可以通過智能化設(shè)計的高性能基礎(chǔ)設(shè)施以及靈巧的應(yīng)用程序來補救。就像桌面計算機最大的瓶頸就是需要更大的硬盤和內(nèi)存,云計算中延遲的真正原因必須確定和解決。云計算既需要較高性能的集群服務(wù)器,也需要高性能的通信設(shè)備來支持。
數(shù)據(jù)挖掘技術(shù)的主要問題是項目集合需要空間,并且項目級操作是巨大的。如果將數(shù)據(jù)挖掘應(yīng)用于云計算環(huán)境,將會從云運營商那里按需租賃空間。這種方法解決了需要大量空間的問題。并且用戶不再需要考慮空間大小,可直接使用數(shù)據(jù)挖掘技術(shù)。
[1]WEISS A.Computing in clouds[J].ACM Networker,2007,11(4):18-25.
[2]BUYYA R,VENUGOPAL S.Market-oriented cloud computing:vision,hype,and reality for delivering IT services as computing utilities[C].Proceedings of the 2008 10th IEEE International Conference on High Performance Computing and Communications,2008:5-13.
[3]BOHM C,BERCHTOLD S,MICHEL U.Multidimensional index structures in relational databases[C].in 1stInternationalConferenceonDataWarehousingandKnowledge Discovery,1999:51-70.
[4]DEAN J,GHEMAWAT S,USENIX.Map Reduce:simplified data processing on large clusters[C].6th Symposium on Operating Systems Design and Implementation,2004:137-149.
[5]Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[C].Proc.of ACM Int.Conf.on Management of data(SIGMOD),2000:1-12.
[6]KAWUU W LIN,LUO Y C.Efficient strategies for manytask frequent pattern mining in cloud computing environments[C].Systems Man and Cybernetics(SMC),IEEE International Conference,2010(10):620-623.
[7]李玲娟,張敏.云計算環(huán)境下關(guān)聯(lián)規(guī)則挖掘算法研究[J].計算機技術(shù)與發(fā)展,2011(2):43-46.
[8]NAIR T R G,MADHURI K L.Data mining using hierarchical virtual k-means approach integrating data fragments in cloud computing environment[C].Cloud Computing and Intelligence Systems(CCIS),IEEE International Conference,2011(1):230-234.
Application of data mining in cloud computing environment
Shi Jie1,2
(1.Laboratory And Equipment Management Office,Shandong Youth University of Political Science,Ji′nan 250103,China;2.Key Laboratory of Information Security and Intelligent Control in Universities of Shandong Youth,Ji′nan 250103,China)
Cloud computing is a new business model.It can provides unlimited cheap storage and computing power.The main issue with data mining techniques is that the space required for the item set and there operations are very huge.Combine data mining techniques with cloud computing environment,then we can rent the space from the cloud providers on demand.This solution can solve the problem of huge space.This paper discusses and analyzes the effectiveness of the application of data mining to the cloud computing environment.
data mining;cloud computing;frequent pattern;cloud storage
TP311
A
1674-7720(2015)05-0013-03
山東省自然科學(xué)基金資助項目(ZR2013FM010)
(2014-11-11)
石杰(1980-),通信作者,男,碩士研究生,講師,主要研究方向:人工智能、數(shù)據(jù)挖掘等。E-mail:mineingjie@sohu. com。