劉猛
一種基于云計算的高效數(shù)據(jù)挖掘框架研究
劉猛
云計算可按軟件即服務(wù)(SaaS)的形式提供數(shù)據(jù)挖掘的結(jié)果。數(shù)據(jù)挖掘的性能和質(zhì)量是云計算環(huán)境下數(shù)據(jù)挖掘應(yīng)用的重要使用標(biāo)準(zhǔn)。文中提出一種基于云計算的數(shù)據(jù)挖掘應(yīng)用及其數(shù)據(jù)集的分布和調(diào)度框架,該框架實(shí)現(xiàn)了基于云計算的K均值聚類方法,并將其作為云軟件即服務(wù)(SaaS)來提供給用戶,其主要目標(biāo)是降低應(yīng)用的總體運(yùn)行時間,將挖掘質(zhì)量的損失最小化。仿真結(jié)果表明,相比于已有方案,其方案在速度獲得顯著提升的同時,挖掘質(zhì)量損失最小。另外,當(dāng)聚類數(shù)量和數(shù)據(jù)集的規(guī)模上升時,挖掘質(zhì)量也具有良好的擴(kuò)展性,可促進(jìn)本文方案在云服務(wù)提供商中的應(yīng)用。
云計算;數(shù)據(jù)挖掘;K均值聚類;總體運(yùn)行時間
云計算[1]作為一種新興技術(shù),使得人們對可配置的共享計算資源能隨心所欲的訪問,只需極少量的管理或服務(wù)提供商的交互,即可迅速供應(yīng)和發(fā)布這些可配置共享資源。云計算包括3種服務(wù)模型:云軟件即服務(wù)(SaaS),云平臺即服務(wù)(PaaS),基礎(chǔ)設(shè)施即服務(wù)(IaaS)。SaaS提供商為用戶提供可以運(yùn)行的應(yīng)用,方便用戶快速獲得相關(guān)結(jié)果。PaaS提供商為用戶應(yīng)用的云部署提供條件。IaaS提供商為用戶提供運(yùn)行應(yīng)用所需要的處理、存儲和網(wǎng)絡(luò)能力。
云計算是許多科學(xué)和工程應(yīng)用的潛在高性能方案[2]。許多研究人員試圖利用Hadoop[3]等分布式數(shù)據(jù)挖掘工具來提升數(shù)據(jù)挖掘應(yīng)用的性能。然而,使用該工具來處理大數(shù)據(jù)中的數(shù)據(jù)挖掘應(yīng)用的復(fù)雜度較高。一般而言,數(shù)據(jù)挖掘應(yīng)用的用戶只對數(shù)據(jù)的挖掘結(jié)果感興趣,無需知道數(shù)據(jù)的挖掘地點(diǎn)和挖掘方式。此外,他們還關(guān)注應(yīng)用的實(shí)時性和結(jié)果的準(zhǔn)確性,即關(guān)注結(jié)果的質(zhì)量。云計算通過服務(wù)水平協(xié)議(SLA)[4]可以提高服務(wù)的性能和水平。為此,本文提出一種基于云計算的分布式數(shù)據(jù)挖掘應(yīng)用方案,并將其集成為云計算環(huán)境下的SaaS來提供給用戶。
云計算因其高靈活性和性價比,被廣泛應(yīng)用于分布式數(shù)據(jù)挖掘的基礎(chǔ)設(shè)施,相繼有眾多研究者提出了一系列卓有成效的數(shù)據(jù)挖掘方法。如文獻(xiàn)[5]提出并實(shí)現(xiàn)了一種基于Hadoop云計算平臺的頻繁閉項(xiàng)集的并行挖掘算法。該算法主要包括并行計數(shù)、構(gòu)造全局頻繁項(xiàng)表、并行挖掘局部頻繁閉項(xiàng)集和并行篩選全局頻繁閉項(xiàng)集四個步驟。在多個數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法能大幅提高數(shù)據(jù)挖掘的效率,具有較好的加速比。文獻(xiàn)[6]針對目前搜索數(shù)據(jù)量大、搜索延遲的特點(diǎn),提出了基于云計算Web挖掘的搜索模型。采用提出的基于Map/Reduce模型的改進(jìn)型算法,在一定程度上減少了搜索的代價,提高了搜索效率。文獻(xiàn)[7]提出了一種基于云計算的Web數(shù)據(jù)挖掘方法,該方法將海量數(shù)據(jù)和挖掘任務(wù)分解到多臺服務(wù)器上并行處理。采用Hadoop開源平臺,建立一個基于Apriori算法的并行關(guān)聯(lián)規(guī)則挖掘算法來驗(yàn)證了該系統(tǒng)的高效性。
另外,隨著分布式數(shù)據(jù)庫的出現(xiàn),分布式數(shù)據(jù)挖掘(DDM)在近年吸引了人們的眼球。文獻(xiàn)[8]提出一種基于高性能云的分布式數(shù)據(jù)并行處理方法。使用一個專用的網(wǎng)絡(luò)服務(wù)分層結(jié)構(gòu),適用于高性能廣域網(wǎng)絡(luò)連接的計算機(jī)集群所產(chǎn)生的大型分布式數(shù)據(jù)集的數(shù)據(jù)挖掘。實(shí)驗(yàn)結(jié)果表明,與Hadoop方法相比,該方法的性能有顯著提高。文獻(xiàn)[9]在基于不可信節(jié)點(diǎn)的云計算架構(gòu)基礎(chǔ)之上提出了一種新型的分布式數(shù)據(jù)挖掘模式,實(shí)現(xiàn)分布式數(shù)據(jù)挖掘無縫接入云計算系統(tǒng),以滿足物聯(lián)網(wǎng)的需求??偟膩碚f,上述方案大多還存在著以下不足:1)不能實(shí)現(xiàn)對云基礎(chǔ)設(shè)施的實(shí)時監(jiān)測,不能根據(jù)系統(tǒng)負(fù)載自適應(yīng)地分配數(shù)據(jù)挖掘任務(wù)到云端,使得系統(tǒng)的負(fù)載失衡,在造成資源浪費(fèi)的同時,也降低了數(shù)據(jù)挖掘的質(zhì)量;2)可擴(kuò)展性差,當(dāng)對大數(shù)據(jù)進(jìn)行挖掘時,挖掘質(zhì)量較差、且延遲高。針對這些不足,本文主要研究基于云計算的聚類策略用于數(shù)據(jù)挖掘任務(wù)。目前有多種聚類技術(shù),比如K均值聚類、分層聚類和基于密度的聚類等[10]。這些方法各有優(yōu)缺點(diǎn)。鑒于K均值法的普及性,本文以K均值聚類為基礎(chǔ),提出一種基于云計算的K均值算法作為SaaS模式,并通過仿真實(shí)驗(yàn)驗(yàn)證了本文方案的有效性。
為了便于描述,下面先對K均值聚類進(jìn)行闡述。K均值聚類只根據(jù)可用信息(數(shù)據(jù)點(diǎn)的相似度/離散度)生成數(shù)據(jù)點(diǎn)的K個分區(qū)。目標(biāo)是使每個數(shù)據(jù)點(diǎn)與其對應(yīng)聚類質(zhì)心間離散度之和最小化(即類內(nèi)離散度)。設(shè)有m個未標(biāo)識數(shù)據(jù)點(diǎn)χ={x1,x2,...,xm},K均值法生成χ的K個分區(qū),且使如下目標(biāo)函數(shù)最小,如公式(1):
其中ui表示聚類i的質(zhì)心,表示x和ui間的歐氏距離。K均值聚類主要包括如下3個步驟:
1)初始化:采取某種啟發(fā)式策略或隨機(jī)選擇K個初始質(zhì)心(即聚類中心)。
2)聚類分配:每個數(shù)據(jù)點(diǎn)分配給與其最近質(zhì)心相對應(yīng)的聚類。
3)質(zhì)心再計算:利用第2步中分配的數(shù)據(jù)點(diǎn)再次計算每個聚類的質(zhì)心。然后,回到第2步。
上述迭代過程一直持續(xù)至滿足某個終止條件為止(比如兩次迭代期間均無數(shù)據(jù)點(diǎn)的聚類發(fā)生變更,或者達(dá)到最大迭代次數(shù))。
云計算環(huán)境下的數(shù)據(jù)挖掘總體框架如圖所示:
圖1 云計算環(huán)境的數(shù)據(jù)挖掘總體框架
在圖1中,一個云包括可被本文框架使用的多個物理聚類。為了分發(fā)大數(shù)據(jù),需要一個主工作站、多個與主工作站相連的計算工作站。主工作站和計算工作站間的鏈路速度表示數(shù)據(jù)傳輸時的通信處理速度。總體框架由如下組件構(gòu)成:
1)主工作站:可以處理云中集中式數(shù)據(jù)的節(jié)點(diǎn),調(diào)度決策也發(fā)生于該節(jié)點(diǎn)中。主工作站是主節(jié)點(diǎn)上負(fù)責(zé)分發(fā)數(shù)據(jù)的計算實(shí)體。
2)計算工作站:可進(jìn)行本地數(shù)據(jù)挖掘的數(shù)據(jù)單元稱為計算工作站。本文假設(shè)每個計算工作站可以訪問足夠多的存儲空間以便存儲分配給它的數(shù)據(jù)量。
3)資源管理器:通過與資源記錄器的數(shù)據(jù)庫進(jìn)行溝通來檢查資源可用性的實(shí)體。為K均值應(yīng)用選擇一組資源以便與存儲于SLA記錄器數(shù)據(jù)庫中的SLA相匹配。它將所選擇的資源發(fā)送到主工作站做進(jìn)一步處理。有多種啟發(fā)性資源選擇策略可滿足SLA要求。然而,這不在本文研究范圍內(nèi)。
在云環(huán)境下為K均值應(yīng)用選擇的每個計算工作站i,i∈{1,...,N},其計算容量為μi。大數(shù)據(jù)包括共Wtotal個可分割計算負(fù)載。計算工作站i處理所有負(fù)載中的一部分,即chunki≤Wtotal。本文將一個計算工作站處理chunki個單位的負(fù)載所需時間TPi建模如公式(2):
其中θi表示啟動節(jié)點(diǎn)i計算過程的固定延時,單位為秒,μi表示節(jié)點(diǎn)的計算速度,單位為單位負(fù)載/秒。將發(fā)送chunki個單位負(fù)載給計算工作站i所需時間TCi建模如公式(3):
其中iλ表示主工作站往計算工作站i傳輸數(shù)據(jù)的啟動延時,單位為秒。Ci表示主工作站和計算工作站i間通信鏈路的數(shù)據(jù)傳輸速率,單位為單位計算負(fù)載/秒。當(dāng)運(yùn)行SSH或訪問工作站i而使用各種云軟件時,啟動主工作站到計算工作站i的數(shù)據(jù)傳輸過程,即會導(dǎo)致iλ延時。
為了便于主工作站確定應(yīng)該往每個計算工作站分配多少負(fù)載,本文使用文獻(xiàn)[11]中的調(diào)度算法。每個計算工作站i將被分配大小為chunki的處理負(fù)載。本文算法考慮了網(wǎng)絡(luò)和計算能力,且基于如下公式確定負(fù)載規(guī)模:
首個計算工作站完成分配任務(wù)chunk1所需時間,由下式給出如公式(4):
對第二個工作站如公式(5):
依次地,chunkN值由下式給出如公式(6):
以式(7)為基礎(chǔ),通過替代相應(yīng)等式中的chunk1,即可確定剩余負(fù)載chunki,i=2,...,N。
本文基于云計算的K均值聚類方法架構(gòu)如圖2所示:
圖2 本文K均值法的架構(gòu)
設(shè)D表示存儲于主工作站控制的中央存儲器處的數(shù)據(jù)點(diǎn)集。首先利用第5節(jié)中的部署計算數(shù)據(jù)塊大小,其中chunki表示將傳遞給computing-workeri的分區(qū)的尺寸。設(shè)di表示分區(qū),即:將會分配給computing-workeri的數(shù)據(jù)點(diǎn)集合。因此,數(shù)據(jù)分區(qū)分配完畢后,computing-workeri通過K均值聚類方法對數(shù)據(jù)塊di進(jìn)行聚類,生成具有K個代表點(diǎn)(即:質(zhì)心)的K個聚類。設(shè)Si表示computing-workeri計算出的K個質(zhì)心所組成的集合。下一步驟是從所有計算工作站收集所有質(zhì)心,在主工作站處存儲Kn個質(zhì)心。然后,主工作站對Kn個質(zhì)心進(jìn)行K均值聚類,計算出K個聚類。最后,使用這些聚類的質(zhì)心,并結(jié)合D中每個數(shù)據(jù)點(diǎn)到質(zhì)心的距離,計算聚類的全局集合。綜上所述,基于云計算的K均值聚類偽代碼如下所示:
假設(shè)已經(jīng)按照第3節(jié)中SLA的要求選擇了計算工作站。主工作站在部署時使用第3節(jié)中描述的公式來計算必須要分配給工作站的數(shù)據(jù)塊:每個計算工作站采用μ和θ值作為輸入;主節(jié)點(diǎn)和每個計算工作站間的通信鏈路采用C和λ值作為輸入。主工作站將規(guī)模上升的樣本數(shù)據(jù)集發(fā)送給計算工作站,測量每個計算工作站上的計算時間及從主工作站到每個計算工作站的傳輸時間,并對這些數(shù)據(jù)進(jìn)行線性擬合。然后,利用線性回歸來計算大規(guī)模數(shù)據(jù)擬合時的計算能力(μ)和網(wǎng)絡(luò)帶寬(C)。在數(shù)據(jù)規(guī)模幾乎為0時進(jìn)行擬合,并計算出傳輸延時(λ)和計算延時(θ)。所有系統(tǒng)參數(shù)計算5次然后取均值。由于主工作站需要計算C,λ,μ,θ,減少運(yùn)行次數(shù)將能避免較大開銷。
下面?zhèn)未a描述的調(diào)度程序根據(jù)本文獲得的公式計算數(shù)據(jù)塊。本文部署了3種調(diào)度策略:(1)基于CPU的調(diào)度策略,調(diào)度器根據(jù)計算工作站的計算能力(μ)對計算工作站降序排序;(2)基于網(wǎng)絡(luò)的調(diào)度策略,根據(jù)主工作站和計算工作站間的網(wǎng)絡(luò)容量(C)對計算工作站降序排序;(3)無選擇策略,采取隨機(jī)次序。
然后,應(yīng)用中的主節(jié)點(diǎn)利用計算出來的數(shù)據(jù)塊相應(yīng)地分割應(yīng)用,按照C的升序次序?qū)?yīng)用的數(shù)據(jù)塊分配給計算工作站,也就是說,首先將相應(yīng)數(shù)據(jù)塊分配給通信鏈路C最大(即最快)的計算工作站。這可以降低剩余計算工作站對相應(yīng)數(shù)據(jù)塊的等待時間。在將計算數(shù)據(jù)塊發(fā)送給相應(yīng)的計算工作站后,主工作站通過使用ssh命令,觸發(fā)計算工作站遠(yuǎn)程運(yùn)行。本文在主節(jié)點(diǎn)和每個計算工作站間配置無密碼通信,每個計算工作站在完成任務(wù)后會向主節(jié)點(diǎn)發(fā)送一個信號。
本節(jié)評估主工作站中K均值分布式應(yīng)用的數(shù)據(jù)挖掘性能。比較本文框架與應(yīng)用的理想makespan和理論makespan的效率。理想makespan計算方法是大數(shù)據(jù)集的總體規(guī)模除以被選計算工作站計算能力之和。
理論makespan是本文框架根據(jù)計算應(yīng)用和系統(tǒng)參數(shù)獲得的值。另外,本文使用聚類純度指標(biāo)(Purity)來衡量聚類挖掘的質(zhì)量。常用的有兩種聚類純度指標(biāo):基于多數(shù)派的總純度指標(biāo)(GP)[12]和基尼系數(shù)指標(biāo)(GI)[13]。總純度指標(biāo)表示每個聚類中多數(shù)派類別的正規(guī)化頻率,定義如下:
其中,K表示生成的聚類總量,W={W1,...,WK}表示利用K均值法生成的K個聚類組成的集合,C表示類別標(biāo)簽數(shù)量,表示聚類i中屬于類別j的數(shù)據(jù)點(diǎn)數(shù)量,D表示整個數(shù)據(jù)集。
其中pj∩i)表示類別j和聚類i的聯(lián)合概率,即:
6.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)環(huán)境包含3個節(jié)點(diǎn)構(gòu)成的一個異質(zhì)聚類:1個主工作站和2個計算工作站。主工作站也可向自己分配任務(wù),扮演計算工作站的角色。主工作站配置1個Intel Xeon 2.8 GHz CPU,運(yùn)行CentOS 6.3 Linux操作系統(tǒng)。其中1個計算工作站配置AMD Opteron 252 CPU,openSUSE 12.1(i586),版本12.1,另一個為Intel Xeon 3.6 GHz CPU,運(yùn)行CentOS 6.3 Linux操作系統(tǒng)。聚類通過一個思科交換機(jī)相連。
本文采用UCI數(shù)據(jù)庫中的森林覆蓋數(shù)據(jù)集。該數(shù)據(jù)集包括不同類型森林的地理空間描述,有7種類別,54種屬性及581,000個左右的實(shí)例(約130MB)。對數(shù)據(jù)集正規(guī)化,為相同屬性賦予相同權(quán)重。同時,在聚類期間去除類別標(biāo)簽,以避免無意之中產(chǎn)生監(jiān)督。為了進(jìn)行大規(guī)模數(shù)據(jù)的實(shí)驗(yàn)仿真,本文通過隨機(jī)選擇并復(fù)制部分實(shí)例,生成了具有500,000-1000,000個實(shí)例的多個森林覆蓋數(shù)據(jù)集。
本文測量了分布式K均值應(yīng)用的總makespan。應(yīng)用的makespan表示從主工作站開始向計算工作站分配數(shù)據(jù)集至主工作站上生成最終挖掘結(jié)果所經(jīng)歷的時間。計算了應(yīng)用相對于理想makespan的效率,同時還計算了實(shí)際makespan相對于理論值的退化情況((actual-theoretical)/theoretical)*100。通過計算數(shù)據(jù)規(guī)模上升時的總運(yùn)行時間及聚類純度來評估工作負(fù)載上升對分布式K均值的性能和挖掘質(zhì)量的影響。通過計算聚類規(guī)模增加時的聚類純度評估聚類規(guī)模的影響,即聚類數(shù)量與聚類純度的關(guān)系。進(jìn)行100次實(shí)驗(yàn)取均值。
6.2 實(shí)驗(yàn)結(jié)果分析
當(dāng)部署本文框架并調(diào)整K均值應(yīng)用的尺寸時,本文的主要目的是研究經(jīng)過尺寸調(diào)整后的K均值makespan與理想的makespan的接近程度,如圖3所示:
圖3 真實(shí)makespan相對于理論makespan的退化比
圖3表明,實(shí)際makespan與理想makespan之比達(dá)到最大值3.18。在本文實(shí)驗(yàn)環(huán)境中,當(dāng)數(shù)據(jù)規(guī)模較大時,比率降到2.38如圖4所示:
圖4 正規(guī)化后的實(shí)際makespan與理想makespan
退化比例表明理論性能和實(shí)際性能間存在差異。本文框架假設(shè)數(shù)據(jù)集及運(yùn)行時間之間具有線性關(guān)系。對基于聚類的應(yīng)用來說,這一假設(shè)未必始終成立,因?yàn)槭諗繒r間還依賴于被選擇的數(shù)據(jù)集。然而,從總的趨勢可以看出,隨著數(shù)據(jù)集規(guī)模的增加,退化比例會呈現(xiàn)下降趨勢,這表明本文方法在真實(shí)環(huán)境下確實(shí)能夠降低數(shù)據(jù)挖掘應(yīng)用的總體運(yùn)行時間。
聚類純度與聚類數(shù)量(K)和工作站數(shù)量(N)間的關(guān)系如圖5所示:
圖5 純度與聚類數(shù)量(K)和工作站數(shù)量(N)之間的關(guān)系
X軸對應(yīng)于聚類數(shù)量(K)(7-49),Y軸對應(yīng)于純度。從圖中可明顯看出,不論N取何值,聚類純度均會隨著K的上升而上升。以K=14和K=50為例。當(dāng)K=14時,工作站為集中式(N=1)、2個工作站和3個工作站時的聚類純度分別為0.58,0.61和0.58。當(dāng)K=50時,工作站為集中式(N=1)、2個工作站和3個工作站時的聚類純度分別為0.65,0.64和0.65。這一結(jié)果表明,當(dāng)K增加時,基于云的數(shù)據(jù)聚類與集中式版本一樣,均可提高聚類純度。換句話說,基于云的聚類方法與集中式方法同樣有效。這是因?yàn)閷ぷ髡精@得的質(zhì)心集合專門進(jìn)行了一次聚類,于是每個位置本地生成的聚類模型在主節(jié)點(diǎn)處被有效融合。
數(shù)據(jù)規(guī)模增加對純度的影響如圖6所示:
圖6 純度與數(shù)據(jù)集規(guī)模
此時固定設(shè)置K=15。X軸表示數(shù)據(jù)集規(guī)模(單位為千個實(shí)例),Y軸表示純度。該圖表明,增加數(shù)據(jù)集規(guī)模對集中式和基于云的方法具有類似的影響。以X=500和X=1000為例。當(dāng)X=500時(即:數(shù)據(jù)集有500K個實(shí)例),集中式方法和帶有3個工作站的基于云的方法的純度分別為0.58和0.60。當(dāng)X=1000時(即:數(shù)據(jù)集有1百萬個實(shí)例),集中式方法和帶有3個工作站的基于云的方法的純度分別為0.59和0.60??梢钥闯鰯?shù)據(jù)集對集中式和基于云方法的聚類純度沒有顯著影響。根據(jù)這些結(jié)果得出結(jié)論:基于云的方法的聚類精度與集中式方法相同。
最后,為了進(jìn)一步體現(xiàn)本文方案的優(yōu)越性,采用UCI數(shù)據(jù)庫中的森林覆蓋數(shù)據(jù)集作為測試數(shù)據(jù)集,將本文方案與文獻(xiàn)[6,7]中的方案在數(shù)據(jù)挖掘質(zhì)量方面進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖7所示:
圖7 不同方案的聚類質(zhì)量比較
從圖7中可以看到,隨著數(shù)據(jù)集規(guī)模的增加,不同方案的聚類純度都在下降。其中,文獻(xiàn)[6]中方案的聚類純度最低,而本文方案性能最好。仔細(xì)分析其原因可知,這是由于文獻(xiàn)[6]的方案旨在應(yīng)對實(shí)時性要求較強(qiáng)的以犧牲部分挖掘質(zhì)量來達(dá)到提升挖掘效果的目的。而文獻(xiàn)[7]的方案能夠?qū)?shù)據(jù)挖掘任務(wù)進(jìn)行優(yōu)化分解,并通過定制并行挖掘規(guī)則來處理海量數(shù)據(jù),較好的性能。而本文方案則更進(jìn)一步,通過對云基礎(chǔ)設(shè)施的實(shí)時監(jiān)測、在考慮了所選資源的網(wǎng)絡(luò)和計算延時基礎(chǔ)上,能夠自適應(yīng)地從可用的云硬件網(wǎng)絡(luò)中選擇可用的硬件資源(計算和網(wǎng)絡(luò)資源)分配給分布式數(shù)據(jù)挖掘應(yīng)用,因此數(shù)據(jù)挖掘質(zhì)量最優(yōu)??偟膩碚f,本文方案是有效的,能夠滿足目前大多數(shù)數(shù)據(jù)挖掘應(yīng)用的需求。
本文提出一種基于云計算的K均值聚類法以便對應(yīng)用進(jìn)行擴(kuò)展。該方法的主要目標(biāo)是把K均值應(yīng)用作為一種SaaS云提供給云終端用戶。用戶只對K均值應(yīng)用的性能和挖掘質(zhì)量感興趣,無需知道具體實(shí)現(xiàn)方法。本文的目標(biāo)是通過提出一種基于云的大數(shù)據(jù)挖掘方法,向終端用戶隱藏云技術(shù)的復(fù)雜性。其主要作用在于使K均值具有伸縮性并將其作為SaaS提供,同時將挖掘質(zhì)量的損失降到最低。在下一步工作中將研究在本文框架中集成實(shí)時服務(wù)水平協(xié)議,以滿足用戶對挖掘/聚類的性能和質(zhì)量要求。此外,還將提出數(shù)據(jù)的動態(tài)自主式再分配策略,以便本文框架能夠?qū)崟r監(jiān)測基于云的應(yīng)用的性能和質(zhì)量指標(biāo),在必要情況下可以采取糾正措施。
[1]李德毅,張?zhí)炖?黃立威.位置服務(wù):接地氣的云計算[J].電子學(xué)報,2014,42(4):786-790.
[2]Ismail L,Barua R.Implementation and performance evaluation of a distributed conjugate gradient method in a cloud computing environment[J].Software:Practice and Experience,2013,43(3):281-304.
[3]Lai Y,ZhongZhi S.An efficient data mining framework on Hadoop using Java persistence API[C].Computer and Information Technology(CIT),2010IEEE10th International Conference on.IEEE,2010:203-209.
[4]Wu L,Garg S K,Buyya R.SLA-based resource allocation for software as a service provider(SaaS)in cloud computing environments[C].Cluster,Cloud and Grid Computing(CCGrid),201111thIEEE/ACM International Symposium on.IEEE,2011:195-204.
[5]陳光鵬,楊育彬,高陽,等.一種基于MapReduce的頻繁閉項(xiàng)集挖掘算法水[J].模式識別與人工智能,2012,25(2):220-224.
[6]方少卿,周劍,張明新.基于Map/Reduce的改進(jìn)選擇算法在云計算的Web數(shù)據(jù)挖掘中的研究[J].計算機(jī)應(yīng)用研究,2013,30(2):377-380.
[7]程苗.基于云計算的Web數(shù)據(jù)挖掘[J].計算機(jī)科學(xué),2011,38(10):146-149.
[8]桂兵祥,何 健.基于高性能云的分布式數(shù)據(jù)挖掘方法[J].計算機(jī)工程,2010,36(5):76-78.
[9]陳磊,王鵬,董靜宜,等.基于云計算架構(gòu)的分布式數(shù)據(jù)挖掘研究[J].成都信息工程學(xué)院學(xué)報,2010,25(6): 577-579.
[10]Kantardzic M.Data mining:concepts,models,methods,and algorithms[M].John Wiley&Sons,2011.
[11]Ismail L,Khan L.Implementation and performance evaluation of a scheduling algorithm for divisible load parallel applications in a cloud computing environment [J].Software:Practice and Experience,2014,11(4):158-167.
[12]Osei-Bryson K M.Towards supporting expert evaluation of clustering results using a data mining process model[J]. Information Sciences,2010,180(3):414-431.
[13]Kavulya S,Tan J,Gandhi R,et al.An analysis of traces from a production mapreduce cluster[C].Cluster,Cloud and Grid Computing(CCGrid),2010 10th IEEE/ACM International Conference on.IEEE,2010:94-103.
Research on an Efficient Data Ming Framework Based on Cloud Computing
Liu Meng
(Dongguan Science and Technology School,Dongguan 523000,China)
Cloud computing can provide data mining results in the form of Software as a Service(SaaS).Both performance and quality of data mining are the fundamental criteria of data mining application in the cloud computing environment.This paper proposes a data mining application based on cloud computing and the framework for its distribution and scheduling of data sets. The framework implements the K mean clustering method based on cloud computing,and provides itself with the users as the cloud SaaS.Its main purpose is to reduce the whole execution time of the application and to minimize the loss of quality of mining. The simulation results show that,compared with the existing scheme,the scheme proposed in this paper can minimize the loss of quality of mining while the speed is significantly improved.In addition,it has good scalability of quality of mining when the amounts of cluster and scale of data sets both increase.It can promote this paper's program application in cloud service provider.
Cloud Computing;Data Ming;K Mean Clustering;Overall Execution Time
TP393
A
1007-757X(2015)06-0015-05
2015.03.16)
劉猛(1981-),男,江蘇邳州人,東莞理工學(xué)校,講師,研究方向:網(wǎng)絡(luò)安全、云計算,東莞,523000