趙芳
摘 要:由于計(jì)算機(jī)的迅速發(fā)展,基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)已經(jīng)是一種十分高效可信的技術(shù),它可以解決傳統(tǒng)數(shù)據(jù)挖掘方式不適合海量數(shù)據(jù)的問題。本文介紹了數(shù)據(jù)挖掘、云計(jì)算的相關(guān)概念,分析了基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)及其優(yōu)點(diǎn)、問題。
關(guān)鍵詞:數(shù)據(jù)挖掘;云計(jì)算
1 概述
隨著物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)呈指數(shù)形式增加,當(dāng)今時(shí)代已處于信息數(shù)據(jù)過載的海量數(shù)據(jù)時(shí)代,這對(duì)數(shù)據(jù)挖掘系統(tǒng)帶來了難題。而云計(jì)算可以使分布在大量不同計(jì)算機(jī)的數(shù)據(jù)集中在統(tǒng)一的云端,便于各種應(yīng)用系統(tǒng)的數(shù)據(jù)獲取。云計(jì)算因?yàn)榫哂锌蓮椥宰兓挠?jì)算能力和海量的存儲(chǔ)能力成為解決海量數(shù)據(jù)挖掘的有效方式。
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘也稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)過程,是指在大量不完全的、隨機(jī)的、模糊的、有噪聲的數(shù)據(jù)中發(fā)現(xiàn)具有潛在實(shí)用價(jià)值或者新穎、有效的信息表示為模式、概念、規(guī)律、規(guī)則等形式的過程。數(shù)據(jù)挖掘的目標(biāo)是找出事先不知道的數(shù)據(jù)關(guān)系,尤其是來源于不同數(shù)據(jù)庫(kù)的數(shù)據(jù)之間的關(guān)系。
1.2 云計(jì)算
狹義上講,云計(jì)算指的是通過網(wǎng)絡(luò)以便于擴(kuò)展、按照需求的方式獲得資源(硬件、軟件、平臺(tái)),是一種IT基礎(chǔ)設(shè)施的交付和使用模式,云就是網(wǎng)絡(luò)中的軟、硬件資源。廣義上講,云計(jì)算是指服務(wù)提供者根據(jù)用戶需求、以便于擴(kuò)展的方式提供服務(wù),用戶按需獲取服務(wù),是一種服務(wù)的提供和使用模式,而服務(wù)既可以是關(guān)于IT的,也可以是其他領(lǐng)域的。
云計(jì)算的特點(diǎn):(一)資源虛擬化。云計(jì)算對(duì)用戶的地理位置、接入時(shí)間方式、使用終端都沒有嚴(yán)格要求,“云”中的資源是無形的、動(dòng)態(tài)的,實(shí)際用戶不會(huì)關(guān)心應(yīng)用運(yùn)行的具體位置。(二)價(jià)格便宜,速度快?!霸啤钡臉?gòu)成節(jié)點(diǎn)極其廉價(jià),所以降低了數(shù)據(jù)中心管理需要的成本消耗?!霸啤辈粌H成本低廉,資源利用率也大幅提升了,運(yùn)行速度會(huì)更快。(三)服務(wù)器規(guī)模很大?!霸啤钡囊?guī)模巨大,而且能夠提供強(qiáng)大的計(jì)算能力,Google云計(jì)算擁有的服務(wù)器已達(dá)到上百萬(wàn)臺(tái)。(四)通用性較高。一個(gè)“云”可以支撐不同的、千變?nèi)f化的應(yīng)用,“云”可以根據(jù)自身資源形成多種應(yīng)用,而且可以同時(shí)運(yùn)行。(五)按需服務(wù)?!霸啤笔莻€(gè)資源倉(cāng)庫(kù),提供的服務(wù)很多,“云”可以像水電這樣的基礎(chǔ)設(shè)施計(jì)費(fèi),所以用戶可以按需購(gòu)買,按量計(jì)費(fèi)。(六)較高的可靠性?!霸啤敝胁扇×藬?shù)據(jù)多副本容錯(cuò)、計(jì)算節(jié)點(diǎn)同構(gòu)可互換等措施,使得云計(jì)算的服務(wù)更可靠,甚至高于本地計(jì)算機(jī)。(七)可以擴(kuò)展?!霸啤钡囊?guī)模可以動(dòng)態(tài)伸展來滿足用戶和應(yīng)用數(shù)量的增長(zhǎng)引發(fā)的需求。
2 基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)
基于云計(jì)算的數(shù)據(jù)挖掘要進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果模式評(píng)價(jià),這與傳統(tǒng)數(shù)據(jù)挖掘過程一樣。但是在數(shù)據(jù)的處理和存儲(chǔ)方式上會(huì)不同,這是因?yàn)樵朴?jì)算中的數(shù)據(jù)格式與傳統(tǒng)的不一致,它們大多來自于點(diǎn)擊流。
2.1 數(shù)據(jù)收集處理
在進(jìn)行數(shù)據(jù)收集和處理時(shí),第一步要應(yīng)用決策樹判別出是Web機(jī)器人訪問數(shù)據(jù)還是用戶訪問數(shù)據(jù),第二步要把海量數(shù)據(jù)過濾、轉(zhuǎn)換、清洗、整合,變成半結(jié)構(gòu)化的XML文件保存?,F(xiàn)在流行的是用Map-Reduce模式收集數(shù)據(jù),但不足的是開發(fā)工具還不完善。今后結(jié)合分形維數(shù)和其他技術(shù)的方法是新的發(fā)展方向。例如:結(jié)合網(wǎng)絡(luò)聚類和分形維數(shù)的思想產(chǎn)生的基于網(wǎng)絡(luò)和分形維數(shù)的聚類方法(GFDC),是運(yùn)用合計(jì)數(shù)法進(jìn)行分形維數(shù),可以改進(jìn)為運(yùn)用關(guān)聯(lián)維數(shù)法進(jìn)行。
2.2 數(shù)據(jù)存儲(chǔ)
云計(jì)算系統(tǒng)運(yùn)用最廣泛的數(shù)據(jù)存儲(chǔ)方式是分布式存儲(chǔ)策略,同一個(gè)數(shù)據(jù)存儲(chǔ)為多個(gè)副本,這保證了數(shù)據(jù)的可靠性。這不是冗余復(fù)制。 同時(shí)系統(tǒng)還要有錯(cuò)誤隔離、心跳檢測(cè)等措施。
3 基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)優(yōu)勢(shì)
運(yùn)用云計(jì)算進(jìn)行數(shù)據(jù)挖掘的優(yōu)點(diǎn)有:(一)因?yàn)橐獜暮A康臄?shù)據(jù)中挖掘出信息需要大規(guī)模的數(shù)據(jù)挖掘,而且挖掘的任務(wù)比搜索的任務(wù)更加復(fù)雜,更需要良好的應(yīng)用環(huán)境和開發(fā)環(huán)境。考慮到這些因素,基于云計(jì)算的方法更合適。(二)基于云計(jì)算的數(shù)據(jù)挖掘隱蔽了底層,開發(fā)更方便,用戶不用考慮數(shù)據(jù)劃分、計(jì)算調(diào)度任務(wù)和計(jì)算分配等問題。(三)云計(jì)算提高了大規(guī)模數(shù)據(jù)處理速度和能力。(四)數(shù)據(jù)處理成本降低了,也不再需要高性能機(jī)器。
4 基于云計(jì)算數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)
云計(jì)算還處于初級(jí)階段,發(fā)展還不成熟,還存在一些問題和挑戰(zhàn)。主要包括以下幾個(gè)方面:(一)算法選擇問題。關(guān)鍵問題就是要選擇合適的算法和并行策略來進(jìn)行數(shù)據(jù)處理。(二)軟件及服務(wù)的可信度。云環(huán)境下要突出考慮的就是隱私安全問題。(三)有太多不確定性。不確定的方面有:數(shù)據(jù)挖掘任務(wù)的描述、數(shù)據(jù)挖掘的方法和結(jié)果、挖掘結(jié)果的評(píng)價(jià)等。
[參考文獻(xiàn)]
[1]Jiawie Han,Micheline Kambe,Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2012.
[2]紀(jì)俊.一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[D].青島:青島大學(xué),2009.
[3]余永紅,向曉軍,高陽(yáng),等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計(jì)算機(jī)科學(xué)與探索,2012(1): 46-57.
[4]周晏,桑書娟.淺談基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)[J].電腦知識(shí)與技術(shù),2010,6(34):9682- 9683.