摘 要:隨著科技的發(fā)展,傳統(tǒng)數(shù)據(jù)處理系統(tǒng)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足人們的需求,云計(jì)算以其強(qiáng)大的通用性、大規(guī)模的動(dòng)態(tài)擴(kuò)展、服務(wù)的可靠性、低廉的成本、超強(qiáng)的數(shù)據(jù)存儲(chǔ)和處理能力為用戶提供優(yōu)質(zhì)高效的服務(wù),基于云的數(shù)據(jù)挖掘平臺(tái)極大的減少了企業(yè)數(shù)據(jù)挖掘的資金投入,縮短了企業(yè)新產(chǎn)品的研發(fā)周期,為企業(yè)創(chuàng)造了更大的效益。
關(guān)鍵詞:云計(jì)算概述;數(shù)據(jù)挖掘;平臺(tái)架構(gòu)
中圖分類號(hào):TP311.13
隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,手機(jī)、電腦在中國隨處可見,互聯(lián)網(wǎng)甚至是移動(dòng)互聯(lián)網(wǎng)融入了人們的日常生活,互聯(lián)網(wǎng)中無法估量的大量數(shù)據(jù)不斷增長,愈演愈烈,面對(duì)著海一般的數(shù)據(jù)信息,人們不能準(zhǔn)確的找到自己想要的數(shù)據(jù),像手機(jī)APP,手游等移動(dòng)互聯(lián)網(wǎng)產(chǎn)品,每天都承載著非常多的數(shù)據(jù),對(duì)運(yùn)營商而言,如何進(jìn)行數(shù)據(jù)分析以及數(shù)據(jù)挖掘成為一個(gè)亟待解決的難題。
較于傳統(tǒng)數(shù)據(jù)處理系統(tǒng),云計(jì)算系統(tǒng)的出現(xiàn)讓人眼前一亮,基于云的數(shù)據(jù)挖掘平臺(tái)的建構(gòu)為數(shù)據(jù)挖掘開辟了一條新路,云計(jì)算提供一個(gè)虛擬的平臺(tái),用戶可以在任何地區(qū)運(yùn)用任何終端選擇自己想要的數(shù)據(jù),而大規(guī)模的數(shù)據(jù)本身就存在一些問題,數(shù)據(jù)挖掘存在難度,本文就云計(jì)算的數(shù)據(jù)挖掘進(jìn)行具體的分析如下:
1 云計(jì)算概述
一直以來云計(jì)算都沒有一個(gè)統(tǒng)一明確的定義,根據(jù)多數(shù)人對(duì)云計(jì)算的定義,總結(jié)出以下兩方面:(1)云計(jì)算通俗一點(diǎn)說就是一個(gè)資源盤,其擁有數(shù)以萬計(jì)的可用虛擬資源,有些虛擬資源擁有不同的負(fù)載量,云計(jì)算的優(yōu)勢(shì)就是可用將這些負(fù)載量不同的資源進(jìn)行新的合理分配;(2)就用戶而言云計(jì)算的服務(wù)是方便簡(jiǎn)單的,且透明化,用戶的最終目的是在云計(jì)算中獲取想要的數(shù)據(jù)和服務(wù),用戶不用在意云計(jì)算本身的運(yùn)行機(jī)制,然而云計(jì)算的系統(tǒng)也是存在隱患的,如果一個(gè)規(guī)模龐大的計(jì)算機(jī)群在運(yùn)作的過程中仍然不間斷的增加計(jì)算機(jī)的數(shù)量,那么云計(jì)算系統(tǒng)可能會(huì)出錯(cuò)甚至系統(tǒng)崩潰,可見單純依靠硬件設(shè)施是不可取的,此時(shí)需要可靠的軟件發(fā)揮作用,需使用冗余和分布式存儲(chǔ)的方式,云計(jì)算系統(tǒng)另一個(gè)優(yōu)勢(shì)就是擁有自我檢測(cè)系統(tǒng)模式,該模式在不影響正常運(yùn)行的情況下,可以檢測(cè)出無效節(jié)點(diǎn)并進(jìn)行刪除,總之,云計(jì)算系統(tǒng)數(shù)據(jù)多、存儲(chǔ)能力強(qiáng)、計(jì)算能力快且準(zhǔn)確率高,給用戶帶來高效、優(yōu)質(zhì)的服務(wù)。
經(jīng)過一直以來對(duì)云計(jì)算的研究總結(jié)其特點(diǎn)有五個(gè)方面,分別是虛擬化、通用性、擴(kuò)展性強(qiáng)且規(guī)模大、可靠性高、經(jīng)濟(jì)性好等特點(diǎn),具體來說就是云計(jì)算不是個(gè)實(shí)物,是個(gè)虛擬的擁有海量數(shù)據(jù)的平臺(tái),用戶可以在世界的任何位置通過任何終端獲取想要的數(shù)據(jù)信息和服務(wù);云計(jì)算沒有局限性,在云計(jì)算下可以構(gòu)建出不同的應(yīng)用,而且這些應(yīng)用可同時(shí)運(yùn)行;在不影響用戶正常使用的情況下,云計(jì)算是可以擴(kuò)展的,而且是動(dòng)態(tài)擴(kuò)展,現(xiàn)今最多可擴(kuò)展幾十萬臺(tái)電腦,整個(gè)擴(kuò)展過程用戶是可以看到的,是對(duì)外的;為了保證服務(wù)的質(zhì)量和可靠性,云計(jì)算運(yùn)用了多種方法如多副本容錯(cuò)和多計(jì)算節(jié)點(diǎn)同構(gòu)可互換等;云計(jì)算由于自身的優(yōu)勢(shì)運(yùn)用大量廉價(jià)節(jié)點(diǎn)構(gòu)成云,采用自動(dòng)化集中式管理機(jī)制,解決企業(yè)高昂的數(shù)據(jù)中心成本,較于傳統(tǒng)系統(tǒng)云計(jì)算系統(tǒng)成本較低。
2 數(shù)據(jù)挖掘的方式
數(shù)據(jù)挖掘是一個(gè)循環(huán)反復(fù)、不斷調(diào)整和修改的過程,這個(gè)過程漫長且復(fù)雜。從數(shù)據(jù)預(yù)處理到數(shù)據(jù)挖掘再到評(píng)估和表示這是數(shù)據(jù)挖掘的整個(gè)過程,數(shù)據(jù)挖掘的過程中方法很多,歸納如下:(1)廣義知識(shí)挖掘,廣義知識(shí)被挖掘出來后,與可視化技術(shù)相結(jié)合,用戶可以直觀的通過圖表形式來了解;(2)關(guān)聯(lián)知識(shí)挖掘;(3)類知識(shí)挖掘,分分類和聚類兩種。決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、支持向量機(jī)、遺傳算法與進(jìn)化理論、粗糙集、關(guān)聯(lián)分類、類比學(xué)習(xí)、模糊集等為分類法。聚類法包括五種,分別是基于劃分、密度、層次、模型及網(wǎng)格的不同方法;(4)預(yù)測(cè)型知識(shí)挖掘,包括一些方法和技術(shù),方法有經(jīng)典的統(tǒng)計(jì)方法,技術(shù)包括神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)技術(shù);(5)特異型知識(shí)挖掘,所謂特異型指特殊的背離常規(guī)的異常規(guī)律。包括三個(gè)類別,分別是孤立點(diǎn)分析、序列異常分析和特異規(guī)則發(fā)現(xiàn);(6)自定義數(shù)據(jù)挖掘算法。
數(shù)據(jù)挖掘的過程以及方法可以通過圖1直觀的了解。
3 基于云的數(shù)據(jù)挖掘平臺(tái)架構(gòu)
針對(duì)傳統(tǒng)數(shù)據(jù)挖掘平臺(tái)而言,云計(jì)算的產(chǎn)生對(duì)其影響很大,云計(jì)算的分布式存儲(chǔ)和計(jì)算使數(shù)據(jù)挖掘開始變革,數(shù)據(jù)挖掘云服務(wù)只有基于云計(jì)算平臺(tái)才能得以實(shí)現(xiàn),其設(shè)計(jì)思想是分層設(shè)計(jì),思路是面向組件設(shè)計(jì),整個(gè)平臺(tái)自下向上分為三層,最下面一層也是最基礎(chǔ)的一層是云計(jì)算支撐平臺(tái)層,再往上一層是數(shù)據(jù)挖掘能力層,最頂層是數(shù)據(jù)挖掘云服務(wù)層。
云計(jì)算支撐平臺(tái)層的功能主要是提供數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算,最底層構(gòu)建可以以企業(yè)自主研發(fā)的云計(jì)算平臺(tái)為基礎(chǔ) ,也可以以第三方提供的云計(jì)算平臺(tái)為基礎(chǔ)。
數(shù)據(jù)挖掘能力層的能力有算法服務(wù)管理、調(diào)度引起、數(shù)據(jù)并行處理框架等,這些都是基礎(chǔ)能力,數(shù)據(jù)挖掘能力層支撐著它的上一層(數(shù)據(jù)挖掘云服務(wù)層)。這層不但支持內(nèi)部數(shù)據(jù)挖掘算法和推薦算法庫,對(duì)于外在的第三方數(shù)據(jù)挖掘算數(shù)法也可以接入。
最頂層數(shù)據(jù)挖掘云服務(wù)層的主要功能是為外在企業(yè)和個(gè)人提供數(shù)據(jù)挖掘云服務(wù),其涵蓋多種多樣的服務(wù)能力封裝的接口形式,例如針對(duì)于簡(jiǎn)單對(duì)象的訪問協(xié)議簡(jiǎn)稱SOAP的XML等,本地應(yīng)用程序編程接口也是其形式之一,基于結(jié)構(gòu)化查詢語言語句的訪問在數(shù)據(jù)挖掘云服務(wù)層也是支持的,同時(shí)此層還提供解析引擎和自動(dòng)調(diào)用云服務(wù)。
總之,基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)從很多方面是優(yōu)于傳統(tǒng)數(shù)據(jù)挖掘平臺(tái)的,如大規(guī)模數(shù)據(jù)處理能力、數(shù)據(jù)動(dòng)態(tài)擴(kuò)展能力以及低廉的云服務(wù)和成本等。
4 云計(jì)算關(guān)鍵技術(shù)
如今大量數(shù)據(jù)挖掘最直接有效的方法是分布式計(jì)算方法,這個(gè)方法包括兩部分一部分是分布式數(shù)據(jù)存儲(chǔ),一部分是分布式并行計(jì)算,現(xiàn)在的云計(jì)算平臺(tái)已經(jīng)涵蓋了這兩部分的能力,這兩部分是云計(jì)算數(shù)據(jù)挖掘平臺(tái)的核心支撐能力,GFS、KFS、HDFS等三種分布式文件系統(tǒng)是目前比較受歡迎的分布式文件系統(tǒng),Google公司的分布式文件系統(tǒng)理論是三者的理論基礎(chǔ),KFS、HDFS兩種分布式文件系統(tǒng)多被用于商業(yè)和學(xué)術(shù)領(lǐng)域。
分布式并行計(jì)算框架在分布式計(jì)算方法中非常重要,其在計(jì)算過程中封裝了一些技術(shù)細(xì)節(jié),如任務(wù)調(diào)度、任務(wù)容錯(cuò)等,這樣便捷了用戶,用戶只要把握好任務(wù)間的邏輯關(guān)系,不必注意這些技術(shù)細(xì)節(jié),目前較為廣泛應(yīng)用的分布式計(jì)算框架有并行計(jì)算框架Mapreduce和迭代處理計(jì)算框架Pregel這兩者都由谷歌公司提出,還有微軟公司研發(fā)的Dryad。
5 結(jié)束語
隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來,海量復(fù)雜的數(shù)據(jù)處理與數(shù)據(jù)挖掘困擾著各大運(yùn)營商,與傳統(tǒng)數(shù)據(jù)系統(tǒng)相比,云計(jì)算優(yōu)勢(shì)明顯,強(qiáng)大動(dòng)態(tài)擴(kuò)展能力、獨(dú)特的分布式存儲(chǔ)和計(jì)算方法、以及低廉的成本優(yōu)勢(shì)吸引了越來越多企業(yè)和個(gè)人,基于云的數(shù)據(jù)挖掘平臺(tái),企業(yè)和運(yùn)行商都因此減少了數(shù)據(jù)挖掘方面的資金投入,對(duì)這些企業(yè)來說無疑是減小了生產(chǎn)成本。
參考文獻(xiàn):
[1]丁巖,楊慶平,錢煜明.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013(01).
[2]黃章樹,劉晴晴.基于云計(jì)算服務(wù)模式的數(shù)據(jù)挖掘應(yīng)用平臺(tái)的構(gòu)建[J].電信科學(xué),2012(01).
作者單位:遼寧行政學(xué)院,沈陽 110161