摘 要:如今的信息化社會(huì)當(dāng)中,每十八個(gè)人之間形成的數(shù)據(jù)量就能夠等同于歷史幾千年所形成的數(shù)據(jù)量總和,而且這種數(shù)據(jù)量還呈現(xiàn)出了非常明顯的增加的趨勢(shì)。那么,面對(duì)如此巨大的數(shù)據(jù)量,它在給人們帶來(lái)非常廣闊的信息內(nèi)容以及信息結(jié)構(gòu)的基礎(chǔ)上也帶來(lái)了很多挑戰(zhàn),本文將嘗試對(duì)云計(jì)算平臺(tái)當(dāng)中的海量數(shù)據(jù)挖掘功能進(jìn)行了闡述,總結(jié)其中的一些不足,嘗試提出解決策略。
關(guān)鍵詞:云計(jì)算;海量數(shù)據(jù)挖掘;探究
DOI:10.16640/j.cnki.37-1222/t.2016.08.127
云計(jì)算的效率較高、可用價(jià)值也比較大,而且其消耗成本也相對(duì)較低,將其引入到挖掘數(shù)據(jù)的工作當(dāng)中是比較可靠的,本文將就此展開探究分析。
1 在云計(jì)算環(huán)境當(dāng)中并行計(jì)算模型概述
谷歌實(shí)驗(yàn)室曾經(jīng)提出了一個(gè)計(jì)算模型或者框架,能夠很好地應(yīng)用在大范圍數(shù)據(jù)處理的工作當(dāng)中,即Map Reduce,一個(gè)正常的Map Reduce作業(yè)是由很多的Map以及很多Reduce來(lái)組成的,它可以很好的將大規(guī)模處理數(shù)據(jù)的作業(yè)轉(zhuǎn)移成若干個(gè)Map任務(wù),隨后分配到各個(gè)機(jī)器當(dāng)中執(zhí)行,最后生成中間文件,Reduce負(fù)責(zé)合并中間文件并獲得輸出文件。
這種技術(shù)能夠?qū)⒒ヂ?lián)網(wǎng)當(dāng)中大量的數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆纸?,使之成為大小完全相同的小?shù)據(jù)塊,同時(shí)令其均勻地分布在云計(jì)算的網(wǎng)絡(luò)當(dāng)中的各服務(wù)器當(dāng)中,最后使用Map Reduce并行計(jì)算模型。
2 在云計(jì)算基礎(chǔ)上進(jìn)行的大量數(shù)據(jù)挖掘
2.1 挖掘數(shù)據(jù)
所謂數(shù)據(jù)挖掘,換言之就是在數(shù)據(jù)庫(kù)當(dāng)中發(fā)現(xiàn)知識(shí)的過程,也就是從海量的數(shù)據(jù)當(dāng)中尋找到新穎且有效、潛在性較強(qiáng)、可以被理解的模式這樣的過程。在云計(jì)算基礎(chǔ)之上進(jìn)行挖掘的方式是比較合理的,數(shù)據(jù)中心能夠存儲(chǔ)大量的數(shù)據(jù),同時(shí)還可以結(jié)合挖掘數(shù)據(jù)的需求來(lái)進(jìn)行資源的動(dòng)態(tài)分配,使用恰當(dāng)?shù)娜蒎e(cuò)機(jī)制進(jìn)行數(shù)據(jù)挖掘的可靠性的保障。
2.2 在云計(jì)算基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢(shì)
第一,能夠很好地展開分布式的并行數(shù)據(jù)挖掘工作,以此來(lái)實(shí)現(xiàn)高效且實(shí)時(shí)的挖掘工作,還可以與不同規(guī)模的組織相互適配,為中型以及小型企業(yè)帶來(lái)各種新型成本的計(jì)算大環(huán)境,在這樣的平臺(tái)當(dāng)中針對(duì)一些特殊的數(shù)據(jù)進(jìn)行計(jì)算,能夠降低高性能、大型機(jī)的依賴性。
第二,開發(fā)方便,對(duì)用戶而言,不需要考慮劃分?jǐn)?shù)據(jù)以及分配數(shù)據(jù)。
第三,并行化條件背景下,使用原有設(shè)備,在一定程度上提升對(duì)數(shù)據(jù)進(jìn)行大規(guī)模處理的能力,同時(shí)還提升了容錯(cuò)性以及自由地增加節(jié)點(diǎn)等性能。
第四,在云計(jì)算基礎(chǔ)之上進(jìn)行數(shù)據(jù)挖掘能夠很好地保證挖掘方式的共享性,大大降低了進(jìn)行數(shù)據(jù)挖掘的應(yīng)用門檻,令海量數(shù)據(jù)的挖掘需求獲得了極大滿足。
2.3 云計(jì)算基礎(chǔ)上挖掘海量數(shù)據(jù)的模型
在云計(jì)算基礎(chǔ)上進(jìn)行海量數(shù)據(jù)的挖掘服務(wù),其挖掘模型基本上可以分成三層,從下到上依次是:云計(jì)算服務(wù)層、數(shù)據(jù)挖掘處理層(其中包括預(yù)處理以及算法并行化)、用戶層,如下圖(圖1)所示。
第一,云計(jì)算服務(wù)層:提供比較良好的并行數(shù)據(jù)處理功能以及對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)的功能,不但能夠保證所存儲(chǔ)的數(shù)據(jù)的可用性,同時(shí)還可以保證數(shù)據(jù)的安全性,比較常見的是非開源GFS以及開源HDFS。
第二,數(shù)據(jù)挖掘處理層:對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,預(yù)處理后數(shù)據(jù)可以顯著地提升挖掘結(jié)果的實(shí)際質(zhì)量,令挖掘更有效且更加方便。
第三 ,用戶層:接受用戶方的需求,同時(shí)將這種需求傳遞給服務(wù)層以及處理層,挖掘信息后將結(jié)果反饋給用戶。在這一過程當(dāng)中,用戶可以借助可視化管理來(lái)監(jiān)督任務(wù)執(zhí)行,同時(shí)還可以在短時(shí)間內(nèi)很方便地進(jìn)行任務(wù)結(jié)果的查看。
3 在云計(jì)算基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘的模型尚且存在的不足之處
3.1 需求上的問題
在云計(jì)算基礎(chǔ)之上進(jìn)行數(shù)據(jù)挖掘,隨著時(shí)代的發(fā)展和進(jìn)步終究會(huì)成為一種非常普遍的服務(wù)方式,自然要面對(duì)呈現(xiàn)出更加多樣性以及個(gè)性的需求。就現(xiàn)階段來(lái)說尚且不能滿足這種趨勢(shì)。
3.2 數(shù)據(jù)量的問題
就數(shù)據(jù)的數(shù)量而言,服務(wù)器需要處理的信息數(shù)量可能要達(dá)到TB甚至超越它到達(dá)PB級(jí),而這將會(huì)給數(shù)據(jù)處理帶來(lái)更大的挑戰(zhàn)。
3.3 選擇算法的問題
是否能夠選擇最合適的計(jì)算方式以及相對(duì)的策略來(lái)完成任務(wù)在云計(jì)算運(yùn)轉(zhuǎn)的過程中是非常關(guān)鍵的,另外,設(shè)計(jì)算法以及調(diào)節(jié)參數(shù),都可能會(huì)對(duì)最終結(jié)果產(chǎn)生非常顯著的影響。
3.4 不確定性的問題
在進(jìn)行數(shù)據(jù)挖掘的過程當(dāng)中很可能會(huì)出現(xiàn)很多的不確定性,而數(shù)據(jù)挖掘的最終目的就是把不確定性可能會(huì)造成的影響降到最低。通常來(lái)說這些不確定性主要有挖掘數(shù)據(jù)任務(wù)過程中描述的不確定性、采集數(shù)據(jù)并預(yù)處理的時(shí)候出現(xiàn)的不確定性、挖掘方式的選擇以及最終結(jié)果存在的不確定性等等。
4 如何開展后續(xù)工作
構(gòu)建平臺(tái):充分地結(jié)合多樣化以及個(gè)性化的需求,同時(shí)適當(dāng)結(jié)合各個(gè)領(lǐng)域、行業(yè)之間的特征,打造出專屬的挖掘數(shù)據(jù)的云平臺(tái);加大研發(fā):虛擬化技術(shù)帶來(lái)了非常理想的技術(shù)支持,因此,在開發(fā)云平臺(tái)的過程當(dāng)中,需要適當(dāng)?shù)靥嵘槍?duì)虛擬化技術(shù)進(jìn)行的研發(fā),同時(shí)促進(jìn)其成果更加廣泛地使用,以便能夠?qū)崿F(xiàn)更高效的自主分配資源;結(jié)合實(shí)際:進(jìn)行云服務(wù)的相關(guān)產(chǎn)品研發(fā)過程當(dāng)中,需要適當(dāng)?shù)亟Y(jié)合社會(huì)需求,同時(shí)引導(dǎo)群眾參與到其中來(lái),能夠更好地促進(jìn)數(shù)據(jù)個(gè)性化發(fā)展;算法通用:在可信性上,算法最好選擇有通用性的算法,同時(shí)保證隨時(shí)檢查以及調(diào)整;信息安全:對(duì)于數(shù)據(jù)信息安全的問題,絕對(duì)不能像普通的信息安全一樣進(jìn)行簡(jiǎn)單的直接加密,需要結(jié)合客戶的實(shí)際需求,令其可以在自身的平臺(tái)終端當(dāng)中借助適當(dāng)?shù)募用芊绞絹?lái)進(jìn)行數(shù)據(jù)保護(hù)工作。
5 結(jié)語(yǔ)
云存儲(chǔ)平臺(tái)當(dāng)中數(shù)據(jù)量不斷增加,傳統(tǒng)數(shù)據(jù)挖掘方式漸漸地已經(jīng)無(wú)法與時(shí)代相適應(yīng),也無(wú)法挖掘數(shù)據(jù)當(dāng)中所包含的內(nèi)在信息了,因此,對(duì)于挖掘數(shù)據(jù)庫(kù)的工作也提出了更加全面的要求,進(jìn)行云計(jì)算以及處理的系統(tǒng)擁有對(duì)海量的信息進(jìn)行存儲(chǔ)以及變化的能力,可以成功發(fā)掘內(nèi)在資源,其將會(huì)成為處理大量數(shù)據(jù)信息的最好的挖掘模式。
參考文獻(xiàn):
[1]李凱,常征.基于云計(jì)算的并行數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].微計(jì)算機(jī)信息,2011(06).
[2]賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(02).
[3]嚴(yán)駿.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].信息與電腦:理論版,2013(04).
[4]丁巖,楊慶平,錢煜明.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013(01).
[5]王鵬,王健安,郭暢等.基于云計(jì)算及數(shù)據(jù)挖掘技術(shù)的海量數(shù)據(jù)處理研究[J].長(zhǎng)春理工大學(xué)學(xué)報(bào):自然科學(xué)版,2013(06).
作者簡(jiǎn)介:王治學(xué)(1981-),男,寧夏固原人,碩士,講師,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)及軟件工程。