楊曉丹
摘 要:隨著中國信息技術(shù)的快速發(fā)展,出現(xiàn)了一種由互聯(lián)網(wǎng)為基礎(chǔ)的業(yè)務(wù)模式,叫做云計(jì)算。云計(jì)算業(yè)務(wù)發(fā)展的關(guān)鍵在于互聯(lián)網(wǎng)發(fā)展水平和網(wǎng)絡(luò)質(zhì)量,本文將從云計(jì)算入手,具體剖析大數(shù)據(jù)挖掘的內(nèi)涵及大數(shù)據(jù)挖掘構(gòu)建體系,研究大數(shù)據(jù)挖掘基于傳統(tǒng)數(shù)據(jù)挖掘的對(duì)策。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù)挖掘;內(nèi)涵;對(duì)策
隨著信息技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算滲入到人們的生活中來,海量信息鋪天蓋地而來,推動(dòng)著大數(shù)據(jù)的高速發(fā)展,迎來了大數(shù)據(jù)時(shí)代。目前,大數(shù)據(jù)已經(jīng)成為一種重要的生產(chǎn)要素,基于云計(jì)算技術(shù),數(shù)據(jù)擁有豐富的資源信息及巨大的儲(chǔ)存量,大數(shù)據(jù)面臨著機(jī)遇和挑戰(zhàn)。這個(gè)時(shí)候,大數(shù)據(jù)挖掘的出現(xiàn)給大數(shù)據(jù)面臨的挑戰(zhàn)帶來了希望,即利用大數(shù)據(jù)挖掘來應(yīng)對(duì)挑戰(zhàn)[1]。但是,大數(shù)據(jù)的構(gòu)建沒有完善,仍然無法滿足客戶的需求,在尋求解決措施的過程中,障礙重重。需要對(duì)大數(shù)據(jù)挖掘進(jìn)行詳細(xì)地分析,探討出相應(yīng)的對(duì)策。本文將從大數(shù)據(jù)挖掘的內(nèi)涵入手,剖析出基于云計(jì)算的大數(shù)據(jù)挖掘?qū)Σ撸瑤椭髷?shù)據(jù)挖掘直面挑戰(zhàn),推動(dòng)大數(shù)據(jù)更好更快地發(fā)展,滿足客戶的需求服務(wù)。
一、大數(shù)據(jù)挖掘的內(nèi)涵
大數(shù)據(jù)挖掘?qū)嶋H上是從類型豐富、動(dòng)態(tài)更新、高密度、價(jià)值低的大數(shù)據(jù)中替客戶挖掘出一些有價(jià)值的、潛在的信息,滿足客戶的需求,服務(wù)于客戶。大數(shù)據(jù)挖掘的真正目的就是挖掘出有價(jià)值的信息。筆者將從大數(shù)據(jù)的發(fā)展背景及現(xiàn)狀、處理對(duì)象、挖掘程度來剖析大數(shù)據(jù)挖掘的內(nèi)涵,對(duì)大數(shù)據(jù)挖掘進(jìn)一步了解、認(rèn)識(shí)。
(一)大數(shù)據(jù)的發(fā)展背景及現(xiàn)狀
目前是科學(xué)技術(shù)飛速發(fā)展的時(shí)代,網(wǎng)絡(luò)信息技術(shù)遍布世界各地,使人們?cè)絹碓诫x不開網(wǎng)絡(luò)。但面對(duì)鋪天蓋地的信息,人們要怎樣有高效率地獲取有用的信息進(jìn)行學(xué)習(xí)、工作、生活呢?這是大數(shù)據(jù)時(shí)代急需解決的重大問題。大數(shù)據(jù)挖掘具備大體積量、復(fù)雜多變的特征,其處理分析能力較傳統(tǒng)數(shù)據(jù)挖掘有著很大的差別,大數(shù)據(jù)現(xiàn)在已經(jīng)能夠獨(dú)立發(fā)展甚至擁有更加廣闊的發(fā)展空間。在互聯(lián)網(wǎng)、云計(jì)算及移動(dòng)智能終端的幫助下能夠更好地進(jìn)行數(shù)據(jù)挖掘和發(fā)展。如今,雖然大數(shù)據(jù)挖掘在應(yīng)用成熟度上明顯優(yōu)于傳統(tǒng)的數(shù)據(jù)挖掘,但對(duì)于大數(shù)據(jù)挖掘的研究仍處于不斷改進(jìn)完善的過程中,大數(shù)據(jù)挖掘仍然需要借助云計(jì)算的幫助及其他相關(guān)的技術(shù)來實(shí)現(xiàn)成熟應(yīng)用。
(二)大數(shù)據(jù)的處理對(duì)象
大數(shù)據(jù)挖掘的成長(zhǎng)背景與傳統(tǒng)的大數(shù)據(jù)挖掘成長(zhǎng)背景截然不同,因此,其處理對(duì)象也是不同的。大數(shù)據(jù)挖掘的范圍十分廣泛,除了需要對(duì)管理信息系統(tǒng)和Web信息系統(tǒng)的數(shù)據(jù)進(jìn)行處理外,還要對(duì)一些類似于感知信息系統(tǒng)的傳感設(shè)備信息進(jìn)行處理探究。大數(shù)據(jù)挖掘充分地體現(xiàn)了其數(shù)據(jù)來源范圍廣泛、儲(chǔ)存量大、類型豐富多樣等特點(diǎn)[2]。正式因?yàn)槿绱?,大?shù)據(jù)挖掘?qū)π畔⒌牟杉艜?huì)更加自由,沒有局限性,數(shù)據(jù)收集范圍十分廣泛,處理時(shí)效快,但同時(shí)大數(shù)據(jù)挖掘的數(shù)據(jù)精確度不是很高。
(三)大數(shù)據(jù)的挖掘程度
大數(shù)據(jù)憑借著自己數(shù)據(jù)來源范圍廣泛、獲取信息速度快、能夠依靠云計(jì)算平臺(tái)的優(yōu)勢(shì)來實(shí)現(xiàn)大數(shù)據(jù)挖掘。面對(duì)多種渠道的海量信息,以及多種多樣的類型和模式多樣化的數(shù)據(jù),大數(shù)據(jù)挖掘可以利用云計(jì)算技術(shù)來實(shí)現(xiàn)數(shù)據(jù)挖掘處理,能夠?qū)⒒靵y的數(shù)據(jù)借助云計(jì)算形成多種多樣的計(jì)算模式和計(jì)算方法,形成多維度分析,使信息采集更加全面、有價(jià)值[3]。有了元計(jì)算技術(shù)的幫助,大數(shù)據(jù)挖掘可以憑借云平臺(tái)挖掘更多有價(jià)值的信息和知識(shí),同時(shí),大數(shù)據(jù)還可以與一些相關(guān)技術(shù)進(jìn)行技術(shù)融合或者相互合作學(xué)習(xí),促進(jìn)大數(shù)據(jù)挖掘進(jìn)一步發(fā)展。
二、基于云計(jì)算的大數(shù)據(jù)挖掘?qū)Σ?/p>
(一)建立健全的挖掘體系結(jié)構(gòu)
大數(shù)據(jù)挖掘的過程中,數(shù)據(jù)挖掘流程十分重要。大數(shù)據(jù)挖掘著重分為三個(gè)層次:支撐平臺(tái)層、功能層、服務(wù)層[4]。支撐平臺(tái)層包括對(duì)大數(shù)據(jù)的融合以及預(yù)處理,計(jì)算資源及存儲(chǔ)資源。其中計(jì)算資源包括分布式、流式、內(nèi)存、迭代、圖并行計(jì)算;存儲(chǔ)資源包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、傳統(tǒng)數(shù)據(jù)庫等。功能層便是根據(jù)客戶的實(shí)際需求與偏好來人性化挖掘,包括查詢語言、分析工具、搜索推薦引擎、挖掘工具、智能工具,這些都是憑借云平臺(tái)的幫助來進(jìn)行計(jì)算統(tǒng)計(jì)的,具備很強(qiáng)的可伸縮性以及可擴(kuò)展性。服務(wù)層是一個(gè)與客戶相互認(rèn)知的過程,包括人機(jī)交互技術(shù)、數(shù)據(jù)源技術(shù)、可視化工具等[5]。
綜上所述,大數(shù)據(jù)挖掘體系結(jié)構(gòu)需要系統(tǒng)化,層層關(guān)系緊密聯(lián)系在一起,將支撐平臺(tái)層、功能層、服務(wù)層相互交融、相互滲透,充分發(fā)揮各層、各個(gè)功能、各項(xiàng)技術(shù)的作用,形成一個(gè)巨大的計(jì)算體系結(jié)構(gòu),實(shí)時(shí)挖掘出更多更有價(jià)值的信息,以最優(yōu)的數(shù)據(jù)資源服務(wù)于客戶,帶動(dòng)大數(shù)據(jù)挖掘更快更好地發(fā)展。
(二)云平臺(tái)聯(lián)合挖掘體系使用
在這個(gè)信息發(fā)展迅速的時(shí)代,傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足客戶的需求。為了能夠提高大數(shù)據(jù)挖掘的存儲(chǔ)量,提升大數(shù)據(jù)挖掘?qū)π畔⑻幚淼奶幚砟芰?,云?jì)算充分發(fā)揮了自身擴(kuò)展性、彈性大、虛擬化的優(yōu)勢(shì),給予大數(shù)據(jù)挖掘十分強(qiáng)大的動(dòng)力[6]。分布式文件存儲(chǔ)、分布式數(shù)據(jù)庫存儲(chǔ)便是云技術(shù)的核心技術(shù)。分布式數(shù)據(jù)庫系統(tǒng)包括事務(wù)性、分析型兩種數(shù)據(jù)庫,事務(wù)性數(shù)據(jù)庫包括NOSQL系統(tǒng)和NEWSQL系統(tǒng),具體來說就是鍵值系統(tǒng)、文件存儲(chǔ)系統(tǒng)、圖數(shù)據(jù)庫、基于內(nèi)存的數(shù)據(jù)庫[7];分析型數(shù)據(jù)庫主要是基于MapRedue、Hadoop的數(shù)據(jù)庫。這些都能為海量的數(shù)據(jù)提供足夠的存儲(chǔ)空間,科學(xué)合理的計(jì)算模式,降低計(jì)算的難度和復(fù)雜性,提升數(shù)據(jù)處理效率。現(xiàn)在,大部分知名的企業(yè)都將云計(jì)算作為支撐動(dòng)力,開發(fā)出一系列的大數(shù)據(jù)挖掘解決對(duì)策,如Google、微軟、IBM.、Pig、Hive等。因此,云計(jì)算的利用對(duì)大數(shù)據(jù)挖掘有著重要的意義,應(yīng)充分利用云計(jì)算的優(yōu)勢(shì)聯(lián)合健全的挖掘體系,實(shí)現(xiàn)二者相互交融,相互借鑒,探究出更多高效的大數(shù)據(jù)挖掘解決對(duì)策。
(三)實(shí)行大數(shù)據(jù)預(yù)處理
實(shí)行大數(shù)據(jù)預(yù)處理主要是將MapReduce作為原始的預(yù)處理技術(shù)中,靈活運(yùn)用類似于Flume、Sqoop的流式計(jì)算技術(shù)及一些數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)移,從而提升預(yù)處理過程中一系列功能,包括并行、迭代計(jì)算等。以MapReduce作為支撐,可以實(shí)現(xiàn)高效的大數(shù)據(jù)預(yù)處理,可以把歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)同步處理,但其中要提高對(duì)數(shù)據(jù)的完整性和精確度的重視,改善大數(shù)據(jù)處理數(shù)據(jù)不準(zhǔn)確、不完整的缺點(diǎn),提高可信度。endprint
(四)強(qiáng)化數(shù)據(jù)展示
最原始的數(shù)據(jù)挖掘展示大部分都是以文本、圖標(biāo)的形式來展示數(shù)據(jù)結(jié)果,如餅狀圖、散點(diǎn)圖、柱狀圖、散點(diǎn)圖、Cain Lift圖、ROC圖等。傳統(tǒng)的數(shù)據(jù)挖掘局限性很多,如信息采集渠道不夠、數(shù)據(jù)結(jié)果的展示不夠直觀,導(dǎo)致大部分顧客無法對(duì)其輕松理解[8]。而基于云計(jì)算的大數(shù)據(jù)挖掘的數(shù)據(jù)結(jié)果展示便截然不同,大數(shù)據(jù)挖掘的數(shù)據(jù)結(jié)果展示更加具備直觀性、清晰明了的特點(diǎn),客戶能夠很容易接受認(rèn)可,也便于客戶理解。大數(shù)據(jù)挖掘的數(shù)據(jù)結(jié)果展示方法多種多樣,如可將數(shù)據(jù)做成動(dòng)畫的形式展現(xiàn)給客戶,這樣可以使客戶的直觀感受更加強(qiáng)烈;利用圖像與聲音的結(jié)合,給予客戶聽覺和視覺的享受,使其發(fā)現(xiàn)并領(lǐng)會(huì)動(dòng)畫中所表達(dá)的數(shù)據(jù)價(jià)值。此外,還可利用可視化仿真系統(tǒng),構(gòu)建三維圖像,進(jìn)行豐富多樣的人機(jī)交互形式??梢暬夹g(shù)能夠清晰地展示出一些社交網(wǎng)絡(luò)關(guān)系圖,對(duì)其有專門設(shè)計(jì)的圖像展示,針對(duì)有知名度的對(duì)象進(jìn)行明確的標(biāo)識(shí)、詳細(xì)地分類,群分社交成員,充分展現(xiàn)了事物的歷史發(fā)展歷程及空間變化等。
(五)擴(kuò)大數(shù)據(jù)儲(chǔ)存
數(shù)據(jù)存儲(chǔ)實(shí)際上就是對(duì)靜止數(shù)據(jù)的保留和反映。常用的數(shù)據(jù)儲(chǔ)存介質(zhì)有兩種,一種是磁盤,另一種是磁帶,但這些都有很大的局限性,一般無法滿足客戶的需求量。云儲(chǔ)存的出現(xiàn)彌補(bǔ)了這一缺憾。云儲(chǔ)存實(shí)際上就是云計(jì)算,云計(jì)算通過集群應(yīng)用、網(wǎng)絡(luò)操作等進(jìn)行信息的儲(chǔ)存運(yùn)用,最后以云服務(wù)的形式展示給客戶,這是一種十分新鮮且便捷的方案??蛻艨勺叩饺魏我粋€(gè)地點(diǎn),不分時(shí)間差異,只要客戶在一個(gè)有網(wǎng)絡(luò)的環(huán)境當(dāng)中,登錄自己用戶賬號(hào),都能方便客戶讀取云盤上的數(shù)據(jù)或者存儲(chǔ)數(shù)據(jù),有效地進(jìn)行數(shù)據(jù)管理。云儲(chǔ)存離不開網(wǎng)絡(luò),我們需要知道網(wǎng)絡(luò)一般用云圖來表示網(wǎng)絡(luò)的結(jié)構(gòu),它是通過集群功能及分布式文件系統(tǒng)來將網(wǎng)絡(luò)聯(lián)合起來共同工作,并且運(yùn)用一些APP軟件、APP接口來實(shí)現(xiàn)客戶通過用戶賬號(hào)登錄進(jìn)行數(shù)據(jù)儲(chǔ)存使用的。
三、結(jié)語
在這個(gè)科技發(fā)達(dá)、信息高速流通的社會(huì),人們利用大數(shù)據(jù)實(shí)現(xiàn)了人與人之間的緊密聯(lián)系。大數(shù)據(jù)給人們的生活、工作、學(xué)習(xí)帶來了巨大的改變和便利。人們?cè)诿鎸?duì)海量的、種類繁雜的信息難以決策時(shí),大數(shù)據(jù)挖掘給予人們數(shù)據(jù)存儲(chǔ)服務(wù)和訪問服務(wù),有效解決了人們對(duì)海量信息難以決策的問題。大數(shù)據(jù)挖掘出海量信息中的潛在價(jià)值,其數(shù)據(jù)來源范圍十分廣泛,擴(kuò)展性、智能性強(qiáng),而且對(duì)于信息采集還十分高效,云服務(wù)還展現(xiàn)了其強(qiáng)大的儲(chǔ)存力量及其便捷性。盡管現(xiàn)在大數(shù)據(jù)挖掘的發(fā)展還十分可觀,但是還面臨著分享、隱私安全等問題,仍然需要努力研究探索出解決方案,完善大數(shù)據(jù)挖掘。
參考文獻(xiàn)
[1]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015,(7):103-108.
[2]朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書館的挑戰(zhàn)及其應(yīng)對(duì)策略[J].現(xiàn)代情報(bào),2013,(5):9-13.
[3]郭群.基于云計(jì)算下大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用研究[J].福建電腦,2016,(6):131-132.
[4]王善勤,吳昌雨,陳業(yè)斌.大數(shù)據(jù)挖掘技術(shù)在高校專業(yè)內(nèi)涵建設(shè)中的應(yīng)用研究[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,(5):827-830.
[5]李禎.大數(shù)據(jù)時(shí)代高校圖書館信息資源建設(shè)對(duì)策研究[J].大學(xué)圖書情報(bào)學(xué)刊,2017,(1):36-40.
[6]侯錫林,李天柱,馬佳,等.大數(shù)據(jù)環(huán)境下企業(yè)創(chuàng)新機(jī)會(huì)研究[J].科技進(jìn)步與對(duì)策,2014, (24):82-86.
[7]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,(6):957-972.
[8]陳勇.一種基于云計(jì)算的大數(shù)據(jù)關(guān)聯(lián)規(guī)律挖掘分析方法[J].無線電工程,2017,(3):8-11.endprint