張婧
摘 要 本文從大數(shù)據(jù)與數(shù)據(jù)挖掘的概念入手,闡述了大數(shù)據(jù)與數(shù)據(jù)挖掘的來(lái)源、方法及技術(shù)體系。并從數(shù)據(jù)和使用工具方面比較了大數(shù)據(jù)與數(shù)據(jù)挖掘的異同,最后歸納總結(jié)了大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的發(fā)展趨勢(shì)及重要意義。
關(guān)鍵詞 大數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)分析
中圖分類號(hào):TP391. 7 文獻(xiàn)標(biāo)識(shí)碼:A
1引言
自2012年3月奧巴公布了美國(guó)《大數(shù)據(jù)研究和發(fā)展計(jì)劃》以來(lái),大數(shù)據(jù)如浪潮般席卷著全世界,沖刷著地球的各個(gè)角落。從政府到商業(yè)科技、教育、醫(yī)療、經(jīng)濟(jì)、人文還有社會(huì)的其他各個(gè)領(lǐng)域都無(wú)時(shí)不能看到大數(shù)據(jù)的影子。于是各個(gè)領(lǐng)域各個(gè)專家開(kāi)始如火如荼地討論研究大數(shù)據(jù)的相關(guān)理論及技術(shù)。數(shù)據(jù)由數(shù)據(jù)挖掘時(shí)代過(guò)渡到大數(shù)據(jù)時(shí)代。
2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘開(kāi)始于上世紀(jì)70年代,經(jīng)歷了電子郵件時(shí)代、信息發(fā)布時(shí)代、電子商務(wù)時(shí)代、全程電子商務(wù)時(shí)代,是指從海量的、不完整的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的人們事先不知道的但又可能有用的信息和知識(shí)的過(guò)程。通俗地講,數(shù)據(jù)挖掘就是利用各種分析方法和工具,對(duì)數(shù)據(jù)庫(kù)中積累的大最繁雜的歷史數(shù)據(jù)進(jìn)行分析、歸納與整合的工作,以發(fā)現(xiàn)數(shù)據(jù)內(nèi)部的信息和關(guān)系的過(guò)程,提供企業(yè)管理層在進(jìn)行決策時(shí)的參考依據(jù)。
數(shù)據(jù)挖掘一般經(jīng)歷如圖1所示:數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)挖掘-知識(shí)發(fā)現(xiàn)與表示的三個(gè)過(guò)程。成熟的數(shù)據(jù)挖掘經(jīng)典算法有決策樹(shù)算法、聚類算法、神經(jīng)網(wǎng)絡(luò)算法、遺傳算法等。
3大數(shù)據(jù)
大數(shù)據(jù)是指數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,這些數(shù)據(jù)集無(wú)法用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),管理和處理,其具有Volume(數(shù)據(jù)量大),Velocity(數(shù)據(jù)處理速度快)、Variety(數(shù)據(jù)具有多樣性)和Value(數(shù)據(jù)價(jià)值密度低)的4V特點(diǎn)。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后數(shù)據(jù)行業(yè)又一大顛覆性的技術(shù)革命。大數(shù)據(jù)時(shí)代的到來(lái)顛覆了工業(yè)界、學(xué)術(shù)界對(duì)傳統(tǒng)數(shù)據(jù)的認(rèn)知,同時(shí)也引起了數(shù)據(jù)獲取、存儲(chǔ)、分析、挖掘以及可視化等技術(shù)的變革。
根據(jù)大數(shù)據(jù)處理的生命周期,大數(shù)據(jù)的技術(shù)體系有大數(shù)據(jù)的采集與預(yù)處理、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)計(jì)算模式與系統(tǒng)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)可視化分析及大數(shù)據(jù)隱私與安全等幾個(gè)方面,如圖2所示。
4大數(shù)據(jù)與數(shù)據(jù)挖掘的關(guān)系
大數(shù)據(jù)與數(shù)據(jù)挖掘既有不同之處,又可互相關(guān)聯(lián)。
4.1 數(shù)據(jù)挖掘與大數(shù)據(jù)的相同點(diǎn)
都有以海量數(shù)據(jù)為基礎(chǔ),通過(guò)某種或幾種工具或算法,挖掘出供人們利用的知識(shí)發(fā)現(xiàn)和規(guī)律,供人們使用,為人們服務(wù)。在挖掘知識(shí)表示及規(guī)律方面,它們用的方法是大同小異的。
4.2大數(shù)據(jù)與數(shù)據(jù)挖掘的不同點(diǎn)
在數(shù)據(jù)方面:數(shù)據(jù)挖掘一般基于某個(gè)或幾個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù),數(shù)據(jù)規(guī)模相對(duì)較小,基本以為MB處理單位;數(shù)據(jù)類型種類單一,往往是一種或少數(shù)幾種,而且以結(jié)構(gòu)化數(shù)據(jù)為主;因?yàn)閿?shù)據(jù)挖掘往往使用的是常規(guī)數(shù)據(jù)庫(kù),因此先有模式再有數(shù)據(jù);數(shù)據(jù)僅作為處理對(duì)象。而大數(shù)據(jù)數(shù)據(jù)規(guī)模很大,以GB,甚至TB、PB為基本處理單位;數(shù)據(jù)種類繁多,而這些數(shù)據(jù)中又包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),而且占據(jù)著越來(lái)越多的份額;大數(shù)據(jù)時(shí)代很多情況下很難預(yù)先確定模式,模式只有在數(shù)據(jù)出現(xiàn)之后才能確定,且模式隨著數(shù)據(jù)量的增長(zhǎng)處于不斷的演變之中;大數(shù)據(jù)時(shí)代的數(shù)據(jù)將作為一種資源來(lái)輔助解決其他諸多領(lǐng)域的問(wèn)題;而且大數(shù)據(jù)由于其數(shù)據(jù)量太大因此還要考慮存儲(chǔ)數(shù)據(jù)的問(wèn)題。
在處理工具方面:數(shù)據(jù)挖掘一般應(yīng)用一種工具或少數(shù)幾種工具就可以處理得到發(fā)現(xiàn)的知識(shí)并加以應(yīng)用,也就是所謂的One size fits all;大數(shù)據(jù)時(shí)代不可能存在一種工具就能解決問(wèn)題,得出有用的結(jié)論,即No size fits all。
5總結(jié)
總之,大數(shù)據(jù)時(shí)代的數(shù)據(jù)利用云存儲(chǔ)已漸成一個(gè)趨勢(shì),數(shù)據(jù)挖掘是其關(guān)鍵的一環(huán),大數(shù)據(jù)的分析處理可以把海量數(shù)據(jù)分成幾塊利用數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘,也可以將數(shù)據(jù)挖掘技術(shù)加以整合,研發(fā)出更高效、更準(zhǔn)確的平臺(tái)或算法對(duì)大數(shù)據(jù)直接進(jìn)行挖掘,得出蘊(yùn)含在海量數(shù)據(jù)中的規(guī)律或商機(jī),如此才能讓大數(shù)據(jù)真正切實(shí)地為人們服務(wù)。因此數(shù)據(jù)挖掘在大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘過(guò)程中具有重要的意義。
參考文獻(xiàn)
[1] HU H,WEN Y G,CHUA T S,LI X L.Toward scalable system for big data analyties:a technology tutorial[J].IEEE Access,2014(2):652-687.
[2] 馮登國(guó),張敏.李昊大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014.
[3] 孟小峰.慈祥大數(shù)據(jù)管理:概念技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013.