鄭強(qiáng) 高群
【摘 要】隨著移動(dòng)互聯(lián)網(wǎng)、無線傳感網(wǎng)等技術(shù)的的發(fā)展,新興應(yīng)用不斷涌現(xiàn),數(shù)據(jù)成爆炸式增長。大數(shù)據(jù)成為重要的生產(chǎn)要素,蘊(yùn)含著巨大的知識(shí)價(jià)值。本文介紹了了大數(shù)據(jù)的定義和面臨的技術(shù)挑戰(zhàn),歸納了大數(shù)據(jù)集成與預(yù)處理技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)展現(xiàn)技術(shù),最后總結(jié)了大數(shù)據(jù)的發(fā)展趨勢,為大數(shù)據(jù)的研究提供有益參考。
【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)挖掘
中圖分類號(hào): TP311.13 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)30-0179-002
DOI:10.19694/j.cnki.issn2095-2457.2018.30.078
0 引言
隨著無線傳感網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的普及,21世紀(jì)以來數(shù)據(jù)量呈現(xiàn)出指數(shù)級(jí)增長,社會(huì)已經(jīng)步入大數(shù)據(jù)時(shí)代?!洞髷?shù)據(jù)時(shí)代》一書的作者英國牛津大學(xué)教授維克托指出,大數(shù)據(jù)正在改變?nèi)藗兊墓ぷ骱蜕罘绞剑⑶腋嗟母淖冋谇娜话l(fā)生。大數(shù)據(jù)已在網(wǎng)絡(luò)通信、金融市場、氣象預(yù)報(bào)等諸多領(lǐng)域得到廣泛應(yīng)用[1]。大數(shù)據(jù)背后蘊(yùn)含著巨大的價(jià)值,尤其是通過數(shù)據(jù)集成、分析與挖掘之后,其所表現(xiàn)出價(jià)值已經(jīng)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的數(shù)據(jù)。大數(shù)據(jù)研究成為經(jīng)濟(jì)和社會(huì)發(fā)展以及科技進(jìn)步的重要推動(dòng)力量。
本文歸納和總結(jié)了大數(shù)據(jù)的定義、發(fā)展現(xiàn)狀和面臨的挑戰(zhàn)及其關(guān)鍵技術(shù)。首先闡述了大數(shù)據(jù)概念及其發(fā)展現(xiàn)狀、數(shù)據(jù)處理面臨的問題及挑戰(zhàn),然后分析了大數(shù)據(jù)技術(shù),最后是全文總結(jié)并對(duì)大數(shù)據(jù)研究進(jìn)行展望。
1 大數(shù)據(jù)的概念
著名咨詢公司麥肯錫給出的大數(shù)據(jù)定義:大數(shù)據(jù)指的是體量超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。并強(qiáng)調(diào),并非一定要超過TB級(jí)的數(shù)據(jù)才可以稱作大數(shù)據(jù)[2]?!禨cience》雜志在2008年出版的??卸x大數(shù)據(jù)為“代表著人類認(rèn)知過程的進(jìn)步,數(shù)據(jù)集的規(guī)模是無法在可容忍的時(shí)間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)”。Gartner公司也給出了大數(shù)據(jù)的定義:大數(shù)據(jù)是高容量、高生成速率、種類繁多的信息價(jià)值,同時(shí)需要新的處理形式去確保判斷的作出、洞察力的發(fā)現(xiàn)和處理的優(yōu)化[3]。維基百科對(duì)大數(shù)據(jù)的定義則簡單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。
一般而言,大家比較認(rèn)可關(guān)于大數(shù)據(jù)從早期的3V,4V說法到現(xiàn)在的5V。大數(shù)據(jù)的5V是指Volume,Velocity,Variety,Varacity,Value[4]。Volume:數(shù)據(jù)體量巨大;Velocity:數(shù)據(jù)生成速率高,時(shí)效要求高;Variety:數(shù)據(jù)類型繁多,既包括結(jié)構(gòu)化數(shù)據(jù),也包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);Veracity:數(shù)據(jù)真實(shí)且準(zhǔn)確;Value:數(shù)據(jù)潛在價(jià)值密度低,但價(jià)值高。
2 大數(shù)據(jù)的現(xiàn)狀
隨著數(shù)據(jù)科學(xué)的深入發(fā)展,歐美等眾多發(fā)達(dá)國家都意識(shí)到作為國家戰(zhàn)略資產(chǎn)的數(shù)據(jù)的重要性,分別發(fā)布了大數(shù)據(jù)發(fā)展戰(zhàn)略。美國于2012年頒布了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,包括約150余個(gè)項(xiàng)目類別,計(jì)劃項(xiàng)目涵蓋國防、衛(wèi)生、能源等諸多領(lǐng)域。我國也把大數(shù)據(jù)技術(shù)也提到了國家的戰(zhàn)略發(fā)展日程。2013年,國內(nèi)多位院士聯(lián)合建議設(shè)立國家專項(xiàng),開展大數(shù)據(jù)技術(shù)研究。事實(shí)上,大數(shù)據(jù)技術(shù)已經(jīng)應(yīng)用在互聯(lián)網(wǎng)、商業(yè)智能、金融業(yè)以及醫(yī)療、零售等行業(yè),并對(duì)社會(huì)、經(jīng)濟(jì)產(chǎn)生了巨大的影響[5]。
3 大數(shù)據(jù)面臨的挑戰(zhàn)
不同于與傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)來源廣泛、種類繁多、動(dòng)態(tài)增長,以上特點(diǎn)使得大數(shù)據(jù)技術(shù)面臨新的挑戰(zhàn),以下幾個(gè)方面尤其值得關(guān)注:
3.1 數(shù)據(jù)異構(gòu)性和不完整性
據(jù)統(tǒng)計(jì),目前半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占當(dāng)前社會(huì)數(shù)據(jù)總量的80%以上,已有的傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)已經(jīng)無法準(zhǔn)確的描述它們。因此,將數(shù)據(jù)組織成易于處理的結(jié)構(gòu),進(jìn)行數(shù)據(jù)集成是大數(shù)據(jù)處理面臨的一個(gè)重要難題。不完整性是指在大數(shù)據(jù)常常包含一些屬性值缺失的和錯(cuò)誤的數(shù)據(jù)。在進(jìn)行大數(shù)據(jù)分析處理之前,必須對(duì)數(shù)據(jù)的不完整性進(jìn)行有效處理才能分析出有價(jià)值的信息。
3.2 數(shù)據(jù)處理的實(shí)時(shí)性
大數(shù)據(jù)有著很強(qiáng)的時(shí)效性,隨著時(shí)間的推移,數(shù)據(jù)背后所隱藏的的知識(shí)價(jià)值也會(huì)很快地降低。因此,大數(shù)據(jù)需要以較高的速率進(jìn)行分析處理。
3.3 數(shù)據(jù)安全與隱私保護(hù)
大數(shù)據(jù)的隱私保護(hù)不僅僅涉及技術(shù)層面的問題同時(shí)也涉及到社會(huì)學(xué)倫理問題。相比于傳統(tǒng)的數(shù)據(jù)安全,大數(shù)據(jù)時(shí)代的數(shù)據(jù)安全變得尤為復(fù)雜,面臨著來自各方面的挑戰(zhàn)。因此在大數(shù)據(jù)環(huán)境下,如何保證數(shù)據(jù)共享的安全性以及怎樣為用戶提供精細(xì)可靠地的數(shù)據(jù)共享控制策略等問題的研究顯得越發(fā)重要。
3.4 高能耗問題
隨著大數(shù)據(jù)體量的爆炸式增長,數(shù)據(jù)中心規(guī)模的日漸擴(kuò)大,高能耗制約大數(shù)據(jù)發(fā)展的問題已日益加重。針對(duì)降低能耗、提高數(shù)據(jù)中心可靠性問題,常見措施包括:冗余配置、云計(jì)算技術(shù)和分布式計(jì)算技術(shù)。在存儲(chǔ)時(shí),首先要對(duì)數(shù)據(jù)進(jìn)行分類,然后進(jìn)行數(shù)據(jù)過濾和去重操作,來減少數(shù)據(jù)體量,同時(shí)建立多級(jí)索引以方便日后的查詢操作。
3.5 大數(shù)據(jù)易用性問題
易用性的挑戰(zhàn)突出體現(xiàn)在兩個(gè)方面:首先大數(shù)據(jù)的體量巨大,價(jià)值密度低,這使得分析過程更加復(fù)雜,而且輸出結(jié)果形式更加多樣化;其次,大數(shù)據(jù)展現(xiàn)技術(shù)也是易用性的一個(gè)重要方面。
4 大數(shù)據(jù)技術(shù)
大數(shù)據(jù)技術(shù)包含數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)展示技術(shù)及大數(shù)據(jù)安全等幾個(gè)方面。
4.1 大數(shù)據(jù)預(yù)處理
大數(shù)據(jù)最典型的特征是多源異構(gòu)。原始數(shù)據(jù)中會(huì)包含一些“臟數(shù)據(jù)”,比如離群點(diǎn),值缺失等狀況。因此首先需要進(jìn)行數(shù)據(jù)的預(yù)處理和集成,為將來的數(shù)據(jù)分析和挖掘提供方便處理的數(shù)據(jù)集。目前市面上常見的方法大體可分為4類:基于物化或ETL引擎方法、基于聯(lián)邦數(shù)據(jù)庫或中間件方法、基于數(shù)據(jù)流引擎方法以及基于搜索引擎方法。
4.2 大數(shù)據(jù)存儲(chǔ)與管理
數(shù)據(jù)壓縮技術(shù)雖然能減少數(shù)據(jù)量和提高存儲(chǔ)效率,但同時(shí)也加重了計(jì)算結(jié)點(diǎn)的數(shù)據(jù)處理負(fù)擔(dān)??紤]到存儲(chǔ)空間和數(shù)據(jù)的性質(zhì),針對(duì)不同的數(shù)據(jù)采取不同的存儲(chǔ)方式。核心業(yè)務(wù)數(shù)據(jù)依舊采用傳統(tǒng)的并行數(shù)據(jù)倉庫進(jìn)行存儲(chǔ);時(shí)效性要求高的數(shù)據(jù)則采用實(shí)時(shí)數(shù)據(jù)庫或內(nèi)存數(shù)據(jù)庫;對(duì)大量的累積數(shù)據(jù)和無結(jié)構(gòu)數(shù)據(jù)則采用分布式文件系統(tǒng)。
4.3 大數(shù)據(jù)分析與挖掘
人們希望如何從海量的數(shù)據(jù)中迅速的提煉出關(guān)鍵信息,為社會(huì)和企業(yè)帶來價(jià)值。大數(shù)據(jù)分析的主要方法分為:統(tǒng)計(jì)數(shù)據(jù)分析方法、基于機(jī)器學(xué)習(xí)的分析方法、基于圖的分析方法和自然語言中的分析方法。大數(shù)據(jù)的挖掘包括關(guān)聯(lián)規(guī)則、分類分析、聚類分析等。常用的數(shù)據(jù)挖掘工具有:R語言、RapidMiner、免費(fèi)的Weka、KNIME以及Prange等。最典型的挖掘平臺(tái)包括基于Hadoop的平臺(tái)和基于Spark的平臺(tái)。
4.4 大數(shù)據(jù)展示技術(shù)
作為最重要的展示技術(shù),可視化技術(shù)可迅速有效地提煉數(shù)據(jù)流,幫助用戶迅速的從大量的數(shù)據(jù)中篩選出新的發(fā)現(xiàn)。大數(shù)據(jù)可視化技術(shù)包括:高維數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化、時(shí)空數(shù)據(jù)可視化等。在大數(shù)據(jù)可視化分析領(lǐng)先的公司是Tableau Software公司,該公司致力于讓不懂可視化技術(shù)的特定行業(yè)領(lǐng)域知識(shí)專家也能方便地進(jìn)行實(shí)時(shí)數(shù)據(jù)分析展示。其他可視化工具包括:文本可視化工具Wordle、網(wǎng)絡(luò)可視化工具Gephi以及Data-Dirven Documents。
4.5 大數(shù)據(jù)隱私與安全
面對(duì)日益嚴(yán)峻的大數(shù)據(jù)安全形勢,目前主流的安全解決方法包括:經(jīng)典的文件訪問控制技術(shù)、設(shè)備加密技術(shù)、匿名保護(hù)技術(shù)、加密保護(hù)技術(shù)、數(shù)據(jù)水印技術(shù)等。同時(shí)提出利用大數(shù)據(jù)技術(shù)本身用作大數(shù)據(jù)安全防護(hù)的實(shí)現(xiàn)方法,增強(qiáng)大數(shù)據(jù)時(shí)代的信息安全防護(hù)性能。
5 大數(shù)據(jù)發(fā)展趨勢
隨著大數(shù)據(jù)應(yīng)用的日益廣泛,新的問題也不斷涌現(xiàn)。大數(shù)據(jù)研究的方向大體如下[6]:
(1)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫與日益壯大的非關(guān)系數(shù)據(jù)庫的集成
(2)采集的數(shù)據(jù)的不確定性與數(shù)據(jù)質(zhì)量
(3)跨領(lǐng)域數(shù)據(jù)集成方法的可移植性
(4)利用大數(shù)據(jù)進(jìn)行預(yù)測
6 結(jié)束語
大數(shù)據(jù)關(guān)系到到國防軍事、社會(huì)生活、經(jīng)濟(jì)金融和科學(xué)技術(shù)等多方面的問題,大數(shù)據(jù)已經(jīng)成為推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的強(qiáng)進(jìn)動(dòng)力。本文首先闡述了大數(shù)據(jù)的概念和大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn),然后介紹了大數(shù)據(jù)集成技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)展現(xiàn)技術(shù),最后總結(jié)了大數(shù)據(jù)研究的重點(diǎn)方向。如何高效、合理地利用大數(shù)據(jù)為社會(huì)服務(wù),還需要進(jìn)一步地探索發(fā)現(xiàn)新技術(shù)。
【參考文獻(xiàn)】
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶,ViktorMayer-Schonberger,等.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].浙江人民出版社,2013.
[2]孫勤紅,沈鳳仙.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及應(yīng)用[J].電子技術(shù)與軟件工程,2016(6):204-204.
[3]Ji C,Li Y,Qiu W,et al.Big Data Processing in Cloud Computing Environments[C].International Symposium on Pervasive Systems,Algorithms and Networks.IEEE,2013:17-23.
[4]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J]. 南京信息工程大學(xué)學(xué)報(bào),2014(5):405-419.
[5]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2014,31(6):1612-1616.
[6]中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì).中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書[R].2013.