杜成
摘要:隨著信息技術(shù)的不斷發(fā)展,近些年來,海量的數(shù)據(jù)成為最具價(jià)值的財(cái)富。在信息傳播極其迅速的今天各種數(shù)據(jù)滲透著我們的生活,它們以指數(shù)級(jí)的速度增長,數(shù)據(jù)爆炸將我們帶入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)開始蔓延到社會(huì)的各行各業(yè)從而影響著我們的學(xué)習(xí)、工作、生活以及社會(huì)的發(fā)展,因此大數(shù)據(jù)的相關(guān)研究受到中央和地方政府、各大科研機(jī)構(gòu)和各類企業(yè)的高度關(guān)注。本文將從大數(shù)據(jù)時(shí)代的背景入手,引入大數(shù)據(jù)的相關(guān)定義,探討大數(shù)據(jù)的特征以及大數(shù)據(jù)在現(xiàn)實(shí)中的應(yīng)用,并對大數(shù)據(jù)未來的發(fā)展趨勢進(jìn)行分析。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)時(shí)代;數(shù)據(jù)分析;云計(jì)算
一、大數(shù)據(jù)時(shí)代的背景介紹
最早提出大數(shù)據(jù)時(shí)代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!贝撕?,大數(shù)據(jù)的發(fā)展和研究成為了各行業(yè)的熱門話題,從而帶動(dòng)了政府、企業(yè)和研究機(jī)構(gòu)對大數(shù)據(jù)研究熱情。2008年Nature雜志推出的??瘡幕ヂ?lián)網(wǎng)科技、自然與環(huán)境、網(wǎng)絡(luò)經(jīng)濟(jì)和金融等多個(gè)方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn);2012年2月,《紐約時(shí)報(bào)》中一篇專欄寫到在商業(yè)、經(jīng)濟(jì)金融和其他多方面領(lǐng)域中,管理者更傾向于通過大數(shù)據(jù)分析來作出決策;2012年3月,以奧巴馬為首的美國政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”;2012年5月,聯(lián)合國通過了政務(wù)白皮書《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)和機(jī)遇》來探討大數(shù)據(jù)的作用和影響;在過去幾年,歐盟對大數(shù)據(jù)基礎(chǔ)建設(shè)投資大約1億多歐元,世界各國都在加大對大數(shù)據(jù)的分析和研究。而在中國,2012年10月,第十七次全國統(tǒng)計(jì)科學(xué)討論會(huì)開幕,其主題就是大數(shù)據(jù)背景下的統(tǒng)計(jì);2014年2月在北京召開了以“科研大數(shù)據(jù)與數(shù)據(jù)科學(xué)”為主題的“科學(xué)數(shù)據(jù)大會(huì)”,研討了大數(shù)據(jù)時(shí)代下數(shù)據(jù)的分析和應(yīng)用,以及科研數(shù)據(jù)帶來的挑戰(zhàn)和機(jī)遇。
二、大數(shù)據(jù)的定義和特征
大數(shù)據(jù)所涉及的內(nèi)容和方面過于廣泛,其中包括政治、教育、金融、傳媒、醫(yī)學(xué)、商業(yè)、工農(nóng)業(yè)、互聯(lián)網(wǎng)等方面,因此對于大數(shù)據(jù)的定義,不同的學(xué)者基于不同的背景和不同的理解有著不同的定義方式。大數(shù)據(jù)的發(fā)展是建立在較早經(jīng)歷信息爆炸學(xué)科的基礎(chǔ)上的,用于“描述數(shù)據(jù)總量規(guī)模遠(yuǎn)遠(yuǎn)超出常用硬件環(huán)境和軟件工具的處理能力的情形”。其中維基百科上“大數(shù)據(jù)的定義是指大數(shù)據(jù)指的是所涉及的資料規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊”。而全球知名咨詢公司麥肯錫是這樣定義大數(shù)據(jù)的,“大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其進(jìn)行抓取、 管理和處理的數(shù)據(jù)集合”。
大數(shù)據(jù)的特征大致可以劃分為四個(gè)方面:
(1)大數(shù)據(jù)的規(guī)模性,即大數(shù)據(jù)具有相當(dāng)?shù)囊?guī)模,其數(shù)據(jù)量非常巨大。數(shù)據(jù)的數(shù)量級(jí)別可劃分為B、KB、MB、GB、TB、PB、EB、ZB等,而數(shù)據(jù)的數(shù)量級(jí)別為PB級(jí)別的才能稱得上為大數(shù)據(jù)。在2011年,全球產(chǎn)生了1.8ZB的數(shù)據(jù)總量。根據(jù)IDC公司的最新研究,未來10年,全球的數(shù)據(jù)總量將會(huì)增長50倍。而以此推算,數(shù)據(jù)產(chǎn)生的速度越來越快,而且數(shù)據(jù)總量將呈現(xiàn)指數(shù)型的爆炸式增長。
(2)大數(shù)據(jù)的多類型性,即大數(shù)據(jù)的數(shù)據(jù)類型呈現(xiàn)多樣性,數(shù)據(jù)類型繁多,不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù);其中結(jié)構(gòu)化數(shù)據(jù)即音頻、圖片、文本、視頻、網(wǎng)絡(luò)日志、地理位置信息等等。傳統(tǒng)的數(shù)據(jù)處理對象基本上都是結(jié)構(gòu)化數(shù)據(jù),而在現(xiàn)實(shí)中非結(jié)構(gòu)化數(shù)據(jù)也是大量存在的,所以既要分析結(jié)構(gòu)化數(shù)據(jù),又要分析非結(jié)構(gòu)化數(shù)據(jù)才能滿足人們對數(shù)據(jù)處理的要求。
(3)大數(shù)據(jù)處理的快速性,即處理大數(shù)據(jù)的速度越來越快,處理時(shí)要求具有時(shí)效性,因?yàn)閿?shù)據(jù)和信息更新速度非??欤畔⒌膬r(jià)值存在的時(shí)間非常短,必須要求在極短的時(shí)間下在海量規(guī)模的大數(shù)據(jù)中摒除無用的信息來搜集具有價(jià)值和能夠利用的信息。所以隨著大數(shù)據(jù)時(shí)代的到來,搜集和提取具有價(jià)值的數(shù)據(jù)和信息必須要求高效性和短時(shí)性。
(4)大數(shù)據(jù)的預(yù)測性和潛在性。大數(shù)據(jù)的預(yù)測性即通過對一系列大數(shù)據(jù)進(jìn)行分析,聯(lián)系不同類型的大數(shù)據(jù)之間的關(guān)系,能夠有效的對事件或事物的走向或者趨勢進(jìn)行預(yù)測,以便管理者做出決策。大數(shù)據(jù)的潛在性即從大數(shù)據(jù)的表面數(shù)據(jù)進(jìn)行分析,進(jìn)而得到大數(shù)據(jù)背后重要的有價(jià)值的信息,例如事物間錯(cuò)綜復(fù)雜的聯(lián)系,最后可以精確的理解數(shù)據(jù)背后所隱藏的現(xiàn)實(shí)意義。
三、大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)應(yīng)用的基礎(chǔ)是對數(shù)據(jù)的分析與挖掘,通過對數(shù)據(jù)的處理可以使大量的數(shù)據(jù)轉(zhuǎn)化為多種具有價(jià)值的信息,進(jìn)而為用戶的決策提供幫助??傊?,大數(shù)據(jù)時(shí)代給社會(huì)發(fā)展帶來了多方面的影響。
(1)新浪微博是大數(shù)據(jù)時(shí)代典型的產(chǎn)物,微博顛覆了傳統(tǒng)意義上普通信息媒介的傳播方式,它具有傳播速度快,傳播范圍廣的特點(diǎn),能在短時(shí)間形成颶風(fēng)的傳播效應(yīng),進(jìn)而形成廣泛的影響力。微博充分利用大數(shù)據(jù)的優(yōu)勢,它每一刻都在收集、整理、分析、儲(chǔ)存海量的數(shù)據(jù),在同一時(shí)間里所創(chuàng)造的數(shù)據(jù)總量是傳統(tǒng)報(bào)紙、雜志、報(bào)刊的數(shù)倍,這是傳統(tǒng)媒介傳播方式所不能與之相比的,而且微博還通過眾多用戶的數(shù)據(jù)來分析、對比、跟蹤用戶行為和偏好,進(jìn)而來制定更加符合用戶的產(chǎn)品。新浪自從推出微博以后,新浪集團(tuán)的股價(jià)從原來的長期橫盤變?yōu)橐宦纷吒?,給新浪帶來了巨額的財(cái)富。
(2)美國有同樣在大數(shù)據(jù)時(shí)代背景下成長起來的互聯(lián)網(wǎng)公司——Google,這是一家致力于互聯(lián)網(wǎng)科技、云計(jì)算、廣告技術(shù)的互聯(lián)網(wǎng)巨頭。Google所有的產(chǎn)品都是免費(fèi)使用的,如日歷、聯(lián)系人、Gmail、Google+以及Android系統(tǒng),但是Google的盈利方式是什么呢?因?yàn)镚oogle的所有應(yīng)用都是需要聯(lián)網(wǎng)在線使用的,用戶在線使用時(shí),這些軟件就會(huì)把用戶的相關(guān)信息發(fā)送給Google,例如,用戶的個(gè)人行為、偏好等。這樣的話,Google的產(chǎn)品越豐富,它對用戶的信息掌握的越多,就能更加準(zhǔn)確的針對不同類型的客戶推送不同類型的廣告,使廣告更具有價(jià)值。
(3)在2014年的世界杯賽場上,德國贏得了世界杯冠軍,這個(gè)結(jié)果看似意料之外,其實(shí)也是意料之中的,世界杯期間德國隊(duì)做了充分的準(zhǔn)備,在運(yùn)動(dòng)員足球鞋里面安裝了感應(yīng)器用來接收運(yùn)動(dòng)員的各種數(shù)據(jù),實(shí)時(shí)反饋到電腦上,然后通過大數(shù)據(jù)、云計(jì)算等技術(shù)提供數(shù)據(jù)分析,從而確定合適的戰(zhàn)略。
四、大數(shù)據(jù)未來的發(fā)展趨勢
大數(shù)據(jù)時(shí)代的到來使這個(gè)社會(huì)中的海量數(shù)據(jù)變成了巨大的潛在財(cái)富,大數(shù)據(jù)的作用是不可估量的,而且大數(shù)據(jù)已經(jīng)滲透到了社會(huì)的各個(gè)領(lǐng)域。在政府工作中,政府可以對大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,進(jìn)而提高政府的決策效率,減少?zèng)Q策失誤,以確保國家的各方面平穩(wěn)運(yùn)行。在教育領(lǐng)域中,可以通過大數(shù)據(jù)為學(xué)生制定個(gè)性化的培養(yǎng)方案,也可以對大數(shù)據(jù)進(jìn)行分析來指導(dǎo)教育的發(fā)展方向以及完善教育評價(jià)機(jī)制。在零售業(yè)中,從大數(shù)據(jù)中可以獲得市場行情,競爭對手情況,物流信息等一系列信息,有利于管理者的決策,進(jìn)而提高利潤和收益。對于個(gè)人服務(wù)領(lǐng)域里,大數(shù)據(jù)結(jié)合個(gè)人位置服務(wù)可以拉動(dòng)包括互聯(lián)網(wǎng)、零售業(yè)、電信和媒體等在內(nèi)的多種行業(yè)的發(fā)展。
五、結(jié)束語
本文對大數(shù)據(jù)的定義和相關(guān)概念進(jìn)行了闡述,探討了大數(shù)據(jù)的基本特點(diǎn),以及大數(shù)據(jù)時(shí)代下大數(shù)據(jù)的應(yīng)用,最后又對大數(shù)據(jù)未來的發(fā)展趨勢進(jìn)行了簡單的分析;這是一個(gè)信息爆炸的時(shí)代,大數(shù)據(jù)時(shí)代的到來帶給國家和個(gè)人帶來了很多機(jī)遇,同時(shí)也帶來了很多挑戰(zhàn)。在當(dāng)下的大數(shù)據(jù)時(shí)代,大數(shù)據(jù)只是冰山一角,其中的大部分都隱藏在冰山之下,因此大數(shù)據(jù)還有很多方面值得我們?nèi)グl(fā)現(xiàn)和探索。(作者單位:河南大學(xué))