丁云建
摘要:隨著全面數(shù)字化時(shí)代的到來,我們?nèi)粘5纳顚⑷鏀?shù)字化。本文淺談了大數(shù)據(jù)的概念、大數(shù)據(jù)的產(chǎn)生、意義或者價(jià)值以及未來的發(fā)展趨勢。
關(guān)鍵詞:大數(shù)據(jù);價(jià)值;發(fā)展趨勢
中圖分類號(hào):TP311 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)030-000-01
大數(shù)據(jù)一詞最早出現(xiàn)于1980年,未來學(xué)家阿爾文·托夫勒在《第三次浪潮》這本書中首先使用了大數(shù)據(jù)一詞。然而在技術(shù)層面真正提出大數(shù)據(jù)這個(gè)詞是2008年8月由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶兩位數(shù)據(jù)工程師提出。隨著互聯(lián)網(wǎng)及計(jì)算技術(shù)的發(fā)展,今天,大數(shù)據(jù)已經(jīng)成為我們?nèi)粘o時(shí)無刻不在制造產(chǎn)生并運(yùn)用的最重要信息資源。
2015年9月,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(以下簡稱《綱要》),系統(tǒng)部署大數(shù)據(jù)發(fā)展工作?!毒V要》明確,推動(dòng)大數(shù)據(jù)發(fā)展和應(yīng)用,在未來5至10年打造精準(zhǔn)治理、多方協(xié)作的社會(huì)治理新模式,建立運(yùn)行平穩(wěn)、安全高效的經(jīng)濟(jì)運(yùn)行新機(jī)制,構(gòu)建以人為本、惠及全民的民生服務(wù)新體系,開啟大眾創(chuàng)業(yè)、萬眾創(chuàng)新的創(chuàng)新驅(qū)動(dòng)新格局,培育高端智能、新興繁榮的產(chǎn)業(yè)發(fā)展新生態(tài)。
一、大數(shù)據(jù)的概念
大數(shù)據(jù)這個(gè)概念提出并不早,從2008年提出至今,業(yè)界還沒有公認(rèn)的說法。就其定義而言,大數(shù)據(jù)是一個(gè)較為抽象的概念,至今尚無確切的定義。比較典型的有以下幾種。
1.麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
2.維基百科的定義是:大數(shù)據(jù)是需要處理的資料量規(guī)模巨大,無法在合理的時(shí)間內(nèi),通過當(dāng)前主流軟件工具擷取、管理、處理并整理的資料,它成為幫助企業(yè)決策的的資訊。
3.Gartner研究機(jī)構(gòu)認(rèn)為:大數(shù)據(jù)是指需要借助新的處理模式才能擁有更強(qiáng)決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的具有海量、多樣化和高增長率等特點(diǎn)的信息資產(chǎn)。
4.IDC對(duì)大數(shù)據(jù)的定義是:大數(shù)據(jù)一般會(huì)設(shè)計(jì)兩種或以上的數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù)量,并且是高速、實(shí)時(shí)的數(shù)據(jù)流,或者是從小數(shù)據(jù)開始,但數(shù)據(jù)量每年會(huì)增長60%以上。
二、大數(shù)據(jù)的特征
1.數(shù)據(jù)量巨大
第一個(gè)特征是數(shù)據(jù)量大。隨著互聯(lián)網(wǎng)技術(shù)的廣泛運(yùn)用,互聯(lián)網(wǎng)的信息急劇增多。大數(shù)據(jù)已經(jīng)從TB級(jí)別躍升到PB級(jí)別。隨著科技的進(jìn)步,也許大數(shù)據(jù)的起始計(jì)量單位至少是PB(1000個(gè)TB)、EB(100萬個(gè)TB)或Z(10億個(gè)TB)了。
2.數(shù)據(jù)種類繁多
第二個(gè)特征據(jù)是數(shù)據(jù)類型繁多。包括網(wǎng)站日志數(shù)據(jù)、呼叫中心通話記錄、各類社交媒體中產(chǎn)生的文本數(shù)據(jù),各類位置信息數(shù)據(jù)等等。不僅包括傳統(tǒng)的關(guān)系型數(shù)據(jù),也包括未加工過的半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),例如網(wǎng)頁、文檔、視頻、音頻、圖片、郵件等各個(gè)形勢存在的數(shù)據(jù)類型。
3.數(shù)據(jù)價(jià)值密度低
第三個(gè)特征是數(shù)據(jù)價(jià)值密度相對(duì)較低。數(shù)據(jù)量在呈幾何級(jí)數(shù)增長的同時(shí),這些海量數(shù)據(jù)的背后所隱藏的有價(jià)值信息切并沒有呈現(xiàn)出相應(yīng)比例的增長,反而是因?yàn)榱康木薮螅瑥亩@取和捕捉到對(duì)使用這些數(shù)據(jù)的使用者有價(jià)值和需求的難度成倍增加。
4.數(shù)據(jù)處理速度快、時(shí)效高
第四個(gè)特征是處理速度快,時(shí)效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。每一時(shí)刻,我們都在產(chǎn)生數(shù)據(jù),都在進(jìn)行數(shù)據(jù)更新,這就要求處理數(shù)據(jù)的速度必須快。
三、大數(shù)據(jù)的產(chǎn)生
大數(shù)據(jù)的產(chǎn)生是計(jì)算機(jī)和網(wǎng)絡(luò)通訊技術(shù)被廣泛運(yùn)用的必然結(jié)果,特別是互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新一代信息技術(shù)的發(fā)展。數(shù)據(jù)的產(chǎn)生可歸類為以下四類。
1.由數(shù)據(jù)庫產(chǎn)生的大數(shù)據(jù)
由企業(yè)內(nèi)部的辦公自動(dòng)化(OA)、企業(yè)資源計(jì)劃(ERP)、物料需求計(jì)劃(MRP)等業(yè)務(wù)及管理和決策分析系統(tǒng)所產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)通過多年的累計(jì)和沉淀形成企業(yè)內(nèi)部的數(shù)據(jù),通過多年的管理、清洗、集成、結(jié)構(gòu)化和標(biāo)準(zhǔn)處理,可為企業(yè)管理決策提供支持和幫助。
2.由Web記錄產(chǎn)生的大數(shù)據(jù)
在Web1.0時(shí)代,網(wǎng)站為用戶指定了大量的標(biāo)準(zhǔn)化模塊操作,用戶在使用互聯(lián)網(wǎng)時(shí),參與度相對(duì)較低,對(duì)互聯(lián)網(wǎng)的貢獻(xiàn)度較低,產(chǎn)生的數(shù)據(jù)量也較少,進(jìn)入Web2.0時(shí)代,互聯(lián)網(wǎng)變成開放式的,用戶的參與度更高,個(gè)人從Web1.0時(shí)代的數(shù)據(jù)使用者變成2.0時(shí)代的數(shù)據(jù)制造者,由此帶來了數(shù)據(jù)量的爆發(fā)式增長。每時(shí)每刻,個(gè)人只要登錄互聯(lián)網(wǎng)就在制造產(chǎn)生數(shù)據(jù)。
3.由移動(dòng)互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)
移動(dòng)互聯(lián)網(wǎng)也算是互聯(lián)網(wǎng),所以移動(dòng)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)應(yīng)該歸類在互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)范圍以內(nèi),但是隨著智能終端和無線通信技術(shù)的不斷發(fā)展,移動(dòng)互聯(lián)網(wǎng)正成為每一個(gè)用戶采用最多的互聯(lián)網(wǎng)參與方式。
四、大數(shù)據(jù)的價(jià)值
在每時(shí)每刻產(chǎn)生的海量數(shù)據(jù)時(shí),我們每一個(gè)人,每一個(gè)參與者都將自己的實(shí)際情況、企業(yè)的發(fā)展方向、股市的發(fā)展趨勢、社會(huì)的價(jià)值導(dǎo)向、甚至恐怖份子的行動(dòng)意圖等各個(gè)方面。所有的過去和當(dāng)下都可以用數(shù)據(jù)表示,我們所有的現(xiàn)象、本質(zhì)以及未來都完全蘊(yùn)藏在數(shù)據(jù)中。
五、大數(shù)據(jù)未來發(fā)展的趨勢
趨勢一:數(shù)據(jù)的資源化
大數(shù)據(jù)已成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源,并已成為大家爭相搶奪的新焦點(diǎn)。
趨勢二:與云計(jì)算的深度結(jié)合
大數(shù)據(jù)離不開云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。
趨勢三:數(shù)據(jù)泄露泛濫
未來幾年數(shù)據(jù)泄露事件的增長率也許會(huì)達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障??梢哉f,每個(gè)財(cái)富500強(qiáng)企業(yè)都會(huì)面臨數(shù)據(jù)攻擊,無論他們是否已經(jīng)做好安全防范。因?yàn)槠髽I(yè)的所有信息都包含在企業(yè)數(shù)據(jù)中。
趨勢四:人類通過數(shù)據(jù)化永生
這個(gè)聽起來比較玄乎,但確實(shí)是有可能實(shí)現(xiàn)并做到的。例如一個(gè)人的身體各種特征指標(biāo)都可以用數(shù)據(jù)來表示,比如顏值,現(xiàn)今我們?nèi)メt(yī)院的各種檢查最后都是以數(shù)字的形式表示。當(dāng)科學(xué)技術(shù)進(jìn)步到一定程度,我的感情,我們的思維都可以用數(shù)字化表示的時(shí)候,我們每個(gè)人就可以在數(shù)字層面下得到永生。
六、結(jié)語
隨著大數(shù)據(jù)時(shí)代的到來,我們每一個(gè)個(gè)體由數(shù)據(jù)的使用者變成數(shù)據(jù)的制造產(chǎn)生者,我們的所有完全融入了數(shù)字,形成一序列的數(shù)據(jù)鏈,在數(shù)據(jù)與數(shù)據(jù)之間只有充分融入,把握主動(dòng),站在數(shù)據(jù)挖掘的頂端才能更號(hào)的掌握未來。此文只是對(duì)大數(shù)據(jù)的一些淺顯概念做了簡單的闡述,不乏錯(cuò)誤與不足之處,請(qǐng)斧正為謝!
參考文獻(xiàn):
[1]陳工孟,須成忠.大數(shù)據(jù)導(dǎo)論-關(guān)鍵技術(shù)與行業(yè)應(yīng)用最佳實(shí)踐.北京:清華大學(xué)出版社,2015.