大數(shù)據(jù)戰(zhàn)略重點(diǎn)實(shí)驗(yàn)室
摘 要:自從2012年美國(guó)政府推出《大數(shù)據(jù)研究和發(fā)展計(jì)劃》以來,全球各組織、國(guó)家都紛紛在大數(shù)據(jù)戰(zhàn)略推進(jìn)方面積極行動(dòng),大數(shù)據(jù)相關(guān)的基礎(chǔ)設(shè)施、產(chǎn)業(yè)應(yīng)用和理論體系不斷發(fā)展與完善,大數(shù)據(jù)正從單一的技術(shù)概念逐漸轉(zhuǎn)化為新要素、新戰(zhàn)略、新思維。然而,目前社會(huì)各界關(guān)于大數(shù)據(jù)的基本概念還沒有形成統(tǒng)一、系統(tǒng)化的描述。為深入理解認(rèn)識(shí)大數(shù)據(jù)的本質(zhì),更好挖掘利用大數(shù)據(jù)的潛能和優(yōu)勢(shì),文章從大數(shù)據(jù)概念入手,從多個(gè)維度剖析了大數(shù)據(jù)的研究現(xiàn)狀,梳理了大數(shù)據(jù)的概念演變及其特性,并對(duì)大數(shù)據(jù)發(fā)展的現(xiàn)狀進(jìn)行分析,以期為大數(shù)據(jù)研究提供指導(dǎo)。
關(guān)鍵詞:大數(shù)據(jù)研究,概念,特征
中圖分類號(hào):N04;TP39;H059文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2017.04.009
Abstract: Since the U.S. government launched the Big Data Research and Development Initiative in 2012, international organizations and countries around the world have taken active actions to implement big data strategies. As a result, big datarelated infrastructure, industrial applications and theoretical systems are developing and improving. Big data is gradually transforming from a single technical concept to new elements, new strategies and new ways of thinking. However, the various sectors of society still do not have a unified and systematic description of the basic concept of big data. In order to provide guidance for big data research, gain a comprehensive understanding of the nature of big data, and better utilize and exert the potential and advantages of big data, this paper starts from the concept of big data, analyzes the present research status of big data from multiple dimensions, highlights the concept evolution and characteristics of big data, and analyzes the development status of big data.
Keywords: big data research, concept, characteristics
一 定義及內(nèi)涵
(一) 定義
大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對(duì)數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)[1]。
(二)研究現(xiàn)狀
目前,學(xué)術(shù)界、產(chǎn)業(yè)界、政府機(jī)構(gòu)都對(duì)大數(shù)據(jù)的內(nèi)涵和外延有過不同界定,其研究涉及性質(zhì)特點(diǎn)、要素構(gòu)成、技術(shù)系統(tǒng)、應(yīng)用范圍、價(jià)值來源等諸多方面。
(1)技術(shù)分析角度。這一類定義重點(diǎn)關(guān)注的是對(duì)海量、復(fù)雜數(shù)據(jù)進(jìn)行分析處理,從而獲得信息和知識(shí)的技術(shù)手段[2]。其中較為權(quán)威的觀點(diǎn)來自于麥肯錫全球研究院(Mckinsey Global Institute, MGI)所發(fā)表的《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》,該報(bào)告提出:“大數(shù)據(jù)”是指其大小超出了典型數(shù)據(jù)庫(kù)軟件的采集、儲(chǔ)存、管理和分析等能力的數(shù)據(jù)集。數(shù)據(jù)集成軟件商納斯達(dá)克(NASDAQ)認(rèn)為,大數(shù)據(jù)包括了海量數(shù)據(jù)和復(fù)雜數(shù)據(jù)類型,其規(guī)模超過傳統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行管理和處理的能力。綜合此類觀點(diǎn)來看,一是大數(shù)據(jù)是一種難以處理的大規(guī)模數(shù)據(jù)集,二是需要特定的技術(shù)才能完成其采集、分析、應(yīng)用等。
(2)大數(shù)據(jù)應(yīng)用價(jià)值角度。這一類定義強(qiáng)調(diào)的是大數(shù)據(jù)的應(yīng)用,關(guān)注的是從數(shù)據(jù)中獲取有價(jià)值的信息和知識(shí),最終目的是建立商業(yè)方面的競(jìng)爭(zhēng)優(yōu)勢(shì)甚至是創(chuàng)新商業(yè)模式。高德納咨詢公司(Gartner Group)曾提出:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。哈佛大學(xué)訪問學(xué)者徐晉在《大數(shù)據(jù)經(jīng)濟(jì)學(xué)》中指出,大數(shù)據(jù)是指存在價(jià)值關(guān)聯(lián)的海量數(shù)據(jù)。其本質(zhì)是社會(huì)經(jīng)濟(jì)的離散化解構(gòu)和全息化重構(gòu),表現(xiàn)為行業(yè)間海量數(shù)據(jù)的關(guān)系從量變到質(zhì)變的轉(zhuǎn)變(深度挖掘)。
(3)大數(shù)據(jù)對(duì)社會(huì)發(fā)展影響角度。這一類定義強(qiáng)調(diào)大數(shù)據(jù)對(duì)人類社會(huì)生產(chǎn)生活方式、思維范式等產(chǎn)生的重大影響,認(rèn)為大數(shù)據(jù)開啟了人類發(fā)展的新階段,并且認(rèn)為這種范式的影響是持久而深遠(yuǎn)的。數(shù)據(jù)科學(xué)家維克托·邁爾-舍恩伯格(Viktor MayerSchnberger)及肯尼斯·庫(kù)克耶(Kenneth Cukier)在出版的《大數(shù)據(jù)時(shí)代》中提出,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉;大數(shù)據(jù)還是改變市場(chǎng)、組織結(jié)構(gòu),以及政府與公民關(guān)系的方法[4]。哈佛大學(xué)定量社會(huì)學(xué)研究所主任蓋瑞·金(Gary King)在名為“Why‘Big DataIs a Big Deal”的演講中指出,大數(shù)據(jù)技術(shù)完全是一場(chǎng)數(shù)據(jù)革命(big data revolution),這場(chǎng)革命對(duì)政府管理、學(xué)術(shù)及商業(yè)帶來了很多顛覆式變革。他認(rèn)為,大數(shù)據(jù)技術(shù)將觸及任何一個(gè)領(lǐng)域,同時(shí)“大數(shù)據(jù)”時(shí)代還將引爆一場(chǎng)“哥白尼式革命”——它改變的不僅僅是信息生產(chǎn)力,更是信息生產(chǎn)關(guān)系。
二 起 源
(一)萌芽期
20世紀(jì)90年代興起的復(fù)雜性科學(xué),為人類提供了有機(jī)自然觀,整體全局、關(guān)聯(lián)、演化的復(fù)雜性思維方式和新的科學(xué)理論方法,也為大數(shù)據(jù)提供了理論基礎(chǔ),是大數(shù)據(jù)形成的萌芽階段。1997年10月,美國(guó)國(guó)家航空航天局(NASA)阿姆斯研究中心的邁克爾·考克斯(Michael Cox)和大衛(wèi)·埃爾斯沃斯(David Ellsworth)在第八屆美國(guó)電氣和電子工程師協(xié)會(huì)(Institute of Electrical and Electronics Engineers,IEEE)關(guān)于可視化的會(huì)議論文集中首次使用“大數(shù)據(jù)”概念,并界定了內(nèi)涵。他們表示,日新月異的計(jì)算機(jī)技術(shù)迅猛生長(zhǎng),并帶動(dòng)了數(shù)據(jù)處理技術(shù)的革新,促使人類重新調(diào)整自身認(rèn)識(shí)問題、解決問題的方法。1999年8月,史蒂夫·布賴森(Steve Bryson)等在《美國(guó)計(jì)算機(jī)和協(xié)會(huì)通訊》上發(fā)表了以“大數(shù)據(jù)的科學(xué)可視化”為副標(biāo)題的論文,首次在期刊中使用“大數(shù)據(jù)”這一術(shù)語。
這一階段的“大數(shù)據(jù)”多是一種概念構(gòu)想,并逐漸開始被一些研究者作為一個(gè)術(shù)語使用,常直指“大量的數(shù)據(jù)或數(shù)據(jù)集”這樣的字面含義,還沒有涵蓋到相關(guān)的收集、存儲(chǔ)、分析、應(yīng)用等技術(shù)方法與特征內(nèi)涵。
(二)發(fā)展期
從20世紀(jì)末到21世紀(jì)初期是大數(shù)據(jù)的發(fā)展期,在這一階段中大數(shù)據(jù)逐漸為學(xué)術(shù)界的研究者所關(guān)注。如經(jīng)濟(jì)學(xué)家弗朗西斯·X.迪博爾德(Francis X. Diebold)在2000年撰寫《大數(shù)據(jù),宏觀經(jīng)濟(jì)度量與預(yù)測(cè)動(dòng)態(tài)因素模型》來討論大數(shù)據(jù)在經(jīng)濟(jì)分析方面的運(yùn)用。英國(guó)Nature(自然)、美國(guó)Science(科學(xué))等期刊分別出版了大數(shù)據(jù)專刊,從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級(jí)計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面討論了大數(shù)據(jù)處理面臨的各種問題。在這一階段中大數(shù)據(jù)逐漸為理論界的研究者所關(guān)注,相關(guān)的定義、內(nèi)涵、特性也得到了進(jìn)一步的豐富。
(三)成熟期
2011年至今,是大數(shù)據(jù)發(fā)展的成熟階段。2011年5月,麥肯錫全球研究院(MGI)發(fā)布了《大數(shù)據(jù):下一個(gè)具有創(chuàng)新力、競(jìng)爭(zhēng)力與生產(chǎn)力的前沿領(lǐng)域》報(bào)告,系統(tǒng)闡述了大數(shù)據(jù)概念,列舉了大數(shù)據(jù)的核心技術(shù),分析了大數(shù)據(jù)在不同行業(yè)的應(yīng)用,提出了政府和企業(yè)決策者應(yīng)對(duì)大數(shù)據(jù)發(fā)展的策略。2012年,瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)成為主題之一。同時(shí),會(huì)上發(fā)布的報(bào)告《大數(shù)據(jù),大影響》宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。2014年后,世界經(jīng)濟(jì)論壇以“大數(shù)據(jù)的回報(bào)與風(fēng)險(xiǎn)”為主題發(fā)布了《全球信息技術(shù)報(bào)告》(第13版);美國(guó)發(fā)布了《大數(shù)據(jù):抓住機(jī)遇、保存價(jià)值》;聯(lián)合國(guó)啟動(dòng)“全球脈動(dòng)”計(jì)劃,并發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》;中國(guó)發(fā)布了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》;經(jīng)濟(jì)合作與發(fā)展組織(OECD)推出《使用大數(shù)據(jù)作決策》。越來越多的研究者對(duì)大數(shù)據(jù)的認(rèn)識(shí)也從技術(shù)概念豐富到了信息資產(chǎn)與思維變革等多個(gè)維度,一些國(guó)家、社會(huì)組織、企業(yè)開始將大數(shù)據(jù)上升為重要戰(zhàn)略。
三 特 性
大數(shù)據(jù)特性最早的提出者是麥塔集團(tuán)(META Group,現(xiàn)為高德納)分析師道格·萊尼(Doug Laney),他在研究報(bào)告《3D數(shù)據(jù)管理:控制數(shù)據(jù)數(shù)量、速度及種類》中指出,“數(shù)據(jù)激增的挑戰(zhàn)和機(jī)遇是三維的,不僅僅在我們通常所理解的數(shù)據(jù)量(volume)層面,還包括數(shù)據(jù)進(jìn)出的速度 (velocity) 以及數(shù)據(jù)種類范圍 (variety)”。此后,研究者紛紛從特性角度去分析和理解大數(shù)據(jù),并對(duì)這種“3V”的觀點(diǎn)加以豐富。如IBM商業(yè)價(jià)值研究院在《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》報(bào)告中提出應(yīng)增加準(zhǔn)確性(veracity);弗雷斯特研究公司(Forrester Research)分析師布萊恩·霍普金斯和鮑里斯·埃韋爾松認(rèn)為應(yīng)增加易變性(variability)等。其中國(guó)際數(shù)據(jù)公司(International Data Corporation ,IDC)的觀點(diǎn)最為權(quán)威,也得到了研究者的廣泛認(rèn)同,該公司在《從混沌中提取價(jià)值》報(bào)告中提出了大數(shù)據(jù)的“4V”特征,即:數(shù)據(jù)容量大(volume)、數(shù)據(jù)類型繁多(variety)、商業(yè)價(jià)值高(value)、處理速度快(velocity)。
(一)規(guī)模性(volume)
或稱數(shù)據(jù)體量巨大。目前,大數(shù)據(jù)的規(guī)模尚是一個(gè)不斷變化的指標(biāo),單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等,各方研究者雖然對(duì)大數(shù)據(jù)量的統(tǒng)計(jì)和預(yù)測(cè)結(jié)果并不完全相同,但一致認(rèn)為數(shù)據(jù)量將急劇增長(zhǎng)。
(二)多樣性(variety)
即數(shù)據(jù)類型多樣。從生成類型上分為交易數(shù)據(jù)、交互數(shù)據(jù)、傳感數(shù)據(jù);從數(shù)據(jù)來源上分為社交媒體、傳感器數(shù)據(jù)、系統(tǒng)數(shù)據(jù);從數(shù)據(jù)格式上分為文本、圖片、音頻、視頻、光譜等;從數(shù)據(jù)關(guān)系上分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);從數(shù)據(jù)所有者分為公司數(shù)據(jù)、政府?dāng)?shù)據(jù)、社會(huì)數(shù)據(jù)等。
(三)高速性(velocity)
數(shù)據(jù)的增長(zhǎng)速度快,以及要求數(shù)據(jù)訪問、處理、交付等速度快。數(shù)據(jù)創(chuàng)建、處理和分析的速度持續(xù)加快,其原因是數(shù)據(jù)創(chuàng)建的實(shí)時(shí)性屬性,以及需要將流數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中的要求。速度影響數(shù)據(jù)時(shí)延——從數(shù)據(jù)創(chuàng)建或獲取到數(shù)據(jù)可以訪問的時(shí)間差。目前,數(shù)據(jù)以傳統(tǒng)系統(tǒng)不可能達(dá)到的速度在產(chǎn)生、獲取、存儲(chǔ)和分析。對(duì)于對(duì)時(shí)間敏感的流程(例如實(shí)時(shí)欺詐監(jiān)測(cè)或多渠道“即時(shí)”營(yíng)銷),某些類型的數(shù)據(jù)必須實(shí)時(shí)地分析,以對(duì)業(yè)務(wù)產(chǎn)生價(jià)值。
(四)價(jià)值性(value)
大數(shù)據(jù)價(jià)值巨大。大數(shù)據(jù)能夠通過規(guī)模效應(yīng)將低價(jià)值密度的數(shù)據(jù)整合為高價(jià)值、作用巨大的信息資產(chǎn)。如美國(guó)社交網(wǎng)站 Facebook 有10億用戶,網(wǎng)站對(duì)這些用戶信息進(jìn)行分析后,廣告商可根據(jù)結(jié)果精準(zhǔn)投放廣告。對(duì)廣告商而言,10億用戶的數(shù)據(jù)價(jià)值上千億美元。據(jù)資料報(bào)道,2012 年,運(yùn)用大數(shù)據(jù)的世界貿(mào)易額已達(dá) 60 億美元。