趙蘇陽,李艷軍,錢小燕,曹愈遠(yuǎn),許振騰,喬磊,汪雷
(南京航空航天大學(xué)民航學(xué)院,南京 210000)
大數(shù)據(jù)基本概念、技術(shù)與挑戰(zhàn)
趙蘇陽,李艷軍,錢小燕,曹愈遠(yuǎn),許振騰,喬磊,汪雷
(南京航空航天大學(xué)民航學(xué)院,南京210000)
隨著云計(jì)算、物聯(lián)網(wǎng)、移動互連、社交媒體等新興信息技術(shù)和應(yīng)用模式的快速發(fā)展,信息技術(shù)與人類世界政治、經(jīng)濟(jì)、軍事、科研、生活等方方面面不斷交叉融合,全球數(shù)據(jù)量急劇增加,推動人類社會邁入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代的到來迅速引起了科技界和企業(yè)界甚至世界各國政府關(guān)注。2008年Nature推出了Big Data專刊、2008年Computing Community Consortium發(fā)表了題為 “Big Data Computing;Creating Revolutionary Breakthrough in Commerce,Science,and Society”的報(bào)告、2012年奧巴馬政府公布“大數(shù)據(jù)研發(fā)計(jì)劃”、2013年Science推出了“Dealing with Data”,2012年我國學(xué)術(shù)界亦在北京大學(xué)召開了首屆中國大數(shù)據(jù)應(yīng)用論壇。這些報(bào)告計(jì)劃以及論壇都是為了討論大數(shù)據(jù)的應(yīng)用價(jià)值以及大數(shù)據(jù)可能面對的若干挑戰(zhàn)。
1.1基本概念
大數(shù)據(jù)本身并不是一個具體的概念,顧名思義,它是指數(shù)據(jù)的規(guī)模非常大,但是以往也有表示數(shù)據(jù)規(guī)模很大的名詞如“大規(guī)模數(shù)據(jù)”、“超大規(guī)模數(shù)據(jù)”等。麥肯錫第一次對大數(shù)據(jù)作出了定義:大數(shù)據(jù)是指數(shù)據(jù)規(guī)模大到傳統(tǒng)的數(shù)據(jù)庫軟件工具已經(jīng)無法采集、存儲、管理和分析的數(shù)據(jù)集。也可以這樣理解:大數(shù)據(jù)是指利用現(xiàn)有理論、方法、技術(shù)和工具難以在短時(shí)間內(nèi)完成分析計(jì)算、整體呈現(xiàn)高價(jià)值的海量復(fù)雜數(shù)據(jù)集合。
1.2基本特征
大數(shù)據(jù)的特征一般可以用“5V”來表示:Volume、Variety、Velocity、Value以及Virtual。具體的特征描述見表1[1~2]。
表1 大數(shù)據(jù)的主要特征
1.3應(yīng)用
谷歌的首席經(jīng)濟(jì)學(xué)家Hal Varian說過:數(shù)據(jù)是可以廣泛應(yīng)用的只是缺乏從中提取知識的能力。收集數(shù)據(jù)的最終目的是根據(jù)具體的需要從數(shù)據(jù)中提取有用的知識。并將這些知識應(yīng)用到具體的領(lǐng)域中,當(dāng)然,不同領(lǐng)域的數(shù)據(jù)應(yīng)用有其各自不同的特點(diǎn)。表2是某些具有代表性的大數(shù)據(jù)應(yīng)用及相關(guān)的比較[3]。
表2 典型大數(shù)據(jù)應(yīng)用之間的比較
維克托邁爾在《大數(shù)據(jù)時(shí)代》一書中指出了大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念的三大轉(zhuǎn)變:要全體不要抽樣、要效率不要絕對精確、要相關(guān)不要因果。目前,大數(shù)據(jù)的處理模式主要有靜態(tài)批量處理(batch processing)和實(shí)時(shí)的流處理(stream processing)。
2.1批處理
批處理首先要對數(shù)據(jù)進(jìn)行存儲,然后再對這些靜態(tài)數(shù)據(jù)進(jìn)行集中的處理。如:互聯(lián)網(wǎng)中的社交網(wǎng)絡(luò)產(chǎn)生的大量的文本、圖片、音視頻等不同形式的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行批量處理分析,可以發(fā)現(xiàn)人與人之間隱含的關(guān)系;一些大型搜索引擎的廣告分析系統(tǒng),通過對廣告相關(guān)數(shù)據(jù)的批量處理可以提高廣告的投放效果來增加點(diǎn)擊量。圖1是大數(shù)據(jù)批處理模型。
2006年Hadoop成為了典型的大數(shù)據(jù)批量處理架構(gòu),由HDFS分布式文件系統(tǒng)負(fù)責(zé)靜態(tài)數(shù)據(jù)的存儲,并通過MapReduce將計(jì)算邏輯分配到各數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)計(jì)算和價(jià)值發(fā)現(xiàn)。圖2是一個完整的MapReduceguoc[8]。
圖1 大數(shù)據(jù)批處理模型
2.2流處理
流處理的理念是數(shù)據(jù)的價(jià)值會隨著時(shí)間的流逝而不斷減小。新的數(shù)據(jù)出現(xiàn)時(shí)刻和順序也不能確定,所以,對于流式數(shù)據(jù)不再進(jìn)行存儲,而是直接進(jìn)行數(shù)據(jù)的實(shí)時(shí)計(jì)算。
圖2 MapReduce執(zhí)行流程圖
2010年,谷歌推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)數(shù)據(jù)處理邁進(jìn)。流式處理典型的應(yīng)用有(1)數(shù)據(jù)采集應(yīng)用,(2)金融銀行業(yè)的應(yīng)用。如推特的Storm、Yahoo的S4就是典型流式的數(shù)據(jù)計(jì)算架構(gòu),數(shù)據(jù)在任務(wù)中被計(jì)算,并輸出有價(jià)值的信息。圖3是流處理中基本的數(shù)據(jù)流模型。圖4為數(shù)據(jù)流計(jì)算模型。
圖3 數(shù)據(jù)流的基本模型
圖4 大數(shù)據(jù)流式計(jì)算
總之,批量數(shù)據(jù)通常具有3個特征:數(shù)據(jù)體積大、數(shù)據(jù)精確度高以及數(shù)據(jù)價(jià)值密度低。流式數(shù)據(jù)的特征是:數(shù)據(jù)連續(xù)不斷、出現(xiàn)時(shí)間不確定、格式復(fù)雜,且對應(yīng)的處理工具需具備高性能、實(shí)時(shí),以及可擴(kuò)展等特性[4,10]。
如今,有很多工具被用來進(jìn)行大數(shù)據(jù)的分析,專業(yè)或非專業(yè),昂貴或免費(fèi)開源。2012年,KDNuggets針對專業(yè)人員進(jìn)行了一份調(diào)查報(bào)告:“一年中在實(shí)際項(xiàng)目中用到的大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)分析軟件”。這里簡要介紹使用頻率最高的前三種。
(1)R(30%)
R是開源編程語言,它可以用來進(jìn)行數(shù)據(jù)挖掘/分析和可視化。在R軟件環(huán)境中可以調(diào)用C、C++和Fortran編寫的代碼。專業(yè)用戶也可以通過C語言直接調(diào)用R對象,R之所以有這么多的用戶另一個重要原因是R語言是開源免費(fèi)的。在KDNuggets的另一份調(diào)查報(bào)告 “數(shù)據(jù)挖掘/分析中所使用的設(shè)計(jì)語言”顯示在2012年R語言擊敗了SQL和Java成為榜首。
(2)Excel(29%)
Excel是Office的核心組件之一。它提供了強(qiáng)大的數(shù)據(jù)處理、統(tǒng)計(jì)分析等功能。
(3)Rapid-I Rapidminer(26%)
Rapidminer是用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、預(yù)測分析的開源軟件。Rapidminer提供的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)程序包括:數(shù)據(jù)加載和轉(zhuǎn)換(ETL)、數(shù)據(jù)處理和可視化、建模、評估和部署。Rapidminer是用Java編寫的,還可以與R語言進(jìn)行協(xié)同工作[5]。
當(dāng)今,雖然大數(shù)據(jù)受到社會各界的高度重視,但是無論是在大數(shù)據(jù)的底層處理系統(tǒng)以及高層的分析手段都存在很多問題和挑戰(zhàn)。
(1)數(shù)據(jù)復(fù)雜
大數(shù)據(jù)的出現(xiàn),使人們在處理很多問題的時(shí)候可以獲得大量樣本,但這也直接使得數(shù)據(jù)類型模式多樣化、相互之間的關(guān)系繁雜、價(jià)值小密度大。目前,人們對于大數(shù)據(jù)復(fù)雜性的內(nèi)在機(jī)理及背后的物理意義缺乏理解,極大地制約了人們對大數(shù)據(jù)高效計(jì)算模型和方法的設(shè)計(jì)能力。
解決大數(shù)據(jù)復(fù)雜的問題需:①研究大數(shù)據(jù)復(fù)雜性規(guī)律;②研究在多模態(tài)關(guān)聯(lián)關(guān)系下的數(shù)據(jù)分布理論和模型。
(2)計(jì)算復(fù)雜
大數(shù)據(jù)多源異構(gòu)、規(guī)模巨大、快速多變、樣本量充足,內(nèi)在關(guān)聯(lián)關(guān)系密切而復(fù)雜,價(jià)值度分布極不均衡等特性對研究大數(shù)據(jù)的可計(jì)算性及建立新型計(jì)算范式提供了機(jī)遇,同時(shí)也提出了挑戰(zhàn)。表3是科學(xué)發(fā)現(xiàn)的四種范式。
解決大數(shù)據(jù)計(jì)算復(fù)雜的問題需:①著眼大數(shù)據(jù)的全生命周期,研究以數(shù)據(jù)為中心的計(jì)算模式;②研究適應(yīng)大數(shù)據(jù)的非確定性算法理論;③研究基于自舉和采樣的局部計(jì)算和近似方法;④研究按需約簡的方法。
(3)系統(tǒng)復(fù)雜
對于規(guī)模巨大、結(jié)構(gòu)復(fù)雜、價(jià)值密度小的大數(shù)據(jù),計(jì)算復(fù)雜度高、周期長、實(shí)時(shí)性要求高是大數(shù)據(jù)處理的主要難點(diǎn)。這些難點(diǎn)對大數(shù)據(jù)處理系統(tǒng)的運(yùn)行效率及單位能耗提出了苛刻要求,要求大數(shù)據(jù)處理系統(tǒng)必須具有高效能的特點(diǎn)。
表3 科學(xué)發(fā)現(xiàn)的4種范式
表4 各類型數(shù)據(jù)處理的代表性系統(tǒng)
解決系統(tǒng)復(fù)雜問題需:①結(jié)合大數(shù)據(jù)價(jià)值密度小的特點(diǎn),針對大數(shù)據(jù)分布存儲和處理的系統(tǒng)架構(gòu),以大數(shù)據(jù)感知、存儲與計(jì)算融合為大數(shù)據(jù)的計(jì)算準(zhǔn)則,在性能評價(jià)體系、分布式系統(tǒng)架構(gòu)、流式數(shù)據(jù)計(jì)算框架、在線數(shù)據(jù)處理方法等方面展開基礎(chǔ)性研究,并對作為重要驗(yàn)證工具的基準(zhǔn)測試程序及系統(tǒng)性能預(yù)測方法進(jìn)行研究,通過設(shè)計(jì)、實(shí)現(xiàn)與驗(yàn)證的迭代完善,最終實(shí)現(xiàn)大數(shù)據(jù)計(jì)算系統(tǒng)的數(shù)據(jù)獲取高吞吐、數(shù)據(jù)存儲低能耗和數(shù)據(jù)計(jì)算高效率[6~7]。
大數(shù)據(jù)的時(shí)代已經(jīng)到來,數(shù)據(jù)已經(jīng)從傳統(tǒng)的處理對象轉(zhuǎn)變?yōu)橐环N基礎(chǔ)資源,正確利用大數(shù)據(jù)必將給人們生活帶來便利,促進(jìn)我國未來的科技與經(jīng)濟(jì)發(fā)展。但大數(shù)據(jù)規(guī)模巨大,結(jié)構(gòu)復(fù)雜以及價(jià)值密度疏等特點(diǎn)也給大數(shù)據(jù)的正確利用和廣泛應(yīng)用帶來了不少問題與挑戰(zhàn)。解決好這些問題與挑戰(zhàn),必須先要對大數(shù)據(jù)的基本概念、基本特征、計(jì)算方式、分析工具進(jìn)行深度的剖析和理解。IDC預(yù)計(jì)到2020年中國產(chǎn)生的數(shù)據(jù)將占全球21%,而我國對于大數(shù)據(jù)方面的研究已經(jīng)落后于美國等國家,如何開發(fā)、利用大數(shù)據(jù)這一重要資源,是我國當(dāng)前亟需解決的問題[9]。
[1]陳美.大數(shù)據(jù)在公共交通中的應(yīng)用.圖書與情報(bào),1003-6938(2012)06-0022-07
[2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述.系統(tǒng)仿真學(xué)報(bào),1004-731X(2013)S-0142-05
[3]孟小峰.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn).計(jì)算機(jī)研究與發(fā)展,2013,50(1):146~169
[4]孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例.軟件學(xué)報(bào),2014,25(4):839~862
[5]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望.計(jì)算機(jī)研究與發(fā)展,2013:16~23
[6]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述.軟件學(xué)報(bào),2014,25(9):1889~1908
[7]The Economist.Data,Data,Everywhere-A Special Report on Managing Information[EB/OL].http://www.economist.com/node/15557443 [2012-10-02]
[8]Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C].Proc of OSDI 2004.Berkeley,CA:USENIX Association,2004:3:1~150
[9]王珊,王會舉.架構(gòu)大數(shù)據(jù):挑戰(zhàn)現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào)
[10]李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性.計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147~1162
趙蘇陽,男,江蘇揚(yáng)州人,碩士研究生,研究方向?yàn)榻煌ㄐ畔⒐こ碳翱刂?/p>
李艷軍(1968-),男,南京人,博士,教授,研究方向?yàn)檩d運(yùn)技術(shù)與工程
錢小燕(1979-),女,南京人,博士,副教授,研究方向?yàn)榻煌ㄐ畔⒐こ膛c控制
曹愈遠(yuǎn)(1983-),男,南京人,碩士,講師,研究方向?yàn)檩d運(yùn)技術(shù)與工程
許振騰(1989-),男,山東人,碩士在讀,研究方向?yàn)檩d運(yùn)技術(shù)與工程
喬磊(1990-),男,江蘇人,碩士在讀,研究方向?yàn)檩d運(yùn)技術(shù)與工程
汪雷(1990-),男,湖南人,碩士在讀,研究方向?yàn)榻煌ㄟ\(yùn)輸與工程
Big Data;Basic Concept;Processing Mode;Problems and Challenges
Basic Concept,Technology and Challenge of Big Data
ZHAO Su-yang,LI Yan-jun,QIAN Xiao-yan,CAO Yu-yuan,XU Zhen-teng,QIAO Lei,WANG Lei
(Nanjing University of Aeronautics&Astronautics,Nanjing 210000)
1007-1423(2015)08-0051-05
10.3969/j.issn.1007-1423.2015.08.012
2015-01-15
2015-02-11
隨著云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)類型和數(shù)量呈現(xiàn)出爆炸式的增長,大數(shù)據(jù)時(shí)代正式到來。人們發(fā)現(xiàn)數(shù)據(jù)可以被當(dāng)做一種基礎(chǔ)性的資源而不僅僅只是簡單的處理對象。大數(shù)據(jù)的數(shù)據(jù)復(fù)雜性、計(jì)算復(fù)雜性以及數(shù)據(jù)處理系統(tǒng)的復(fù)雜性都給大數(shù)據(jù)的計(jì)算及應(yīng)用帶來極大的挑戰(zhàn)。對大數(shù)據(jù)的基本概念、特征、處理模式以及技術(shù)難點(diǎn)進(jìn)行剖析研究都有助于更好地利用挖掘大數(shù)據(jù)的潛能和優(yōu)勢。
大數(shù)據(jù);基本概念;處理模式;問題與挑戰(zhàn)
With the development of cloud computing,Internet of things,social networks,the number and types of data showing explosive growth,the big data era is coming.People found that the data can be used as a fundamental resource and not just a simple processing object.The complexity of data complexity,large data calculation complexity and data processing systems are a great challenge for calculation and application of large data.Analysing the basic concept,features of the data processing mode and technical difficulties is helpful to better tap the potential and advantages of large data.