曾凌靜
(福建船政交通職業(yè)學(xué)院信息工程系,福建福州350007)
大數(shù)據(jù)系統(tǒng)架構(gòu)及技術(shù)發(fā)展研究
曾凌靜
(福建船政交通職業(yè)學(xué)院信息工程系,福建福州350007)
近幾年技術(shù)的進(jìn)步使得許多領(lǐng)域(如醫(yī)療保健傳感器、客戶(hù)端、互聯(lián)網(wǎng)和金融企業(yè)、以及商業(yè)系統(tǒng))產(chǎn)生了海量數(shù)據(jù).相比傳統(tǒng)數(shù)據(jù),除了其龐大的數(shù)據(jù)量,大數(shù)據(jù)也表現(xiàn)出其他特性.例如,大的數(shù)據(jù)通常是非結(jié)構(gòu)化的,需要更精確的實(shí)時(shí)分析.這意味著需要新的系統(tǒng)架構(gòu)對(duì)數(shù)據(jù)進(jìn)行采集、傳輸、存儲(chǔ)以及大規(guī)模數(shù)據(jù)處理的機(jī)制.提出了大數(shù)據(jù)的定義和未來(lái)大數(shù)據(jù)面臨的挑戰(zhàn),將大數(shù)據(jù)系統(tǒng)分為四個(gè)連續(xù)的模塊,即數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析,這四個(gè)模塊可以形成大數(shù)據(jù)的價(jià)值鏈.對(duì)研究和產(chǎn)業(yè)機(jī)構(gòu)提出的許多方法進(jìn)行了分析和總結(jié)并列出了一些大數(shù)據(jù)系統(tǒng)潛在的研究方向.
云計(jì)算;數(shù)據(jù)生成;數(shù)據(jù)獲??;數(shù)據(jù)存儲(chǔ);數(shù)據(jù)分析
新興的大數(shù)據(jù),由于其廣泛的影響,已經(jīng)深刻地改變著我們的社會(huì),未來(lái)將繼續(xù)吸引來(lái)自技術(shù)專(zhuān)家和公眾的普遍關(guān)注.很明顯,隨著數(shù)據(jù)量呈幾何式的增長(zhǎng),我們正生活在海量數(shù)據(jù)的時(shí)代.例如,一個(gè)IDC報(bào)告[1]預(yù)測(cè),2005-2020年,全球數(shù)據(jù)量將從130-40 000艾字節(jié),相當(dāng)于每?jī)赡昃陀袃晌粩?shù)的增長(zhǎng),又如,Mckinsey的報(bào)告[2]指出,預(yù)計(jì)全球個(gè)人定位數(shù)據(jù)的潛在價(jià)值為1 000億美元,在未來(lái)的十年,服務(wù)提供商的消費(fèi)者和終端用戶(hù)的數(shù)據(jù)價(jià)值將會(huì)高達(dá)7 000億美元.“大數(shù)據(jù)”的趨勢(shì)已經(jīng)越來(lái)越明顯.事實(shí)上,大數(shù)據(jù)已從方方面面改變著我們的社會(huì).例如,Mckinsey的報(bào)告指出,預(yù)計(jì)全球個(gè)人定位數(shù)據(jù)的潛在價(jià)值為1 000億美元,在未來(lái)的10年,服務(wù)提供商的消費(fèi)者和終端用戶(hù)的數(shù)據(jù)價(jià)值將會(huì)高達(dá)7 000億美元.大數(shù)據(jù)的巨大潛力已迅速吸引了來(lái)自工業(yè)、政府和研究機(jī)構(gòu)等不同領(lǐng)域研究人員的極大興趣,例如,工業(yè),政府和研究機(jī)構(gòu).其次,政府也在擬定新的方案,加快應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的腳步.最后,Nature和Science雜志也發(fā)表了相關(guān)技術(shù)難題,討論大數(shù)據(jù)現(xiàn)狀及其挑戰(zhàn).
1.1 大數(shù)據(jù)的定義
關(guān)于大數(shù)據(jù)的定義是眾說(shuō)紛紜,尚無(wú)公認(rèn)的統(tǒng)一定義.從根本上說(shuō),大數(shù)據(jù)不僅僅意味著大量的數(shù)據(jù)還應(yīng)該具備其他特征,這就需要區(qū)分“海量數(shù)據(jù)”和“非常大的數(shù)據(jù)”兩個(gè)概念.數(shù)據(jù)絕對(duì)數(shù)量的發(fā)展歷史如圖1所示,可以看出目前數(shù)據(jù)以達(dá)到PB和EB級(jí)別,還有明顯增長(zhǎng)的趨勢(shì).
事實(shí)上,從一些定義大數(shù)據(jù)的文獻(xiàn)中可以發(fā)現(xiàn)以下3個(gè)類(lèi)型的定義可以方便我們更加清楚地認(rèn)識(shí)大數(shù)據(jù):
1)屬性定義:IDC是研究大數(shù)據(jù)及其影響的先驅(qū).它在2011年由EMC(云計(jì)算的領(lǐng)導(dǎo)者)主辦的會(huì)議上提出:“大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)、架構(gòu)和設(shè)計(jì),從大量的數(shù)據(jù)集提取有價(jià)值的數(shù)據(jù),從而實(shí)現(xiàn)快速獲取、發(fā)現(xiàn)和分析.”這個(gè)定義界定了大數(shù)據(jù),也就是人們常說(shuō)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值).在2001年的研究報(bào)告中也出現(xiàn)過(guò)類(lèi)似的定義:META集團(tuán)(現(xiàn)為Gartner公司)的分析師道格·蘭尼指出,數(shù)據(jù)增長(zhǎng)的挑戰(zhàn)和機(jī)遇是三維的,即數(shù)量、速度和多樣性.雖然這種描述與最初定義的大數(shù)據(jù)有所不同,但Gartner和許多行業(yè)包括IBM和一些微軟的研究人員在那之后的10年依舊使用這個(gè)“3VS”模式來(lái)描述大數(shù)據(jù).
2)比較定義:2011年,Mckinsey的報(bào)告[2]中定義大數(shù)據(jù)是“數(shù)據(jù)集的大小超出了一般數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、管理和分析的能力.”然而這個(gè)定義是主觀(guān)的,沒(méi)有說(shuō)明數(shù)據(jù)度量的依據(jù).
3)架構(gòu)定義:美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)提出“大數(shù)據(jù)是數(shù)據(jù)量,采集速度或數(shù)據(jù)表示達(dá)到傳統(tǒng)方法的上限,需要使用水平縮放處理來(lái)進(jìn)行有效的分析.”特別是,大數(shù)據(jù)可以進(jìn)一步分為大數(shù)據(jù)科學(xué)和大數(shù)據(jù)框架.大數(shù)據(jù)科學(xué)是“大數(shù)據(jù)的知識(shí)、現(xiàn)狀以及評(píng)估研究,”而大數(shù)據(jù)框架是“相關(guān)算法的軟件庫(kù),計(jì)算機(jī)分類(lèi)處理和分析問(wèn)題.”
傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的比較如表1所示.
圖1 大數(shù)據(jù)的發(fā)展歷史
表1 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)之間的比較
1.2 大數(shù)據(jù)處理的兩種方式:流處理和批處理
大數(shù)據(jù)處理是利用強(qiáng)大的支持平臺(tái),分析大數(shù)據(jù)的潛在價(jià)值.根據(jù)處理時(shí)間的要求,大數(shù)據(jù)分析可分為兩個(gè)方式[3]:
1)流處理:流處理方式[4]假設(shè)數(shù)據(jù)的潛在價(jià)值取決于數(shù)據(jù)的新鮮程度.由于流快速并攜帶龐大的數(shù)據(jù)集,只有其中一小部分被存儲(chǔ)在有限的存儲(chǔ)器,所以可以快速地分析數(shù)據(jù)導(dǎo)出結(jié)果.流傳輸處理的理論和技術(shù)已經(jīng)研究了數(shù)十年,代表性的開(kāi)源系統(tǒng)有Storm,S4[5]和Kafka.流處理方式是用于在線(xiàn)應(yīng)用,通常處理時(shí)間是秒、甚至毫秒水平.
2)批處理:在批處理方式中,首先存儲(chǔ)數(shù)據(jù),然后進(jìn)行分析數(shù)據(jù).MapReduce[4]已成為占主導(dǎo)地位的批處理模式.MapReduce的核心思想是:將數(shù)據(jù)分成小塊,然后把這些塊并行處理,以分布方式來(lái)產(chǎn)生中間結(jié)果,最后將所有的中間結(jié)果組合聚集,導(dǎo)出最終結(jié)果.該模型計(jì)算資源接近數(shù)據(jù)源的位置,這樣可以避免數(shù)據(jù)傳輸?shù)耐ㄐ砰_(kāi)銷(xiāo).MapReduce的模式很簡(jiǎn)單,已被廣泛應(yīng)用于生物信息學(xué)、Web挖掘和機(jī)器學(xué)習(xí).
兩個(gè)處理方式之間有許多差異如表2所示.
2.1 大數(shù)據(jù)系統(tǒng):價(jià)值鏈的綜述
一個(gè)大的數(shù)據(jù)系統(tǒng)是復(fù)雜的,在數(shù)據(jù)循環(huán)周期的不同階段提供不同的功能.在這種情況下,我們采取系統(tǒng)工程的方法,將一個(gè)典型的大數(shù)據(jù)系統(tǒng)分解成連續(xù)的4個(gè)階段,即數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析,如圖2所示.
表2 流處理和批處理的比較
圖2 大數(shù)據(jù)的價(jià)值鏈
2.2 大數(shù)據(jù)的分層系統(tǒng)
一個(gè)大數(shù)據(jù)系統(tǒng)是具有層狀結(jié)構(gòu)的.層狀結(jié)構(gòu)可劃分成3層,即基礎(chǔ)設(shè)施層、計(jì)算層以及應(yīng)用層.各層的功能如下:
1)基礎(chǔ)設(shè)施層包括ICT資源,它可以通過(guò)云計(jì)算和虛擬化技術(shù)實(shí)現(xiàn).在該層次中,資源必須合理分配以滿(mǎn)足大數(shù)據(jù)的需求,同時(shí)實(shí)現(xiàn)資源利用效率最大化,既要有節(jié)能意識(shí)也需要簡(jiǎn)化操作.
2)計(jì)算層是中間層,用來(lái)運(yùn)行原始的ICT資源和封裝各種數(shù)據(jù).包括數(shù)據(jù)集成、數(shù)據(jù)管理和編程模型.數(shù)據(jù)集成將數(shù)據(jù)源不同的數(shù)據(jù)和數(shù)據(jù)集整合成統(tǒng)一的形式,提供必要的數(shù)據(jù)預(yù)處理操作.數(shù)據(jù)管理是指提供持久的數(shù)據(jù)存儲(chǔ)和高效的管理,如分布式文件系統(tǒng)、SQL和NoSQL等數(shù)據(jù)存儲(chǔ)工具.編程模型則利用抽象的應(yīng)用程序邏輯,便于數(shù)據(jù)分析MapReduce[4],Dryad[6],Pregel[7],和Dremel[8]就是常見(jiàn)的編程模型.
3)應(yīng)用層利用計(jì)算層提供的編程模型來(lái)實(shí)現(xiàn)各種數(shù)據(jù)分析功能,包括查詢(xún)、統(tǒng)計(jì)分析、聚類(lèi)和分類(lèi)界面.麥肯錫提出了5種可能的大數(shù)據(jù)應(yīng)用領(lǐng)域:醫(yī)療保健、公共部門(mén)管理、零售業(yè)、全球制造業(yè)和個(gè)人位置數(shù)據(jù).
在表3中,我們列舉從應(yīng)用程序的角度具有代表性的大數(shù)據(jù)源.從表3可以看出,大部分的數(shù)據(jù)源生成的都是PB級(jí)非結(jié)構(gòu)化數(shù)據(jù),這樣可以對(duì)龐大用戶(hù)量的需求進(jìn)行快速的回應(yīng)和分析.
表3 典型的大數(shù)據(jù)源
數(shù)據(jù)獲取階段的任務(wù)是,以數(shù)字化的形式整合信息,以便進(jìn)一步存儲(chǔ)和分析.采集過(guò)程包括3個(gè)子步驟:數(shù)據(jù)獲取、數(shù)據(jù)傳輸以及數(shù)據(jù)預(yù)處理,如圖3所示.其中,數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理之間沒(méi)有嚴(yán)格的順序之分.表4列出了3種數(shù)據(jù)獲取方法的比較.
一個(gè)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)存儲(chǔ)子系統(tǒng)需要便于數(shù)據(jù)分析和特征提取.出于這個(gè)目的,數(shù)據(jù)存儲(chǔ)子系統(tǒng)應(yīng)滿(mǎn)足以下兩個(gè)特點(diǎn):
1)存儲(chǔ)的基礎(chǔ)架構(gòu)必須滿(mǎn)足可靠性和永久性.
2)數(shù)據(jù)存儲(chǔ)子系統(tǒng)必須提供一個(gè)可擴(kuò)展的訪(fǎng)問(wèn)接口來(lái)查詢(xún)和分析數(shù)據(jù).
5.1 存儲(chǔ)基礎(chǔ)架構(gòu)
存儲(chǔ)設(shè)備可以基于特定的技術(shù)進(jìn)行分類(lèi):1)隨機(jī)存取存儲(chǔ)器(RAM),2)磁性磁盤(pán)和磁盤(pán)陣列,3)存儲(chǔ)級(jí)內(nèi)存.
5.2 數(shù)據(jù)管理框架
數(shù)據(jù)管理框架考慮的是如何組織信息進(jìn)行有效的處理.數(shù)據(jù)管理框架分成3個(gè)層:文件系統(tǒng)、數(shù)據(jù)庫(kù)技術(shù)和編程模型,如圖4所示.
圖3 數(shù)據(jù)獲取步驟
數(shù)據(jù)分析是大數(shù)據(jù)的價(jià)值鏈的最后一個(gè),也是最重要的階段,其目標(biāo)是提取有用的數(shù)據(jù)價(jià)值,做出結(jié)論或支持決策.以下首先討論數(shù)據(jù)分析的目的和指標(biāo),其次介紹一些在數(shù)據(jù)分析中常用的方法.
6.1 目的和指標(biāo)
數(shù)據(jù)分析就是通過(guò)觀(guān)察、測(cè)量以及實(shí)驗(yàn)獲得關(guān)于感興趣的數(shù)據(jù)信息.以下僅列出一些潛在的用途:1)進(jìn)行推斷和解釋數(shù)據(jù),并確定如何使用它;
表43 種數(shù)據(jù)獲取方法的比較
2)檢查數(shù)據(jù)是否合法;
3)提供意見(jiàn)及協(xié)助決策;
4)推斷原因故障;
5)預(yù)測(cè)未來(lái).
6.2 常用的方法
雖然應(yīng)用領(lǐng)域不同,但是一些常見(jiàn)的數(shù)據(jù)分析方法是通用的.下面討論3種數(shù)據(jù)分析的方法.
1)數(shù)據(jù)可視化:與圖形信息密切相關(guān).數(shù)據(jù)可視化的目標(biāo)是通過(guò)圖形有效地傳遞信息.一般來(lái)說(shuō),圖表幫助人們方便快捷地了解信息.然而,隨著數(shù)據(jù)量的增長(zhǎng),以大數(shù)據(jù)的水平,傳統(tǒng)的電子表格不能處理巨大的數(shù)據(jù)量.可視化大數(shù)據(jù)已經(jīng)成為一個(gè)活躍的研究領(lǐng)域,因?yàn)樗梢詭椭惴ㄔO(shè)計(jì)、軟件開(kāi)發(fā)和客戶(hù)需求.
2)統(tǒng)計(jì)分析:是一種基于統(tǒng)計(jì)理論的應(yīng)用數(shù)學(xué)的一個(gè)分支.在統(tǒng)計(jì)理論中,隨機(jī)性和不確定性是用概率論建模.統(tǒng)計(jì)分析可以對(duì)大數(shù)據(jù)集進(jìn)行描述和推理.描述性的統(tǒng)計(jì)分析可以總結(jié)或描述數(shù)據(jù)集合,而推論性的統(tǒng)計(jì)分析可以用來(lái)做有關(guān)過(guò)程的推論.更復(fù)雜的多元統(tǒng)計(jì)分析,有因子分析,聚類(lèi)和判別分析技術(shù).
3)數(shù)據(jù)挖掘:是在大數(shù)據(jù)中發(fā)現(xiàn)模式的計(jì)算過(guò)程.各種數(shù)據(jù)挖掘算法,已經(jīng)在人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)信息和數(shù)據(jù)庫(kù)等領(lǐng)域被提出.在2006年IEEE關(guān)于數(shù)據(jù)挖掘的國(guó)際會(huì)議上(ICDM),提出了十大最具影響力的數(shù)據(jù)挖掘算法[10].這些算法是C4.5、k均值、SVM(支持向量機(jī))、Apriori、EM(期望最大化)、PageRank、AdaBoost、k近鄰算法、樸素貝葉斯和CART.這十個(gè)算法包括分類(lèi)、聚類(lèi)、回歸、統(tǒng)計(jì)學(xué)習(xí)、關(guān)聯(lián)分析和連接挖掘,這些都是在數(shù)據(jù)挖掘研究中較為重要的課題.此外,還有其他先進(jìn)的算法,如神經(jīng)網(wǎng)絡(luò)和遺傳算法.
圖4 數(shù)據(jù)管理技術(shù)
7.1 結(jié)論
大數(shù)據(jù)時(shí)代的來(lái)臨,帶來(lái)了數(shù)據(jù)采集、管理和分析機(jī)制的迫切需要.筆者介紹了大數(shù)據(jù)的概念,并強(qiáng)調(diào)了大數(shù)據(jù)的價(jià)值鏈,涵蓋了整個(gè)大數(shù)據(jù)的生命周期.大數(shù)據(jù)值鏈包括4個(gè)階段:數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析.
7.2 未來(lái)研究的方向
在大數(shù)據(jù)系統(tǒng)的許多挑戰(zhàn)需要進(jìn)一步的研究.下面列出了覆蓋大數(shù)據(jù)的整個(gè)生命周期,即從大數(shù)據(jù)平臺(tái)到應(yīng)用的未來(lái)研究方向:
1)大數(shù)據(jù)平臺(tái)
雖然Hadoop已成為大數(shù)據(jù)分析平臺(tái)的中流砥柱,但它仍然未成熟.首先,Hadoop要完成海量實(shí)時(shí)數(shù)據(jù)的采集和傳輸,必須提供比起批處理模式更快的處理速度.其次,Hadoop提供一個(gè)簡(jiǎn)潔的用戶(hù)編程接口,同時(shí)隱藏復(fù)雜的背景執(zhí)行.在某種意義上,這種簡(jiǎn)單會(huì)導(dǎo)致性能降低.我們應(yīng)該采用類(lèi)似DBMS更先進(jìn)的接口,同時(shí)優(yōu)化Hadoop的性能.第三,一個(gè)大規(guī)模Hadoop集群是需要數(shù)千甚至數(shù)十萬(wàn)臺(tái)服務(wù)器,這意味著大量的能量消耗.最后,隱私和安全是在大數(shù)據(jù)時(shí)代的一個(gè)重要問(wèn)題.大數(shù)據(jù)平臺(tái)應(yīng)該找到執(zhí)行數(shù)據(jù)訪(fǎng)問(wèn)控制和數(shù)據(jù)處理之間的良好平衡.
2)處理模型
當(dāng)前成熟批處理方式很難適應(yīng)迅速增長(zhǎng)的數(shù)據(jù)量和實(shí)時(shí)要求.這需要設(shè)計(jì)一個(gè)新的實(shí)時(shí)處理模型或者數(shù)據(jù)分析機(jī)制.在傳統(tǒng)的批處理模式中,數(shù)據(jù)應(yīng)先存儲(chǔ),然后,掃描整個(gè)數(shù)據(jù)集,以產(chǎn)生分析結(jié)果.很明顯,數(shù)據(jù)的傳輸、存儲(chǔ)和重復(fù)掃描過(guò)程中浪費(fèi)了許多時(shí)間成本.未來(lái)可以采用新的實(shí)時(shí)處理模式來(lái)減少這種開(kāi)銷(xiāo)成本.
3)大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)的研究仍處于萌芽階段.研究典型的大數(shù)據(jù)應(yīng)用可以產(chǎn)生利潤(rùn)的業(yè)務(wù),提高政府部門(mén)的工作效率,促進(jìn)人類(lèi)科學(xué)技術(shù)的發(fā)展,這些都需要加快大數(shù)據(jù)的進(jìn)展.
[1]GANTZ J,REINSEL D.The Digital Universe in 2020:Big Data,Bigger Digital Shadows,and Biggest Growth in the Far East[J].IDC iView:IDC Analyze the Future,2012,2007:1-16.
[2]MANYIKA J,CHUI M,BROWN B,et al.Big Data:The Next Frontier for Innovation,Competition,and Productivity[J].2011.
[3]Marche S.Is Facebook Making us lonely[J].The Atlantic,2012,309(4).
[4]Tatbul N.Streaming Data Integration:Challenges and Opportunities[C]//Data Engineering Workshops(ICDEW),2010 IEEE 26th International Conference on.IEEE,2010:155-158.
[5]NEUMEYER L,ROBBINS B,NAIR A,et al.S4:Distributed Stream Computing Platform[C]//Data Mining Workshops(ICDMW),2010 IEEE International Conference on.IEEE,2010:170-177.
[6]ISARD M,BUDIU M,YU Y,et al.Dryad:Distributed Data-parallel Programs from Sequential Building Blocks[C]//ACM SIGOPS Operating Systems Review.ACM,2007,41(3):59-72.
[7]MALEWICZ G,AUSTERN M H,BIK A J C,et al.Pregel:a System for Large-scale Graph Processing[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.ACM,2010:135-146.
[8]MELNIK S,GUBAREV A,LONG J J,et al.Dremel:Interactive Analysis of Web-scale Datasets[J].Proceedings of the VLDB Endowment,2010,3(1-2):330-339.
[9]LABRINIDIS A,JAGADISH H V.Challenges and Opportunities with big Data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.
[10]WU X,KUMAR V,QUINLAN J R,et al.Top 10 Algorithms in Data mining[J].Knowledge and Information Systems,2008,14
(1):1-37.
(責(zé)任編輯 李健飛)
A Research on the Development of Large Data System Architecture and Technology
ZENG Ling-jing
(Department of Information Engineering,F(xiàn)ujian Vocational College of Chuanzheng Communications,F(xiàn)uzhou,F(xiàn)ujian 350007,China)
In recent years,the development of technology in many fields(such as medical sensors,client,Internet and financial business,and business system)has produced massive amounts of data.Compared with the traditional data,in addition to the huge amount of data,large data also show other characteristics.For example,the data are unstructured,needing real-time and precise analysis,which mean the need for a new system of collection,data transmission,storage,and the mechanism of large-scale data processing.This paper first puts forward the definition of big data and the future of big data challenges.Second,a big data system is divided into four sequential modules,namely data generation,data acquisition,data storage and data analysis;the four modules can form a large data value chain.Subsequently,many methods of research and industrial structure are analyzed and summarized.Finally,it proposes the research direction of the potential of big data system.
cloud computing;data generation;data acquisition;data storage;data analysis
TP301
:A
:1673-1972(2015)06-0038-06
2015-04-02
曾凌靜(1983-),女,福建福州人,講師,主要從事云計(jì)算研究.