呂登龍, 朱詩兵
(1. 裝備學(xué)院 研究生管理大隊(duì), 北京 101416; 2. 裝備學(xué)院 信息裝備系, 北京 101416)
大數(shù)據(jù)及其體系架構(gòu)與關(guān)鍵技術(shù)綜述
呂登龍1, 朱詩兵2
(1. 裝備學(xué)院 研究生管理大隊(duì), 北京 101416; 2. 裝備學(xué)院 信息裝備系, 北京 101416)
介紹了大數(shù)據(jù)的發(fā)展現(xiàn)狀、研究動(dòng)態(tài)和應(yīng)用前景。針對(duì)大數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、研究觀點(diǎn)紛雜的問題,以比較辨析的方法從新的視角重新定義了大數(shù)據(jù);注重安全性研究,分析總結(jié)了大數(shù)據(jù)的“6V”特征;從大數(shù)據(jù)標(biāo)準(zhǔn)化入手,深入分析現(xiàn)有研究成果,歸納總結(jié)了大數(shù)據(jù)的體系架構(gòu)和目前大數(shù)據(jù)應(yīng)用的共性技術(shù),分析了各類技術(shù)的內(nèi)涵,使大數(shù)據(jù)體系架構(gòu)和關(guān)鍵技術(shù)有較為系統(tǒng)的展現(xiàn)。
大數(shù)據(jù);體系架構(gòu);關(guān)鍵技術(shù)
近年來,隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、社交網(wǎng)絡(luò)、傳感器、數(shù)據(jù)存儲(chǔ)等技術(shù)和服務(wù)的迅猛發(fā)展,導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)呈爆炸式增長(zhǎng)。據(jù)統(tǒng)計(jì)[1],中國互聯(lián)網(wǎng)的社交媒體用戶達(dá)6.59億,超過了美國和歐洲的總和,各種App的應(yīng)用,使得網(wǎng)絡(luò)數(shù)據(jù)急劇增長(zhǎng)。同時(shí),教育、醫(yī)療衛(wèi)生、金融、科學(xué)研究等各行業(yè)也在源源不斷地產(chǎn)生數(shù)據(jù),世界已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,并正受其影響和推動(dòng)發(fā)展。根據(jù)國際數(shù)據(jù)公司(International Data Corporation,IDC)數(shù)字宇宙(Digital Universe)監(jiān)測(cè)顯示[2],全球數(shù)據(jù)量以大約每2年2倍的速度增長(zhǎng),預(yù)計(jì)到2020年,全球數(shù)據(jù)總量將達(dá)到44ZB。IDC報(bào)告顯示[3],2014—2019年全球大數(shù)據(jù)技術(shù)和服務(wù)市場(chǎng)復(fù)合年增長(zhǎng)率達(dá)23.1%,2019年大數(shù)據(jù)市場(chǎng)總規(guī)模將達(dá)486億美元;2014年IDC對(duì)中國2013—2017年大數(shù)據(jù)與服務(wù)市場(chǎng)的預(yù)測(cè)[4]顯示,中國將保持38.7%復(fù)合年增長(zhǎng)率,到2017年大數(shù)據(jù)的市場(chǎng)規(guī)模將增長(zhǎng)到8.501億美元;未來幾年,世界企業(yè)將進(jìn)入規(guī)?;臄?shù)字化轉(zhuǎn)型階段,此過程將會(huì)產(chǎn)生更巨大規(guī)模的數(shù)據(jù)。
大數(shù)據(jù)已經(jīng)引起了世界各國和地區(qū)的廣泛關(guān)注。美國將大數(shù)據(jù)研究和應(yīng)用提升到了國家戰(zhàn)略層面,接連出臺(tái)了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》《支持?jǐn)?shù)據(jù)驅(qū)動(dòng)型創(chuàng)新的技術(shù)與政策》《大數(shù)據(jù):把握機(jī)遇,守護(hù)價(jià)值》等決策性和指導(dǎo)性文件,并在應(yīng)用領(lǐng)域已經(jīng)處在世界的領(lǐng)先地位?!袄忡R門”事件曝光了美國對(duì)全球的監(jiān)控計(jì)劃,一方面凸顯了美國在全球數(shù)據(jù)掌控的絕對(duì)優(yōu)勢(shì),另一方面也為世界其他主要國家敲響了數(shù)據(jù)保衛(wèi)戰(zhàn)的警鐘。歐盟成立了歐洲網(wǎng)絡(luò)與信息安全局(European Network and Information Security Agency ,ENISA),并將數(shù)據(jù)應(yīng)用提升到戰(zhàn)略層面,出臺(tái)了《數(shù)據(jù)價(jià)值鏈戰(zhàn)略計(jì)劃》,英國還專門制定了《英國數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃》。日本、韓國也分別制定了《創(chuàng)建最尖端IT國家宣言》和《大數(shù)據(jù)中心戰(zhàn)略》。我國也意識(shí)到了大數(shù)據(jù)及應(yīng)用的重要性,實(shí)施了國家大數(shù)據(jù)戰(zhàn)略,從2015年3月至9月,接連制定了《“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃》《大數(shù)據(jù)產(chǎn)業(yè)“十三五”規(guī)劃》,實(shí)施“加快推進(jìn)云計(jì)算與大數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)”計(jì)劃,出臺(tái)了《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動(dòng)的指導(dǎo)意見》和《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》等。隨著信息技術(shù)在軍事領(lǐng)域的應(yīng)用發(fā)展,軍事數(shù)據(jù)也呈現(xiàn)爆炸式增長(zhǎng)趨勢(shì),軍事大數(shù)據(jù)時(shí)代也已經(jīng)到來。未來信息化戰(zhàn)爭(zhēng)更多的是數(shù)據(jù)驅(qū)動(dòng)下的戰(zhàn)爭(zhēng),誰掌握更多的數(shù)據(jù),誰能在瞬息萬變的戰(zhàn)場(chǎng)態(tài)勢(shì)下快速進(jìn)行數(shù)據(jù)分析處理,誰就能掌握制數(shù)據(jù)權(quán),就會(huì)獲得戰(zhàn)爭(zhēng)的勝利。
研究結(jié)果表明:目前大數(shù)據(jù)的概念、體系架構(gòu)、關(guān)鍵技術(shù)等方面還有待標(biāo)準(zhǔn)化,在安全和隱私保護(hù)方面還面臨著嚴(yán)峻挑戰(zhàn),從概念提出到技術(shù)應(yīng)用、再到科學(xué)研究的“第四范式”,大數(shù)據(jù)還有很大的研究和發(fā)展空間。本文分析了大數(shù)據(jù)的概念、特點(diǎn)及發(fā)展現(xiàn)狀,重點(diǎn)分析、歸納、總結(jié)了大數(shù)據(jù)的體系架構(gòu)和關(guān)鍵技術(shù)。
1.1 大數(shù)據(jù)定義及特征分析
對(duì)于大數(shù)據(jù),目前在研究和應(yīng)用領(lǐng)域還沒有一個(gè)標(biāo)準(zhǔn)的定義,比較流行的定義主要有2類:(1)大數(shù)據(jù)是從規(guī)模巨大、形式多樣的數(shù)據(jù)中,通過高效捕捉、發(fā)現(xiàn)和分析獲取有價(jià)值信息的一種新的技術(shù)架構(gòu),是從“What is big data?”的角度定義,IDC、IBM以及百度百科等持這種觀點(diǎn)[5-7],主要強(qiáng)調(diào)的是一種數(shù)據(jù)處理的技術(shù)架構(gòu);(2)大數(shù)據(jù)包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),它的規(guī)模相當(dāng)龐大以至于用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)很難對(duì)其進(jìn)行處理,是從“How hard to deal with big data!”的角度定義, Mckinsey、Gartner以及維基百科等持這樣的觀點(diǎn)[8-10],主要強(qiáng)調(diào)的是處理大數(shù)據(jù)的困難所在。
2類定義都一定程度反映了大數(shù)據(jù)的最基本特點(diǎn):大規(guī)模(Volume)、多樣性(Variety)和高速性(Velocity),簡(jiǎn)稱大數(shù)據(jù)的“3V”特性[11]。隨著對(duì)大數(shù)據(jù)研究的深入,研究者對(duì)大數(shù)據(jù)的特點(diǎn)進(jìn)行了深度挖掘和總結(jié),將大數(shù)據(jù)的“3V”特性進(jìn)行了豐富和擴(kuò)展,又有了“4V”[12]、“5V”[13-14]、“6V”和“7V”[15-16]的特性概括,而比較公認(rèn)的是“5V”特性。當(dāng)然,對(duì)大數(shù)據(jù)關(guān)注的重點(diǎn)不同,研究者對(duì)大數(shù)據(jù)特性的理解和總結(jié)也會(huì)有所不同。
作者認(rèn)為:大數(shù)據(jù)在推動(dòng)經(jīng)濟(jì)社會(huì)創(chuàng)新發(fā)展及創(chuàng)造社會(huì)效益的同時(shí),本身的安全問題也日益面臨著嚴(yán)峻挑戰(zhàn),大數(shù)據(jù)及大數(shù)據(jù)設(shè)施極易成為被攻擊的目標(biāo),大數(shù)據(jù)分析和服務(wù)也極易泄露個(gè)人隱私、企業(yè)等機(jī)構(gòu)的敏感信息,甚至是國家機(jī)密。
就此來看,大數(shù)據(jù)還應(yīng)包含另外一個(gè)重要特性:Vulnerable(易受攻擊),構(gòu)成“6V”特性(Volume, Velocity, Variety, Value, Veracity and Vulnerable)比較合理,這6個(gè)“V”共同作用,構(gòu)成了大數(shù)據(jù)的特征體系,貫穿于從數(shù)據(jù)源到數(shù)據(jù)分析再到數(shù)據(jù)解釋的整個(gè)大數(shù)據(jù)生命周期,表1對(duì)大數(shù)據(jù)的“6V”特性進(jìn)行了具體描述。
表1 大數(shù)據(jù)“6V”特性的具體描述
續(xù)表
1.2 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)對(duì)比分析
為了更好地研究大數(shù)據(jù),我們將前節(jié)所述2類定義進(jìn)行了融合處理,這樣來定義大數(shù)據(jù):大數(shù)據(jù)規(guī)模巨大、形式多樣(包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),通過傳統(tǒng)的數(shù)據(jù)庫技術(shù)和數(shù)據(jù)分析技術(shù)難以進(jìn)行處理,只有采用新的技術(shù)架構(gòu)才能高效捕捉、發(fā)現(xiàn)和分析,并從中獲取有價(jià)值的信息??梢钥吹酱髷?shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、體量、處理、存儲(chǔ)等方面與傳統(tǒng)數(shù)據(jù)有很大的區(qū)別,這些區(qū)別主要體現(xiàn)在數(shù)據(jù)分析模式的不同。圖1顯示了大數(shù)據(jù)分析模式的模型架構(gòu)。從模型架構(gòu)上來看,傳統(tǒng)數(shù)據(jù)來源一般為各種業(yè)務(wù)系統(tǒng),數(shù)據(jù)主要是結(jié)構(gòu)化的,存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,需要將數(shù)據(jù)從這些關(guān)系數(shù)據(jù)庫中通過抽取、轉(zhuǎn)換和加載等一系列操作后,轉(zhuǎn)移到數(shù)據(jù)倉庫中再進(jìn)行數(shù)據(jù)分析,分析過程主要是線下分析;大數(shù)據(jù)來源廣泛,除了傳統(tǒng)業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫外,還包括移動(dòng)終端、傳感器網(wǎng)及社交媒體等來源,數(shù)據(jù)類型既有結(jié)構(gòu)化的也有非結(jié)構(gòu)和半結(jié)構(gòu)化的,分析過程既有線上分析也有線下分析,分析模式不僅包含了傳統(tǒng)的數(shù)據(jù)分析,還解決了傳統(tǒng)模式下無法很好對(duì)非結(jié)構(gòu)化、半結(jié)構(gòu)化及實(shí)時(shí)流數(shù)據(jù)進(jìn)行分析的問題,同時(shí)大數(shù)據(jù)技術(shù)也一定程度緩解了傳統(tǒng)數(shù)據(jù)處理軟件和硬件無法對(duì)海量數(shù)據(jù)進(jìn)行分析處理的壓力。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的具體區(qū)別,如表2~表4所示。
圖1 大數(shù)據(jù)分析模式的模型架構(gòu)
比較項(xiàng)目傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)來源數(shù)據(jù)來源單一,一般為各種業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫,約占數(shù)據(jù)總量的20%數(shù)據(jù)來源多,除了業(yè)務(wù)系統(tǒng)外,各種智能終端、傳感器、網(wǎng)絡(luò)爬蟲、云服務(wù)、社交媒體等都是大數(shù)據(jù)來源,約占數(shù)據(jù)總量的80%數(shù)據(jù)類型類型單一,以結(jié)構(gòu)化數(shù)據(jù)為主類型多樣,既包括結(jié)構(gòu)化數(shù)據(jù),也包括半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般是GB至TB規(guī)模TB、PB、EB甚至ZB規(guī)模,不同行業(yè)和領(lǐng)域的規(guī)模會(huì)有不同產(chǎn)生模式先有模式后有數(shù)據(jù)難以預(yù)先確定模式,數(shù)據(jù)出現(xiàn)后才能確定,數(shù)據(jù)模式會(huì)不斷演化存儲(chǔ)模式關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫,可擴(kuò)展性差既有關(guān)系型數(shù)據(jù)庫和倉庫,也有鍵值存儲(chǔ)、列存儲(chǔ)、文檔存儲(chǔ)、圖形存儲(chǔ)等非關(guān)系型數(shù)據(jù)庫和倉庫,分布式設(shè)計(jì),易于擴(kuò)展分析方法針對(duì)部分?jǐn)?shù)據(jù)的采樣分析、統(tǒng)計(jì)學(xué)針對(duì)所有數(shù)據(jù)的全數(shù)據(jù)分析、統(tǒng)計(jì)學(xué)精準(zhǔn)度需要精確數(shù)據(jù)不需要精確數(shù)據(jù),允許冗余分析目標(biāo)分析數(shù)據(jù)的因果關(guān)系,即知其然知其所以然除了分析因果關(guān)系外,更多的分析數(shù)據(jù)的相關(guān)關(guān)系或關(guān)聯(lián)關(guān)系,即知其然不知其所以然硬件基礎(chǔ)支持關(guān)系數(shù)據(jù)庫的大型服務(wù)器,受關(guān)系數(shù)據(jù)庫制約,硬件難以進(jìn)行橫向擴(kuò)展,處理大數(shù)據(jù)受限。支持關(guān)系和非關(guān)系數(shù)據(jù)庫的大型服務(wù)器集群,有很好的擴(kuò)展性,能夠很好地處理大數(shù)據(jù)
表3 不同數(shù)據(jù)類型特點(diǎn)對(duì)比
表4 不同行業(yè)或領(lǐng)域大數(shù)據(jù)規(guī)模對(duì)比[17]
綜上所述,大數(shù)據(jù)是個(gè)系統(tǒng)的概念,是由大數(shù)據(jù)本身、大數(shù)據(jù)處理過程、大數(shù)據(jù)結(jié)果及運(yùn)用組成的體系,缺一不可,如果不考慮大數(shù)據(jù)處理及結(jié)果運(yùn)用,那么大數(shù)據(jù)僅僅是規(guī)模龐大的普通數(shù)據(jù),也就無所謂“大數(shù)據(jù)”這一新生事物了。
2.1 大數(shù)據(jù)體系架構(gòu)現(xiàn)狀
對(duì)比分析Gartner公司公布的2013—2015年新興技術(shù)炒作曲線圖[18-20],可以看出大數(shù)據(jù)從2013年的火熱到2014年開始走向低谷直到2015年在曲線圖上消失,表明大數(shù)據(jù)技術(shù)已趨于成熟并被廣泛應(yīng)用。而對(duì)大數(shù)據(jù)標(biāo)準(zhǔn)化的研究始于2012年,目前從國內(nèi)外研究現(xiàn)狀來看尚處于起步階段[21-25],大數(shù)據(jù)體系并沒有統(tǒng)一標(biāo)準(zhǔn)的應(yīng)用模型。大數(shù)據(jù)技術(shù)應(yīng)用早于大數(shù)據(jù)標(biāo)準(zhǔn)化研究,從應(yīng)用實(shí)際來看,大數(shù)據(jù)體系更偏向于軟件系統(tǒng)。IEEE軟件工程標(biāo)準(zhǔn)委員會(huì)對(duì)軟件系統(tǒng)架構(gòu)進(jìn)行了定義[26]:軟件系統(tǒng)架構(gòu)包含各組成要素和各要素之間的相互關(guān)系、運(yùn)行環(huán)境以及設(shè)計(jì)和運(yùn)行原理描述。大多數(shù)研究機(jī)構(gòu)和組織也主要基于軟件系統(tǒng)來研究大數(shù)據(jù)體系架構(gòu)。
圖2 大數(shù)據(jù)參考架構(gòu)
美國國家標(biāo)準(zhǔn)與技術(shù)研究院(National Institute of Standards and Technology,NIST)對(duì)9種大數(shù)據(jù)解決方案的體系架構(gòu)進(jìn)行了詳細(xì)剖析和對(duì)比分析,確定了大數(shù)據(jù)體系架構(gòu)的共性部分,在此基礎(chǔ)上按照邏輯角色和商業(yè)應(yīng)用的目的給出了大數(shù)據(jù)參考架構(gòu)[27-28],中國電子技術(shù)標(biāo)準(zhǔn)化研究院對(duì)NIST研究成果進(jìn)行了豐富和完善[29],在原有架構(gòu)的基礎(chǔ)上細(xì)化出活動(dòng)和組件的概念,明確了角色的行為動(dòng)作和行為的環(huán)境支撐以及相互之間的邏輯關(guān)系,使得整個(gè)架構(gòu)更加具體形象,如圖2所示。整個(gè)參考架構(gòu)圍繞2個(gè)價(jià)值鏈進(jìn)行構(gòu)建:橫向?yàn)樾畔r(jià)值鏈,通過數(shù)據(jù)收集、集成、分析、分析結(jié)果應(yīng)用創(chuàng)造價(jià)值;縱向?yàn)樾畔⒓夹g(shù)(IT)價(jià)值鏈,通過提供網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺(tái)、應(yīng)用工具及其他服務(wù)創(chuàng)造價(jià)值。架構(gòu)定義了5個(gè)邏輯角色:數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、系統(tǒng)協(xié)調(diào)者和數(shù)據(jù)消費(fèi)者,整個(gè)架構(gòu)以大數(shù)據(jù)應(yīng)用提供者為中心提供了連通其他4個(gè)角色的接口。架構(gòu)包含了2個(gè)服務(wù)和功能保障構(gòu)件:安全隱私和管理,分別對(duì)各接口和大數(shù)據(jù)框架提供者內(nèi)部進(jìn)行安全與隱私監(jiān)管以及對(duì)全系統(tǒng)各要素進(jìn)行統(tǒng)一管理,從而構(gòu)成大數(shù)據(jù)應(yīng)用的完整體系。
圖3 大數(shù)據(jù)技術(shù)參考架構(gòu)
文獻(xiàn)[22]借鑒了ISO/IECJTC1/SC32(數(shù)據(jù)管理和交換分技術(shù)委員會(huì))對(duì)大數(shù)據(jù)標(biāo)準(zhǔn)概念模型的研究成果,提出了大數(shù)據(jù)技術(shù)參考架構(gòu),如圖3所示。該架構(gòu)綜合考慮數(shù)據(jù)的生命周期,采取分層的模型結(jié)構(gòu),將大數(shù)據(jù)技術(shù)按照生命周期劃分為4個(gè)層次、2個(gè)技術(shù)支撐體系。其中,4個(gè)層次包括數(shù)據(jù)采集層、數(shù)據(jù)支撐層、數(shù)據(jù)服務(wù)層和共性應(yīng)用層;2個(gè)技術(shù)支撐體系包括數(shù)據(jù)傳輸技術(shù)體系和數(shù)據(jù)安全技術(shù)體系。層與層之間形成服務(wù)與依賴的關(guān)系,下層為上層提供服務(wù),上層依賴于下層服務(wù),2個(gè)技術(shù)支撐體系分別保證了層間及層內(nèi)數(shù)據(jù)通信暢通和可靠的信息安全環(huán)境。
雖然不同機(jī)構(gòu)或組織對(duì)大數(shù)據(jù)體系架構(gòu)的設(shè)計(jì)有所不同,但從解決問題的實(shí)質(zhì)上來看,不同的體系架構(gòu)之間又有共性的方面:(1) 工作流程主要圍繞大數(shù)據(jù)生命周期進(jìn)行設(shè)計(jì);(2) 工作方法主要依靠分布式存儲(chǔ)和分布式并行處理來實(shí)現(xiàn);(3) 基礎(chǔ)設(shè)施具有良好的擴(kuò)展性;(4) 大數(shù)據(jù)隱私和安全被廣泛重視。
如同其他技術(shù)或事物一樣,大數(shù)據(jù)體系會(huì)逐漸趨于一致并最終實(shí)現(xiàn)標(biāo)準(zhǔn)化,而具有普遍適用的標(biāo)準(zhǔn)又能更好地為大數(shù)據(jù)研究和應(yīng)用提供理論指導(dǎo)和技術(shù)參考。
2.2 典型大數(shù)據(jù)開源架構(gòu)
目前,比較流行的典型大數(shù)據(jù)處理開源架構(gòu)主要有Hadoop、Storm和Spark 3種。
_2.2.1 Hadoop
Hadoop的核心思想是通過大量高效的硬件集群和標(biāo)準(zhǔn)接口構(gòu)建大規(guī)模分布式計(jì)算系統(tǒng),以軟件處理的方式為海量數(shù)據(jù)提供存儲(chǔ)和計(jì)算。Hadoop的核心組件是HDFS(Hadoop Distributed File System)和Hadoop MapReduce,其他組件為核心組件提供配套和補(bǔ)充性服務(wù),其基本體系架構(gòu)如圖4所示[30-31]。
圖5 HDFS基本體系架構(gòu)
圖4 Hadoop基本體系架構(gòu)
1) HDFS。其思想來源于Google文件系統(tǒng)(Google File System,GFS),是GFS的開源實(shí)現(xiàn)。HDFS特點(diǎn)之一是以流式數(shù)據(jù)訪問模式實(shí)現(xiàn)超大規(guī)模數(shù)據(jù)集存儲(chǔ)。HDFS采取數(shù)據(jù)集一次寫入、多次讀取方式[32-34],實(shí)現(xiàn)了分布式環(huán)境下流式訪問數(shù)據(jù)的能力,保證了數(shù)據(jù)的大吞吐量。HDFS的基本體系架構(gòu)如圖5所示,總體上采用了主從式執(zhí)行模式,主要由Client、NameNode、SecondaryNameNode和DataNode幾個(gè)組件構(gòu)成。
Client是客戶端,主要功能是為用戶提供訪問文件系統(tǒng)的接口,通過NameNode和DataNode交互訪問HDFS中的文件;NameNode是HDFS的主節(jié)點(diǎn),負(fù)責(zé)協(xié)調(diào)客戶端對(duì)文件系統(tǒng)的訪問,管理文件系統(tǒng)的命名空間、文件目錄樹和元數(shù)據(jù)信息,并且負(fù)責(zé)監(jiān)控和調(diào)度DataNode;DataNode是NameNode的從節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)的實(shí)際存儲(chǔ),同時(shí)DataNode以Heartbeat的方式向NameNode報(bào)告節(jié)點(diǎn)的健康狀況。SecondaryNameNode是監(jiān)控HDFS運(yùn)行狀態(tài)的輔助節(jié)點(diǎn),在NameNode出現(xiàn)問題時(shí)及時(shí)進(jìn)行熱備份來代替NameNode。
2) Hadoop MapReduce。其主要設(shè)計(jì)目標(biāo)是為用戶提供抽象的程序模塊,簡(jiǎn)化分布式程序設(shè)計(jì),將用戶從繁瑣的接口和通信等程序設(shè)計(jì)中解放出來,只專注應(yīng)用程序的設(shè)計(jì),從而提高程序開發(fā)和解決大數(shù)據(jù)問題的效率。MapReduce也采取master/slave結(jié)構(gòu)模式,基本體系架構(gòu)如圖6所示,主要由Client、JobTraker、TaskTracker和Task幾個(gè)組件構(gòu)成[34-38]。
圖6 Hadoop MapReduce基本體系架構(gòu)
Client客戶端,主要負(fù)責(zé)將用戶編寫的應(yīng)用程序提交給JobTracker,并為用戶提供查看作業(yè)(Job)運(yùn)行狀態(tài)的接口;JobTracker是MapReduce的主節(jié)點(diǎn),主要負(fù)責(zé)監(jiān)控子節(jié)點(diǎn)TaskTracker和作業(yè)的運(yùn)行狀況,一旦子節(jié)點(diǎn)出現(xiàn)問題,JobTracker會(huì)將任務(wù)轉(zhuǎn)移到其他子節(jié)點(diǎn)執(zhí)行,同時(shí)JobTracker還負(fù)責(zé)跟蹤任務(wù)的執(zhí)行進(jìn)度和資源的使用情況,發(fā)揮任務(wù)調(diào)度的作用。TaskTracker是JobTracker的子節(jié)點(diǎn),主要為任務(wù)(Task)分配資源和提供執(zhí)行環(huán)境;Task是任務(wù)的具體執(zhí)行單元,主要分Map任務(wù)和Reduce任務(wù)。Map任務(wù)以
_2.2.2 Storm
Storm是一款開源的分布式實(shí)時(shí)流處理系統(tǒng),最早由BackType公司的Nathan Marz開發(fā),之后BackType公司被Twitter收購,隨之Storm也由Twitter開源發(fā)布,目前Storm已成為Apache軟件基金會(huì)的孵化器項(xiàng)目之一。Storm同樣也采取主從式架構(gòu),核心組件包括3個(gè)部分[39-42]: Nimbus、Supervisor node和ZooKeeper cluster,基本體系架構(gòu)如圖7所示。
圖7 Storm基本體系架構(gòu)
Nimbus是Storm集群的主節(jié)點(diǎn),負(fù)責(zé)向工作節(jié)點(diǎn)分發(fā)應(yīng)用代碼和分配任務(wù),同時(shí)監(jiān)控任務(wù)的執(zhí)行狀態(tài)和工作節(jié)點(diǎn)的健康狀況。Nimbus節(jié)點(diǎn)被設(shè)計(jì)成“快速失敗(fail-fast)”的模式,所有的數(shù)據(jù)都存儲(chǔ)在Zookeeper上,一旦節(jié)點(diǎn)死掉會(huì)快速重啟而不會(huì)對(duì)工作節(jié)點(diǎn)造成任何影響[43-44]。Supervisor是Storm集群的從節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)上運(yùn)行一個(gè)Supervisor,負(fù)責(zé)創(chuàng)建、啟動(dòng)、停止工作進(jìn)程,控制工作進(jìn)程執(zhí)行分配的任務(wù)。與Nimbus相同,Supervisor也被設(shè)計(jì)成“快速失敗”的模式,所有的狀態(tài)信息也存儲(chǔ)在Zookeeper上,節(jié)點(diǎn)一旦死掉會(huì)快速重啟而不會(huì)丟失任何狀態(tài)信息。Zookeeper是整個(gè)Storm集群的橋梁,在整個(gè)系統(tǒng)中發(fā)揮協(xié)調(diào)作用,存儲(chǔ)著Nimbus的數(shù)據(jù)和Supervisor的狀態(tài)信息,并負(fù)責(zé)Nimbus和Supervisor的通信。
_2.2.3 Spark
Spark是在MapReduce基礎(chǔ)上實(shí)現(xiàn)的高效迭代計(jì)算框架,它的最大特點(diǎn)是支持基于內(nèi)存的分布式數(shù)據(jù)集計(jì)算,從而大大提高了運(yùn)算速度。Spark最早由美國加州大學(xué)伯克利分校于2009年開發(fā),2010年實(shí)現(xiàn)開源發(fā)布,2013年由Apache軟件基金會(huì)接管,并成為其頂級(jí)項(xiàng)目。Spark核心理念是通用和速度,集成了流計(jì)算框架、圖計(jì)算框架、數(shù)據(jù)查詢引擎、機(jī)器學(xué)習(xí)算法庫、分布式文件系統(tǒng)等功能和組件,其基本體系架構(gòu)[45-47]如圖8所示。
圖8 Spark基本體系架構(gòu)
Spark Core是Spark體系的核心,實(shí)現(xiàn)了Spark的基本功能,包括任務(wù)調(diào)度、內(nèi)存管理、錯(cuò)誤恢復(fù)以及和存儲(chǔ)系統(tǒng)的交互,Spark Core定義了一個(gè)程序抽象模型——彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD),所有的應(yīng)用程序都被抽象成RDD來完成運(yùn)算[45,48-49]。Spark SQL是處理結(jié)構(gòu)化數(shù)據(jù)的工具,通過引入RDD數(shù)據(jù)抽象,能夠通過SQL語言和集成其他SQL工具實(shí)現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)的高效查詢。Spark Streaming是Spark的實(shí)時(shí)流數(shù)據(jù)處理組件,它以時(shí)間片對(duì)數(shù)據(jù)進(jìn)行分割形成RDD,能夠以相對(duì)小的時(shí)間間隔對(duì)流數(shù)據(jù)進(jìn)行處理,同時(shí)提供良好的應(yīng)用程序接口(Application Program Interface,API)和容錯(cuò)機(jī)制,能夠與其他組件友好的合作從而高效完成對(duì)流數(shù)據(jù)的處理。MLlib是Spark的機(jī)器學(xué)習(xí)算法庫,可以為處理大數(shù)據(jù)提供基本的機(jī)器學(xué)習(xí)算法,包括分類、回歸、聚類等算法,同時(shí)還支持算法模型評(píng)估等。GraphX是Spark對(duì)圖操作和處理大規(guī)模并行圖計(jì)算的功能庫,能夠利用RDD API接口實(shí)現(xiàn)對(duì)圖數(shù)據(jù)的統(tǒng)一高效處理。YARN、Mesos等運(yùn)行于Spark體系的底層[50],負(fù)責(zé)對(duì)集群資源和數(shù)據(jù)的管理,保證Spark集群節(jié)點(diǎn)的擴(kuò)展和統(tǒng)一高效運(yùn)行。
_2.2.4 3種架構(gòu)的比較分析
上述3種開源架構(gòu)的技術(shù)特點(diǎn)各有不同。Hadoop采用一次寫入多次讀取的流式數(shù)據(jù)訪問方式,更多的是以時(shí)間換空間,側(cè)重的是數(shù)據(jù)吞吐量,不適合迭代式的數(shù)據(jù)處理,在數(shù)據(jù)處理的實(shí)時(shí)響應(yīng)方面也不占優(yōu)勢(shì),更適合在線下對(duì)靜態(tài)大數(shù)據(jù)進(jìn)行處理和分析。Storm設(shè)計(jì)理念是對(duì)大數(shù)據(jù)記錄逐條持續(xù)進(jìn)行處理,計(jì)算過程非主動(dòng)結(jié)束,同時(shí)容錯(cuò)性較高,更適合對(duì)實(shí)時(shí)流數(shù)據(jù)的處理。由于集成度相對(duì)不高,Storm對(duì)其他類型的大數(shù)據(jù)處理性能還有待完善。Spark的集成程度較高,功能比較強(qiáng)大,能夠?qū)Σ煌瑪?shù)據(jù)類型(一般結(jié)構(gòu)化數(shù)據(jù),圖數(shù)據(jù)、流數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù))的大數(shù)據(jù)進(jìn)行處理。由于Spark是基于內(nèi)存計(jì)算框架,在數(shù)據(jù)量低于內(nèi)存容量時(shí)計(jì)算性能突出,但當(dāng)數(shù)據(jù)量遠(yuǎn)大于數(shù)據(jù)容量時(shí)存在穩(wěn)定性問題[51],更適合進(jìn)行規(guī)模適當(dāng)?shù)綌?shù)據(jù)處理。
在實(shí)際應(yīng)用中,大數(shù)據(jù)是一項(xiàng)非常復(fù)雜的系統(tǒng)工程,既需要硬件基礎(chǔ)也需要軟件支撐,涉及的技術(shù)涵蓋信息通信、計(jì)算機(jī)科學(xué)、信息網(wǎng)絡(luò)、數(shù)據(jù)庫等多個(gè)領(lǐng)域。單從大數(shù)據(jù)的處理流程和生命周期考慮,歸納起來,大數(shù)據(jù)的關(guān)鍵技術(shù)主要包括數(shù)據(jù)感知與獲取技術(shù)、數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)存儲(chǔ)與管理技術(shù)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)可視化技術(shù)以及數(shù)據(jù)安全與隱私保護(hù)技術(shù)等6部分。
3.1 數(shù)據(jù)感知與獲取技術(shù)
大數(shù)據(jù)應(yīng)用的關(guān)鍵,就是從海量的看似無關(guān)的數(shù)據(jù)中,通過分析關(guān)聯(lián)關(guān)系從而獲取有價(jià)值的信息,有效獲取目標(biāo)數(shù)據(jù)成為大數(shù)據(jù)應(yīng)用必須解決的首要問題。大數(shù)據(jù)類型多樣,來源非常廣泛,涉及人類社會(huì)活動(dòng)的各個(gè)領(lǐng)域,其中最主要的來源有3個(gè)方面[52-53]:人們?cè)诨ヂ?lián)網(wǎng)活動(dòng)中產(chǎn)生的數(shù)據(jù),各類計(jì)算機(jī)系統(tǒng)產(chǎn)生的數(shù)據(jù),各類數(shù)字設(shè)備記錄的數(shù)據(jù)。人在互聯(lián)網(wǎng)活動(dòng)中產(chǎn)生的數(shù)據(jù)為網(wǎng)絡(luò)數(shù)據(jù),常用到的數(shù)據(jù)感知與獲取技術(shù)有網(wǎng)絡(luò)爬蟲或網(wǎng)絡(luò)嗅探等;計(jì)算機(jī)系統(tǒng)產(chǎn)生的數(shù)據(jù)主要是日志和審計(jì)數(shù)據(jù),常用日志搜集和監(jiān)測(cè)系統(tǒng)來獲取數(shù)據(jù),如Scribe、Flume、Chukwa等;各類數(shù)字設(shè)備主要包括傳感器、RFID、GPS等,這些設(shè)備記錄的數(shù)據(jù)既有實(shí)時(shí)的流數(shù)據(jù),也有像記錄產(chǎn)品交易信息的非實(shí)時(shí)數(shù)據(jù),常用數(shù)據(jù)流處理系統(tǒng)、模數(shù)轉(zhuǎn)換器等來感知和獲取數(shù)據(jù)。
3.2 數(shù)據(jù)預(yù)處理技術(shù)
大數(shù)據(jù)源中既有同構(gòu)數(shù)據(jù)也含有大量的異構(gòu)數(shù)據(jù),目標(biāo)數(shù)據(jù)常會(huì)受到噪聲數(shù)據(jù)的干擾,影響到數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。為提升大數(shù)據(jù)質(zhì)量,需要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約與數(shù)據(jù)轉(zhuǎn)換等預(yù)處理工作。
大數(shù)據(jù)清理是通過設(shè)置一些過濾器,對(duì)原始數(shù)據(jù)進(jìn)行“去噪”和“去臟”處理。常用到的技術(shù)有數(shù)據(jù)一致性檢測(cè)技術(shù)、臟數(shù)據(jù)識(shí)別技術(shù)、數(shù)據(jù)過濾技術(shù)、噪聲識(shí)別與平滑處理技術(shù)等。
大數(shù)據(jù)集成是指把來自不同數(shù)據(jù)源、不同格式的數(shù)據(jù)通過技術(shù)處理,在邏輯上或物理上進(jìn)行集中,形成統(tǒng)一的數(shù)據(jù)集或數(shù)據(jù)庫。常用到的技術(shù)包括數(shù)據(jù)源識(shí)別技術(shù)、中間件技術(shù)、數(shù)據(jù)倉庫技術(shù)等。
大數(shù)據(jù)規(guī)約是在不影響數(shù)據(jù)準(zhǔn)確性的前提下,運(yùn)用壓縮和分類分層的策略對(duì)數(shù)據(jù)進(jìn)行集約式處理。常用到的技術(shù)有維規(guī)約技術(shù)、數(shù)值規(guī)約技術(shù)、數(shù)據(jù)壓縮技術(shù)、數(shù)據(jù)抽樣技術(shù)等。
大數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從一種表示形式轉(zhuǎn)換成另一種表示形式,目的是使數(shù)據(jù)形式趨于一致。常用到的技術(shù)有基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換技術(shù)、基于模型和學(xué)習(xí)的轉(zhuǎn)換技術(shù)等。
3.3 數(shù)據(jù)存儲(chǔ)與管理技術(shù)
目前,除了傳統(tǒng)關(guān)系型數(shù)據(jù)庫外,大數(shù)據(jù)存儲(chǔ)和管理形式主要有3類:分布式文件系統(tǒng)、非關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫。
分布式文件系統(tǒng)是由物理上不同分布的網(wǎng)絡(luò)節(jié)點(diǎn),通過網(wǎng)絡(luò)通信和數(shù)據(jù)傳輸統(tǒng)一提供文件服務(wù)與管理的文件系統(tǒng),它的文件物理上被分散存儲(chǔ)在不同的節(jié)點(diǎn)上,邏輯上任然是一個(gè)完整的文件。常用的分布式文件系統(tǒng)有Hadoop的HDFS、Google的GFS等。
非關(guān)系型數(shù)據(jù)庫(Not Only SQL,NoSQL)是為解決大規(guī)模數(shù)據(jù)集合多重?cái)?shù)據(jù)種類存儲(chǔ)難題應(yīng)運(yùn)而生的,它的最大特點(diǎn)就是不需要預(yù)先定義數(shù)據(jù)結(jié)構(gòu),而是在有了數(shù)據(jù)后根據(jù)需要靈活定義。非關(guān)系型數(shù)據(jù)庫一般分為4類:鍵值(Key-Value)存儲(chǔ)數(shù)據(jù)庫,主要利用哈希表中的特定鍵值對(duì)來實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),常見的有Redis、Apache Cassandra等;列存儲(chǔ)數(shù)據(jù)庫,是按行排序以數(shù)據(jù)列為單位進(jìn)行存儲(chǔ),有利于對(duì)數(shù)據(jù)庫進(jìn)行壓縮,減少數(shù)據(jù)規(guī)模,提高存儲(chǔ)和數(shù)據(jù)查詢性能,常見的有Sybase IQ、InfiniDB等;文檔型數(shù)據(jù)庫,是按封包鍵值對(duì)的方式進(jìn)行存儲(chǔ),每個(gè)“文檔”(如XML、HTML、JSON文檔等)代表一個(gè)數(shù)據(jù)記錄,記錄著數(shù)據(jù)的具體類型和內(nèi)容,常見的有MongoDB、CouchDB等;圖形數(shù)據(jù)庫,是利用圖形模型實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ),主要存儲(chǔ)事物與事物之間的相關(guān)關(guān)系,將這些相關(guān)關(guān)系所呈現(xiàn)負(fù)責(zé)的網(wǎng)絡(luò)關(guān)系簡(jiǎn)單地稱為圖形數(shù)據(jù),常見的有Google Pregel、Neo4J等。
數(shù)據(jù)倉庫建立在已有大量操作型數(shù)據(jù)庫的基礎(chǔ)上,通過ETL等技術(shù)從已有數(shù)據(jù)庫中抽取轉(zhuǎn)換導(dǎo)出目標(biāo)數(shù)據(jù)并進(jìn)行存儲(chǔ)。與操作型數(shù)據(jù)庫不同,數(shù)據(jù)倉庫不參與具體業(yè)務(wù)數(shù)據(jù)操作,主要目的是對(duì)從操作型數(shù)據(jù)庫中抽取集成的海量數(shù)據(jù)進(jìn)行分析處理,并提供高速查詢服務(wù)。
3.4 數(shù)據(jù)分析技術(shù)
數(shù)據(jù)分析是大數(shù)據(jù)處理流程中最為關(guān)鍵的步驟,也是大數(shù)據(jù)價(jià)值生成的核心部分。從對(duì)數(shù)據(jù)信息的獲知度上來看,大數(shù)據(jù)分析可以分為對(duì)已知數(shù)據(jù)信息的分析和對(duì)未知數(shù)據(jù)信息的分析。對(duì)已知數(shù)據(jù)信息的分析一般運(yùn)用分布式統(tǒng)計(jì)分析技術(shù)來實(shí)現(xiàn),對(duì)未知數(shù)據(jù)信息的分析一般通過數(shù)據(jù)挖掘等技術(shù)來實(shí)現(xiàn)。
大數(shù)據(jù)統(tǒng)計(jì)分析主要利用分布式計(jì)算集群和分布式數(shù)據(jù)庫,運(yùn)用統(tǒng)計(jì)學(xué)相關(guān)知識(shí)和算法(如聚類分析、判別分析、差異分析等),對(duì)獲取的海量已知數(shù)據(jù)信息進(jìn)行分析和解釋。目前,比較流行的大數(shù)據(jù)統(tǒng)計(jì)分析工具是基于R語言的分布式計(jì)算環(huán)境(如RHIPE)。
數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中通過算法計(jì)算,提取隱藏在其中的有用信息的數(shù)據(jù)分析過程,是統(tǒng)計(jì)分析、情報(bào)檢索、模式識(shí)別、機(jī)器學(xué)習(xí)等數(shù)據(jù)分析方法的綜合運(yùn)用。在大數(shù)據(jù)領(lǐng)域中,常見數(shù)據(jù)挖掘方法主要包括聚類分析、分類分析、預(yù)測(cè)估計(jì)、相關(guān)分析等。
3.5 數(shù)據(jù)可視化技術(shù)
大數(shù)據(jù)可視化技術(shù)的工作原理,是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)將數(shù)據(jù)以圖形或圖像的方式展示出來,實(shí)現(xiàn)對(duì)大數(shù)據(jù)分析結(jié)果的形象解釋,并能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的人機(jī)交互處理。大數(shù)據(jù)可視化關(guān)鍵技術(shù)包括:符號(hào)表達(dá)技術(shù)、數(shù)據(jù)渲染技術(shù)、數(shù)據(jù)交互技術(shù)、數(shù)據(jù)表達(dá)模型技術(shù)等。
大數(shù)據(jù)可視化技術(shù)與傳統(tǒng)數(shù)據(jù)可視化技術(shù)不同。傳統(tǒng)數(shù)據(jù)可視化技術(shù)通常是從關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取數(shù)據(jù)(數(shù)據(jù)類型較為單一)并進(jìn)行可視化處理,一般不支持實(shí)時(shí)數(shù)據(jù)的可視化和交互式的可視化分析。而大數(shù)據(jù)可視化技術(shù)則是從多個(gè)數(shù)據(jù)源提取多種類型數(shù)據(jù)進(jìn)行可視化處理,并且支持實(shí)時(shí)數(shù)據(jù)的可視化和交互式的可視化分析。常見的可視化處理和管理工具有Tableau Desktop、QlikView、Datawatch、Platfora等。
3.6 數(shù)據(jù)安全與隱私保護(hù)技術(shù)
大數(shù)據(jù)應(yīng)用在商業(yè)、政府決策、軍事等領(lǐng)域創(chuàng)造了巨大價(jià)值,同時(shí)也正是受利益驅(qū)使,大數(shù)據(jù)的安全和隱私保護(hù)也正面臨著愈來愈嚴(yán)重的威脅。從大數(shù)據(jù)的關(guān)鍵技術(shù)來看,大數(shù)據(jù)處理的每個(gè)階段幾乎都面臨著各種各樣的安全威脅[29,54],傳統(tǒng)的信息安全技術(shù)措施很難對(duì)大數(shù)據(jù)進(jìn)行有效的安全防護(hù)[55]。越來越多的人開始重視大數(shù)據(jù)的安全和隱私保護(hù),并開始著重研究應(yīng)對(duì)安全隱患和保護(hù)隱私的技術(shù)措施。
保護(hù)大數(shù)據(jù)安全,主要是保證大數(shù)據(jù)的可用性、完整性、機(jī)密性[56]。大數(shù)據(jù)來源廣泛、模態(tài)復(fù)雜,大量數(shù)據(jù)來自于不可信的數(shù)據(jù)源,同時(shí)收集到的大數(shù)據(jù)常常會(huì)有字段缺失或數(shù)據(jù)錯(cuò)誤的情況,導(dǎo)致大數(shù)據(jù)不可用或弱可用以及完整性缺失。解決大數(shù)據(jù)可用性問題一般通過數(shù)據(jù)冗余設(shè)置,而大數(shù)據(jù)的完整性問題一般通過數(shù)據(jù)校驗(yàn)技術(shù)和審計(jì)策略來解決。對(duì)于大數(shù)據(jù)的機(jī)密性,由于數(shù)據(jù)規(guī)模大,傳統(tǒng)的數(shù)據(jù)加密技術(shù)會(huì)極大地增加開銷,因此一般利用訪問控制和安全審計(jì)技術(shù)來保證大數(shù)據(jù)的安全。
由于監(jiān)管和法律條款的缺失,大數(shù)據(jù)在收集和發(fā)布等過程中常常會(huì)涉及個(gè)人或數(shù)據(jù)擁有者的隱私,導(dǎo)致隱私信息被泄露。目前,除了加強(qiáng)監(jiān)管和完善立法外,在技術(shù)層面研究人員也在不斷地探索和突破。文獻(xiàn)[57]從密碼學(xué)的角度綜述了大數(shù)據(jù)隱私保護(hù)技術(shù),包括安全審計(jì)技術(shù)、大數(shù)據(jù)加密搜索技術(shù)、完全同態(tài)加密技術(shù)。針對(duì)大數(shù)據(jù)背景下個(gè)人隱私數(shù)據(jù)的保護(hù),文獻(xiàn)[58]設(shè)計(jì)了一套個(gè)人數(shù)據(jù)溯源機(jī)制,一定程度起到了對(duì)個(gè)人隱私的保護(hù)。文獻(xiàn)[59]以云計(jì)算為背景,深入研究了基于不經(jīng)意隨機(jī)訪問存儲(chǔ)器的隱私保護(hù)、基于對(duì)稱加密的隱私保護(hù)、基于公鑰體制的隱私保護(hù)、可搜索加密等技術(shù)和方法,一定程度反映了大數(shù)據(jù)的隱私保護(hù)研究現(xiàn)狀。
大數(shù)據(jù)很“熱”,其在當(dāng)下的價(jià)值貢獻(xiàn)和未來的應(yīng)用前景已經(jīng)引起了各個(gè)領(lǐng)域的高度重視并開始付諸實(shí)踐,但其中也不乏炒作的因素。大數(shù)據(jù)需要變“冷”,需要人們用平常心冷靜地看待、研究和應(yīng)用;大數(shù)據(jù)還沒有統(tǒng)一的標(biāo)準(zhǔn),在體系架構(gòu)和核心技術(shù)上需要進(jìn)一步完善和創(chuàng)新,特別是大數(shù)據(jù)的安全和隱私保護(hù)機(jī)制更需要在立法、監(jiān)管、安全保護(hù)、響應(yīng)處理等方面進(jìn)行系統(tǒng)化、標(biāo)準(zhǔn)化。大數(shù)據(jù)被稱為科學(xué)研究的“第四范式”,是一場(chǎng)新的技術(shù)革命。大數(shù)據(jù)催生了智能時(shí)代,促進(jìn)了機(jī)器智能的發(fā)展;大數(shù)據(jù)也勢(shì)必催生新的戰(zhàn)爭(zhēng)模式,加速推進(jìn)武器裝備的信息化、智能化。未來戰(zhàn)爭(zhēng)將是數(shù)據(jù)驅(qū)動(dòng)型的戰(zhàn)爭(zhēng),誰掌握制數(shù)據(jù)權(quán)誰將取得戰(zhàn)爭(zhēng)的勝利。扎實(shí)推進(jìn)我軍的大數(shù)據(jù)應(yīng)用與創(chuàng)新,將會(huì)使我國的國防實(shí)力產(chǎn)生質(zhì)的飛躍。
References)
[1]2015中國互聯(lián)網(wǎng)、社交和移動(dòng)數(shù)據(jù)報(bào)告[EB/OL].(2015-09-21)[2016-04-05].http://tech.163.com/15/0921/10/B41EHHAG00094P40.html.
[2]EMC Digital Universe.The digital universe of opportunities:rich data and the increasing value of the internet of things(executive summary)[EB/OL].(2014-04-05)[2016-04-05].http://www.emc.com/ leadership/digital-universe/ 2014iview/executive-summary.htm.
[3]IDC.New IDC forecast sees worldwide big data technology and services market growing to MYM48.6 billion in 2019,driven by wide adoption across industries[EB/OL].(2015-11-09)[2016-04-05].http://www.idc.com/getdoc.jsp?containerId=prUS40560115.
[4]IDC.中國大數(shù)據(jù)技術(shù)與服務(wù)市場(chǎng)2013—2017年預(yù)測(cè)與分析[EB/OL].(2014-03-05)[2016-04-05].http://www.idc.com.cn/prodserv/detail.jsp?id=NTc3.
[5]LUDLOFF M.IDG IDC’s latest digital data study:a deep dive[EB/OL].(2011-07-08)[2016-04-05].http://blog.Patternbuilders.com/2011/07/08/idcs-latest-digital-data-study-deep-dive.
[6]TechAmerica Foundation’s Federal Big Data Commission.Demystifying big data[R/OL].(2012-10-10)[2016-04-06].http://www.kdnuggets.com/2012/10/techamerica-demystifying-big-data-report.html.
[7]Big data[EB/OL].[2016-04-06].http://baike.baidu.com/link?url=b5lUEoIdzxfvAAzFnhZcO8jFkUyUIIycCg SS1KFH5dsJ vemrma75706H5i3kgUbqhY_uXLxO1Wbh DITM9AKzLEWzhhrt9FEfeHDN0W4qVSm.
[8]ADRIAN M.It’s going mainstream, and it’s your next opportunity [EB/OL].(2011-11-01)[2016-04-06].http://www.teradatamagazine.com/v11n01/Features/Big-Data/.
[9]Big data[EB/OL].[2016-04-06].http://www.gartner.com/it-glossary/big-data.
[10]Big data[EB/OL].[2016-04-06].http://en.wikipedia.org/wiki/Big_data.
[11]VENNILA.S, PRIYADARSHINI J.Scalable privacy preservation in big data a survey[J].Procedia Computer Science,2015,50:369-373.
[12]KSHETRI N.Big data's impact on privacy,security and consumer welfare[J].Telecommunications Policy,2014,38:1134-1145.
[13]DEMCHENKO Y,NGO C, DE LAAT C,et al.Big security for big data:addressing security challenges for the big data infrastructure[C]//Secure Data Management.10thVLDB Workshop,SDM .Cham, Switzerland:Springer International Publishing,2013:76-91.
[14]JIN X L, WAHA B W,CHENG X Q, et al.Significance and challenges of big data research[J].Big Data Research,2015,2(2):59-64.
[15]BEDI P, JINDAL V, GAUTAM A.Beginning with big data simplified[C]//2014 International Conference on Data Mining and Intelligent Computing(ICDMIC).New Jersey:Institute of Electrical and Electronics Engineers Inc,2014:1-7.
[16]ALI-UD-DIN KHAN M, UDDIN M F, GUPTA N.Seven V’s of big data understanding big data to extract value[C]//2014 Zone 1 Conference of the American Society for Engineering Education(ASEE Zone 1).New Jersey:Institute of Electrical and Electronics Engineers Inc,2014:1-4.
[17]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展, 2013, 50(1):146-169.
[18]Gartner.Gartner’s 2013 hype cycle for emerging technologies maps out evolving relationship between humans and machines[EB/OL].(2013-08-19)[2016-04-10].http://www.gartner.com/newsroom/id/2575515.
[19]Gartner.Gartner’s 2014 hype cycle for emerging technologies maps the journey to digital business[EB/OL].(2014-08-11)[2016-04-10].http://www.gartner.com/newsroom/id/2819918.
[20]Gartner.Gartner’s 2015 hype cycle for emerging technologies identifies the computing innovations that organizations should monitor[EB/OL].(2015-08-18)[2016-04-10].http://www.gartner.com/newsroom/id/3114217.
[21]《大數(shù)據(jù)發(fā)展研究報(bào)告》編寫組.綜合分析 冷靜看待 大數(shù)據(jù)標(biāo)準(zhǔn)化漸行漸近(上)[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(9):12-14.
[22]《大數(shù)據(jù)發(fā)展研究報(bào)告》編寫組.綜合分析 冷靜看待 大數(shù)據(jù)標(biāo)準(zhǔn)化漸行漸近(下)[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(10):17-20.
[23]張群.大數(shù)據(jù)標(biāo)準(zhǔn)化現(xiàn)狀及標(biāo)準(zhǔn)研制[J].信息技術(shù)與標(biāo)準(zhǔn)化,2015(7):23-26.
[24]韓晶,王健全.大數(shù)據(jù)標(biāo)準(zhǔn)化現(xiàn)狀及展望[J].信息通信技術(shù),2014(6):38-42.
[25]NIST Big Data Public Working Group (NBD-PWG).NIST big data interoperability framework V1.0[EB/OL].(2015-08-25)[2016-04-10].http://www.nist.gov/itl/bigdata/bigdatainfo.cfm.
[26]ISO/IEC .Systems and software engineering-recommended practice for architectural description of software-intensive systems:IEEE Std 1471-2000 [S].New York:Institute of Electrical and Electronics Engineers, Inc ,2000:1-11.
[27]NIST Big Data Public Working Group (NBD-PWG).NIST big data interoperability framework:volume 5,architectures white paper survey[R/OL].(2015-08-25)[2016-04-10].http://dx.doi.org/10.6028/NIST.SP.1500-5.
[28]NIST Big Data Public Working Group (NBD-PWG).NIST big data interoperability framework:volume 6,reference architecture[R/OL].(2015-08-25)[2016-04-10].http://dx.doi.org/10.6028/NIST.SP.1500-6.
[29]全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)大數(shù)據(jù)標(biāo)準(zhǔn)工作組.大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書(2016版)[R].北京:中國電子技術(shù)標(biāo)準(zhǔn)化研究院,2016:1-97.
[30]WHITE T.Hadoop權(quán)威指南 [M].曾大聃,周傲英,譯.北京:清華大學(xué)出版社,2010:13-14.
[31]董西成.Hadoop技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京:機(jī)械工業(yè)出版社,2013:33-37.
[32]費(fèi)仕憶.Hadoop大數(shù)據(jù)平臺(tái)與傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作研究[D].上海:東華大學(xué),2014:4-8.
[33]高薊超.Hadoop平臺(tái)存儲(chǔ)策略的研究與優(yōu)化[D].北京:北京交通大學(xué),2012:2-13.
[34]曹風(fēng)兵.基于Hadoop的云計(jì)算模型研究與應(yīng)用[D].重慶:重慶大學(xué),2011:15-28.
[35]李韌.基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D].重慶:重慶大學(xué),2013:14-17.
[36]楊宸鑄.基于HADOOP的數(shù)據(jù)挖掘研究[D].重慶:重慶大學(xué),2010:5-19.
[37]潘陽.基于Hadoop技術(shù)在分布式數(shù)據(jù)存儲(chǔ)中的應(yīng)用研究[D].大連:大連海事大學(xué),2014:8-27.
[38]李嬌龍.基于Hadoop 的云計(jì)算應(yīng)用研究[D].成都:電子科技大學(xué),2014:13-26.
[39]JAIN A,NALYA A.Learning storm[M].Birmingham:Packt Publishing,2014:19-24.
[40]ESKANDARI L, HUANG Z Y, EYERS D.P-scheduler:adaptive hierarchical scheduling in apache storm [C]//Australasian Computer Science Week(ACSW) ’16 Multiconference.Canberra,Australia:ACM,2016:1-3.
[41]陳敏敏,王新春,黃奉線.Storm技術(shù)內(nèi)幕與大數(shù)據(jù)實(shí)踐[M].北京:人民郵電出版社,2015:2-95.
[42]龍少杭.基于Storm的實(shí)時(shí)大數(shù)據(jù)分析系統(tǒng)的研究與實(shí)現(xiàn)[D].上海:上海交通大學(xué),2015:18-22.
[43]鄧立龍,徐海水.Storm 實(shí)現(xiàn)的應(yīng)用模型研究[J].廣東工業(yè)大學(xué)學(xué)報(bào),2014,31(3):114-115.
[44]李川,鄂海紅,宋美娜.基于Storm 的實(shí)時(shí)計(jì)算框架的研究與應(yīng)用[J].軟件,2014,35(10):17-18.
[45]KARAU H, KONWINSKI A, WENDELL P, et al.Learning spark[M].Sebastopol:O’Reilly Media,2015:1-7.
[46]李文棟.基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn)[D].濟(jì)南:山東大學(xué),2015:8-12.
[47]孫科.基于Spark的機(jī)器學(xué)習(xí)應(yīng)用框架研究與實(shí)現(xiàn)[D].上海:上海交通大學(xué),2015:20-22.
[48]胡俊,胡賢德,程家興.基于Spark 的大數(shù)據(jù)混合計(jì)算模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(4):214-217.
[49]胡于響.基于Spark的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2015:6-9.
[50]邱榮財(cái).基于Spark平臺(tái)的CURE算法并行化設(shè)計(jì)與應(yīng)用[D].廣州:華南理工大學(xué),2014:7-14.
[51]方艾,徐雄,梁冰,等.主流大數(shù)據(jù)處理開源架構(gòu)的分析及對(duì)比評(píng)測(cè)[J].電信科學(xué),2015,(7):2-5.
[52]LI G J,CHENG X Q.Research status and scientific thinking of big data[J].Bulletin of Chinese Academy of Sciences,2012,27(6):647-657.
[53]MAYER-SCHONBERGER V, CUKIER K.大數(shù)據(jù)時(shí)代[M].盛揚(yáng)燕,周濤,譯.杭州:浙江人民出版社,2013:193-232.
[54]TeraData.The threat beneath the surface:big data ana-lytics,big security and real-time cyber threat response for federal agencies[R].California:TeraData,2012:1-35.
[55]孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):265-281.
[56]何小東,陳偉宏,彭智朝.網(wǎng)絡(luò)安全概論[M].北京:清華大學(xué)出版社,2014:272-278.
[57]黃劉生,田苗苗,黃河.大數(shù)據(jù)隱私保護(hù)密碼技術(shù)研究綜述[J].軟件學(xué)報(bào),2015, 26(4):945-953.
[58]王忠,殷建立.大數(shù)據(jù)環(huán)境下個(gè)人數(shù)據(jù)隱私泄露溯源機(jī)制設(shè)計(jì)[J].中國流通經(jīng)濟(jì),2014(8):117-120.
[59]肖人毅.云計(jì)算中數(shù)據(jù)隱私保護(hù)研究進(jìn)展[J].通信學(xué)報(bào),2014,35(12):168-174.
(編輯:李江濤)
Big Data and Its Architecture and Key Technologies
LYU Denglong1, ZHU Shibing2
(1. Department of Graduate Management, Equipment Academy, Beijing 101416, China;2. Department of Information Equipment, Equipment Academy, Beijing 101416, China)
This paper introduces the status, research activities and application perspectives of big data. In order to solve the problems like inconsistent standards for big data and different views among researchers, the paper redefines the big data in a new aspect by comparative analysis; especially in the respect of security, the paper analyzes and summarizes the "6V" feature of the big data; starting from the standardization of big data, this paper further analyzes existing research results, concludes the architecture of big data and generic technology in application, analyzes the connotation of various technologies and presents the architecture and key technologies of big data systematically.
big data; architecture; key technologies
2016-09-20
呂登龍(1983—),男,講師,博士研究生,主要研究方向?yàn)樾畔⒕W(wǎng)絡(luò)與安全。 朱詩兵,男,教授,博士生導(dǎo)師。
TP311
2095-3828(2017)01-0086-11
A DOI 10.3783/j.issn.2095-3828.2017.01.017