戴平
摘 要:根據(jù)目前大數(shù)據(jù)在各個領(lǐng)域使用的特點(diǎn)進(jìn)行分析,分析大數(shù)據(jù)在發(fā)展中面臨的挑戰(zhàn),主要針對云計(jì)算中大數(shù)據(jù)平臺的構(gòu)建進(jìn)行分析.構(gòu)建云計(jì)算大數(shù)據(jù)平臺,包括大數(shù)據(jù)整個架構(gòu)、分析平臺軟件架構(gòu)、平臺的網(wǎng)絡(luò)架構(gòu)、統(tǒng)一分析大數(shù)據(jù)平臺構(gòu)建方案.為云計(jì)算大數(shù)據(jù)平臺的市場競爭提供參考,這里將會針對云計(jì)算建立統(tǒng)一大數(shù)據(jù)平臺.
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù);Segment服務(wù)器;平臺構(gòu)建
中圖分類號:TP311.13? 文獻(xiàn)標(biāo)識碼:A? 文章編號:1673-260X(2020)03-0019-03
隨著信息化時代的到來,大數(shù)據(jù)技術(shù)發(fā)展逐漸成熟,而各種網(wǎng)絡(luò)數(shù)據(jù)也呈現(xiàn)爆炸式的增長.面對競爭激烈的市場,怎樣對這龐大的數(shù)據(jù)進(jìn)行整個成為了各大運(yùn)營商關(guān)注的問題.這些數(shù)據(jù)包括交通信息、生活訊息等,都是來自網(wǎng)絡(luò)或是其他渠道,數(shù)據(jù)信息復(fù)雜冗長,只有建立一個集分析和儲存于一體的管理平臺,才能更好的利用這些數(shù)據(jù),挖掘能對自身利益有幫助的數(shù)據(jù),從而提高運(yùn)營商的市場競爭力.大數(shù)據(jù)的出現(xiàn)為各個運(yùn)營商提供了便利,它是在物聯(lián)網(wǎng)、云計(jì)算、IT行業(yè)發(fā)展后又一次重大技術(shù)變革,大數(shù)據(jù)為企業(yè)的業(yè)務(wù)流程、組織、企業(yè)決策帶來了很大影響.
1 云計(jì)算中大數(shù)據(jù)分析平臺關(guān)鍵問題
1.1 數(shù)據(jù)的收集和儲存
處于互聯(lián)網(wǎng)模式下,數(shù)據(jù)集會不斷增多,所以,需要不斷完善數(shù)據(jù)收集和儲存效率.目前,使用的數(shù)據(jù)收集技術(shù)完全滿足不了互聯(lián)網(wǎng)用戶的需求,而且這對內(nèi)存消耗較大.使用遠(yuǎn)程內(nèi)存訪問協(xié)議可以提供更加快速的數(shù)據(jù)測量視乎,同時也能降低內(nèi)存消耗.對于大數(shù)據(jù)處理技術(shù)而言,可以采取多種數(shù)據(jù)收集儲存方式,建立一個數(shù)據(jù)流處理系統(tǒng),這也可以提高數(shù)據(jù)收集的效率,同時節(jié)省更多的成本,而且能夠挖掘更具有價值的信息.
1.2 云計(jì)算架構(gòu)
基于云計(jì)算、分布式、儲存功能的大數(shù)據(jù)分析平臺,具有很強(qiáng)的數(shù)據(jù)處理能力.構(gòu)建云計(jì)算數(shù)據(jù)分析統(tǒng)一平臺,主要可以分為三個部分:頂層、中間層、數(shù)據(jù)層.其中頂層包括用戶接口子系統(tǒng)、工作流;中間層包括:數(shù)據(jù)預(yù)處理、并行數(shù)據(jù)子系統(tǒng);數(shù)據(jù)中心層屬于云計(jì)算中中心數(shù)據(jù)儲存模塊.
2 云計(jì)算的大數(shù)據(jù)平臺構(gòu)建
2.1 大數(shù)據(jù)分析平臺設(shè)計(jì)思路
基于云計(jì)算技術(shù)的大數(shù)據(jù)平臺可以為用戶提供擴(kuò)展性很高、性價比高的硬件支持PB級別的體系,甚至包含半結(jié)構(gòu)化、海量結(jié)構(gòu)化、非結(jié)構(gòu)化ZB級別數(shù)據(jù)儲存.而且建立統(tǒng)一大數(shù)據(jù)分析平臺,可以更加快速的提高數(shù)據(jù)挖掘速度,挖掘數(shù)據(jù)的支架,為用戶帶來更大的經(jīng)濟(jì)價值.
構(gòu)建云計(jì)算大數(shù)據(jù)平臺思路包括:(1)企業(yè)管理者可以直接對數(shù)據(jù)實(shí)例進(jìn)行控制.(2)在企業(yè)內(nèi)部建立數(shù)據(jù)運(yùn)算統(tǒng)一平臺.(3)通過數(shù)據(jù)統(tǒng)一處理平臺,為企業(yè)提供自身需要的訪問功能.(4)加強(qiáng)大數(shù)據(jù)處理的科學(xué)性,提高平臺靈活配置和擴(kuò)展功能,從而減少企業(yè)投資風(fēng)險(xiǎn).
建立基于云計(jì)算的大數(shù)據(jù)分析平臺,主要利用Map Reduce架構(gòu)、數(shù)據(jù)庫儲存技術(shù)為數(shù)據(jù)的快速處理提供了半結(jié)構(gòu)化、結(jié)構(gòu)化或是非機(jī)構(gòu)化的數(shù)據(jù)分析平臺.這樣也能將客戶以成本為中心的數(shù)據(jù)資產(chǎn)轉(zhuǎn)變成以利潤為主,通過數(shù)據(jù)來拉動企業(yè)業(yè)務(wù).
2.2 大數(shù)據(jù)統(tǒng)一平臺軟件架構(gòu)
2.2.1 軟件架構(gòu)
這個模塊是通過互聯(lián)網(wǎng)將Segment多節(jié)點(diǎn)主機(jī)、Master主機(jī)、數(shù)據(jù)庫進(jìn)行連接構(gòu)成的.其中應(yīng)用程序使用利用Master主機(jī)進(jìn)行數(shù)據(jù)訪問,在該系統(tǒng)中每個儲存節(jié)點(diǎn)都有自己的數(shù)據(jù)庫,數(shù)據(jù)庫之間沒有實(shí)現(xiàn)相互連接.而Master主機(jī)和多儲存節(jié)點(diǎn)之間是相互連接,可以進(jìn)行數(shù)據(jù)交換.
Segment服務(wù)器在網(wǎng)絡(luò)環(huán)境下將每個節(jié)點(diǎn)進(jìn)行連接,從而完成同一個任務(wù),對于用戶而言,它是一個服務(wù)器系統(tǒng).Segment服務(wù)器是在互聯(lián)網(wǎng)基礎(chǔ)上進(jìn)行連接的,每個節(jié)點(diǎn)只能對本地資源進(jìn)行儲存和訪問,不具備信息共享的功能,從理論上分析,該系統(tǒng)具有一定的擴(kuò)展能力.目前,大數(shù)據(jù)軟件技術(shù)可以實(shí)現(xiàn)512個節(jié)點(diǎn)進(jìn)行連接,提供數(shù)千個CPU.每個節(jié)點(diǎn)都有自己的操作系統(tǒng)、數(shù)據(jù)庫,但是節(jié)點(diǎn)之間不能相互訪問內(nèi)存,利用互聯(lián)網(wǎng)進(jìn)行節(jié)點(diǎn)信息交互是關(guān)鍵,這個過程屬于數(shù)據(jù)重新分配.關(guān)于具體的軟件架構(gòu)見圖1.
2.2.2 使用習(xí)慣較高的方案設(shè)計(jì)
Master備主機(jī)和Master主機(jī)之間的進(jìn)程是主-備方式,在GE網(wǎng)絡(luò)條件下,Master連接多個節(jié)點(diǎn)中的Segment主機(jī),每個Segment節(jié)點(diǎn)主機(jī)都有具有鏡像兩份網(wǎng)段數(shù)據(jù)、主網(wǎng)段,它能提高整個系統(tǒng)架構(gòu)的可用性.詳細(xì)見圖2.
2.3 大數(shù)據(jù)統(tǒng)一平臺網(wǎng)絡(luò)架構(gòu)
2.3.1 大數(shù)據(jù)平臺架構(gòu)共享方案
實(shí)現(xiàn)“完全共享”的大數(shù)據(jù)平臺,主要受到單一服務(wù)器的限制,目前市場上能夠滿足數(shù)據(jù)完全共享需求的服務(wù)器是SMP,這種服務(wù)器價格比較昂貴(見圖3),多數(shù)企業(yè)會因?yàn)槌杀締栴}而不去考慮這種服務(wù)器.
企業(yè)為了實(shí)現(xiàn)大數(shù)據(jù)平臺信息共享功能,一般是建立“磁盤共享”體系,將多個服務(wù)器構(gòu)成一個系統(tǒng),同時將這些服務(wù)器和SAN進(jìn)行連接,從而實(shí)現(xiàn)儲存和共享數(shù)據(jù)的功能.該系統(tǒng)需要一個狹窄數(shù)據(jù)管道來過濾所有的I/O信息,之后在共享磁盤中進(jìn)行儲存.見圖4.
從結(jié)構(gòu)角度分析,“磁盤共享”“完全共享”體系,在性能和擴(kuò)展性都存在不足,而且通用的共享磁盤體系比較脆弱且復(fù)雜,對于數(shù)以萬字節(jié)的數(shù)據(jù)無法準(zhǔn)確及時處理.
2.4 大數(shù)據(jù)統(tǒng)一平臺方案特點(diǎn)
2.4.1 節(jié)點(diǎn)鏡像-數(shù)據(jù)保護(hù)
在大數(shù)據(jù)平臺中,負(fù)責(zé)儲存系統(tǒng)元數(shù)據(jù)的是Master,而主機(jī)Segment節(jié)點(diǎn)是儲存用戶相關(guān)數(shù)據(jù),在鏡像的作用下,鏡像數(shù)據(jù)可以儲存在不同的Segment主機(jī)上.比如:圖6中,Segment主機(jī)1版本1數(shù)據(jù)儲存在Segment主機(jī)1,而它的鏡像數(shù)據(jù)在Segment主機(jī)n上儲存;Segment主機(jī)2的鏡像數(shù)據(jù)是保存在Segment主機(jī)1等等.
通過分析這種鏡像配置,總結(jié)到如果Segment主機(jī)down機(jī)了,還可以在別的Segment主機(jī)中找到相關(guān)數(shù)據(jù),并儲存在Segment主機(jī)數(shù)據(jù)庫中.
2.4.2 加載外部表高速數(shù)據(jù)
這個部分具有的優(yōu)勢體現(xiàn)在:首先,數(shù)據(jù)流并行引擎技術(shù),使用SQL直接對外部表進(jìn)行操作;其次,完全并行加載,速度可以達(dá)到4.5TB/小時.
SQL&MapReduce一體環(huán)境
相比傳統(tǒng)的RDBMS系統(tǒng),大數(shù)據(jù)的編程環(huán)境是屬于SQL語句和MapReduce一體的系統(tǒng)環(huán)境.本文分析的云計(jì)算平臺是利用X86開放架構(gòu)服務(wù)器PC構(gòu)建的硬件系統(tǒng),它具有大規(guī)模數(shù)據(jù)計(jì)算和分布式儲存數(shù)據(jù)的功能,能夠解決I/O存在的問題,具有很高的保障性,擴(kuò)展性能比較好,各種數(shù)據(jù)資源可以按需制定.
2.5 大數(shù)據(jù)統(tǒng)一分析平臺的優(yōu)勢
建立在云計(jì)算基礎(chǔ)上的大數(shù)據(jù)平臺,可以實(shí)現(xiàn)大幅度數(shù)據(jù)容量處理,同時能夠使用細(xì)粒度數(shù)據(jù)集,完成數(shù)據(jù)緊密倉庫、低延遲數(shù)據(jù)訪問、集成分析等任務(wù),為企業(yè)或是公司提供具有可操行的具體數(shù)據(jù)參考.大數(shù)據(jù)統(tǒng)一平臺具有的優(yōu)勢包括:(1)可以實(shí)現(xiàn)多元化、細(xì)化性的低延遲數(shù)據(jù)集分析,同時將數(shù)據(jù)之間細(xì)微的區(qū)別和關(guān)系進(jìn)行保留,這樣可以更好指導(dǎo)企業(yè)業(yè)務(wù),為優(yōu)化業(yè)務(wù)績效提供參考依據(jù).(2)允許根據(jù)再分配、按需分配、優(yōu)先級對業(yè)務(wù)相關(guān)資源進(jìn)行快速計(jì)算.(3)根據(jù)關(guān)鍵性業(yè)務(wù)開展組織活動,提供最佳的傳播方法,同時組織分析結(jié)果.(4)成本方面具有一定的優(yōu)勢,可以通過商品化組間結(jié)合大數(shù)據(jù),挖掘?qū)ζ髽I(yè)有利益的數(shù)據(jù),從而提高企業(yè)的經(jīng)濟(jì)效益.
3 結(jié)語
建立在云計(jì)算基礎(chǔ)上的數(shù)據(jù)分析平臺,可以對復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、關(guān)聯(lián)度較高的數(shù)據(jù)進(jìn)行處理,同時也能及時響應(yīng)用戶請求.該平臺可以實(shí)現(xiàn)對大量數(shù)據(jù)的管理和處理,實(shí)現(xiàn)智能、高速的數(shù)據(jù)分析,為企業(yè)業(yè)務(wù)處理提供一定的幫助,從而挖掘更具有價值的數(shù)據(jù).
參考文獻(xiàn):
〔1〕王偉,凌煥然,李響.基于云計(jì)算與大數(shù)據(jù)架構(gòu)的工業(yè)水處理工藝流程智能感知運(yùn)營平臺建設(shè)[J].江蘇交通科技,2016(1):22-25.
〔2〕江凱,蘇謙,白皓,等.大數(shù)據(jù)環(huán)境下高速鐵路線下結(jié)構(gòu)檢測數(shù)據(jù)管理平臺設(shè)計(jì)與分析[J].鐵道標(biāo)準(zhǔn)設(shè)計(jì),2016(3):24-28.
〔3〕陳敏,肖志強(qiáng).關(guān)于云計(jì)算大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)中分析與應(yīng)用淺析[J].數(shù)字技術(shù)與應(yīng)用,2016(12):250-250.
〔4〕周效章.“在線教育平臺+學(xué)習(xí)中心”融合教學(xué)模式構(gòu)建研究——基于滬江教學(xué)模式的分析與思考[J].現(xiàn)代教育技術(shù),2017,27(10).
〔5〕丁臘春,王譯,魏浩文,等.基于云計(jì)算的區(qū)域O2O孕產(chǎn)婦醫(yī)療保健服務(wù)平臺的研究[J].中國數(shù)字醫(yī)學(xué),2016,11(12):79-80.
〔6〕李霞.大數(shù)據(jù)背景下的智慧檢務(wù)之建構(gòu)——以“檢立方C-139”大數(shù)據(jù)輔助決策平臺為例[J].渤海大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2017,39(4):45-48.
〔7〕唐卓,陳建國,李肯立,等.Spark云服務(wù)環(huán)境下面向大數(shù)據(jù)的隨機(jī)森林并行機(jī)器學(xué)習(xí)方法.CN105550374A[P].2016.
〔8〕汪旭光,王尹軍.構(gòu)建“互聯(lián)網(wǎng)+大數(shù)據(jù)”模式 大力提升危險(xiǎn)化學(xué)品管控和應(yīng)急救援能力(二)[J].中國消防,2017(4):53-57.