王光肇,劉國鵬
(1.中國煤炭科工集團(tuán)太原研究院有限公司,山西 太原 030006;2.煤礦采掘機(jī)械裝備國家工程實(shí)驗(yàn)室,山西 太原 030006)
在計(jì)算機(jī)技術(shù)高速發(fā)展的進(jìn)程中,云計(jì)算技術(shù)以其可拓展性、超大規(guī)模、高可靠性以及虛擬化等優(yōu)勢得到了廣泛應(yīng)用。特別是在計(jì)算機(jī)大數(shù)據(jù)分析過程中,利用云計(jì)算技術(shù)可以動態(tài)優(yōu)化計(jì)算機(jī)大數(shù)據(jù)處理性能,實(shí)現(xiàn)計(jì)算機(jī)大數(shù)據(jù)的高效率分析。因此,探究計(jì)算機(jī)大數(shù)據(jù)分析中的云計(jì)算技術(shù)應(yīng)用措施具有非常重要的意義。
云計(jì)算是一種利用網(wǎng)絡(luò)關(guān)聯(lián)計(jì)算機(jī)硬件、軟件資源的技術(shù),可以集中處理數(shù)據(jù)、存儲資源,并根據(jù)需要將資源分配到其他計(jì)算機(jī)設(shè)備中[1]?,F(xiàn)今形勢下,云計(jì)算服務(wù)與部署模式如圖1所示。
圖1中,基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as a Service,IaaS)本質(zhì)上是為用戶提供可租用的場外服務(wù)器、網(wǎng)絡(luò)硬件、存儲硬件以及虛擬機(jī)資源;平臺即服務(wù)(Platform as a Service,PaaS)本質(zhì)上是運(yùn)行用戶在操作系統(tǒng)、服務(wù)器、存儲等云基礎(chǔ)設(shè)施上部署資源;軟件即服務(wù)(Software as a Service,SaaS)本質(zhì)上是以Internet為載體,支撐接連網(wǎng)絡(luò)的用戶瀏覽云端應(yīng)用[2]。
圖1 云計(jì)算技術(shù)服務(wù)與部署模式
傳統(tǒng)的計(jì)算機(jī)大數(shù)據(jù)分析主要包括計(jì)算機(jī)輔助分析、數(shù)學(xué)統(tǒng)計(jì)、社會學(xué)分析以及圖情分析等,均依托本地資源架構(gòu),需專門配備硬件設(shè)施、文件系統(tǒng),成本較高。而云計(jì)算技術(shù)使用廉價(jià)商用機(jī)器,可以由分布式文件系統(tǒng)完成計(jì)算機(jī)大數(shù)據(jù)分析,在確保計(jì)算機(jī)大數(shù)據(jù)分析可靠性的同時(shí),降低分析成果存儲成本。
傳統(tǒng)計(jì)算機(jī)大數(shù)據(jù)分析架構(gòu)的容錯(cuò)率較低,一旦本地化數(shù)據(jù)分析資源容量達(dá)到TB級,就無法有效處理。而云計(jì)算技術(shù)可利用軟件的方法解決海量數(shù)據(jù)分析問題,文件系統(tǒng)負(fù)責(zé)容錯(cuò)任務(wù),容錯(cuò)率較高,可以滿足海量數(shù)據(jù)高容錯(cuò)分析的處理要求[3]。
傳統(tǒng)基于本地資源架構(gòu)的計(jì)算機(jī)大數(shù)據(jù)分析數(shù)據(jù)量為GB級,分析方式為交互性和批處理,需多次寫入更新,整體結(jié)構(gòu)為靜態(tài),資源結(jié)構(gòu)伸縮性為非線性,無法滿足海量數(shù)據(jù)實(shí)時(shí)分析的要求。而云計(jì)算技術(shù)的計(jì)算機(jī)大數(shù)據(jù)分析數(shù)據(jù)量為PB級,分析方式為批處理,可一次寫入多次讀取更新,整體結(jié)構(gòu)為動態(tài),資源結(jié)構(gòu)伸縮性為線性,可滿足海量數(shù)據(jù)實(shí)時(shí)分析要求[4]。
云計(jì)算技術(shù)應(yīng)用到計(jì)算機(jī)大數(shù)據(jù)分析中的前提是完善的云計(jì)算體系。根據(jù)云計(jì)算技術(shù)采樣工具網(wǎng)絡(luò)爬蟲的特點(diǎn),可綜合利用虛擬資源構(gòu)架技術(shù)、數(shù)據(jù)處理技術(shù)、數(shù)據(jù)挖掘技術(shù),構(gòu)建虛擬多元信息處理模型體系[5]。依托虛擬多元信息處理模型體系,研究多種應(yīng)用資源,整理、分配到若干設(shè)備,促使計(jì)算數(shù)據(jù)處理速度達(dá)到較高的水平。特別是在數(shù)據(jù)吞吐量達(dá)到最大水平時(shí),在模型內(nèi)整合數(shù)據(jù)資源,重新構(gòu)建數(shù)據(jù)包,預(yù)先推動數(shù)據(jù)包進(jìn)入傳輸控制協(xié)議管道,滿足數(shù)據(jù)快速傳輸要求。數(shù)據(jù)資源整合后,借助云計(jì)算自身任務(wù)調(diào)度功能,依據(jù)實(shí)際目標(biāo),靈活調(diào)度任務(wù)資源,進(jìn)而在控制器、內(nèi)部指示燈之間構(gòu)建信息交互通道,將數(shù)據(jù)分析信號傳遞給控制器,經(jīng)控制器讀取模塊內(nèi)部數(shù)據(jù)進(jìn)行量化客觀分析,了解不同類別硬件實(shí)際占用率與虛擬化資源配置數(shù)據(jù)差異,為數(shù)據(jù)運(yùn)用提供依據(jù)。
私有云、公有云是云計(jì)算主要使用的對象類別,具有不同優(yōu)勢。為融合二者優(yōu)勢,可以規(guī)劃混合云計(jì)算方案,優(yōu)化云計(jì)算在計(jì)算機(jī)大數(shù)據(jù)分析中的應(yīng)用流程,為服務(wù)對象提供舒適的體驗(yàn)。在混合云計(jì)算方案規(guī)劃時(shí),應(yīng)對接服務(wù)對象心理需求,從最大程度減小服務(wù)開支著手,允許每一位服務(wù)對象按需選擇服務(wù)類型,提前預(yù)知下一周期消費(fèi)明細(xì),自由選擇服務(wù)類型。在服務(wù)類型確定后,合理分配個(gè)人賬戶內(nèi)部、公共計(jì)算階段的工作負(fù)載[6]。
為了盡可能多地從私有、公共環(huán)境中獲取有價(jià)值數(shù)據(jù)(含結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)),可以借助Google云計(jì)算技術(shù)特有的海量數(shù)據(jù)分析、存儲、訪問、管理組織與并行處理功能進(jìn)行組織框架改進(jìn)(見圖2)。
由圖2可知,云計(jì)算技術(shù)環(huán)境下,大數(shù)據(jù)分析主要借助并行處理方法。較之傳統(tǒng)網(wǎng)格計(jì)算等并行方法,云計(jì)算技術(shù)中的并行處理流程進(jìn)一步簡化。例如,在MapReduce模型中,先借助map函數(shù)、reduce函數(shù)計(jì)算處理輸入的<key,value>對集,再生成1個(gè)新的輸出對集<key,value>。在新的輸出對集生成后,由map函數(shù)將輸入處理為中間對集<key,value>,集中匯聚具有相同key對應(yīng)的全部value,進(jìn)而借助reduce操作歸并處理,最終獲得(key,final-value)的結(jié)果集。整個(gè)過程中,數(shù)據(jù)分析邏輯為將大型分析任務(wù)切分為若干數(shù)據(jù)塊,經(jīng)處理節(jié)點(diǎn)分布計(jì)算后匯總結(jié)果[7]。
圖2 云計(jì)算技術(shù)的大數(shù)據(jù)分析框架
在并行處理邏輯下,傳統(tǒng)固定式的資源配置無法滿足大數(shù)據(jù)分析要求。因此,根據(jù)計(jì)算機(jī)海量數(shù)據(jù)在云計(jì)算環(huán)境中呈現(xiàn)出的數(shù)據(jù)內(nèi)容與模式、處理方法未知的特性,可以構(gòu)建集群資源與配置參數(shù)等動態(tài)資源配置計(jì)劃,測量不合理資源,診斷瓶頸,針對性優(yōu)化,確保云計(jì)算在大數(shù)據(jù)分析中的有效應(yīng)用。
底層存儲和訪問主要依托Google分布式文件系統(tǒng),是云計(jì)算技術(shù)正常運(yùn)用于大數(shù)據(jù)分析的保證。系統(tǒng)包括客戶端、數(shù)據(jù)塊服務(wù)器、主控服務(wù)器幾個(gè)節(jié)點(diǎn),其中客戶端為專用訪問接口,以庫文件形式存在;數(shù)據(jù)塊服務(wù)器以文件形式存儲數(shù)據(jù),是文件系統(tǒng)集群規(guī)模的決定依據(jù)。在存儲文件分塊標(biāo)準(zhǔn)默認(rèn)為64 MB時(shí),數(shù)據(jù)塊數(shù)量也為64;在邏輯視角主控服務(wù)器與文件集群一一對應(yīng)。根據(jù)整個(gè)系統(tǒng)的元數(shù)據(jù)保存要求,主控服務(wù)器可先向客戶端提供數(shù)據(jù)塊服務(wù)器信息,再經(jīng)客戶端直接訪問數(shù)據(jù)塊服務(wù)器,完成數(shù)據(jù)存取、讀寫,順利分離控制流、數(shù)據(jù)流,確??蛻舳伺c主控服務(wù)器、客戶端與數(shù)據(jù)塊服務(wù)器之間分別存在且僅存在控制流、數(shù)據(jù)流,降低服務(wù)器負(fù)載。在面對海量計(jì)算機(jī)數(shù)據(jù)分析操作時(shí),數(shù)據(jù)流和控制流分離的存儲與訪問模塊可長期跟蹤特定數(shù)據(jù)對象屬性狀態(tài),根據(jù)實(shí)時(shí)分析人物、數(shù)據(jù)量負(fù)載進(jìn)行數(shù)據(jù)塊服務(wù)器的動態(tài)擴(kuò)展與伸縮,滿足數(shù)據(jù)密集型文件分析要求,容錯(cuò)能力較強(qiáng),并可將高集成度執(zhí)行結(jié)果發(fā)送給數(shù)據(jù)分析模塊。
云計(jì)算技術(shù)環(huán)境下,不緩存數(shù)據(jù)的操作機(jī)制較之傳統(tǒng)文件系統(tǒng)緩存性能提升作用更加突出[8]。特別是在客戶端多數(shù)應(yīng)用流式讀寫、少量重復(fù)讀寫的操作狀況下,可以實(shí)時(shí)分析海量歷史數(shù)據(jù)、監(jiān)測已有資料文獻(xiàn)。對于部分需頻繁讀寫的數(shù)據(jù),則引入合作緩存技術(shù),由數(shù)據(jù)塊服務(wù)器本地文件系統(tǒng)負(fù)責(zé)緩存,配合數(shù)據(jù)塊服務(wù)器的動態(tài)加載,規(guī)避緩存容量局限性對計(jì)算機(jī)海量數(shù)據(jù)分析的干擾。
計(jì)算機(jī)數(shù)據(jù)分析中的數(shù)據(jù)吞吐量較高,需要以批處理的形式保持低延時(shí)?;诖?,需要摒棄大量依靠關(guān)系數(shù)據(jù)架構(gòu)的本地資源平臺,而是對標(biāo)海量多類型數(shù)據(jù)處理和復(fù)雜信息查詢需求,整合傳統(tǒng)關(guān)系數(shù)據(jù)庫,動態(tài)控制數(shù)據(jù)部署、格式,確保用戶順利推斷底層存儲數(shù)據(jù)的局部屬性[9]。
在組織結(jié)構(gòu)設(shè)計(jì)改進(jìn)的基礎(chǔ)上,需要進(jìn)行管理結(jié)構(gòu)優(yōu)化。即依據(jù)分布式多維映射表,借助1個(gè)行關(guān)鍵字、1個(gè)時(shí)間戳、1個(gè)列關(guān)鍵字進(jìn)行索引。同時(shí)依據(jù)行關(guān)鍵字字母倒排數(shù)據(jù),確保同一行關(guān)鍵字下數(shù)據(jù)不間斷,提高數(shù)據(jù)分析效率。例如將Data.analysis.com倒排為com.analysis.Data;對于列,則可以列關(guān)鍵字組成的列族為基本單元,壓縮類型相同的同一列族,避免列關(guān)鍵字過多對海量數(shù)據(jù)分析的干擾;對于時(shí)間戳,則加入64位整數(shù),由系統(tǒng)分配賦值,也可用戶自定義,將事務(wù)時(shí)間特性融入關(guān)系型數(shù)據(jù)庫內(nèi),滿足云計(jì)算技術(shù)實(shí)時(shí)分析海量數(shù)據(jù)的要求。
信息數(shù)據(jù)分析安全是阻礙云計(jì)算技術(shù)在計(jì)算機(jī)大數(shù)據(jù)分析中應(yīng)用的首要瓶頸。為保障云計(jì)算技術(shù)的應(yīng)用安全,可應(yīng)用物理+數(shù)學(xué)方式控制訪問權(quán)限。根據(jù)原密碼分配密鑰,設(shè)置雙重加密認(rèn)證,規(guī)避不法入侵者盜取信息,保護(hù)服務(wù)對象隱私安全[10]。同時(shí)定期升級云計(jì)算密鑰系統(tǒng),自動備份虛擬化的基層系統(tǒng)中間產(chǎn)物鏡像,以便在系統(tǒng)出現(xiàn)災(zāi)難性狀況時(shí)自動將存儲于計(jì)算機(jī)服務(wù)器的鏡像轉(zhuǎn)化為數(shù)據(jù),降低云計(jì)算數(shù)據(jù)丟失風(fēng)險(xiǎn)。在這個(gè)基礎(chǔ)上,從源頭著手,啟動云計(jì)算技術(shù)的數(shù)據(jù)處理函數(shù),輔助隱藏用戶登錄信息,規(guī)避網(wǎng)絡(luò)內(nèi)部其他人員獲知用戶實(shí)際位置信息,確保用戶信息安全。
云計(jì)算技術(shù)的應(yīng)用為計(jì)算機(jī)大數(shù)據(jù)分析帶來了翻天覆地的變化,不僅可以降低計(jì)算機(jī)大數(shù)據(jù)分析成本,而且可以滿足計(jì)算機(jī)大數(shù)據(jù)按需靈活分析的要求。因此,應(yīng)構(gòu)建云計(jì)算體系,規(guī)劃云計(jì)算技術(shù)應(yīng)用方案,綜合應(yīng)用雙重加密認(rèn)證與自動備份鏡像,保障云計(jì)算技術(shù)應(yīng)用安全,為云計(jì)算技術(shù)在計(jì)算機(jī)大數(shù)據(jù)分析中的應(yīng)用提供支持。