摘 要在大數(shù)據(jù)分析流程中,通過充分運用云計算技術(shù)來對其設(shè)計過程進行優(yōu)化,能夠有效提高大數(shù)據(jù)分析的有效性與針對性,并能大量減少海量數(shù)據(jù)的處理時間,使系統(tǒng)的響應(yīng)時間大大加快。為此,本文便基于云計算技術(shù)來對大數(shù)據(jù)分析流程的具體優(yōu)化路徑進行深入的分析。
【關(guān)鍵詞】云計算 大數(shù)據(jù) 分析流程 優(yōu)化路徑
1 大數(shù)據(jù)分析流程中存儲與訪問技術(shù)的優(yōu)化路徑分析
1.1 數(shù)據(jù)流和控制流的分離
在大數(shù)據(jù)分析流程中對存儲與訪問技術(shù)的優(yōu)化路徑中,主要是利用云計算建立一種GFS文件系統(tǒng)來實現(xiàn)數(shù)據(jù)流和控制流的分離的,在GFS文件系統(tǒng)節(jié)點中,每個集群都有一個主控服務(wù)器,主控服務(wù)器能夠?qū)ο到y(tǒng)中的元數(shù)據(jù)進行管理,而客戶端則是一種以庫文件形式所提供的應(yīng)用程序訪問接口,數(shù)據(jù)塊服務(wù)器用于將GFS節(jié)點中的數(shù)據(jù)以文件的方式進行存儲和訪問,在GFS集群中,數(shù)據(jù)塊服務(wù)器的數(shù)量是由其集群規(guī)模來決定的。在GFS文件系統(tǒng)中,其是將數(shù)據(jù)以64MB的大小來進行分塊存儲和操作的,并且每個數(shù)據(jù)塊中都有與之匹配的索引號。通過這種方式,能夠使集群中的數(shù)據(jù)塊服務(wù)器將信息發(fā)送給客戶端,并由客戶端來對這些數(shù)據(jù)服務(wù)塊進行存取與讀寫,以此實現(xiàn)客戶端和主控服務(wù)器的數(shù)據(jù)流直接傳輸,從而使主控服務(wù)器的負載得到了大幅度降低,并且使客戶端能夠?qū)Χ鄠€數(shù)據(jù)塊服務(wù)器進行同時訪問。
1.2 不緩存數(shù)據(jù)的優(yōu)化
長期以來,用戶在訪問文件時,由于磁盤性能上的缺陷,因此文件系統(tǒng)需要進行頻繁的訪問磁盤,進而產(chǎn)生大量的緩存數(shù)據(jù),嚴重影響了客戶端的訪問速度,降低了系統(tǒng)的操作性能。而通過云計算來建立一種不緩存數(shù)據(jù)操作機制的GFS文件系統(tǒng),它能夠通過對文件系統(tǒng)性能的提高來對磁盤性能上的缺陷進行彌補,以此提高系統(tǒng)性能。GFS文件是將要進行操作的文件塊存儲到系統(tǒng)的內(nèi)存當中,當該文件塊被用戶進行首次訪問時,系統(tǒng)會先從磁盤中對文件塊進行讀取,而后用戶每次對該文件塊進行訪問時,便可直接進行緩存讀取,從而在提高系統(tǒng)操作性能的同時,也使系統(tǒng)的寫操作性能得到提高。不緩存數(shù)據(jù)操作機制的GFS文件系統(tǒng)的優(yōu)勢在于它非常適合對大數(shù)據(jù)的實時監(jiān)測與分析,減少了無用緩存數(shù)據(jù)的大量產(chǎn)生,并且避免了數(shù)據(jù)的頻繁讀寫操作,實現(xiàn)了云計算對大數(shù)據(jù)的動態(tài)加載和伸縮,有效避免了緩存容量的局限性。
2 大數(shù)據(jù)分析流程中并行處理技術(shù)的優(yōu)化路徑分析
2.1 大數(shù)據(jù)邏輯分析的優(yōu)化
在大數(shù)據(jù)分析中,主要是通過將某種具體事物或問題按照其邏輯關(guān)系來進行分解,使其分解為各個要素,然后利用比較的方式來判斷這些要素對事物或問題的影響,并排列出主次關(guān)系,并通過推理來對事物或問題中各個要素之間的關(guān)系進行明確,然后將分析結(jié)果進行匯總,從而揭示該事物或問題的本質(zhì)聯(lián)系與內(nèi)在規(guī)律。要想實現(xiàn)這種邏輯分析思路的優(yōu)化,就必須經(jīng)過對問題的分解、處理、匯總與完成,而利用云計算來建立一種數(shù)據(jù)處理模型,能夠?qū)崿F(xiàn)對海量數(shù)據(jù)的并行處理,其是通過對海量數(shù)據(jù)分析任務(wù)的分解來完成的,它通過對大量分析任務(wù)進行分解,使其成為若干分析單元與數(shù)據(jù)塊,然后利用系統(tǒng)中的若干處理節(jié)點來對這些分解的任務(wù)進行并行計算處理,并將計算處理結(jié)果進行匯總,從而實現(xiàn)了對大數(shù)據(jù)分析任務(wù)的處理。在運作特征上,并行處理方式與數(shù)據(jù)分析方法基本一致,它都是經(jīng)過對問題的分解、處理、匯總與完成這四個步驟。因此,從技術(shù)上來講,將云計算的技術(shù)架構(gòu)應(yīng)用到大數(shù)據(jù)對問題的邏輯分析中較為可行。
2.2 數(shù)據(jù)資源配置的優(yōu)化
大數(shù)據(jù)在對資源進行配置時,由于其不涉及到并行處理,并且在數(shù)據(jù)模式、數(shù)據(jù)處理與數(shù)據(jù)內(nèi)容上也較為簡單固定,大部分時間都浪費在了對數(shù)據(jù)的尋找與定位上,從而大大延長了系統(tǒng)的響應(yīng)時間與服務(wù)水平,因此這種資源配置的方法很難滿足大數(shù)據(jù)對海量信息的分析。云計算對大數(shù)據(jù)資源配置的優(yōu)化則是通過由系統(tǒng)進行默認或用戶自行定制的方式,來將海量的數(shù)據(jù)分解為若干微階段來進行數(shù)據(jù)處理,并通過最優(yōu)執(zhí)行性能的原則來對大數(shù)據(jù)分析任務(wù)進行處理,然后由系統(tǒng)對各微階段中數(shù)據(jù)分析任務(wù)的執(zhí)行情況進行分析與測量,此時,云計算會進一步找出各微階段中耗時較長的部分,然后以此為依據(jù)來優(yōu)化資源配置計劃。
3 大數(shù)據(jù)分析流程中組織與管理技術(shù)的優(yōu)化路徑分析
3.1 數(shù)據(jù)模型組織結(jié)構(gòu)的優(yōu)化
云計算在對數(shù)據(jù)模型組織結(jié)構(gòu)進行優(yōu)化時,為了確保成千上萬臺機器所組成的集群能夠在分布式存儲架構(gòu)中運行,以此實現(xiàn)對PB級別大數(shù)據(jù)的高效處理,設(shè)計者利用云計算技術(shù)將Bigtable設(shè)計成一種分布式多維映射表,這種分布式多維映射表能夠?qū)π?、列中的關(guān)鍵字與時間戳進行索引,以此實現(xiàn)數(shù)據(jù)模型組織結(jié)構(gòu)的優(yōu)化。在行的設(shè)計改進中,Bigtable的最大行關(guān)鍵字為64KB的字符串,它能夠確保在對行關(guān)鍵字的索引執(zhí)行過程中不會受到任何事件的中斷,并且在字母順序排列方面利用倒排的方式來便于數(shù)據(jù)的壓縮。在列的設(shè)計改進中,它能夠利用列族(由列關(guān)鍵字組成)的方式來避免對眾多列關(guān)鍵字的涉及,以此提高這種組織結(jié)構(gòu)的處理效率。在加入時間戳的設(shè)計改進中,通過利用Bigtable在數(shù)據(jù)模型中引入非順序處理的時間戳,能夠有效彌補傳統(tǒng)關(guān)系型數(shù)據(jù)庫在時間特性方面的缺陷性,并進一步強化了數(shù)據(jù)項間的價值關(guān)聯(lián)性,提高了對海量數(shù)據(jù)進行分析的效率。
3.2 數(shù)據(jù)管理架構(gòu)的優(yōu)化
利用云計算對數(shù)據(jù)管理架構(gòu)的優(yōu)化主要是通過GFS文件系統(tǒng)、分布式調(diào)度器與分布式鎖服務(wù)來完成的,GFS文件系統(tǒng)主要是負責(zé)對海量的數(shù)據(jù)及日志進行存儲,而分布式鎖服務(wù)則用來對服務(wù)器信息與元數(shù)據(jù)進行管理的。分布式調(diào)度器則是用來對系統(tǒng)的隊列及任務(wù)進行分布式的分組與調(diào)度。云計算在數(shù)據(jù)管理架構(gòu)的優(yōu)化主要包括對主服務(wù)器監(jiān)測控制的優(yōu)化與子表服務(wù)器存儲操作的優(yōu)化。在主服務(wù)器監(jiān)測控制優(yōu)化中,采用Bigtable的目的在于確保分布式存儲系統(tǒng)的擴展性得到最大程度的發(fā)揮,并通過對分布式鎖服務(wù)目錄的監(jiān)測來實現(xiàn)對負載的均衡處理。在子表服務(wù)器存儲操作優(yōu)化過程中,通過時間遠近的方式來對數(shù)據(jù)進行分別存儲,以此提高資源分配的合理性,并當數(shù)據(jù)容量達到上限時,能夠通過壓縮SSTable文件的方式來對存儲系統(tǒng)中的資源配置情況進行優(yōu)化。
參考文獻
[1]吳凱峰,劉萬濤,李彥虎,蘇伊鵬,肖政,裴旭斌,虎嵩林.基于云計算的電力大數(shù)據(jù)分析技術(shù)與應(yīng)用[J].中國電力,2015,48(02):111-116+127.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,38(07):103-108.
[3]洪漢舒,孫知信.基于云計算的大數(shù)據(jù)存儲安全的研究[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2014,34(04):26-32+56.
作者簡介
王偉鈞(1963-),男,江蘇省丹陽市人。碩士研究生。副教授。研究方向為數(shù)據(jù)挖掘、管理工程。
作者單位
成都大學(xué)信息科學(xué)與工程學(xué)院 四川省成都市 610106endprint