何春 電子科技大學(xué)成都學(xué)院
隨著互聯(lián)網(wǎng)的普及與發(fā)展,世界已進(jìn)入到信息爆炸的時(shí)代,網(wǎng)絡(luò)技術(shù)、移動(dòng)通信技術(shù)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展都產(chǎn)生了海量的數(shù)據(jù)信息。2020年世界范圍數(shù)據(jù)總量將會(huì)達(dá)到達(dá)到35億TB,意味著大數(shù)據(jù)時(shí)代的到來(lái),必然會(huì)催生對(duì)應(yīng)的大數(shù)據(jù)處理技術(shù)。
云計(jì)算技術(shù)主要借助于集中式計(jì)算機(jī)資源,通過(guò)按需分配的形式,為終端用戶(hù)提供廉價(jià)的計(jì)算機(jī)大數(shù)據(jù)處理方案。云計(jì)算技術(shù)是處理海量數(shù)據(jù)的一種關(guān)鍵技術(shù)形式。對(duì)于終端用戶(hù)來(lái)說(shuō),在數(shù)據(jù)資源上處于較為透明的狀態(tài),能夠?yàn)樾袠I(yè)發(fā)展以及分析提供數(shù)據(jù)計(jì)算服務(wù),在服務(wù)能力上,能夠?qū)崿F(xiàn)無(wú)限的延展性。
大數(shù)據(jù)采集是整個(gè)數(shù)據(jù)處理的基礎(chǔ)性環(huán)節(jié),隨著互聯(lián)網(wǎng)技術(shù)的應(yīng)用與發(fā)展終端數(shù)據(jù)收集逐漸得到普及,使得數(shù)據(jù)收集以及存儲(chǔ)量成為天文數(shù)字,數(shù)據(jù)之間的連接關(guān)系變得極為復(fù)雜,但是對(duì)于大數(shù)據(jù)的收集要實(shí)現(xiàn)采集的高精度以及高速度,以此才能夠提升信息采集的效率。
對(duì)于大數(shù)據(jù)進(jìn)行分析之前,首先要進(jìn)行數(shù)據(jù)的處理及集成,主要是對(duì)數(shù)據(jù)集進(jìn)行格式化,然后對(duì)數(shù)據(jù)進(jìn)行去噪聲處理,處理完成后,進(jìn)一步得到集成數(shù)據(jù)集合。如果數(shù)據(jù)采集標(biāo)準(zhǔn)不統(tǒng)一,將會(huì)得到不一致的數(shù)據(jù)結(jié)構(gòu),必然會(huì)影響后期數(shù)據(jù)分析的效率以及精確度。因此對(duì)于所采集的大數(shù)據(jù)信息必須要統(tǒng)一格式,盡可能去掉一些無(wú)效用的信息數(shù)據(jù)。
在數(shù)據(jù)完成前期的處理以及集成之后,需要對(duì)數(shù)據(jù)進(jìn)行分析,分析數(shù)據(jù)主要是能夠挖掘其在背后所潛在的價(jià)值。大數(shù)據(jù)的分析主要借助于數(shù)據(jù)倉(cāng)庫(kù)的采集以及數(shù)據(jù)挖掘工具的存儲(chǔ),對(duì)于大數(shù)據(jù)進(jìn)行分析與傳統(tǒng)的數(shù)據(jù)分析有著較為明顯的差異性,主要是能夠提供的服務(wù)更加多樣化以及深入化。所面臨的客戶(hù)主要為其提供解決方案,實(shí)現(xiàn)獨(dú)立性的大數(shù)據(jù)分析服務(wù)。
對(duì)于大數(shù)據(jù)的分析結(jié)果要進(jìn)行解釋和闡述,是直接得出成果的必要步驟,對(duì)于傳統(tǒng)的數(shù)據(jù)分析顯示主要依靠于文本的形式,但是隨著大數(shù)據(jù)的發(fā)展,傳統(tǒng)的數(shù)字顯示技術(shù)已經(jīng)難以滿(mǎn)足其后期的發(fā)展要求,因此在數(shù)據(jù)進(jìn)行分析過(guò)程中,要引入可視化的數(shù)據(jù)解釋方案,對(duì)于數(shù)據(jù)結(jié)果進(jìn)行模擬分析,這樣才能夠給數(shù)據(jù)分析用戶(hù)形象具體闡釋分析的結(jié)果,作為其作出決策的重要參考。
在云計(jì)算環(huán)境下的大數(shù)據(jù)處理技術(shù)主要集中于大規(guī)模的廉價(jià)計(jì)算平臺(tái),利用網(wǎng)絡(luò)虛擬化技術(shù)實(shí)現(xiàn)廉價(jià)計(jì)算平臺(tái)的有效建設(shè)。可以將計(jì)算機(jī)的存儲(chǔ)應(yīng)用以及網(wǎng)絡(luò)數(shù)據(jù)的計(jì)算等轉(zhuǎn)化為虛擬的實(shí)體,對(duì)于富余的計(jì)算資源進(jìn)行抽取,使之能夠形成兩者之間相互獨(dú)立的虛擬服務(wù)器來(lái)完成大數(shù)據(jù)的處理以及分析,能夠?qū)崿F(xiàn)底層硬件的虛擬化,同時(shí)也能夠有效構(gòu)建能夠擴(kuò)展的計(jì)算機(jī)資源池,實(shí)現(xiàn)集成管理與虛擬計(jì)算以及計(jì)算節(jié)點(diǎn)流程化,也能夠有效實(shí)現(xiàn)大數(shù)據(jù)資源處理的實(shí)時(shí)遷移以及轉(zhuǎn)換。同時(shí)完成系統(tǒng)監(jiān)控以及子任務(wù)的部署。
在互聯(lián)網(wǎng)環(huán)境下,借助于計(jì)算機(jī)處理大數(shù)據(jù)技術(shù)必然會(huì)牽扯到Hadoop平臺(tái)。這種平臺(tái)作為MAP算法的一種框架,借助于其分布式的框架結(jié)構(gòu),包含分布式文件系統(tǒng)以及分布式的數(shù)據(jù)庫(kù)系統(tǒng)。利用這些強(qiáng)大的功能模塊,已成為目前市場(chǎng)上較為流行的大數(shù)據(jù)處理的框架性平臺(tái),在實(shí)踐中得到了極為廣泛的應(yīng)用,基于Hadoop平臺(tái)技術(shù)能夠有效實(shí)現(xiàn)大數(shù)據(jù)的分布式程序管理,實(shí)現(xiàn)大規(guī)模計(jì)算機(jī)的集群集成工作,從目前Hadoop技術(shù)的應(yīng)用來(lái)看,全球大多數(shù)it公司都將其作為云計(jì)算主要基礎(chǔ)性框架平臺(tái)。
在云環(huán)境下,基于計(jì)算機(jī)對(duì)大數(shù)據(jù)進(jìn)行處理和分析,必須要使用服務(wù)較為廉價(jià)的集群式服務(wù)器,可以通過(guò)分布式或者是并行式的方式對(duì)數(shù)據(jù)進(jìn)行處理,在MapReduce技術(shù)進(jìn)行開(kāi)發(fā)的過(guò)程中,需要對(duì)MapReduce接口進(jìn)行定義,在對(duì)于大數(shù)據(jù)進(jìn)行分析調(diào)取完畢之后,利用計(jì)算機(jī)集群服務(wù)器調(diào)用整個(gè)用戶(hù)程序,然后對(duì)大數(shù)據(jù)集合進(jìn)行拆分,從而實(shí)現(xiàn)將大數(shù)據(jù)的碎片化形成多個(gè)數(shù)據(jù)片段,然后建立系列性的鍵值,利用MapReduce任務(wù)配備數(shù)據(jù)片段,在MapReduce技術(shù)的支持下,能夠有效實(shí)現(xiàn)集群的大規(guī)模節(jié)點(diǎn)分配,最終結(jié)合鍵值對(duì)分配任務(wù)進(jìn)行計(jì)算,形成鍵值的集合。如果在整個(gè)數(shù)據(jù)信息中包含相同的鍵值,那么會(huì)出現(xiàn)二元組合。
當(dāng)MapReduce出現(xiàn)任務(wù)時(shí),都會(huì)向二元組合進(jìn)行鍵值分配,輸入相應(yīng)的大數(shù)據(jù)集合運(yùn)算,并且運(yùn)行該函數(shù),在大數(shù)據(jù)進(jìn)行處理的過(guò)程中,每一環(huán)節(jié)都需要負(fù)載均衡,提高容錯(cuò)率均衡,才能夠?qū)崿F(xiàn)對(duì)于大數(shù)據(jù)處理的實(shí)時(shí)監(jiān)控。在這一過(guò)程中對(duì)于節(jié)點(diǎn)分配要均勻,保證每一個(gè)節(jié)點(diǎn)均有任務(wù)執(zhí)行,但是如果對(duì)大數(shù)據(jù)處理失敗,就會(huì)重新進(jìn)行數(shù)據(jù)的處理。整個(gè)處理過(guò)程要高度滿(mǎn)足MapReduce運(yùn)行的需要,才能夠?qū)崿F(xiàn)海量數(shù)據(jù)處理的高效性。借助于云計(jì)算技術(shù)能夠?qū)崿F(xiàn)對(duì)于海量數(shù)據(jù)的高效率處理,在此背景下可以達(dá)到tb級(jí)別的數(shù)據(jù)處理速度,同時(shí)在平臺(tái)內(nèi)可以采用SDFS數(shù)據(jù)寬帶技術(shù),借助于大量廉價(jià)的計(jì)算機(jī)服務(wù)集群,能夠?qū)Υ髷?shù)據(jù)的節(jié)點(diǎn)進(jìn)行有效的擴(kuò)展,以實(shí)現(xiàn)數(shù)據(jù)處理的高效化。
對(duì)于大數(shù)據(jù)進(jìn)行處理,需要借助于MapReduce算法進(jìn)行有效的映射,對(duì)于大規(guī)模數(shù)據(jù)進(jìn)行合理的劃分,如果出現(xiàn)紙模塊需要借助于紙模塊的參數(shù)進(jìn)行控制。借助于框架平臺(tái)提供的分布式管理系統(tǒng),有效載入大數(shù)據(jù)實(shí)體信息,從而實(shí)現(xiàn)大數(shù)據(jù)的智能采集與接收,在數(shù)據(jù)處理的環(huán)節(jié),基礎(chǔ)于MapReduce技術(shù)實(shí)現(xiàn)數(shù)據(jù)的高效率轉(zhuǎn)移。在整個(gè)云計(jì)算框架背景下,實(shí)現(xiàn)對(duì)數(shù)據(jù)的分布式管理,在運(yùn)行MapReduce算法的過(guò)程中提供API技術(shù)支持。
在云計(jì)算背景下對(duì)大數(shù)據(jù)進(jìn)行處理,特別是在第二級(jí)結(jié)構(gòu)中,軟件系統(tǒng)更為重要,該系統(tǒng)基于第一級(jí)構(gòu)建虛擬的資源,在大規(guī)模服務(wù)及集群化得到了廣泛的應(yīng)用,可以將數(shù)據(jù)的資源得到虛擬化回收,并且搭建均衡的負(fù)載,有效提高大數(shù)據(jù)處理的容錯(cuò)機(jī)制。同時(shí)為相關(guān)配置提供技術(shù)性支持,借助于SAT平臺(tái)技術(shù)實(shí)現(xiàn)對(duì)大數(shù)據(jù)接口處理以及內(nèi)容的編寫(xiě),有效實(shí)現(xiàn)不同行業(yè)的數(shù)據(jù)信息服務(wù)實(shí)現(xiàn)良好的用戶(hù)數(shù)據(jù)平臺(tái)支持,通過(guò)分部任務(wù)來(lái)提供虛擬的計(jì)算機(jī)節(jié)點(diǎn),向用戶(hù)提供重要的終端性支持。借助于平臺(tái)的框架性設(shè)計(jì),實(shí)現(xiàn)HDFS分布系統(tǒng)文件以及MapReduce技術(shù)的應(yīng)用,實(shí)現(xiàn)數(shù)據(jù)處理業(yè)務(wù)的協(xié)調(diào)。在大數(shù)據(jù)計(jì)算資源處理中,基于數(shù)據(jù)存儲(chǔ)的要求,對(duì)云計(jì)算以及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)要合理進(jìn)行引入對(duì)于大規(guī)模計(jì)算集群,實(shí)現(xiàn)規(guī)?;约凹谢墓芾?,搭建高效率的計(jì)算平臺(tái),建立大數(shù)據(jù)的分析框架模型。
本文主要探討在云環(huán)境下大數(shù)據(jù)計(jì)算機(jī)處理的技術(shù),對(duì)Hadoop技術(shù)以及MapReduce技術(shù)的詳細(xì)探討,闡述了計(jì)算機(jī)如何在云環(huán)境下高效率的進(jìn)行大數(shù)據(jù)的分析計(jì)算以及數(shù)據(jù)挖掘,希望能夠給相關(guān)研究員以借鑒和參考,以提升大數(shù)據(jù)云計(jì)算處理技術(shù)的應(yīng)用價(jià)值。