亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的大數(shù)據(jù)存儲及處理

        2015-10-21 18:43:14劉德松
        科技與企業(yè) 2015年16期
        關(guān)鍵詞:分布式系統(tǒng)數(shù)據(jù)備份大數(shù)據(jù)

        劉德松

        【摘要】隨著目前互聯(lián)網(wǎng)數(shù)據(jù)爆炸式的增長,傳統(tǒng)的數(shù)據(jù)存儲和處理方式已經(jīng)不能夠適應(yīng)數(shù)據(jù)的增長速度,并且當今生成的大量數(shù)據(jù)多為web存儲的數(shù)據(jù)結(jié)構(gòu),其數(shù)據(jù)存儲格式不統(tǒng)一、數(shù)據(jù)結(jié)構(gòu)多樣化,給數(shù)據(jù)的處理帶來了極大的困難。Hadoop技術(shù)的出現(xiàn)給大數(shù)據(jù)時代提供了一個可用的云計算平臺,其分布式文件系統(tǒng)實現(xiàn)了數(shù)據(jù)的安全備份與存儲。

        【關(guān)鍵詞】大數(shù)據(jù);Hadoop;分布式系統(tǒng);數(shù)據(jù)備份

        隨著計算機網(wǎng)絡(luò)的普及,web技術(shù)和Internet在當今世界產(chǎn)生大量的數(shù)據(jù),這些海量數(shù)據(jù)遠遠超過有記載以來所產(chǎn)生的數(shù)據(jù)總量。以天文學為例,2000多年以來,整個天文學的數(shù)據(jù)累積到現(xiàn)在是140兆兆字節(jié)的信息,而位于新墨西哥州阿帕奇山頂天文臺的2.5米口徑望遠鏡進行的紅移巡天項目,在短短幾個星期內(nèi)就收集到多于140兆兆字節(jié)的信息量。這些海量數(shù)據(jù)每年以超過50%的速度增長,多方面的數(shù)據(jù)顯示,我們已經(jīng)進入了大數(shù)據(jù)時代。

        由于數(shù)據(jù)量爆炸式增長,數(shù)據(jù)處理手段也是復(fù)雜多樣,再加上數(shù)據(jù)結(jié)構(gòu)不象傳統(tǒng)數(shù)據(jù)那樣統(tǒng)一存儲,所以數(shù)據(jù)分析處理技術(shù)就顯得尤為重要。如果數(shù)據(jù)得不到很好的處理,則海量的數(shù)據(jù)就沒有任何意義,要想真正的擁有這些數(shù)據(jù),需要解決以下幾個問題:

        1、存儲系統(tǒng)的改變

        數(shù)據(jù)量急劇增加,使得原有的存儲系統(tǒng)和方法不能適應(yīng)新產(chǎn)生的大量數(shù)據(jù)的存儲要求。

        2、復(fù)雜的數(shù)據(jù)結(jié)構(gòu)存儲

        原有存儲方案中,一種類型的數(shù)據(jù)庫只能存儲一種結(jié)構(gòu)的數(shù)據(jù)。大數(shù)據(jù)的產(chǎn)生使得數(shù)據(jù)結(jié)構(gòu)已經(jīng)由原來單一的結(jié)構(gòu)化數(shù)據(jù)變?yōu)榻Y(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)并存的局面。這種多數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)在目前只能存放單一數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫中已經(jīng)沒有辦法存儲了。

        3、數(shù)據(jù)處理難度增大

        和處理單一的數(shù)據(jù)類型不同,將多種數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)整合、分析、挖掘并從中得出有價位的信息的難度大大增加。

        對伴隨大數(shù)據(jù)產(chǎn)生的新問題,可以逐一的解決。由于數(shù)據(jù)量極大,原來由單一媒體存儲的數(shù)據(jù),可以通過技術(shù)構(gòu)建分布式存儲系統(tǒng),將大量數(shù)據(jù)分別存儲在不同的存儲系統(tǒng)里,不僅可以實現(xiàn)海量數(shù)據(jù)的存取,而且可以方便實現(xiàn)分布系統(tǒng)擴展。對于數(shù)據(jù)結(jié)構(gòu)不同的問題,可以通過設(shè)置多種存儲引擎,為每種數(shù)據(jù)結(jié)構(gòu)提供合適的存儲方案,來代替以前的結(jié)構(gòu)化為主體的存儲方式。多種類型的數(shù)據(jù)結(jié)構(gòu)給數(shù)據(jù)分析帶來極大的困難,而數(shù)據(jù)分析是數(shù)據(jù)存在的主要意義。可以通過對多種結(jié)構(gòu)的數(shù)據(jù)進行集成,實現(xiàn)對在同一架構(gòu)下對多種數(shù)據(jù)結(jié)構(gòu)的分析。

        Hadoop技術(shù)是解決上述問題的最好的實現(xiàn)框架。Hadoop是由Apache基金會開發(fā)的一種分布式平臺,并且是開源的,是目前應(yīng)用最為廣泛的云計算軟件平臺。當前在行業(yè)中存在多種云計算的平臺,如主要有亞馬遜的EC2,谷歌的App Engine,IBM的藍云,微軟的Azure等等.Hadoop和其它的云計算平臺相比主要有以下幾個特點:

        1、高性能

        在數(shù)據(jù)測試中,Hadoop可以對PB數(shù)量級的大數(shù)據(jù)進行同時處理操作,并將結(jié)果提供給其它應(yīng)用。研究人員做過大量測試,以2011個節(jié)點的Hadoop集群來進行基準測試,100GB的數(shù)據(jù)僅僅130秒中就完成了,這種數(shù)據(jù)處理能力是其它平臺所不能完成的。

        2、高擴展性

        由于Hadoop技術(shù)主要是針對大數(shù)據(jù)操作的云計算平臺,在設(shè)計的時候充分考慮到平臺的可擴展性。得用Hadoop技術(shù)可以將數(shù)據(jù)輕松上萬臺服務(wù)節(jié)點來實現(xiàn)數(shù)據(jù)的存儲和分析,即實現(xiàn)分布式的存儲和分布式的數(shù)據(jù)處理。這對傳統(tǒng)的關(guān)系型數(shù)據(jù)庫處理系統(tǒng)及非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)來講是不可想象的,這種可擴展性有利于數(shù)據(jù)量更大時的集群拓展工作。

        3、成本效益高

        傳統(tǒng)的存儲方案在存儲大量重要數(shù)據(jù)的時候,往往要進行數(shù)據(jù)備份,這就對存儲系統(tǒng)提出很高要求,而且成本大大提高。而Hadoop可以利用其高擴展性的特性,將數(shù)據(jù)存儲到其擴展空間上來完成數(shù)據(jù)的存儲,同時,Hadoop還可以通過保存副本的技術(shù)來保證數(shù)據(jù)的完整性和容錯性。同時,由于Hadoop本身對硬件要求不高,所以它可以架構(gòu)在眾多低廉的設(shè)備中,以較低的成本來完成較高的收益,使得技術(shù)成本大大降低。

        4、廣泛應(yīng)用

        由于Hadoop計算平臺的眾多優(yōu)點,加上其技術(shù)難度不高,所以它現(xiàn)在成為了互聯(lián)網(wǎng)上應(yīng)用最為廣泛的云計算平臺。目前,微軟、百度、雅虎、IBM、甲骨文、淘寶等國內(nèi)外大公司都積極進行Hadoop的開發(fā)和使用,眾多公司也都利用此項技術(shù)為用戶提供了更為全面的服務(wù)。

        5、開源性

        和其它的開源性技術(shù)軟件一樣,Hadoop的出現(xiàn)給云計算平臺帶來大量業(yè)務(wù)和服務(wù)質(zhì)量的大幅度提高。作為對谷歌的MapReduce和GFS技術(shù)的開源實現(xiàn),其核心技術(shù)在海量網(wǎng)絡(luò)數(shù)據(jù)處理業(yè)務(wù)中具有明顯的優(yōu)勢。Hadoop的技術(shù)架構(gòu)如表一所示

        Pig:數(shù)據(jù)分析平臺,是一個基于Hadoop的針對大數(shù)據(jù)的分析平臺,它提供Pig Latin,即非結(jié)構(gòu)化的數(shù)據(jù)庫查詢語言。

        Chuwa:數(shù)據(jù)分析和收集系統(tǒng),針對分布式存儲的大數(shù)據(jù),它可以快速進行數(shù)據(jù)分析和指定數(shù)據(jù)收集。

        Hives:數(shù)據(jù)倉庫,管理分布式存儲系統(tǒng)中的數(shù)據(jù),它提供基于關(guān)系型數(shù)據(jù)庫的查詢語言,用來小范圍內(nèi)的數(shù)據(jù)查詢。

        Hbase:分布式列存儲數(shù)據(jù)庫,使用分布式文件系統(tǒng)為底層存儲。

        MapReudce:數(shù)據(jù)處理和執(zhí)行環(huán)境,分布式數(shù)據(jù)處理模式設(shè)置,用于大規(guī)模的分布式存儲機器群。

        HDFS:分布式文件系統(tǒng),將數(shù)據(jù)存儲在不同地點或設(shè)備。

        ZooKepper:分布式應(yīng)用程序協(xié)調(diào)服務(wù),提供配置維護,分布式同步等功能。

        Core:一系列分布式文件系統(tǒng)和通用I/O的組件和接口(序列化、Java RPC和持久化數(shù)據(jù)結(jié)構(gòu))。

        Avro:一種提供高效、跨語言RPC的數(shù)據(jù)序列系統(tǒng),持久化數(shù)據(jù)存儲。

        從Hadoop的技術(shù)框架上可以看出,它要解決的主要問題就是分布式的存儲和計算,在Hadoop分布式的文件體系中,客戶可以遠程創(chuàng)建文件夾并且在文件夾里保存和修改文件。允許用戶創(chuàng)建、刪除、復(fù)制、轉(zhuǎn)移、重命文件等。目錄結(jié)點主要負責存儲和管理整個文件系統(tǒng)的命名空間,對文件的安全性,分布式文件系統(tǒng)主要依靠存儲副本策略來實現(xiàn)文件的備份。在應(yīng)用程序中,用戶可以指定某一個文件在分布式系統(tǒng)中備份的數(shù)目(默認情況下是備份三份),程序?qū)⑽募浞莸?個數(shù)據(jù)結(jié)點上,其中至少有一個位于不同結(jié)點架的數(shù)據(jù)結(jié)點上。用戶指定的備份數(shù)目,稱為冗余因子,其信息保存在目錄結(jié)點里。

        Hadoop下的分布式文件系統(tǒng),對文件的存儲做了精心設(shè)計,一個大的數(shù)據(jù)由程序分成若干塊,為了方便管理和操作,要求每一個數(shù)據(jù)塊的大小都固定(除了最后一塊外)。另外為了安全性,每個數(shù)據(jù)塊程序都會按要求進行冗余存儲。在每個目錄結(jié)點上,會定期收到每個數(shù)據(jù)結(jié)點發(fā)來的存在信號和數(shù)據(jù)塊列表,數(shù)據(jù)塊列表包括了此數(shù)據(jù)點上所有的數(shù)據(jù)塊的編號。如果目錄結(jié)點長時間沒有收到數(shù)據(jù)結(jié)點的存在信號,則認為此數(shù)據(jù)結(jié)點失效。

        隨著大數(shù)據(jù)時代的到來,今后數(shù)據(jù)處理上會越來越多的應(yīng)用到云計算的平臺,單一的、結(jié)構(gòu)化的數(shù)據(jù)處理已經(jīng)遠遠不能哆適應(yīng)當今數(shù)據(jù)爆炸式的增長。做為當今最為流行的大數(shù)據(jù)處理技術(shù),Hadoop還是有其不完善的地方,但是在此技術(shù)下的分布式文件系統(tǒng)及其數(shù)據(jù)的分析、處理、整合程序已經(jīng)顯示出其強大的功能和適應(yīng)性。在數(shù)據(jù)安全、數(shù)據(jù)提取上Hadoop技術(shù)也做了充分的考慮,使得數(shù)據(jù)存儲無后顧之憂。

        參考文獻

        [1]Amazon E C,Amazon Elastic Compute Cloud, Retrieved Feb, 102009.

        [2]許志遠,李婷,王躍,移動互聯(lián)網(wǎng)白皮書;北京:工業(yè)和信息化部電信研宄院,2013

        [3]Zahariev A, Google App Engine, Helsinki University of Technology, 2009.

        [4]Sims K, IBM Introduces Ready-To-Use Cloud Computing Collaboration Services Get Clients Started with Cloud Computing, 2011.

        [5]Shmder D,Microsoft Azure:Security in the Cloud,WindowSecurity. com (downloaded),2009.

        [6]Cooper B F,Baldeschwieler E,F(xiàn)onseca Ret al.,Building a Cloud for Yahoo!, IEEE Data Eng.Bull., 32 (1)2009 36-43.

        [7]余利華.分布式數(shù)據(jù)存儲和處理的若干技術(shù)研究:(博士學位論文)杭州:浙江大學,2008.

        [8]Zikopoulos P,Parasuraman K,Deutsch Tet al” Harness the Power of Big Data the IBM Big Data Platform, McGrawHill Professional,2012,.

        [9]Sarkar D,Pro Microsoft HDInsight: Hadoop On Windows, Apress,2014

        [10]Tom White著.周敏奇,王曉玲譯.Hadoop權(quán)威指南[M].北京:清華大學出版,2011.

        猜你喜歡
        分布式系統(tǒng)數(shù)據(jù)備份大數(shù)據(jù)
        泉州高速公路收費系統(tǒng)遠程數(shù)據(jù)備份研究
        海洋數(shù)據(jù)備份平臺的設(shè)計和實現(xiàn)
        程控交換機的數(shù)據(jù)備份與恢復(fù)技術(shù)分析
        No.4 IDC:2019年上半年數(shù)據(jù)備份與恢復(fù)市場同比增長10.0%
        典型應(yīng)用領(lǐng)域全球定量遙感產(chǎn)品生產(chǎn)體系
        科技資訊(2016年25期)2016-12-27 16:23:06
        以數(shù)據(jù)為中心的分布式系統(tǒng)自適應(yīng)集成方法
        分布式系統(tǒng)中的辯證對立統(tǒng)一概念與方法
        計算機教育(2016年9期)2016-12-21 00:33:11
        一種基于Hadoop的海量圖片檢索策略
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        国产精品久久久久精品一区二区 | 99热这里只有精品69| 人妻精品一区二区免费| 性感美女脱内裤无遮挡| 亚洲精品无码av人在线观看| 女人夜夜春高潮爽a∨片传媒| 三级全黄的视频在线观看| 亚洲成熟中老妇女视频| 日韩亚洲欧美久久久www综合| 无码手机线免费观看| 麻豆密入视频在线观看| 国产大屁股熟女流白浆一区二区 | 欧美老熟妇又粗又大| 国产亚洲一区二区三区三州| 中国亚洲一区二区视频| 亚洲国产成人片在线观看无码| 国产成人亚洲综合一区| 一本色道久久88综合亚精品| 国产精品一区二区日本| a级国产乱理伦片在线播放| 国产资源精品一区二区免费| 亚洲发给我的在线视频| 妺妺跟我一起洗澡没忍住 | 日韩乱码精品中文字幕不卡| 久久久精品视频网站在线观看| 国产成人精品一区二区不卡| 国产精品 精品国内自产拍| 五月婷婷丁香视频在线观看 | 久久伊人精品中文字幕有| 永久免费人禽av在线观看| 久久精品无码鲁网中文电影 | 国产毛片精品av一区二区| 狠狠的干性视频| 三级网址在线| 91九色国产在线观看| 色欲av永久无码精品无码蜜桃| 精品无码国产自产野外拍在线| 爆乳午夜福利视频精品| 最新国产女主播在线观看| 久久超碰97人人做人人爱| 99精品热6080yy久久|