亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的海量數(shù)據(jù)存儲(chǔ)技術(shù)的研究

        2016-11-03 08:34:32袁麗娜
        中國新通信 2016年19期

        袁麗娜

        【摘要】 隨著社會(huì)信息化程度的不斷提高,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)已經(jīng)不能滿足需求。本文基于Hadoop平臺(tái),對(duì)其海量存儲(chǔ)技術(shù)進(jìn)行了專門研究分析,從海量數(shù)據(jù)存儲(chǔ)的容錯(cuò)性、可擴(kuò)展性和延遲性、實(shí)時(shí)性、性能等四個(gè)方面對(duì)目前海量數(shù)據(jù)存儲(chǔ)技術(shù)進(jìn)行了分析評(píng)價(jià)。

        【關(guān)鍵詞】 Hadoop 海量數(shù)據(jù)處理 分布式存儲(chǔ)技術(shù)

        引言

        隨著社會(huì)信息化程度的不斷提高,互聯(lián)網(wǎng)應(yīng)用的多元化及快速發(fā)展,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)在處理能力和存儲(chǔ)容量的可擴(kuò)展性已經(jīng)不能完全滿足需求。如今大數(shù)據(jù)時(shí)代下的海量數(shù)據(jù)存儲(chǔ)出現(xiàn)了新的特點(diǎn):(1)數(shù)據(jù)規(guī)模巨大,且增長快速。(2)訪問并發(fā)程度高。(3)數(shù)據(jù)結(jié)構(gòu)及處理需求的多樣化。在線數(shù)據(jù)訪問和離線數(shù)據(jù)分析的應(yīng)用,對(duì)系統(tǒng)可靠性的要求也越來越高。在這種情況下,基于Hadoop的分布式存儲(chǔ)技術(shù)應(yīng)運(yùn)而生。

        一、Hadoop概述

        1.1 簡介

        隨著海量數(shù)據(jù)的不斷快速增長,各大公司紛紛對(duì)其相關(guān)技術(shù)進(jìn)行研究。Google在開發(fā)了MapReduce、GFS和BigTable等技術(shù)之后,開源組織Apache模仿并發(fā)布了開源的Hadoop分布式計(jì)算框架和分布式文件系統(tǒng)。

        Hadoop是一個(gè)開源的分布式計(jì)算平臺(tái),其核心是分布式計(jì)算框架MapReduce和分布式文件系統(tǒng)HDFS,主要用于處理海量數(shù)據(jù),能在大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)并進(jìn)行分布式計(jì)算。

        1.2 體系結(jié)構(gòu)

        Hadoop主要設(shè)計(jì)用來在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的框架。經(jīng)過多年的發(fā)展,逐步形成了其應(yīng)用程序生態(tài)系統(tǒng),以Hadoop2.x版本為例,其族群中包括很多子項(xiàng)目:分布式文件系統(tǒng)HDFS、分布式并行編程模型和程序執(zhí)行框架MapReduce、資源管理器YARN、配置管理工具Ambari、分布式且按列存儲(chǔ)的數(shù)據(jù)庫Hbase、數(shù)據(jù)倉庫Hive、數(shù)據(jù)流語言和運(yùn)行環(huán)境Pig、數(shù)據(jù)挖掘Mahout、分布式且可用性高的協(xié)調(diào)服務(wù)ZooKeeper、關(guān)系型數(shù)據(jù)庫同步工具Sqoop、日志收集工具Flume等,其中MapReduce和HDFS最重要,在核心層上提供了更高層的互補(bǔ)性服務(wù)。Hadoop2.x的項(xiàng)目結(jié)構(gòu)如圖1所示。

        MapReduce是一種簡化并行計(jì)算的編程模型,用來解決大規(guī)模數(shù)據(jù)處理的問題。其主要思想是將需要自動(dòng)分割執(zhí)行的任務(wù)拆解成映射Map和簡化Reduce的方式。Map主要負(fù)責(zé)把單個(gè)任務(wù)分解成多個(gè)任務(wù),Reduce則負(fù)責(zé)把分解后的多任務(wù)處理結(jié)果進(jìn)行匯總。MapReduce任務(wù)由一個(gè)JobTracker節(jié)點(diǎn)和多個(gè)TaskTracker節(jié)點(diǎn)控制。JobTracker主要負(fù)責(zé)和管理TaskTracker,而TaskTracker具體負(fù)責(zé)這些任務(wù)的并行執(zhí)行。

        HDFS分布式文件系統(tǒng)可以和MapReduce編程模型很好地結(jié)合,用于存儲(chǔ)海量數(shù)據(jù)。HDFS采用主從模式的結(jié)構(gòu),HDFS集群由一個(gè)名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode所組成。NameNode是主服務(wù)器,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問操作,而DataNode主要負(fù)責(zé)節(jié)點(diǎn)數(shù)據(jù)的存儲(chǔ)。

        YARN是Hadoop 2.x中新引入的資源管理系統(tǒng),它的引入使得Hadoop不再局限于MapReduce一類計(jì)算,而是支持多樣化的計(jì)算框架。它由兩類服務(wù)組成,分別是ResourceManager和NodeManager。

        二、海量數(shù)據(jù)存儲(chǔ)技術(shù)研究

        分布式文件系統(tǒng)HDFS是Hadoop的核心技術(shù)之一,是基于Hadoop的分布式存儲(chǔ)架構(gòu)中數(shù)據(jù)存儲(chǔ)的基礎(chǔ)。Hadoop2. x中HDFS體系結(jié)構(gòu)如圖2所示。

        接下來,本文基于Hadoop的海量數(shù)據(jù)存儲(chǔ)技術(shù),從容錯(cuò)性、可擴(kuò)展性和延遲性、實(shí)時(shí)性以及性能這4個(gè)方面對(duì)海量數(shù)據(jù)存儲(chǔ)技術(shù)進(jìn)行研究分析。

        2.1海量數(shù)據(jù)存儲(chǔ)的容錯(cuò)性

        目前海量數(shù)據(jù)存儲(chǔ)系統(tǒng)中,為獲取較高可靠性,通常使用完全的數(shù)據(jù)復(fù)制技術(shù)和磁盤冗余陣列技術(shù)(RAID)兩種冗余容錯(cuò)方法。RAID 技術(shù)在傳統(tǒng)關(guān)系數(shù)據(jù)庫及文件系統(tǒng)中應(yīng)用比較廣發(fā),但不太適用于NoSQL數(shù)據(jù)庫及分布式文件系統(tǒng)。

        Hadoop使用HDFS存儲(chǔ)海量數(shù)據(jù)。文件通常被分割成多個(gè)塊進(jìn)行存儲(chǔ),每個(gè)塊至少被復(fù)制成三個(gè)副本存儲(chǔ)在各個(gè)數(shù)據(jù)節(jié)點(diǎn)中。HDFS可以部署在大量廉價(jià)的硬件上,因此一個(gè)或多個(gè)節(jié)點(diǎn)失效的可能性很大,所以HDFS在設(shè)計(jì)時(shí)采用了多種機(jī)制來保障其高容錯(cuò)性,但有些也存在著一些問題。

        1、HDFS中NameNode

        NameNode是HDFS集群中的主節(jié)點(diǎn),也是中心節(jié)點(diǎn),它的可靠性直接關(guān)系到整個(gè)集群的可靠性。對(duì)于不同版本的Hadoop對(duì)此也有不同的處理機(jī)制。Hadoop1中只有一個(gè)NameNode節(jié)點(diǎn),所以存在單節(jié)點(diǎn)故障問題,而在Hadoop2.x中通過HA策略大致解決了NameNode的單點(diǎn)問題。即存在兩個(gè)NameNode,一個(gè)是狀態(tài)為活動(dòng)的 active namenode,另一個(gè)是狀態(tài)為停止的standy namenode,兩者可以進(jìn)行切換,但是有且只有一個(gè)屬于活動(dòng)狀態(tài)。目前,Hadoop 2.x中提供了兩種HA方案,一種是基于NFS共享存儲(chǔ)的方案。此方案中,NFS作為active namenode和standy namenode之間數(shù)據(jù)共享的存儲(chǔ),但若active namenode 或者standy namenode中有一個(gè)和nfs之間發(fā)生網(wǎng)絡(luò)故障,將會(huì)造成數(shù)據(jù)同步不一致。另一種是基于Paxos算法的方案Quorum Journal Manager(QJM),它的基本原理就是用2N+1臺(tái)JournalNode存儲(chǔ)EditLog,每次寫數(shù)據(jù)操作有大多數(shù)(>=N+1)返回成功時(shí)即認(rèn)為該次寫成功,數(shù)據(jù)即不會(huì)丟失,可以實(shí)現(xiàn)namenode單點(diǎn)故障自動(dòng)切換。

        2、HDFS數(shù)據(jù)塊副本機(jī)制

        HDFS中一個(gè)文件由多個(gè)數(shù)據(jù)塊組成,每個(gè)數(shù)據(jù)塊包含多個(gè)副本,副本的數(shù)量可以通過參數(shù)設(shè)置。副本是一種能夠提高數(shù)據(jù)訪問效率和容錯(cuò)性能的技術(shù)。Hadoop在數(shù)據(jù)存儲(chǔ)方面可以自動(dòng)將數(shù)據(jù)保存到不同機(jī)架的多個(gè)副本中,在數(shù)據(jù)計(jì)算方面也可以自動(dòng)將失敗的任務(wù)重新分配到其他的節(jié)點(diǎn)上。Hadoop2.x版本對(duì)于數(shù)據(jù)副本存放磁盤選擇策略有兩種方式,一種是低版本中的磁盤目錄輪詢方式,另外一種是選擇可用空間足夠多的磁盤方式。

        3、HDFS心跳機(jī)制

        HDFS中的NameNode通過心跳機(jī)制掌握整個(gè)集群的工作狀態(tài)。DataNode通過周期性向NameNode發(fā)送心跳信息,即NameNode通過DataNode的心跳信息來獲知DataNode的存在、其上的磁盤容量、已用剩余空間和負(fù)載等信息。

        2.2海量數(shù)據(jù)存儲(chǔ)的可擴(kuò)展性和延遲性

        可擴(kuò)展性和延遲性是分布式文件系統(tǒng)評(píng)判性能的兩個(gè)重要指標(biāo)。Hadoop 的HDFS 分布式文件系統(tǒng)的設(shè)計(jì)主要用于處理大文件,以流式方式訪問數(shù)據(jù),一次寫入,多次讀寫。對(duì)于HDFS,讀取整個(gè)數(shù)據(jù)集要比讀取一條記錄更加高效。所以HDFS不合適處理處理小文件,即大小小于HDFS塊大小的文件。這樣的小文件會(huì)給Hadoop的擴(kuò)展性和性能帶來嚴(yán)重問題。因?yàn)椴⑿械腎 /O 接口并不支持小文件的處理,所以讀寫延遲時(shí)間比較長,且主節(jié)點(diǎn)很難在云存儲(chǔ)系統(tǒng)中進(jìn)行擴(kuò)展。因此,文獻(xiàn)[1]提出了一種基于混合索引的HDFS小文件存儲(chǔ)策略,采用應(yīng)用分類器分類標(biāo)記小文件,在存儲(chǔ)節(jié)點(diǎn)根據(jù)小文件大小建立不同的塊內(nèi)索引,用以提高小文件訪問效率。文獻(xiàn)[2]提出一種基于多維列索引的小文件管理方案,且提出了小文件合并方案。文獻(xiàn)[3]提出了一種面向低延遲的內(nèi)存HDFS數(shù)據(jù)存儲(chǔ)策略,提出了基于HDFS的內(nèi)存分布式文件系統(tǒng)架構(gòu)Mem-HDFS,且利用集群數(shù)據(jù)節(jié)點(diǎn)的內(nèi)存和磁盤存儲(chǔ)數(shù)據(jù),并提出一種并行讀取算法,該算法能較好降低讀取訪問延遲。

        經(jīng)研究發(fā)現(xiàn),現(xiàn)有的對(duì)分布式文件系統(tǒng)處理海量小文件中所遇到的瓶頸問題,其改進(jìn)大致包括以下兩種方式,第一種方式是通過建立索引的方式,把小文件合并成大文件;第二種方式是建立緩存機(jī)制,從而減少文件訪問次數(shù)。

        2.3海量數(shù)據(jù)存儲(chǔ)的實(shí)時(shí)性

        Hadoop 最初被設(shè)計(jì)為解決大量數(shù)據(jù)離線情況下批量計(jì)算的問題,是為了處理大型數(shù)據(jù)集分析任務(wù)的,是為了達(dá)到高的數(shù)據(jù)吞吐量,因此,需要延遲性作為代價(jià)。對(duì)于大多數(shù)反饋時(shí)間要求不是特別高的應(yīng)用,比如離線統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、推薦引擎的計(jì)算等,都可以采用Hadoop進(jìn)行離線分析的方式?;贖adoop 的分布式文件系統(tǒng)能夠很好地完成海量數(shù)據(jù)存儲(chǔ)的要求,但還是缺乏了實(shí)時(shí)文件獲取的考慮。因此,海量數(shù)據(jù)存儲(chǔ)的實(shí)時(shí)性還有待提高,目前主要通過和傳統(tǒng)關(guān)系型數(shù)據(jù)庫相結(jié)合,實(shí)現(xiàn)其實(shí)時(shí)性。文獻(xiàn)[4]提出了一種自定義的內(nèi)存處理引擎,通過把基于Hadoop 的分析平臺(tái)和數(shù)據(jù)流處理引擎進(jìn)行結(jié)合,實(shí)現(xiàn)海量數(shù)據(jù)環(huán)境下實(shí)時(shí)處理數(shù)據(jù)的構(gòu)想。

        2.4海量數(shù)據(jù)存儲(chǔ)的性能

        HDFS在選擇數(shù)據(jù)存放節(jié)點(diǎn)時(shí),并沒有考慮到集群中各數(shù)據(jù)節(jié)點(diǎn)的性能、網(wǎng)絡(luò)狀況和存儲(chǔ)空間的差異性,從而很容易造成集群整體負(fù)載不均衡,數(shù)據(jù)節(jié)點(diǎn)的資源不能合理利用等。因此,文獻(xiàn)[5]提出了確定環(huán)境下多階段多目標(biāo)CMM決策模型,此模型以內(nèi)存、CPU和磁盤的剩余負(fù)載能力作為決策條件,以負(fù)載均衡效果、數(shù)據(jù)傳輸代價(jià)和負(fù)載遷移代價(jià)作為決策目標(biāo),根據(jù)決策節(jié)點(diǎn)間的影響關(guān)系來構(gòu)建有向無環(huán)圖,通過多個(gè)決策階段的決策及計(jì)算方案效果來確定最優(yōu)均衡方案。

        三、結(jié)束語

        本文針對(duì)最新Hadoop框架下的海量數(shù)據(jù)存儲(chǔ)技術(shù),分別從海量存儲(chǔ)技術(shù)的容錯(cuò)性、可擴(kuò)展性和延遲性、實(shí)時(shí)性及性能等四個(gè)方面進(jìn)行了深入的研究,分析概括了目前Hadoop的分布式文件系統(tǒng)在存儲(chǔ)海量數(shù)據(jù)時(shí)所遇到的一些問題及挑戰(zhàn),并對(duì)現(xiàn)有的存儲(chǔ)改進(jìn)方式進(jìn)行了綜述。

        在海量數(shù)據(jù)存儲(chǔ)的容錯(cuò)方面,目前Hadoop2.x最新版本的HA策略已經(jīng)解決了NameNode的單點(diǎn)問題,但新引入的YARN同樣存在單點(diǎn)故障及性能問題,對(duì)于HDFS如何能更高效更好地動(dòng)態(tài)分配數(shù)據(jù)塊副本機(jī)制,相關(guān)文獻(xiàn)提出了多目標(biāo)優(yōu)化的局部最佳副本分布策略,提出了基于范德蒙碼的HDFS分散式動(dòng)態(tài)副本存儲(chǔ)優(yōu)化策略;在海量數(shù)據(jù)的可擴(kuò)展性和延遲性方面,主要是小文件的存儲(chǔ)策略問題,相關(guān)文獻(xiàn)主要提出采用索引方式將小文件合并為大文件進(jìn)行讀取,通過緩沖機(jī)制減少訪問次數(shù);海量數(shù)據(jù)存儲(chǔ)的實(shí)時(shí)性方面,目前主要通過和傳統(tǒng)關(guān)系型數(shù)據(jù)庫相結(jié)合,通過緩存機(jī)制實(shí)現(xiàn)實(shí)時(shí)讀取;在海量數(shù)據(jù)存儲(chǔ)的性能方面,主要是負(fù)載均衡問題,相關(guān)文獻(xiàn)主要提出通過采集數(shù)據(jù)節(jié)點(diǎn)的各方面負(fù)載,通過計(jì)算成本來選擇最優(yōu)數(shù)據(jù)節(jié)點(diǎn)存儲(chǔ)[9]。

        目前,基于Hadoop的海量存儲(chǔ)技術(shù)在如何高效存儲(chǔ)及讀取小文件,如何實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)分析,數(shù)據(jù)節(jié)點(diǎn)的負(fù)載均衡問題等方面依舊是將來研究的熱點(diǎn)。

        參 考 文 獻(xiàn)

        [1]王海榮等. 基于Hadoop的海量數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].科技通報(bào),2014.30(9):127-130

        [2]尹穎等. HDFS中高效存儲(chǔ)小文件的方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2015.36(2):406-409

        [3]英昌甜等. 一種面向低延遲的內(nèi)存HDFS數(shù)據(jù)存儲(chǔ)策略[J]. 微電子學(xué)與計(jì)算機(jī),2014.31(11):160-166

        [4]張柄虹等. 空間高效的分布式數(shù)據(jù)存儲(chǔ)方案[J].計(jì)算機(jī)應(yīng)用研究,2015.32(5):1508-1511

        [5]盧美蓮等. 基于CMM模型的HDFS負(fù)載均衡策略[J]. 北京郵電大學(xué)學(xué)報(bào),2014.37(5):20-25

        亚洲人妻御姐中文字幕| 男女啪啪无遮挡免费网站| 国产久热精品无码激情| 亚洲自拍愉拍| 欧洲亚洲第一区久久久| 少妇的诱惑免费在线观看| 99热久久只有这里是精品| 给我播放的视频在线观看 | 丝袜美腿久久亚洲一区| 青青草视频在线免费观看91| 国产精品人伦一区二区三| 所有视频在线观看免费| 亚洲熟女www一区二区三区| 性色av 一区二区三区| 国产美女裸身网站免费观看视频| 被暴雨淋湿爆乳少妇正在播放| 亚洲国产日韩综一区二区在性色| 男女搞基视频免费网站| 人妻久久一区二区三区| 欧美丰满少妇xxxx性| 性猛交╳xxx乱大交| 亚洲欧美一区二区三区在线| 特黄a级毛片免费视频| 在线观看国产三级av| 国产一区二区三区视频大全| 麻豆夫妻在线视频观看| 日本中文字幕有码在线播放| 亚洲国产一区二区三区精品| 欲香欲色天天天综合和网| 亚洲成av人片在线观看麦芽| 亚洲色大成网站www在线观看| 亚洲一区精品一区在线观看| 国产高潮流白浆视频在线观看 | 久热在线播放中文字幕| 国产精品久久久久久久专区| 午夜精品人妻中字字幕| 成人国产一区二区三区| 国内精品久久久久久久97牛牛| 中文字幕有码无码av| bbbbbxxxxx欧美性| 国产一区二区三免费视频|