亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的海量小文件存儲方法的研究

        2014-05-27 22:49:16時倩方睿岳亮彭榆峰
        數(shù)字技術(shù)與應(yīng)用 2014年1期
        關(guān)鍵詞:海量數(shù)據(jù)

        時倩 方睿 岳亮 彭榆峰

        摘要:隨著科學(xué)技術(shù)的發(fā)展,各行業(yè)及領(lǐng)域需要處理的數(shù)據(jù)呈爆炸式增長。Hadoop是大文件存儲處理的理想平臺,但Hadoop在處理海量小文件時的表現(xiàn)并不令人滿意。本文首先對HDFS的系統(tǒng)架構(gòu)作了簡要介紹,進而分析了HDFS處理海量小文件時存在的問題,最后介紹了目前國內(nèi)外對該問題提出的優(yōu)化方案。

        關(guān)鍵詞:HDFS 海量數(shù)據(jù) 小文件 存儲優(yōu)化

        中圖分類號:TP333 文獻標(biāo)識碼:A 文章編號:1007-9416(2014)01-0050-02

        1 引言

        Hadoop[1]是由Apache基金會研發(fā)的能夠?qū)A繑?shù)據(jù)進行分布式處理的基礎(chǔ)框架,是海量數(shù)據(jù)存儲與處理的理想平臺。然而由于Hadoop采用流式方式讀寫文件,對于大文件處理效率極高,但對小文件處理效果并不是很好。當(dāng)處理如氣象數(shù)據(jù)這種海量小文件時,Hadoop的優(yōu)勢并不能展示出來,故需要對小文件的存儲進行優(yōu)化。

        2 HDFS的系統(tǒng)架構(gòu)

        HDFS是Hadoop的分布式文件系統(tǒng),其具有高容錯性的特點,設(shè)計用來部署在低廉硬件上,能夠提供極高的數(shù)據(jù)吞吐量,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序[2],因而成為了云存儲平臺的代表性系統(tǒng)。

        HDFS采用主從架構(gòu),由一個名稱節(jié)點和多個數(shù)據(jù)節(jié)點組成。名稱節(jié)點是HDFS的主服務(wù)器,主要負(fù)責(zé)管理元數(shù)據(jù)和數(shù)據(jù)塊、持久化元數(shù)據(jù)、處理請求及管理數(shù)據(jù)節(jié)點,數(shù)據(jù)節(jié)點主要負(fù)責(zé)數(shù)據(jù)塊的讀寫、向名稱節(jié)點報告狀態(tài)及執(zhí)行數(shù)據(jù)的流水線復(fù)制??蛻舳送ㄟ^與名稱節(jié)點和數(shù)據(jù)節(jié)點的交互來訪問整個文件系統(tǒng)。

        3 HDFS處理海量小文件存在的問題

        HDFS設(shè)計用來對大文件進行流式存儲,在處理小文件時會產(chǎn)生一些問題[3]。小文件是指文件大小小于HDFS塊大小(默認(rèn)為64MB)的文件,大量的小文件會嚴(yán)重影響Hadoop的性能及其擴展性。首先,海量小文件大量耗費名字節(jié)點的內(nèi)存。每個小文件作為一個塊存儲,海量數(shù)據(jù)塊的元數(shù)據(jù)信息會占用大量內(nèi)存,這樣名稱節(jié)點的內(nèi)存容量會嚴(yán)重制約集群的擴展。其次,海量小文件的存取效率低。大量小文件寫入HDFS時需頻繁請求名稱節(jié)點分配數(shù)據(jù)塊,讀取大量小文件時需頻繁請求數(shù)據(jù)節(jié)點以獲取文件,嚴(yán)重影響了名稱節(jié)點和數(shù)據(jù)節(jié)點的I/O性能。

        4 HDFS小文件問題優(yōu)化方案

        4.1 Hadoop自帶的解決方案

        對于小文件問題,Hadoop自身提供了以下三種解決方案。

        4.1.1 Hadoop Archive(HAR)

        HAR文件歸檔技術(shù)用來緩解大量小文件消耗名稱節(jié)點內(nèi)存的問題。HAR在HDFS上構(gòu)建一個層次化的文件系統(tǒng),通過將小文件打包成HAR文件來減少HDFS中的文件數(shù)量,從而提高HDFS元數(shù)據(jù)的存儲效率。但讀取HAR中的文件需讀取兩層index文件及讀取文件本身數(shù)據(jù),并且HAR不支持存檔文件的壓縮,因此使用HAR處理小文件效率較低。

        4.1.2 Sequence File

        SequenceFile是HDFS提供的一種二進制文件技術(shù),通過將對序列化到SequenceFile文件,實現(xiàn)多個小文件的合并存儲,合并同時還支持基于數(shù)據(jù)塊的壓縮,顯著減少了名稱節(jié)點的內(nèi)存及數(shù)據(jù)節(jié)點的磁盤空間。但這種方法沒有建立相應(yīng)的小文件到大文件的映射,查找小文件需遍歷整個SequenceFile文件,讀取效率較低。

        4.1.3 CombineFileInputFormat

        CombineFileInputFormat是一種新的輸入格式,用于將多個文件合并成一個單獨的split,另外它會考慮數(shù)據(jù)的存儲位置。對于HDFS中已經(jīng)存在大量小文件的情況比較適用。但CombineFileInputFormat是一個抽象類,沒有提供實體類,所以使用的時候需要一些額外的工作,在實踐中使用較少。

        4.2 HDFS小文件問題的優(yōu)化方案

        針對HDFS處理海量小文件的問題,一些相應(yīng)的優(yōu)化方案在研究中被相繼提出。

        4.2.1 通用技術(shù)方案

        江柳[4]提出下放名稱節(jié)點的權(quán)限給數(shù)據(jù)節(jié)點的方法。其基本思路是將名稱節(jié)點的部分權(quán)限下放到數(shù)據(jù)節(jié)點上,在數(shù)據(jù)節(jié)點上緩存部分小文件元數(shù)據(jù)信息,讓數(shù)據(jù)節(jié)點處理絕大多數(shù)小文件的讀寫請求,從而最大限度的減輕名稱節(jié)點的負(fù)擔(dān)。

        李寬[5]提出了采用分布式名稱節(jié)點模型來處理HDFS的單節(jié)點瓶頸及擴展性問題。文章提出了一種二級元數(shù)據(jù)分布算法,將元數(shù)據(jù)信息分離成目錄信息和數(shù)據(jù)位置信息兩部分,采用不同的分布策略進行分布。該方法在保證高效率的元數(shù)據(jù)服務(wù)的基礎(chǔ)上,考慮了元數(shù)據(jù)的負(fù)載均衡性和擴展性,并提出名稱節(jié)點集群中元數(shù)據(jù)的可靠性機制。

        4.2.2 WebGIS優(yōu)化方案

        文獻[6]針對WebGIS系統(tǒng)的特點提出了解決HDFS小文件問題的方案。WebGIS是結(jié)合Web和地理信息系統(tǒng)(GIS)而誕生的一種新系統(tǒng)。在WebGIS中,為了使瀏覽器和服務(wù)器之間傳輸?shù)臄?shù)據(jù)量盡可能少,通常將數(shù)據(jù)切分為KB大小的文件存儲在分布式系統(tǒng)中。Liu等結(jié)合WebGIS數(shù)據(jù)的相關(guān)特征,將相鄰地理位置的小文件合并成一個大的文件,并為這些文件構(gòu)建索引以便對小文件進行存取。文獻中將小于16MB的文件作為小文件進行合并處理,將其合并成64MB大小的數(shù)據(jù)塊并構(gòu)建索引。

        4.2.3 BlueSky解決方案

        Bo Dong等[7]基于BlueSky在線教育資源分享系統(tǒng)的應(yīng)用提出了一種新的改善Hadoop中小文件存儲和訪問效率的方法。BlueSky系統(tǒng)主要存放教學(xué)用的PPT文件和視頻文件,用戶對文件的請求具有很強的關(guān)聯(lián)性,當(dāng)用戶瀏覽PPT時,其他相關(guān)的PPT和文件也會在短時間內(nèi)被訪問。文獻主要提出了兩個基本思路:1)將相關(guān)的小文件合并成一個大文件,從而減輕名稱節(jié)點的內(nèi)存壓力,提高小文件的存儲效率;2)通過索引文件和數(shù)據(jù)文件的預(yù)取機制提高小文件的讀取效率。索引文件預(yù)取是指當(dāng)用戶訪問某個文件時,將文件所在數(shù)據(jù)塊對應(yīng)的索引文件加載到內(nèi)存,用戶訪問這些文件時不必再與名稱節(jié)點交互。數(shù)據(jù)文件預(yù)取是指用戶訪問某個文件時,將該文件所在課件中的所有文件加載到內(nèi)存,若用戶繼續(xù)訪問本課件的其他文件,速度會明顯提高。

        4.2.4 MP3文件解決方案

        趙曉永等[8]提出了一種基于Hadoop的海量MP3文件存儲架構(gòu)。該架構(gòu)利用MP3文件自身包含的豐富的描述信息,通過在預(yù)處理模塊中使用歸類算法,將相關(guān)性強的文件合并為序列文件,能夠大量減少HDFS中的文件數(shù)量;同時引入高效的擴展一級索引機制,用來快速定位到MP3文件所在的序列文件及其偏移位置;另外在富元數(shù)據(jù)管理模塊中將MP3文件的富元信息進行集中索引和管理,從而解決Hadoop處理小文件時名稱節(jié)點的內(nèi)存瓶頸問題。該方法具備良好的性能,能夠支撐大規(guī)模用戶的并發(fā)訪問。

        5 結(jié)語

        Hadoop目前還沒有一個系統(tǒng)級的通用的解決HDFS小文件問題的方案。第4章提到的Hadoop自帶的解決方案各有優(yōu)缺點,通用技術(shù)方案應(yīng)用到不同環(huán)境時效果也不盡相同,針對具體應(yīng)用場景提出的解決方案具有一定局限性,對其他應(yīng)用系統(tǒng)具有借鑒意義但并不能搬用。針對Hadoop中海量小文件存儲優(yōu)化的問題還值得進一步的深入研究。

        參考文獻

        [1]Hadoop[EB/OL].http://Hadoop.apache.org,2012.

        [2]周敏奇,王曉玲,金澈清,錢衛(wèi)寧.Hadoop權(quán)威指南(第2版)[M].北京:清華大學(xué)出版社,2011.

        [3]Small files problem[EB/OL].http://www.cloudera.com/blog/2009/02/the-small-files-problem.

        [4]江柳.HDFS下小文件存儲優(yōu)化相關(guān)研究[D].北京:北京郵電大學(xué),2010.

        [5]李寬.基于HDFS的分布式名稱節(jié)點節(jié)點模型的研究[D].廣州:華南理工大學(xué),2011.

        [6]Xuhui Liu,Jizhong Han,Yunqin Zhong,et al. Implementing WebGIS on Hadoop:a case study of improving small file I/O performance on HDFS[C].Proc.of the 2009 IEEE Conf.on Cluster Computing:1-8.

        [7]Bo Dong,Jie Qiu,Qinghua Zheng,et al.A novel approach to improving the efficiency of storing and accessing small files on Hadoop:a case study by powerpoint files[C].In Proceedings of IEEE SCC,2010.

        [8]趙曉永,楊揚,孫莉莉,陳宇.基于Hadoop的海量MP3文件存儲架構(gòu)[J].計算機應(yīng)用技術(shù),2012,32(6):1724-1726.

        猜你喜歡
        海量數(shù)據(jù)
        云存儲服務(wù)端海量數(shù)據(jù)安全存儲的加密解決方案
        基于HADOOP集群的數(shù)據(jù)采集和清洗
        軟件工程(2016年11期)2017-01-17 17:05:51
        商業(yè)銀行海量金融數(shù)據(jù)分析中數(shù)據(jù)分析技術(shù)的實踐探究
        海量數(shù)據(jù)庫的設(shè)計與優(yōu)化
        基于hadoop平臺海量數(shù)據(jù)的快速查詢與實現(xiàn)
        基于Hadoop的海量電信數(shù)據(jù)云計算平臺研究
        MongoDB在氣象傳感器數(shù)據(jù)處理中的應(yīng)用
        軟件(2015年11期)2016-01-12 07:59:59
        一種基于HBase的交通旅行時間計算方法
        基于MapReduce的海量數(shù)據(jù)動態(tài)裝箱算法研究
        基于遺傳算法的多中心海量數(shù)據(jù)布局研究
        国产成人亚洲精品无码mp4| 免费播放成人大片视频| 色又黄又爽18禁免费网站现观看| 婷婷五月六月综合缴情| 午夜短视频日韩免费| 日本大胆人体亚裔一区二区| 日韩av毛片在线观看| 亚洲国产精品无码专区影院| 在线观看免费人成视频| 亚洲av色香蕉一区二区三区蜜桃| 国产免费观看久久黄av麻豆| 精品少妇无码av无码专区| 99视频一区| 国产av熟女一区二区三区老牛| 精品一区二区av天堂色偷偷| 丰满人妻熟妇乱又伦精品软件 | 日本成人免费一区二区三区 | 国产在线一区二区av| 久久久久亚洲av无码麻豆| 亚洲专区欧美| 精品人妻一区二区三区av| 中文字日产幕码三区的做法大全| 午夜无码国产理论在线| 伊人亚洲综合网色AV另类| 在线观看二区视频网站二区| 国产电影无码午夜在线播放| 四虎影视永久在线精品| 亚洲啊啊啊一区二区三区| 国产毛片av一区二区| 国产绳艺sm调教室论坛| 色www亚洲| 国产精品髙潮呻吟久久av| 久久夜色精品亚洲天堂| 亚洲中文字幕国产视频| 丁香花在线影院观看在线播放| 久久久久国产精品片区无码| 国产精品又湿又黄九九九久久嫩草 | 尤物yw午夜国产精品视频| 大香伊蕉国产av| 亚洲精品美女久久久久99| 一区二区在线观看视频亚洲|