亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Hadoop日志壓縮算法的研究與實(shí)現(xiàn)

        2017-05-12 09:22:54王煜驄
        現(xiàn)代計(jì)算機(jī) 2017年9期
        關(guān)鍵詞:壓縮算法壓縮比字典

        王煜驄

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        Hadoop日志壓縮算法的研究與實(shí)現(xiàn)

        王煜驄

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        Hadoop集群由于規(guī)模增大、運(yùn)行時(shí)間增長使得日志量持續(xù)增加,導(dǎo)致存儲(chǔ)壓力過大。為了節(jié)約存儲(chǔ)資源,研究并實(shí)現(xiàn)一種高效的Hadoop日志無損壓縮算法。實(shí)驗(yàn)結(jié)果表明,該壓縮算法與傳統(tǒng)的LZW壓縮算法的壓縮比基本相同,但壓縮和解壓操作的耗時(shí)均小于LZW壓縮算法且受文件大小影響更小。

        Hadoop;日志;壓縮

        0 引言

        Hadoop[1]作為目前較為流行的分布式計(jì)算框架,已被廣泛地應(yīng)用于大數(shù)據(jù)處理。為了方便用戶使用及調(diào)試,Hadoop會(huì)將其自身的運(yùn)行狀況以日志的形式寫入磁盤,主要包括:各類守護(hù)進(jìn)程的運(yùn)行日志、MapReduce作業(yè)的運(yùn)行日志等。當(dāng)Hadoop集群規(guī)模增大及其使用時(shí)間的增長,日志的產(chǎn)生量會(huì)急劇增加,從而對磁盤存儲(chǔ)造成極大的壓力。

        為了解決 Hadoop日志過大的問題,本文對Hadoop的日志結(jié)構(gòu)進(jìn)行了分析,并根據(jù)其特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了一種高效的無損壓縮算法,對日志進(jìn)行壓縮以節(jié)省存儲(chǔ)資源,同時(shí)保證解壓縮過程的高速性。

        1 Hadoop日志結(jié)構(gòu)分析

        Hadoop日志信息通過Log4j[2]產(chǎn)生,其具體格式為%d{ISO8601}%p%c:%m%n,具體參數(shù)說明如下:

        ●%d:日志時(shí)間點(diǎn)的日期或時(shí)間,默認(rèn)格式為ISO8601

        ●%p:級別,包括:DEBUG,INFO,WARN,ERROR,F(xiàn)ATAL

        ●%c:所屬的類,通常為所在類全名

        ●%m:代碼中輸出的信息

        ●%n:回車換行符

        由此可知,Hadoop日志信息的具體結(jié)構(gòu)如下:

        日志產(chǎn)生時(shí)間+空格+級別+空格+所在類全名+冒號+空格+代碼輸出信息+回車換行符

        因此,本文將該日志信息切分為4部分:日志產(chǎn)生時(shí)間、級別、所在類全名、代碼輸出信息。其中,日志產(chǎn)生時(shí)間又可分為日志產(chǎn)生日期與具體時(shí)間,因此又將日志產(chǎn)生時(shí)間分為兩塊:日志產(chǎn)生日期與日志產(chǎn)生時(shí)間(精確到毫秒)。

        通過分析Hadoop具體的日志,發(fā)現(xiàn)日志產(chǎn)生日期、優(yōu)先級、所在類全名重復(fù)率較高,因此,本文最終采用基于字典的方式實(shí)現(xiàn)Hadoop日志壓縮算法。

        2 Hadoop壓縮算法

        2.1 壓縮算法實(shí)現(xiàn)

        本文提出的壓縮算法基于字典方式實(shí)現(xiàn),建立了三張字典:mDate(用于存放日志產(chǎn)生時(shí)間)、mLevel(用于存放日志級別)、mName(用于存放所在類全名)。每張字典的表項(xiàng)為一個(gè)序號,用于區(qū)分與檢索。

        壓縮算法的具體執(zhí)行流程如圖1所示,首先判斷每一行中的數(shù)據(jù)是否為日志信息,若是則對其進(jìn)行解析并進(jìn)行切分,否則直接將其寫入緩存;然后判斷字典中是否已包含切分得到的值,若有則從字典中提取相應(yīng)序號進(jìn)行編碼,否則分配新序號進(jìn)行編碼并更新字典;接著將編碼后的內(nèi)容寫入緩存,若文件已壓縮完成,則先將字典寫入文件頭部,然后再寫入緩存中的壓縮內(nèi)容。

        圖1 壓縮算法執(zhí)行流程圖

        2.2 解壓算法實(shí)現(xiàn)

        解壓算法的具體執(zhí)行流程如圖2所示,解壓時(shí)首先讀取相應(yīng)的三張字典(mDate、mLevel、mName),并將其加載進(jìn)入內(nèi)存,然后判斷讀入的每一行是否符合日志消息格式,若是,則根據(jù)字典將壓縮后內(nèi)容中的序號替換為其在字典中對應(yīng)的內(nèi)容后寫入解壓縮文件,否則直接將該行寫入解壓縮文件。

        3 實(shí)驗(yàn)

        本文實(shí)驗(yàn)環(huán)境包含一臺(tái)主機(jī),其CPU為Intel Core i5-3230M CPU 2.60GHz,內(nèi)存為4GB,系統(tǒng)為64位Window7版。本文設(shè)計(jì)的壓縮算法利用了Java編程語言實(shí)現(xiàn),JDK版本為1.7,堆大小配置如下:-Xms512m–Xmx512。

        圖2 解壓算法執(zhí)行流程圖

        為了測試該算法性能,本文將其與傳統(tǒng)的LZW壓縮算法[3]進(jìn)行了比較,具體做法是:利用兩種算法分別對6個(gè)不同大小的Hadoop日志文件進(jìn)行壓縮和解壓,記錄了二者壓縮和解壓分別消耗的時(shí)間,并對比了二者的壓縮比 (壓縮比=壓縮后文件大小/壓縮前文件大?。?,各類測試分別進(jìn)行了6次實(shí)驗(yàn),結(jié)果取其平均值。

        本文提出的算法和LZW算法對不同文件大小的壓縮比對比結(jié)果如圖3所示,由結(jié)果可見,兩種算法對于不同大小的Hadoop日志文件的壓縮比基本相同。

        本文提出的算法和LZW算法對不同文件大小的壓縮、解壓操作耗時(shí)對比結(jié)果如圖4所示,LZW壓縮算法隨著日志文件的增大,壓縮及解壓操作耗時(shí)均會(huì)線性增長,而本文提出的壓縮算法壓縮及解壓操作均較為快速,同時(shí),日志文件增大時(shí),壓縮及解壓操作基本不受影響,耗時(shí)變化不大。

        4 結(jié)語

        本文首先研究了Hadoop日志的組成結(jié)構(gòu),然后對其日志特點(diǎn)進(jìn)行了分析,最后基于字典方式設(shè)計(jì)并實(shí)現(xiàn)了一種高效的Hadoop日志無損壓縮算法。通過測試可知,該算法壓縮及解壓速度快于LZW壓縮算法,且壓縮比與其基本相同,同時(shí)Hadoop日志文件增大對壓縮、解壓縮過程的耗時(shí)影響較小。

        圖3 本文算法與LZW算法的壓縮比對比圖

        圖4 本文算法與LZW算法的解、壓縮平均耗時(shí)對比圖

        [1]Apache Hadoop Home Page[EB/OL].[2017-1-27].http://hadoop.apache.org.

        [2]Apache Log4j Home Page[EB/OL].[2017-1-27].http://logging.apache.org/log4j/1.2/.

        [3]Welch T A.A technique for high-performance data compression[J].Computer,1984,6(17):8-19.

        Research and Implementation of Hadoop Log Compression Algorithm

        WANG Yu-cong
        (College of Computer Science,Sichuan University,Chengdu 610065)

        The increased size and run-time growth of Hadoop cluster make the log data continued to increase,which leads to the large storage pressure.In order to save storage resources,studies an efficiently lossless compression algorithm of Hadoop log.The results show that the compression algorithm proposed is basically the same as the compression ratio of LZW compression algorithm,but the compression,decompression operation time of the proposed algorithm is much shorter than the LZW compression algorithm,and the proposed algorithm is less affected by the file size.

        Hadoop;Log;Compress

        1007-1423(2017)09-0134-03

        10.3969/j.issn.1007-1423.2017.09.031

        王煜驄(1991-),男,江蘇無錫人,在校學(xué)生,研究方向?yàn)榉植际教幚?/p>

        2017-03-09

        2017-03-15

        猜你喜歡
        壓縮算法壓縮比字典
        開心字典
        家教世界(2023年28期)2023-11-14 10:13:50
        開心字典
        家教世界(2023年25期)2023-10-09 02:11:56
        質(zhì)量比改變壓縮比的辛烷值測定機(jī)
        軟件(2020年3期)2020-04-20 01:45:24
        基于參數(shù)識(shí)別的軌道電路監(jiān)測數(shù)據(jù)壓縮算法研究
        更正聲明
        我是小字典
        正版字典
        讀者(2016年14期)2016-06-29 17:25:50
        PMU數(shù)據(jù)預(yù)處理及壓縮算法
        低溫廢氣再循環(huán)及低壓縮比對降低歐6柴油機(jī)氮氧化物排放的影響
        高幾何壓縮比活塞的燃燒室形狀探討
        国产精品美女久久久网av| 成激情人妻视频| 蜜桃人妻午夜精品一区二区三区| 变态另类人妖一区二区三区| 亚洲人成色7777在线观看| 国产精品白浆视频免费观看| 亚洲av一区二区国产精品| 国产视频激情在线观看| 国产免费艾彩sm调教视频 | 亚洲特黄视频| 日韩人妻系列在线视频| 日韩在线精品视频一区| 人妻 色综合网站| 中文字幕免费观看视频| 一区二区三区岛国av毛片| 精品国产自在现线看久久| 国产精品,在线点播影院| 青青青爽在线视频免费播放| 人妻 偷拍 无码 中文字幕| 日本在线观看| 中文字幕色视频在线播放| 亚洲综合中文字幕日韩| 亚洲一区二区三区无码久久| 四虎影视亚洲精品| 在线免费午夜视频一区二区| 日韩乱码人妻无码系列中文字幕 | 成人av一区二区三区四区| 韩国三级大全久久网站| 国产精品99久久精品爆乳| 国产偷闻隔壁人妻内裤av| 国产主播一区二区三区在线观看 | 亚洲美女一区二区三区三州| 女人高潮久久久叫人喷水| 欧美疯狂做受xxxxx高潮| 经典女同一区二区三区| 国产av精品一区二区三区久久| 亚洲日本va中文字幕| 欧洲日韩视频二区在线| 丝袜美腿精品福利在线视频| 色偷偷亚洲第一成人综合网址 | 亚洲熟妇AV一区二区三区宅男|