亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于差分壓縮的大規(guī)模日志壓縮系統(tǒng)

        2015-01-01 02:56:32唐球1姜磊1戴瓊1
        通信學(xué)報(bào) 2015年1期
        關(guān)鍵詞:壓縮算法細(xì)粒度壓縮率

        唐球1,2,3,姜磊1,2,戴瓊1,2

        (1. 信息內(nèi)容安全技術(shù)國(guó)家工程實(shí)驗(yàn)室, 北京100093; 2. 中國(guó)科學(xué)院 信息工程研究所, 北京 100093; 3. 中國(guó)科學(xué)院大學(xué),北京 100049)

        1 引言

        隨著計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)應(yīng)用的快速發(fā)展,企業(yè)或機(jī)構(gòu)內(nèi)部部署了多套網(wǎng)絡(luò)設(shè)備與信息系統(tǒng)。這些設(shè)備或系統(tǒng)不間斷地將各自的運(yùn)行狀態(tài)記錄為日志數(shù)據(jù),如Web服務(wù)日志、防火墻日志、入侵檢測(cè)系統(tǒng)日志等。日志數(shù)據(jù)是服務(wù)改進(jìn)、系統(tǒng)審計(jì)、安全分析、數(shù)據(jù)挖掘等應(yīng)用的重要數(shù)據(jù)源[1~4],因此需要長(zhǎng)期存儲(chǔ)信息系統(tǒng)的日志數(shù)據(jù)。隨著大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái),信息系統(tǒng)變得日益復(fù)雜,面向互聯(lián)網(wǎng)提供服務(wù)的信息系統(tǒng)訪問量急劇增長(zhǎng),隨之而來(lái)的系統(tǒng)日志數(shù)據(jù)也呈現(xiàn)出爆炸式增長(zhǎng)。尤其對(duì)于一些核心系統(tǒng)模塊,需要記錄其所發(fā)生的一切操作并將其傳輸回?cái)?shù)據(jù)中心進(jìn)行存儲(chǔ)與分析,海量的日志數(shù)據(jù)對(duì)于日志系統(tǒng)的設(shè)計(jì)是一個(gè)巨大的挑戰(zhàn)。因此,有效的壓縮、傳輸并存儲(chǔ)大規(guī)模日志數(shù)據(jù)是現(xiàn)代信息系統(tǒng)的迫切需求。

        在數(shù)據(jù)規(guī)模較小且可定期刪除歷史日志數(shù)據(jù)的情況下,可以使用傳統(tǒng)的壓縮工具定期進(jìn)行日志數(shù)據(jù)的壓縮存儲(chǔ),如Linux日志管理工具logrotate,它使用gzip定期對(duì)日志數(shù)據(jù)進(jìn)行壓縮與輪詢存儲(chǔ)。但是,使用傳統(tǒng)的通用壓縮算法降低日志數(shù)據(jù)存儲(chǔ)空間存在效率低的問題。一方面,傳統(tǒng)壓縮算法的通用性導(dǎo)致了其壓縮率低,因?yàn)橥ㄓ玫膲嚎s算法沒有充分利用日志數(shù)據(jù)的自身特性;另一方面,通用壓縮算法計(jì)算量大,難以線速處理大規(guī)模的日志數(shù)據(jù)。近年來(lái),針對(duì)大規(guī)模日志數(shù)據(jù)的壓縮存儲(chǔ),國(guó)內(nèi)外開展了大量相關(guān)工作。文獻(xiàn)[5]利用Web日志數(shù)據(jù)在結(jié)構(gòu)與內(nèi)容方面均存在大量相似性的特性,提出了一種日志數(shù)據(jù)變換機(jī)制,將當(dāng)前日志中與前一條日志相同的數(shù)據(jù)塊轉(zhuǎn)換為相同數(shù)據(jù)塊的長(zhǎng)度值;不相同的數(shù)據(jù)塊則保留;然后對(duì)變換后的日志數(shù)據(jù)再使用通用的壓縮算法做進(jìn)一步的壓縮;該方法的不足是對(duì)于不同類型的日志數(shù)據(jù)塊采用同樣的壓縮算法。文獻(xiàn)[6~8]先后嘗試字段合并、不同字段差異化壓縮策略等技術(shù)對(duì)Apache的Web日志進(jìn)行差分壓縮,與本文提出的方法的思想有一定的相似之處,但是該文獻(xiàn)中的方法缺少可配置的靈活性,而且是專門針對(duì)于Apache的Web日志,缺少對(duì)更廣泛類型日志數(shù)據(jù)的通用性設(shè)計(jì)。Kimmo等提出了基于日志數(shù)據(jù)中的頻繁重復(fù)數(shù)據(jù)模式塊消冗的防火墻日志壓縮算法[9]。文獻(xiàn)[10]通過分析DNS日志數(shù)據(jù)的特性,針對(duì) DNS日志數(shù)據(jù)所涉及的時(shí)間、IP地址、域名和類型4類數(shù)據(jù)分別進(jìn)行不同的壓縮方法。文獻(xiàn)[11]提出了基于通用壓縮算法壓縮日志數(shù)據(jù)的預(yù)處理算法,通過預(yù)處理算法中的分區(qū)函數(shù)將日志數(shù)據(jù)劃分至多個(gè)同質(zhì)日志桶(homogeneous buckets),然后對(duì)不同的同質(zhì)日志桶內(nèi)的日志數(shù)據(jù)使用傳統(tǒng)的壓縮算法bzip2或gzip進(jìn)行壓縮。由于同質(zhì)日志桶內(nèi)容日志結(jié)構(gòu)高度相似,因此比直接使用bzip2或gzip壓縮壓縮更高。文獻(xiàn)[12]使用硬件FPGA實(shí)現(xiàn) LZ4算法對(duì)外匯交易系統(tǒng)中的事務(wù)日志進(jìn)行壓縮,在保證LZ4的壓縮率的情況下,獲得了專用硬件帶來(lái)的壓縮速度優(yōu)勢(shì)。已有日志壓縮工作降低了日志存儲(chǔ)空間,但是存在以下幾點(diǎn)不足:1)通用性較差,依賴于具體的某一類日志;2)不具可擴(kuò)展性,不支持壓縮策略的可配置;3)粗粒度壓縮策略,針對(duì)不同數(shù)據(jù)類型采用相同的壓縮策略;4)不支持流式差分,難以滿足在線實(shí)時(shí)日志壓縮需求。

        本文針對(duì)以上不足,提出了一種支持大規(guī)模日志數(shù)據(jù)的流式差分壓縮架構(gòu)。該架構(gòu)首先充分利用日志數(shù)據(jù)的先驗(yàn)知識(shí),將一類日志數(shù)據(jù)中固定不變的數(shù)據(jù)塊提取為模板,日志壓縮時(shí),刪除模板中定義的數(shù)據(jù)塊,只存儲(chǔ)一個(gè)模板指針。在解壓時(shí),根據(jù)模板內(nèi)容即可復(fù)原日志數(shù)據(jù);然后,針對(duì)日志數(shù)據(jù)中不同類型的數(shù)據(jù)塊定制其差分壓縮策略。本文提出大規(guī)模日志壓縮系統(tǒng)不依賴于特定的日志類型,對(duì)于不同類型的日志數(shù)據(jù)可以配置不同的細(xì)粒度差分壓縮策略,該系統(tǒng)采用流式的差分壓縮架構(gòu),從而使本文提出的日志壓縮系統(tǒng)具有明顯的壓縮率與壓縮速度優(yōu)勢(shì)。

        2 日志數(shù)據(jù)分析

        日志數(shù)據(jù)格式可以是系統(tǒng)設(shè)計(jì)者自定義,或使用被廣泛使用的 syslog日志格式[13],后者由RFC3164規(guī)范定義。它規(guī)定一條日志消息由“優(yōu)先級(jí)”、“頭部”與“消息體”3部分構(gòu)成,其中優(yōu)先級(jí)是一個(gè)數(shù)字,它代表了生成日志的程序模塊(facility)與嚴(yán)重性(severity);頭部包含時(shí)間與主機(jī)名;消息體是具體的日志內(nèi)容。由于syslog日志規(guī)范只是一個(gè)建議,規(guī)范寬泛,其消息體包含了大量的日志屬性,但這些內(nèi)容的組織格式并沒有確定的定義,由系統(tǒng)設(shè)計(jì)者自行定義。所以,很多日志系統(tǒng)是將其作為一種支持的格式,更多的是對(duì)它進(jìn)行擴(kuò)展。如防火墻安全領(lǐng)域更多的是使用 NetIQ公司提出的WELF日志格式。從真實(shí)的應(yīng)用系統(tǒng)中采集了21 GB的真實(shí)日志數(shù)據(jù),這個(gè)數(shù)據(jù)集由真實(shí)系統(tǒng)中的防火墻(天融信、思科)日志、交換機(jī)(華為)日志,入侵檢測(cè)系統(tǒng)(IDS)日志、VPN日志與病毒檢測(cè)系統(tǒng)日志構(gòu)成。通過對(duì)該數(shù)據(jù)集分析,發(fā)現(xiàn)目前的日志系統(tǒng)存在以下3個(gè)顯著特征。

        1) 日志格式規(guī)整相似。目前成熟產(chǎn)品的日志數(shù)據(jù)格式類似于syslog RFC3164規(guī)范的格式,或者更加規(guī)范的日志格式,如WELF。前者如思科防火墻的日志格式(如表 1所示);后者的一條日志消息通常是由多個(gè)“<字段名,字段值>”的鍵值對(duì)構(gòu)成,不同日志系統(tǒng)僅在鍵值連接符與鍵值對(duì)之間的分割符上有細(xì)微的差別,如表1中的最后3條日志數(shù)據(jù),天融信的防火墻日志的鍵值對(duì)分隔符為空格,鍵值連接符為等號(hào),而綠盟的IDS日志的分隔符為分號(hào),鍵值連接符為分號(hào)。

        2) 日志數(shù)據(jù)存在冗余結(jié)構(gòu)模式。從表 1中可知,同一類日志數(shù)據(jù)無(wú)論以哪種格式表示,在消息結(jié)構(gòu)上都存在大量的相同模式,如思科防火墻的106017類型日志(表1中的第1、第2行)均含有“ASA*Deny IP due to Land Attack from*to*”的模式;天融信防火墻的訪問控制日志(表1的第3、第4行)均含有 “id=*time=*fw=*pri=*…”模式。其中模式中的星號(hào)表示可變內(nèi)容,非星號(hào)字符為恒定不變內(nèi)容(即冗余的結(jié)構(gòu)模式)。

        3) 日志數(shù)據(jù)中的屬性值類型是固定且具有很強(qiáng)的時(shí)間局部性相似性。即對(duì)于同一類日志數(shù)據(jù),即使在數(shù)據(jù)組織格式上有差異,但所承載的核心信息是相同的。如不同供應(yīng)商的防火墻設(shè)備生成的訪問控制日志數(shù)據(jù)均包含某一次穿越防火墻連接的五元組、時(shí)間、MAC地址、生成日志的設(shè)備名、防火墻策略 ID號(hào)等信息;在一個(gè)具體的日志系統(tǒng)中這些屬性值的類型是確定的,且在短時(shí)間內(nèi),這些屬性值是局部相似的,如時(shí)間屬性值只是秒數(shù)的差異、少數(shù)IP地址在五元組中頻繁重復(fù)出現(xiàn)等。

        表1 常見網(wǎng)絡(luò)設(shè)備日志數(shù)據(jù)實(shí)例(隱私信息已做替換)

        3 日志數(shù)據(jù)差分壓縮

        3.1 基于模板的日志去重

        基于第2節(jié)關(guān)于21 GB日志數(shù)據(jù)的分析結(jié)論,本節(jié)提出一種基于模板的日志消冗機(jī)制,消除日志數(shù)據(jù)中存在的冗余結(jié)構(gòu)模式,形式化定義如下。

        定義1(字段,field)。字段是由字段名(fld)與字段值(val)構(gòu)成的鍵值對(duì)(fldλval),其中“λ”為字段名與字段值之間的連接符。一個(gè)字段表示一個(gè)具體的日志屬性,如表 1中的天融信防火墻訪問控制日志中的源IP地址字段為“src= x.x.x.x”,其中 src為字段名(源 IP),“x.x.x.x”為字段值(IP地址),字段名與字段值連接符為等號(hào)。

        定義2(日志消息,log_msg)。一條日志消息表示一個(gè)事件,它是由有限個(gè)字段構(gòu)成,字段之間有先后順序、由字段分隔符(θ)相連接;即log_msg=field1θf(wàn)ield2θ…fieldN,其中,fieldi=fldiλvali。

        定義 3(日志,log)。日志是由多條日志消息構(gòu)成的集合,log={log_msgi | i∈1,2,3,…,M; log_msgi=field1iθf(wàn)ield2iθ …fieldNi;fieldji=fldjiλvalji,j∈1,2,…,N}。

        由前一節(jié)的分析可知,已有的日志格式與本文形式化定義的日志格式很相似,因此只需對(duì)待壓縮的日志數(shù)據(jù)進(jìn)行簡(jiǎn)單預(yù)處理,將日志數(shù)據(jù)轉(zhuǎn)換為規(guī)整的日志格式(log)。日志數(shù)據(jù)所有的字符都是可打印字符,不含控制類字符,因此可以選擇控制類字符作為λ與θ。對(duì)于同一類日志數(shù)據(jù),可以通過正則表達(dá)式匹配加文本處理腳本完成日志預(yù)處理。

        同一設(shè)備或系統(tǒng)的日志存在冗余的結(jié)構(gòu)模式:日志消息的字段組成結(jié)構(gòu)是固定的,且各個(gè)字段名是相同的,即log_msg1與log_msg2都包含相同的內(nèi)容 :fld1λ,θf(wàn)ld2λ … θf(wàn)ldN; 不 同 的 部 分 是 :val1,val2,…,valN。基于此特征,本文提出的日志壓縮系統(tǒng)將日志中冗余的結(jié)構(gòu)模式以字段為單位提取為模板,然后將模板定義的冗余模式從日志消息中刪除,并在日志消息中存儲(chǔ)模板指針。具體的模板形式化描述如下。

        定義 4(模板,template)。一個(gè)模板由字段名與字段值連接符、字段分割符、各個(gè)字段名以及該模板的 ID 號(hào)(tid)構(gòu)成,即template={tid,λ,θ,fld1,fld2,…,fldN}。

        因此,基于模板的日志去重機(jī)制主要步驟如下。

        Step1日志預(yù)處理。

        Step2對(duì)每一條日志消息log_msgi進(jìn)行如下操作。

        1) 模板庫(kù)中查找與log_msgi相匹配的模板(templatek);

        2) 將templatek定義的字段名從log_msgi中刪除,并將templatek的模板ID寫入日志消息中,最后得到基于模板變換后log_msgi為“tidkθval1iθval2iθ…θvalN i”。

        對(duì)于壓縮后的日志數(shù)據(jù),根據(jù)模板指針,通過執(zhí)行基于模板的逆去重操作即可恢復(fù)原始的日志數(shù)據(jù)。

        3.2 日志數(shù)據(jù)細(xì)粒度差分壓縮

        基于模板的日志數(shù)據(jù)重后降低了日志的存儲(chǔ)空間,但仍存在大量的信息冗余,尤其是短時(shí)間內(nèi)的同類日志消息字段之間存在局部相似性。為了進(jìn)一步壓縮日志數(shù)據(jù)空間,本文設(shè)計(jì)的日志差分架構(gòu)對(duì)基于模板去重后的日志數(shù)據(jù)做進(jìn)一步的細(xì)粒度的差分壓縮。首先定義幾類通用的差分壓縮策略(diff_strgy);然后,根據(jù)不同的字段值特性,選擇各個(gè)字段值最適合的差分策略對(duì)基于模板去重后的日志數(shù)據(jù)進(jìn)行字段級(jí)別的差分壓縮。為了支持日志消息的線速壓縮,日志差分壓縮只選擇與前一條同類型的歷史日志消息進(jìn)行差分計(jì)算;由于日志消息具有時(shí)間域的局部相似性,所以該差分壓縮策略保證了日志壓縮的時(shí)間與空間效率。

        3.2.1 字段細(xì)粒度差分壓縮

        每個(gè)字段的細(xì)粒度差分壓縮(FFDE, finegrained field differential encoding)可以描述為一個(gè)五元組:ffde=(fld,fld_type,diff_strgy,initVal,size),五元組中各個(gè)屬性的定義如下。

        fld:字段名。

        fld_type:字段值類型,分為字符串、整數(shù)2大類,其中整數(shù)分為8位,16位,32位,64位的有符號(hào)與無(wú)符號(hào)整數(shù);浮點(diǎn)數(shù)轉(zhuǎn)化為指數(shù)與尾數(shù)的 2個(gè)整數(shù)表示。

        diff_strgy:字段值差分策略,本日志壓縮系統(tǒng)定義了4類差分策略,具體定義見表2,對(duì)于不同特性的字段采用不同差分策略,也可擴(kuò)展新差分策略以支持新類型字段。

        表2 字段差分策略定義

        initVal:字段的初始值。當(dāng)?shù)谝粭l消息差分壓縮時(shí),將initVal作為歷史值(val')與當(dāng)前字段值做差分運(yùn)算。當(dāng)字段差分策略為“定值”時(shí),則initVal屬性值定義為該字段的定值。

        size:標(biāo)識(shí)使用差分策略得到的字段差值使用定長(zhǎng)編碼(編碼為size個(gè)字節(jié))還是變長(zhǎng)編碼(size=0)。定長(zhǎng)編碼即保持原始值;變長(zhǎng)編碼采用被廣泛使用的 LEB128[14]變長(zhǎng)編碼技術(shù),即一個(gè)字節(jié)的7 bit表示實(shí)際數(shù)據(jù),最高比特位標(biāo)識(shí)當(dāng)前字節(jié)是否為變長(zhǎng)數(shù)據(jù)的最后一個(gè)字節(jié)(如0表示結(jié)束)。對(duì)于差分壓縮后的字段值的取值范圍固定(如 IP地址的一個(gè)段的值范圍為0~255),且等于1字節(jié)或大于4個(gè)字節(jié)的定長(zhǎng)值采用定長(zhǎng)編碼,反之采用變長(zhǎng)編碼。這樣可以使存儲(chǔ)空間達(dá)到最優(yōu)。如一個(gè)無(wú)符號(hào)的 32為整數(shù)值采用變長(zhǎng)編碼時(shí),當(dāng)其值的區(qū)間為[0, 127]內(nèi)的任意一個(gè)值時(shí),只需要一個(gè)字節(jié)存儲(chǔ)表示,而不是4個(gè)字節(jié)。

        3.2.2 字段差分存在位圖

        差分策略導(dǎo)致字段的值具有3種“值存在”狀態(tài):存在、不存在、條件存在?!按嬖凇北硎咀侄尾罘种罂偸怯兄?,如“差值”字段差分策略;“不存在”表示字段差分后總是沒有值,如“定值”差分策略;“條件存在”表示字段差分后依據(jù)條件可能有值也可能無(wú)值。如字段差分策略為“復(fù)制”,當(dāng)與前一條日志消息的值相同時(shí),當(dāng)前日志直接刪除該值,差分后的字段無(wú)值;反之則保留該值,差分后的字段有值。因此一條差分后的日志消息所包含的字段值數(shù)目不固定。為了正確解碼日志消息,一條差分壓縮的日志消息需要存儲(chǔ)一個(gè)字段值存在位圖向量(FVPB, field value presence bitmap),F(xiàn)VPB中的每一個(gè)比特對(duì)應(yīng)日志中的一個(gè)具有“條件存在”狀態(tài)的字段,置位表示字段值存在;復(fù)位表示字段值不存在。對(duì)于“存在”與“不存在”的字段值則不需要FVPB標(biāo)示。

        3.3 基于模板的日志數(shù)據(jù)細(xì)粒度差分壓縮

        結(jié)合3.2節(jié)與3.3節(jié),本節(jié)給出基于模板的日志數(shù)據(jù)細(xì)粒度差分壓縮總體架構(gòu)。日志先通過模板去重,然后再對(duì)日志字段值進(jìn)行細(xì)粒度的差分壓縮。這兩者均定義在日志差分壓縮模板中,定義如下。

        定義5(細(xì)粒度差分模板,template′)。一個(gè)細(xì)粒度差分模板由字段值存在位圖向量、各個(gè)字段的細(xì)粒度差分五元組、模板 ID號(hào)、字段名與字段值連接符與字段分割符構(gòu)成,即template'={ffdetid,λ,θ,ffde1,ffed2,…,ffedN}。其中模板ID號(hào)也作為日志消息添加的一個(gè)普通字段(ffdetid),使用“復(fù)制”差分策略(可減少連續(xù)同類型日志消除中模板 ID的存儲(chǔ))?;诩?xì)粒度差分模板的日志差分壓縮算法描述為算法1。

        字段差分壓縮是當(dāng)前值(val)與同類型的前一條日志數(shù)據(jù)的對(duì)應(yīng)字段值(val')執(zhí)行差分壓縮,因此整個(gè)日志的差分壓縮過程需要維護(hù)一個(gè)差分字典,用于記錄前一條同類型日志數(shù)據(jù)的字段值。算法 1第 1行為每個(gè)模板定義一個(gè)差分字典(dict[k][0…N]),其初始值為對(duì)應(yīng)模板的字段初始值(initVal);每執(zhí)行完一條日志消息的差分運(yùn)算,用當(dāng)前日志的字段值更新該差分字典(算法1第6行)。對(duì)于每一條日志消息,首先需要確定適合其的模板,然后根據(jù)模板對(duì)該日志消息進(jìn)行細(xì)粒度差分壓縮(算法1中的第3~7行)。

        算法1基于細(xì)粒度差分模板的日志壓縮算法

        輸入:日志log={log_msgi |i=1,2,…,M}; 差分壓縮模板集合temp_set={template'k|k=1,2,…,K};其中template'k={ffdetidk,λ,θ,ffde1k,…,ffedNk},ffedjk=(fldjk,fld_typejk,diff_strgyjk,initValjk,sizejk),j=1,2,…,N};

        輸出:差分壓縮的日志數(shù)據(jù);

        1) 初始化模板字段差分字典dict[k][0…N]={k,initVal1k,…,initValN k};

        2) 對(duì)于每個(gè)日志消息log_msgi,執(zhí)行如下操作;

        3) 根據(jù)日志消息的結(jié)構(gòu)查找與其相對(duì)應(yīng)的模板template'k;

        4) 對(duì)模板ID號(hào)(k)與log_msgi的每個(gè)字段值valji執(zhí)行如下操作;

        5) 依據(jù)diff_strgyjk的對(duì)valji與dict[k][j]進(jìn)行差分運(yùn)算;如果當(dāng)字段差分編碼狀態(tài)為“條件存在”且差分后有值,則FVPB[j']=1;否則FVPB[j']=0;/*j'為當(dāng)前字段在字段值存儲(chǔ)位圖中的比特位*/;

        6) 更新字段前值字典dict[k][j]=valj;

        7) 輸出FVPB與各個(gè)字段差分后的值。

        4 實(shí)驗(yàn)結(jié)果與分析

        本節(jié)通過測(cè)試真實(shí)的網(wǎng)絡(luò)系統(tǒng)日志數(shù)據(jù),分析本文提出的支持大規(guī)模日志壓縮系統(tǒng)的效率。主要考察其壓縮率與壓縮速度。

        實(shí)驗(yàn)環(huán)境:處理器為Intel Core I3-3240,內(nèi)存2 GB,F(xiàn)edora-14的操作系統(tǒng)。

        由于提出的差分架構(gòu)是流式工作方式,即只與前一條日志消息做差分計(jì)算,因此壓縮總時(shí)延與日志的規(guī)模成正比關(guān)系,小規(guī)模數(shù)據(jù)集測(cè)試即可說(shuō)明該架構(gòu)的壓縮速度。為了快速得到測(cè)試數(shù)據(jù)集的壓縮率與壓縮速度,本節(jié)從真實(shí)的天融信防火墻訪問控制日志數(shù)據(jù)集中提出部分字段,組成4個(gè)數(shù)據(jù)集,數(shù)據(jù)集的特性描述如表3所示。

        表3 數(shù)據(jù)集特性

        對(duì)這4個(gè)數(shù)據(jù)集分別使用本文提出的基于模板的細(xì)粒度差分壓縮架構(gòu)與通用的壓縮工具gzip進(jìn)行壓縮測(cè)試,選擇gzip進(jìn)行參照是因?yàn)閺V泛使用的開源日志管理工具logrotate使用的就是gzip作為其日志壓縮算法;而且類似的日志壓縮文獻(xiàn)[6~9]的實(shí)驗(yàn)對(duì)比也是與gzip相比較。2個(gè)壓縮工具對(duì)于各個(gè)數(shù)據(jù)集的壓縮時(shí)間與壓縮率分別如圖1和圖2所示,由于gzip可以設(shè)置其壓縮參數(shù)典型的可以設(shè)置為快速壓縮模式(速度快、低壓縮率)、高壓縮率模式(速度慢、高壓縮率)與普通壓縮壓縮模式(壓縮速度與壓縮率介于前2種模式之間),所以在實(shí)際測(cè)試中對(duì)于同一數(shù)據(jù)集,分別使用3種不同的gzip模式進(jìn)行壓縮測(cè)試。從圖 1可知,本文提出的基于模板差分的日志壓縮系統(tǒng)在壓縮速度上比普通或快速模式的gzip快2~5倍,比高壓縮率模式的gzip快一個(gè)數(shù)量級(jí)(圖1中的時(shí)間縱軸為對(duì)數(shù)刻度)。

        圖1 壓縮時(shí)間對(duì)比

        從圖2可知,本文提出的基于模板的日志差分壓縮架構(gòu)的壓縮率均低于 3種模式下 gzip 的壓縮率,且壓縮到達(dá)為10.5%。

        圖 3描述了本文所提方法與 gzip對(duì)于fw_log(150w)數(shù)據(jù)集在壓縮速度與壓縮率2方面的整體對(duì)比。其中柱狀圖表示壓縮率,黑色三角形圖塊表示壓縮時(shí)間。圖3表明本文提出的日志差分壓縮架構(gòu)與gzip相比,具有明顯的速度優(yōu)勢(shì)(快2~10倍),同時(shí)壓縮率也優(yōu)于 gzip。這是合理的,因?yàn)榛谀0宓牟罘謮嚎s充分利用了日志數(shù)據(jù)自身的特性,在壓縮前就獲得了日志數(shù)據(jù)的先驗(yàn)知識(shí)(模板),而通用的gzip工具沒有這些先驗(yàn)知識(shí)。

        圖3 基于模板的差分壓縮與gzip在壓縮率(柱狀圖)與壓縮速度(三角形)上的對(duì)比

        5 結(jié)束語(yǔ)

        基于模板流式差分的日志壓縮系統(tǒng)首先消除日志數(shù)據(jù)中冗余的結(jié)構(gòu)模式。其次,利用日志數(shù)據(jù)在時(shí)間域上的局部相似性,通過配置適用于日志內(nèi)容屬性(字段)的差分策略執(zhí)行差分壓縮,進(jìn)一步降低了日志數(shù)據(jù)的存儲(chǔ)空間。由于采用流式差分壓縮,使本文所提的日志壓縮架構(gòu)具有顯著的壓縮速度優(yōu)勢(shì)。差分策略的可配置性使該架構(gòu)具有通用性與可擴(kuò)展性,該方法可以應(yīng)用于一般的日志壓縮。

        [1] YEN T F,et al. Beehive: large-scale log analysis for detecting suspicious activity in enterprise networks[A]. Proceedings of the 29th Annual Computer Security Applications Conference[C].2013.199-208.

        [2] BREIER J, BRANI?OVá J. Anomaly detection from log files using data mining techniques[A]. Information Science and Applications[C].2015.449-457.

        [3] DUMAIS S,et al. Understanding user behavior through log data and analysis[A]. Ways of Knowing in HCI[C]. 2014. 349-372.

        [4] SRIVASTAVA M, GARG , MISHRA P K. Analysis of data extraction and data cleaning in Web usage mining[A]. Proceedings of the 2015 International Conference on Advanced Research in Computer Science Engineering Technology (ICARCSET 2015)[C]. 2015. 1-6.

        [5] SKIBI?SKI P, SWACHA J. Fast and efficient log file compression[A].Proceedings of CEUR Workshop of 11th East-European Conference on Advances in Databases and Information Systems(ADBIS 2007)[C]. 2007.

        [6] GRABOWSKI S, DEOROWICZ S. Web log compression[J]. Automatyka/Akademia Górniczo-Hutniczaim Stanis?awa Staszicaw Krakowie, 2007, (11): 417-424.

        [7] DEOROWICZ S, GRABOWSKI S. Efficient preprocessing for Web log compression[J]. International Journal of Computing, 2008, 7(1): 35-42.

        [8] DEOROWICZ S, GRABOWSKI S. Sub-atomic field processing for improved Web log compression[A]. Proceedings of IEEE International Conference on Modern Problems of Radio Engineering, Telecommunications and Computer Science[C]. 2008.551-556.

        [9] H?T?NEN K.et al. Comprehensive log compression with frequent patterns[A]. Data Warehousing and Knowledge Discovery[C]. 2003.360-370.

        [10] 王艷峰, 王正,閻保平. 一種高效的 DNS 日志壓縮算法[J]. 計(jì)算機(jī)工程, 2010, 36(15): 32-35.WANG Y F, WANG Z, YAN B P. High efficient DNS log compression algorithm[J]. Copular Engineering, 2010, 36(15): 32-35.

        [11] CHRISTENSEN R. Improving compression of massive log data[EB/OL].http://www.erg.utal.edu, 2013.

        [12] JANG J H,et al. Accelerating forex trading system through transaction log compression[A]. SoC Design Conference (ISOCC), 2014 International[C]. IEEE, 2014. 24-75.

        [13] LONVICK C. RFC 3164: The BSD Syslog Protocol[S]. Network Working Group.

        [14] LEB128 [EB/OL]. http://en.wikipedia.org/wiki/LEB128, 2015.

        猜你喜歡
        壓縮算法細(xì)粒度壓縮率
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        基于參數(shù)識(shí)別的軌道電路監(jiān)測(cè)數(shù)據(jù)壓縮算法研究
        水密封連接器尾部接電纜的優(yōu)化設(shè)計(jì)
        纏繞墊片產(chǎn)品質(zhì)量控制研究
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        更正聲明
        多載波通信系統(tǒng)中CQI無(wú)損壓縮法研究
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        分布式多視點(diǎn)視頻編碼在應(yīng)急通信中的應(yīng)用
        国产精品亚洲av无人区一区香蕉| 成人欧美一区二区三区的电影| 精品香蕉久久久午夜福利| 国产亚洲午夜精品| 精品一区二区三区不老少妇| 一区二区三区av在线| 中文字幕精品一区二区精品| 无码人妻丰满熟妇片毛片| 国产剧情av麻豆香蕉精品| 99久久精品无码专区无| 亚洲a∨好看av高清在线观看| 日本成人中文字幕亚洲一区| 精品欧美一区二区三区久久久 | 色avav色av爱avav亚洲色拍| 国产98在线 | 免费| 久久久9色精品国产一区二区三区| 国产成人夜色在线视频观看| 涩涩鲁精品亚洲一区二区| 国产精品天堂avav在线| 国产内射合集颜射| 无码高潮少妇毛多水多水免费| 久久精品一区二区三区夜夜| 国产少妇高潮在线视频| 久久久久久久亚洲av无码| 国产精品久久777777| 一本色道久久99一综合| 国产一级在线现免费观看| 久久亚洲精品中文字幕蜜潮| 狠狠爱婷婷网五月天久久| 亚洲av免费手机在线观看| 99re8这里有精品热视频免费| 少妇无码av无码去区钱| 麻豆国产精品伦理视频| 内射人妻无套中出无码| 免费看久久妇女高潮a| 成人无码激情视频在线观看 | 亚洲中文中文字幕乱码| 亚洲精品动漫免费二区| 亚洲日本在线电影| 少妇的诱惑免费在线观看| 青青青爽在线视频免费播放|