亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于差分壓縮的大規(guī)模日志壓縮系統(tǒng)

2015-01-01 02:56:32唐球1姜磊1戴瓊1

通信學(xué)報(bào) 2015年1期

唐球1,2,3，姜磊1,2，戴瓊1,2

(1. 信息內(nèi)容安全技術(shù)國(guó)家工程實(shí)驗(yàn)室, 北京100093; 2. 中國(guó)科學(xué)院信息工程研究所, 北京 100093; 3. 中國(guó)科學(xué)院大學(xué)，北京 100049)

1 引言

隨著計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)應(yīng)用的快速發(fā)展，企業(yè)或機(jī)構(gòu)內(nèi)部部署了多套網(wǎng)絡(luò)設(shè)備與信息系統(tǒng)。這些設(shè)備或系統(tǒng)不間斷地將各自的運(yùn)行狀態(tài)記錄為日志數(shù)據(jù)，如Web服務(wù)日志、防火墻日志、入侵檢測(cè)系統(tǒng)日志等。日志數(shù)據(jù)是服務(wù)改進(jìn)、系統(tǒng)審計(jì)、安全分析、數(shù)據(jù)挖掘等應(yīng)用的重要數(shù)據(jù)源[1～4]，因此需要長(zhǎng)期存儲(chǔ)信息系統(tǒng)的日志數(shù)據(jù)。隨著大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái)，信息系統(tǒng)變得日益復(fù)雜，面向互聯(lián)網(wǎng)提供服務(wù)的信息系統(tǒng)訪問量急劇增長(zhǎng)，隨之而來(lái)的系統(tǒng)日志數(shù)據(jù)也呈現(xiàn)出爆炸式增長(zhǎng)。尤其對(duì)于一些核心系統(tǒng)模塊，需要記錄其所發(fā)生的一切操作并將其傳輸回?cái)?shù)據(jù)中心進(jìn)行存儲(chǔ)與分析，海量的日志數(shù)據(jù)對(duì)于日志系統(tǒng)的設(shè)計(jì)是一個(gè)巨大的挑戰(zhàn)。因此，有效的壓縮、傳輸并存儲(chǔ)大規(guī)模日志數(shù)據(jù)是現(xiàn)代信息系統(tǒng)的迫切需求。

在數(shù)據(jù)規(guī)模較小且可定期刪除歷史日志數(shù)據(jù)的情況下，可以使用傳統(tǒng)的壓縮工具定期進(jìn)行日志數(shù)據(jù)的壓縮存儲(chǔ)，如Linux日志管理工具logrotate，它使用gzip定期對(duì)日志數(shù)據(jù)進(jìn)行壓縮與輪詢存儲(chǔ)。但是，使用傳統(tǒng)的通用壓縮算法降低日志數(shù)據(jù)存儲(chǔ)空間存在效率低的問題。一方面，傳統(tǒng)壓縮算法的通用性導(dǎo)致了其壓縮率低，因?yàn)橥ㄓ玫膲嚎s算法沒有充分利用日志數(shù)據(jù)的自身特性；另一方面，通用壓縮算法計(jì)算量大，難以線速處理大規(guī)模的日志數(shù)據(jù)。近年來(lái)，針對(duì)大規(guī)模日志數(shù)據(jù)的壓縮存儲(chǔ)，國(guó)內(nèi)外開展了大量相關(guān)工作。文獻(xiàn)[5]利用Web日志數(shù)據(jù)在結(jié)構(gòu)與內(nèi)容方面均存在大量相似性的特性，提出了一種日志數(shù)據(jù)變換機(jī)制，將當(dāng)前日志中與前一條日志相同的數(shù)據(jù)塊轉(zhuǎn)換為相同數(shù)據(jù)塊的長(zhǎng)度值；不相同的數(shù)據(jù)塊則保留；然后對(duì)變換后的日志數(shù)據(jù)再使用通用的壓縮算法做進(jìn)一步的壓縮；該方法的不足是對(duì)于不同類型的日志數(shù)據(jù)塊采用同樣的壓縮算法。文獻(xiàn)[6～8]先后嘗試字段合并、不同字段差異化壓縮策略等技術(shù)對(duì)Apache的Web日志進(jìn)行差分壓縮，與本文提出的方法的思想有一定的相似之處，但是該文獻(xiàn)中的方法缺少可配置的靈活性，而且是專門針對(duì)于Apache的Web日志，缺少對(duì)更廣泛類型日志數(shù)據(jù)的通用性設(shè)計(jì)。Kimmo等提出了基于日志數(shù)據(jù)中的頻繁重復(fù)數(shù)據(jù)模式塊消冗的防火墻日志壓縮算法[9]。文獻(xiàn)[10]通過分析DNS日志數(shù)據(jù)的特性，針對(duì) DNS日志數(shù)據(jù)所涉及的時(shí)間、IP地址、域名和類型4類數(shù)據(jù)分別進(jìn)行不同的壓縮方法。文獻(xiàn)[11]提出了基于通用壓縮算法壓縮日志數(shù)據(jù)的預(yù)處理算法，通過預(yù)處理算法中的分區(qū)函數(shù)將日志數(shù)據(jù)劃分至多個(gè)同質(zhì)日志桶（homogeneous buckets），然后對(duì)不同的同質(zhì)日志桶內(nèi)的日志數(shù)據(jù)使用傳統(tǒng)的壓縮算法bzip2或gzip進(jìn)行壓縮。由于同質(zhì)日志桶內(nèi)容日志結(jié)構(gòu)高度相似，因此比直接使用bzip2或gzip壓縮壓縮更高。文獻(xiàn)[12]使用硬件FPGA實(shí)現(xiàn) LZ4算法對(duì)外匯交易系統(tǒng)中的事務(wù)日志進(jìn)行壓縮，在保證LZ4的壓縮率的情況下，獲得了專用硬件帶來(lái)的壓縮速度優(yōu)勢(shì)。已有日志壓縮工作降低了日志存儲(chǔ)空間，但是存在以下幾點(diǎn)不足：1）通用性較差，依賴于具體的某一類日志；2）不具可擴(kuò)展性，不支持壓縮策略的可配置；3）粗粒度壓縮策略，針對(duì)不同數(shù)據(jù)類型采用相同的壓縮策略；4）不支持流式差分，難以滿足在線實(shí)時(shí)日志壓縮需求。

本文針對(duì)以上不足，提出了一種支持大規(guī)模日志數(shù)據(jù)的流式差分壓縮架構(gòu)。該架構(gòu)首先充分利用日志數(shù)據(jù)的先驗(yàn)知識(shí)，將一類日志數(shù)據(jù)中固定不變的數(shù)據(jù)塊提取為模板，日志壓縮時(shí)，刪除模板中定義的數(shù)據(jù)塊，只存儲(chǔ)一個(gè)模板指針。在解壓時(shí)，根據(jù)模板內(nèi)容即可復(fù)原日志數(shù)據(jù)；然后，針對(duì)日志數(shù)據(jù)中不同類型的數(shù)據(jù)塊定制其差分壓縮策略。本文提出大規(guī)模日志壓縮系統(tǒng)不依賴于特定的日志類型，對(duì)于不同類型的日志數(shù)據(jù)可以配置不同的細(xì)粒度差分壓縮策略，該系統(tǒng)采用流式的差分壓縮架構(gòu)，從而使本文提出的日志壓縮系統(tǒng)具有明顯的壓縮率與壓縮速度優(yōu)勢(shì)。

2 日志數(shù)據(jù)分析

日志數(shù)據(jù)格式可以是系統(tǒng)設(shè)計(jì)者自定義，或使用被廣泛使用的 syslog日志格式[13]，后者由RFC3164規(guī)范定義。它規(guī)定一條日志消息由“優(yōu)先級(jí)”、“頭部”與“消息體”3部分構(gòu)成，其中優(yōu)先級(jí)是一個(gè)數(shù)字，它代表了生成日志的程序模塊（facility）與嚴(yán)重性（severity）；頭部包含時(shí)間與主機(jī)名；消息體是具體的日志內(nèi)容。由于syslog日志規(guī)范只是一個(gè)建議，規(guī)范寬泛，其消息體包含了大量的日志屬性，但這些內(nèi)容的組織格式并沒有確定的定義，由系統(tǒng)設(shè)計(jì)者自行定義。所以，很多日志系統(tǒng)是將其作為一種支持的格式，更多的是對(duì)它進(jìn)行擴(kuò)展。如防火墻安全領(lǐng)域更多的是使用 NetIQ公司提出的WELF日志格式。從真實(shí)的應(yīng)用系統(tǒng)中采集了21 GB的真實(shí)日志數(shù)據(jù)，這個(gè)數(shù)據(jù)集由真實(shí)系統(tǒng)中的防火墻（天融信、思科）日志、交換機(jī)（華為）日志，入侵檢測(cè)系統(tǒng)（IDS）日志、VPN日志與病毒檢測(cè)系統(tǒng)日志構(gòu)成。通過對(duì)該數(shù)據(jù)集分析，發(fā)現(xiàn)目前的日志系統(tǒng)存在以下3個(gè)顯著特征。

1) 日志格式規(guī)整相似。目前成熟產(chǎn)品的日志數(shù)據(jù)格式類似于syslog RFC3164規(guī)范的格式，或者更加規(guī)范的日志格式，如WELF。前者如思科防火墻的日志格式（如表 1所示）；后者的一條日志消息通常是由多個(gè)“<字段名，字段值>”的鍵值對(duì)構(gòu)成，不同日志系統(tǒng)僅在鍵值連接符與鍵值對(duì)之間的分割符上有細(xì)微的差別，如表1中的最后3條日志數(shù)據(jù)，天融信的防火墻日志的鍵值對(duì)分隔符為空格，鍵值連接符為等號(hào)，而綠盟的IDS日志的分隔符為分號(hào)，鍵值連接符為分號(hào)。

2) 日志數(shù)據(jù)存在冗余結(jié)構(gòu)模式。從表 1中可知，同一類日志數(shù)據(jù)無(wú)論以哪種格式表示，在消息結(jié)構(gòu)上都存在大量的相同模式，如思科防火墻的106017類型日志（表1中的第1、第2行）均含有“ASA*Deny IP due to Land Attack from*to*”的模式；天融信防火墻的訪問控制日志（表1的第3、第4行）均含有 “id=*time=*fw=*pri=*…”模式。其中模式中的星號(hào)表示可變內(nèi)容，非星號(hào)字符為恒定不變內(nèi)容（即冗余的結(jié)構(gòu)模式）。

3) 日志數(shù)據(jù)中的屬性值類型是固定且具有很強(qiáng)的時(shí)間局部性相似性。即對(duì)于同一類日志數(shù)據(jù)，即使在數(shù)據(jù)組織格式上有差異，但所承載的核心信息是相同的。如不同供應(yīng)商的防火墻設(shè)備生成的訪問控制日志數(shù)據(jù)均包含某一次穿越防火墻連接的五元組、時(shí)間、MAC地址、生成日志的設(shè)備名、防火墻策略 ID號(hào)等信息；在一個(gè)具體的日志系統(tǒng)中這些屬性值的類型是確定的，且在短時(shí)間內(nèi)，這些屬性值是局部相似的，如時(shí)間屬性值只是秒數(shù)的差異、少數(shù)IP地址在五元組中頻繁重復(fù)出現(xiàn)等。

表1 常見網(wǎng)絡(luò)設(shè)備日志數(shù)據(jù)實(shí)例（隱私信息已做替換）

3 日志數(shù)據(jù)差分壓縮

3.1 基于模板的日志去重

基于第2節(jié)關(guān)于21 GB日志數(shù)據(jù)的分析結(jié)論，本節(jié)提出一種基于模板的日志消冗機(jī)制，消除日志數(shù)據(jù)中存在的冗余結(jié)構(gòu)模式，形式化定義如下。

定義1（字段，field）。字段是由字段名（fld）與字段值（val）構(gòu)成的鍵值對(duì)（fldλval），其中“λ”為字段名與字段值之間的連接符。一個(gè)字段表示一個(gè)具體的日志屬性，如表 1中的天融信防火墻訪問控制日志中的源IP地址字段為“src= x.x.x.x”，其中 src為字段名（源 IP），“x.x.x.x”為字段值（IP地址），字段名與字段值連接符為等號(hào)。

定義2（日志消息,log_msg）。一條日志消息表示一個(gè)事件，它是由有限個(gè)字段構(gòu)成，字段之間有先后順序、由字段分隔符（θ）相連接；即log_msg=field1θf(wàn)ield2θ…fieldN，其中，fieldi=fldiλvali。

定義 3（日志，log）。日志是由多條日志消息構(gòu)成的集合，log={log_msgi | i∈1,2,3,…,M; log_msgi=field1iθf(wàn)ield2iθ …fieldNi;fieldji=fldjiλvalji,j∈1,2,…,N}。

由前一節(jié)的分析可知，已有的日志格式與本文形式化定義的日志格式很相似，因此只需對(duì)待壓縮的日志數(shù)據(jù)進(jìn)行簡(jiǎn)單預(yù)處理，將日志數(shù)據(jù)轉(zhuǎn)換為規(guī)整的日志格式(log)。日志數(shù)據(jù)所有的字符都是可打印字符，不含控制類字符，因此可以選擇控制類字符作為λ與θ。對(duì)于同一類日志數(shù)據(jù)，可以通過正則表達(dá)式匹配加文本處理腳本完成日志預(yù)處理。

同一設(shè)備或系統(tǒng)的日志存在冗余的結(jié)構(gòu)模式：日志消息的字段組成結(jié)構(gòu)是固定的，且各個(gè)字段名是相同的，即log_msg1與log_msg2都包含相同的內(nèi)容：fld1λ,θf(wàn)ld2λ … θf(wàn)ldN；不同的部分是：val1,val2,…,valN。基于此特征，本文提出的日志壓縮系統(tǒng)將日志中冗余的結(jié)構(gòu)模式以字段為單位提取為模板，然后將模板定義的冗余模式從日志消息中刪除，并在日志消息中存儲(chǔ)模板指針。具體的模板形式化描述如下。

定義 4（模板，template）。一個(gè)模板由字段名與字段值連接符、字段分割符、各個(gè)字段名以及該模板的 ID 號(hào)（tid）構(gòu)成，即template={tid,λ,θ,fld1,fld2,…,fldN}。

因此，基于模板的日志去重機(jī)制主要步驟如下。

Step1日志預(yù)處理。

Step2對(duì)每一條日志消息log_msgi進(jìn)行如下操作。

1) 模板庫(kù)中查找與log_msgi相匹配的模板（templatek）；

2) 將templatek定義的字段名從log_msgi中刪除，并將templatek的模板ID寫入日志消息中，最后得到基于模板變換后log_msgi為“tidkθval1iθval2iθ…θvalN i”。

對(duì)于壓縮后的日志數(shù)據(jù)，根據(jù)模板指針，通過執(zhí)行基于模板的逆去重操作即可恢復(fù)原始的日志數(shù)據(jù)。

3.2 日志數(shù)據(jù)細(xì)粒度差分壓縮

基于模板的日志數(shù)據(jù)重后降低了日志的存儲(chǔ)空間，但仍存在大量的信息冗余，尤其是短時(shí)間內(nèi)的同類日志消息字段之間存在局部相似性。為了進(jìn)一步壓縮日志數(shù)據(jù)空間，本文設(shè)計(jì)的日志差分架構(gòu)對(duì)基于模板去重后的日志數(shù)據(jù)做進(jìn)一步的細(xì)粒度的差分壓縮。首先定義幾類通用的差分壓縮策略（diff_strgy）；然后，根據(jù)不同的字段值特性，選擇各個(gè)字段值最適合的差分策略對(duì)基于模板去重后的日志數(shù)據(jù)進(jìn)行字段級(jí)別的差分壓縮。為了支持日志消息的線速壓縮，日志差分壓縮只選擇與前一條同類型的歷史日志消息進(jìn)行差分計(jì)算；由于日志消息具有時(shí)間域的局部相似性，所以該差分壓縮策略保證了日志壓縮的時(shí)間與空間效率。

3.2.1 字段細(xì)粒度差分壓縮

每個(gè)字段的細(xì)粒度差分壓縮（FFDE, finegrained field differential encoding）可以描述為一個(gè)五元組：ffde=(fld,fld_type,diff_strgy,initVal,size)，五元組中各個(gè)屬性的定義如下。

fld：字段名。

fld_type：字段值類型，分為字符串、整數(shù)2大類，其中整數(shù)分為8位，16位，32位，64位的有符號(hào)與無(wú)符號(hào)整數(shù)；浮點(diǎn)數(shù)轉(zhuǎn)化為指數(shù)與尾數(shù)的 2個(gè)整數(shù)表示。

diff_strgy：字段值差分策略，本日志壓縮系統(tǒng)定義了4類差分策略，具體定義見表2，對(duì)于不同特性的字段采用不同差分策略，也可擴(kuò)展新差分策略以支持新類型字段。

表2 字段差分策略定義

initVal：字段的初始值。當(dāng)?shù)谝粭l消息差分壓縮時(shí)，將initVal作為歷史值（val'）與當(dāng)前字段值做差分運(yùn)算。當(dāng)字段差分策略為“定值”時(shí)，則initVal屬性值定義為該字段的定值。

size：標(biāo)識(shí)使用差分策略得到的字段差值使用定長(zhǎng)編碼（編碼為size個(gè)字節(jié)）還是變長(zhǎng)編碼（size=0）。定長(zhǎng)編碼即保持原始值；變長(zhǎng)編碼采用被廣泛使用的 LEB128[14]變長(zhǎng)編碼技術(shù)，即一個(gè)字節(jié)的7 bit表示實(shí)際數(shù)據(jù)，最高比特位標(biāo)識(shí)當(dāng)前字節(jié)是否為變長(zhǎng)數(shù)據(jù)的最后一個(gè)字節(jié)（如0表示結(jié)束）。對(duì)于差分壓縮后的字段值的取值范圍固定（如 IP地址的一個(gè)段的值范圍為0～255），且等于1字節(jié)或大于4個(gè)字節(jié)的定長(zhǎng)值采用定長(zhǎng)編碼，反之采用變長(zhǎng)編碼。這樣可以使存儲(chǔ)空間達(dá)到最優(yōu)。如一個(gè)無(wú)符號(hào)的 32為整數(shù)值采用變長(zhǎng)編碼時(shí)，當(dāng)其值的區(qū)間為[0, 127]內(nèi)的任意一個(gè)值時(shí)，只需要一個(gè)字節(jié)存儲(chǔ)表示，而不是4個(gè)字節(jié)。

3.2.2 字段差分存在位圖

差分策略導(dǎo)致字段的值具有3種“值存在”狀態(tài)：存在、不存在、條件存在?！按嬖凇北硎咀侄尾罘种罂偸怯兄?，如“差值”字段差分策略；“不存在”表示字段差分后總是沒有值，如“定值”差分策略；“條件存在”表示字段差分后依據(jù)條件可能有值也可能無(wú)值。如字段差分策略為“復(fù)制”，當(dāng)與前一條日志消息的值相同時(shí)，當(dāng)前日志直接刪除該值，差分后的字段無(wú)值；反之則保留該值，差分后的字段有值。因此一條差分后的日志消息所包含的字段值數(shù)目不固定。為了正確解碼日志消息，一條差分壓縮的日志消息需要存儲(chǔ)一個(gè)字段值存在位圖向量（FVPB, field value presence bitmap），F(xiàn)VPB中的每一個(gè)比特對(duì)應(yīng)日志中的一個(gè)具有“條件存在”狀態(tài)的字段，置位表示字段值存在；復(fù)位表示字段值不存在。對(duì)于“存在”與“不存在”的字段值則不需要FVPB標(biāo)示。

3.3 基于模板的日志數(shù)據(jù)細(xì)粒度差分壓縮

結(jié)合3.2節(jié)與3.3節(jié)，本節(jié)給出基于模板的日志數(shù)據(jù)細(xì)粒度差分壓縮總體架構(gòu)。日志先通過模板去重，然后再對(duì)日志字段值進(jìn)行細(xì)粒度的差分壓縮。這兩者均定義在日志差分壓縮模板中，定義如下。

定義5（細(xì)粒度差分模板，template′）。一個(gè)細(xì)粒度差分模板由字段值存在位圖向量、各個(gè)字段的細(xì)粒度差分五元組、模板 ID號(hào)、字段名與字段值連接符與字段分割符構(gòu)成，即template'={ffdetid,λ,θ,ffde1,ffed2,…,ffedN}。其中模板ID號(hào)也作為日志消息添加的一個(gè)普通字段（ffdetid），使用“復(fù)制”差分策略（可減少連續(xù)同類型日志消除中模板 ID的存儲(chǔ)）?；诩?xì)粒度差分模板的日志差分壓縮算法描述為算法1。

字段差分壓縮是當(dāng)前值（val）與同類型的前一條日志數(shù)據(jù)的對(duì)應(yīng)字段值(val')執(zhí)行差分壓縮，因此整個(gè)日志的差分壓縮過程需要維護(hù)一個(gè)差分字典，用于記錄前一條同類型日志數(shù)據(jù)的字段值。算法 1第 1行為每個(gè)模板定義一個(gè)差分字典（dict[k][0…N]），其初始值為對(duì)應(yīng)模板的字段初始值（initVal）；每執(zhí)行完一條日志消息的差分運(yùn)算，用當(dāng)前日志的字段值更新該差分字典（算法1第6行）。對(duì)于每一條日志消息，首先需要確定適合其的模板，然后根據(jù)模板對(duì)該日志消息進(jìn)行細(xì)粒度差分壓縮（算法1中的第3～7行）。

算法1基于細(xì)粒度差分模板的日志壓縮算法

輸入：日志log={log_msgi |i=1,2,…,M}; 差分壓縮模板集合temp_set={template'k|k=1,2,…,K};其中template'k={ffdetidk,λ,θ,ffde1k,…,ffedNk},ffedjk=(fldjk,fld_typejk,diff_strgyjk,initValjk,sizejk),j=1,2,…,N};

輸出：差分壓縮的日志數(shù)據(jù);

1) 初始化模板字段差分字典dict[k][0…N]={k,initVal1k,…,initValN k};

2) 對(duì)于每個(gè)日志消息log_msgi，執(zhí)行如下操作；

3) 根據(jù)日志消息的結(jié)構(gòu)查找與其相對(duì)應(yīng)的模板template'k；

4) 對(duì)模板ID號(hào)（k）與log_msgi的每個(gè)字段值valji執(zhí)行如下操作；

5) 依據(jù)diff_strgyjk的對(duì)valji與dict[k][j]進(jìn)行差分運(yùn)算；如果當(dāng)字段差分編碼狀態(tài)為“條件存在”且差分后有值，則FVPB[j']=1;否則FVPB[j']=0；/*j'為當(dāng)前字段在字段值存儲(chǔ)位圖中的比特位*/；

6) 更新字段前值字典dict[k][j]=valj;

7) 輸出FVPB與各個(gè)字段差分后的值。

4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)通過測(cè)試真實(shí)的網(wǎng)絡(luò)系統(tǒng)日志數(shù)據(jù)，分析本文提出的支持大規(guī)模日志壓縮系統(tǒng)的效率。主要考察其壓縮率與壓縮速度。

實(shí)驗(yàn)環(huán)境：處理器為Intel Core I3-3240，內(nèi)存2 GB，F(xiàn)edora-14的操作系統(tǒng)。

由于提出的差分架構(gòu)是流式工作方式，即只與前一條日志消息做差分計(jì)算，因此壓縮總時(shí)延與日志的規(guī)模成正比關(guān)系，小規(guī)模數(shù)據(jù)集測(cè)試即可說(shuō)明該架構(gòu)的壓縮速度。為了快速得到測(cè)試數(shù)據(jù)集的壓縮率與壓縮速度，本節(jié)從真實(shí)的天融信防火墻訪問控制日志數(shù)據(jù)集中提出部分字段，組成4個(gè)數(shù)據(jù)集，數(shù)據(jù)集的特性描述如表3所示。

表3 數(shù)據(jù)集特性

對(duì)這4個(gè)數(shù)據(jù)集分別使用本文提出的基于模板的細(xì)粒度差分壓縮架構(gòu)與通用的壓縮工具gzip進(jìn)行壓縮測(cè)試，選擇gzip進(jìn)行參照是因?yàn)閺V泛使用的開源日志管理工具logrotate使用的就是gzip作為其日志壓縮算法；而且類似的日志壓縮文獻(xiàn)[6～9]的實(shí)驗(yàn)對(duì)比也是與gzip相比較。2個(gè)壓縮工具對(duì)于各個(gè)數(shù)據(jù)集的壓縮時(shí)間與壓縮率分別如圖1和圖2所示，由于gzip可以設(shè)置其壓縮參數(shù)典型的可以設(shè)置為快速壓縮模式（速度快、低壓縮率）、高壓縮率模式（速度慢、高壓縮率）與普通壓縮壓縮模式（壓縮速度與壓縮率介于前2種模式之間），所以在實(shí)際測(cè)試中對(duì)于同一數(shù)據(jù)集，分別使用3種不同的gzip模式進(jìn)行壓縮測(cè)試。從圖 1可知，本文提出的基于模板差分的日志壓縮系統(tǒng)在壓縮速度上比普通或快速模式的gzip快2～5倍，比高壓縮率模式的gzip快一個(gè)數(shù)量級(jí)（圖1中的時(shí)間縱軸為對(duì)數(shù)刻度）。

圖1 壓縮時(shí)間對(duì)比

從圖2可知，本文提出的基于模板的日志差分壓縮架構(gòu)的壓縮率均低于 3種模式下 gzip 的壓縮率，且壓縮到達(dá)為10.5%。

圖 3描述了本文所提方法與 gzip對(duì)于fw_log(150w)數(shù)據(jù)集在壓縮速度與壓縮率2方面的整體對(duì)比。其中柱狀圖表示壓縮率，黑色三角形圖塊表示壓縮時(shí)間。圖3表明本文提出的日志差分壓縮架構(gòu)與gzip相比，具有明顯的速度優(yōu)勢(shì)（快2～10倍），同時(shí)壓縮率也優(yōu)于 gzip。這是合理的，因?yàn)榛谀０宓牟罘謮嚎s充分利用了日志數(shù)據(jù)自身的特性，在壓縮前就獲得了日志數(shù)據(jù)的先驗(yàn)知識(shí)（模板），而通用的gzip工具沒有這些先驗(yàn)知識(shí)。

圖3 基于模板的差分壓縮與gzip在壓縮率（柱狀圖）與壓縮速度（三角形）上的對(duì)比

5 結(jié)束語(yǔ)

基于模板流式差分的日志壓縮系統(tǒng)首先消除日志數(shù)據(jù)中冗余的結(jié)構(gòu)模式。其次，利用日志數(shù)據(jù)在時(shí)間域上的局部相似性，通過配置適用于日志內(nèi)容屬性（字段）的差分策略執(zhí)行差分壓縮，進(jìn)一步降低了日志數(shù)據(jù)的存儲(chǔ)空間。由于采用流式差分壓縮，使本文所提的日志壓縮架構(gòu)具有顯著的壓縮速度優(yōu)勢(shì)。差分策略的可配置性使該架構(gòu)具有通用性與可擴(kuò)展性，該方法可以應(yīng)用于一般的日志壓縮。

[1] YEN T F,et al. Beehive: large-scale log analysis for detecting suspicious activity in enterprise networks[A]. Proceedings of the 29th Annual Computer Security Applications Conference[C].2013.199-208.

[2] BREIER J, BRANI?OVá J. Anomaly detection from log files using data mining techniques[A]. Information Science and Applications[C].2015.449-457.

[3] DUMAIS S,et al. Understanding user behavior through log data and analysis[A]. Ways of Knowing in HCI[C]. 2014. 349-372.

[4] SRIVASTAVA M, GARG , MISHRA P K. Analysis of data extraction and data cleaning in Web usage mining[A]. Proceedings of the 2015 International Conference on Advanced Research in Computer Science Engineering Technology (ICARCSET 2015)[C]. 2015. 1-6.

[5] SKIBI?SKI P, SWACHA J. Fast and efficient log file compression[A].Proceedings of CEUR Workshop of 11th East-European Conference on Advances in Databases and Information Systems(ADBIS 2007)[C]. 2007.

[6] GRABOWSKI S, DEOROWICZ S. Web log compression[J]. Automatyka/Akademia Górniczo-Hutniczaim Stanis?awa Staszicaw Krakowie, 2007, (11): 417-424.

[7] DEOROWICZ S, GRABOWSKI S. Efficient preprocessing for Web log compression[J]. International Journal of Computing, 2008, 7(1): 35-42.

[8] DEOROWICZ S, GRABOWSKI S. Sub-atomic field processing for improved Web log compression[A]. Proceedings of IEEE International Conference on Modern Problems of Radio Engineering, Telecommunications and Computer Science[C]. 2008.551-556.

[9] H?T?NEN K.et al. Comprehensive log compression with frequent patterns[A]. Data Warehousing and Knowledge Discovery[C]. 2003.360-370.

[10] 王艷峰, 王正,閻保平. 一種高效的 DNS 日志壓縮算法[J]. 計(jì)算機(jī)工程, 2010, 36(15): 32-35.WANG Y F, WANG Z, YAN B P. High efficient DNS log compression algorithm[J]. Copular Engineering, 2010, 36(15): 32-35.

[11] CHRISTENSEN R. Improving compression of massive log data[EB/OL].http://www.erg.utal.edu, 2013.

[12] JANG J H,et al. Accelerating forex trading system through transaction log compression[A]. SoC Design Conference (ISOCC), 2014 International[C]. IEEE, 2014. 24-75.

[13] LONVICK C. RFC 3164: The BSD Syslog Protocol[S]. Network Working Group.

[14] LEB128 [EB/OL]. http://en.wikipedia.org/wiki/LEB128, 2015.