連雁平
(武夷學(xué)院,福建 武夷山 354300)
在應(yīng)用系統(tǒng)處于正常運(yùn)行狀態(tài)時(shí),電子數(shù)據(jù)的平均重復(fù)比率大約為60%,且隨著系統(tǒng)運(yùn)行時(shí)間的不斷增加,電子數(shù)據(jù)的重復(fù)比率也逐漸增大。為避免因大量數(shù)據(jù)堆積而導(dǎo)致系統(tǒng)運(yùn)行速度降低現(xiàn)象的發(fā)生,現(xiàn)階段主要通過特定重復(fù)數(shù)據(jù)消除系統(tǒng)完成數(shù)據(jù)重復(fù)比率的降低處理[1]。這種普通的重復(fù)數(shù)據(jù)消除系統(tǒng)利用Deduplication技術(shù)手段,對重復(fù)數(shù)據(jù)進(jìn)行多次消冗處理,通過整理數(shù)據(jù)的方式,確定電子數(shù)據(jù)中重復(fù)部分所占的物理存儲空間,再設(shè)立特定網(wǎng)絡(luò)占用帶寬,對該部分物理存儲空間內(nèi)的電子數(shù)據(jù)進(jìn)行無差消除處理。這種重復(fù)數(shù)據(jù)消除系統(tǒng)主要應(yīng)用于HTML頁面或小型網(wǎng)絡(luò)處理系統(tǒng)[2]。這類應(yīng)用對象普遍存在運(yùn)行數(shù)據(jù)總量有限、對系統(tǒng)響應(yīng)時(shí)間要求不高等特點(diǎn),這也是導(dǎo)致傳統(tǒng)系統(tǒng)出現(xiàn)重復(fù)數(shù)據(jù)吞吐量可控性較差、相似判斷處理完成時(shí)間過長等現(xiàn)象的主要原因。為更好地解決傳統(tǒng)系統(tǒng)存在的普遍問題,引入數(shù)據(jù)序列關(guān)聯(lián)規(guī)則,對系統(tǒng)的軟件模塊進(jìn)行改進(jìn)設(shè)計(jì),再通過增設(shè)冗余糾正模塊等流程,對系統(tǒng)的硬件部分進(jìn)行改進(jìn)設(shè)計(jì)。通過模擬仿真實(shí)驗(yàn)數(shù)據(jù)對比的形式,突出新型重復(fù)數(shù)據(jù)消除系統(tǒng)的實(shí)用性價(jià)值。
新型海量重復(fù)數(shù)據(jù)消除系統(tǒng)的硬件部分設(shè)計(jì)主要包括總體框架設(shè)計(jì)、重復(fù)數(shù)據(jù)冗余糾正模塊設(shè)計(jì)、模塊通信接口設(shè)計(jì)三個(gè)方面,具體搭建流程可按如下步驟進(jìn)行。
基于關(guān)聯(lián)規(guī)則海量重復(fù)數(shù)據(jù)消除系統(tǒng)的硬件總體框架包括重復(fù)數(shù)據(jù)檢測模塊、總吞吐量提升模塊、消除可靠性保證模塊、系統(tǒng)安全模塊四個(gè)主要環(huán)節(jié)。其中,重復(fù)數(shù)據(jù)檢測模塊包括相同數(shù)據(jù)檢測和相似數(shù)據(jù)檢測兩個(gè)方面,且兩者所針對的檢測對象也都不相同。總吞吐量提升模塊具備提高差分壓縮屬性、增強(qiáng)相似數(shù)據(jù)搜索速度等多項(xiàng)功能[3-4]。消除可靠性保證模塊可根據(jù)電子數(shù)據(jù)的重復(fù)情況,完成分塊冗余數(shù)據(jù)的復(fù)制及糾錯(cuò)處理。系統(tǒng)安全模塊可以保證電子通信數(shù)據(jù)的傳輸可靠性,并降低信息泄露事件的發(fā)生幾率。詳細(xì)硬件框架結(jié)構(gòu)如圖1所示。
圖1 新型數(shù)據(jù)消除系統(tǒng)硬件框架結(jié)構(gòu)圖Fig.1 Hardware framework diagram of the new data elimination system
新型消除系統(tǒng)的重復(fù)數(shù)據(jù)冗余糾正模塊利用網(wǎng)絡(luò)協(xié)議的Chunk功能,完成海量數(shù)據(jù)中重復(fù)部分的吞吐量確定。通常情況下,應(yīng)用系統(tǒng)的總存儲空間有限,而隨著系統(tǒng)運(yùn)行時(shí)間的逐漸延長,電子數(shù)據(jù)發(fā)生重復(fù)現(xiàn)象的幾率也隨之增大,這也是導(dǎo)致系統(tǒng)運(yùn)行速度逐漸減慢的主要原因[5]。為避免上述情況的發(fā)生,將重復(fù)數(shù)據(jù)冗余糾正模塊與系統(tǒng)消除可靠性保證模塊直接相連,通過改變OceanStore連接狀態(tài)的方式,使模塊與模塊間始終保持高效連通狀態(tài)。新型海量重復(fù)數(shù)據(jù)消除系統(tǒng)在傳統(tǒng)系統(tǒng)的基礎(chǔ)上,增設(shè)重復(fù)數(shù)據(jù)冗余糾正模塊,并利用該模塊對海量數(shù)據(jù)的限制作用,解決重復(fù)數(shù)據(jù)吞吐量可控性較差的問題[6-7]。具體模塊設(shè)計(jì)原理如圖2所示。
圖2 重復(fù)數(shù)據(jù)冗余糾正模塊設(shè)計(jì)原理圖Fig.2 Design principle of redundancy correction module for repeating data
新型海量重復(fù)數(shù)據(jù)消除系統(tǒng)的模塊通信接口可實(shí)現(xiàn)重復(fù)數(shù)據(jù)冗余糾正與軟件數(shù)據(jù)庫的實(shí)時(shí)連接。為保證通信接口長時(shí)間維持連通狀態(tài),外接繼電模塊為接口直接提供220 V的直流電壓。為保證模塊通信接口的運(yùn)行穩(wěn)定性,離子生成裝置持續(xù)提供帶電量為5 C的正負(fù)電子,保證通信連接線周圍在具有帶電粒子的同時(shí),也始終維持總電荷量[8]為0。新型模塊通信接口以ZGA20RS79.6設(shè)備作為核心搭建環(huán)節(jié)。ZGA20RS79.6設(shè)備是一種具有急速連接屬性的硬件核心裝置,這也是新型系統(tǒng)能夠保持較快相似判斷完成速度的主要原因。具體接口設(shè)計(jì)原理如圖3所示。
圖3 模塊通信接口設(shè)計(jì)原理圖Fig.3 Design principle of module communication interface
新型消除系統(tǒng)的軟件模塊由數(shù)據(jù)序列關(guān)聯(lián)規(guī)則設(shè)計(jì)、重復(fù)數(shù)據(jù)檢測編碼設(shè)計(jì)、海量重復(fù)數(shù)據(jù)消除流程設(shè)計(jì)三部分組成,具體搭建流程可按如下步驟進(jìn)行。
數(shù)據(jù)序列關(guān)聯(lián)規(guī)則是新型海量重復(fù)數(shù)據(jù)消除系統(tǒng)建立的軟件基礎(chǔ)。傳統(tǒng)數(shù)據(jù)消除系統(tǒng)以NetBEUI傳輸協(xié)議作為核心運(yùn)行基礎(chǔ)。NetBEUI(NetBios Enhanced User Interface)數(shù)據(jù)基礎(chǔ)傳輸保障協(xié)議具備通信傳輸效率高、網(wǎng)絡(luò)鄰居間距小等優(yōu)勢。但隨著系統(tǒng)運(yùn)行時(shí)間的增加,這種短小精悍的傳輸協(xié)議不能在短時(shí)間內(nèi)完成數(shù)據(jù)間的相似性判斷,并根據(jù)判斷結(jié)果確定電子數(shù)據(jù)中的重復(fù)部分在總物理存儲空間中所占比重,進(jìn)而導(dǎo)致相似判斷完成時(shí)間過長現(xiàn)象的發(fā)生[9-10]。為解決此問題,新型海量重復(fù)數(shù)據(jù)消除系統(tǒng)應(yīng)用TCP/IP,NetBEUI,IPX/SPX三種協(xié)議相結(jié)合的方式,完成基礎(chǔ)數(shù)據(jù)序列關(guān)聯(lián)規(guī)則的建立[11]。這種新型關(guān)聯(lián)規(guī)則不僅能夠充分發(fā)揮NetBEUI協(xié)議傳輸效率較高的優(yōu)勢,也能結(jié)合TCP/IP協(xié)議局域穩(wěn)定性強(qiáng)、IPX/SPX協(xié)議連接響應(yīng)水平穩(wěn)定等屬性,使新型海量重復(fù)數(shù)據(jù)消除系統(tǒng)的相似判斷完成時(shí)間始終維持在較低水平。上述三種傳輸協(xié)議的具體應(yīng)用優(yōu)勢如表1所示。
表1 數(shù)據(jù)序列關(guān)聯(lián)規(guī)則組成情況Table 1 Composition of data sequence association rules
新型消除系統(tǒng)的重復(fù)數(shù)據(jù)檢測編碼可針對完全相似數(shù)據(jù)、部分相似數(shù)據(jù)、完全不相似數(shù)據(jù)進(jìn)行區(qū)別操作。在對系統(tǒng)中的數(shù)據(jù)進(jìn)行檢測編碼處理時(shí),相應(yīng)的編碼模塊認(rèn)定完全相似數(shù)據(jù)為重復(fù)數(shù)據(jù),部分相似數(shù)據(jù)為疑似重復(fù)數(shù)據(jù),完全不相似數(shù)據(jù)為普通電子數(shù)據(jù)[12-13]。針對重復(fù)數(shù)據(jù)進(jìn)行的檢測編碼處理以Delta原理作為主要的代碼編寫依據(jù),這類的編碼過程與霍夫曼編碼不同,其操作流程的主要對象為數(shù)據(jù)的引腳,對其他數(shù)據(jù)成分不進(jìn)行規(guī)范限制,具體編程代碼如下:
針對疑似重復(fù)數(shù)據(jù)進(jìn)行的檢測編碼處理以Bloom Filter原理作為主要的代碼編寫依據(jù)。Bloom Filter原理認(rèn)為,在疑似重復(fù)數(shù)據(jù)中,與目的檢測項(xiàng)目完全重復(fù)部分所占比重過低,因此該類型數(shù)據(jù)不滿足消除要求。針對普通電子數(shù)據(jù)進(jìn)行的檢測編碼處理依然沿用霍夫曼編碼過程,且這類編碼操作自動默認(rèn)普通電子數(shù)據(jù)不滿足系統(tǒng)消除要求。
新型系統(tǒng)的海量重復(fù)數(shù)據(jù)消除流程設(shè)計(jì)完全遵循三種網(wǎng)絡(luò)通信協(xié)議相結(jié)合的數(shù)據(jù)關(guān)聯(lián)規(guī)則,并利用重復(fù)數(shù)據(jù)檢測編碼,保證流程的順利運(yùn)行。該流程以重復(fù)數(shù)據(jù)整理作為起始環(huán)節(jié),且所有經(jīng)過整理的數(shù)據(jù)結(jié)果直接以數(shù)據(jù)包的形式傳送至消除引擎[14],再由消除引擎按照關(guān)聯(lián)規(guī)則對重復(fù)數(shù)據(jù)進(jìn)行重新排列,消除數(shù)據(jù)與數(shù)據(jù)間的通信聯(lián)系。完成上述操作的重復(fù)數(shù)據(jù),已經(jīng)初步滿足清除規(guī)則,再由特定消除模塊對這些數(shù)據(jù)進(jìn)行深度對比分析,將其中殘存的疑似重復(fù)數(shù)據(jù)或普通電子數(shù)據(jù)全部分離出去,并暫存剩余數(shù)據(jù)[15]。完成上述操作后,該模塊會自動運(yùn)行Delete指令,完成新型系統(tǒng)的重復(fù)數(shù)據(jù)消除處理,具體運(yùn)行流程如圖4所示。
圖4 海量重復(fù)數(shù)據(jù)消除流程圖Fig.4 Flow chart of massive repeating data elimination
上述過程完成基于關(guān)聯(lián)規(guī)則海量重復(fù)數(shù)據(jù)消除系統(tǒng)的搭建。為驗(yàn)證該系統(tǒng)的應(yīng)用價(jià)值,以2臺配置X95軟件的計(jì)算機(jī)作為實(shí)驗(yàn)對象。隨機(jī)挑選出一臺計(jì)算機(jī)作為實(shí)驗(yàn)組,搭載基于關(guān)聯(lián)規(guī)則海量重復(fù)數(shù)據(jù)消除系統(tǒng);另一臺作為對照組,搭載傳統(tǒng)消除系統(tǒng),分別記錄兩組計(jì)算機(jī)的相關(guān)實(shí)驗(yàn)參數(shù)。
系統(tǒng)的重復(fù)數(shù)據(jù)吞吐量可控性與WQP指標(biāo)間始終保持反比關(guān)系。隨著WQP指標(biāo)的升高,系統(tǒng)的重復(fù)數(shù)據(jù)吞吐量可控性逐漸降低。圖5,圖6分別反映了實(shí)驗(yàn)組、對照組WQP指標(biāo)的變化情況。
分析圖5可知,隨著系統(tǒng)運(yùn)行時(shí)間的增加,實(shí)驗(yàn)組WQP指標(biāo)的最大值始終不能達(dá)到40%。分析圖6可知,隨著系統(tǒng)運(yùn)行時(shí)間的增加,對照組WQP指標(biāo)的最大值可以超過70%。由此可得,實(shí)驗(yàn)組系統(tǒng)的WQP指標(biāo)恒小于對照組,即實(shí)驗(yàn)組系統(tǒng)的重復(fù)數(shù)據(jù)吞吐量可控性恒大于對照組。
圖5 重復(fù)數(shù)據(jù)吞吐量可控性對比圖(實(shí)驗(yàn)組)Fig.5 Comparison chart of controllability of repeating data throughput(experimental group)
圖6 重復(fù)數(shù)據(jù)吞吐量可控性對比圖(對照組)Fig.6 Comparison chart of controllability of repeating data throughput(contrast group)
完成系統(tǒng)重復(fù)數(shù)據(jù)吞吐量可控性對比后,令實(shí)驗(yàn)組、對照組計(jì)算機(jī)同時(shí)處理總量為5.0×104KB的重復(fù)數(shù)據(jù),分別記錄兩組相似判斷處理的完成時(shí)間。具體實(shí)驗(yàn)情況如圖7,圖8所示。
圖7 相似判斷完成時(shí)間對比圖(實(shí)驗(yàn)組)Fig.7 Comparison chart of completion time of similarity judgment(experimental group)
圖8 相似判斷完成時(shí)間對比圖(對照組)Fig.8 Comparison chart of completion time of similarity judgment(contrast group)
分析圖7可知,實(shí)驗(yàn)組相似判斷處理的完成時(shí)間最大值出現(xiàn)在重復(fù)數(shù)據(jù)總量為4.0×104KB的時(shí)刻,該值的變化范圍保持在8~10 min之間。分析圖8可知,對照組相似判斷處理的完成時(shí)間最大值出現(xiàn)在重復(fù)數(shù)據(jù)總量為4.0×104KB和5.0×104KB的時(shí)刻,該值的變化范圍保持在16~18 min之間。由此可得,實(shí)驗(yàn)組系統(tǒng)相似判斷的完成時(shí)間恒小于對照組。
基于關(guān)聯(lián)規(guī)則海量重復(fù)數(shù)據(jù)消除系統(tǒng)在保持傳統(tǒng)系統(tǒng)優(yōu)勢的情況下,針對存在的問題進(jìn)行有效改進(jìn)設(shè)計(jì)。對比實(shí)驗(yàn)數(shù)據(jù)顯示,新型系統(tǒng)確實(shí)比傳統(tǒng)系統(tǒng)具備更強(qiáng)的實(shí)用性。