亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于哈希計算的大數(shù)據(jù)冗余消除算法設(shè)計

        2021-12-23 12:24:46張淑清
        微型電腦應(yīng)用 2021年12期
        關(guān)鍵詞:方法

        張淑清

        (廣西警察學(xué)院 交通管理工程學(xué)院,廣西 南寧 530022)

        0 引言

        當(dāng)前由于大數(shù)據(jù)系統(tǒng)中冗余數(shù)據(jù)的緩存量較大,在系統(tǒng)中占據(jù)了較大的存儲空間,且數(shù)據(jù)的總體冗余率已超過80%[1-2],因此亟需尋求一種有效方法消除重復(fù)數(shù)據(jù)。對于大數(shù)據(jù)的去重操作有利于降低系統(tǒng)的運維成本和消耗,使系統(tǒng)運行過程中對于網(wǎng)絡(luò)帶寬的占用量降低,但目前的冗余數(shù)據(jù)消除技術(shù)仍面臨巨大的問題,如數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜、數(shù)據(jù)相似性較高以及數(shù)據(jù)類型多樣等,同時還需要注意冗余數(shù)據(jù)消除的吞吐量和冗余數(shù)據(jù)消除率這兩個沖突的目標(biāo)[3]。

        目前已有相關(guān)領(lǐng)域的研究學(xué)者對存儲系統(tǒng)中的數(shù)據(jù)去重技術(shù)進(jìn)行了相關(guān)研究。文獻(xiàn)[4]以多節(jié)點樣條理論為基礎(chǔ),提出了數(shù)據(jù)自適應(yīng)快速去重方法。該方法首先提取了冗余數(shù)據(jù)特征,根據(jù)冗余數(shù)據(jù)的線性頻譜對其進(jìn)行分類。通過節(jié)點樣條理論降低分類過程中出現(xiàn)的偏差。建立小波函數(shù)消除數(shù)據(jù)中噪聲,設(shè)計快速消除冗余數(shù)據(jù)的方法,其去重復(fù)速度較快,但重復(fù)率消除效果還需要進(jìn)一步研究。文獻(xiàn)[5]提出存儲數(shù)據(jù)中重復(fù)數(shù)據(jù)去冗余方法。以霧節(jié)點中訪問頻率較高數(shù)據(jù)作為測試數(shù)據(jù),引入循環(huán)冗余碼技術(shù)實時數(shù)據(jù)塊是否重復(fù)。若判斷結(jié)果為數(shù)據(jù)重復(fù),則將重復(fù)數(shù)據(jù)置于鏈表結(jié)構(gòu)中,并加以去除,完成符合霧節(jié)點實際情況的數(shù)據(jù)去冗余方法的設(shè)計。雖然數(shù)據(jù)存儲成本較低,但冗余去重率不理想,且網(wǎng)絡(luò)資源集合中仍存在部分冗余數(shù)據(jù)。

        為此,提出基于哈希計算的大數(shù)據(jù)冗余消除算法。在數(shù)據(jù)去重前計算冗余數(shù)據(jù)的權(quán)重值,根據(jù)權(quán)重值區(qū)分出訪問量較高的數(shù)據(jù),結(jié)合哈希法進(jìn)行冗余數(shù)據(jù)的判斷與消除。既提高了冗余數(shù)據(jù)的消除率又保證了數(shù)據(jù)吞吐量,解決了大數(shù)據(jù)存儲系統(tǒng)中冗余數(shù)據(jù)的消除過程中吞吐量與冗余數(shù)據(jù)消除率之間的沖突問題。

        1 大數(shù)據(jù)資源冗余數(shù)據(jù)消除

        1.1 數(shù)據(jù)分類

        針對復(fù)雜數(shù)據(jù)以及相似度較高的數(shù)據(jù),為降低去重的時間和能源消耗,需要在消除冗余數(shù)據(jù)前針對樣本數(shù)據(jù)進(jìn)行分類。

        計算大數(shù)據(jù)存儲系統(tǒng)中樣本數(shù)據(jù)的權(quán)重值,以此反映樣本數(shù)據(jù)在數(shù)據(jù)集中的邊緣程度。具體計算過程如式(1)。

        (1)

        式中,k為該數(shù)據(jù)中虛擬節(jié)點個數(shù);zi為第i個數(shù)據(jù)字符串長度;xi為樣本數(shù)據(jù)中第i個數(shù)據(jù)的被訪問頻率;λ為虛擬節(jié)點鍵值。根據(jù)權(quán)重值實現(xiàn)大規(guī)模數(shù)據(jù)的類別劃分,劃分類別數(shù)c如式(2)。

        (2)

        式中,?j為數(shù)據(jù)冗余度閾值,以此將訪問頻率較高的數(shù)據(jù)劃分到單獨的類別之中,完成了數(shù)據(jù)的分類。

        1.2 冗余數(shù)據(jù)消除

        基于數(shù)據(jù)的分類結(jié)果,進(jìn)行高訪問頻率數(shù)據(jù)中冗余數(shù)據(jù)的判斷與消除處理。為提高算法的運算速度,通過哈希法[6-8]計算數(shù)據(jù)塊的哈希值,具體計算內(nèi)容如式(3)。

        (3)

        式中,H表示固定長度的哈希值;G表示哈希函數(shù),該式可提升重復(fù)的數(shù)據(jù)塊的判斷速度。

        為提高去重效果,通過計算數(shù)據(jù)的散列值,判斷數(shù)據(jù)之間的相似性,定理描述如式(4)。

        (4)

        式中,U表示數(shù)據(jù)散列值;S(Q)表示冗余數(shù)據(jù)集;數(shù)據(jù)的相似性為R。當(dāng)集合相似性為70%時,說明在該集合中有70%的數(shù)據(jù)在同一位置是具有相同屬性的。

        由此,針對相似數(shù)據(jù)中的冗余數(shù)據(jù)提取可通過式(5)實現(xiàn)。

        (5)

        其中,bi代表相似程度最高的數(shù)據(jù);P為數(shù)據(jù)集內(nèi)部離散值。

        除相似數(shù)據(jù)的去重問題外,還需實現(xiàn)復(fù)雜數(shù)據(jù)中的冗余消除,因此需要計算該相似數(shù)據(jù)集合中的熵,如式(6)。

        (6)

        式中,si為結(jié)構(gòu)復(fù)雜度最高的數(shù)據(jù)節(jié)點;α為數(shù)據(jù)量大小。

        融合式(5)的數(shù)據(jù)相似度運算與式(6)的數(shù)據(jù)復(fù)雜度運算可得到去除冗余數(shù)據(jù)后的存儲系統(tǒng)數(shù)據(jù)輸出為式(7)。

        (7)

        由此,降低了信息集合相似度以及熵值,實現(xiàn)了網(wǎng)絡(luò)資源中冗余數(shù)據(jù)的消除。

        1.3 算法執(zhí)行步驟設(shè)計

        有效消除冗余數(shù)據(jù)可以減少數(shù)據(jù)所占內(nèi)存,從而有效提高存儲空間利用效率,避免由于系統(tǒng)故障造成數(shù)據(jù)損失。所提算法的具體執(zhí)行步驟如圖1所示。

        圖1 消除冗余數(shù)據(jù)執(zhí)行示意圖

        根據(jù)圖1可知,基于哈希計算的大數(shù)據(jù)冗余消除算法,無需頻繁計算數(shù)據(jù)的特征值,可利用現(xiàn)有數(shù)據(jù)進(jìn)行數(shù)據(jù)塊之間的相似性與熵值的檢測,消除大數(shù)據(jù)中的冗余重復(fù)數(shù)據(jù),減少數(shù)據(jù)占用的存儲空間。

        2 實驗設(shè)計與結(jié)果分析

        2.1 實驗環(huán)境與數(shù)據(jù)準(zhǔn)備

        實驗過程所需裝置為處理機(jī)3臺、存儲服務(wù)器1臺、備份服務(wù)器1臺。硬件配置有20GB存儲內(nèi)存、E5606微處理器、15TB磁盤陣列、150GB閃存、Ubuntu12.05操作系統(tǒng)。不同設(shè)備之間的連接通過百兆交換機(jī)實現(xiàn),具體實驗環(huán)境如表1所示。

        表1 實驗環(huán)境設(shè)置

        根據(jù)表1所示實驗環(huán)境,對實驗數(shù)據(jù)展開分析。

        實驗所用數(shù)據(jù)集文件共10個,總大小為130GB,依次對網(wǎng)絡(luò)資源進(jìn)行命名為:DA-1,DA-2,DA-3,DA-4,DA-5,DA-6,DA-7,DA-8,DA-9,DA-10,其大小依次為:2.05 GB、4GB、5.6GB、7.8GB、9.2GB、12.3GB、15.7GB、19.5GB、23.8 GB、30.05 GB。分別采用文獻(xiàn)[4]算法,文獻(xiàn)[5]算法與所提算法對該數(shù)據(jù)資源進(jìn)行去重,將3種方法的去重效果進(jìn)行對比分析,并獲取驗證結(jié)果。

        2.2 存儲空間占用對比

        冗余數(shù)據(jù)消除的主要目的在于減少數(shù)據(jù)占有的存儲系統(tǒng)空間內(nèi)存,因此需要對比不同算法對大數(shù)據(jù)中的冗余數(shù)據(jù)進(jìn)行消除后,存儲系統(tǒng)空間的占用量,以此作為評價去重算法運算效果的標(biāo)準(zhǔn)。對比結(jié)果如圖2所示。

        圖2 3種算法去重后的系統(tǒng)存儲空間對比

        由圖2可知,通過3種方法去重后,文獻(xiàn)[4]算法的剩余數(shù)據(jù)在存儲系統(tǒng)中占據(jù)的空間最大,次之為文獻(xiàn)[5]算法,最后為所提方法,剩余數(shù)據(jù)占用系統(tǒng)存儲空間非常小,這是由于所提方法中采用的哈希計算方法根據(jù)數(shù)據(jù)相似度對冗余數(shù)據(jù)進(jìn)行識別和消除,可以區(qū)分出數(shù)據(jù)間的細(xì)微差別,對冗余數(shù)據(jù)的識別度更高。

        2.3 網(wǎng)絡(luò)帶寬對比

        網(wǎng)絡(luò)帶寬占用量是評價系統(tǒng)性能的重要指標(biāo),高性能的系統(tǒng)所占用的網(wǎng)絡(luò)帶寬較低。為此,對比3種方法運算過程中所占用的網(wǎng)絡(luò)帶寬。具體對比結(jié)果如圖3所示。

        圖3 3種算法所占用的的網(wǎng)絡(luò)帶寬對比

        由圖3可知,文獻(xiàn)[4]算法所占用的網(wǎng)絡(luò)帶寬最大,次之是文獻(xiàn)[5]算法。帶寬占用量最低的是所提算法。這是由于所提算法中通過哈希算法生成虛擬節(jié)點,將數(shù)據(jù)映射到Hash中進(jìn)行判斷和消除處理,對服務(wù)器網(wǎng)絡(luò)的占用較少。

        2.4 冗余數(shù)據(jù)去重率對比

        為了進(jìn)一步說明所提算法的去重效果,對比不同數(shù)據(jù)塊下文獻(xiàn)[4]算法、文獻(xiàn)[5]算法與所提算法對大數(shù)據(jù)資源的冗余數(shù)據(jù)去重率,結(jié)果如表2所示。

        由表2可知,多用戶備份情況下,所提算法最高去重率可達(dá)到99%,而另2種對比算法最高去重率可達(dá)到57%;單用戶備份情況下,所提算法最高去重率可達(dá)到99%,而傳統(tǒng)算法最高去重率可達(dá)到90%。由于所提算法具有針對復(fù)雜數(shù)據(jù)結(jié)構(gòu)的識別能力,通過計算并降低數(shù)據(jù)的熵值,突出相似度較高的數(shù)據(jù)。因此,所提算法無論在多用戶還是單用戶備份模式下,都具有較高去重率。

        表2 3種方法冗余數(shù)據(jù)去重率

        2.5 吞吐量對比

        分析數(shù)據(jù)去重率方面的對比結(jié)果可知所提方法具有較好的去重效果,但由于冗余數(shù)據(jù)的去重效果與數(shù)據(jù)吞吐量是相互沖突的,若數(shù)據(jù)去重率較高則會影響數(shù)據(jù)的去重速度。因此,需要驗證所提算法的數(shù)據(jù)吞吐量。具體對比結(jié)果如表3所示。

        根據(jù)表3所示,所提算法的數(shù)據(jù)吞吐量最高可達(dá)26 MB/s,而文獻(xiàn)[4]算法與文獻(xiàn)[5]算法的數(shù)據(jù)吞吐量較低,最高為16 MB/s。這是由于所提方法不需要反復(fù)提取數(shù)據(jù)的特征點,可直接針對數(shù)據(jù)的相似度進(jìn)行計算,且在數(shù)據(jù)去重前,進(jìn)行了數(shù)據(jù)預(yù)分類操作,提升了運算效率。

        表3 3種方法冗余數(shù)據(jù)吞吐量

        3 總結(jié)

        基于哈希計算的大數(shù)據(jù)冗余消除算法實現(xiàn)了不同用戶之間的數(shù)據(jù)去重,能夠提取出復(fù)雜數(shù)據(jù)與相似度較高數(shù)據(jù)中的冗余數(shù)據(jù)塊,在保證去重率的同時提升了數(shù)據(jù)的吞吐量,證明所提方法具有一定的可行性。

        雖然冗余消除的效果較好,但該方法仍存在需要改進(jìn)的地方,在實現(xiàn)全局冗余數(shù)據(jù)消除方面只能在網(wǎng)絡(luò)資源備份過程中實施,具有一定風(fēng)險性,因此下一步可以充分考慮實現(xiàn)基于全局冗余數(shù)據(jù)消除功能。

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲欧美精品aaaaaa片| 蜜臀av毛片一区二区三区| 妺妺跟我一起洗澡没忍住 | 无码a∨高潮抽搐流白浆| 国产成人精品日本亚洲语音1| 日本久久一区二区三区高清| 亚洲av乱码二区三区涩涩屋| 欧美色欧美亚洲另类二区| 色一情一乱一伦一区二区三欧美 | 69天堂国产在线精品观看| 99热婷婷一区二区三区| 日本一本免费一二区| 日韩人妻无码免费视频一区二区三区| 日韩精品国产自在欧美| 美女性色av一区二区三区| 欧美精品欧美人与动人物牲交 | 久久久精品国产视频在线| 91色区在线免费观看国产| 国产99在线 | 亚洲| 波多野结衣视频网址| 亚洲免费看三级黄网站| 国产一区二区视频免费在| 久久露脸国产精品| 久久国产乱子伦精品免费强| 亚洲国产综合一区二区| 亚洲色偷偷偷综合网| 竹菊影视欧美日韩一区二区三区四区五区| 亚洲伦理一区二区三区| 综合亚洲二区三区四区在线| 国产精品美女久久久久av福利| 亚洲香蕉成人AV网站在线观看 | 亚洲图片自拍偷图区| 国产一区二区三区在线观看免费| 国产精品久久久久亚洲| 亚洲精品第四页中文字幕 | 久久久极品少妇刺激呻吟网站| 国产精品免费精品自在线观看| 精品久久久久中文字幕APP| 国产av剧情精品麻豆| 亚洲av无码乱码在线观看裸奔 | 国产一卡2卡3卡四卡国色天香 |