亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HBase分布式數(shù)據(jù)庫海量數(shù)據(jù)序列存儲優(yōu)化

        2021-03-08 10:14:32鄧杰銘王榆心張柯匯王彥青賓茂梨
        科學與財富 2021年4期
        關(guān)鍵詞:協(xié)處理器

        鄧杰銘 王榆心 張柯匯 王彥青 賓茂梨

        摘 要:針對海量數(shù)據(jù)分布式序列數(shù)據(jù)量大、增長速度快、序列重復性高等特點,結(jié)合HBase分布式數(shù)據(jù)庫的相關(guān)理論和技術(shù)提出并實現(xiàn)了一套基于HBase的海量數(shù)據(jù)分布式序列存儲方案。該方案設(shè)計了基于分布式數(shù)據(jù)分類碼的預(yù)分區(qū)和行鍵優(yōu)化策略,解決了服務(wù)器的均衡負載問題。通過構(gòu)造文件索引替代二進制碼序列實現(xiàn)了數(shù)據(jù)的高效存取。利用HBase協(xié)處理器實現(xiàn)了分布式序列記錄單次提交多表插入的功能,提升了分布式多格式存儲的效率。實驗表明,通過上述方案設(shè)計的分布式序列存儲系統(tǒng)具有良好的存儲能力和擴展性。

        關(guān)鍵詞:HBase;分布式序列;分類碼;文件索引;協(xié)處理器

        0 引言

        在海量數(shù)據(jù)存儲方案中,以hadoop[1]分布式文件系統(tǒng)hdfs為基礎(chǔ)的HBase數(shù)據(jù)庫經(jīng)過不斷的發(fā)展完善得到了更加廣泛的應(yīng)用,特別以Facebook Message 系統(tǒng)對HBase 的應(yīng)用為世界知名。HBase 本身作為谷歌公司Bigtable的開源實現(xiàn),除了具有分布式、版本化、可擴展性的特征外,它與分布式計算框架如mapreduce? 和spa-rk 等具有良好的結(jié)合性,這對于大數(shù)據(jù)量的科研工作非常便捷。本文以海量數(shù)據(jù)存儲方式作為研究對象,結(jié)合當前分布式序列文件存儲格式的特點,設(shè)計了基于HBase的分布式序列存儲系統(tǒng),利用基于數(shù)據(jù)分類碼的預(yù)分區(qū)行鍵設(shè)計策略和協(xié)處理器機制對該系統(tǒng)進行優(yōu)化,并通過實驗驗證該系統(tǒng)的可行性。

        1 系統(tǒng)設(shè)計與實現(xiàn)

        1.1 數(shù)據(jù)表設(shè)計

        對HBase表進行設(shè)計時,列族數(shù)量不宜過多,因為HBase 表的列族對應(yīng)于 HBase 物理存儲結(jié)構(gòu) Store,當Store中的memstore達到flushing閥值時會觸發(fā)所有列族的flushing操作,所以列族數(shù)量盡量控制在1到2個。根據(jù) HBase 表設(shè)計相關(guān)原則,對GBFF格式和FASTA格式應(yīng)分別建表,兩表都只設(shè)置一個列族Column Family,在設(shè)計相應(yīng)列名Column Qua-lifier時,特別針對GBFF格式文件第二部分特性FEA-TURES中包含多個子屬性的結(jié)構(gòu),列名需將FEATURES作為前綴與子屬性結(jié)合,如“FEATURES_source”這種形式,這樣可以滿足表中只存在一個列族的設(shè)計要求。

        1.2 針對序列數(shù)據(jù)的預(yù)分區(qū)和行健優(yōu)化策略

        行鍵Rowkey 是HBase 數(shù)據(jù)表的主鍵,Rowkey[2] 的唯一性標示行記錄的唯一性。由于HBase數(shù)據(jù)庫只維護了主鍵Rowkey的索引,所以對Rowkey的設(shè)計直接影響數(shù)據(jù)的查詢和整個集群的region分配,本系統(tǒng)設(shè)計方案中選取分布式序列記錄檢索號(ACCESSION)作為行鍵Rowkey的主要組成部分。在HBase中以檢索號AC-CESSION作為行鍵Rowkey,由于Rowkey的排序默認字典序升序,雖然對于scan操作效率很高,但是同樣易造成之前所述的局部熱點問題? ,因此對于每一條分布式序列記錄,提出一種結(jié)合預(yù)分區(qū)機制的行鍵生成策略。

        (1) 設(shè)預(yù)分區(qū)Region數(shù)為N,當前分布式序列所屬分類碼Division[3]下的分布式序列數(shù)據(jù)量占比為A i ,由此可得該分類碼所需的region數(shù)D i =N·A i ;

        (2) 當前分布式序列檢索號ACCESSION中的整數(shù)部分對D i 取模得到值S,將分類碼與整數(shù)值S拼接得到字符串prefix。

        (3) 對字符串prefix 做MD5哈希生成16位字符串prefixMD5,將字符串 prefixMD5 前 7 位與檢索號 AC-CESSION拼接為16位Rowkey。

        上述操作完成后即生成所需行鍵Rowkey,例如檢索號為AB000100的分布式序列,其所屬分類碼為BCT,取模值為1,對應(yīng)的Rowkey為“74378dc_ AB000100”。

        1.3 協(xié)處理器優(yōu)化

        本文利用HBase協(xié)處理器Coprocessor實現(xiàn)單次提交多表插入的功能來解決上述問題。HBase提供了一套完整的Coprocessor[4]開發(fā)接口,采用java語言封裝,主要有三種可供實現(xiàn)的協(xié)處理器:Co-processor、RegionObserver 和 Endpoint。RegionObse-rver給出了HBase表相關(guān)操作的鉤子函數(shù)。

        2實驗結(jié)果與分析

        查詢性能比較基于4臺服務(wù)器共200個并發(fā)線程的環(huán)境下進行,從表中可以看出在大數(shù)據(jù)量查詢時,優(yōu)化方案性能優(yōu)勢非常明顯.

        3 結(jié)束語

        本文針對海量數(shù)據(jù)分布式序列多年來快速增長導致的存儲維護問題,以海量數(shù)據(jù)分布式序列為研究對象,對分布式序列數(shù)據(jù)的組成結(jié)構(gòu)和當前主流的 GBFF 和FASTA序列文件存儲格式進行研究分析,結(jié)合HBase數(shù)據(jù)庫的存儲模型和HBase分布式存儲的相關(guān)特性,對分布式序列在HBase數(shù)據(jù)庫中的存儲進行多維度的優(yōu)化。實驗結(jié)果表明經(jīng)過優(yōu)化設(shè)計的分布式序列存儲方案具有更好的存儲和查詢掃描性能,同時該方案可以把分布式序列數(shù)據(jù)與基于hadoop的大數(shù)據(jù)分析工具良好地耦合,使分布式序列的研究分析更加便捷,滿足了當前云計算環(huán)境下對分布式序列數(shù)據(jù)高效存取的需求。未來的研究工作主要針對分布式序列數(shù)據(jù)的壓縮優(yōu)化和索引優(yōu)化以及對序列數(shù)據(jù)的版本控制。

        參考文獻:

        [1] 王銘,田茂,趙鑫,等.基于Hadoop平臺的數(shù)據(jù)遷移方法研究實現(xiàn)[J].計算機測量與控制,2018,26(4):225-230.

        [2] 鄭通,郭衛(wèi)斌,范貴生.HDFS中海量小文件合并與預(yù)取優(yōu)化方法的研究[J].計算機科學,2017,44(S2):516-519,541.

        [3] 樊路遙,張晶,陳小龍,等.開源大數(shù)據(jù)框架在海洋信息處理中的應(yīng)用[J].科技導報,2017,35(20):126-133.

        [4] 周華平,劉光宗,張貝貝.基于索引偏移的MapReduce聚類負載均衡策略[J].計算機科學,2018,45(5):303-309.

        [5] 丁祥武,解書亮,李繼云.基于Spark的并行ETL[J].計算機工程與設(shè)計,2017,38(9):2580-2585.

        猜你喜歡
        協(xié)處理器
        基于RISC-V 和密碼協(xié)處理器的SOC 設(shè)計
        面向異構(gòu)計算機平臺的HPL 方案?
        軟件學報(2021年8期)2021-11-09 02:45:18
        基于開源處理器Rocket 的異構(gòu)SoC 設(shè)計與驗證
        電子與封裝(2021年3期)2021-03-29 06:31:24
        異構(gòu)系統(tǒng)中的Web服務(wù)器軟件框架研究
        基于HBase分布式數(shù)據(jù)庫海量數(shù)據(jù)序列存儲優(yōu)化
        SVDU的多協(xié)處理器并行化方法研究
        空氣質(zhì)量監(jiān)測大數(shù)據(jù)區(qū)間的統(tǒng)計問題
        雙精度浮點矩陣乘協(xié)處理器研究
        可重構(gòu)分組密碼協(xié)處理器二維指令架構(gòu)
        HBase分布式二級索引通用方案研究
        軟件導刊(2018年3期)2018-03-26 02:14:46
        久久综合噜噜激激的五月天| 在线看亚洲十八禁网站| 精品亚洲乱码一区二区三区| 日本系列中文字幕99| 国产一区内射最近更新| 欧美z0zo人禽交欧美人禽交| 黄片在线观看大全免费视频| 中文字幕亚洲精品在线免费| 国产偷久久久精品专区| 成人性生交大片免费看r | 亚洲国产精品成人无码区| 久热香蕉精品视频在线播放| 国产精品午夜高潮呻吟久久av| 香蕉视频在线观看亚洲| 老熟女重囗味hdxx70星空 | 日本一区二区三区看片| 人妻少妇精品视频一区二区三区l| 亚洲av无码乱码国产精品| 亚洲中文字幕每日更新| 成人免费毛片在线播放| 国产精品国产三级国产av品爱| 中文字幕精品一区二区2021年| 亚洲熟妇乱子伦在线| 少妇久久一区二区三区| 免费a级毛片在线播放不收费| 日韩精品无码一区二区三区视频| 国产av无码专区亚洲aⅴ | 一亚洲一区二区中文字幕| 日本视频一区二区三区一| 亚洲精品无码不卡在线播放he| 丰满少妇爆乳无码专区| 亚洲性感毛片在线视频| 7777色鬼xxxx欧美色妇| 六月婷婷国产精品综合| 国产成人自拍视频在线观看网站| 亚洲啪啪视频一区二区| 亚洲av无码av制服丝袜在线| 视频二区精品中文字幕| 久久伊人精品中文字幕有尤物| 女人被狂c躁到高潮视频| 女的把腿张开男的猛戳出浆|