亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        頻率評(píng)估平臺(tái)系統(tǒng)優(yōu)化的研究

        2018-04-13 03:47:48譚光林
        數(shù)字通信世界 2018年2期
        關(guān)鍵詞:分區(qū)集群編碼

        趙 哲,譚光林

        (國(guó)家無線電監(jiān)測(cè)中心,北京 100037)

        1 引言

        根據(jù)我中心現(xiàn)有的大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu),基于2016年頻率使用評(píng)估工作中出現(xiàn)的系統(tǒng)響應(yīng)速度較慢、存儲(chǔ)空間不足等問題,我們希望通過對(duì)Hadoop 以及其他大數(shù)據(jù)生態(tài)環(huán)境中的最新技術(shù)進(jìn)行研究,結(jié)合現(xiàn)存的體系架構(gòu),對(duì)系統(tǒng)就行改進(jìn),從而提高系統(tǒng)運(yùn)行效率,改善系統(tǒng)計(jì)算性能。

        2 目前架構(gòu)

        現(xiàn)有的頻率使用評(píng)估平臺(tái)主要采用了Hadoop2.0 大數(shù)據(jù)平臺(tái)生態(tài)系統(tǒng)中的組件。數(shù)據(jù)存儲(chǔ)方面采用HDFS+Kudu,系統(tǒng)管理和調(diào)度采用YARN,實(shí)時(shí)計(jì)算方面采用Spark+Kaf ka,數(shù)據(jù)查詢采用Impala 等,相關(guān)的模塊都是較為穩(wěn)定的正式版本。隨著Hadoop2.0的進(jìn)一步發(fā)展,Hadoop3.0版本的推出,在數(shù)據(jù)的存儲(chǔ),資源調(diào)度等方面陸續(xù)出現(xiàn)了一些更加先進(jìn)的模塊,如用于進(jìn)行數(shù)據(jù)存儲(chǔ)的ORC和Parquet等。

        除大數(shù)據(jù)平臺(tái)的處理模塊外,頻率使用評(píng)估本身數(shù)據(jù)處理的過程中涉及到信道占用度、頻段占用度、信號(hào)覆蓋率等性能指標(biāo)的計(jì)算和查詢,涉及到大量和SQL相關(guān)的操作。從平臺(tái)優(yōu)化的角度出發(fā),我們也在考慮是否可以對(duì)這些相關(guān)的數(shù)據(jù)操作進(jìn)行一定程度的優(yōu)化,從而提高系統(tǒng)的響應(yīng)速度。

        3 現(xiàn)狀分析

        鑒于本身平臺(tái)的硬件構(gòu)架方式和硬件采購成本已經(jīng)決定了當(dāng)前的硬件能夠繼續(xù)升級(jí),但系統(tǒng)處理能力無法持續(xù)線性增加,所以平臺(tái)優(yōu)化的主要集中在對(duì)大數(shù)據(jù)平臺(tái)的模塊和相關(guān)指標(biāo)算法方面。

        對(duì)于大數(shù)據(jù)平臺(tái)的模塊,目前的工作思路是考慮對(duì)相關(guān)的模塊進(jìn)行替換,搭建實(shí)驗(yàn)環(huán)境,進(jìn)行樣本數(shù)據(jù)運(yùn)算,得出實(shí)驗(yàn)結(jié)果,從而得出是否有更適合頻率使用評(píng)估工作采用的數(shù)據(jù)處理模塊。如當(dāng)前的存儲(chǔ)模塊采用的是Kudu,可通過使用ORC和Parquet進(jìn)行相應(yīng)的替換。

        對(duì)于相關(guān)性能指標(biāo)的算法,可以考慮通過對(duì)SQL語句和優(yōu)化,以及對(duì)于算法本身的相關(guān)研究,實(shí)現(xiàn)性能的提高,具體需要研究的算法,會(huì)在隨后的工作中具體明確的提出。

        4 最新技術(shù)

        頻譜使用評(píng)估分析與應(yīng)用系統(tǒng)現(xiàn)由6臺(tái)服務(wù)器組成計(jì)算機(jī)集群,提供共計(jì)84T的存儲(chǔ)容量。通過2016年頻譜評(píng)估專項(xiàng)活動(dòng),各省上報(bào)原始監(jiān)測(cè)數(shù)據(jù)約31T,入庫后數(shù)據(jù)量約為62T,大約2億條記錄。采用分布式存儲(chǔ)技術(shù)、海量數(shù)據(jù)傳輸處理技術(shù)、海量數(shù)據(jù)交互式查詢技術(shù)等構(gòu)建系統(tǒng)的大數(shù)據(jù)支撐平臺(tái)及各種業(yè)務(wù)應(yīng)用。

        通過數(shù)據(jù)校驗(yàn)、數(shù)據(jù)處理、數(shù)據(jù)分析以及數(shù)據(jù)應(yīng)用及展示這四大子系統(tǒng),實(shí)現(xiàn)原始監(jiān)測(cè)數(shù)據(jù)從上報(bào)到入庫,到計(jì)算、分析,再到數(shù)據(jù)展現(xiàn)全過程的信息化,同時(shí)根據(jù)專項(xiàng)活動(dòng)中對(duì)公眾移動(dòng)通信頻段的評(píng)估工作的要求,通過統(tǒng)計(jì)圖表等方式,直觀、準(zhǔn)確地反映了頻譜使用的實(shí)際情況,為頻譜管理精細(xì)化提供決策支持。

        綜合頻率評(píng)估平臺(tái)軟硬件構(gòu)建方式,平臺(tái)的優(yōu)化可以從硬件配置、處理模塊和相關(guān)算法等三個(gè)方面進(jìn)行入手。

        圖1 Hadoop3.0生態(tài)系統(tǒng)

        從數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算兩個(gè)方面入手,我們對(duì)Hadoop3.0生態(tài)圈中的最新技術(shù)進(jìn)行了篩選和考察,從中挑選出了部分適合現(xiàn)有平臺(tái)采用的技術(shù)。接下來重點(diǎn)介紹我們實(shí)驗(yàn)環(huán)境中會(huì)用到的相關(guān)技術(shù)手段,并進(jìn)行初步的對(duì)比。

        ⊙ 在Hadoop3.0中實(shí)現(xiàn)的Integrating Erasure Coding備份方式在實(shí)現(xiàn)了傳統(tǒng)Erasure Coding 備份的基礎(chǔ)上,提高了磁盤空間的利用率。例如:一個(gè)提供3倍冗余的的文件備份,假如每個(gè)文件需要6個(gè)數(shù)據(jù)塊進(jìn)行存儲(chǔ)的話,那么需要6*3=18個(gè)磁盤塊,而如果采用Interating EC的方式,實(shí)現(xiàn)相同3倍冗余備份,只需要9個(gè)磁盤塊。

        ⊙ Kudu是Cloudera開發(fā)的存儲(chǔ)系統(tǒng),其整體應(yīng)用模式和HBase比較接近,即支持行級(jí)別的隨機(jī)讀寫,并支持批量順序檢索功能。

        ⊙ Parquet是面向分析型業(yè)務(wù)的列式存儲(chǔ)格式。列存儲(chǔ)可以跳過不符合條件的數(shù)據(jù),只讀取需要的數(shù)據(jù),降低IO數(shù)據(jù)量。壓縮編碼可以降低磁盤存儲(chǔ)空間。

        ⊙ ORC(OptimizedRC File)存儲(chǔ)源自于RC(Record Columnar File)這種存儲(chǔ)格式,RC是一種列式存儲(chǔ)引擎,對(duì)schema演化(修改schema需要重新生成數(shù)據(jù))支持較差,而ORC是對(duì)RC改進(jìn),但它仍對(duì)schema 演化支持較差,主要是在壓縮編碼,查詢性能方面做了優(yōu)化。

        ⊙ Storm是一個(gè)免費(fèi)并開源的分布式實(shí)時(shí)計(jì)算系統(tǒng)。利用Storm可以很容易做到可靠地處理無限的數(shù)據(jù)流,像Hadoop批量處理大數(shù)據(jù)一樣,Storm可以實(shí)時(shí)處理數(shù)據(jù)。

        ⊙ Spark是一個(gè)基于內(nèi)存計(jì)算的開源的集群計(jì)算系統(tǒng),目的是讓數(shù)據(jù)分析更加快速。Spark 是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越。換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。

        5 優(yōu)化實(shí)驗(yàn)

        接下來我們進(jìn)行了三次模擬環(huán)境下的數(shù)據(jù)存儲(chǔ)和計(jì)算實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)流程如下:

        實(shí)驗(yàn)環(huán)境:

        ⊙ 主機(jī)數(shù)量 10臺(tái),其中臺(tái)式電腦8臺(tái),筆記本2臺(tái)。

        ⊙ 所有主機(jī)統(tǒng)一接入到一臺(tái)路由器,配置相應(yīng)的IP網(wǎng)段,進(jìn)行互聯(lián)互通。

        實(shí)驗(yàn)流程:

        ⊙ 試驗(yàn)環(huán)境搭建。

        ⊙ 相應(yīng)組件安裝。

        ⊙ 測(cè)試數(shù)據(jù)導(dǎo)入。

        ⊙ 測(cè)試?yán)龍?zhí)行。

        ⊙ 實(shí)驗(yàn)結(jié)果采集。

        5.1 EC校驗(yàn)

        目前我們的頻率評(píng)估系統(tǒng)采用了主流的Hadoop2.0中RAID存儲(chǔ)和備份方式,也就是在數(shù)據(jù)保護(hù)方面采取了傳統(tǒng)的Erasure Coding的方式,我們希望通過本實(shí)驗(yàn),可以達(dá)到未來能夠?qū)⑾到y(tǒng)的存儲(chǔ)備份方式升級(jí)提高到Integrat ing Erasure Coding的模式下,從而提高系統(tǒng)的存儲(chǔ)備份率。

        5.2 Parquet、Kudu和HBase等的對(duì)比實(shí)驗(yàn)

        目前我們的頻率評(píng)估系統(tǒng)采用了Kudu作為數(shù)據(jù)的存儲(chǔ)系統(tǒng),我們希望通過本實(shí)驗(yàn),測(cè)試在相同數(shù)據(jù)條件下,是否可以通過ORC或者Parquet來進(jìn)一步提高數(shù)據(jù)的查找和計(jì)算速度,從而提高系統(tǒng)的整體性能。

        5.3 Impala,Kudu,Presto和Spark的計(jì)算和對(duì)比

        目前我們的頻率評(píng)估系統(tǒng)采用了Spark+Impala 的方式在進(jìn)行上層的數(shù)據(jù)處理和任務(wù)分解。希望通過本實(shí)驗(yàn),測(cè)試在相同數(shù)據(jù)條件下,未來如果數(shù)據(jù)的采集方式發(fā)生改變,是否可以通過Stream組件提供流式計(jì)算處理能力。

        6 實(shí)驗(yàn)結(jié)果

        6.1 EC實(shí)驗(yàn)分析

        經(jīng)過實(shí)驗(yàn)測(cè)試,我們得到實(shí)驗(yàn)結(jié)果見表1:

        EC技術(shù)的優(yōu)勢(shì)確實(shí)明顯,但是它的使用也是需要一些代價(jià)的,一旦數(shù)據(jù)需要恢復(fù),EC會(huì)造成兩大資源的消耗。

        表1 存儲(chǔ)實(shí)驗(yàn)

        ⊙ 網(wǎng)絡(luò)帶寬的消耗,因?yàn)閿?shù)據(jù)恢復(fù)需要去讀其他的數(shù)據(jù)塊和校驗(yàn)塊。

        ⊙ 進(jìn)行編碼,解碼計(jì)算需要消耗CPU資源。

        綜合考慮,在需要進(jìn)行數(shù)據(jù)恢復(fù)時(shí),EC既耗網(wǎng)絡(luò)又耗CPU,從實(shí)際環(huán)境部署的角度來分析,代價(jià)也較高。所以將此技術(shù)用于線上服務(wù)可能會(huì)不夠穩(wěn)定,最好的選擇是用于冷數(shù)據(jù)集群:

        ⊙ 冷數(shù)據(jù)集群往往有大量的長(zhǎng)期沒有被訪問的數(shù)據(jù),體量確實(shí)很大,采用EC技術(shù),可以大大減少副本數(shù)。

        ⊙ 冷數(shù)據(jù)集群基本穩(wěn)定,耗資源量少,所以一旦進(jìn)行數(shù)據(jù)恢復(fù),將不會(huì)對(duì)集群造成大的影響。

        出于上述二種原因,冷數(shù)據(jù)集群無非是一個(gè)很好的選擇。

        6.2 Parquet、Kudu和HBase等的對(duì)比實(shí)驗(yàn)

        6.2.1 空間利用

        根據(jù)測(cè)量結(jié)果,利用Kudu和Parquet編碼的數(shù)據(jù)提供了最佳的壓縮率。與使用MapFiles的原始數(shù)據(jù)集編碼相比,使用類似Snappy或GZip之類的壓縮算法可以進(jìn)一步顯著減少數(shù)據(jù)量達(dá)10倍。由于HBase存儲(chǔ)數(shù)據(jù)的方式是一個(gè)空間效率較低的解決方案,雖然HBase塊的壓縮給出相當(dāng)好的比率,但是與Kudu和Parquet相比差距仍然較大。

        6.2.2 提取速度

        由于Apache Impala執(zhí)行數(shù)據(jù)重構(gòu)以串行寫入單個(gè)HDFS目錄(Hive分區(qū)),因此對(duì)于HDFS格式和HBase或Kudu的格式,可以直接比較單個(gè)數(shù)據(jù)分區(qū)擷取效率。使用Avro或Parquet編碼寫入的HDFS 文件比存儲(chǔ)引擎(如HBase和Kudu)提供了更好的結(jié)果(至少5倍)。

        使用Avro或Parquet編碼寫入的HDFS文件比存儲(chǔ)引擎(例如HBase和Kudu)提供了更好的結(jié)果(至少5倍)。由于Avro具有最輕量的編碼器,因此其實(shí)現(xiàn)了最好的擷取性能。

        另一方面,在這個(gè)測(cè)試中HBase非常慢(性能比Kudu差)。這很可能是由于行鍵的長(zhǎng)度(6個(gè)并置列)引起的,其平均約為60個(gè)字節(jié)。HBase必須為一行中的每一列分別編碼一個(gè)鍵,這對(duì)于長(zhǎng)記錄(包含許多列)可能不是最佳的方法。

        6.2.3 隨機(jī)數(shù)據(jù)查找延遲

        當(dāng)通過記錄鍵訪問數(shù)據(jù)時(shí),因?yàn)槭褂昧藘?nèi)置索引,Kudu和HBase的訪問速度是最快的。圖上的值都是基于冷緩存(cold cache)進(jìn)行測(cè)量。

        使用Apache Impala進(jìn)行隨機(jī)查找測(cè)試對(duì)于Kudu和HBase來說是次優(yōu)選擇,因?yàn)樵谡嬲龍?zhí)行查詢(計(jì)劃、代碼生成等)之前耗費(fèi)了大量的時(shí)間—通常大約是200ms。因此,對(duì)于低延遲數(shù)據(jù)訪問,建議跳過Impala并使用專用API(我們也嘗試過這種方法,Kudu和HBase的結(jié)果類似:冷緩存小于200ms,預(yù)熱緩存小于80ms)。

        與Kudu和HBase相反,檢索以Avro格式存儲(chǔ)的單個(gè)記錄中的數(shù)據(jù)只能在對(duì)整個(gè)數(shù)據(jù)分區(qū)的強(qiáng)力掃描中完成(需要注意的是 – 數(shù)據(jù)由記錄鍵的一部分進(jìn)行分區(qū),因此針對(duì)這種情況應(yīng)用分區(qū)修剪技術(shù))。平均分區(qū)的大小為GB級(jí),因此獲取所需的記錄需要耗費(fèi)幾秒鐘的時(shí)間(取決于IO吞吐量),并使用大量的集群資源。這最終減少了必須在集群上全速執(zhí)行的并發(fā)查詢的數(shù)量。

        同樣的問題也適用于Parquet,然而,Parquet格式的柱狀特性允許相對(duì)快速地執(zhí)行分區(qū)掃描。由于列投影和列謂詞的下推,掃描輸入集的大小最終從數(shù)GB減少到只有幾MB(非常高效,56列經(jīng)過掃描后只剩下3列)。

        6.2.4 數(shù)據(jù)掃描速率

        由于通過應(yīng)用列投影輸入集數(shù)量減少,Parquet 在此測(cè)試中勝過了Avro。Parquet不僅在每?jī)?nèi)核處理速率方面保持了最高效率,同時(shí)也在完成處理方面保持最快速度。在Parquet和Avro的情況下,數(shù)據(jù)訪問并行化的單位是HDFS文件塊,其很容易在Hadoop集群上的所有可用資源上均勻分布處理。

        在掃描效率方面,Kudu(采用Snappy壓縮)與Parquet相差不大。因?yàn)榱型队?,其受益匪淺。

        由于數(shù)據(jù)訪問并行化的單位是表分區(qū),掃描存儲(chǔ)在Kudu和HBase中的數(shù)據(jù)可能不平衡。因此,掃描中涉及的資源量取決于給定表分區(qū)的數(shù)量及其在集群中的分布。

        在這個(gè)測(cè)試案例中,因?yàn)镵udu不支持謂詞,所以不可能使用Kudu的本地謂詞下推功能。附加測(cè)試結(jié)果證明,當(dāng)使用支持的謂詞時(shí),Kudu掃描速度比Parquet更快。

        在使用HBase進(jìn)行測(cè)試之前,掃描的列在專用HBase列族中被分離,這就提高了5倍的掃描效率。但仍然與Parquet或Kudu存在較大差距。

        6.3 Impala,Kudu,Presto和Spark的計(jì)算和對(duì)比實(shí)驗(yàn)分析

        6.3.1 計(jì)算引擎速度對(duì)比

        表2 計(jì)算速度實(shí)驗(yàn)一

        表3 計(jì)算速度實(shí)驗(yàn)二

        表4 計(jì)算速度實(shí)驗(yàn)三

        表5 計(jì)算速度實(shí)驗(yàn)五

        表6 計(jì)算速度實(shí)驗(yàn)六

        6.3.2 存儲(chǔ)格式速度對(duì)比

        表7 存儲(chǔ)速度實(shí)驗(yàn)一

        表8 存儲(chǔ)速度實(shí)驗(yàn)二

        表9 存儲(chǔ)速度實(shí)驗(yàn)三

        [1] Zikopoulos,Paul,and Chris Eaton.Understanding big data:Analytics for enterprise class hadoop and streaming data.McGraw-Hill Osborne Media,2011.

        [2] White,Tom.Hadoop :The definitive guide.” O’Reilly Media,Inc.”,2012.

        [3] Gray,S.,et al.”IBM Big SQL 3.0 :SQL-on-Hadoop without compromise.”(2014).

        [4] Masur,Rohit G.,and Suzanne K.Mcintosh.”Preliminary performance analysis of Hadoop 3.0.0-alpha3.” Scientific Data Summit(NYSDS),2017 New York.IEEE,2017.

        [5] Vidhyavathi,P.“A Review On Hadoop :Privacy For A Multi-Skyline Queries With Map Reduce.” IJSEAT 5.10(2017):1004-1007.

        猜你喜歡
        分區(qū)集群編碼
        上海實(shí)施“分區(qū)封控”
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
        Genome and healthcare
        一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        浪莎 分區(qū)而治
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        勤快又呆萌的集群機(jī)器人
        国产精品原创av片国产日韩| 久久久久亚洲av无码专区首| 成年女人免费视频播放体验区| 国产人妖视频一区二区| 无码伊人久久大蕉中文无码 | 免费精品美女久久久久久久久久| 69精品人妻一区二区| 人妻少妇中文字幕在线观看| 无码人妻久久一区二区三区免费 | 人妻体内射精一区二区三四| 色94色欧美sute亚洲线路二| 无码久久精品蜜桃| 一区二区三区亚洲视频| 3d动漫精品啪啪一区二区免费| 国产精品揄拍100视频| 国产高清一区在线观看| 亚洲国产中文字幕精品| 免费无码毛片一区二区app| 欧美激情五月| 尤物成av人片在线观看| 日本三级香港三级人妇99| 久久老子午夜精品无码怎么打| 中文字幕天天躁日日躁狠狠| 少妇被啪出水在线视频| 亚洲第一最快av网站| 精精国产xxxx视频在线| 亚洲视频不卡免费在线| 视频在线观看一区二区三区| 男女性高爱潮免费网站| 在线观看一区二区女同| 大尺度极品粉嫩嫩模免费| 国产精品无码无在线观看| 9999毛片免费看| 亚洲天堂av中文字幕| 亚洲精品乱码久久久久久不卡| 男人和女人高潮免费网站| 日本一区二区亚洲三区| 蜜桃视频网站在线观看一区| 欧洲女人性开放免费网站| 99精品久久久中文字幕| 性感美女脱内裤无遮挡|