亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)平臺基準(zhǔn)測試標(biāo)準(zhǔn)化思考*

        2015-04-15 08:46:08陳凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師
        信息通信技術(shù)與政策 2015年2期
        關(guān)鍵詞:測試工具基準(zhǔn)標(biāo)準(zhǔn)化

        陳凱 中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

        魏凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

        周曉敏 中國聯(lián)合網(wǎng)絡(luò)通信有限公司技術(shù)部項目經(jīng)理

        大數(shù)據(jù)平臺基準(zhǔn)測試標(biāo)準(zhǔn)化思考*

        陳凱 中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

        魏凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

        周曉敏 中國聯(lián)合網(wǎng)絡(luò)通信有限公司技術(shù)部項目經(jīng)理

        大數(shù)據(jù)基準(zhǔn)測試是大數(shù)據(jù)技術(shù)和產(chǎn)品發(fā)展中不可或缺的標(biāo)尺。目前,雖然已經(jīng)有了很多的測試工具,如何將它們標(biāo)準(zhǔn)化成為業(yè)界關(guān)注的焦點。本文介紹了大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化的緊迫性,分析了大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化現(xiàn)狀和測試工具,指出了大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化所面臨的挑戰(zhàn);最后,對大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化最新進展,以及大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化下一步的發(fā)展方向進行了展望。

        大數(shù)據(jù) 基準(zhǔn)測試 Hadoop 標(biāo)準(zhǔn)化

        1 引言

        大數(shù)據(jù)是指難以用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。今天越來越多的企業(yè)認(rèn)識到,大數(shù)據(jù)的分析能力將成為競爭力的核心,企業(yè)對大數(shù)據(jù)的投資也在不斷擴大。Gartner調(diào)查顯示,73%的企業(yè)計劃在未來兩年內(nèi)投資大數(shù)據(jù)。以開源Hadoop、Spark等為基礎(chǔ)的大數(shù)據(jù)基礎(chǔ)平臺解決方案和云服務(wù)如雨后春筍不斷涌現(xiàn),形成了近200億美元的市場規(guī)模。

        然而對于很多企業(yè)用戶來說,如何評價一個大數(shù)據(jù)平臺的綜合能力,常常是系統(tǒng)設(shè)計、產(chǎn)品和服務(wù)選型、平臺建設(shè)、系統(tǒng)優(yōu)化和運維時面臨的一大挑戰(zhàn)?;仡檾?shù)據(jù)庫和服務(wù)器產(chǎn)品的發(fā)展歷史,一套公平、可重復(fù)、便于理解的測試基準(zhǔn),是推動產(chǎn)品和服務(wù)快速成熟的重要支撐。今天,大數(shù)據(jù)平臺正處在發(fā)展初期,各種新架構(gòu)、新產(chǎn)品和新服務(wù)不斷涌現(xiàn),研發(fā)、采購、驗收等環(huán)節(jié)迫切需要統(tǒng)一的衡量標(biāo)準(zhǔn)來牽引。目前來看,國內(nèi)外還缺乏一套能體現(xiàn)大數(shù)據(jù)特點,又簡便易行,且被工業(yè)界廣泛認(rèn)可的大數(shù)據(jù)平臺基準(zhǔn)測試標(biāo)準(zhǔn)。

        2 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化現(xiàn)狀

        大數(shù)據(jù)分析系統(tǒng)具有高性能、高擴展、高可用、高效能、易使用、易管理等特點,其架構(gòu)設(shè)計的復(fù)雜性使得系統(tǒng)測試也非常復(fù)雜,針對其測試的研究同其設(shè)計開發(fā)的研究相比則相對薄弱。直到2014年6月,TPC(事務(wù)處理性能協(xié)會)才發(fā)布了基準(zhǔn)測試標(biāo)準(zhǔn)TPCx-HS和配套的測試工具。TPC專門為虛擬服務(wù)器以及事務(wù)處理等機制提供客觀且不受供應(yīng)商影響的基準(zhǔn)測試解決方案。

        TPC一直認(rèn)為在制定行業(yè)的標(biāo)準(zhǔn)時,性能、持有成本和能源效率是成功的三大關(guān)鍵,因此TPCx-HS的測試重點仍然是性能驗證、性價比、功耗以及可用性。TPCx-HS能夠?qū)τ布败浖桨讣右詸z測,其中包括Hadoop運行時、Hadoop文件系統(tǒng)、API兼容系統(tǒng)以及MapReudce層等。TPCx-HS這一名稱中的“x”代表Express,即精簡之意。目前,只有Sort一種測試負(fù)載,TPCx-HS委員會認(rèn)為精簡版本的基準(zhǔn)測試能夠滿足企業(yè)級基準(zhǔn)測試需求,而且不會耗費更多時間及成本資源。TPC協(xié)會的成員思科公司已經(jīng)在其大數(shù)據(jù)系統(tǒng)上運行TPCx-HS基準(zhǔn)測試并公布了最終成績。

        而另一個國際標(biāo)準(zhǔn)測試的權(quán)威機構(gòu)SPEC(標(biāo)準(zhǔn)性能評測機構(gòu))雖然成立了大數(shù)據(jù)基準(zhǔn)測試研究組,但目前還沒有發(fā)布大數(shù)據(jù)基準(zhǔn)測試的標(biāo)準(zhǔn)。

        3 大數(shù)據(jù)基準(zhǔn)測試工具

        基準(zhǔn)測試工具在大數(shù)據(jù)系統(tǒng)研發(fā)中不可或缺。伴隨著各種平臺軟件的出現(xiàn),特別是開源大數(shù)據(jù)平臺的發(fā)展,多種針對不同框架的基準(zhǔn)測試工具也陸續(xù)出現(xiàn)。其中,除了ApacheHadoop自帶的基準(zhǔn)測試工具外,很多企業(yè)和研究機構(gòu)也發(fā)布了自己的大數(shù)據(jù)基準(zhǔn)測試工具。

        3.1 Apache Hadoop基準(zhǔn)測試工具

        Hadoop自帶了若干基準(zhǔn)評測程序,安裝開銷小、運行方便。常用的有DFSCIOTest用于測試HDFS的I/O性能;Sort程序評測MapReduce;MRbench檢驗小型作業(yè)的快速響應(yīng)能力;NNBench測試Namenode硬件的加載過程;Gridm ix可以通過模擬Hadoop Cluster中的實際負(fù)載來評測Hadoop性能。

        Hadoop自帶的基準(zhǔn)評測程序相對簡單。例如,Gridm ix所使用的用例并不能代表所有的Hadoop使用場景,缺乏CPU-Bound的用例。而現(xiàn)實應(yīng)用中,不僅存在很多I/O密集型的應(yīng)用,也存在很多CPU密集型的應(yīng)用,如聚類算法、倒排索引等;也不能模擬隨機提交作業(yè)(如按泊松分布進行提交)的應(yīng)用場景。因此,并不完全符合測試的預(yù)期。

        3.2 TPCx-HSKit

        TPC發(fā)布基準(zhǔn)測試標(biāo)準(zhǔn)TPCx-HS的同時,也發(fā)布了配套的測試工具TPCx-HSKit。

        TPCx-HS負(fù)載包含以下4個模塊:

        (1)HSGen:數(shù)據(jù)生成器,基于TeraGen。

        (2)HSDateCheck:檢查數(shù)據(jù)集和副本的符合性。(3)HSSort:數(shù)據(jù)排序,基于TeraSort。

        (4)HSValidate:排序后的數(shù)據(jù)校驗,基于Tera Validate。

        比例因子(Scale factor,SF)可以從1TB擴展到10000TB。3個主要指標(biāo)(Metrics):HSph@SF代表每小時的吞吐量、$/HSph@S代表性價比、System Availability Data代表可用性,以及一個代表功率的可選指標(biāo)Watts/HSph@SF。

        3.3 Hibench

        Intel在Hadoop基準(zhǔn)測試工具基礎(chǔ)上做了許多重要的擴展,提供了一套開源Benchmark Suite-HiBench,來對其Hadoop集群做Benchmark,并通過HiTune進行性能數(shù)據(jù)采集。HiTune是Hadoop性能分析工具,可以從每個節(jié)點上分布收集性能數(shù)據(jù),并且可以將這些數(shù)據(jù)進行匯總,生產(chǎn)圖形化的報告,讓客戶可以迅速明白哪個節(jié)點出了問題,進而迅速調(diào)整。HiBench選取的計算模型較為全面和綜合,既包含M icro Benchmarks和HDFSBenchmarks,又包含Web Search(網(wǎng)頁搜索)、MachineLearning(機器學(xué)習(xí))和DataAnalytics(數(shù)據(jù)分析)等應(yīng)用。

        3.4 YCSB

        YCSB(Yahoo Cloud Serving Benchmark)是雅虎開源的一款通用的性能測試工具,可以對各類NoSQL產(chǎn)品進行相關(guān)的性能測試,包括Bigtable、HBase、Azure、CouchDB、MongoDB等。YCSB與HBase自帶的性能測試工具(Performance Evaluation)相比,可以兼容HBase不同的版本,可以選擇進行測試的方式有:Read+W rite和Read+Scan,還可以選擇不同操作的頻度與選取Key的方式,也可以實時顯示測試的進度。

        3.5 BigBench

        BigBench是第一個基于端到端的大數(shù)據(jù)分析測試工具,它提供了非常豐富的查詢集合,涵蓋了各種復(fù)雜且真實的場景,主要用于測試并行數(shù)據(jù)庫在SQL-MR環(huán)境下的查詢能力。BigBench包含兩個關(guān)鍵的組件,即數(shù)據(jù)模型規(guī)范和負(fù)載/查詢規(guī)范。其中,結(jié)構(gòu)化數(shù)據(jù)部分主要采用TPC-DS的數(shù)據(jù)模型。BigBench包含30個查詢/負(fù)載,能夠在Hadoop平臺上執(zhí)行。

        3.6 BigDateBench

        BigDataBench是由中科院計算所開發(fā)的開源軟件,覆蓋了微基準(zhǔn)測試(M icro Benchmarks)、Cloud OLTP、關(guān)系查詢、搜索引擎、社交網(wǎng)絡(luò)和電子商務(wù)6種典型的應(yīng)用場景,包含19種不同類型的負(fù)載應(yīng)用程序和6種不同類型的數(shù)據(jù)集。

        BigDataBench還提供可以保留原始數(shù)據(jù)特性的,以小規(guī)模真實數(shù)據(jù)生成大規(guī)模數(shù)據(jù)的數(shù)據(jù)生成工具。包括文本數(shù)據(jù)、圖數(shù)據(jù)和(數(shù)據(jù)庫)表數(shù)據(jù)在內(nèi)的數(shù)據(jù)集都可以通過該生成工具生成。同時,涵蓋了完整的系統(tǒng)軟件棧,覆蓋的應(yīng)用類型包括實時分析、離線分析和在線服務(wù)應(yīng)用。

        4 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化面臨的挑戰(zhàn)

        大數(shù)據(jù)基準(zhǔn)測試工具為基準(zhǔn)測試的實施提供了基礎(chǔ)。然而,要做到可重復(fù)、可比較,還需要制定相應(yīng)的標(biāo)準(zhǔn),對測試中的預(yù)置條件、測試負(fù)載參數(shù)、測試數(shù)據(jù)和測試步驟進行詳盡的約束。

        4.1 數(shù)據(jù)生成

        數(shù)據(jù)生成是大數(shù)據(jù)基準(zhǔn)測試首先要解決的問題。由于企業(yè)通常不會公開自己的數(shù)據(jù),因此真實數(shù)據(jù)很難獲得。即使可以獲得,其數(shù)據(jù)也往往是基于特定的應(yīng)用場景,不具有普適性。而隨機生成的數(shù)據(jù),更難以體現(xiàn)應(yīng)用的特征。因此,目前常用的生成工具會采用二者結(jié)合的方式,即通過建模先從真實的數(shù)據(jù)樣本中提取應(yīng)用特征,在保持應(yīng)用特征的前提下再隨機生成測試樣本。合成數(shù)據(jù)看似很好地解決了問題,但關(guān)鍵在于提取和擴展的過程中如何保持應(yīng)用特征以及生成的速度是否足夠快。

        4.2 負(fù)載的選擇

        負(fù)載是大數(shù)據(jù)需要執(zhí)行的具體任務(wù),用來處理數(shù)據(jù)并產(chǎn)生結(jié)果,負(fù)載將大數(shù)據(jù)平臺的應(yīng)用抽象成一些基本操作。由于行業(yè)和領(lǐng)域的不同,其應(yīng)用有很多不同的特點,從系統(tǒng)資源消耗方面負(fù)載可分為計算密集型、I/O密集型和混合密集型。例如,運營商的話單查詢需要多次調(diào)用數(shù)據(jù)庫,是典型的I/O密集型任務(wù);而互聯(lián)網(wǎng)的聚類過程需要大量的迭代計算,是典型的計算密集型任務(wù);搜索引擎中的PageRank算法既需要數(shù)據(jù)交換又要不斷地迭代計算,屬于混合型任務(wù)。面對各種復(fù)雜的應(yīng)用場景,很難選擇出合適的測試負(fù)載。

        4.3 集群規(guī)模

        隨著大數(shù)據(jù)的迅速發(fā)展,集群規(guī)模也越來越龐大。例如,TDW(TencentDistributedDataWarehouse,騰訊分布式數(shù)據(jù)倉庫)單集群規(guī)模達到4400臺,CPU總核數(shù)達到10萬左右,存儲容量達到100PB;每日作業(yè)數(shù)100多萬,每日計算量4PB,作業(yè)并發(fā)數(shù)2000左右,TDW已經(jīng)成為騰訊最大的離線數(shù)據(jù)處理平臺。

        第三方實驗室的集群規(guī)模通常是幾百臺,甚至幾十臺,遠遠小于運營商運營的規(guī)模,測試的結(jié)果可能會與實際情況有很大的差距。為了降低測試的復(fù)雜性和成本,通常只能在現(xiàn)網(wǎng)上運行簡單的測試用例,而目前能夠提供大數(shù)據(jù)在線服務(wù)還比較少,主要有微軟HDInsight、UcloudUDDP、百度BMR和阿里ODPS等。

        4.4 軟件的兼容性

        Hadoop的發(fā)行版除了社區(qū)的ApacheHadoop外,Cloudera、Hortonworks、MapR、EMC、IBM、Intel和華為等都提供了自己的商業(yè)版本。商業(yè)版主要是提供了專業(yè)的技術(shù)支持,這對一些大型企業(yè)尤其重要。社區(qū)版ApacheHadoop包含兩個版本:Hadoop 1.0和Hadoop 2.0。其中,Hadoop 1.0由一個分布式文件系統(tǒng)HDFS和一個離線計算框架MapReduce組成;而Hadoop2.0則包含一個支持NameNode橫向擴展的HDFS,一個資源管理系統(tǒng)YARN和一個運行在YARN上的離線計算框架MapReduce。隨著大數(shù)據(jù)軟件逐步被推向市場,被更多的用戶安裝,兼容性問題也會日益凸現(xiàn)。

        5 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化最新進展

        2015年1月29日,數(shù)據(jù)中心聯(lián)盟(www.dca.org.cn)發(fā)布了國內(nèi)第一個大數(shù)據(jù)產(chǎn)品和服務(wù)基準(zhǔn)測試規(guī)范《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第一部分技術(shù)要求》和《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第二部分測試方法》。與該規(guī)范配套的評測工具源代碼也同期發(fā)布,并移交開源社區(qū)持續(xù)開發(fā)。該規(guī)范是由中國信息通信研究院(原工業(yè)和信息化部電信研究院)牽頭,聯(lián)合中科院計算所、華為、中國移動、Intel、微軟、IBM、新浪、百度、阿里、騰訊、浪潮、世紀(jì)互聯(lián)、UCould等國內(nèi)外知名公司和科研機構(gòu)共同制定,囊括了國內(nèi)外主流大數(shù)據(jù)產(chǎn)品與服務(wù)提供商。

        如圖1所示,《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第一部分技術(shù)要求》的評價對象主要包括大數(shù)據(jù)軟件平臺(如基于開源Hadoop、Spark平臺的商業(yè)軟件)、大數(shù)據(jù)軟硬一體機和云端大數(shù)據(jù)服務(wù)三大類。

        (1)大數(shù)據(jù)軟件平臺

        主要由分布式文件系統(tǒng)(如HDFS)、分布式計算系統(tǒng)(如MapReduce)、分布式數(shù)據(jù)庫(如HBase)、分布式數(shù)據(jù)倉庫(如Hive)等多個模塊構(gòu)成,能夠提供大數(shù)據(jù)的存儲、管理和計算能力。大數(shù)據(jù)軟件平臺主要包括開源的Hadoop、Spark等及其商業(yè)化軟件版本,一般部署在通用硬件平臺上。

        (2)大數(shù)據(jù)軟硬一體機

        大數(shù)據(jù)軟硬一體機集成了服務(wù)器、存儲、網(wǎng)絡(luò)和大數(shù)據(jù)軟件平臺,以整機的形式銷售給客戶。對于大數(shù)據(jù)一體機方案,測試衡量的是軟件和硬件整體的性能。

        (3)大數(shù)據(jù)云服務(wù)

        大數(shù)據(jù)云服務(wù)由云服務(wù)商將大數(shù)據(jù)軟件平臺部署到云端,以公共云服務(wù)的形式向用戶提供大數(shù)據(jù)存儲、管理和計算能力,按量收費,用戶無需關(guān)心集群軟硬件的搭建和運維。

        規(guī)范根據(jù)大數(shù)據(jù)特點,精選了NoSQL、離線分析和實時交互分析等最具代表性的21個基本負(fù)載,能夠考核平臺在計算密集、I/O密集和混合任務(wù)等不同場景的表現(xiàn)。標(biāo)準(zhǔn)規(guī)定了數(shù)據(jù)生成、負(fù)載選擇、測試指標(biāo)、用例執(zhí)行和測試配置。標(biāo)準(zhǔn)還從用戶角度出發(fā)定義了多個維度的指標(biāo),不僅有基本的吞吐量質(zhì)保,還有能耗、壓力、擴展性、容錯能力等多方面的指標(biāo)。

        《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第二部分測試方法》規(guī)定了典型測試負(fù)載的測試流程,并給出了測試數(shù)據(jù)規(guī)模的要求(見表1)。

        圖1 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)中定義的測試對象

        6 結(jié)束語

        目前,大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化工作仍處于起步階段,國內(nèi)相關(guān)工作取得了初步進展,對大數(shù)據(jù)平臺的基本操作測試進行了規(guī)范。但應(yīng)該看到,這僅僅是大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化工作的開始,未來還有較長的路要走。下一步大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)的發(fā)展重點,一是針對企業(yè)對SQLonHadoop數(shù)據(jù)倉庫方案的需求,細化交互分析基準(zhǔn)測試負(fù)載的制定;二是面向政務(wù)、金融、電信等重點行業(yè),研究制定端到端的負(fù)載,推動行業(yè)大數(shù)據(jù)技術(shù)與產(chǎn)品的演進。

        表1 10種典型測試負(fù)載、特點、應(yīng)用、數(shù)據(jù)類型和負(fù)載參數(shù)

        2015-01-20)

        云計算標(biāo)準(zhǔn)與測試驗證北京市重點實驗室項目資助

        猜你喜歡
        測試工具基準(zhǔn)標(biāo)準(zhǔn)化
        邊緣智力兒童及其智力測試工具的研究進展
        標(biāo)準(zhǔn)化簡述
        Http并發(fā)連接測試工具
        標(biāo)準(zhǔn)化是綜合交通運輸?shù)谋U稀庾x《交通運輸標(biāo)準(zhǔn)化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        明基準(zhǔn)講方法??待R
        滑落還是攀爬
        論汽車維修診斷標(biāo)準(zhǔn)化(上)
        福祿克推出先進的連接式測試工具系統(tǒng)
        交通運輸標(biāo)準(zhǔn)化
        巧用基準(zhǔn)變換實現(xiàn)裝配檢測
        河南科技(2014年15期)2014-02-27 14:12:35
        91精品91| 东北女人毛多水多牲交视频| 欧美丰满熟妇aaaaa片| 无码av免费永久免费永久专区| 国产黄色看三级三级三级| 一区二区国产av网站| 日韩丰满少妇无码内射| 97性视频| 亚洲精品一区二区三区国产 | 久久精品美女久久| 亚洲人成精品久久熟女| 色老板美国在线观看| 久久精品亚洲中文字幕无码网站| 天堂av一区二区在线观看| 午夜桃色视频在线观看| 国产免费又爽又色又粗视频| 欧美成年黄网站色视频| 2021久久精品国产99国产| 亚洲精品中字在线观看| 亚洲欧美乱日韩乱国产| 四虎精品视频| 丝袜美女美腿一区二区| 亚洲国产精品亚洲一区二区三区 | 女人被狂躁的高潮免费视频| 国产亚洲人成a在线v网站| 蜜桃一区二区三区在线看| 国产爽快片一区二区三区| 国产精品国产精品国产专区不卡| 男女18禁啪啪无遮挡| 一区二区三区免费视频网站| 精品极品一区二区三区| 无码字幕av一区二区三区| 国产精品无需播放器| 国产成版人性视频免费版| 精品国产yw在线观看| 久久久久久人妻一区二区三区| 亚洲精品乱码久久久久99| 一区二区三区日韩精品视频 | 国产乱人伦偷精品视频| 日本一区二区不卡超清在线播放| 麻豆最新国产av原创|