亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)平臺基準(zhǔn)測試標(biāo)準(zhǔn)化思考＊

2015-04-15 08:46:08陳凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

信息通信技術(shù)與政策 2015年2期

關(guān)鍵詞：測試工具基準(zhǔn)標(biāo)準(zhǔn)化

陳凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

魏凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

周曉敏中國聯(lián)合網(wǎng)絡(luò)通信有限公司技術(shù)部項目經(jīng)理

大數(shù)據(jù)平臺基準(zhǔn)測試標(biāo)準(zhǔn)化思考＊

陳凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

魏凱中國信息通信研究院通信標(biāo)準(zhǔn)研究所高級工程師

周曉敏中國聯(lián)合網(wǎng)絡(luò)通信有限公司技術(shù)部項目經(jīng)理

大數(shù)據(jù)基準(zhǔn)測試是大數(shù)據(jù)技術(shù)和產(chǎn)品發(fā)展中不可或缺的標(biāo)尺。目前，雖然已經(jīng)有了很多的測試工具，如何將它們標(biāo)準(zhǔn)化成為業(yè)界關(guān)注的焦點。本文介紹了大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化的緊迫性，分析了大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化現(xiàn)狀和測試工具，指出了大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化所面臨的挑戰(zhàn)；最后，對大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化最新進展，以及大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化下一步的發(fā)展方向進行了展望。

大數(shù)據(jù) 基準(zhǔn)測試 Hadoop 標(biāo)準(zhǔn)化

1 引言

大數(shù)據(jù)是指難以用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。今天越來越多的企業(yè)認(rèn)識到，大數(shù)據(jù)的分析能力將成為競爭力的核心，企業(yè)對大數(shù)據(jù)的投資也在不斷擴大。Gartner調(diào)查顯示，73%的企業(yè)計劃在未來兩年內(nèi)投資大數(shù)據(jù)。以開源Hadoop、Spark等為基礎(chǔ)的大數(shù)據(jù)基礎(chǔ)平臺解決方案和云服務(wù)如雨后春筍不斷涌現(xiàn)，形成了近200億美元的市場規(guī)模。

然而對于很多企業(yè)用戶來說，如何評價一個大數(shù)據(jù)平臺的綜合能力，常常是系統(tǒng)設(shè)計、產(chǎn)品和服務(wù)選型、平臺建設(shè)、系統(tǒng)優(yōu)化和運維時面臨的一大挑戰(zhàn)?；仡檾?shù)據(jù)庫和服務(wù)器產(chǎn)品的發(fā)展歷史，一套公平、可重復(fù)、便于理解的測試基準(zhǔn)，是推動產(chǎn)品和服務(wù)快速成熟的重要支撐。今天，大數(shù)據(jù)平臺正處在發(fā)展初期，各種新架構(gòu)、新產(chǎn)品和新服務(wù)不斷涌現(xiàn)，研發(fā)、采購、驗收等環(huán)節(jié)迫切需要統(tǒng)一的衡量標(biāo)準(zhǔn)來牽引。目前來看，國內(nèi)外還缺乏一套能體現(xiàn)大數(shù)據(jù)特點，又簡便易行，且被工業(yè)界廣泛認(rèn)可的大數(shù)據(jù)平臺基準(zhǔn)測試標(biāo)準(zhǔn)。

2 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化現(xiàn)狀

大數(shù)據(jù)分析系統(tǒng)具有高性能、高擴展、高可用、高效能、易使用、易管理等特點，其架構(gòu)設(shè)計的復(fù)雜性使得系統(tǒng)測試也非常復(fù)雜，針對其測試的研究同其設(shè)計開發(fā)的研究相比則相對薄弱。直到2014年6月，TPC（事務(wù)處理性能協(xié)會）才發(fā)布了基準(zhǔn)測試標(biāo)準(zhǔn)TPCx-HS和配套的測試工具。TPC專門為虛擬服務(wù)器以及事務(wù)處理等機制提供客觀且不受供應(yīng)商影響的基準(zhǔn)測試解決方案。

TPC一直認(rèn)為在制定行業(yè)的標(biāo)準(zhǔn)時，性能、持有成本和能源效率是成功的三大關(guān)鍵，因此TPCx-HS的測試重點仍然是性能驗證、性價比、功耗以及可用性。TPCx-HS能夠?qū)τ布败浖桨讣右詸z測，其中包括Hadoop運行時、Hadoop文件系統(tǒng)、API兼容系統(tǒng)以及MapReudce層等。TPCx-HS這一名稱中的“x”代表Express，即精簡之意。目前，只有Sort一種測試負(fù)載，TPCx-HS委員會認(rèn)為精簡版本的基準(zhǔn)測試能夠滿足企業(yè)級基準(zhǔn)測試需求，而且不會耗費更多時間及成本資源。TPC協(xié)會的成員思科公司已經(jīng)在其大數(shù)據(jù)系統(tǒng)上運行TPCx-HS基準(zhǔn)測試并公布了最終成績。

而另一個國際標(biāo)準(zhǔn)測試的權(quán)威機構(gòu)SPEC（標(biāo)準(zhǔn)性能評測機構(gòu)）雖然成立了大數(shù)據(jù)基準(zhǔn)測試研究組，但目前還沒有發(fā)布大數(shù)據(jù)基準(zhǔn)測試的標(biāo)準(zhǔn)。

3 大數(shù)據(jù)基準(zhǔn)測試工具

基準(zhǔn)測試工具在大數(shù)據(jù)系統(tǒng)研發(fā)中不可或缺。伴隨著各種平臺軟件的出現(xiàn)，特別是開源大數(shù)據(jù)平臺的發(fā)展，多種針對不同框架的基準(zhǔn)測試工具也陸續(xù)出現(xiàn)。其中，除了ApacheHadoop自帶的基準(zhǔn)測試工具外，很多企業(yè)和研究機構(gòu)也發(fā)布了自己的大數(shù)據(jù)基準(zhǔn)測試工具。

3.1 Apache Hadoop基準(zhǔn)測試工具

Hadoop自帶了若干基準(zhǔn)評測程序，安裝開銷小、運行方便。常用的有DFSCIOTest用于測試HDFS的I/O性能；Sort程序評測MapReduce；MRbench檢驗小型作業(yè)的快速響應(yīng)能力；NNBench測試Namenode硬件的加載過程；Gridm ix可以通過模擬Hadoop Cluster中的實際負(fù)載來評測Hadoop性能。

Hadoop自帶的基準(zhǔn)評測程序相對簡單。例如，Gridm ix所使用的用例并不能代表所有的Hadoop使用場景，缺乏CPU-Bound的用例。而現(xiàn)實應(yīng)用中，不僅存在很多I/O密集型的應(yīng)用，也存在很多CPU密集型的應(yīng)用，如聚類算法、倒排索引等；也不能模擬隨機提交作業(yè)（如按泊松分布進行提交）的應(yīng)用場景。因此，并不完全符合測試的預(yù)期。

3.2 TPCx-HSKit

TPC發(fā)布基準(zhǔn)測試標(biāo)準(zhǔn)TPCx-HS的同時，也發(fā)布了配套的測試工具TPCx-HSKit。

TPCx-HS負(fù)載包含以下4個模塊：

（1）HSGen：數(shù)據(jù)生成器，基于TeraGen。

（2）HSDateCheck：檢查數(shù)據(jù)集和副本的符合性。（3）HSSort：數(shù)據(jù)排序，基于TeraSort。

（4）HSValidate：排序后的數(shù)據(jù)校驗，基于Tera Validate。

比例因子（Scale factor，SF）可以從1TB擴展到10000TB。3個主要指標(biāo)（Metrics）：HSph@SF代表每小時的吞吐量、$/HSph@S代表性價比、System Availability Data代表可用性，以及一個代表功率的可選指標(biāo)Watts/HSph@SF。

3.3 Hibench

Intel在Hadoop基準(zhǔn)測試工具基礎(chǔ)上做了許多重要的擴展，提供了一套開源Benchmark Suite-HiBench，來對其Hadoop集群做Benchmark，并通過HiTune進行性能數(shù)據(jù)采集。HiTune是Hadoop性能分析工具，可以從每個節(jié)點上分布收集性能數(shù)據(jù)，并且可以將這些數(shù)據(jù)進行匯總，生產(chǎn)圖形化的報告，讓客戶可以迅速明白哪個節(jié)點出了問題，進而迅速調(diào)整。HiBench選取的計算模型較為全面和綜合，既包含M icro Benchmarks和HDFSBenchmarks，又包含Web Search（網(wǎng)頁搜索）、MachineLearning（機器學(xué)習(xí)）和DataAnalytics（數(shù)據(jù)分析）等應(yīng)用。

3.4 YCSB

YCSB（Yahoo Cloud Serving Benchmark）是雅虎開源的一款通用的性能測試工具，可以對各類NoSQL產(chǎn)品進行相關(guān)的性能測試，包括Bigtable、HBase、Azure、CouchDB、MongoDB等。YCSB與HBase自帶的性能測試工具（Performance Evaluation）相比，可以兼容HBase不同的版本，可以選擇進行測試的方式有：Read+W rite和Read+Scan，還可以選擇不同操作的頻度與選取Key的方式，也可以實時顯示測試的進度。

3.5 BigBench

BigBench是第一個基于端到端的大數(shù)據(jù)分析測試工具，它提供了非常豐富的查詢集合，涵蓋了各種復(fù)雜且真實的場景，主要用于測試并行數(shù)據(jù)庫在SQL-MR環(huán)境下的查詢能力。BigBench包含兩個關(guān)鍵的組件，即數(shù)據(jù)模型規(guī)范和負(fù)載/查詢規(guī)范。其中，結(jié)構(gòu)化數(shù)據(jù)部分主要采用TPC-DS的數(shù)據(jù)模型。BigBench包含30個查詢/負(fù)載，能夠在Hadoop平臺上執(zhí)行。

3.6 BigDateBench

BigDataBench是由中科院計算所開發(fā)的開源軟件，覆蓋了微基準(zhǔn)測試（M icro Benchmarks）、Cloud OLTP、關(guān)系查詢、搜索引擎、社交網(wǎng)絡(luò)和電子商務(wù)6種典型的應(yīng)用場景，包含19種不同類型的負(fù)載應(yīng)用程序和6種不同類型的數(shù)據(jù)集。

BigDataBench還提供可以保留原始數(shù)據(jù)特性的，以小規(guī)模真實數(shù)據(jù)生成大規(guī)模數(shù)據(jù)的數(shù)據(jù)生成工具。包括文本數(shù)據(jù)、圖數(shù)據(jù)和（數(shù)據(jù)庫）表數(shù)據(jù)在內(nèi)的數(shù)據(jù)集都可以通過該生成工具生成。同時，涵蓋了完整的系統(tǒng)軟件棧，覆蓋的應(yīng)用類型包括實時分析、離線分析和在線服務(wù)應(yīng)用。

4 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化面臨的挑戰(zhàn)

大數(shù)據(jù)基準(zhǔn)測試工具為基準(zhǔn)測試的實施提供了基礎(chǔ)。然而，要做到可重復(fù)、可比較，還需要制定相應(yīng)的標(biāo)準(zhǔn)，對測試中的預(yù)置條件、測試負(fù)載參數(shù)、測試數(shù)據(jù)和測試步驟進行詳盡的約束。

4.1 數(shù)據(jù)生成

數(shù)據(jù)生成是大數(shù)據(jù)基準(zhǔn)測試首先要解決的問題。由于企業(yè)通常不會公開自己的數(shù)據(jù)，因此真實數(shù)據(jù)很難獲得。即使可以獲得，其數(shù)據(jù)也往往是基于特定的應(yīng)用場景，不具有普適性。而隨機生成的數(shù)據(jù)，更難以體現(xiàn)應(yīng)用的特征。因此，目前常用的生成工具會采用二者結(jié)合的方式，即通過建模先從真實的數(shù)據(jù)樣本中提取應(yīng)用特征，在保持應(yīng)用特征的前提下再隨機生成測試樣本。合成數(shù)據(jù)看似很好地解決了問題，但關(guān)鍵在于提取和擴展的過程中如何保持應(yīng)用特征以及生成的速度是否足夠快。

4.2 負(fù)載的選擇

負(fù)載是大數(shù)據(jù)需要執(zhí)行的具體任務(wù)，用來處理數(shù)據(jù)并產(chǎn)生結(jié)果，負(fù)載將大數(shù)據(jù)平臺的應(yīng)用抽象成一些基本操作。由于行業(yè)和領(lǐng)域的不同，其應(yīng)用有很多不同的特點，從系統(tǒng)資源消耗方面負(fù)載可分為計算密集型、I/O密集型和混合密集型。例如，運營商的話單查詢需要多次調(diào)用數(shù)據(jù)庫，是典型的I/O密集型任務(wù)；而互聯(lián)網(wǎng)的聚類過程需要大量的迭代計算，是典型的計算密集型任務(wù)；搜索引擎中的PageRank算法既需要數(shù)據(jù)交換又要不斷地迭代計算，屬于混合型任務(wù)。面對各種復(fù)雜的應(yīng)用場景，很難選擇出合適的測試負(fù)載。

4.3 集群規(guī)模

隨著大數(shù)據(jù)的迅速發(fā)展，集群規(guī)模也越來越龐大。例如，TDW（TencentDistributedDataWarehouse，騰訊分布式數(shù)據(jù)倉庫）單集群規(guī)模達到4400臺，CPU總核數(shù)達到10萬左右，存儲容量達到100PB；每日作業(yè)數(shù)100多萬，每日計算量4PB，作業(yè)并發(fā)數(shù)2000左右，TDW已經(jīng)成為騰訊最大的離線數(shù)據(jù)處理平臺。

第三方實驗室的集群規(guī)模通常是幾百臺，甚至幾十臺，遠遠小于運營商運營的規(guī)模，測試的結(jié)果可能會與實際情況有很大的差距。為了降低測試的復(fù)雜性和成本，通常只能在現(xiàn)網(wǎng)上運行簡單的測試用例，而目前能夠提供大數(shù)據(jù)在線服務(wù)還比較少，主要有微軟HDInsight、UcloudUDDP、百度BMR和阿里ODPS等。

4.4 軟件的兼容性

Hadoop的發(fā)行版除了社區(qū)的ApacheHadoop外，Cloudera、Hortonworks、MapR、EMC、IBM、Intel和華為等都提供了自己的商業(yè)版本。商業(yè)版主要是提供了專業(yè)的技術(shù)支持，這對一些大型企業(yè)尤其重要。社區(qū)版ApacheHadoop包含兩個版本：Hadoop 1.0和Hadoop 2.0。其中，Hadoop 1.0由一個分布式文件系統(tǒng)HDFS和一個離線計算框架MapReduce組成；而Hadoop2.0則包含一個支持NameNode橫向擴展的HDFS，一個資源管理系統(tǒng)YARN和一個運行在YARN上的離線計算框架MapReduce。隨著大數(shù)據(jù)軟件逐步被推向市場，被更多的用戶安裝，兼容性問題也會日益凸現(xiàn)。

5 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化最新進展

2015年1月29日，數(shù)據(jù)中心聯(lián)盟（www.dca.org.cn）發(fā)布了國內(nèi)第一個大數(shù)據(jù)產(chǎn)品和服務(wù)基準(zhǔn)測試規(guī)范《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第一部分技術(shù)要求》和《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第二部分測試方法》。與該規(guī)范配套的評測工具源代碼也同期發(fā)布，并移交開源社區(qū)持續(xù)開發(fā)。該規(guī)范是由中國信息通信研究院（原工業(yè)和信息化部電信研究院）牽頭，聯(lián)合中科院計算所、華為、中國移動、Intel、微軟、IBM、新浪、百度、阿里、騰訊、浪潮、世紀(jì)互聯(lián)、UCould等國內(nèi)外知名公司和科研機構(gòu)共同制定，囊括了國內(nèi)外主流大數(shù)據(jù)產(chǎn)品與服務(wù)提供商。

如圖1所示，《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第一部分技術(shù)要求》的評價對象主要包括大數(shù)據(jù)軟件平臺（如基于開源Hadoop、Spark平臺的商業(yè)軟件）、大數(shù)據(jù)軟硬一體機和云端大數(shù)據(jù)服務(wù)三大類。

（1）大數(shù)據(jù)軟件平臺

主要由分布式文件系統(tǒng)（如HDFS）、分布式計算系統(tǒng)（如MapReduce）、分布式數(shù)據(jù)庫（如HBase）、分布式數(shù)據(jù)倉庫（如Hive）等多個模塊構(gòu)成，能夠提供大數(shù)據(jù)的存儲、管理和計算能力。大數(shù)據(jù)軟件平臺主要包括開源的Hadoop、Spark等及其商業(yè)化軟件版本，一般部署在通用硬件平臺上。

（2）大數(shù)據(jù)軟硬一體機

大數(shù)據(jù)軟硬一體機集成了服務(wù)器、存儲、網(wǎng)絡(luò)和大數(shù)據(jù)軟件平臺，以整機的形式銷售給客戶。對于大數(shù)據(jù)一體機方案，測試衡量的是軟件和硬件整體的性能。

（3）大數(shù)據(jù)云服務(wù)

大數(shù)據(jù)云服務(wù)由云服務(wù)商將大數(shù)據(jù)軟件平臺部署到云端，以公共云服務(wù)的形式向用戶提供大數(shù)據(jù)存儲、管理和計算能力，按量收費，用戶無需關(guān)心集群軟硬件的搭建和運維。

規(guī)范根據(jù)大數(shù)據(jù)特點，精選了NoSQL、離線分析和實時交互分析等最具代表性的21個基本負(fù)載，能夠考核平臺在計算密集、I/O密集和混合任務(wù)等不同場景的表現(xiàn)。標(biāo)準(zhǔn)規(guī)定了數(shù)據(jù)生成、負(fù)載選擇、測試指標(biāo)、用例執(zhí)行和測試配置。標(biāo)準(zhǔn)還從用戶角度出發(fā)定義了多個維度的指標(biāo)，不僅有基本的吞吐量質(zhì)保，還有能耗、壓力、擴展性、容錯能力等多方面的指標(biāo)。

《大數(shù)據(jù)平臺基準(zhǔn)測試技術(shù)要求第二部分測試方法》規(guī)定了典型測試負(fù)載的測試流程，并給出了測試數(shù)據(jù)規(guī)模的要求（見表1）。

圖1 大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)中定義的測試對象

6 結(jié)束語

目前，大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化工作仍處于起步階段，國內(nèi)相關(guān)工作取得了初步進展，對大數(shù)據(jù)平臺的基本操作測試進行了規(guī)范。但應(yīng)該看到，這僅僅是大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)化工作的開始，未來還有較長的路要走。下一步大數(shù)據(jù)基準(zhǔn)測試標(biāo)準(zhǔn)的發(fā)展重點，一是針對企業(yè)對SQLonHadoop數(shù)據(jù)倉庫方案的需求，細化交互分析基準(zhǔn)測試負(fù)載的制定；二是面向政務(wù)、金融、電信等重點行業(yè)，研究制定端到端的負(fù)載，推動行業(yè)大數(shù)據(jù)技術(shù)與產(chǎn)品的演進。

表1 10種典型測試負(fù)載、特點、應(yīng)用、數(shù)據(jù)類型和負(fù)載參數(shù)

2015-01-20）

云計算標(biāo)準(zhǔn)與測試驗證北京市重點實驗室項目資助