亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的挑戰(zhàn)與研究進(jìn)展

        2015-04-06 08:24:42錢(qián)衛(wèi)寧周敏奇金澈清周傲英
        大數(shù)據(jù) 2015年1期
        關(guān)鍵詞:評(píng)測(cè)度量基準(zhǔn)

        錢(qián)衛(wèi)寧,夏 帆,周敏奇,金澈清,周傲英

        華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院 上海 200062

        大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的挑戰(zhàn)與研究進(jìn)展

        錢(qián)衛(wèi)寧,夏 帆,周敏奇,金澈清,周傲英

        華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院 上海 200062

        數(shù)據(jù)庫(kù)評(píng)測(cè)基準(zhǔn)在數(shù)據(jù)庫(kù)發(fā)展歷史中的作用不可替代,而大數(shù)據(jù)環(huán)境中傳統(tǒng)評(píng)測(cè)基準(zhǔn)不敷應(yīng)用。因此,從評(píng)測(cè)基準(zhǔn)3要素,即數(shù)據(jù)、負(fù)載、度量體系入手,研究具有高仿真性、可適配性、可測(cè)量性的大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn),對(duì)大數(shù)據(jù)管理系統(tǒng)的研發(fā)和應(yīng)用系統(tǒng)選型至關(guān)重要。基于此,在簡(jiǎn)要分析評(píng)測(cè)基準(zhǔn)的基本要素和大數(shù)據(jù)管理系統(tǒng)發(fā)展過(guò)程的基礎(chǔ)上,重點(diǎn)分析大數(shù)據(jù)管理系統(tǒng)的基準(zhǔn)評(píng)測(cè)需求與挑戰(zhàn),然后通過(guò)社交媒體分析型查詢(xún)?cè)u(píng)測(cè)基準(zhǔn)BSMA,探討了面向應(yīng)用的大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)的設(shè)計(jì)和實(shí)現(xiàn)問(wèn)題。

        大數(shù)據(jù)管理系統(tǒng);評(píng)測(cè)基準(zhǔn);數(shù)據(jù)生成;負(fù)載生成;性能度量體系

        1 引言

        數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)廠商間的激烈競(jìng)爭(zhēng)造就了一個(gè)數(shù)千億美元的市場(chǎng)。數(shù)據(jù)庫(kù)基準(zhǔn)評(píng)測(cè)(database benchmarking)確保了競(jìng)爭(zhēng)的公平有序,從而引導(dǎo)了行業(yè)的健康發(fā)展。數(shù)據(jù)庫(kù)評(píng)測(cè)基準(zhǔn)是指一套用于評(píng)測(cè)、比較不同DBMS性能的規(guī)范,其所生成的性能指標(biāo)值能夠客觀、全面地比較各個(gè)DBMS的性能差距[1]。

        通常,新的數(shù)據(jù)庫(kù)理論或數(shù)據(jù)管理技術(shù)被提出之后,會(huì)迅速誕生一批原型或商用系統(tǒng)。但技術(shù)上的差異常導(dǎo)致它們的性能表現(xiàn)不盡相同,從而引發(fā)系統(tǒng)開(kāi)發(fā)商之間的爭(zhēng)議。技術(shù)層面的爭(zhēng)論和競(jìng)爭(zhēng)促進(jìn)了行業(yè)的發(fā)展;而諸多非技術(shù)因素的介入,則會(huì)破壞良性競(jìng)爭(zhēng)。1983年發(fā)布的“威斯康星基準(zhǔn)”[2],消彌了自關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)出現(xiàn)后紛爭(zhēng)的性能口水戰(zhàn),促進(jìn)了各DBMS廠商優(yōu)化系統(tǒng),并最終在常用負(fù)載(workload)下取得相近的性能。威斯康星基準(zhǔn)的巨大成功以及以威斯康星大學(xué)DeWitt D J教授和圖靈獎(jiǎng)獲得者Gray J為代表的一批學(xué)者對(duì)數(shù)據(jù)庫(kù)基準(zhǔn)評(píng)測(cè)的適時(shí)推動(dòng),有效地保障了20世紀(jì)80年代開(kāi)始的30多年的數(shù)據(jù)庫(kù)行業(yè)的健康發(fā)展。

        隨著“大數(shù)據(jù)”成為應(yīng)用熱點(diǎn),越來(lái)越多的應(yīng)用環(huán)境中,數(shù)據(jù)、應(yīng)用和系統(tǒng)體現(xiàn)出“3V”的特性[3],即量大(volume)、多樣(variety)、快速變化(velocity):數(shù)據(jù)同時(shí)具備“3V”的特性,即數(shù)據(jù)規(guī)模大、變化速度和增長(zhǎng)速度快,且包含多源、異構(gòu)和非結(jié)構(gòu)化數(shù)據(jù);應(yīng)用中包含大量作用于大數(shù)據(jù)的多樣化的負(fù)載,且很多負(fù)載要求在快速變化的數(shù)據(jù)上獲得實(shí)時(shí)的結(jié)果;系統(tǒng)則需要同時(shí)適應(yīng)數(shù)據(jù)與應(yīng)用,在不同的接口層次上提供對(duì)大數(shù)據(jù)的多樣化的管理和處理功能。

        針對(duì)新興的大數(shù)據(jù)應(yīng)用環(huán)境,在以Hadoop為代表的海量數(shù)據(jù)處理技術(shù)日趨成熟的同時(shí),一批新型大數(shù)據(jù)管理系統(tǒng)(big data management system,BDMS)積極涌現(xiàn),以解決大數(shù)據(jù)管理與處理中的各種問(wèn)題。

        新型的數(shù)據(jù)、應(yīng)用環(huán)境和系統(tǒng)決定了現(xiàn)有評(píng)測(cè)基準(zhǔn)無(wú)法產(chǎn)生具有仿真能力的數(shù)據(jù),不能反映應(yīng)用需求,無(wú)法公平、有效地評(píng)測(cè)系統(tǒng)。在包括數(shù)據(jù)生成、負(fù)載生成、度量選取、評(píng)測(cè)基準(zhǔn)架構(gòu)與評(píng)測(cè)方法等在內(nèi)的基準(zhǔn)評(píng)測(cè)的多個(gè)方面,都需要研究、開(kāi)發(fā)新的技術(shù),以更真實(shí)地反映系統(tǒng)在典型應(yīng)用環(huán)境中的表現(xiàn)。評(píng)測(cè)基準(zhǔn)是對(duì)大數(shù)據(jù)應(yīng)用環(huán)境中數(shù)據(jù)管理任務(wù)的規(guī)范化與定義,對(duì)大數(shù)據(jù)系統(tǒng)的研發(fā)具有指導(dǎo)意義。

        基準(zhǔn)制定是一個(gè)漫長(zhǎng)的過(guò)程。RDBMS的基準(zhǔn)評(píng)測(cè)經(jīng)過(guò)30多年的發(fā)展,仍在不斷完善。而影響力較大的早期大數(shù)據(jù)評(píng)測(cè)基準(zhǔn)CALDA提出至今不過(guò)4年[4]。目前的相關(guān)評(píng)測(cè)基準(zhǔn)在應(yīng)用抽象、評(píng)測(cè)內(nèi)容與方法、應(yīng)用程度上都仍在初級(jí)階段??梢灶A(yù)見(jiàn),未來(lái)的5~10年評(píng)測(cè)基準(zhǔn)將和BDMS的研發(fā)共同高速發(fā)展[5]。

        另一方面,由于我國(guó)用戶(hù)分布、商業(yè)模式、政策法規(guī)的特點(diǎn),應(yīng)用環(huán)境具有一定的特殊性。這種特殊性體現(xiàn)在數(shù)據(jù)、負(fù)載特性上。國(guó)外數(shù)據(jù)庫(kù)廠商因?qū)ξ覈?guó)國(guó)情的不了解甚至是有意抵觸,很難在短時(shí)間內(nèi)研發(fā)出適合我國(guó)需求的系統(tǒng)和應(yīng)用。面向具有特色的應(yīng)用,制定評(píng)測(cè)基準(zhǔn),有助于引領(lǐng)大數(shù)據(jù)技術(shù)和系統(tǒng)的研發(fā),為解決我國(guó)所面臨的最急迫的大數(shù)據(jù)管理問(wèn)題做出貢獻(xiàn),同時(shí)促進(jìn)國(guó)內(nèi)大數(shù)據(jù)系統(tǒng)的研發(fā),提振國(guó)內(nèi)大數(shù)據(jù)行業(yè)的發(fā)展。

        本文將在簡(jiǎn)要分析評(píng)測(cè)基準(zhǔn)的基本要素和大數(shù)據(jù)管理系統(tǒng)發(fā)展過(guò)程的基礎(chǔ)上,重點(diǎn)分析大數(shù)據(jù)管理系統(tǒng)的基準(zhǔn)評(píng)測(cè)需求與挑戰(zhàn),然后通過(guò)社交媒體分析型查詢(xún)?cè)u(píng)測(cè)基準(zhǔn)(benchmark of social media analysis,BSMA),探討面向應(yīng)用的大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)的設(shè)計(jì)、實(shí)現(xiàn)問(wèn)題。

        2 評(píng)測(cè)基準(zhǔn)的基本要素

        從宏觀角度看,評(píng)測(cè)基準(zhǔn)的3要素是數(shù)據(jù)、負(fù)載和度量體系,下面分別進(jìn)行介紹。

        ● 數(shù)據(jù):不同應(yīng)用的數(shù)據(jù)具有不同的靜態(tài)和動(dòng)態(tài)特征,體現(xiàn)在結(jié)構(gòu)、規(guī)模、數(shù)據(jù)分布、變化速率等多個(gè)方面。傳統(tǒng)基準(zhǔn)通常只采用固定數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分布下的數(shù)據(jù)生成方法產(chǎn)生高仿真數(shù)據(jù)。而如何準(zhǔn)確刻畫(huà)大數(shù)據(jù)靜態(tài)和動(dòng)態(tài)特征,如何在特征已知或未知的情況下,高效地生成測(cè)試所需的海量數(shù)據(jù)是大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)所需要解決的問(wèn)題。

        ● 負(fù)載:負(fù)載是作用于數(shù)據(jù)的訪問(wèn)和查詢(xún)、更新、分析任務(wù)。大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)必須能夠產(chǎn)生反映應(yīng)用需求的多樣化的負(fù)載(variety)。和數(shù)據(jù)一樣,評(píng)測(cè)基準(zhǔn)的負(fù)載必須在靜態(tài)和動(dòng)態(tài)特征上與應(yīng)用具有相似性,即對(duì)于評(píng)價(jià)指標(biāo)而言,模擬負(fù)載能夠反映應(yīng)用的需求。具有良好適配性的負(fù)載生成理論和方法是大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)的第二個(gè)要素。

        ● 度量體系:度量體系指對(duì)于性能進(jìn)行評(píng)價(jià)的指標(biāo)集合。指標(biāo)可以是單一的,也可以是多維的。BDMS應(yīng)用環(huán)境不同于傳統(tǒng)DBMS。例如,新型硬件要求在評(píng)測(cè)時(shí)考慮非傳統(tǒng)的性能度量,如忙時(shí)數(shù)據(jù)更新量(面向集群化的大內(nèi)存系統(tǒng))、熱點(diǎn)數(shù)據(jù)更新頻率等;開(kāi)放的運(yùn)行環(huán)境要求評(píng)測(cè)能夠反映系統(tǒng)受干擾時(shí)的性能;分析型負(fù)載則將性能度量和結(jié)果的精確程度綁在一起。此外,性?xún)r(jià)比、能耗等因素進(jìn)一步增加了BDMS度量體系制定的難度。

        3 大數(shù)據(jù)管理系統(tǒng)及其評(píng)測(cè)基準(zhǔn)需求

        3.1 大數(shù)據(jù)管理系統(tǒng)的分類(lèi)

        大數(shù)據(jù)管理系統(tǒng)通常指那些基于集群環(huán)境,利用大容量?jī)?nèi)存、高速網(wǎng)絡(luò),支撐海量數(shù)據(jù)存儲(chǔ)、索引、更新、查詢(xún)、檢索、分析和挖掘的數(shù)據(jù)管理系統(tǒng)。谷歌公司的GFS、MapReduce實(shí)現(xiàn)以及BigTable系統(tǒng)可以認(rèn)為是最早出現(xiàn)的有代表性的大數(shù)據(jù)管理系統(tǒng)。而隨著開(kāi)源系統(tǒng)Hadoop的出現(xiàn)和相關(guān)開(kāi)源生態(tài)圈的發(fā)展以及Berkeley Data Analytics Stack系列工具的快速發(fā)展,一大批系統(tǒng)和工具都可被歸于BDMS的范疇,如圖1所示[6]。這些系統(tǒng)的功能、接口層次、架構(gòu)、實(shí)現(xiàn)技術(shù)、面向應(yīng)用和所依賴(lài)的底層硬件各不相同,如何客觀、公正地比較它們?cè)诓煌瑧?yīng)用場(chǎng)景下的性能,無(wú)論是對(duì)于系統(tǒng)開(kāi)發(fā)者還是應(yīng)用開(kāi)發(fā)和系統(tǒng)選型人員來(lái)說(shuō),都是一個(gè)難題。這也是BDMS基準(zhǔn)評(píng)測(cè)對(duì)于指導(dǎo)系統(tǒng)研發(fā)、系統(tǒng)選型,營(yíng)造良好技術(shù)競(jìng)爭(zhēng)環(huán)境的意義所在。

        3.2 大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)需求

        BDMS評(píng)測(cè)基準(zhǔn)首先需要具備大數(shù)據(jù)建模與高仿真的數(shù)據(jù)生成的能力。具體而言,包括以下需求。

        ● 大數(shù)據(jù)靜態(tài)和動(dòng)態(tài)特征的刻畫(huà):對(duì)現(xiàn)實(shí)應(yīng)用場(chǎng)景中的真實(shí)數(shù)據(jù)進(jìn)行動(dòng)態(tài)和靜態(tài)特性的刻畫(huà),是形成數(shù)據(jù)生成理論的前提。數(shù)據(jù)的靜態(tài)特征包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)分布、精確性以及時(shí)序關(guān)系等。在成熟的應(yīng)用領(lǐng)域,數(shù)據(jù)靜態(tài)特征往往已經(jīng)有模型進(jìn)行描述。但大數(shù)據(jù)的動(dòng)態(tài)性(velocity)特征難以用單一模型進(jìn)行刻畫(huà)。對(duì)數(shù)據(jù)的靜態(tài)和動(dòng)態(tài)特性進(jìn)行參數(shù)化的刻畫(huà)是高仿真數(shù)據(jù)生成的前提。

        ● 高仿真的數(shù)據(jù)生成方法:大數(shù)據(jù)應(yīng)用的特點(diǎn)決定了需要采用應(yīng)用相關(guān)的數(shù)據(jù)生成方法。同時(shí),大數(shù)據(jù)的復(fù)雜性和動(dòng)態(tài)性決定了對(duì)數(shù)據(jù)特征的刻畫(huà)無(wú)法由領(lǐng)域?qū)<彝瓿?,而需要通過(guò)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)自動(dòng)進(jìn)行。

        ● 動(dòng)態(tài)數(shù)據(jù)高效持續(xù)生成:大數(shù)據(jù)不斷變化、持續(xù)更新。因此,評(píng)測(cè)基準(zhǔn)需要具備采用并行數(shù)據(jù)生成、流式數(shù)據(jù)生成等技術(shù),仿真真實(shí)的海量、快速變化的動(dòng)態(tài)數(shù)據(jù)的能力。

        其次,BDMS評(píng)測(cè)基準(zhǔn)還需要具備能夠滿(mǎn)足多場(chǎng)景需求的綜合負(fù)載生成能力,具體介紹如下。

        ● 負(fù)載特性刻畫(huà)與建模:常見(jiàn)負(fù)載包括數(shù)據(jù)訪問(wèn)、數(shù)據(jù)檢索與查詢(xún)、數(shù)據(jù)更新、批處理、迭代運(yùn)算、聚集計(jì)算等,它們的處理代價(jià)各不相同。應(yīng)用中的負(fù)載常常是復(fù)合的,且負(fù)載的分布隨時(shí)間而變化。同時(shí),負(fù)載作用于不同的數(shù)據(jù)對(duì)象(負(fù)載參數(shù)(argument)),其處理代價(jià)也是不同的。而且負(fù)載參數(shù)的分布也是動(dòng)態(tài)、多樣的。具備豐富、靈活的負(fù)載特性刻畫(huà)能力,是準(zhǔn)確模擬應(yīng)用負(fù)載的前提。

        ● BDMS原語(yǔ)與操作模式的抽象:BDMS的訪問(wèn)接口具有多樣性。在不同層次的BDMS服務(wù)上,分別定義兼容多種系統(tǒng)的負(fù)載描述,是實(shí)現(xiàn)BDMS基準(zhǔn)評(píng)測(cè)的前提之一。這一需求也是BDMS評(píng)測(cè)基準(zhǔn)與傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的一項(xiàng)重要區(qū)別。

        ● 可適配的負(fù)載自動(dòng)生成方法與系統(tǒng)框架:應(yīng)用的負(fù)載各不相同。為每個(gè)應(yīng)用定制負(fù)載生成器,成本高、效率低,不能滿(mǎn)足同一數(shù)據(jù)集上共生多種應(yīng)用的BDMS基準(zhǔn)評(píng)測(cè)需要。因此,給定負(fù)載特性刻畫(huà),生成不同接口層面的代表性負(fù)載和相應(yīng)負(fù)載參數(shù),是另一項(xiàng)重要的BDMS基準(zhǔn)評(píng)測(cè)需求。

        第三,負(fù)載相關(guān)的度量體系與測(cè)量方法對(duì)于BDMS評(píng)測(cè)基準(zhǔn)至關(guān)重要。

        ● BDMS度量的基本特征與度量體系:BDMS系統(tǒng)的性能評(píng)價(jià)包括多項(xiàng)非傳統(tǒng)的度量,包括數(shù)據(jù)分析的實(shí)時(shí)性、系統(tǒng)的彈性能力,即環(huán)境變化時(shí)的自動(dòng)管理能力、精度與性能的復(fù)合度量、能耗和能效比等。因此,需要制定可重復(fù)、可核實(shí)的新度量體系。這又是一項(xiàng)顯著不同于傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的需求。

        ● 影響度量可測(cè)量性的不確定因素的量化與相關(guān)性分析能力:多種不確定因素會(huì)影響最終的評(píng)測(cè)結(jié)果。云計(jì)算、多租戶(hù)、虛擬機(jī)環(huán)境都可能放大這種影響,造成評(píng)測(cè)結(jié)果的不客觀、不可重復(fù)等問(wèn)題。因此,需要對(duì)影響可測(cè)量性的因素進(jìn)行量化和相關(guān)性分析,并進(jìn)一步修正度量體系,以保證評(píng)測(cè)結(jié)果的客觀和全面。

        ● 新的測(cè)量方法學(xué):基準(zhǔn)評(píng)測(cè)要求其過(guò)程和結(jié)果具有可解釋性、可重復(fù)性、可審計(jì)性。測(cè)量方法要求對(duì)這些特定現(xiàn)象進(jìn)行準(zhǔn)確記錄和描述。另一方面,大數(shù)據(jù)應(yīng)用的數(shù)據(jù)和負(fù)載常具有非穩(wěn)態(tài)、爆發(fā)性特征,即在特定時(shí)刻數(shù)據(jù)或負(fù)載量劇增。BDMS基準(zhǔn)評(píng)測(cè)方法必須具有可伸縮性,使得對(duì)爆發(fā)性的數(shù)據(jù)和負(fù)載,評(píng)測(cè)過(guò)程和結(jié)果仍有意義。此外,評(píng)測(cè)的結(jié)果還必須通過(guò)公開(kāi)的方式報(bào)告評(píng)測(cè)環(huán)境、評(píng)測(cè)過(guò)程和評(píng)測(cè)結(jié)果。

        3.3 大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)的挑戰(zhàn)

        大數(shù)據(jù)管理系統(tǒng)的一個(gè)重要特點(diǎn)是“同類(lèi)適用(one size fits a bunch)”,即一個(gè)系統(tǒng)所針對(duì)的是具有相似特點(diǎn)的一類(lèi)(bunch)應(yīng)用,而不是所有應(yīng)用。它不同于傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)的“一體適用(one size fits all)”特點(diǎn)[7]。這也是不同BDMS之間的差異明顯大于傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)間差異的主要原因。系統(tǒng)間的顯著差異為基準(zhǔn)評(píng)測(cè)制造了障礙。為了應(yīng)對(duì)這一情況,BDMS評(píng)測(cè)基準(zhǔn)也應(yīng)具有“同類(lèi)適用”的特點(diǎn),如圖2所示。

        具體而言,評(píng)測(cè)基準(zhǔn)需要滿(mǎn)足高仿真性、可適配性以及可測(cè)量性。

        ● 高仿真性,即生成的數(shù)據(jù)和負(fù)載在對(duì)于性能度量有明確影響的特征上具有高仿真性。

        ● 可適配性,即通過(guò)參數(shù)定制,基準(zhǔn)評(píng)測(cè)套件可適配于不同領(lǐng)域,以對(duì)應(yīng)BDMS系統(tǒng)的“同類(lèi)適用”特點(diǎn)??啥ㄖ啤⒖蛇m配的評(píng)測(cè)基準(zhǔn)對(duì)于降低評(píng)測(cè)成本具有重要意義,這是BDMS評(píng)測(cè)所特有的問(wèn)題,也是難點(diǎn)所在。

        ● 可測(cè)量性,即基準(zhǔn)評(píng)測(cè)結(jié)果在開(kāi)放、動(dòng)態(tài)應(yīng)用環(huán)境中仍有意義,開(kāi)放、動(dòng)態(tài)的大數(shù)據(jù)應(yīng)用環(huán)境向評(píng)測(cè)結(jié)果的可解釋性、可重復(fù)性、可審計(jì)性、公平性提出了挑戰(zhàn)。這一問(wèn)題需要通過(guò)對(duì)BDMS進(jìn)行更細(xì)致的建模以及大量的實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果分析加以解決。

        BDMS評(píng)測(cè)基準(zhǔn)還需要滿(mǎn)足我國(guó)特有應(yīng)用特點(diǎn)的需要。例如,在“雙十·一”促銷(xiāo)、“春運(yùn)”搶票、優(yōu)質(zhì)金融理財(cái)產(chǎn)品發(fā)售等應(yīng)用中,后臺(tái)系統(tǒng)都會(huì)遭遇短時(shí)間的超高峰值負(fù)載壓力。一方面,這是傳統(tǒng)零售、運(yùn)輸、金融等行業(yè)“互聯(lián)網(wǎng)化”的必然結(jié)果;另一方面,我國(guó)人口的巨大基數(shù)導(dǎo)致了此類(lèi)負(fù)載壓力遠(yuǎn)大于國(guó)外同類(lèi)應(yīng)用。如何模擬這類(lèi)峰值(spike)場(chǎng)景,并進(jìn)行準(zhǔn)確的、有推廣意義的評(píng)測(cè),是一個(gè)重要的研究問(wèn)題。此外,欺詐檢測(cè)、情分析等應(yīng)用由于與文化、國(guó)情緊密相關(guān),因此在我國(guó)此類(lèi)應(yīng)用也具有特殊的負(fù)載。BDMS評(píng)測(cè)基準(zhǔn)的研究與制定還需要反映這些特殊應(yīng)用的需要。

        4 BSMA:面向社交媒體數(shù)據(jù)分析型查詢(xún)的基準(zhǔn)評(píng)測(cè)

        4.1 BSMA框架

        圖2 BDMS評(píng)測(cè)基準(zhǔn)的“同類(lèi)適用”特點(diǎn)

        BSMA是一個(gè)社交媒體數(shù)據(jù)分析型查詢(xún)?cè)u(píng)測(cè)基準(zhǔn)[8,9],它包含了社交媒體數(shù)據(jù)的形式化描述規(guī)范和一個(gè)真實(shí)的社交媒體數(shù)據(jù)集,定義了24個(gè)測(cè)試查詢(xún),提供了評(píng)測(cè)系統(tǒng)查詢(xún)性能的工具以及用于產(chǎn)生社交媒體時(shí)間軸(timeline)的數(shù)據(jù)生成器BSMA-Gen[10]。BSMA的系統(tǒng)結(jié)構(gòu)如圖3所示[9],BSMA所針對(duì)的數(shù)據(jù)定義如圖4所示[9]。其自帶的真實(shí)數(shù)據(jù)集和數(shù)據(jù)生成器所產(chǎn)生的模擬數(shù)據(jù)都符合這一數(shù)據(jù)定義。

        圖3 BSMA框架

        圖4 BSMA數(shù)據(jù)定義

        社交媒體數(shù)據(jù)分析具有典型的大數(shù)據(jù)應(yīng)用的特征:首先,社交媒體數(shù)據(jù)并非傳統(tǒng)的關(guān)系數(shù)據(jù),具有時(shí)序數(shù)據(jù)、文本和多媒體數(shù)據(jù)、圖數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的多重特征;其次,社交媒體數(shù)據(jù)量大、更新速度快;第三,社交媒體數(shù)據(jù)分析通常分析任務(wù)復(fù)雜、具有較高的實(shí)時(shí)性要求。BSMA的研究是BDMS評(píng)測(cè)基準(zhǔn)研究的一項(xiàng)初期工作,從中可以體現(xiàn)研究問(wèn)題和難點(diǎn)所在。

        4.2 數(shù)據(jù)生成區(qū)獲取發(fā)布者和社交網(wǎng)絡(luò)信息以確定一個(gè)元素的f指針時(shí),該元素的輸出會(huì)被推遲,以等待遠(yuǎn)程從節(jié)點(diǎn)的信息到來(lái)。采用這種異步傳輸、延時(shí)生成的策略,每個(gè)元素的生成都不需要等待網(wǎng)絡(luò)通信。實(shí)驗(yàn)表明,BSMA-Gen可以確保生成的時(shí)間線在轉(zhuǎn)發(fā)結(jié)構(gòu)、時(shí)序分布、用戶(hù)消息數(shù)等方面符合預(yù)先給定的分布和參數(shù),且吞吐率(即單位時(shí)間生成的元素?cái)?shù))與從節(jié)點(diǎn)個(gè)數(shù)呈線性增長(zhǎng)關(guān)系。

        為了完成模擬社交媒體時(shí)間線的生成任務(wù),BSMA-Gen完成2個(gè)基本工作:模擬真實(shí)的社交媒體數(shù)據(jù)分布和高效產(chǎn)生時(shí)間線[10]。

        BSMA-Gen產(chǎn)生時(shí)間軸,即消息數(shù)據(jù)流,每一條消息可表示為一個(gè)元組:m=<t, c, u, f>。其中t是信息發(fā)布的時(shí)間,c是內(nèi)容,u是發(fā)布者,f是一個(gè)指向源消息的指針。當(dāng)該消息是原始消息時(shí),f為null;而當(dāng)該消息為轉(zhuǎn)發(fā)消息時(shí),f指向被轉(zhuǎn)發(fā)的消息(此消息也可能是轉(zhuǎn)發(fā)的)。現(xiàn)在的生成器版本產(chǎn)生的數(shù)據(jù)只包含結(jié)構(gòu)信息t、u、f,并不包含內(nèi)容信息c。

        BSMA-Gen將每個(gè)用戶(hù)發(fā)布信息的過(guò)程模擬成非齊次泊松過(guò)程(nonhomogeneous Poisson process),從而可根據(jù)不同配置參數(shù)產(chǎn)生帶有相應(yīng)分布的社交媒體時(shí)間軸數(shù)據(jù)。

        社交媒體時(shí)間線中的元組間轉(zhuǎn)發(fā)相關(guān)性隨著時(shí)間間隔變大而衰減。BSMA-Gen采用衰退函數(shù)模擬這一關(guān)系,并通過(guò)維護(hù)歷史元組緩沖池和待產(chǎn)生元組緩沖池實(shí)現(xiàn)了元素的流式產(chǎn)生。同時(shí),為了進(jìn)一步加快時(shí)間線的產(chǎn)生速度,BSMA-Gen采用主從(master-slave)結(jié)構(gòu),由主節(jié)點(diǎn)進(jìn)行發(fā)布者社交網(wǎng)絡(luò)劃分。每個(gè)從節(jié)點(diǎn)負(fù)責(zé)一個(gè)分區(qū)中所有發(fā)布者所發(fā)布的消息組成的部分時(shí)間線的生成。當(dāng)一個(gè)從節(jié)點(diǎn)需要從其他分

        4.3 負(fù)載

        BSMA提供了24個(gè)典型社交媒體數(shù)據(jù)分析型查詢(xún)負(fù)載1https://github. com/c3bd/BSMA。每個(gè)負(fù)載反映了一種或多種社交媒體數(shù)據(jù)分析的特性。BSMA負(fù)載主要覆蓋了以下3類(lèi)查詢(xún)特性。

        ● 社交網(wǎng)絡(luò)查詢(xún)(social network query,SNQ):社交網(wǎng)絡(luò)的查詢(xún)圍繞消息發(fā)布者的關(guān)系展開(kāi)。它的目標(biāo)是查詢(xún)社交網(wǎng)絡(luò)的某個(gè)特定模式或子圖。

        ● 時(shí)間線查詢(xún)(timeline query,TQ):在社交媒體中,時(shí)間線(timeline)是指以時(shí)間逆序排列的消息序列,序列中消息的條數(shù)即時(shí)間線的長(zhǎng)度。時(shí)間線廣義上可分全局時(shí)間線(global timeline)和局部時(shí)間線(local timeline)兩種,全局時(shí)間線中的消息來(lái)自社交媒體中的任意用戶(hù),而局部時(shí)間線則限制了用戶(hù)范圍。時(shí)間線查詢(xún)的本質(zhì)是對(duì)于時(shí)間序列的查詢(xún)。

        ● 熱點(diǎn)查詢(xún)(hotspot query,HQ):熱點(diǎn)是指在某個(gè)特定的時(shí)間線內(nèi)消息中滿(mǎn)足某些過(guò)濾條件且統(tǒng)計(jì)值最大的某類(lèi)元素的集合。由于社交媒體中數(shù)據(jù)的統(tǒng)計(jì)值分布常符合冪律(power-law)分布,對(duì)熱點(diǎn)的查詢(xún)?cè)谶M(jìn)行數(shù)據(jù)連接(join)和聚集(aggregation)計(jì)算時(shí)往往需要遠(yuǎn)超出查詢(xún)其他元素的存儲(chǔ)和計(jì)算開(kāi)銷(xiāo)。

        處理這些負(fù)載可能需要對(duì)兩個(gè)大的集合(關(guān)系)進(jìn)行連接操作、對(duì)大集合進(jìn)行多屬性查詢(xún)或?qū)Υ蠹线M(jìn)行聚集計(jì)算,而這些操作的處理通常是耗時(shí)、耗存儲(chǔ)資源的。因此,這些負(fù)載能夠測(cè)試數(shù)據(jù)管理系統(tǒng)在社交媒體數(shù)據(jù)分析這一特定應(yīng)用中的性能表現(xiàn)。

        4.4 評(píng)測(cè)指標(biāo)與評(píng)測(cè)方法

        BSMA使用以下3個(gè)性能評(píng)判指標(biāo)。對(duì)于24個(gè)典型負(fù)載的組合,計(jì)算出這3個(gè)指標(biāo)的值,以此來(lái)衡量查詢(xún)處理性能。當(dāng)然,查詢(xún)執(zhí)行的正確性是性能度量的基本前提。

        ● 吞吐率指標(biāo):吞吐率指單位時(shí)間內(nèi)完成的查詢(xún)數(shù)。在這里,吞吐率指標(biāo)度量的是在不同線程數(shù)設(shè)置下能達(dá)到的吞吐率最高值,這個(gè)值越高意味著性能越好。

        ● 延時(shí)指標(biāo):延時(shí)指一個(gè)查詢(xún)從發(fā)起請(qǐng)求到返回結(jié)果所需的時(shí)間。在這里,延時(shí)指標(biāo)度量的是在不同線程數(shù)設(shè)置下所達(dá)到的次高吞吐率下(即系統(tǒng)未過(guò)載時(shí))的查詢(xún)延時(shí),這個(gè)值越低意味著性能越好。

        ● 擴(kuò)展性指標(biāo):擴(kuò)展性指隨著吞吐率的提高系統(tǒng)維持延時(shí)的能力。在這里,擴(kuò)展性指標(biāo)度量的是用最小二乘法擬合多個(gè)數(shù)據(jù)點(diǎn)的直線斜率。這些數(shù)據(jù)點(diǎn)對(duì)應(yīng)不同線程數(shù)設(shè)置下的吞吐量(橫坐標(biāo))和延時(shí)(縱坐標(biāo)),擬合直線越平滑意味著擴(kuò)展性越好。

        5 相關(guān)工作

        數(shù)據(jù)庫(kù)評(píng)測(cè)基準(zhǔn)研究在關(guān)系數(shù)據(jù)管理和非關(guān)系型數(shù)據(jù)管理方面均取得較大進(jìn)展。針對(duì)大數(shù)據(jù)管理領(lǐng)域的基準(zhǔn)評(píng)測(cè)工作則剛起步。圖5概要地展示了數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的發(fā)展過(guò)程[11]。

        5.1 面向關(guān)系模型的數(shù)據(jù)庫(kù)系統(tǒng)評(píng)測(cè)基準(zhǔn)

        圖5 數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的發(fā)展

        早期數(shù)據(jù)庫(kù)評(píng)測(cè)基準(zhǔn)主要針對(duì)RDBMS,相關(guān)研究持續(xù)至今。事務(wù)處理委員會(huì)(TPC)是事實(shí)上的工業(yè)化標(biāo)準(zhǔn)組織,已經(jīng)提出多個(gè)基準(zhǔn)來(lái)評(píng)測(cè)RDBMS[12]?,F(xiàn)有RDBMS評(píng)測(cè)基準(zhǔn)可被劃分為3類(lèi):面向聯(lián)機(jī)事務(wù)處理(OLTP)、面向聯(lián)機(jī)分析處理(OLAP)以及同時(shí)支持OLAP和OLTP的評(píng)測(cè)基準(zhǔn)。

        ● 面向OLTP的基準(zhǔn):面向OLTP的基準(zhǔn)評(píng)測(cè)包括威斯康星基準(zhǔn)[2]、DebitCredit[13]、AS3AP[14]、TPC-C和TPC-E2http://www.tpc. org等。其中,TPC-C和TPC-E目前仍在使用。它們分別仿真?zhèn)}庫(kù)訂單管理應(yīng)用和證券交易應(yīng)用。

        ● 面向OLAP的基準(zhǔn):此類(lèi)基準(zhǔn)的負(fù)載包含大量聚集查詢(xún),包括SetQuery[15]、SSB[16]、TPC-H和TPC-DS等。其中TPC-H和TPC-DS目前仍在使用,分別模擬商務(wù)采購(gòu)應(yīng)用和決策支持應(yīng)用。

        ● 同時(shí)支持OLAP和OLTP的基準(zhǔn):部分新興數(shù)據(jù)管理技術(shù)支持同時(shí)具有OLAP和OLTP需求的應(yīng)用。CH-Benchmark基準(zhǔn)有效融合了TPC-C和TPC-H兩個(gè)基準(zhǔn),同時(shí)支持OLAP和OLTP評(píng)測(cè)3http://wwwdb.in.tum.de/ research/projects/ CH-benCHmark/。CBTR則提供了OLAP/OLTP復(fù)合負(fù)載[17]。

        5.2 面向非關(guān)系型數(shù)據(jù)的基準(zhǔn)設(shè)計(jì)

        數(shù)據(jù)管理技術(shù)發(fā)展的過(guò)程是不斷地將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,納入DBMS,從而降低管理成本、提高利用效率的過(guò)程。針對(duì)各種非關(guān)系型數(shù)據(jù),有不同的基準(zhǔn)對(duì)相關(guān)技術(shù)和系統(tǒng)進(jìn)行評(píng)測(cè),見(jiàn)表1。

        5.3 面向大數(shù)據(jù)管理技術(shù)的基準(zhǔn)編程模式(paradigm)。此類(lèi)基準(zhǔn)主要評(píng)測(cè)MapReduce實(shí)現(xiàn)的性能。面向特定功能的此類(lèi)基準(zhǔn)包括:模擬TPC-H的MRBench[33]、評(píng)測(cè)HDFS文件系統(tǒng)的TestDFSIO[34]、Hadoop自帶的Sort[34]和用于測(cè)試Pig的PigMix[35]等。此外,一些基準(zhǔn)可同時(shí)評(píng)測(cè)多種功能,如評(píng)測(cè)Hadoop整體性能的GridMix4http://hadoop. apache.org/ mapreduce/docs/ current/gridmix. html、混合功能基準(zhǔn)Intel HiBench5https://github. com/intelhadoop/Hibench以及涵蓋了常用數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)操作的CloudRank-D[36]。

        ● BDMS基準(zhǔn)評(píng)測(cè):CALDA基準(zhǔn)可比較不同BDMS的性能[4]。YCSB[37]及其擴(kuò)展YCSB++[38]可從性能和可擴(kuò)展性?xún)蓚€(gè)層面評(píng)測(cè)云服務(wù)系統(tǒng)。Floratou等人對(duì)面向文檔的NoSQL系統(tǒng)、面向決策支持的系統(tǒng)以及商用的DBMS進(jìn)行了性能評(píng)測(cè)[39]。Rabl等人則比較了6種開(kāi)源數(shù)據(jù)存儲(chǔ)系統(tǒng)在不同負(fù)載下的性能[40]。

        ● 面向應(yīng)用的大數(shù)據(jù)基準(zhǔn)評(píng)測(cè):BigBench是一種面向商品零售業(yè)的基準(zhǔn),擴(kuò)展了TPC-DS[41]。LinkBench是一個(gè)由Facebook提出,基于真實(shí)社交網(wǎng)絡(luò)應(yīng)用的大規(guī)模圖數(shù)據(jù)評(píng)測(cè)基準(zhǔn)[42]。而LDBC則是由歐盟資助的鏈接數(shù)據(jù)管理基準(zhǔn)評(píng)測(cè)組織,并已發(fā)布多個(gè)評(píng)測(cè)基準(zhǔn)[43]。

        不同的BDMS的功能和接口各不相同。當(dāng)前的BDMS基準(zhǔn)評(píng)測(cè)研究工作從以下3個(gè)方面展開(kāi)。

        ● 評(píng)測(cè)MapReduce功能的基準(zhǔn):MapReduce是大數(shù)據(jù)處理中最常用的

        5.4 國(guó)內(nèi)的相關(guān)工作

        表1 典型的面向非關(guān)系數(shù)據(jù)管理任務(wù)的評(píng)測(cè)基準(zhǔn)

        針對(duì)新型計(jì)算機(jī)系統(tǒng)的基準(zhǔn)評(píng)測(cè)、新型DBMS的性能測(cè)試、新型數(shù)據(jù)庫(kù)基準(zhǔn)評(píng)測(cè)等問(wèn)題,國(guó)內(nèi)學(xué)者也開(kāi)展了廣泛而深入的研究。

        在新型計(jì)算機(jī)系統(tǒng)的基準(zhǔn)評(píng)測(cè)方面,中國(guó)科學(xué)院計(jì)算技術(shù)研究所提出了ICTBench6http://prof.ict. ac.cn/ICTBench/,包含面向數(shù)據(jù)倉(cāng)庫(kù)負(fù)載的DCBench[44,45]、面向BDMS的BigDataBench[46,47]和面向云計(jì)算系統(tǒng)的CloudRank[36]3個(gè)部分。中國(guó)人民大學(xué)孟小峰等人提出了CloudBM基準(zhǔn)來(lái)評(píng)測(cè)云數(shù)據(jù)管理系統(tǒng)[48]。清華大學(xué)鄭緯民等人利用代表性的基準(zhǔn)測(cè)試對(duì)NAS存儲(chǔ)系統(tǒng)進(jìn)行了研究、比較和分析[49]。

        大數(shù)據(jù)應(yīng)用中廣泛使用了包括內(nèi)存數(shù)據(jù)庫(kù)、NoSQL/NewSQL系統(tǒng)在內(nèi)的大量新型DBMS。中國(guó)人民大學(xué)王珊等人利用TPC-H評(píng)測(cè)了多款內(nèi)存數(shù)據(jù)庫(kù)的性能[50];杜小勇等人使用TPC-DS基準(zhǔn),在100個(gè)節(jié)點(diǎn)的集群上,對(duì)5種主流的開(kāi)源BDMS進(jìn)行了全面深入的測(cè)試與分析,并在2013年的中國(guó)大數(shù)據(jù)技術(shù)大會(huì)上報(bào)告。華東師范大學(xué)金澈清等人提出了MemTest,以評(píng)測(cè)內(nèi)存DBMS的主要性能特性[51]。清華大學(xué)王建民團(tuán)隊(duì)在NoSQL數(shù)據(jù)庫(kù)基礎(chǔ)上,實(shí)現(xiàn)了MOLAP引擎,并使用TPCDC基準(zhǔn)進(jìn)行了測(cè)試[52]。此外,他們?cè)贠LAP系統(tǒng)的性能測(cè)試[53]、DBMS性能測(cè)試[54]等方面做了重要的基礎(chǔ)性工作。上海交通大學(xué)使用BigDataBench來(lái)評(píng)測(cè)數(shù)據(jù)中心上的資源共享策略[55];西安交通大學(xué)則使用這一基準(zhǔn)來(lái)診斷大數(shù)據(jù)系統(tǒng)中的性能瓶頸[56]。

        在BDMS的評(píng)測(cè)基準(zhǔn)開(kāi)發(fā)方面,BigDataBench包含了6個(gè)應(yīng)用場(chǎng)景的數(shù)據(jù)集合和19類(lèi)負(fù)載[46,47]。華東師范大學(xué)提出了一種面向社交媒體數(shù)據(jù)分析型查詢(xún)處理的評(píng)測(cè)基準(zhǔn)BSMA[8,9];提出了一種并行社交媒體數(shù)據(jù)生成方法,以仿真微博等社交媒體數(shù)據(jù)[10]。周敏奇等人則設(shè)計(jì)了一種更為通用的可擴(kuò)展的高仿真數(shù)據(jù)生成器框架[57]。而清華大學(xué)則針對(duì)工作流數(shù)據(jù)管理系統(tǒng)的負(fù)載生成開(kāi)展了研究[58]。

        6 結(jié)束語(yǔ)

        在“大數(shù)據(jù)”熱潮下,大數(shù)據(jù)管理系統(tǒng)的研發(fā)和應(yīng)用進(jìn)展迅速,而相應(yīng)的評(píng)測(cè)基準(zhǔn)理論和方法研究則剛剛起步。針對(duì)大數(shù)據(jù)應(yīng)用,特別是我國(guó)金融、電信、電子商務(wù)等具有鮮明應(yīng)用特點(diǎn)的大數(shù)據(jù)應(yīng)用的特點(diǎn),遵循“同類(lèi)適用”原則,從數(shù)據(jù)生成、負(fù)載生成、性能指標(biāo)體系和測(cè)量方法這3個(gè)角度入手,解決應(yīng)用環(huán)境適配和仿真、科學(xué)和公平評(píng)測(cè)、評(píng)測(cè)結(jié)果比較與分析等問(wèn)題,是大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)研究的重要問(wèn)題?,F(xiàn)有的工作從應(yīng)用和系統(tǒng)建模、數(shù)據(jù)仿真、數(shù)據(jù)和負(fù)載的高效生成、多維度性能指標(biāo)設(shè)計(jì)等角度開(kāi)展了研究。但對(duì)于設(shè)計(jì)和實(shí)現(xiàn)具有良好仿真能力、高適配能力的評(píng)測(cè)基準(zhǔn)而言,非結(jié)構(gòu)化數(shù)據(jù)仿真、超高負(fù)載環(huán)境模擬與評(píng)測(cè)方法、兼顧分析效果和性能的度量指標(biāo)、開(kāi)放環(huán)境下的性能評(píng)測(cè)和評(píng)測(cè)結(jié)果分析等問(wèn)題仍是具有挑戰(zhàn)性的研究問(wèn)題。

        [1] Gray J. Benchmark handbook for database and transaction system (2nd edition). San Francisco: Morgan Kaufmann, 1993

        [2] Bitton D, DeWitt D J, Turbyfil C. Benchmarking database systems: a systematic approach. Proceedings of the 9th VLDB Conference, Florence, Italy, 1983

        [3] Laney D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Technical Report, Meta Group, 2001

        [4] Pavlo A, Paulson E, Rasin A, et al. A comparison of approaches to largescale data analysis. Proceedings of ACMSIGMOD/PODS Conference, Providence, Rhode Island, USA, 2009

        [5] Carey M J. BDMS performance evaluation: practices, pitfalls, and possibilities. Proceedings of the 4th TPC Technology Conference, Istanbul, Turkey, 2012

        [6] Volker Markl. Big Data. VLDB Database Summer School (China) Slides, 2013

        [7] Stonebraker M. Technical perspective one size fits all: an idea whose time has come and gone. Communications of the ACM, 2008, 51(12)

        [8] Ma H X, Wei J X, Qian W N, et al. On benchmarking online social media analytical queries. Proceedings of Graph Data-management Experiences & Systems, New York, USA, 2013

        [9] Xia F, Li Y, Yu C C, et al. BSMA: A benchmark for analytical queries over social media data. Proceedings of the VLDB Endowment, 2014, 7(13): 1573~1576

        [10] Yu C C, Fan X, Qian W N, et al. BSMAGen: a parallel synthetic data generator for social media timeline structures. Proceedings of the 19th International Conference on Database Systems for Advanced Applications, Bali, Indonesia, 2014

        [11] 金澈清, 錢(qián)衛(wèi)寧, 周敏奇等. 數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn): 從傳統(tǒng)數(shù)據(jù)庫(kù)到新興大數(shù)據(jù). 計(jì)算機(jī)學(xué)報(bào). 2015, 38(1): 18~34 Jin C Q, Qian W N, Zhou M Q, et al. Benchmarking data management systems: from traditional database to emergent big data. Chinese Journal of Computers, 2015, 38(1): 18~34

        [12] Nambiar R, Wakou N, Masland A, et al. Shaping the landscape of industry standard benchmarks: contributions of the transaction processing performance council (TPC). Proceedings of the 3rd TPC Technology Conference, Seattle, Wa, USA, 2011

        [13] Bitton D, Brown M, Catell R, et al. A measure of transaction processing power. Datamation, 1985, 31(7): 112~118

        [14] Turbyfill C, Orji C, Bitton D. AS3AP-An ANSI SQL Standard Scalable and Portable Benchmark for Relational Database Systems. Chapter 5, Benchmark handbook for database and transaction system (2nd edition). San Francisco: Morgan Kaufmann, 1993

        [15] O’Neil. Revisiting DBMS benchmarks. Datamation, 1989, 35(9): 47~52

        [16] O’Neil P, O’Neil B, Chen X D. The Star Schema Benchmark (SSB). University of Massachusetls, Boston, 2007

        [17] Bog A. Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and Its Application. Berlin: Springer, 2013

        [18] Cattell R G G, Skeen J. Object operations benchmark. ACM Transactions on Database Systems, 1992, 17(1): 1~31

        [19] Carey M J, DeWitt D J, Naughton J F. The OO7 benchmark. Proceedings of ACM SIGMOD International Conference on Management of Data, Washington, DC, USA, 1993

        [20] Anderson T L, Berre A J, Mallison M, et al. The HyperModel benchmark. Proceedings of the 2nd International Conference on Extending Database Technology: Advances in Database Technology, Venice, Italy, 1990

        [21] Carey M J, DeWitt D J, Naughton J F, et al. The BUCKY object-relational benchmark. Proceedings of ACM SIGMOD International Conference on Management of Data, Tucson, Arizona, USA, 1997

        [22] Runapongsa K, Patel J M, Jagadish H V, et al. The Michigan benchmark: towards XML query performance diagnostics. Information Systems, 2006, 31(2): 73~97

        [23] Yao B, Ozsu M T, Khandelwal N. XBench benchmark and performance testing of XML DBMSs. Proceedings of the 30th IEEE International Conference on Data Engineering, Chicago, IL, USA, 2004

        [24] Bōh(huán)me T, Rahm E. Multi-user evaluationof XML data management systems with XMach-1. Proceedings of the Workshop on Efficiency and Effectiveness of XML Tools and Techniques (EEXTT), Heidelberg, Germany, 2002

        [25] Schmidt A, Waas F, Kersten M, et al. XMark: a benchmark for XML data management. Proceedings of the 28th International Conference on Very Large Data Bases, Hong Kong, China, 2002

        [26] Li Y, Bressan S, Dobbie G, et al. XOO7: applying OO7 benchmark to XML query processing tools. Proceedings of Conference on Information and Knowledge Management, Washington, DC, USA, 2001

        [27] Nicola M, Kogan I, Schiefer B. An XML transaction processing benchmark. Proceedings of the 26th ACM SIGMODSIGACT-SIGART Symposium on Principles of Database Systems, Beijing, China, 2007

        [28] Werstein P. A performance benchmark for spatiotemporal databases. Proceedings of the 10th Annual Colloquium of the Spatial Information Research Centre, Dunedin, New Zealand, 1998

        29 Myllymaki J, Kaufman J. DynaMark: a benchmark for dynamic spatial indexing. Proceedings of the 4th International Conference on Mobile Data Management, Melbourne, Australia, 2003

        ]30] Jensen C, Tiesyte D, Tradisauskas N. The COST benchmark-comparison and evaluation of spatio-temporal indexes. Proceedings of the 11th International Conference on Database Systems for Advanced Applications, Singapore, 2006

        [31] Düntgen C, Behr T, Güting R H. BerlinMOD: a benchmark for moving object databases. The VLDB Journal, 2009, 18(6): 1335~1368

        [32] Arasu A, Cherniack M, Galvez E, et al. Linear road: a stream data management benchmark. Proceedings of the 30th International Conference on Very Large Data Bases, Toronto, Canada, 2004

        [33] Kim K, Jeon K, Han H, et al. MRBench: a benchmark for MapReduce framework. Proceedings of the 14th IEEE International Conference on Parallel and Distributed Systems, Melbourne, Victoria, Australia, 2008

        [34] White T. Hadoop權(quán)威指南(第二版). 周敏奇, 王曉玲,金澈清等譯. 北京: 清華大學(xué)出版社, 2011 White T. Hadoop: The Definitive Guide. Translated by Zhou M Q, Wang X L, Jin C Q, et al. Beijing: Tsinghua University Press, 2011

        [35] Daniel. Pig mix. https://cwiki.apache.org/ confluence/display/PIG/PigMix, 2013

        [36] Luo C, Zhan J, Jia Z, et al. CloudRank-D: benchmarking and ranking cloud computing systems for data processing applications. Frontiers of Computer Science, 2012, 6(4): 347~362

        [37] Cooper B, Silberstein A, Tam E, et al. Benchmarking cloud serving systems with YCSB. Proceedings of ACM Symposium on Cloud Computing, Indianapolis, IN, USA, 2010

        [38] Patil S, Polte M, Ren K, et al. YCSB++: benchmarking and performance debugging advanced features in scalable table stores. Proceedings of ACM Symposium on Cloud Computing, Cascais, Portugal, 2011

        [39] Floratou A, Teletia N, DeWitt D J, et al. Can the elephants handle the NoSQL onslaught. Proceedings of the VLDB Endowment, 2012, 5(12): 1712~1723

        [40] Rabl T, Gómez-Villamor S, Sadoghi M, et al. Solving big data challenges for enterprise application performance management. Proceedings of the VLDB Endowment, 2012, 5(12): 1724~1735

        [41] Ghazal A, Rabl T, Hu M, et al. BigBench: towards an industry standard benchmark for big data analytics. Proceedings of ACM SIGMOD/PODS Conference, New York, USA, 2013

        [42] Armstrong T G , Ponnekanti V,Borthakur D, et al. LinkBench: a database benchmark based on the Facebook social graph. Proceedings of the ACM SIGMOD/ PODS Conference, New York, USA, 2013

        [43] Boncz P A, Fundulaki I, Gubichev A, et al. The linked data benchmark council project. Datenbank-Spektrum, 2013, 13(2):121~129

        [44] Jia Z, Wang L, Zhan J, et al. Characterizing data analysis workloads in data centers. Proceedings of IEEE International Symposium on Workload Characterization, Portland, OR, USA, 2013 [45] Xi H F, Zhan J F, Zhen J, et al. Characterization of Real Workloads of Web Search Engines. Proceedings of IEEE International Symposium on Workload Characterization, Austin, TX , USA, 2011

        [46] Wang L, Zhan J F, Luo C J, et al. BigDataBench: a big data benchmark suite from internet services. Proceedings of the 24th IEEE International Symposium on High Perfornance Computer Architecture, Orlando, Florida, USA, 2014

        [47] Zhu Y, Zhan J. BigOP: generating comprehensive big data workloads as a benchmarking framework. Proceedings of the 19th International Conference on Database Systems for Advanced Applications, Bali, Indonesia, 2014

        [48] 劉兵兵,孟小峰,史英杰. CloudBM:云數(shù)據(jù)管理系統(tǒng)測(cè)試基準(zhǔn). 計(jì)算機(jī)科學(xué)與探索, 2012, 6(6): 504~512 Liu B B, Meng X F, Shi Y J. CloudBM: a benchmark for cloud data management systems. Journal of Frontiers of Computer Science and Technology, 2012, 6(6): 504~512

        [49] 付長(zhǎng)冬, 舒繼武, 沈美明等. 網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)性能基準(zhǔn)的研究、評(píng)價(jià)與發(fā)展. 小型微型計(jì)算機(jī)系統(tǒng), 2004, 25(12): 2049~2054 Fu C D, Shu J W, Shen M M, et al. Evaluation, research and development of performance benchmark on network storage system. Journal of Chinese Computer Systems, 2004, 25(12): 2049~2054

        [50] 劉大為,欒華,王珊等. 內(nèi)存數(shù)據(jù)庫(kù)在TPC-H負(fù)載下的處理器性能. 軟件學(xué)報(bào), 2008, 19(10): 2574~2584 Liu D W, Luan H, Wang S, et al. Main memory database TPC-H workload characterization on modern processor. Journal of Software, 2008, 19(10): 2574~2584

        [51] Kang Q Q, Jin C Q, Zhang Z, et al. MemTest: a novel benchmark for inmemory database. Proceedings of the 5th Workshop on Big Data Benchmarks, Performance Optimization, and Emerging Hardware, Hangzhou, China, 2014

        [52] Zhao H W, Ye X J. A practice of TPCDS multidimensional implementation on NoSQL database systems. Proceedings of the 5th TPC Technology Conference, Trento, Italy, 2013

        [53] 趙博,葉曉俊. OLAP性能測(cè)試方法研究與實(shí)現(xiàn). 計(jì)算機(jī)研究與發(fā)展, 2011, 48(10): 1951~1959 Zhao B, Ye X J. Study and implementation of OLAP performance benchmark. Journal of Computer Research and Development, 2011, 48(10): 1951~1959

        [54] 葉曉俊,王建民. DBMS性能評(píng)價(jià)指標(biāo)體系. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(增刊): 313~318 Ye X J, Wang J M. DBMS performance evaluation indicators. Journal of Computer Research and Development, 2009, 46(suppl.): 313~318

        [55] Ning F F, Weng C L, Luo Y. Virtualization I/O optimization based on shared memory. Proceedings of the IEEE International Conference on Big Data, Santa Clara, USA, 2013

        [56] Chen P, Qi Y, Li X, et al. An ensemble MIC-based approach for performance diagnosis in big data platform. Proceedings of the IEEE International Conference on Big Data, Santa Clara, USA, 2013

        [57] Gu L, Zhou M Q, Zhang Z J, et al. Chronos: an elastic parallel framework for stream benchmark generation and simulation. Proceedings of the 31stIEEE International Conference on Data Engineering, Seoul, Korea, 2015

        [58] Du N Q, Ye X J, Wang J M. Towards workflow-driven database system workload modeling. Proceedings of the 2nd International Workshop on Testing Database Systems, Providence, Rhode Island, USA, 2009

        錢(qián)衛(wèi)寧,男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院教授、博士生導(dǎo)師,研究興趣包括互聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)管理、大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)、社交媒體數(shù)據(jù)分析、知識(shí)圖譜構(gòu)建與應(yīng)用等。

        夏帆,男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院博士生,研究興趣包括分布式查詢(xún)處理、社交媒體數(shù)據(jù)基準(zhǔn)測(cè)試、社交媒體數(shù)據(jù)管理。

        周敏奇,男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院副教授、碩士生導(dǎo)師,研究興趣主要包括內(nèi)存事務(wù)處理系統(tǒng)、內(nèi)存分析處理系統(tǒng)、計(jì)算廣告學(xué)。

        金澈清,男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院教授、博士生導(dǎo)師,研究興趣主要包括基于位置的服務(wù)、數(shù)據(jù)流管理、不確定數(shù)據(jù)管理和數(shù)據(jù)基準(zhǔn)評(píng)測(cè)。

        周傲英,男,華東師范大學(xué)長(zhǎng)江學(xué)者特聘教授、數(shù)據(jù)科學(xué)與工程研究院院長(zhǎng),研究興趣主要包括Web數(shù)據(jù)管理、數(shù)據(jù)密集型計(jì)算、內(nèi)存集群計(jì)算、分布事務(wù)處理、大數(shù)據(jù)基準(zhǔn)測(cè)試和性能優(yōu)化。

        Qian W N, Xia F, Zhou M Q, et al. Challenges and progress of big data management system benchmarks. Big Data Research, 2015008

        Challenges and Progress of Big Data Management System Benchmarks

        Qian Weining, Xia Fan, Zhou Minqi, Jin Cheqing, Zhou Aoying
        Institute for Data Science and Engineering, East China Normal University, Shanghai 200062, China

        Database benchmarking has stimulated the development of data management systems and technologies. In big data environments, benchmarking should be revisited. Therefore, research on benchmarks for big data management systems is a key problem for big data research and applications. Benchmark design can be achieved from three different perspectives, i.e. data, workload, and performance measurements. After the brief introduction to these three elements and the progress of big data management system research, the requirements and challenges to benchmarking big data management systems were analyzed. Through the introduction to a benchmark for analytical queries over social media data, named as BSMA, the issues of design and implementation of a benchmark for big data management systems were discussed.

        big data management system, benchmark, data generation, workload generation, performance measurement

        2015-05-01;修回時(shí)間:2015-05-07

        國(guó)家自然科學(xué)基金資助項(xiàng)目(No. 61432006),上海市教委科研創(chuàng)新重點(diǎn)項(xiàng)目(No.14ZZ045)

        Foundation Items:The National Natural Science Foundation of China (No. 61432006), The Shanghai Municipal Education Commission Scientific Research Innovation Key Project (No.14ZZ045)

        錢(qián)衛(wèi)寧,夏帆,周敏奇等. 大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的挑戰(zhàn)與研究進(jìn)展. 大數(shù)據(jù), 2015008

        猜你喜歡
        評(píng)測(cè)度量基準(zhǔn)
        有趣的度量
        模糊度量空間的強(qiáng)嵌入
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
        Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
        明基準(zhǔn)講方法??待R
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
        滑落還是攀爬
        在线视频精品少白免费观看| 麻豆av传媒蜜桃天美传媒| 不卡一卡二卡三乱码免费网站| 国产无遮挡又黄又爽在线视频| 国产精品女同一区二区久久| 白丝美女扒开内露出内裤视频| 国产精品黑丝美女啪啪啪| 国产午夜精品一区二区三区嫩草| 欧美成人激情在线| 国内精品熟女一区二区| 99久久婷婷国产亚洲终合精品| 亚洲国产成人片在线观看无码| 国产网站视频| 青青草99久久精品国产综合| 玖玖资源网站最新网站| 一区二区三区蜜桃av| 久久99亚洲精品久久久久 | 国产精品186在线观看在线播放 | 伊人久久无码中文字幕| 无码一区二区三区在| 日本高清免费播放一区二区| 日韩少妇人妻中文字幕| 精品免费看国产一区二区| 日韩丝袜亚洲国产欧美一区| 亚洲精品中文字幕熟女| 欧美大胆性生话| 亚洲国产日韩欧美一区二区三区| 久久久久亚洲AV无码专区喷| 免费在线观看草逼视频| 国产亚洲精品美女久久久m| 国产精品99久久久久久宅男| 精品人妻av区乱码| 中文字字幕在线中文乱码解| 最近中文字幕完整版免费| 国产精彩视频| 女人天堂国产精品资源麻豆| 免费国产a国产片高清网站| 无码中文字幕在线DVD| 免费一区二区三区av| 69国产成人精品午夜福中文| 亚洲经典三级|