亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云環(huán)境下影響數(shù)據(jù)分布并行應(yīng)用執(zhí)行效率的因素分析

        2017-09-22 13:43:09馬生俊陳旺虎俞茂義李金溶郟文博
        計(jì)算機(jī)應(yīng)用 2017年7期
        關(guān)鍵詞:數(shù)據(jù)分布網(wǎng)絡(luò)拓?fù)?/a>數(shù)據(jù)量

        馬生俊,陳旺虎,俞茂義,李金溶,郟文博

        (西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070) (*通信作者電子郵箱1780761723@qq.com)

        云環(huán)境下影響數(shù)據(jù)分布并行應(yīng)用執(zhí)行效率的因素分析

        馬生俊*,陳旺虎,俞茂義,李金溶,郟文博

        (西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070) (*通信作者電子郵箱1780761723@qq.com)

        云環(huán)境下,類似MapReduce的數(shù)據(jù)分布并行應(yīng)用被廣泛運(yùn)用。針對(duì)此類應(yīng)用執(zhí)行效率低、成本高的問(wèn)題,以Hadoop為例,首先,分析該類應(yīng)用的執(zhí)行方式,發(fā)現(xiàn)數(shù)據(jù)量、節(jié)點(diǎn)數(shù)和任務(wù)數(shù)是影響其效率的主要因素;其次,探討以上因素對(duì)應(yīng)用效率的影響;最后,通過(guò)實(shí)驗(yàn)得出在數(shù)據(jù)量一定的情況下,增加節(jié)點(diǎn)數(shù)不會(huì)明顯提高應(yīng)用的執(zhí)行效率,反而極大地增加執(zhí)行成本;當(dāng)任務(wù)數(shù)接近節(jié)點(diǎn)數(shù)時(shí),應(yīng)用的執(zhí)行效率較高、成本較低。該結(jié)論為云環(huán)境中類似MapReduce的數(shù)據(jù)分布并行應(yīng)用的效率優(yōu)化提供借鑒,并為用戶租用云資源提供參考。

        云環(huán)境;數(shù)據(jù)分布并行應(yīng)用;MapReduce;效率;成本

        0 引言

        隨著互聯(lián)網(wǎng)應(yīng)用的蓬勃發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)[1]。數(shù)據(jù)來(lái)源廣而快,數(shù)據(jù)量龐大而多樣,常規(guī)的處理方法已很難滿足需求,云計(jì)算(Cloud Computing)應(yīng)運(yùn)而生。云計(jì)算理論上可以提供無(wú)窮的計(jì)算能力和存儲(chǔ)能力,用戶按需租用供應(yīng)商提供的計(jì)算資源和存儲(chǔ)資源[2],如Google、Amazon、IBM、百度、騰訊、阿里巴巴等擁有各自的云環(huán)境租給用戶執(zhí)行計(jì)算和存儲(chǔ)等操作。在云環(huán)境中,提供給用戶的計(jì)算資源和存儲(chǔ)資源通常對(duì)應(yīng)一定數(shù)量和類型的節(jié)點(diǎn),節(jié)點(diǎn)類型限定了其處理能力、吞吐量、單位時(shí)間的費(fèi)用等特性[3]。

        作為用戶,在任務(wù)完成的基礎(chǔ)上,更重要的是關(guān)心如何節(jié)省費(fèi)用和時(shí)間以減少租用成本保障自身的利益。比如說(shuō),如何花費(fèi)最少的時(shí)間和金錢完成最多的應(yīng)用。然而,用戶執(zhí)行應(yīng)用、處理數(shù)據(jù)時(shí),一方面,要求執(zhí)行時(shí)間短,就應(yīng)該租用較多的節(jié)點(diǎn)并發(fā)地執(zhí)行,若節(jié)點(diǎn)數(shù)過(guò)多且數(shù)據(jù)量過(guò)小,可能造成資源利用率的降低,增加資源使用成本;另一方面,要求花費(fèi)金錢少,就應(yīng)該租用較少的節(jié)點(diǎn),若節(jié)點(diǎn)數(shù)過(guò)少且數(shù)據(jù)量過(guò)大,將導(dǎo)致任務(wù)執(zhí)行時(shí)間延長(zhǎng),同樣增加最終執(zhí)行成本[4]??梢?,對(duì)用戶來(lái)說(shuō),執(zhí)行時(shí)間和處理費(fèi)用是一對(duì)矛盾體,很難達(dá)到“既要馬兒跑又叫馬兒不吃草”的目標(biāo);但用戶確實(shí)存在這樣的需求,如何盡量滿足用戶的這種需求?為此,應(yīng)該著眼于應(yīng)用的執(zhí)行效率,提高每個(gè)節(jié)點(diǎn)的利用率,租用適當(dāng)?shù)墓?jié)點(diǎn)數(shù)以降低執(zhí)行成本、滿足用戶需求。

        如何提高應(yīng)用的執(zhí)行效率、減少執(zhí)行成本已成為一大研究熱點(diǎn),而分析影響應(yīng)用執(zhí)行效率和執(zhí)行成本的各類因素及其內(nèi)在關(guān)系至關(guān)重要。本文以Hadoop為例,重點(diǎn)分析云環(huán)境中影響數(shù)據(jù)分布并行應(yīng)用執(zhí)行效率的因素,探討因素間的關(guān)系及對(duì)應(yīng)用執(zhí)行效率產(chǎn)生的影響;通過(guò)實(shí)驗(yàn),給出各因素間的變化規(guī)律;總結(jié)實(shí)驗(yàn)結(jié)果,試圖發(fā)現(xiàn)如何確定適當(dāng)個(gè)數(shù)的節(jié)點(diǎn)以提高應(yīng)用的執(zhí)行效率、降低執(zhí)行成本的結(jié)論。

        本文的主要貢獻(xiàn):1)初步探索了在云環(huán)境中影響數(shù)據(jù)分布并行應(yīng)用執(zhí)行效率和租用成本的數(shù)據(jù)量、節(jié)點(diǎn)數(shù)、任務(wù)數(shù)等因素及其相互關(guān)系。2)根據(jù)各因素的變化規(guī)律,發(fā)現(xiàn)數(shù)據(jù)量一定時(shí),增加節(jié)點(diǎn)數(shù)不會(huì)明顯提高應(yīng)用的執(zhí)行效率,反而極大地增加了執(zhí)行成本;任務(wù)數(shù)接近節(jié)點(diǎn)數(shù)時(shí),應(yīng)用的執(zhí)行效率較高、成本較低。

        1 相關(guān)工作

        云計(jì)算作為一種新的計(jì)算模式以其自身的特點(diǎn)和優(yōu)勢(shì)被廣泛地應(yīng)用,如何提高資源利用率、降低應(yīng)用執(zhí)行時(shí)間已成為一個(gè)研究的熱點(diǎn)。針對(duì)該問(wèn)題,目前已開展了許多研究,主要涉及文獻(xiàn)[5-14]等。

        文獻(xiàn)[5]針對(duì)由物理機(jī)和虛擬機(jī)混合組成的異構(gòu)云環(huán)境進(jìn)行Hadoop性能測(cè)試,得出由于虛擬機(jī)的高IO開銷,導(dǎo)致Hadoop的性能相比傳統(tǒng)的純物理節(jié)點(diǎn)集群急劇降低。該文獻(xiàn)采用不同的數(shù)據(jù)量進(jìn)行測(cè)試;但沒有考慮節(jié)點(diǎn)數(shù)和任務(wù)數(shù)的變化對(duì)固定數(shù)據(jù)量執(zhí)行時(shí)間的影響。文獻(xiàn)[6]通過(guò)在OpenStack云平臺(tái)搭建Hadoop集群測(cè)試影響應(yīng)用執(zhí)行性能的因素,得出數(shù)據(jù)量的大小和集群規(guī)模是影響應(yīng)用性能的主要因素;該文獻(xiàn)采用任務(wù)數(shù)的默認(rèn)個(gè)數(shù),沒有考慮在數(shù)據(jù)量和節(jié)點(diǎn)數(shù)一定時(shí)任務(wù)數(shù)的變化對(duì)應(yīng)用執(zhí)行性能的影響。文獻(xiàn)[7]通過(guò)Amazon EC2(Elastic Compute Cloud)兩種不同類型的虛擬機(jī)在Hadoop集群中測(cè)試Wordcount、TeraSort、Grep等多種應(yīng)用,得出集群節(jié)點(diǎn)數(shù)的增加可提高應(yīng)用執(zhí)行效率,降低執(zhí)行時(shí)間;該文獻(xiàn)考慮了節(jié)點(diǎn)數(shù)的變化對(duì)應(yīng)用性能的影響,但沒有考慮數(shù)據(jù)量和任務(wù)數(shù)的變化對(duì)應(yīng)用性能的影響。文獻(xiàn)[8]針對(duì)當(dāng)前對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)涞难芯恐饕性谌绾翁岣咝阅苌?,然而忽略了?shù)據(jù)中心網(wǎng)絡(luò)拓?fù)渑c云計(jì)算機(jī)制的相適應(yīng)問(wèn)題,設(shè)計(jì)了一種支持云計(jì)算的數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)?;該文獻(xiàn)著眼于數(shù)據(jù)中心的網(wǎng)絡(luò)拓?fù)洌岢鲋挥型負(fù)浣Y(jié)構(gòu)和云計(jì)算機(jī)制相匹配的數(shù)據(jù)中心網(wǎng)絡(luò)才能更好地滿足需求。文獻(xiàn)[9]針對(duì)作業(yè)過(guò)程中數(shù)據(jù)傳輸和數(shù)據(jù)處理流程,提出了虛擬網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的優(yōu)化機(jī)制,減少了數(shù)據(jù)傳輸和處理的總開銷,提高了MapReduce云框架處理大數(shù)據(jù)的整體性能。文獻(xiàn)[10]針對(duì)數(shù)據(jù)重分布,充分利用map/reduce空閑、開發(fā)新的混合路由表等方面對(duì)MapReduce進(jìn)行擴(kuò)展提出了“XMR”(eXtensible-MapReduce)模型,應(yīng)用性能得到了提高。文獻(xiàn)[11]針對(duì)Hadoop中處理小文件的4種方法(TextInputFormat默認(rèn)輸入格式、為處理小文件而設(shè)計(jì)的CombineFileInputFormat輸入格式、SequenceFile和Harballing技術(shù))通過(guò)Wordcount應(yīng)用測(cè)試多種典型的數(shù)據(jù)集(信息科學(xué)方面的數(shù)據(jù)集、航空方面的數(shù)據(jù)集、圖書館科學(xué)方面的數(shù)據(jù)集等)得出四種處理方法對(duì)應(yīng)用性能的影響。文獻(xiàn)[12]根據(jù)實(shí)時(shí)作業(yè)的特性,針對(duì)Hadoop自帶的調(diào)度器不能有效支持實(shí)時(shí)作業(yè),設(shè)計(jì)了新的實(shí)時(shí)調(diào)度器,其核心是通過(guò)修改作業(yè)的優(yōu)先級(jí)算法,讓更多作業(yè)能在截止期前完成。文獻(xiàn)[13]歸納Hadoop集群使用到的參數(shù),分析云計(jì)算工作流程中的參數(shù),使參數(shù)和流程一一對(duì)應(yīng),尋找出可以作為性能參數(shù)的參數(shù)值,通過(guò)啟發(fā)式算法進(jìn)一步得到最佳參數(shù)組合,以提高Hadoop云計(jì)算平臺(tái)的性能。文獻(xiàn)[14]通過(guò)分析比較Hadoop現(xiàn)有的排序算法,發(fā)現(xiàn)頻繁的磁盤讀寫是降低數(shù)據(jù)處理效率的主要原因,為此優(yōu)化現(xiàn)有的排序算法,提出了置換選擇算法,使得效率有了一定的提升。文獻(xiàn)[9-14]分別針對(duì)影響MapReduce應(yīng)用的內(nèi)部機(jī)制作了相應(yīng)的處理,使得應(yīng)用效率有一定的提高。

        云環(huán)境中,有非常多的因素影響數(shù)據(jù)分布并行應(yīng)用的執(zhí)行效率。上述研究中,考慮了很多影響因素,如異構(gòu)集群環(huán)境、內(nèi)部處理機(jī)制、網(wǎng)絡(luò)拓?fù)浜蛶?、集群?guī)模及數(shù)據(jù)集類型等因素,但是沒有綜合考慮節(jié)點(diǎn)數(shù)、數(shù)據(jù)量、任務(wù)數(shù)對(duì)應(yīng)用執(zhí)行效率的影響。文中重點(diǎn)關(guān)注節(jié)點(diǎn)數(shù)、數(shù)據(jù)量和任務(wù)數(shù)等因素對(duì)數(shù)據(jù)分布并行應(yīng)用執(zhí)行效率的影響,為用戶確定適當(dāng)個(gè)數(shù)的節(jié)點(diǎn)以提高執(zhí)行效率、降低執(zhí)行成本提供參考。

        2 影響因素分析

        為滿足用戶使用較少的成本處理較多數(shù)據(jù)的需求,不得不考慮云環(huán)境中數(shù)據(jù)的存儲(chǔ)和計(jì)算方式。下面從存儲(chǔ)和計(jì)算兩方面探討用戶數(shù)據(jù)在云環(huán)境中的處理方式。一般地,用戶數(shù)據(jù)量會(huì)比較大,通常在TB的級(jí)別,甚至?xí)螅瑔蝹€(gè)節(jié)點(diǎn)無(wú)法存儲(chǔ)足如此大規(guī)模的數(shù)據(jù)[15],更別說(shuō)進(jìn)行其他操作。

        顯然,用戶面臨的首要問(wèn)題是如何完成大規(guī)模的數(shù)據(jù)的安全存儲(chǔ),這就要求用戶不得不借助數(shù)據(jù)分布存儲(chǔ)技術(shù)將數(shù)據(jù)分布存儲(chǔ)在云中的多個(gè)節(jié)點(diǎn)上。云環(huán)境中廣泛使用的數(shù)據(jù)分布存儲(chǔ)技術(shù)是Google的GFS(Google File System)[16]和Hadoop團(tuán)隊(duì)開發(fā)的HDFS(Hadoop Distributed File System)[17]。例如,Hadoop-HDFS將數(shù)據(jù)物理地分割成固定大小(默認(rèn)是64 MB)的多個(gè)數(shù)據(jù)塊(Block),采用冗余備份機(jī)制為每個(gè)Block創(chuàng)建多個(gè)副本(默認(rèn)是3)保證數(shù)據(jù)完整性,并將這些副本盡可能分散地存儲(chǔ)在所有節(jié)點(diǎn)上。完成數(shù)據(jù)的存儲(chǔ)之后,用戶面臨的問(wèn)題便是如何處理存儲(chǔ)在多個(gè)節(jié)點(diǎn)上的數(shù)據(jù),這就要求用戶不得不借助數(shù)據(jù)并行處理技術(shù)并行地處理數(shù)據(jù)。MapReduce編程模型是云環(huán)境中被廣泛使用的并行處理框架,其主要實(shí)現(xiàn)有Hadoop的MapReduce[17]、Google的MapReduce[18]和斯坦福大學(xué)的Phoenix[19]。以Hadoop-MapReduce為例,其采用Map-Reduce的思想即“分解歸約”,將分散存儲(chǔ)的數(shù)據(jù)邏輯地劃分成多個(gè)分片(Splits),為每個(gè)Split創(chuàng)建一個(gè)map任務(wù),最后通過(guò)reduce任務(wù)把所有map任務(wù)的輸出作整合處理。

        綜上,將云環(huán)境中處理數(shù)據(jù)的過(guò)程概括為兩步:第一步,借助數(shù)據(jù)分布存儲(chǔ)技術(shù)把數(shù)據(jù)物理地分割成固定大小的多個(gè)Blocks,以Block為單位在各節(jié)點(diǎn)上分散地存儲(chǔ)數(shù)據(jù);第二步,借助數(shù)據(jù)并行編程和計(jì)算框架將數(shù)據(jù)邏輯地劃分成多個(gè)Splits,以Split為單位在各節(jié)點(diǎn)上并行地處理數(shù)據(jù)。顯然,Block是節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù)的基本單位,Split是節(jié)點(diǎn)上處理數(shù)據(jù)的基本單位??梢园l(fā)現(xiàn)用戶處理的數(shù)據(jù)量大小、租用的節(jié)點(diǎn)個(gè)數(shù)和劃分的任務(wù)個(gè)數(shù)等因素是影響應(yīng)用執(zhí)行效率的主要因素;同時(shí),在上述兩步處理過(guò)程中伴隨著大量的數(shù)據(jù)移動(dòng),所以在云環(huán)境中網(wǎng)絡(luò)拓?fù)浜蛶捠怯绊憟?zhí)行效率的另一個(gè)主要因素。用戶處理數(shù)據(jù)過(guò)程如圖1所示。

        在并行計(jì)算中,任務(wù)的總消耗時(shí)間由計(jì)算時(shí)間和額外開銷組成,進(jìn)程間數(shù)據(jù)的傳輸時(shí)間是主要的額外開銷[20]。同樣,在云計(jì)算環(huán)境中應(yīng)用的總消耗時(shí)間主要來(lái)源于任務(wù)計(jì)算時(shí)間和數(shù)據(jù)傳輸時(shí)間。用戶按需租用不同數(shù)量和類型的節(jié)點(diǎn),為每個(gè)節(jié)點(diǎn)付出一定的費(fèi)用。因此,在云環(huán)境中用戶租用節(jié)點(diǎn)處理數(shù)據(jù)所需主要的時(shí)間T和費(fèi)用M可表示為:

        (1)

        (2)

        其中:s表示平均在每個(gè)節(jié)點(diǎn)上處理的任務(wù)數(shù),tmr(i)表示執(zhí)行第i個(gè)任務(wù)需要的計(jì)算時(shí)間;b表示傳輸數(shù)據(jù)的次數(shù),tio(j)表示第j次傳輸需要的時(shí)間;n表示租用的節(jié)點(diǎn)總數(shù),m(k)表示第k個(gè)節(jié)點(diǎn)的租用費(fèi)用。

        圖1 云環(huán)境中數(shù)據(jù)處理過(guò)程

        根據(jù)式(1)可知,用戶要減少數(shù)據(jù)處理時(shí)間,就從以下幾方面考慮:1)增加節(jié)點(diǎn)數(shù)量,提高任務(wù)的并行性;2)減少數(shù)據(jù)量,減少任務(wù)處理和數(shù)據(jù)傳輸?shù)拇螖?shù);3)租用較高性能的節(jié)點(diǎn),減少每次任務(wù)執(zhí)行的時(shí)間;4)改進(jìn)網(wǎng)絡(luò)拓?fù)洌黾泳W(wǎng)絡(luò)帶寬,減少每次數(shù)據(jù)傳輸時(shí)間;5)提高節(jié)點(diǎn)利用率,以減少時(shí)間。根據(jù)式(2)可知,用戶要降低租用節(jié)點(diǎn)費(fèi)用,就該減少租用節(jié)點(diǎn)數(shù)量。

        然而,在實(shí)際中處理的數(shù)據(jù)量是不能被縮減的;用戶又不情愿增加費(fèi)用租用更多的節(jié)點(diǎn);每種類型的節(jié)點(diǎn)性能是一定的;網(wǎng)絡(luò)拓?fù)浜蛶捠窃骗h(huán)境中制約通信能力的瓶頸:可見,提高節(jié)點(diǎn)利用率增強(qiáng)應(yīng)用執(zhí)行效率是滿足用戶需求最為有效的途徑。作為用戶,如何確定適當(dāng)?shù)墓?jié)點(diǎn)數(shù),且最大限度地提高節(jié)點(diǎn)的利用率是亟待解決的問(wèn)題。下面就從數(shù)據(jù)量D、節(jié)點(diǎn)數(shù)N、任務(wù)數(shù)S三者間的關(guān)系討論用戶該如何抉擇。

        1)節(jié)點(diǎn)數(shù)N和任務(wù)數(shù)S一定時(shí):

        數(shù)據(jù)量D越多,根據(jù)式(1),計(jì)算次數(shù)不變,但每次tmr時(shí)間越多;傳輸次數(shù)不變,但每次傳輸內(nèi)容越多,tio越多,進(jìn)而消耗的總時(shí)間T越多。

        數(shù)據(jù)量D越少,根據(jù)式(1),計(jì)算次數(shù)不變,但每次tmr時(shí)間越少;傳輸次數(shù)不變,但每次傳輸內(nèi)容越少,tio越少,進(jìn)而消耗的總時(shí)間T越少。

        2)數(shù)據(jù)量D和任務(wù)數(shù)S一定,且節(jié)點(diǎn)數(shù)N滿足0

        節(jié)點(diǎn)數(shù)N越多,根據(jù)式(1),每次tmr時(shí)間一定,但每個(gè)節(jié)點(diǎn)計(jì)算的次數(shù)減少;傳輸次數(shù)越小,tio時(shí)間越少,進(jìn)而消耗的總時(shí)間T就越少。

        節(jié)點(diǎn)數(shù)N越少,根據(jù)式(1),每次tmr的時(shí)間一定,但每個(gè)節(jié)點(diǎn)計(jì)算的次數(shù)減多,傳輸次數(shù)越多,tio時(shí)間越少,進(jìn)而消耗的總時(shí)間T就越多。

        3)數(shù)據(jù)量D和節(jié)點(diǎn)數(shù)N一定時(shí),且任務(wù)數(shù)S滿足0

        任務(wù)數(shù)S越多時(shí),根據(jù)式(1),計(jì)算次數(shù)越多,tmr時(shí)間越多,傳輸次數(shù)越多,tio時(shí)間越多,進(jìn)而消耗的總時(shí)間T就越多。

        任務(wù)數(shù)S越少時(shí),根據(jù)式(1),計(jì)算次數(shù)越少,tmr時(shí)間越少,傳輸次數(shù)越少,tio時(shí)間越少,進(jìn)而消耗的總時(shí)間T就越少。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)平臺(tái)

        實(shí)驗(yàn)中的硬件設(shè)備為10臺(tái)聯(lián)想ThinkServer RD650服務(wù)器即10個(gè)節(jié)點(diǎn)(Nodes),其中1個(gè)為Namenode,其余都為Datanode。所有Node的硬件配置是Genuine Intel處理器、32 GB內(nèi)存、2 TB硬盤。所有節(jié)點(diǎn)都是CentOS 7.0操作系統(tǒng),JDK 1.7.0_45 JDK環(huán)境,Hadoop 2.5.2云框架。

        由于文中主要探索數(shù)據(jù)量、節(jié)點(diǎn)數(shù)、任務(wù)數(shù)對(duì)應(yīng)用性能的影響,為了盡量降低網(wǎng)絡(luò)拓?fù)浜蛶拰?duì)實(shí)驗(yàn)的影響,在實(shí)驗(yàn)環(huán)境中,將10臺(tái)服務(wù)器連接在一臺(tái)普聯(lián)TL-SG1024DT千兆機(jī)架式交換機(jī)上形成一個(gè)局域網(wǎng),網(wǎng)絡(luò)帶寬為1 000 Mb/s,網(wǎng)絡(luò)拓?fù)淙鐖D2所示。

        圖2 實(shí)驗(yàn)環(huán)境網(wǎng)絡(luò)拓?fù)?/p>

        3.2 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)用于驗(yàn)證數(shù)據(jù)量、節(jié)點(diǎn)數(shù)和任務(wù)數(shù)對(duì)應(yīng)用完成時(shí)間的影響,所以實(shí)驗(yàn)以最簡(jiǎn)單也是最能體現(xiàn)MapReduce思想的單詞計(jì)數(shù)Wordcount程序作為測(cè)試應(yīng)用。

        實(shí)驗(yàn)數(shù)據(jù)來(lái)源于100本英文txt類型的書籍,將所有內(nèi)容拷貝到單個(gè)txt文件,通過(guò)多次復(fù)制得到實(shí)驗(yàn)要求的數(shù)據(jù)量D;節(jié)點(diǎn)數(shù)根據(jù)實(shí)驗(yàn)要求啟動(dòng)相應(yīng)個(gè)數(shù)的Datanode來(lái)控制節(jié)點(diǎn)數(shù)N的變化,且每次重啟時(shí)須重新上傳數(shù)據(jù);任務(wù)數(shù)可修改文件(mapred.site.xml)中mapred.min.split.size的大小得到實(shí)驗(yàn)要求的任務(wù)數(shù)S。其他都采用默認(rèn)配置,如Reduce任務(wù)數(shù)為1,Block固定大小為64 MB,Block備份數(shù)為3。

        實(shí)驗(yàn)中各個(gè)變量變化如表1所示。

        表1 各因素變化

        3.3 實(shí)驗(yàn)結(jié)果

        根據(jù)3.2節(jié)實(shí)驗(yàn)設(shè)計(jì),采用控制變量的方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中,數(shù)據(jù)量D、節(jié)點(diǎn)數(shù)N、任務(wù)數(shù)S,當(dāng)其中一個(gè)因素的值從序號(hào)1的值變化到序號(hào)5的值時(shí),其他兩個(gè)因素的值取序號(hào)3的值保持不變,且每次實(shí)驗(yàn)都進(jìn)行3遍,求其平均數(shù)得到Map和Reduce任務(wù)的執(zhí)行時(shí)間即M-time(Map-time)和R-time(Reduce-time),對(duì)M-time和R-time求和得到總執(zhí)行時(shí)間T-time(Tittle-time)。分別得到如下實(shí)驗(yàn)結(jié)果(時(shí)間單位為ms)。

        1)當(dāng)節(jié)點(diǎn)數(shù)N=7和任務(wù)數(shù)S=10時(shí),隨著數(shù)據(jù)量D的變化,得到實(shí)驗(yàn)結(jié)果如表2所示。

        2)當(dāng)數(shù)據(jù)量D=896 MB和任務(wù)數(shù)S=10時(shí),隨著節(jié)點(diǎn)數(shù)N的變化,得到實(shí)驗(yàn)結(jié)果如表2所示。

        3)當(dāng)數(shù)據(jù)量D=896 MB和節(jié)點(diǎn)數(shù)N=7時(shí),隨著任務(wù)數(shù)S的變化,得到實(shí)驗(yàn)結(jié)果如表2所示。

        表2 不同D、N、S時(shí)的實(shí)驗(yàn)結(jié)果 ms

        3.4 因素間關(guān)系分析

        根據(jù)3.3節(jié)得到的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn):

        1)節(jié)點(diǎn)數(shù)N=7和任務(wù)數(shù)S=10時(shí),隨著數(shù)據(jù)量D的變化,應(yīng)用的M-time、R-time和T-time分別呈現(xiàn)如圖3所示的變化趨勢(shì)。

        圖3 數(shù)據(jù)量D對(duì)執(zhí)行時(shí)間的影響

        根據(jù)圖3明顯地發(fā)現(xiàn)當(dāng)節(jié)點(diǎn)數(shù)和任務(wù)數(shù)一定時(shí),隨著數(shù)據(jù)量的增大,T-time呈遞增趨勢(shì),符合在第2章中對(duì)各因素的分析。特別地,隨著數(shù)據(jù)量的變化,M-time變化明顯,而R-time無(wú)明顯的變化趨勢(shì),因此,為了降低應(yīng)用的執(zhí)行時(shí)間,當(dāng)數(shù)據(jù)量很大時(shí),用戶應(yīng)租用較多的節(jié)點(diǎn)。

        2)數(shù)據(jù)量D=896 MB和任務(wù)數(shù)S=10,且節(jié)點(diǎn)數(shù)N滿足0

        根據(jù)圖4發(fā)現(xiàn)當(dāng)數(shù)據(jù)量和任務(wù)數(shù)一定時(shí),隨著節(jié)點(diǎn)數(shù)的增大,T-time呈遞減的趨勢(shì),符合在第2章中對(duì)各因素的分析。特別地,隨著節(jié)點(diǎn)數(shù)的增多,R-time的變化趨勢(shì)是先驟變后緩慢地變化,而M-time無(wú)明顯的變化趨勢(shì),因此,為了降低應(yīng)用的執(zhí)行時(shí)間,當(dāng)數(shù)據(jù)量一定時(shí),用戶應(yīng)租用適當(dāng)個(gè)數(shù)的節(jié)點(diǎn),并非節(jié)點(diǎn)數(shù)越多執(zhí)行效率越高。

        3)數(shù)據(jù)量D=896 MB和節(jié)點(diǎn)數(shù)N=7,且任務(wù)數(shù)S滿足0

        圖4 節(jié)點(diǎn)數(shù)N對(duì)執(zhí)行時(shí)間的影響

        圖5 任務(wù)數(shù)S對(duì)執(zhí)行時(shí)間的影響

        根據(jù)圖5明顯地發(fā)現(xiàn)當(dāng)數(shù)據(jù)量和節(jié)點(diǎn)數(shù)一定時(shí),隨著任務(wù)數(shù)的增大,T-time整體呈遞增趨勢(shì),符合在第2章中對(duì)各因素的分析。特別地,數(shù)據(jù)量和節(jié)點(diǎn)數(shù)數(shù)保持不變的情況下,隨著任務(wù)數(shù)的增多,M-time和R-time都呈緩慢遞增的趨勢(shì);可以發(fā)現(xiàn),任務(wù)數(shù)接近節(jié)點(diǎn)數(shù)時(shí)應(yīng)用的執(zhí)行時(shí)間處于較小,因此,為了降低應(yīng)用的執(zhí)行時(shí)間,用戶應(yīng)使任務(wù)數(shù)接近節(jié)點(diǎn)數(shù),以便提高資源利用率。

        4 結(jié)語(yǔ)

        在云環(huán)境中影響數(shù)據(jù)分布并行應(yīng)用執(zhí)行效率和執(zhí)行成本的因素很多。文中針對(duì)類似MapReduce數(shù)據(jù)分布并行編程模式下的數(shù)據(jù)分布存儲(chǔ)技術(shù)和并行編程模型,詳細(xì)分析了云環(huán)境中影響該類應(yīng)用執(zhí)行效率和執(zhí)行成本的數(shù)據(jù)量、節(jié)點(diǎn)數(shù)和任務(wù)數(shù)等因素;探討了數(shù)據(jù)量、節(jié)點(diǎn)數(shù)、任務(wù)數(shù)間的關(guān)系以及對(duì)應(yīng)用執(zhí)行效率和執(zhí)行成本的影響;采用Hadoop云框架驗(yàn)證了文中對(duì)各影響應(yīng)用執(zhí)行效率和執(zhí)行成本的因素分析符合實(shí)驗(yàn)結(jié)果;同時(shí),分析實(shí)驗(yàn)結(jié)果總結(jié)如下:1)數(shù)據(jù)量越大時(shí),節(jié)點(diǎn)數(shù)越多應(yīng)用執(zhí)行的效率較高;2)數(shù)據(jù)量一定時(shí),并非節(jié)點(diǎn)數(shù)越多應(yīng)用執(zhí)行效率越高;3)任務(wù)數(shù)接近節(jié)點(diǎn)數(shù)時(shí),執(zhí)行應(yīng)用的效率較高。

        本文工作可以作為研究云環(huán)境中影響類似MapReduce的數(shù)據(jù)分布并行應(yīng)用執(zhí)行效率和執(zhí)行成本因素的一個(gè)重要基礎(chǔ);為類似MapReduce的數(shù)據(jù)分布并行編程模式的研究和用戶租用云資源提供一個(gè)參考。下一步,將更進(jìn)一步地分析和探討影響執(zhí)行效率和成本的因素——網(wǎng)絡(luò)拓?fù)浜蛶?,盡可能全面地分析各種因素對(duì)應(yīng)用執(zhí)行性能和執(zhí)行成本的綜合影響,通過(guò)實(shí)驗(yàn)總結(jié)出近似最優(yōu)的解決方案。

        References)

        [1] 馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246-258.(FENG D G, ZHANG M, LI H. Big data security and privacy protection [J]. Chinese Journal of Computers, 2014, 37(1): 246-258.)

        [2] VAQUERO L M, RODERO-MERINO L, CACERES J, et al. A break in the clouds: towards a cloud definition [J]. ACM SIGCOMM Computer Communication Review, 2008, 39(1): 50-55.

        [3] JIANG D, PIERRE G, CHI C H. EC2 performance analysis for resource provisioning of service-oriented applications [C]// NFPSLAM-SOC 2009: Proceedings of the 3rd Workshop on Non-functional Properties and Service Level Agreements Management in Service Oriented Computing. Berlin: Springer, 2010: 197-207.

        [4] BYUN E K, KEE Y S, KIM J S, et al. BTS: resource capacity estimate for time-targeted science workflows [J]. Journal of Parallel & Distributed Computing, 2011, 71(6): 848-862.

        [5] 劉丹丹,陳俊,梁鋒,等.云計(jì)算異構(gòu)環(huán)境下Hadoop性能分析[J].集成技術(shù),2012,1(4):46-51.(LIU D D, CHEN J, LIANG F, et al. A performance analysis for Hadoop under heterogeneous cloud computing environments [J]. Journal of Integration Technology, 2012, 1(4): 46-51.)

        [6] AHMAD N M, YAACOB A H, AMIN A H M, et al. Performance analysis of MapReduce on OpenStack-based Hadoop virtual cluster [C]// ISTT 2014: Proceedings of the 2014 IEEE 2nd International Symposium on Telecommunication Technologies. Piscataway, NJ: IEEE, 2014: 132-137.

        [7] GOHIL P, GARG D, PANCHAL B. A performance analysis of MapReduce applications on big data in cloud based Hadoop [C]// ICICES 2014: Proceedings of the 2014 International Conference on Information Communication and Embedded Systems. Piscataway, NJ: IEEE, 2015: 1-6.

        [8] 丁澤柳,郭得科,申建偉,等.面向云計(jì)算的數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)溲芯縖J].國(guó)防科技大學(xué)學(xué)報(bào),2011,33(6):1-6.(DING Z L, GUO D K, SHEN J W, et al. Researching data center networking topology for cloud computing [J]. Journal of National University of Defense Technology, 2011, 33(6): 1-6.)

        [9] 李立耀,趙少卡,許華榮.基于云平臺(tái)的MapReduce性能優(yōu)化策略[J].蘭州大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(5):752-758.(LI L Y, ZHAO S K, XU H R. MapReduce performance optimization strategy based on a cloud platform [J]. Journal of Lanzhou University (Natural Sciences), 2015, 51(5): 752-758.)

        [10] PREMCHAISWADI W, ROMSAIYUD W. Optimizing and tuning MapReduce jobs to improve the large-scale data analysis process [J]. International Journal of Intelligent Systems, 2013, 28(2): 185-200.

        [11] 李三淼,李龍澍.Hadoop中處理小文件的四種方法的性能分析[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(9):44-49.(LI S M, LI L S. Performance analysis of four methods for handing small files in Hadoop [J]. Computer Engineering and Applications, 2016, 52(9): 44-49.)

        [12] 楊浩.Hadoop平臺(tái)性能優(yōu)化的研究與實(shí)現(xiàn)[D].成都:西南交通大學(xué),2015:25-37.(YANG H. Research and implementation of Hadoop platform performance optimization [D]. Chengdu: Southwest Jiaotong University, 2015: 25-37)

        [13] 王春梅,胡玉平,易葉青,等.Hadoop云計(jì)算平臺(tái)的參數(shù)優(yōu)化算法[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,50(2):183-189.(WANG C M, HU Y P, YI Y Q, et al. Cross layer parameter optimization algorithm for Hadoop cloud computing platform [J]. Journal of Central China Normal University (Natural Sciences), 2016, 50(2): 183-189.)

        [14] 李千慧,魏海平,竇雪英.基于Hadoop的排序性能優(yōu)化研究[J].電子設(shè)計(jì)工程,2016,24(2):45-47.(LI Q H, WEI H P, DOU X Y. Optimization of sorting performance based on Hadoop [J]. Electronic Design Engineering, 2016, 24(2): 45-47.)

        [15] PRINCE J D. Introduction to cloud computing [J]. Journal of Electronic Resources in Medical Libraries, 2011, 8(4): 449-458.

        [16] GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google file system [J]. ACM SIGOPS Operating Systems Review, 2003, 37(5): 29-43.

        [17] WHITE T, CUTTING D. Hadoop: The Definitive Guide [M]. 4th ed. Sebastopol: O’Reilly Media, 2012: 1-4.

        [18] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters [J]. Communications of the ACM, 2008, 51(1): 107-113.

        [19] GORDON A W, LU P. Elastic phoenix: malleable MapReduce for shared-memory systems [C]// NPC 2011: Proceedings of the 8th IFIP International Conference on Network and Parallel Computing. Berlin: Springer, 2011: 1-16.

        [20] WOOD D A, HILL M D. Cost-effective parallel computing [J]. Computer, 1995, 28(2): 69-72.

        This work is supported by the National Natural Science Foundation of China (61462076).

        MAShengjun, born in 1989, M. S. candidate. His research interests include big data and cloud computing.

        CHENWanghu, born in 1973, Ph. D., professor. His research interests include big data and cloud computing.

        YUMaoyi, born in 1991, M. S. candidate. His research interests include big data and cloud computing.

        LIJinrong, born in 1989, M. S. candidate. Her research interests include big data and cloud computing.

        JIAWenbo, born in 1992, M. S.candidate. His research interests include big data and cloud computing.

        Analysisoffactorsaffectingefficiencyofdatadistributedparallelapplicationincloudenvironment

        MA Shengjun*, CHEN Wanghu, YU Maoyi, LI Jinrong, JIA Wenbo

        (CollegeofComputerScienceandEngineering,NorthwestNormalUniversity,LanzhouGansu730070,China)

        Data distributed parallel applications like MapReduce are widely used. Focusing on the issues such as low execution efficiency and high cost of such applications, a case analysis of Hadoop was given. Firstly, based on the analyses of the execution processes of such applications, it was found that the data volume, the numbers of the nodes and tasks were the main factors that affected their execution efficiency. Secondly, the impacts of the factors mentioned above on the execution efficiency of an application were explored. Finally, based on a set of experiments, two important novel rules were derived as follows. Given a specific volume of data, the execution efficiency of a data distributed parallel application could not be improved remarkably only by increasing the number of nodes, but the execution cost would raise on the contrary. However, when the number of tasks was nearly equal to that of the nodes, a higher efficiency and lower cost could be got for such an application. The conclusions are useful for users to optimize their data distributed parallel applications and to estimate the necessary computing resources to be rented in a cloud environment.

        cloud environment; data distributed parallel application; MapReduce; efficiency; cost

        TP301; TP393.027

        :A

        2017- 01- 16;

        :2017- 03- 11。

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61462076)。

        馬生俊(1989—),男,甘肅廣河人,碩士研究生,主要研究方向:大數(shù)據(jù)與云計(jì)算; 陳旺虎(1973—),男,甘肅靜寧人,教授,博士,CCF會(huì)員,主要研究方向:大數(shù)據(jù)與云計(jì)算; 俞茂義(1991—),男,安徽銅陵人,碩士研究生,主要研究方向:大數(shù)據(jù)與云計(jì)算; 李金溶(1989—),女,山東肥城人,碩士研究生,主要研究方向:大數(shù)據(jù)與云計(jì)算; 郟文博(1992—),男,江蘇豐縣人,碩士研究生,主要研究方向:大數(shù)據(jù)與云計(jì)算。

        1001- 9081(2017)07- 1883- 05

        10.11772/j.issn.1001- 9081.2017.07.1883

        猜你喜歡
        數(shù)據(jù)分布網(wǎng)絡(luò)拓?fù)?/a>數(shù)據(jù)量
        基于通聯(lián)關(guān)系的通信網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)方法
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        改進(jìn)的云存儲(chǔ)系統(tǒng)數(shù)據(jù)分布策略
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        電子制作(2018年23期)2018-12-26 01:01:16
        勞斯萊斯古斯特與魅影網(wǎng)絡(luò)拓?fù)鋱D
        一種基于給定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行正態(tài)修正的算法
        電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
        国产在线观看午夜视频| 中文字幕少妇AV| 久热爱精品视频在线观看久爱 | 成年男人裸j照无遮挡无码| 中文字幕久久国产精品| 欧美性猛交xxx嘿人猛交| 精品亚洲成在人线av无码| 亚洲无码一二专区| 国产女人高潮的av毛片| 亚洲精品一品区二品区三区| 精品国产a毛片久久久av| 日本最新一区二区三区视频观看| 人妻有码中文字幕| 欧美午夜精品久久久久久浪潮| 亚洲天堂免费成人av| 中文字幕一区二区三区久久网| 免费观看的av毛片的网站| 国产激情久久99久久| 日韩精品一区二区三区免费观影| 精品人无码一区二区三区| 中国丰满熟妇xxxx| 精品久久久久久午夜| 日日高潮夜夜爽高清视频| 久久亚洲欧美国产精品| 久久久精品久久日韩一区综合| 国产精品国产三级国产an| 在教室轮流澡到高潮h免费视| 国产精品亚洲а∨无码播放不卡 | 亚洲五码av在线观看| 天堂在线资源中文在线8| 国产乱理伦片在线观看| 久久久久AV成人无码网站| 麻神在线观看免费观看| 人妻久久久一区二区三区| 无码成人片一区二区三区| 美利坚亚洲天堂日韩精品| 一本一道vs无码中文字幕| 国产精品一区二区 尿失禁| 抖射在线免费观看视频网站 | 亚洲av色香蕉一区二区三区老师| 无码欧亚熟妇人妻AV在线外遇 |