亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云計(jì)算環(huán)境中HDFS數(shù)據(jù)塊存儲(chǔ)策略研究

        2020-11-02 02:36:18袁愛(ài)平陶志勇鄧河陳為滿
        電腦知識(shí)與技術(shù) 2020年26期
        關(guān)鍵詞:數(shù)據(jù)存儲(chǔ)云計(jì)算

        袁愛(ài)平 陶志勇 鄧河 陳為滿

        摘要:HDFS(Hadoop Distributed File System)以流式數(shù)據(jù)訪問(wèn)模式存儲(chǔ)超大文件,具有高可靠性、高擴(kuò)展性、低成本等特性,已廣泛運(yùn)行于商用硬件集群中。但在云計(jì)算系統(tǒng)中,由于采用了虛擬化技術(shù),文件存儲(chǔ)時(shí)如采用HDFS默認(rèn)的存儲(chǔ)策略,將帶來(lái)數(shù)據(jù)可靠性的下降。本文通過(guò)對(duì)HDFS存儲(chǔ)方法的改進(jìn),提出了一種充分考慮云環(huán)境中虛擬機(jī)存儲(chǔ)位置的數(shù)據(jù)塊存儲(chǔ)策略,避免了多個(gè)數(shù)據(jù)塊副本存儲(chǔ)在同一臺(tái)物理機(jī)器上。實(shí)驗(yàn)結(jié)果證明,該方法均衡了數(shù)據(jù)塊在物理節(jié)點(diǎn)中的存儲(chǔ),提高了系統(tǒng)的可靠性。

        關(guān)鍵詞:云計(jì)算;HDFS;位置感知;數(shù)據(jù)存儲(chǔ)

        中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)26-0033-03

        Abstract: HDFS (Hadoop Distributed File System), which stores large files in streaming data access mode, has the characteristics of high reliability, high scalability and low cost, and has been widely used in commercial hardware clusters. However, in the cloud computing system, due to the virtualization technology, if the default storage strategy of HDFS is used in file storage, the data reliability will be reduced. Through the improvement of HDFS storage method, this paper proposes a data block storage strategy that fully considers the storage location of virtual machine in cloud environment, avoiding multiple data block copies stored on the same physical machine. Experimental result shows that this method balances the placement of data blocks in physical nodes and improves the reliability of the system.

        Key words: cloud computing; HDFS; location awareness; data storage

        隨著信息技術(shù)的快速發(fā)展,各種應(yīng)用系統(tǒng)正在以前所未有的速度產(chǎn)生出大量的數(shù)據(jù),怎樣對(duì)這些數(shù)據(jù)進(jìn)行高效處理已成為人們迫切關(guān)注的問(wèn)題。Google公司研究提出了MapReduce并行計(jì)算模型和方法,以簡(jiǎn)單方便地完成大規(guī)模數(shù)據(jù)的編程和計(jì)算處理。受到Google公司MapReduce思想的影響,開(kāi)源系統(tǒng)Hadoop也在內(nèi)部實(shí)現(xiàn)了MapReduce計(jì)算框架,以一種可靠、高效、可伸縮的方式處理海量數(shù)據(jù)。Hadoop不要求集群中的機(jī)器高配置,大部分普通商用服務(wù)器就可以滿足要求,它通過(guò)提供多個(gè)副本和容錯(cuò)機(jī)制來(lái)提高集群的可靠性。為了滿足大數(shù)據(jù)應(yīng)用對(duì)資源的動(dòng)態(tài)需求,將大數(shù)據(jù)系統(tǒng)部署到云計(jì)算平臺(tái)中已成為目前的一種趨勢(shì)。云計(jì)算平臺(tái)資源分配靈活,能夠?qū)崿F(xiàn)“按需獲取”,方便了廣大中小型企業(yè)或者個(gè)人對(duì)大數(shù)據(jù)應(yīng)用的使用。

        1 HDFS存儲(chǔ)系統(tǒng)

        HDFS是一個(gè)以分布式方式存儲(chǔ)的文件系統(tǒng),主要負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)與讀取,它運(yùn)行于商用硬件集群上,單個(gè) HDFS 集群可以擴(kuò)展至幾千甚至上萬(wàn)個(gè)節(jié)點(diǎn)[1]。HDFS集群是一個(gè)主/從結(jié)構(gòu)的分布式文件系統(tǒng),有一個(gè)NameNode節(jié)點(diǎn)和多個(gè)DataNode節(jié)點(diǎn)。NameNode節(jié)點(diǎn)管理文件系統(tǒng)的元數(shù)據(jù)和控制著外部客戶機(jī)的訪問(wèn),DataNode節(jié)點(diǎn)則是文件系統(tǒng)的工作節(jié)點(diǎn),它是真正存儲(chǔ)數(shù)據(jù)的地方。為了安全起見(jiàn),在集群中通常還有一個(gè)Secondary NameNode節(jié)點(diǎn),用于備份NameNode中的數(shù)據(jù)。HDFS和磁盤一樣,以數(shù)據(jù)塊作為數(shù)據(jù)讀/寫的最小單位,默認(rèn)為64MB,這樣做的目的是最小化尋址開(kāi)銷。用戶存儲(chǔ)在HDFS中的文件被劃分成幾個(gè)數(shù)據(jù)塊,分布式地存儲(chǔ)在DataNode節(jié)點(diǎn)上。

        HDFS存儲(chǔ)數(shù)據(jù)塊的副本時(shí),它會(huì)盡量使副本放置在不同機(jī)架下面的DataNode節(jié)點(diǎn)中,以保證數(shù)據(jù)的可靠性。當(dāng)副本數(shù)是3時(shí),HDFS的默認(rèn)存儲(chǔ)策略是把第1個(gè)副本放在客戶端機(jī)器上,第2個(gè)副本放在與第1個(gè)副本不同機(jī)架下的節(jié)點(diǎn)中,第3個(gè)副本放在與第2個(gè)副本相同機(jī)架下且隨機(jī)選擇的一個(gè)節(jié)點(diǎn)中。當(dāng)副本數(shù)超過(guò)3時(shí),其他副本則會(huì)放在集群中隨機(jī)選擇的節(jié)點(diǎn)上,不過(guò)系統(tǒng)會(huì)盡量避免在相同的機(jī)架上放太多副本。一旦選定副本的放置位置,就會(huì)根據(jù)網(wǎng)絡(luò)拓?fù)鋭?chuàng)建一個(gè)管線??偟膩?lái)說(shuō),這一方法不僅提供很好的穩(wěn)定性并實(shí)現(xiàn)了負(fù)載均衡,包括寫入帶寬、讀取性能和集群中塊的均勻分布。

        對(duì)于同構(gòu)環(huán)境的物理集群,HDFS的默認(rèn)數(shù)據(jù)塊存儲(chǔ)策略能夠保證數(shù)據(jù)的可靠性,而在基于虛擬技術(shù)的云計(jì)算平臺(tái)中,同一個(gè)物理機(jī)器里面會(huì)共存多個(gè)虛擬機(jī),此時(shí)如把虛擬機(jī)節(jié)點(diǎn)當(dāng)作物理機(jī)節(jié)點(diǎn)對(duì)待來(lái)存儲(chǔ)數(shù)據(jù),將帶來(lái)數(shù)據(jù)可靠性的下降。

        2 云中HDFS數(shù)據(jù)塊存儲(chǔ)設(shè)計(jì)

        2.1 云中HDFS數(shù)據(jù)塊存儲(chǔ)研究現(xiàn)狀分析

        針對(duì)同構(gòu)環(huán)境的數(shù)據(jù)放置策略不一定適合異構(gòu)的云計(jì)算環(huán)境,學(xué)者們開(kāi)展了廣泛的研究。Zaharia等人[2]通過(guò)對(duì)集群計(jì)算框架中異常任務(wù)的檢測(cè)優(yōu)化,提高任務(wù)的備份成功率,從而提高云計(jì)算環(huán)境中數(shù)據(jù)的可靠性。針對(duì)云計(jì)算環(huán)境中網(wǎng)絡(luò)資源的共享和競(jìng)爭(zhēng)等問(wèn)題,Lei[3] 針對(duì)數(shù)據(jù)塊副本分發(fā)問(wèn)題,提出了一種發(fā)現(xiàn)虛擬機(jī)內(nèi)聚性的機(jī)制,并設(shè)計(jì)了一種新的基于聚類的虛擬環(huán)境副本排列和組合重執(zhí)行調(diào)度技術(shù),減少了任務(wù)的響應(yīng)時(shí)間,降低了數(shù)據(jù)傳輸成本,而針對(duì)云中的節(jié)點(diǎn)異構(gòu)性特點(diǎn),Geng等人[4]從理論上分析了虛擬環(huán)境中的數(shù)據(jù)分配問(wèn)題,設(shè)計(jì)了一種文件塊分配策略,實(shí)現(xiàn)了更好的數(shù)據(jù)冗余和負(fù)載平衡,提高了應(yīng)用程序的執(zhí)行性能。與此同時(shí),在地域異構(gòu)的云數(shù)據(jù)中心,Chen等人[5] 建立了最優(yōu)數(shù)據(jù)放置問(wèn)題,提出了一種拓?fù)涓兄膯l(fā)式算法,構(gòu)造了抽象樹(shù)結(jié)構(gòu)的副本平衡分布樹(shù)和細(xì)節(jié)樹(shù)結(jié)構(gòu)的副本相似度分布樹(shù),有效地降低全局?jǐn)?shù)據(jù)訪問(wèn)成本,減少了意外的遠(yuǎn)程數(shù)據(jù)訪問(wèn),提高了MapReduce在云數(shù)據(jù)中心的性能。通過(guò)總結(jié)可以發(fā)現(xiàn),由于云計(jì)算環(huán)境的虛擬機(jī)節(jié)點(diǎn)失效常態(tài)化、異構(gòu)性和虛擬網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)多樣性等特點(diǎn),現(xiàn)有的數(shù)據(jù)存儲(chǔ)策略具有一定的局限性。

        2.2 感知虛擬機(jī)位置的數(shù)據(jù)塊存儲(chǔ)策略

        HDFS默認(rèn)采用機(jī)架感知的策略分配數(shù)據(jù)塊的存儲(chǔ)位置,它支持樹(shù)形的層次網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如圖1,其中D表示數(shù)據(jù)中心,R表示機(jī)架交換機(jī),H表示數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)。一個(gè)集群可能跨越多個(gè)數(shù)據(jù)中心,而每個(gè)數(shù)據(jù)中心又包含有多個(gè)機(jī)架交換機(jī),各個(gè)物理機(jī)器節(jié)點(diǎn)位于機(jī)架交換機(jī)下面。通常情況下,同一個(gè)機(jī)架交換機(jī)的網(wǎng)絡(luò)傳輸帶寬比跨越不同機(jī)架交換機(jī)的數(shù)據(jù)交換帶寬要高,即將同一個(gè)數(shù)據(jù)塊的多個(gè)副本放置到同一個(gè)機(jī)架交換機(jī)內(nèi)部時(shí),能夠減少數(shù)據(jù)寫入和讀取的時(shí)間,但是,若機(jī)架交換機(jī)發(fā)生故障,則將導(dǎo)致整個(gè)交換機(jī)內(nèi)的物理機(jī)器不能與外通信,使得機(jī)架內(nèi)部的數(shù)據(jù)不能被訪問(wèn)[6]。

        在云環(huán)境中,由于一個(gè)物理機(jī)器中包含多個(gè)虛擬機(jī),當(dāng)某個(gè)物理主機(jī)發(fā)生故障時(shí),主機(jī)中的虛擬機(jī)節(jié)點(diǎn)都將不可用,也就意味著位于虛擬機(jī)中的同一個(gè)數(shù)據(jù)塊的兩個(gè)甚至多個(gè)副本會(huì)同時(shí)丟失。以圖2為例,當(dāng)物理機(jī)節(jié)點(diǎn)PM1發(fā)生故障時(shí),位于PM1中的數(shù)據(jù)塊10的所有副本都會(huì)丟失,導(dǎo)致文件存儲(chǔ)的可靠性降低。

        為了避免虛擬機(jī)共存對(duì)數(shù)據(jù)可靠性的影響,可以充分利用虛擬節(jié)點(diǎn)在物理宿主機(jī)中的位置信息來(lái)實(shí)現(xiàn)更好的數(shù)據(jù)塊分配。定義任意兩臺(tái)虛擬機(jī)之間的網(wǎng)絡(luò)距離如下:

        在云環(huán)境中,一個(gè)Hadoop集群往往含有多個(gè)機(jī)架交換機(jī),在交換機(jī)下面又包括多個(gè)物理服務(wù)器。假設(shè)有m個(gè)虛擬機(jī)節(jié)點(diǎn)存在物理服務(wù)器中,表示為(vm1, vm2, ..., vmm)。我們定義一個(gè)距離矩陣D標(biāo)識(shí)不同虛擬機(jī)之間的網(wǎng)絡(luò)距離,矩陣大小為m*m,Dij則對(duì)應(yīng)了節(jié)點(diǎn)vmi和vmj的網(wǎng)絡(luò)距離,它們之間的網(wǎng)絡(luò)距離值如上定義。當(dāng)客戶端向集群寫入數(shù)據(jù)塊時(shí),假設(shè)文件包含的數(shù)據(jù)塊個(gè)數(shù)為n,副本的個(gè)數(shù)為r,則集群需要為每個(gè)數(shù)據(jù)塊尋找r個(gè)節(jié)點(diǎn)位置,總共的位置個(gè)數(shù)為n*r。對(duì)于每個(gè)數(shù)據(jù)塊,有可能放置到m個(gè)虛擬機(jī)節(jié)點(diǎn)中的任一個(gè),則n個(gè)數(shù)據(jù)塊可能放置的位置個(gè)數(shù)為n*m。我們定義一個(gè)數(shù)據(jù)塊分布矩陣A,其中Aij表示數(shù)據(jù)塊j是否被放置到了虛擬機(jī)節(jié)點(diǎn)vmi。為了加強(qiáng)數(shù)據(jù)塊可靠性,定義如下的限制條件。

        公式(1)限制了每個(gè)數(shù)據(jù)塊至多只能有一個(gè)副本放置在同一個(gè)虛擬機(jī)節(jié)點(diǎn)中,公式(2)則限制了在m個(gè)虛擬機(jī)節(jié)點(diǎn)中,每個(gè)數(shù)據(jù)塊應(yīng)該有r個(gè)不同的副本。

        當(dāng)為某個(gè)數(shù)據(jù)塊尋找副本存儲(chǔ)位置時(shí),需要查找距離矩陣D,從中找出滿足數(shù)據(jù)可靠性限制條件的節(jié)點(diǎn),作為該數(shù)據(jù)塊的副本存儲(chǔ)位置,處理流程如圖3所示。

        3 實(shí)驗(yàn)與結(jié)果分析

        我們?cè)诨贠penStack的私有云計(jì)算平臺(tái)中構(gòu)建了一個(gè)Hadoop集群環(huán)境,Hadoop版本為2.6.4。集群中包括1個(gè)NameNode節(jié)點(diǎn)和9個(gè)DataNode節(jié)點(diǎn),所有節(jié)點(diǎn)均被配置為3個(gè)虛擬計(jì)算核,4GB的內(nèi)存和50GB的磁盤空間。我們配置了2個(gè)千兆機(jī)架交換機(jī),一個(gè)交換機(jī)下配置了3臺(tái)物理機(jī)器,另一個(gè)交換機(jī)下配置了2臺(tái)物理機(jī)器。我們使用RandomWriter工具生成4GB、8GB和16GB三個(gè)不同大小的數(shù)據(jù)集,并且使用不同的策略(HDFS默認(rèn)策略和本文提出的優(yōu)化策略)將它們寫入HDFS集群中。在實(shí)驗(yàn)中數(shù)據(jù)塊的大小被設(shè)置為64MB,副本因子為3。隨后我們對(duì)不同數(shù)據(jù)集的數(shù)據(jù)可靠性指標(biāo)進(jìn)行了統(tǒng)計(jì),結(jié)果顯示采用HDFS的默認(rèn)放置策略,幾乎只有70%的數(shù)據(jù)塊能夠?qū)崿F(xiàn)分配到不同的物理機(jī)節(jié)點(diǎn)之中,而基于本文提出的存儲(chǔ)優(yōu)化策略,100%的數(shù)據(jù)塊都能被分配到不同的物理機(jī)節(jié)點(diǎn)中,意味著它們能達(dá)到與同構(gòu)物理環(huán)境相同的可靠性,統(tǒng)計(jì)結(jié)果如表1。

        4 結(jié)束語(yǔ)

        本文通過(guò)對(duì)HDFS的數(shù)據(jù)存儲(chǔ)和云計(jì)算環(huán)境中虛擬機(jī)資源調(diào)度的研究,分析了云環(huán)境中影響數(shù)據(jù)可靠性存儲(chǔ)的因素,設(shè)計(jì)了一種基于位置感知的數(shù)據(jù)塊存儲(chǔ)策略,實(shí)現(xiàn)了不同副本的隔離放置。最后在OpenStack私有云計(jì)算平臺(tái)通過(guò)實(shí)驗(yàn)進(jìn)行了驗(yàn)證,結(jié)果表明與HDFS默認(rèn)的數(shù)據(jù)塊副本放置策略相比,本文提出的優(yōu)化放置方法能夠很好地把數(shù)據(jù)塊副本分配到不同的物理機(jī)節(jié)點(diǎn)之中,提高了數(shù)據(jù)的可靠性。

        參考文獻(xiàn):

        [1] Konstantin S, Hairong K, Sanjay R, Robert C. The Hadoop Distributed File System[M]. In: Proc. of MSST. 2010: 1-10.

        [2] Zaharia M, Chowdhury M, Franklin M. J, et al. Spark: cluster computing with working sets[C]//Proceedings of the 2nd USENIX conference on Hot topics in cloud computing, 2010: 10.

        [3] Lei L. Towards a high performance virtual hadoop cIuster[J]. Journal of Convergence Information Technology, 2018, 7(6): 292-303.

        [4] Geng Y, Chen S, Wu Y, et al. Location-aware mapreduce in virtual cloud[C]//Parallel Processing(ICPP), 2018 International Conference[S.1.]:IEEE, 2018:275-284.

        [5] Chen W, Paik I, Li Z. Tology-aware optimal data placement algorithm for network traffic optimization[J]. IEEE Transactions on Computers, 2016, 65(8): 2603-2617.

        [6] 徐華. 基于云的大數(shù)據(jù)處理系統(tǒng)性能優(yōu)化問(wèn)題研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué),2018:55-59.

        【通聯(lián)編輯:梁書(shū)】

        猜你喜歡
        數(shù)據(jù)存儲(chǔ)云計(jì)算
        大數(shù)據(jù)時(shí)代檔案信息建設(shè)的認(rèn)識(shí)和實(shí)踐
        淺談電力大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)研究與應(yīng)用
        開(kāi)源數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)路徑分析
        基于Android開(kāi)發(fā)的APP數(shù)據(jù)存儲(chǔ)研究
        哈希算法在物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)中的應(yīng)用
        志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
        云計(jì)算與虛擬化
        基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
        實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
        云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        区二区三区玖玖玖| 亚洲av中文字字幕乱码软件| 成人av资源在线播放| 国产三级精品视频2021| 18禁真人抽搐一进一出在线| 国产精品美女久久久久久2018 | 无码伊人久久大香线蕉| 日日噜噜噜夜夜狠狠久久蜜桃| 日本成本人片视频免费| 亚洲欧洲∨国产一区二区三区| 国产91色在线|亚洲| 蜜桃色av一区二区三区麻豆| 大陆老熟女自拍自偷露脸| 精品日产卡一卡二卡国色天香| 91在线在线啪永久地址| 中文字幕乱码琪琪一区| 久久国产精品亚洲va麻豆| 亚洲欧美国产国产综合一区| 高清国产日韩欧美| 一级午夜理论片日本中文在线| 国产成人91久久麻豆视频| 中国国语毛片免费观看视频| 国产妇女乱一性一交| 亚洲女同性恋激情网站| 亚洲av无码日韩av无码网站冲| 吸咬奶头狂揉60分钟视频| 自慰高潮网站在线观看| 无色码中文字幕一本久道久| 久久久亚洲精品一区二区三区| 欧美日本日韩aⅴ在线视频| 久久精品日本美女视频| 久草视频在线手机免费看| 亚洲熟女一区二区三区| 久久久久久久妓女精品免费影院| 视频一区二区免费在线观看| 亚洲精品一区二区三区麻豆| 野外性史欧美k8播放| 粉嫩av一区二区在线观看| 不卡一区二区黄色av| 夜夜高潮夜夜爽夜夜爱爱| 欧美精品久久久久久三级|