亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PCI-E SSD的分布式文件系統(tǒng)優(yōu)化技術(shù)研究

        2017-03-14 02:24:20龐恒茂
        關(guān)鍵詞:系統(tǒng)

        ◆俞 俊 錢 琳 龐恒茂 卜 敏

        基于PCI-E SSD的分布式文件系統(tǒng)優(yōu)化技術(shù)研究

        ◆俞 俊 錢 琳 龐恒茂 卜 敏

        (南京南瑞集團(tuán)公司信息系統(tǒng)集成分公司 江蘇 211100)

        隨著大數(shù)據(jù)時(shí)代的到來(lái),企業(yè)和用戶對(duì)存儲(chǔ)領(lǐng)域的需求呈現(xiàn)爆炸式增長(zhǎng),據(jù)總量指數(shù)級(jí)增長(zhǎng),業(yè)務(wù)呈現(xiàn)日益復(fù)雜的趨勢(shì),當(dāng)前數(shù)據(jù)已經(jīng)成為企業(yè)的核心資源,因此對(duì)數(shù)據(jù)存儲(chǔ)的安全性和可靠性,性能也提出了更高要求。本文提出了基于PCI-E SSD在分布式文件系統(tǒng)的數(shù)據(jù)分層和熱點(diǎn)管理與替換技術(shù),不僅可以提升存取速度、降低耗電量、同時(shí)具有較高的數(shù)據(jù)安全性,并有效地降低了訪問(wèn)延遲,使其能夠適用于結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫(kù))、非結(jié)構(gòu)化數(shù)據(jù)頻繁并發(fā)讀寫的環(huán)境中。

        PCI-E SSD;分布式安全;分布式文件系統(tǒng)

        0 前言

        基于電力系統(tǒng)業(yè)務(wù)建立高傳輸帶寬、低延遲的系統(tǒng)環(huán)境的需求,固態(tài)存儲(chǔ)盤(SSD)在分布式文件系統(tǒng)中的應(yīng)用實(shí)際上屬于自動(dòng)分層存儲(chǔ)技術(shù)一部分,由于PCI-E SSD的物理特性,其更安全的存儲(chǔ)方式、更高效的存取性能使其成為了許多學(xué)者研究的熱點(diǎn)。文獻(xiàn)[1]提出了一個(gè)基于PCI-E與RAID5的存儲(chǔ)方式,改進(jìn)了中規(guī)模存儲(chǔ)的性能。文獻(xiàn)[2,3]對(duì)于PCIE-SSD的協(xié)議棧與多隊(duì)列多中斷技術(shù)進(jìn)行了研究,提出了一個(gè)原型系統(tǒng),提升了總體性能。文獻(xiàn)[4]提出了一個(gè)基于SSD+HDD的異構(gòu)元數(shù)據(jù)存儲(chǔ)系統(tǒng)Hybrid MDSL,針對(duì)SSD特性設(shè)計(jì)了提高空間利用率的方案。文獻(xiàn)[5]提出了基于SSD與HDD的分級(jí)存儲(chǔ)方案FMCFS,實(shí)現(xiàn)了對(duì)固態(tài)與磁盤空間的高效管理。文獻(xiàn)[6]對(duì)于存儲(chǔ)中的重復(fù)索引安全提出了一種解決方案LiveStor,降低了系統(tǒng)整體能耗,并提升了安全性,基于文獻(xiàn)[6],文獻(xiàn)[7,8]對(duì)于分布式存儲(chǔ)的安全提出了密鑰分發(fā)與管理、用戶與存儲(chǔ)節(jié)點(diǎn)身份認(rèn)證機(jī)制等方案,提升了分布式存儲(chǔ)的安全性。本文通過(guò)結(jié)合PCIE-SSD與分布式文件系統(tǒng)技術(shù),提出了緩存技術(shù)的熱點(diǎn)算法、數(shù)據(jù)塊優(yōu)化以及基于SSD的數(shù)據(jù)分層存儲(chǔ)技術(shù),提升了分布式系統(tǒng)的總體性能。

        1 基于緩存技術(shù)的熱點(diǎn)算法

        在 Memcached 內(nèi)存對(duì)象緩存系統(tǒng)基礎(chǔ)上進(jìn)行實(shí)現(xiàn),通過(guò)修改 Memcached 系統(tǒng)中原有的 LRU 算法,將其改為提出的基于存取代價(jià)的緩存替換算法。Memcached是一個(gè)高性能的分布式內(nèi)存對(duì)象緩存系統(tǒng),用于在動(dòng)態(tài) Web 系統(tǒng)中減輕數(shù)據(jù)庫(kù)負(fù)載。它通過(guò)在內(nèi)存中緩存數(shù)據(jù)來(lái)減少讀取數(shù)據(jù)庫(kù)的次數(shù),從而提升Web 系統(tǒng)的速度。

        Memcached 基于一個(gè)存儲(chǔ)鍵值對(duì)的 Hashmap,其守護(hù)進(jìn)程(daemon)是用 C 寫的,但是客戶端可以用任何語(yǔ)言來(lái)編寫,并通過(guò) Memcached 協(xié)議與守護(hù)進(jìn)程通信?,F(xiàn)在很多的大型 Web應(yīng)用系統(tǒng)包括 Facebook、Youtube、Twitter、Wikipedia、Yahoo、WordPress、Digg 等都在使用 Memcached 來(lái)支持他們每天數(shù)億級(jí)的頁(yè)面訪問(wèn)。通過(guò)把 cache 層與他們的 Web 架構(gòu)集成,他們的應(yīng)用程序在提高了性能的同時(shí),還大大降低了數(shù)據(jù)庫(kù)的負(fù)載。

        2 存儲(chǔ)系統(tǒng)中數(shù)據(jù)塊優(yōu)化技術(shù)

        分布式文件系統(tǒng)等文件系統(tǒng)的數(shù)據(jù)是分塊進(jìn)行存儲(chǔ)的。分塊存儲(chǔ)有以下優(yōu)點(diǎn)。首先,如果一個(gè)文件超過(guò)了本地文件系統(tǒng)支持的單個(gè)文件的大小上限,也能夠在本系統(tǒng)中存儲(chǔ);如果一個(gè)文件的大小接近或了一個(gè)Master節(jié)點(diǎn)的磁盤空間,我們可以把他們分布至不同的Master節(jié)點(diǎn)上。這樣會(huì)使整個(gè)系統(tǒng)的負(fù)載更加均衡,而不會(huì)出現(xiàn)某個(gè)Master的磁盤用盡,而其他Master節(jié)點(diǎn)還沒使用的情況。其次,分塊存儲(chǔ)可以簡(jiǎn)化系統(tǒng)的復(fù)雜性,由于塊的大小是固定的,因此系統(tǒng)可以很容易的計(jì)算出每個(gè)Master可以存儲(chǔ)的數(shù)據(jù)塊數(shù)a。最后,分塊存儲(chǔ)有利于冗余機(jī)制的實(shí)現(xiàn)。

        3 基于SSD的數(shù)據(jù)分層存儲(chǔ)技術(shù)

        3.1 數(shù)據(jù)自動(dòng)分層

        自動(dòng)分層的基本原理是,數(shù)據(jù)在創(chuàng)建后隨著時(shí)間推移價(jià)值會(huì)逐步降低。數(shù)據(jù)主要在其創(chuàng)建后的72小時(shí)內(nèi)被訪問(wèn)。在此之后訪問(wèn)量會(huì)驟然減少,訪問(wèn)頻率越來(lái)越低,30天以后數(shù)據(jù)只會(huì)被偶爾訪問(wèn)。在這時(shí),數(shù)據(jù)就成了“被動(dòng)數(shù)據(jù)”或“冷數(shù)據(jù)”。

        隨著數(shù)據(jù)價(jià)值的降低,數(shù)據(jù)應(yīng)當(dāng)遷移到低速、低成本的存儲(chǔ)層上。如果要手動(dòng)這樣做的話,這種重復(fù)操作顯然非常乏味,難以滿足所需工作量。換句話說(shuō),沒有人會(huì)這么做。自動(dòng)分層技術(shù)會(huì)基于諸如數(shù)據(jù)創(chuàng)建時(shí)間、訪問(wèn)頻率、最后訪問(wèn)時(shí)間或響應(yīng)時(shí)間之類的策略進(jìn)行數(shù)據(jù)遷移。

        圖1 數(shù)據(jù)分層存儲(chǔ)

        3.2 熱區(qū)管理與替換

        根據(jù)熱區(qū)的定義,一段時(shí)間內(nèi),熱區(qū)的訪問(wèn)次數(shù)要高于冷區(qū)的訪問(wèn)次數(shù)。我們可以簡(jiǎn)單地把熱度值定義為某個(gè)區(qū)塊內(nèi)的數(shù)據(jù)塊被外部訪問(wèn)的頻度。但這種算法會(huì)出現(xiàn)兩個(gè)問(wèn)題:一是時(shí)間維度的熱區(qū)無(wú)法識(shí)別;二是對(duì)熱區(qū)的查詢速度慢。于是,我們對(duì)熱點(diǎn)管理替換算法進(jìn)行了優(yōu)化。

        當(dāng)某個(gè)item首次插入或者再次命中時(shí),首先獲得該item所在slab 的 LRU 鏈頭尾指針,通過(guò)這兩個(gè)指針可以快速對(duì) LRU鏈進(jìn)行操作。

        如果原來(lái)LRU鏈已經(jīng)存在至少一個(gè)元素,則將原來(lái)頭節(jié)點(diǎn)的prev 指針指向現(xiàn)在的新頭節(jié)點(diǎn)。然后將 LRU 的頭指針指向現(xiàn)在新的item。如果尾指針為空的話將尾指針指向該item,最后將該slab的item個(gè)數(shù)加1。

        根據(jù)基于存取代價(jià)的緩存替換算法內(nèi)容的研究,將其實(shí)現(xiàn)在Memcached緩存系統(tǒng)中,替換Memcached 原有的 LRU 緩存替換算法。如果該節(jié)點(diǎn)已經(jīng)在緩存中,當(dāng)前被命中的話,就根據(jù) P值計(jì)算公式計(jì)算出其P值。然后就從鏈表頭開始對(duì)逐個(gè)節(jié)點(diǎn)計(jì)算P 值,直到找到該 item 的P 值比該節(jié)點(diǎn)P 值大的節(jié)點(diǎn),然后將item插入到該節(jié)點(diǎn)前面即可。如果搜索完整個(gè)鏈表仍然找不到這樣的節(jié)點(diǎn)的話,就把該item 作為鏈表尾節(jié)點(diǎn)。

        如果沒有得到該文件的熱度信息,或者它不是hot文件,我們只存儲(chǔ)三個(gè)備份,此時(shí)不用分塊。而當(dāng)上傳的文件大小大于最大的分塊因子sn時(shí),我們必須做分塊處理,至于具體的分塊大小,我們需要調(diào)用配置中的分塊函數(shù)。

        而當(dāng)上傳的文件大小在分塊因子s0和sn之間時(shí),情況就較為復(fù)雜,我們首先需要判斷分塊是不是必要,對(duì)系統(tǒng)性能有增強(qiáng)還是減弱,如果有必要分塊,則調(diào)用模塊2進(jìn)行分塊,否則直接分配其一個(gè)block-id,然后進(jìn)行副本的存儲(chǔ)。

        隨著訪問(wèn)量增加,熱度值可能溢出(尤其是上層節(jié)點(diǎn)),節(jié)點(diǎn)內(nèi)所有熱度值右移1 位不會(huì)改變本節(jié)點(diǎn)內(nèi)的熱度排序,所以不需要修改同層不同節(jié)點(diǎn)和不同層節(jié)點(diǎn)。當(dāng)節(jié)點(diǎn)訪問(wèn)計(jì)數(shù)大于一定閾值時(shí)節(jié)點(diǎn)內(nèi)所有區(qū)的熱值右移1 位可以隔離歷史訪問(wèn)信息熱值右移1 位相當(dāng)于使這一個(gè)時(shí)刻之前的熱度值的權(quán)重降為1 /2,使近期的訪問(wèn)量在熱度值中占有更高的權(quán)重。當(dāng)一個(gè)區(qū)內(nèi)的數(shù)據(jù)塊長(zhǎng)時(shí)間沒有訪問(wèn)時(shí),其熱度值將不斷變小直至變?yōu)?,成為冷區(qū)。

        3.3 MTE替換方法

        當(dāng)需要調(diào)入數(shù)據(jù)塊且SSD 的讀寫緩存已滿時(shí),就使用最小熱度選?。∕inimum Thermal Eclectic,MTE)方案從已有數(shù)據(jù)塊中選擇替換塊。被替換數(shù)據(jù)塊的選取原則是從SSD 中熱度值最低的冷區(qū)中選取,當(dāng)被選中的冷區(qū)包含多個(gè)數(shù)據(jù)塊時(shí),則依據(jù)LRU 算法選取。冷區(qū)的查找是從根節(jié)點(diǎn)開始的,首先找到本層熱度值最低且在SSD 中有數(shù)據(jù)塊的區(qū)節(jié)點(diǎn),然后依次向下一層查找,最后檢索到的葉子節(jié)點(diǎn)所指向的區(qū)就是要查找的冷區(qū)。SSD 緩存的數(shù)據(jù)塊的調(diào)入由后臺(tái)模塊定期或空閑時(shí)完成。

        圖2 MTE替換方法

        此外,根據(jù)多任務(wù)的I /O 工作流具有順序訪問(wèn)和區(qū)域集中的特性,可以采取預(yù)取策略增加命中率。可以采用兩種預(yù)取策略:一是定期掃描熱區(qū)的信息,選擇熱度值高的區(qū),調(diào)入這些區(qū)的未調(diào)入的數(shù)據(jù)塊;二是在數(shù)據(jù)塊調(diào)入時(shí),查看該區(qū)的熱度值是否達(dá)到一定門限,如果是,則試圖調(diào)入該數(shù)據(jù)塊之后的幾個(gè)數(shù)據(jù)塊;如果不是,則采用MTE預(yù)取策略。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)使用6臺(tái)服務(wù)器組成分布式集群,每個(gè)服務(wù)器操作系統(tǒng)為Red Hat Linux Enterprise 6.5,內(nèi)存12GB,硬盤為3TBHDD與1.6TB PCI-E SSD,實(shí)驗(yàn)室采用普通千兆網(wǎng)絡(luò)與交換機(jī)。

        4.2 實(shí)驗(yàn)方案

        實(shí)驗(yàn)在5臺(tái)服務(wù)器上部署分布式集群,同時(shí)客戶機(jī)上部署測(cè)試工具,使用iozone與fio進(jìn)行性能測(cè)試與壓力測(cè)試,根據(jù)社交網(wǎng)絡(luò)與公司業(yè)務(wù)數(shù)據(jù),模擬熱數(shù)據(jù)訪問(wèn)情景。測(cè)試方案包括批量小文件順序與隨機(jī)讀寫性能,單個(gè)大文件順序與隨機(jī)讀寫性能,測(cè)試文件總量為5*3TB=15TB,實(shí)驗(yàn)使用配置文件控制系統(tǒng)是否使用數(shù)據(jù)分層與熱點(diǎn)管理技術(shù),并作出對(duì)比測(cè)試。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)于5臺(tái)服務(wù)器與一臺(tái)客戶機(jī)組成的分布式集群上進(jìn)行,測(cè)試結(jié)果如表1所示。

        表1 PCI-E SSD分布式系統(tǒng)測(cè)試

        可以看出,使用PCI-E SSD的改進(jìn)算法對(duì)于分布式系統(tǒng)性能具有飛躍性的提升。盡管原系統(tǒng)也配置了同樣大小的PCI-E SSD,但使用了改進(jìn)算法后,系統(tǒng)總體性能無(wú)論是在單客戶端,還是在整個(gè)文件系統(tǒng)的吞吐量上,都有了近30%的性能提升。故實(shí)驗(yàn)表明MTE替換算法與數(shù)據(jù)自動(dòng)分層對(duì)于單機(jī)吞吐量與總體性能都有巨大提升。

        5 結(jié)束語(yǔ)

        本研究基于PCI-E SSD在分布式文件的應(yīng)用,實(shí)現(xiàn)了合理的利用熱點(diǎn)算法找出系統(tǒng)中的熱點(diǎn)數(shù)據(jù)可以大幅的提高緩存數(shù)據(jù)的命中率,使得分布式文件系統(tǒng)的讀寫性能產(chǎn)生巨大的提升。同時(shí),降低存儲(chǔ)系統(tǒng)節(jié)點(diǎn)的磁盤負(fù)載,提高緩存空間的利用率,對(duì)于優(yōu)化整個(gè)分布式文件系統(tǒng)的性能也具有重要意義。研究通過(guò)使用數(shù)據(jù)分層存儲(chǔ)技術(shù),用讀寫速度極快的PCI-E SSD的緩存系統(tǒng)存儲(chǔ)常用的熱點(diǎn)數(shù)據(jù),使用普通SSD存儲(chǔ)較為常用的數(shù)據(jù),使用傳統(tǒng)的硬盤存儲(chǔ)很少使用的歷史數(shù)據(jù),建立讀寫性能高效的層次化分布式文件系統(tǒng)。系統(tǒng)將為電網(wǎng)業(yè)務(wù)提供更可靠的存儲(chǔ)和維護(hù)能力,并且具備良好的可伸縮性和靈活性,為應(yīng)對(duì)企業(yè)的數(shù)據(jù)快速增長(zhǎng)帶來(lái)的業(yè)務(wù)壓力給出了更好的解決方案。

        [1]張?jiān)獎(jiǎng)P,蔡惠智,劉垚,王維.基于PCIe和RAID5的高速存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].微計(jì)算機(jī)信息,2010.

        [2]潤(rùn)冬,劉芳,肖儂等.PCIe SSD I/O棧設(shè)計(jì)與原型系統(tǒng)研究[J].計(jì)算機(jī)研究與發(fā)展,2015.

        [3]李云.面向高性能應(yīng)用的PCIE SSD的驅(qū)動(dòng)研究與實(shí)現(xiàn)[D].國(guó)防科學(xué)技術(shù)大學(xué),2012.

        [4]陳卓,熊勁,馬燦.基于SSD的機(jī)群文件系統(tǒng)元數(shù)據(jù)存儲(chǔ)系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012.

        [5]梁學(xué)森.基于SSD和HDD的分級(jí)文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2014.

        [6]杜敏,鄭釗,關(guān)少華等.面向分布式存儲(chǔ)的安全云存儲(chǔ)系統(tǒng)研究[J].北京電子科技學(xué)院學(xué)報(bào),2013.

        [7]張硯波,劉正偉,文中領(lǐng)等.一種高效存儲(chǔ)解決方案的分析與研究[C]// 全國(guó)信息存儲(chǔ)技術(shù)大會(huì),2011.

        [8]楊祥清.存儲(chǔ)系統(tǒng)數(shù)據(jù)去重策略研究[J].信息通信,2014.

        本研究由2015年國(guó)家電網(wǎng)科技項(xiàng)目資助,WBS號(hào):524606150008。

        猜你喜歡
        系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        基于PowerPC+FPGA顯示系統(tǒng)
        基于UG的發(fā)射箱自動(dòng)化虛擬裝配系統(tǒng)開發(fā)
        半沸制皂系統(tǒng)(下)
        FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        一德系統(tǒng) 德行天下
        PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
        俺去啦最新地址| 伊在人亚洲香蕉精品区麻豆| 少妇激情一区二区三区久久大香香| 亚洲av极品尤物不卡在线观看 | 在线观看国产精品91| 亚洲成生人免费av毛片| av日韩一区二区三区四区| 女人高潮被爽到呻吟在线观看| 小sao货水好多真紧h视频| 国产欧美日韩专区毛茸茸| 亚洲天堂一区二区三区| 国产国语亲子伦亲子| 蜜桃麻豆www久久囤产精品| 激情五月天伊人久久| 玖玖资源网站最新网站| 白白色发布的在线视频| 强开少妇嫩苞又嫩又紧九色| 拍摄av现场失控高潮数次| 久99久精品免费视频热77| 亚洲一区二区三区在线最新| 丝袜美腿一区二区三区| 国产黑色丝袜在线观看下| 亚洲av色香蕉一区二区蜜桃| 国产午夜视频高清在线观看| 四虎影在永久在线观看| 99久久人人爽亚洲精品美女 | 亚洲性无码av在线| 日本韩国亚洲三级在线| 青青草国产精品一区二区| 精品无码人妻一区二区三区| 麻豆久久五月国产综合| 亚洲中文字幕一区高清在线 | 国产无套一区二区三区久久| 伊人久久大香线蕉午夜av| 中文字幕一区二区人妻| 亚洲国产欧美久久香综合| 91国产自拍精品视频| 天天爽夜夜爽人人爽一区二区| 亚洲最大日夜无码中文字幕| 网友自拍人妻一区二区三区三州| 中文字幕色资源在线视频|