繆嘉嘉,付印金,余沛毅,毛捍東
(1.解放軍理工大學(xué) 指揮信息系統(tǒng)學(xué)院,江蘇 南京 210007;2.北京普世時(shí)代科技有限公司,北京 100192)
低能耗磁光混合歸檔系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
繆嘉嘉1,付印金1,余沛毅1,毛捍東2
(1.解放軍理工大學(xué) 指揮信息系統(tǒng)學(xué)院,江蘇 南京 210007;2.北京普世時(shí)代科技有限公司,北京 100192)
層次型混合歸檔系統(tǒng)是數(shù)據(jù)存儲(chǔ)領(lǐng)域的研究熱點(diǎn),在工業(yè)界也被廣泛接受,小到個(gè)人存儲(chǔ)大到數(shù)據(jù)中心都在使用混合存儲(chǔ)系統(tǒng)。針對(duì)大數(shù)據(jù)中心的能耗問題,引入更為廉價(jià)低能耗的光介質(zhì)存儲(chǔ),建立陣列、在線光盤庫(kù)、離線光盤庫(kù)構(gòu)成的混合歸檔系統(tǒng),采用低能耗磁光混合的存儲(chǔ)架構(gòu),在犧牲陳舊文件讀取速度的情況下,大幅降低了存儲(chǔ)能耗;在研究分析數(shù)據(jù)的一致性保證機(jī)制以及多級(jí)存儲(chǔ)系統(tǒng)的彈性設(shè)計(jì)的基礎(chǔ)上,針對(duì)光介質(zhì)的讀寫特性,重點(diǎn)研究了磁光混合歸檔系統(tǒng)的文件緩存和預(yù)取機(jī)制。采用基于整體訪問頻率的數(shù)據(jù)遷移策略解決了熱度文件的訪問效率不受影響的問題,采用基于I/O特征預(yù)測(cè)模型的預(yù)取算法,提升了多級(jí)存儲(chǔ)結(jié)構(gòu)的命中準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明,所構(gòu)建的系統(tǒng)能夠有效節(jié)省能源并可維持?jǐn)?shù)據(jù)檢索查詢的時(shí)效性。
低能耗;光盤庫(kù);磁光混合;多級(jí)存儲(chǔ)系統(tǒng);文件預(yù)取;文件緩存
隨著數(shù)據(jù)量的增長(zhǎng)以及人們對(duì)于數(shù)據(jù)價(jià)值的深刻認(rèn)知,歸檔系統(tǒng)的高并行性、高可靠性、高性價(jià)比變得越來越重要。然而在建、在用的數(shù)據(jù)中心,電力的消耗越來越嚴(yán)重,數(shù)據(jù)中心的能耗成本還在不斷增加。早在2006年,Jonathan等[1]認(rèn)為美國(guó)數(shù)據(jù)中心能耗占到了該國(guó)總能耗的1.2%,且其增長(zhǎng)速度大約為5年翻一番;William等[2]估算的數(shù)據(jù)中心能耗密度范圍為1 076~2 150 W/m2。國(guó)內(nèi)數(shù)據(jù)中心規(guī)模呈快速增長(zhǎng)趨勢(shì),數(shù)據(jù)中心能耗也隨之快速增加。2009年,國(guó)內(nèi)數(shù)據(jù)中心總耗電量約364億kWh,占當(dāng)年全國(guó)總電耗的1%。未來,國(guó)內(nèi)數(shù)據(jù)中心仍將快速發(fā)展,如果維持當(dāng)前的低能效水平,到2015年,僅全國(guó)的數(shù)據(jù)中心就將消耗掉三峽電站1年的發(fā)電量[3]。
因此,加強(qiáng)數(shù)據(jù)中心節(jié)能、提高數(shù)據(jù)中心能效是必要和緊迫的。北京、上海、南京等地均有相關(guān)的實(shí)際數(shù)據(jù)采集[4-5],分析后發(fā)現(xiàn),IT及網(wǎng)絡(luò)通信設(shè)備的能耗占51%,空調(diào)制冷系統(tǒng)的能耗占24%,空調(diào)通風(fēng)加濕系統(tǒng)的能耗占11%,照明能耗占2.5%,其他能耗占11.5%,因此數(shù)據(jù)中心機(jī)房的節(jié)能重點(diǎn)是IT及網(wǎng)絡(luò)通信設(shè)備和機(jī)房空調(diào)。國(guó)內(nèi)研究者也進(jìn)行了相關(guān)的能耗分析及節(jié)能措施,主要手段是調(diào)整機(jī)房的物理結(jié)構(gòu),采用低能耗設(shè)備等等[6-7]。
一方面,為節(jié)約數(shù)據(jù)中心能耗,干福熹院士攜手國(guó)內(nèi)外20多位院士聯(lián)合署名,倡議為迎接大數(shù)據(jù)的挑戰(zhàn),應(yīng)該開展安全、節(jié)能和長(zhǎng)壽命的光存儲(chǔ)技術(shù)研發(fā)和應(yīng)用。另一方面,據(jù)行業(yè)調(diào)查分析顯示,歸檔系統(tǒng)中無(wú)論何時(shí)都有70%~80%的數(shù)據(jù)是靜止不動(dòng)的[8]。數(shù)據(jù)不同時(shí)期有其存在的不同意義:數(shù)據(jù)剛生成時(shí),訪問頻率最高;隨著時(shí)間的推移,訪問頻率降低,低訪問頻率的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過高訪問頻率的數(shù)據(jù)量。將這部分?jǐn)?shù)據(jù)稱為“冷”數(shù)據(jù)。“冷”數(shù)據(jù)由于訪問頻率降低,如果在歸檔系統(tǒng)中依然在線存儲(chǔ),這是對(duì)能耗的極大浪費(fèi)。綜上所述,節(jié)約能耗是數(shù)據(jù)中心規(guī)劃建設(shè)運(yùn)行過程中不可忽視的重要一環(huán),采用低速的光介質(zhì)設(shè)備能夠降低能耗,但帶來了訪問效率低下的問題。為此,提出了一種磁光混合歸檔系統(tǒng),采用高速介質(zhì)緩存方法,能夠在降低能耗的情況下保障數(shù)據(jù)的訪問速度在可接受范圍。
混合存儲(chǔ)系統(tǒng)(Hybrid Storage System)通常是指在閃存技術(shù)飛速發(fā)展的背景下出現(xiàn)的一種集固態(tài)盤和磁盤驅(qū)動(dòng)器技術(shù)于一體,以大容量、高性能和低成本為目標(biāo)的異構(gòu)性非易失外歸檔系統(tǒng)。其設(shè)計(jì)思想在于使性能好、價(jià)格高的SSD在歸檔系統(tǒng)中發(fā)揮杠桿作用,發(fā)揮SSD和HDD的各自優(yōu)勢(shì)并彌補(bǔ)對(duì)方的短處,讓系統(tǒng)以接近磁盤的價(jià)格提供近似固態(tài)盤的性能。
所提出的磁光混合歸檔系統(tǒng)在緩存技術(shù)、預(yù)取技術(shù)方面借鑒了現(xiàn)有混合存儲(chǔ)系統(tǒng)中的現(xiàn)有研究成果,針對(duì)光盤本身的I/O特性進(jìn)行了相應(yīng)調(diào)整。
2.1 緩存技術(shù)
Cache技術(shù)被廣泛地運(yùn)用于多層存儲(chǔ)體系結(jié)構(gòu)中,通過程序局部性原理將I/O集中于高性能存儲(chǔ)層,從而彌補(bǔ)不同層次存儲(chǔ)器之間性能和價(jià)格的差異,實(shí)現(xiàn)以低購(gòu)置成本得到高性能的設(shè)計(jì)目標(biāo)。
已有的緩存算法研究多基于磁盤存儲(chǔ)和DRAM Cache,并針對(duì)磁盤的內(nèi)部特征進(jìn)行了大量?jī)?yōu)化,比如盡量以順序方式訪問磁盤、讓磁盤空閑時(shí)段延長(zhǎng)等。近期,緩存技術(shù)被移植到基于Flash、磁盤的混合歸檔系統(tǒng),針對(duì)Flash介質(zhì)的獨(dú)特特性,如有限的擦寫(Program/Erase,P/E)次數(shù)、不對(duì)稱的讀寫性能(Asymmetric Read and Write)等問題,也有研究跟進(jìn)。
此外,在以往基于磁盤的DRAM Cache中,命中率(Hit Rate)是最主要的Cache性能指標(biāo)。而在混合歸檔系統(tǒng)中,無(wú)論是Flash層之上的DRAM Cache,還是磁盤層之上的Flash Cache,緩存算法的評(píng)價(jià)指標(biāo)都將變得更為復(fù)雜。Intel公司的Matthews等[9]指出,僅當(dāng)一個(gè)請(qǐng)求完全命中Flash Cache(Full Hit)時(shí),才能減少磁盤訪問,若請(qǐng)求部分命中(Partial Hit)Flash Cache并不意味著系統(tǒng)性能的必然提升。CFLRU[10]指出,對(duì)于Flash存儲(chǔ)之上的DRAM Cache,臟頁(yè)(Dirty Page)替換的代價(jià)要高于干凈頁(yè)(Clean Page)替換。在DRAM Cache中數(shù)據(jù)替換的代價(jià)可以忽略不計(jì),然而OP-FCL[11]指出,在Flash Cache中數(shù)據(jù)替換的代價(jià)很高,必須要將數(shù)據(jù)在Flash Cache中的寫入時(shí)間和被替換數(shù)據(jù)的垃圾回收時(shí)間考慮進(jìn)去。
因此,磁光混合歸檔系統(tǒng)的緩存管理技術(shù)的設(shè)計(jì),必須針對(duì)光盤的內(nèi)部特征重新量化Cache的成本收益(Cost-benefit)模型,建立Cache插入策略。
2.2 預(yù)取技術(shù)
預(yù)取技術(shù)應(yīng)用的領(lǐng)域非常廣泛,包括處理器、Web系統(tǒng)結(jié)構(gòu)、數(shù)據(jù)庫(kù)、文件系統(tǒng)、存儲(chǔ)控制器等。在歸檔系統(tǒng)中,應(yīng)用最廣泛的預(yù)取技術(shù)是順序預(yù)取(Sequential Prefetching),即通過順序流偵測(cè)來預(yù)測(cè)未來的請(qǐng)求模式。順序預(yù)取之所以被普遍采用源于其所需語(yǔ)義簡(jiǎn)單、預(yù)取精度高,且I/O成本低[12]?,F(xiàn)有的順序預(yù)取方案主要分為三大類,即持續(xù)預(yù)取(Prefetch Always,PA)、缺失預(yù)取(Prefetch On Miss,POM)和命中預(yù)取(Prefetch On Hit,POH)[13]。PA型預(yù)取并不需要預(yù)測(cè)模塊,對(duì)每一個(gè)請(qǐng)求它都會(huì)預(yù)取與之連續(xù)的數(shù)據(jù)。
Gill等提出了AMP[14]預(yù)取算法,通過漸進(jìn)性的啟發(fā)式策略來不斷調(diào)整預(yù)取的強(qiáng)度和觸發(fā)器(trigger)位置,從而獲取最高的聚合吞吐量。一些研究建議把預(yù)取、緩存和調(diào)度權(quán)限交給應(yīng)用程序來控制。還有一些研究提出不去修改應(yīng)用程序的代碼,而是通過特殊的方式執(zhí)行應(yīng)用程序來分析該預(yù)取哪些數(shù)據(jù)。這些方法都涉及到I/O接口的修改、應(yīng)用的重構(gòu)和一些復(fù)雜計(jì)算。
在混合存儲(chǔ)系統(tǒng)中,異構(gòu)介質(zhì)的存儲(chǔ)設(shè)備構(gòu)成了多層緩存系統(tǒng)。多層緩存系統(tǒng)有其不同于傳統(tǒng)緩存的特點(diǎn)。伊利諾斯大學(xué)的Zhou等[15]指出,在第一層Cache中往往使用基于局部性的Least Recently Used (LRU)替換算法,因而訪問第二層Buffer Cache的訪問體現(xiàn)出較第一層相對(duì)更弱的時(shí)間局部性。此外,F(xiàn)AST[16]使用基于固態(tài)盤的預(yù)取策略來加快個(gè)人電腦中程序的啟動(dòng)速度。該系統(tǒng)是將SSD中的數(shù)據(jù)預(yù)取到DRAM緩存中,并非將磁盤數(shù)據(jù)預(yù)取到SSD中。
2.3 藍(lán)光相關(guān)技術(shù)指標(biāo)
以硬盤和磁帶為代表的磁存儲(chǔ)技術(shù),由于存儲(chǔ)速度快、存儲(chǔ)量大和使用方便,成為當(dāng)今主流的存儲(chǔ)技術(shù),被廣泛應(yīng)用于數(shù)據(jù)中心乃至企業(yè)中?,F(xiàn)有主流的存儲(chǔ)技術(shù)難以滿足大數(shù)據(jù)時(shí)代對(duì)海量數(shù)據(jù)長(zhǎng)期、安全、高效存儲(chǔ)的要求。藍(lán)光盤利用波長(zhǎng)較短的藍(lán)色激光讀取和寫入數(shù)據(jù),極大地提高了光盤的存儲(chǔ)容量。光存儲(chǔ)的主要優(yōu)勢(shì)有三個(gè):一是基盤由堅(jiān)固、耐久的材料制成;二是光存儲(chǔ)的非易失性;三是可長(zhǎng)期保存。光存儲(chǔ)技術(shù)發(fā)展至今,其安全、能耗低、壽命長(zhǎng)和單介質(zhì)數(shù)據(jù)容量增加快的特點(diǎn),使之在大數(shù)據(jù)時(shí)代滿足對(duì)數(shù)據(jù)長(zhǎng)期、安全、高效存儲(chǔ)需求上具有獨(dú)特的優(yōu)勢(shì)。
不同存儲(chǔ)介質(zhì)的特性對(duì)比見表1。
表1 不同存儲(chǔ)介質(zhì)的特性對(duì)比
磁光混合歸檔系統(tǒng)主要由離線盤柜、光盤庫(kù)、存儲(chǔ)陣列、服務(wù)器組成,根據(jù)數(shù)據(jù)的訪問速度將存儲(chǔ)陣列中的稱為在線數(shù)據(jù),光盤庫(kù)中的為近線數(shù)據(jù),離線盤柜的稱為離線數(shù)據(jù),服務(wù)器中的元數(shù)據(jù)服務(wù)存儲(chǔ)元數(shù)據(jù)組織信息,具體如圖1所示。
上述存儲(chǔ)架構(gòu)中客戶端主動(dòng)或被動(dòng)將數(shù)據(jù)移動(dòng)至歸檔服務(wù)器的陣列中,通過API接口或Web接口可以完成對(duì)已歸檔數(shù)據(jù)的使用,若陣列中數(shù)據(jù)已滿或有部分?jǐn)?shù)據(jù)長(zhǎng)久不被訪問,那么逐步遷移至近線存儲(chǔ)即光盤庫(kù)中。其中離線設(shè)備需要通過人工干預(yù)才能進(jìn)行數(shù)據(jù)訪問,因此不在討論范疇之內(nèi)。
圖2是磁光混合多級(jí)存儲(chǔ)的體系結(jié)構(gòu),對(duì)用戶端系統(tǒng)支持客戶端API,允許以服務(wù)方式提供數(shù)據(jù)的查詢、訪問,對(duì)數(shù)據(jù)源接口采用歸檔計(jì)劃、任務(wù)方式,設(shè)置定期的歸檔時(shí)間,自動(dòng)或手動(dòng)方式完成數(shù)據(jù)歸檔,非結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)預(yù)處理進(jìn)入元數(shù)據(jù)服務(wù)器,結(jié)構(gòu)化數(shù)據(jù)通過ETL工具完成關(guān)系型數(shù)據(jù)到面向?qū)ο髷?shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換,并加載到元數(shù)據(jù)集群中。
圖1 基于藍(lán)光存儲(chǔ)架構(gòu)
圖2 磁光混合多級(jí)歸檔的體系結(jié)構(gòu)
元數(shù)據(jù)集群中存儲(chǔ)面向?qū)ο蟮奈募傩越Y(jié)構(gòu),以值對(duì)方式記錄對(duì)象的屬性,存在外部文件鏈接,指向?qū)ο髮?shí)體,對(duì)象實(shí)體可以是文本、圖片、視頻等富媒體方式文件。元數(shù)據(jù)庫(kù)采用ES架構(gòu),一方面利用ES本身的易擴(kuò)展性、高可靠性等特點(diǎn),能夠縱向或橫向進(jìn)行節(jié)點(diǎn)擴(kuò)展,ES本身也能夠很好地支持全文檢索。
通過上層的元數(shù)據(jù)服務(wù),可以支持查閱用戶進(jìn)行全文檢索、數(shù)據(jù)可視化展示,也允許用戶利用API接口與其他應(yīng)用程序?qū)印?/p>
文檔數(shù)據(jù)進(jìn)入歸檔服務(wù)器采用光盤存儲(chǔ)結(jié)構(gòu)按照藍(lán)光盤片大小進(jìn)行組織目錄,允許一個(gè)藍(lán)光盤片中存儲(chǔ)多個(gè)任務(wù)數(shù)據(jù),也允許一個(gè)任務(wù)數(shù)據(jù)橫跨多個(gè)藍(lán)光盤片。歸檔數(shù)據(jù)采用新的組織結(jié)構(gòu)的原因在于,便于與近線存儲(chǔ)進(jìn)行遷移,并且歸檔系統(tǒng)中不再關(guān)注文檔的物理路徑存放,可以通過元數(shù)據(jù)的再組織,形成邏輯視圖供用戶查閱。
數(shù)據(jù)遷移:在數(shù)據(jù)量不超過在線存儲(chǔ)容量的情況下,所有數(shù)據(jù)以光盤大小劃分組織目錄,對(duì)外提供在線的數(shù)據(jù)檢索,隨著數(shù)據(jù)容量的增大,在線容量不能滿足歸檔需求時(shí),系統(tǒng)將訪問量較小的數(shù)據(jù)內(nèi)容,開始向光盤庫(kù)進(jìn)行遷移,訪問量的統(tǒng)計(jì)單位是每個(gè)光盤上數(shù)據(jù)的訪問統(tǒng)計(jì),而不是以單個(gè)文件的訪問來進(jìn)行核算。
數(shù)據(jù)預(yù)取:通過較長(zhǎng)時(shí)間的使用,歸檔系統(tǒng)的數(shù)據(jù)根據(jù)使用情況產(chǎn)生了不同情況的分布,基本可以確定的是在線存儲(chǔ)基本處于80%使用狀態(tài),如果發(fā)生用戶訪問到近線存儲(chǔ)的文件,需要調(diào)度光盤庫(kù)將光盤內(nèi)容寫入在線存儲(chǔ),普遍想法是將用戶指定的讀取文件寫入即可,在這種訪問速度上,訪問時(shí)間從秒級(jí)下降到分鐘級(jí)。
3.1 數(shù)據(jù)一致性機(jī)制
由于每一縷燈光都是從一點(diǎn)發(fā)出來,在周圍空間呈現(xiàn)輻射狀。飛蛾根據(jù)進(jìn)化的習(xí)慣,依然保持跟每一縷光線相同的夾角飛行。最后的結(jié)果,就是旋轉(zhuǎn)地一圈一圈墜入燈光的中心。飛蛾的飛行曲線被稱為斐波拉契螺旋線。它描述的就是一個(gè)在輻射狀的網(wǎng)格圖里,按照和每條輻射線保持固定夾角的曲線模型。
數(shù)據(jù)歸檔系統(tǒng)屬于分布式架構(gòu),必然存在一致性保證問題。該系統(tǒng)有兩處隱患,一是元數(shù)據(jù)存儲(chǔ),元數(shù)據(jù)底層采用分布式架構(gòu),允許多臺(tái)設(shè)備存儲(chǔ)冗余存儲(chǔ)元數(shù)據(jù),使得系統(tǒng)能夠負(fù)載均衡和容錯(cuò);二是文件副本可以分布在在線存儲(chǔ)的緩沖區(qū),也可以存儲(chǔ)于近線存儲(chǔ)的光盤介質(zhì)中[17]。
系統(tǒng)的元數(shù)據(jù)集群可采用橫向擴(kuò)展,通過增加節(jié)點(diǎn)來傳播負(fù)載和增加可靠性,如圖3所示,其中外圍方框標(biāo)識(shí)節(jié)點(diǎn),帶星號(hào)的為主節(jié)點(diǎn),小正方形表示分片。節(jié)點(diǎn)是運(yùn)行的元數(shù)據(jù)實(shí)例。一個(gè)集群是一組具有相同節(jié)點(diǎn)的集合,節(jié)點(diǎn)間協(xié)同工作、共享數(shù)據(jù)并提供故障轉(zhuǎn)移和擴(kuò)展功能,當(dāng)加入新節(jié)點(diǎn)或者刪除節(jié)點(diǎn)時(shí),集群就會(huì)感知到并自動(dòng)平衡數(shù)據(jù)。集群中一個(gè)節(jié)點(diǎn)會(huì)被選舉為主節(jié)點(diǎn),用來管理集群中的一些變更,例如新建或刪除索引、增加或移除節(jié)點(diǎn)等。任何一個(gè)節(jié)點(diǎn)互相知道數(shù)據(jù)存在于哪個(gè)節(jié)點(diǎn)上,可以轉(zhuǎn)發(fā)請(qǐng)求到外部需要數(shù)據(jù)所在的節(jié)點(diǎn)上,主節(jié)點(diǎn)負(fù)責(zé)收集各節(jié)點(diǎn)返回的數(shù)據(jù),最后一起返回給客戶端。當(dāng)元數(shù)據(jù)集群擴(kuò)容或縮小,系統(tǒng)將會(huì)自動(dòng)在節(jié)點(diǎn)間遷移分片,以使集群保持平衡。
圖3 元數(shù)據(jù)橫向擴(kuò)展架構(gòu)
對(duì)于第二點(diǎn),該混合歸檔系統(tǒng)不支持?jǐn)?shù)據(jù)文件本身改變,在進(jìn)入近線存儲(chǔ),即進(jìn)行光盤刻錄后,不支持?jǐn)?shù)據(jù)文件的改寫,因此不涉及文件副本的不一致問題。
3.2 系統(tǒng)彈性設(shè)計(jì)
歸檔系統(tǒng)的元數(shù)據(jù)和文件數(shù)據(jù)分離存儲(chǔ)。在數(shù)據(jù)一致性機(jī)制中提及元數(shù)據(jù)的存儲(chǔ)采用易于擴(kuò)展的ES架構(gòu),元數(shù)據(jù)中包括全文索引數(shù)據(jù)可能會(huì)大于原數(shù)據(jù)文件,但是通過增加處理節(jié)點(diǎn),一方面可以增加實(shí)際容量,另一方面也可以提升并發(fā)能力。從元數(shù)據(jù)角度來看,系統(tǒng)具備較好的擴(kuò)展性。從實(shí)際數(shù)據(jù)文件存儲(chǔ)上來看,保持在線存儲(chǔ)和近線存儲(chǔ)的容量比例不變,同比擴(kuò)充增加存儲(chǔ)容量,不會(huì)導(dǎo)致數(shù)據(jù)遷移或數(shù)據(jù)預(yù)取的性能損耗,因此在數(shù)據(jù)文件的存儲(chǔ)上,系統(tǒng)也具備較大彈性。
該混合歸檔系統(tǒng)采用藍(lán)光存儲(chǔ)作為二級(jí)存儲(chǔ)介質(zhì),采用陣列作為一級(jí)存儲(chǔ)介質(zhì),將元數(shù)據(jù)信息存放在一級(jí)存儲(chǔ)介質(zhì)上,確保信息檢索速度,在數(shù)據(jù)量超過一級(jí)存儲(chǔ)容量時(shí)會(huì)產(chǎn)生數(shù)據(jù)遷移和數(shù)據(jù)預(yù)取需求。
4.1 基于整體訪問頻率的數(shù)據(jù)遷移策略
定義BD表示某個(gè)盤片數(shù)據(jù)的被訪問次數(shù),盤片數(shù)據(jù)中存在n個(gè)文件,An為第n個(gè)文件的被訪問次數(shù),則有:
其中,α表示訪問和的權(quán)重,β表示最大訪問次數(shù)的權(quán)重,兩者取值范圍均為0~1。如果用戶讀取歸檔數(shù)據(jù)時(shí)側(cè)重于突發(fā)性讀取,那么α<β,如用戶突發(fā)讀取后,基本會(huì)采用順序讀取獲取周圍的數(shù)據(jù)文件,那么α>β。
IBM在STEPS架構(gòu)中提出了Policy Cache的概念,Policy Cache可以看作為一個(gè)三元組的表,其中包含策略號(hào)(Rule Number)、策略預(yù)期執(zhí)行時(shí)間(Time)、文件iNode唯一對(duì)應(yīng)的文件對(duì)象號(hào)(file object ID)。
在磁光混合歸檔系統(tǒng)中借鑒Policy Cache的思想,將記錄下整個(gè)文件系統(tǒng)的文件完整路徑名,數(shù)據(jù)類型,數(shù)據(jù)創(chuàng)建時(shí)間,最后修改時(shí)間以及文件訪問頻率信息記錄在Policy Metadata Container (PMC)中,根據(jù)(R,D,T)從PMC中查詢得到屬于該策略的數(shù)據(jù)分類文件的應(yīng)用導(dǎo)向和程序?qū)虻脑獢?shù)據(jù),作為該策略的元數(shù)據(jù)庫(kù),即相應(yīng)策略的Policy Cache。
系統(tǒng)采用過濾驅(qū)動(dòng)技術(shù)記錄文檔的訪問次數(shù)、訪問時(shí)間。
4.2 基于I/O特征預(yù)測(cè)模型的預(yù)取算法
文件預(yù)取技術(shù)中,如何提高文件預(yù)取的命中率和適用度一直是研究的焦點(diǎn)。尤其是在面對(duì)大批量數(shù)據(jù)讀取時(shí),如何提高預(yù)取命中率對(duì)系統(tǒng)的性能提升有著至關(guān)重要的影響。提出了識(shí)別I/O特征的預(yù)測(cè)模型,該模型通過記錄文件的歷史訪問信息獲得I/O特征,再分析這些I/O訪問模式,設(shè)計(jì)一個(gè)簡(jiǎn)單高效的特征符號(hào)表來表示這些模式。此預(yù)測(cè)模型可有效地識(shí)別出順序讀、固定點(diǎn)讀、逆序讀、跳讀、多步跳讀等多種模式。同時(shí),該模型添加應(yīng)用程序的信息,可有效地對(duì)不同程序之間的交叉讀做出預(yù)測(cè),有很高的預(yù)測(cè)命中率。
蹤跡模塊捕獲應(yīng)用程序的外存數(shù)據(jù)I/O操作,構(gòu)建I/O訪問信息流,提供特定I/O訪問操作的查詢功能;模式識(shí)別模塊根據(jù)蹤跡模塊捕獲的應(yīng)用程序I/O訪問信息流識(shí)別應(yīng)用程序的I/O訪問模式??梢灾С猪樞蜃x、固定點(diǎn)讀、逆序讀、單步跳讀、多步跳讀等模式;數(shù)據(jù)預(yù)取模塊提供一些預(yù)取庫(kù)函數(shù),完成順序讀、固定點(diǎn)讀、逆序讀、單步跳讀、多步跳讀等模式數(shù)據(jù)塊的預(yù)取工作。文件預(yù)取框架圖如圖4所示。
圖4 文件預(yù)取框架圖
當(dāng)有讀線程的時(shí)候,先判斷數(shù)據(jù)是否在緩存中。如果在,則直接從緩存中取數(shù)據(jù);否則向系統(tǒng)發(fā)出讀磁盤的請(qǐng)求,此時(shí),判斷是否在stable狀態(tài),如果在,則根據(jù)I/O特征表的一些信息預(yù)測(cè)下次讀請(qǐng)求的offset和size并預(yù)取到緩存中。
針對(duì)不斷增多的數(shù)據(jù)中心建設(shè),關(guān)注度持續(xù)走高的能耗問題,系統(tǒng)設(shè)計(jì)多級(jí)存儲(chǔ)架構(gòu),擬在犧牲數(shù)據(jù)訪問效能的基礎(chǔ)上大幅降低數(shù)據(jù)中心能耗。該系統(tǒng)引入更為廉價(jià)低能耗的光介質(zhì)存儲(chǔ),建立了由陣列、在線光盤庫(kù)、離線光盤庫(kù)構(gòu)成的混合歸檔系統(tǒng),理論上當(dāng)在線存儲(chǔ)與近線存儲(chǔ)容量為1:9時(shí),能夠節(jié)省90%的能量損耗,而在輔以文件緩存和預(yù)取機(jī)制的基礎(chǔ)上,文件的突發(fā)讀寫在20%情況下會(huì)造成分鐘級(jí)等待,但大部分情況或是順序讀取時(shí),系統(tǒng)能夠恢復(fù)在線查詢效率。實(shí)驗(yàn)證明,該系統(tǒng)能夠有效節(jié)省能源并維持?jǐn)?shù)據(jù)檢索查詢的時(shí)效性。
[1] Koomey J.Estimating total power consumption by servers in the u.s. and the world[R].Berkeley:Lawrence Berkeley National Laboratory,2007.
[2] Tschudi W,Xu Tengfang,Sartor D,et al.Energy efficient data centers[R].Berkeley:Lawrence Berkeley National Laboratory,2003.
[3] 谷立靜,周伏秋,孟 輝.我國(guó)數(shù)據(jù)中心能耗及能效水平研究[J].中國(guó)能源,2010,32(11):42-45.
[4] 黃 森,潘毅群.上海某數(shù)據(jù)中心能效調(diào)研分析[J].制冷與空調(diào),2011,25(2):208-211.
[5] 林 明,劉振安,李 彤.北京電信IDC機(jī)房網(wǎng)絡(luò)機(jī)柜的節(jié)能分析[J].郵電設(shè)計(jì)技術(shù),2012(5):75-79.
[6] 柳運(yùn)昌,楊二瑞,許建霞.面向云數(shù)據(jù)中心的能耗管理[J].電信科學(xué),2012,28(12):96-102.
[7] 田寶華,蔣句平,李寶峰,等.基于統(tǒng)一資源管理的超級(jí)計(jì)算機(jī)系統(tǒng)節(jié)能方案[J].計(jì)算機(jī)應(yīng)用,2012,32(3):835-838.
[8] He Mei,Xing Ling,Li Guo.A data migration strategy for HSM based on data value[J].Journal of Information & Computational Science,2011,8(2):312-317.
[9] Matthews J,Trika S,Hensgen D,et al.Intel turbo memory:nonvolatile disk caches in the storage hierarchy of mainstream computer systems[J].ACM Transactions on Storage,2008,4(2):1-24.
[10] Park S Y,Jung D,Kang J,et al.CFLRU:a replacement algorithm for flash memory[C]//Proceedings of the 2006 international conference on compilers,architecture and synthesis for embedded systems.Seoul,Korea:ACM,2006:234-241.
[11] Oh Y,Choi J,Lee D,et al.Caching less for better performance: balancing cache size and update cost of flash memory cache in hybrid storage systems[C]//Proceedings of the 10th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2012:25.
[12] Yang L,Feng W.SoAP:a strip-oriented asynchronous prefetching for improving the performance of parallel disk systems[C]//Proceedings of the high performance computing and communication.[s.l.]:[s.n.],2012:96-103.
[13] Li M,Varki E,Bhatia S,et al.TaP:table-based prefetching for storage caches[C]//Proceedings of the 6th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2008:1-16.
[14] Gill B S,Bathen L A D.AMP:adaptive multi-stream prefetching in a shared cache[C]//Proceedings of the 5th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2007:26.
[15] Zhou Y,Chen Z,Li K.Second-level buffer cache management[J].IEEE Transactions on Parallel and Distributed System,2004,15(6):505-519.
[16] Joo Y,Ryu J,Park S,et al.FAST:quick application launch on solid-state drives[C]//Proceedings of the 9th USENIX conference on file and storage technologies.San Jose,CA:USENIX,2011:19-39.
[17] 丁海駿,盧 菁.云環(huán)境下元數(shù)據(jù)彈性分級(jí)一致性保障機(jī)制研究[J].計(jì)算機(jī)應(yīng)用研究,2016,33(7):2039-2042.
[18] 周 斌,汪 浪,張 瑩,等.基于數(shù)據(jù)塊級(jí)遷移策略的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(7):1822-1826.
Design and Realization of Energy-efficient Hybrid Magneto-optical Filing System
MIAO Jia-jia1,F(xiàn)U Yin-jin1,YU Pei-yi1,MAO Han-dong2
(1.Institute of Command Automation,PLA University of Science and Technology,Nanjing 210007,China;2.Pushtime Technology Inc.,Beijing 100192,China)
Hierarchical hybrid archiving system is a research hotspot in the field of data storage and is also widely accepted in the industry.The hybrid storage systems have been used by not only personal storage but also the data center.In order to solve the problem of energy consumption in large data center,a hybrid archiving system composed of array,online optical disk library and off-line optical disk library with low cost and low energy consumption has been introduced and low energy consumption magneto-optic hybrid storage architecture has been adopted.Based on the study of data consistency guarantee mechanism and the elastic design of multi-level storage system,the optical read/write characteristics of optical media has been investigated as well as the characteristics of magneto-optical hybrid.The file cache and prefetch mechanism of the archiving system has been adopted and the data migration strategy based on the overall access frequency is adopted to solve the problem that the access efficiency of the thermal file is not affected.The prefetching algorithm based on the I/O characteristic prediction model has also been adopted and the multi-level storage structure has been improved.The experimental results show that the proposed system can effectively save energy and maintain the timeliness of data retrieval query.
energy-efficient;optical disk library;hybrid magneto-optical;multilevel storage system;file prefetching;file caching
2016-09-07
2016-12-22 網(wǎng)絡(luò)出版時(shí)間:2017-06-05
國(guó)家自然科學(xué)基金資助項(xiàng)目(61402518);總裝預(yù)研基金(9140A15070414JB25224)
繆嘉嘉(1980-),男,博士,高級(jí)工程師,研究方向?yàn)閿?shù)據(jù)處理、數(shù)據(jù)安全。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170605.1510.080.html
TP302
A
1673-629X(2017)08-0052-05
10.3969/j.issn.1673-629X.2017.08.011