亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代存儲(chǔ)相關(guān)技術(shù)研究(二)*

        2021-03-11 08:32:06
        智能物聯(lián)技術(shù) 2021年1期
        關(guān)鍵詞:研究

        內(nèi)容提要:

        3 新型非易失存儲(chǔ)器

        新型非易失存儲(chǔ)器具有低延遲、高密度和非易失的特性,速度也接近DRAM,但技術(shù)尚未成熟,大部分還是處于研究階段。 從目前發(fā)展趨勢(shì)來(lái)看,有兩大陣營(yíng):一種是代替當(dāng)前的DRAM 和FLASH,在傳統(tǒng)的馮·諾依曼體系下的SCM (Storage Class Memory);另一種是非馮·諾依曼體系下的,既可以做存儲(chǔ),又可以在原位進(jìn)行計(jì)算,即存算一體或存算融合,如將人工智能或圖像處理的算法等融合進(jìn)去。

        3.1 磁阻存儲(chǔ)器

        由于相變存儲(chǔ)器PCM 和電阻式存儲(chǔ)器RRAM都可以看作是憶阻器,因此可以用來(lái)做存儲(chǔ),也可以做存算一體,這兩條路徑一直都在向前發(fā)展。 磁阻存儲(chǔ)器的發(fā)展歷程如圖7 所示。

        圖7 磁阻存儲(chǔ)器的發(fā)展歷程Figure 7 Development history of magnetoresistive memory

        磁阻存儲(chǔ)器主要包括傳統(tǒng)的MRAM 和自旋轉(zhuǎn)移矩MRAM(STT-MRAM)。 傳統(tǒng)的MRAM 通過(guò)電流流過(guò)產(chǎn)生磁場(chǎng)改變MTJ (Magnetic Tunnel Junction)中的自由層磁矩方向,其特點(diǎn)是結(jié)構(gòu)復(fù)雜、干擾大。 STT-MRAM 是第二代MRAM 技術(shù),通過(guò)自旋電流實(shí)現(xiàn)自由層磁矩方向的改變。 美國(guó)的Everspin 公司一直是MRAM 產(chǎn)品的領(lǐng)導(dǎo)者, 已推出了多款獨(dú)立式和嵌入式MRAM 存儲(chǔ)器,并于2020 年發(fā)布了28nm 單片1Gb STT-MRAM 芯片。

        3.1.1 磁阻存儲(chǔ)器研究現(xiàn)狀

        目前有關(guān)磁阻存儲(chǔ)器的研究比較豐富,主要包括以下幾方面:

        單元、 陣列級(jí)別的研究:22nm,32 2Mb eSTTRAM 設(shè)計(jì),低延遲高壽命,并對(duì)磁場(chǎng)干擾免疫;3D擴(kuò)展,3D1S1R 結(jié)構(gòu); 將FinFET (鰭式場(chǎng)效應(yīng)晶體管,F(xiàn)in Field-Effect Transistor) 和STT-RAM 集成,用于降低系統(tǒng)的延遲和面積。

        可靠性方面的研究:Last Level Cache(LLC),破壞讀問(wèn)題,延遲恢復(fù)機(jī)制;STT-MRAM based FPGA,干擾感知內(nèi)存分組; 兩個(gè)MLC 存儲(chǔ)3 位的數(shù)提升可靠性和性能。

        MLC 單元優(yōu)化的研究:采用MLC 的兩位組成快慢區(qū)域;采用數(shù)據(jù)編碼,最小兩步狀態(tài)轉(zhuǎn)換提升MLC 壽命和性能;對(duì)MLC 硬位和軟位分別編碼減少兩步寫能耗; 對(duì)MLC 進(jìn)行編碼, 實(shí)現(xiàn)一次寫操作,從而提升壽命和能效。

        應(yīng)用于GPU 的研究: 將STT-RAM 用于GPU中的L1 Cache,減少片外訪問(wèn),提升性能和能效;將STT-RAM 用于GPU 的寄存器文件,采用壓縮方法減少能耗。

        存內(nèi)計(jì)算架構(gòu)的研究:將SOT-MRAM((Spin-Orbit Torque MRAM))應(yīng)用于存內(nèi)計(jì)算架構(gòu)設(shè)計(jì)以提升性能。

        3.1.2 MLC STT-RAM 的研究

        我們也對(duì)MLC STT-RAM 進(jìn)行了研究。 由于它是通過(guò)堆疊兩個(gè)不同大小的MTJ 單元構(gòu)成MLC STT-RAM 單元,相較于SLC 單元,密度約是其2 倍,需要采用兩步讀寫操作,對(duì)硬位的寫操作會(huì)延遲和消耗更多的時(shí)間, 對(duì)性能和能耗都會(huì)產(chǎn)生影響。

        同時(shí),我們發(fā)現(xiàn)MLC STT-RAM 存在較嚴(yán)重的壽命問(wèn)題(<1010次),這也是兩步寫操作導(dǎo)致的,兩步寫操作同時(shí)導(dǎo)致了大量的寫能耗和較高的寫延遲。 測(cè)試發(fā)現(xiàn), 對(duì)硬位的寫對(duì)壽命的影響達(dá)到了70%,而軟位則只有30%①Wei Zhao, Wei Tong, Dan Feng,et al.OSwrite∶Improving the lifetime of MLC STT-RAM with One-Step write[C]// 36th International Conference on Massive Storage Systems and Technology.MSST,2020.。

        針對(duì)此問(wèn)題, 我們的基本思路是通過(guò)負(fù)載分析,用壓縮的方法將緩存行全部寫到軟行,實(shí)現(xiàn)一步寫操作;而對(duì)不能壓縮的行,用hard flag 記錄硬位翻轉(zhuǎn)信息,實(shí)現(xiàn)一步寫操作。 通過(guò)內(nèi)存負(fù)載測(cè)試發(fā)現(xiàn), 該方案可以提高2.6 倍的壽命, 減少能耗56.2%,提升性能6.4%④。

        3.2 相變存儲(chǔ)器

        相變存儲(chǔ)器簡(jiǎn)稱PCM, 它是利用特殊材料在晶態(tài)和非晶態(tài)之間相互轉(zhuǎn)化時(shí)所表現(xiàn)出來(lái)的導(dǎo)電性差異來(lái)存儲(chǔ)數(shù)據(jù)。如圖8 所示為相變存儲(chǔ)的發(fā)展歷程。

        圖8 相變存儲(chǔ)器的發(fā)展歷程Figure 8 Development history of phase change memory

        因?yàn)閺木B(tài)到非晶態(tài)和從非晶態(tài)到晶態(tài),對(duì)操作時(shí)間和溫度的要求不一樣, 所以它的特點(diǎn)是:RESTE 延遲低,但功耗比較高;SET 過(guò)程延遲高,但功耗比較低。 相應(yīng)地,相變存儲(chǔ)器需要在功耗和延遲方面進(jìn)行優(yōu)化。

        現(xiàn)在比較成熟的一款產(chǎn)品是Intel 和鎂光合作的3D XPoint 相變存儲(chǔ)器, 它運(yùn)用的是雙層架構(gòu)。Intel 公司比較看好這款產(chǎn)品是因?yàn)樗芏缺容^高。同樣芯片體積,3DXPoint 相變存儲(chǔ)器的存儲(chǔ)容量是DRAM 的8~10 倍,而能耗基本相當(dāng)。

        3.2.1 相變存儲(chǔ)器操作方案研究現(xiàn)狀

        有關(guān)相變存儲(chǔ)器的研究主要有以下幾個(gè)方面:

        存儲(chǔ)單元讀/寫操作可靠性問(wèn)題研究。 針對(duì)晶格結(jié)構(gòu)松弛引起的阻值狀態(tài)漂移導(dǎo)致讀不準(zhǔn),采取適應(yīng)數(shù)據(jù)保持時(shí)間的動(dòng)態(tài)讀閾值參考設(shè)置及單元狀態(tài)刷新;針對(duì)非線性的電流電壓特性曲線導(dǎo)致讀不準(zhǔn),采取兩步讀操作擴(kuò)大讀窗口;針對(duì)焦耳熱干擾導(dǎo)致RESET 操作過(guò)程中相鄰單元狀態(tài)出錯(cuò),設(shè)置單元間熱量屏障層,并通過(guò)數(shù)據(jù)編碼來(lái)減少容易產(chǎn)生熱干擾的數(shù)據(jù)模式;對(duì)角單元布局結(jié)合數(shù)據(jù)壓縮;通過(guò)數(shù)據(jù)壓縮將要寫入的單元位置交替地分布在一行的兩端。

        PCM 作主存時(shí),對(duì)其壽命和性能優(yōu)化的研究。主要包括:減少熱區(qū)數(shù)據(jù)寫延遲,減少set 操作;通過(guò)減少PCM 陣列的互聯(lián)電阻,減少延遲。

        大數(shù)據(jù)、人工智能計(jì)算環(huán)境下的存儲(chǔ)墻問(wèn)題研究。 主要是構(gòu)建存算融合的計(jì)算內(nèi)存,并發(fā)掘新應(yīng)用,根據(jù)應(yīng)用特征進(jìn)行優(yōu)化,包括:16.5 萬(wàn)個(gè)相變存儲(chǔ)單元構(gòu)成陣列做神經(jīng)形態(tài)計(jì)算;相變存儲(chǔ)單元做時(shí)間相關(guān)性檢測(cè);相變存儲(chǔ)陣列做科學(xué)計(jì)算;相變存儲(chǔ)器用于存內(nèi)超維計(jì)算等。

        3.2.2 我們對(duì)相變存儲(chǔ)器的相關(guān)研究

        我們對(duì)相變存儲(chǔ)器的研究主要是通過(guò)壓縮編碼方式提升其壽命和性能。

        (1)利用冗余字提升標(biāo)志位的利用率

        因?yàn)镃PU 以字為單位進(jìn)行寫, 因此可能會(huì)寫入相同的數(shù)據(jù),造成相變存儲(chǔ)器負(fù)載中存在大量冗余字。 如當(dāng)緩存行中有4 個(gè)冗余字時(shí),編碼標(biāo)志位的利用率只有50%②Xu J, Feng D, Hua Y, et al. Adaptive Granularity Encoding for Energy-efficient Non-Volatile Main Memory[C]// 2019 56th ACM/IEEE Design Automation Conference (DAC). IEEE, 2019.。為了提升標(biāo)志位利用率,我們將編碼標(biāo)志位分配給臟的字, 編碼粒度從16 降為8。 但標(biāo)志位利用率提升到100%,導(dǎo)致標(biāo)志位的位翻轉(zhuǎn)增加。我們又利用了連續(xù)位翻轉(zhuǎn)特性減少位翻轉(zhuǎn)(SAE),對(duì)每一行進(jìn)行分析,選擇位翻轉(zhuǎn)總數(shù)最少對(duì)應(yīng)的編碼粒度,對(duì)緩存行進(jìn)行編碼,以此降低功耗和提高寫速度。

        (2)非易失內(nèi)存系統(tǒng)需要保持原子一致性

        存儲(chǔ)過(guò)程中, 存儲(chǔ)控制器需要軟件和硬件配合,如果配合不好會(huì)出現(xiàn)一致性問(wèn)題。在事務(wù)中,對(duì)同一地址的寫操作存在不同寫間隔分布, 其中44.8%的寫距離超過(guò)31,而寫距離太長(zhǎng)會(huì)導(dǎo)致部分日志數(shù)據(jù)不能被丟棄。分析發(fā)現(xiàn),事務(wù)更新時(shí),日志數(shù)據(jù)中存在大量的干凈字節(jié)數(shù)據(jù),70.5%的字節(jié)都是干凈的。 由于一致性維護(hù)開(kāi)銷非常大,所以應(yīng)區(qū)別對(duì)待,不對(duì)70.5%的干凈字節(jié)數(shù)據(jù)進(jìn)行一致性維護(hù)。 具體來(lái)說(shuō),我們?cè)O(shè)置了日志數(shù)據(jù)選擇性編碼機(jī)制, 該機(jī)制對(duì)事務(wù)中數(shù)據(jù)的第一次更新同時(shí)記錄undo 和redo 數(shù)據(jù),后續(xù)更新只記錄redo 數(shù)據(jù)。undo數(shù)據(jù)及時(shí)寫入NVMM 以保證原子性,而redo 數(shù)據(jù)則緩沖在易失性日志緩沖區(qū)和L1 緩存中, 只將最新的redo 數(shù)據(jù)寫入NVMM 中。 利用日志數(shù)據(jù)的特點(diǎn),該方法直接丟棄日志數(shù)據(jù)中的干凈位,壓縮剩余的臟位。 經(jīng)實(shí)驗(yàn)驗(yàn)證, 此方案使寫能耗降低了49.9%,性能提升了72.5%③X Wei,D Feng,W Tong,J Liu,et al. MorLog∶Morphable Hardware Logging for Atomic Persistence in Non-Volatile Main Memory[C]// 47th edition of ISCA. ISCA,2020.。

        3.3 阻變存儲(chǔ)器

        二端無(wú)源金屬氧化物阻變存儲(chǔ)器(metal-oxide RRAM)是憶阻器的一種器件實(shí)現(xiàn),是一種新興的非易失存儲(chǔ)器。它是通過(guò)金屬氧化物的阻值狀態(tài)變化來(lái)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。 主流的阻變功能材料包括HfOx、TiOx、TaOx 等, 配套的電極材料包括TiN、Pt和Ti 等。 施加外加電壓時(shí), 其阻值會(huì)發(fā)生連續(xù)變化,因此憶阻器可以用作存儲(chǔ),也可以用作計(jì)算,如IMP 邏輯運(yùn)算和矩陣向量乘法。阻變存儲(chǔ)器的發(fā)展歷程如圖9 所示。

        圖9 阻變存儲(chǔ)器發(fā)展歷程Figure 9 Development history of resistive random access memory

        國(guó)際上,富士通、松下、Crossbar 公司和密歇根大學(xué)都推出了一些小容量和實(shí)驗(yàn)性的阻變存儲(chǔ)器產(chǎn)品。

        3.3.1 阻變存儲(chǔ)器操作方案研究現(xiàn)狀

        主要包括以下幾個(gè)方面:

        第一,非理想因素影響下存儲(chǔ)陣列讀寫操作不可靠、性能差問(wèn)題的研究。 針對(duì)互連線電壓降導(dǎo)致寫操作性能差,可采用雙端接地、雙端寫驅(qū)動(dòng)器、最短電壓降路徑等;針對(duì)部分偏壓導(dǎo)致未選擇的單元受干擾,可設(shè)置干擾參考單元、檢測(cè)并刷新被干擾的行等;針對(duì)潛通電流導(dǎo)致讀操作不準(zhǔn)確,可采用四端電阻網(wǎng)絡(luò)、檢測(cè)并復(fù)用潛通電流和采用互補(bǔ)阻變單元等。

        第二, 非理想因素影響下存儲(chǔ)陣列計(jì)算不準(zhǔn)確、能效低問(wèn)題的研究。針對(duì)互連線電壓降、器件變化性、環(huán)境溫度導(dǎo)致計(jì)算不準(zhǔn)確,可采用互連線奇異值分解數(shù)據(jù)降維、邏輯行到物理行映射等;針對(duì)互連線電壓降、潛通電流導(dǎo)致計(jì)算能效低,采用三維陣列縮短平均互連長(zhǎng)度等。

        第三,基于阻變存儲(chǔ)器加乘運(yùn)算的靈活而通用的存算融合體系結(jié)構(gòu)的研究。 如可重配架構(gòu)、原位模擬運(yùn)算加速器等。

        3.3.2 我們對(duì)阻變存儲(chǔ)器的相關(guān)研究

        我們對(duì)阻變存儲(chǔ)器的研究主要集中在憶阻器存內(nèi)計(jì)算方面, 主要是面向人工智能的算法需求,實(shí)現(xiàn)了貝葉斯算法映射。

        憶阻器可以用做近似計(jì)算單元,實(shí)現(xiàn)矩陣向量乘法④Prezioso M, Merrikh-Bayat F, Hoskins B D, et al. Training and operation of an integrated neuromorphic network based on metal-oxide memristors[J]. Nature,2015,521(7550)∶61-4.,將算法復(fù)雜度從O(n2)轉(zhuǎn)換為O(1),即不需要原來(lái)的平方運(yùn)算,只需要施加電壓和讀取電流即可完成矩陣運(yùn)算。 如進(jìn)行圖像處理時(shí),即可以利用此算法。而傳統(tǒng)的矩陣運(yùn)算方法,要做乘加運(yùn)算,需要進(jìn)行數(shù)模轉(zhuǎn)換,會(huì)導(dǎo)致接口面積大(>30%)和延遲高(>50ns)的問(wèn)題。 也有學(xué)者采用二進(jìn)制接口方式,雖使接口代價(jià)減小,但數(shù)值展開(kāi)消耗了更多憶阻器單元和陣列資源。

        而我們所做的就是將外圍電路簡(jiǎn)化以及將貝葉斯算法映射到矩陣上面。 即針對(duì)ADCs 和復(fù)雜外圍電路會(huì)極大增加存內(nèi)計(jì)算架構(gòu)開(kāi)銷的問(wèn)題,第一次引入樸素貝葉斯算法在存內(nèi)計(jì)算架構(gòu)中實(shí)現(xiàn):利用現(xiàn)有存內(nèi)計(jì)算架構(gòu)兼容實(shí)現(xiàn)算法;針對(duì)性優(yōu)化算法映射,消除ADCs 龐大的開(kāi)銷⑤Wu B, Feng D, Tong W, et al. ReRAM Crossbar-Based Analog Computing Architecture for Naive Bayesian Engine [C]// 2019 IEEE 37th International Conference on Computer Design (ICCD). IEEE, 2019.。

        樸素貝葉斯算法是連續(xù)的乘法,我們對(duì)樸素貝葉斯公式施加了-log 函數(shù),將連續(xù)乘法轉(zhuǎn)換為點(diǎn)乘操作,這樣就可以在陣列位線上實(shí)現(xiàn),且數(shù)值為正,可直接由ReRAM 電導(dǎo)映射。

        針對(duì)最小探測(cè)模塊, 傳統(tǒng)的方式是將其轉(zhuǎn)換為數(shù)字信號(hào)之后再進(jìn)行比較。 但我們發(fā)現(xiàn)可以直接進(jìn)行模擬并行比較,因此我們?cè)O(shè)計(jì)了外圍電路,通過(guò)二分探測(cè)和遞增探測(cè),直到找到最小值,即參考電壓Vref同所有位線結(jié)果進(jìn)行模擬量比較,通過(guò)比較結(jié)果是否形成獨(dú)熱碼(one-hot code)來(lái)完成最小探測(cè)。

        我們也對(duì)基于ReRAM 的樸素貝葉斯算法引擎的識(shí)別準(zhǔn)確度進(jìn)行了測(cè)試。 實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),現(xiàn)有CPU 軟件實(shí)現(xiàn)、理想設(shè)備參數(shù)下的樸素貝葉斯算法引擎、 真實(shí)設(shè)備參數(shù)下的樸素貝葉斯算法引擎、PRIME 架構(gòu)兼容實(shí)現(xiàn)方式下的算法識(shí)別準(zhǔn)確度分別為89.6%,87.5%,88.2%和87.8%。 可以看出,真實(shí)設(shè)備參數(shù)下的樸素貝葉斯算法引擎的精度88.2%和軟件實(shí)現(xiàn)的精度89.6%非常接近。 由于人工智能算法并不需要非常精確,只需要確保判斷結(jié)果準(zhǔn)確即可, 因此該算法方案是可以實(shí)際使用的。且相比軟件實(shí)現(xiàn)來(lái)說(shuō), 其實(shí)現(xiàn)速度提高了11.2~2289.6 倍。⑧

        4 面向NVM 的文件系統(tǒng)

        新的存儲(chǔ)器件出現(xiàn)之后,現(xiàn)有文件系統(tǒng)往往是與其不匹配的。新型NVM(Non-volatile Memory)引發(fā)了存儲(chǔ)體系結(jié)構(gòu)的變革,如微軟推出了BPFS 文件系統(tǒng), 英特爾推出了PMFS 文件系統(tǒng),UCSD(University of California San Diego) 推出了NOVA和Moneta-D 文件系統(tǒng),清華大學(xué)推出了HiNFS 文件系統(tǒng), 華中科技大學(xué)則推出了Object-based NVM Management 文件系統(tǒng), 以適合NVM 的特性和調(diào)度方式。

        4.1 傳統(tǒng)文件系統(tǒng)遷移到NVM 的問(wèn)題及研究現(xiàn)狀

        4.1.1 傳統(tǒng)文件系統(tǒng)遷移到NVM 的問(wèn)題

        當(dāng)Intel Optane DC PMM (Persistent Memory Module)出現(xiàn)后,我們也對(duì)其進(jìn)行了測(cè)試,發(fā)現(xiàn)它的效率達(dá)不到其標(biāo)注數(shù)值,原因是沒(méi)有針對(duì)其架構(gòu)對(duì)文件系統(tǒng)進(jìn)行優(yōu)化。 基于新型NVM 的存儲(chǔ)系統(tǒng)相對(duì)于傳統(tǒng)磁盤存儲(chǔ)系統(tǒng)的如下特點(diǎn),導(dǎo)致傳統(tǒng)文件系統(tǒng)遷移到新型NVM 存在一系列問(wèn)題。

        (1)I/O 瓶頸轉(zhuǎn)移

        分析發(fā)現(xiàn)數(shù)據(jù)I/O 路徑上各階段的開(kāi)銷比例產(chǎn)生了巨大的變化,軟件開(kāi)銷開(kāi)始變得不可忽略。

        (2)數(shù)據(jù)一致性層次轉(zhuǎn)移

        傳統(tǒng)結(jié)構(gòu)中, 數(shù)據(jù)易失和非易失分界線在DRAM 和外存之間;而NVM 主存中,數(shù)據(jù)易失和非易失分界線在CPU Cache 和NVM 之間。 因此,需要專門的CPU Cache 指令以及額外硬件原語(yǔ)來(lái)保證數(shù)據(jù)的一致性。

        (3)有限的寫入耐久性

        傳統(tǒng)的存儲(chǔ)I/O 棧系統(tǒng)軟件主要是針對(duì)磁盤設(shè)計(jì)的。若直接將這種針對(duì)磁盤存儲(chǔ)的系統(tǒng)軟件應(yīng)用于NVM 存儲(chǔ)系統(tǒng), 則會(huì)導(dǎo)致NVM 存儲(chǔ)設(shè)備的快速磨損。

        4.1.2 基于NVM 的文件系統(tǒng)研究現(xiàn)狀

        (1)NVM 作為內(nèi)存設(shè)備,利用傳統(tǒng)VFS 路徑的文件系統(tǒng)

        如對(duì)SCMFS 文件系統(tǒng),如果無(wú)一致性、磨損均衡保障,TLB(Translation Lookaside Buffer)失效率高;對(duì)PMFS 文件系統(tǒng),使用線性表管理目錄,目前性能不如傳統(tǒng)文件系統(tǒng); 對(duì)NOVA 文件系統(tǒng),DRAM 和NVM 混合日志結(jié)構(gòu)文件系統(tǒng)沒(méi)能完全體現(xiàn)NVM 支持XIP(eXecute In Place)的特性,過(guò)于依賴DRAM 管理元數(shù)據(jù)和數(shù)據(jù)塊索引。

        (2)用戶庫(kù)方式直接訪問(wèn)NVM

        包括基于SCM 的靈活文件系統(tǒng)接口; 對(duì)操作系統(tǒng)編譯程序、應(yīng)用程序均做修改; Quill 仍需進(jìn)入內(nèi)核態(tài),依賴于POSIX 文件系統(tǒng)接口。

        4.2 我們對(duì)面向NVM 文件系統(tǒng)的相關(guān)研究

        4.2.1 混合存儲(chǔ)文件系統(tǒng)NOCFS:NVM+Flash

        即文件系統(tǒng)中的大量數(shù)據(jù)使用Flash 存儲(chǔ),而元數(shù)據(jù)使用NVM 進(jìn)行存儲(chǔ),系統(tǒng)架構(gòu)如圖10 所示。

        圖10 混合存儲(chǔ)文件系統(tǒng)NOCFS 架構(gòu)Figure 10 NOCFS architecture of hybrid storage file system

        主要工作包括:

        第一,NVM 和SSD 混合空間。文件系統(tǒng)直接管理NVM,NVM 存放元數(shù)據(jù),緩存熱數(shù)據(jù)。

        第二,并行感知的數(shù)據(jù)同步機(jī)制,即多線程異步寫回。

        第三,協(xié)作式垃圾回收。 文件系統(tǒng)層垃圾回收與LightNVM 垃圾回收結(jié)合。

        對(duì)NOCFS 性能進(jìn)行測(cè)評(píng), 采用較小容量的NVM,可以使閃存性能提升5 倍,接近于全NVM,與PMFS 文件系統(tǒng)性能相當(dāng)。

        4.2.2 基于對(duì)象的NVM 管理器

        不同NVM 存儲(chǔ)介質(zhì)讀寫性能差別較大,特性各異。 對(duì)象管理的思想就是把對(duì)NVM 的管理從文件系統(tǒng)中分離,以更低的管理開(kāi)銷實(shí)現(xiàn)更加豐富的應(yīng)用接口,以充分發(fā)揮不同存儲(chǔ)介質(zhì)的優(yōu)勢(shì)。 存儲(chǔ)應(yīng)用可繞過(guò)文件系統(tǒng)直接訪問(wèn)NVM 對(duì)象接口,精簡(jiǎn)訪問(wèn)路徑。 如圖11 所示為傳統(tǒng)文件系統(tǒng)和面向?qū)ο蟮奈募到y(tǒng)對(duì)比。

        圖11 傳統(tǒng)文件系統(tǒng)和基于對(duì)象的文件系統(tǒng)對(duì)比Figure 11 Comparison of traditional file system and object-based file system

        OBFS (Object-Based File System) 繞過(guò)VFS(Virtual File-system Switch)層,縮短了層次或路徑,實(shí)現(xiàn)了一個(gè)精簡(jiǎn)的名字空間管理,保證其兼容性,直接截獲應(yīng)用的文件訪問(wèn)系統(tǒng)調(diào)用,實(shí)現(xiàn)對(duì)上層應(yīng)用透明。 OBFS 由此消除了傳統(tǒng)基于磁盤的文件系統(tǒng)中很多不必要的開(kāi)銷,提高了系統(tǒng)性能。

        基于NVM 的輕量級(jí)存儲(chǔ)系統(tǒng)與傳統(tǒng)存儲(chǔ)系統(tǒng)相比,明顯縮短了I/O 路徑,能快速響應(yīng)應(yīng)用請(qǐng)求,讀寫性能優(yōu)于PMFS。 與基于新型非易失內(nèi)存文件系統(tǒng)NOVA、PMFS 相比,OBFS 可以獲得20%~30%的性能優(yōu)勢(shì)。 與RAMFS 相比,OBFS 的讀性能比RAMFS 性能好, 但寫性能比RAMFS 的性能要差一些。

        5 分布式存儲(chǔ)技術(shù)

        5.1 軟件定義存儲(chǔ)

        軟件定義存儲(chǔ)是借鑒軟件定義網(wǎng)絡(luò)的思路,即將存儲(chǔ)的管理和調(diào)配與底層物理硬件分開(kāi),所有存儲(chǔ)相關(guān)的控制工作都僅在相對(duì)于物理存儲(chǔ)硬件的外部軟件中,用戶可以通過(guò)軟件控制資源并對(duì)其進(jìn)行優(yōu)化。 相關(guān)研究主要如下。

        5.1.1 解決路徑過(guò)長(zhǎng)帶來(lái)的挑戰(zhàn)

        IOFlow 作為學(xué)術(shù)界第一篇關(guān)于軟件定義存儲(chǔ)的文章, 借鑒OpenFlow 在存儲(chǔ)環(huán)境中將控制平面和數(shù)據(jù)平面進(jìn)行分離, 在IO 棧的不同層次使用隊(duì)列對(duì)請(qǐng)求進(jìn)行限流,比如在hypervisor 里面的SMBc 和存儲(chǔ)服務(wù)器端的SMBs,保障虛擬機(jī)端到端的性能。⑥Thereska E, Ballani H, O'Shea G, et al. IOFlow∶A software-defined storage architecture[C]// Proceedings of the Twenty-Fourth ACM Symposium on Operating Systems Principles. SOSP, 2013.

        Moirai 提出了一種協(xié)同不同層次的cache 進(jìn)行資源管理的方法,既能夠最大化利用系統(tǒng)資源,還能有效對(duì)不同租戶間進(jìn)行性能隔離, 避免性能干擾。⑦Ioan Stefanovici,Eno Thereska,Greg O'Shea,et al.Software-defined caching∶managing caches in multi-tenant data centers[C]//Proceedings of the Sixth ACM Symposium on Cloud Computing. SoCC, 2015.

        sRoute 把路由概念引入了存儲(chǔ)棧, 把IO 棧的各個(gè)層次當(dāng)作網(wǎng)絡(luò)中的一個(gè)個(gè)路由器,能夠根據(jù)不同的應(yīng)用制定路由策略, 使得IO 請(qǐng)求能夠在不同IO 層之間轉(zhuǎn)發(fā)。⑧Stefanovici, Ioan,Schroeder, Bianca,O'Shea, Greg, et al.Treating the Storage Stack Like a Network[C]// Proceedings of the 14th Usenix Conference on File and Storage Technologie. FAST, 2016.

        5.1.2 解決資源管理的挑戰(zhàn)

        即解決分布式系統(tǒng)內(nèi)資源多樣化(CPU、存儲(chǔ)、鎖等)以及任務(wù)多樣化(租戶產(chǎn)生的任務(wù)、系統(tǒng)產(chǎn)生的任務(wù)等)給資源管理帶來(lái)的挑戰(zhàn)。 如Retro 應(yīng)用于分布式環(huán)境,通過(guò)策略和機(jī)制的分離,能夠保障系統(tǒng)內(nèi)所有IO 任務(wù)的SLO (Service Level Objectives),比如租戶的性能需求,或者是心跳信息的延遲保障等。⑨Mace J, Peter Bodík, Fonseca R, et al. Retro∶Targeted Resource Management in Multi-tenant Distributed Systems [C]// Usenix Conference on Networked Systems Design & Implementation. NSDI, 2015.

        5.1.3 解決租戶需求多樣化帶來(lái)的挑戰(zhàn)

        Crystal 是一種應(yīng)用于對(duì)象存儲(chǔ)的軟件定義存儲(chǔ)架構(gòu), 在數(shù)據(jù)平面可以通過(guò)插入不同的filter 來(lái)提供不同的服務(wù)(壓縮、加密等),設(shè)計(jì)可擴(kuò)展的數(shù)據(jù)平面能夠使得Crystal 具有更豐富的功能。⑩Raúl Gracia-Tinedo, Josep Sampé, Zamora E, et al. Crystal∶Software-Defined Storage for Multi-Tenant Object Stores[C]// 15th USENIX Conference on File and Storage Technologies (FAST'17).FAST, 2017.

        5.2 網(wǎng)內(nèi)計(jì)算

        隨著可編程交換機(jī)的興起,使用網(wǎng)絡(luò)的計(jì)算及存儲(chǔ)資源來(lái)優(yōu)化存儲(chǔ)系統(tǒng)性能成為趨勢(shì)。Eris 提出在可編程交換機(jī)內(nèi)進(jìn)行并發(fā)控制,保障事務(wù)操作的有序性和一致性,降低存儲(chǔ)系統(tǒng)維護(hù)一致性帶來(lái)的開(kāi)銷,優(yōu)化系統(tǒng)性能。?Li J,Michael E,Ports D R K . Eris∶Coordination-Free Consistent Transactions Using In-Network Concurrency Control [C]// Proceedings of the 26th Symposium on Operating Systems Principles. SOSP,2017.

        NetCache 通過(guò)在可編程交換機(jī)內(nèi)做緩存,實(shí)現(xiàn)一種新的KV 存儲(chǔ)架構(gòu),利用交換機(jī)內(nèi)的存儲(chǔ)資源優(yōu)化存儲(chǔ)系統(tǒng)性能。?Jin X,Li X,Zhang H,et al. NetCache∶Balancing Key-Value Stores with Fast In-Network Caching [C]// Proceedings of the 26th Symposium on Operating Systems Principles.SOSP,2017.

        我們也做了一些工作。 考慮到對(duì)服務(wù)器來(lái)說(shuō),只能根據(jù)上一個(gè)時(shí)刻狀態(tài)判斷是輕負(fù)載還是重負(fù)載,然后明確是否進(jìn)行副本服務(wù);副本放在很多個(gè)服務(wù)器當(dāng)中,如果都去訪問(wèn)一個(gè)空閑服務(wù)器,會(huì)出現(xiàn)羊群效應(yīng),使該服務(wù)器出現(xiàn)重負(fù)載。 但與服務(wù)器只能根據(jù)過(guò)去狀態(tài)判斷負(fù)載的狀況不同,交換機(jī)非常清楚服務(wù)器負(fù)載,可根據(jù)當(dāng)前數(shù)據(jù)包數(shù)量判斷服務(wù)器負(fù)載狀況,判斷也會(huì)更加準(zhǔn)確。 因此,NetRS 通過(guò)在可編程交換機(jī)內(nèi)進(jìn)行副本選擇,有效降低應(yīng)用響應(yīng)延遲。?Jin X,Li X,Zhang H,et al. NetCache∶Balancing Key-Value Stores with Fast In-Network Caching [C]// Proceedings of the 26th Symposium on Operating Systems Principles.SOSP,2017.

        5.3 高可靠性

        我們對(duì)存儲(chǔ)可靠性做了兩方面的研究。

        5.3.1 對(duì)編碼的研究

        在網(wǎng)絡(luò)環(huán)境下,如果有節(jié)點(diǎn)壞掉或者不能訪問(wèn)時(shí),需要把數(shù)據(jù)從其他節(jié)點(diǎn)算回來(lái),如果有節(jié)點(diǎn)訪問(wèn)擁塞或鏈接不上,就得不到數(shù)據(jù)。在這種情況下,我們希望用少量節(jié)點(diǎn)就能將數(shù)據(jù)算回來(lái),因此我們的主要思想是將節(jié)點(diǎn)上的數(shù)據(jù)分割為更多的數(shù)據(jù)塊,通過(guò)合理組合數(shù)據(jù)塊,實(shí)現(xiàn)最優(yōu)修復(fù)。 具體來(lái)說(shuō),我們提出具有最優(yōu)存儲(chǔ)和最優(yōu)重建數(shù)據(jù)量的編碼方法Z 碼。 Z 碼的參數(shù)n 和k 選擇靈活,碼率可以任意大;它并非MDS 碼(Maximum Distance Separable code), 但可以擴(kuò)展為GZ 碼且具有MDS 性質(zhì),且具有最小存儲(chǔ)下的最優(yōu)修復(fù)開(kāi)銷。 對(duì)同樣的4 個(gè)節(jié)點(diǎn)來(lái)說(shuō), 對(duì)RS 碼需要3 個(gè)節(jié)點(diǎn)將數(shù)據(jù)算回來(lái),RRS 碼平均需要2.3 個(gè)節(jié)點(diǎn), 而Z 碼只需要2個(gè)節(jié)點(diǎn)。 測(cè)試表明,Z/GZ 碼和最小存儲(chǔ)再生碼FMSR 和PM-MSR 具有相同的存儲(chǔ)開(kāi)銷和修復(fù)開(kāi)銷,但參數(shù)更靈活,且是系統(tǒng)碼。?Liu Q, Feng D, Jiangy H, et al. Z Codes∶General Systematic Erasure Codes with Optimal Repair Bandwidth and Storage for Distributed Storage Systems[C]// Proceedings of the 2015 IEEE 34th Symposium on Reliable Distributed Systems. SRDS,2015∶212-217.

        5.3.2 硬盤故障預(yù)警技術(shù)

        硬盤故障預(yù)警技術(shù)就是在節(jié)點(diǎn)壞之前進(jìn)行故障預(yù)警。 我們收集了惠普和微軟的壞盤數(shù)據(jù)集,然后進(jìn)行離線建模,具體包括數(shù)據(jù)預(yù)處理、特征選取、訓(xùn)練建模和參數(shù)調(diào)優(yōu)。具體流程如圖12 所示。在線預(yù)測(cè)時(shí),首先進(jìn)行模型導(dǎo)入,包括導(dǎo)入特征選取映射、歸一化參數(shù)以及模型參數(shù);實(shí)時(shí)預(yù)測(cè)包括解析請(qǐng)求、過(guò)濾特征,然后估算預(yù)測(cè)的準(zhǔn)確度。

        圖12 硬盤故障預(yù)警流程圖Figure 12 Hard disk failure warning flowchart

        5.4 高性能

        5.4.1 面向多租戶云存儲(chǔ)系統(tǒng)的軟件定義文件系統(tǒng)SDFS

        現(xiàn)有云平臺(tái)往往將虛擬機(jī)的虛擬磁盤以大文件形式存放在用網(wǎng)絡(luò)連接的共享存儲(chǔ)節(jié)點(diǎn)上,以降低成本,方便管理。 但因此也會(huì)導(dǎo)致IO 棧復(fù)雜,帶來(lái)性能隔離挑戰(zhàn)。

        文件系統(tǒng)決定了存儲(chǔ)資源的使用,不考慮文件系統(tǒng)的特性,性能隔離無(wú)從實(shí)現(xiàn)。因此,我們通過(guò)存儲(chǔ)服務(wù)器端文件粒度資源分配,保障虛擬機(jī)性能需求,控制文件系統(tǒng)影響,降低性能干擾;控制平面通過(guò)元數(shù)據(jù)來(lái)記錄和傳遞租戶性能需求;數(shù)據(jù)平面進(jìn)行資源調(diào)度,配合實(shí)現(xiàn)軟件定義的思想。

        5.4.2 并行文件系統(tǒng)客戶端持久性高速緩存

        主要思想是數(shù)據(jù)按需向計(jì)算節(jié)點(diǎn)遷移;特點(diǎn)是利用分層存儲(chǔ)管理和分布式鎖管理機(jī)制,采用統(tǒng)一命名空間管理高性能客戶端本地緩存;自定義緩存規(guī)則,客戶端本地緩存數(shù)據(jù)按需預(yù)取或替換;減少數(shù)據(jù)遷移和網(wǎng)絡(luò)擁塞,減輕服務(wù)端I/O 壓力和存儲(chǔ)開(kāi)銷;提供性能隔離、QoS(Quality of Service)保障,對(duì)延遲敏感,I/O 局部性應(yīng)用效果顯著。

        SDFS 能通過(guò)文件粒度的資源分配, 保障虛擬機(jī)的性能需求。 與Pulsar 相比,Pulsar 無(wú)法控制文件系統(tǒng)延遲寫帶來(lái)的影響, 所以無(wú)法做到性能隔離;而SDFS 能夠避免延遲寫帶來(lái)的干擾而保障各個(gè)租戶的性能需求。 在使用SDFS 進(jìn)行性能隔離的時(shí)候,虛擬機(jī)的性能波動(dòng)降低4 倍以上。

        猜你喜歡
        研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        關(guān)于遼朝“一國(guó)兩制”研究的回顧與思考
        EMA伺服控制系統(tǒng)研究
        基于聲、光、磁、觸摸多功能控制的研究
        電子制作(2018年11期)2018-08-04 03:26:04
        新版C-NCAP側(cè)面碰撞假人損傷研究
        關(guān)于反傾銷會(huì)計(jì)研究的思考
        焊接膜層脫落的攻關(guān)研究
        電子制作(2017年23期)2017-02-02 07:17:19
        日韩人妻有码中文字幕| 少妇高潮惨叫正在播放对白| 日本黄页网站免费大全| 亚洲AV日韩Av无码久久| 亚洲天码一区二区三区| 国产国语亲子伦亲子| 蜜臀久久99精品久久久久久小说| 亚洲av在线播放观看| 人妻少妇被猛烈进入中文| 刺激一区仑乱| 成人看片黄a免费看那个网址 | 熟妇无码AV| 亚洲国内精品一区二区在线| 亚洲午夜狼人综合影院| 天天躁日日躁狠狠很躁| 国产精品爽爽va在线观看网站| 国产高清不卡在线视频| 未满十八18禁止免费无码网站| 天天躁狠狠躁狠狠躁夜夜躁| 国产午夜无码精品免费看动漫| 亚洲天堂av在线观看免费| 很黄很色很污18禁免费| 播放灌醉水嫩大学生国内精品 | 99国产精品久久一区二区三区| 中文无码精品a∨在线观看不卡| 欧美日韩中文制服有码| 在线观看人成网站深夜免费| 国产一区二区三区精品免费av| 久久精品娱乐亚洲领先| 久久久久久无中无码| 久久精品国产9久久综合| 日本做受120秒免费视频| 99精品国产在热久久国产乱| 免费一区二区三区av| 国产精品国产三级国产aⅴ下载| 少妇无码一区二区三区| 国产亚洲精品国看不卡| 国产亚洲精品在线视频| 国语对白做受xxxxx在线| 欧美亚洲国产人妖系列视| 国语对白自拍视频在线播放|