亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主動容錯多副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型

        2023-08-29 01:10:26丁建立王瀟霏
        小型微型計算機系統(tǒng) 2023年8期
        關(guān)鍵詞:故障

        丁建立,王瀟霏,李 靜

        (中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)

        1 引 言

        民航業(yè)在旅客服務(wù)、民航運營和航空運輸?shù)阮I(lǐng)域追求產(chǎn)品信息化,應(yīng)用場景數(shù)字化的過程中產(chǎn)生了海量數(shù)據(jù).然而,數(shù)據(jù)安全方面可能存在信息泄露、異常攻擊和存儲管理等風(fēng)險.因此,民航存儲系統(tǒng)需要具備更高的可靠性.目前采用副本技術(shù)以保障系統(tǒng)可靠性還遠遠不能滿足民航存儲系統(tǒng)的高可靠性要求.

        大規(guī)模的民航存儲系統(tǒng)使用云存儲的方式提供可靠的海量數(shù)據(jù)存儲服務(wù).存儲數(shù)據(jù)的硬盤跨節(jié)點分布在系統(tǒng)中,同時掛載硬盤的節(jié)點放置在機架上,一旦節(jié)點和機架發(fā)生故障,硬盤故障隨即發(fā)生,這稱之為相關(guān)故障.然而,較大規(guī)模的民航存儲系統(tǒng)更容易發(fā)生故障,并可能導(dǎo)致數(shù)據(jù)丟失,從而影響系統(tǒng)的可靠性.首先硬盤故障是最常見的一種故障類型[1].例如在2010~2013年期間各行業(yè)由于硬盤故障導(dǎo)致系統(tǒng)服務(wù)中斷造成的損失大約從每分鐘$5,600增加到每分鐘$7,900,損失上升高達41%[2].因此考慮硬盤故障對民航存儲系統(tǒng)可靠性的研究十分必要.其次節(jié)點故障也是發(fā)生頻率較頻繁的一種故障類型,據(jù)Yahoo![3]集群報道稱每個月大約有0.8%的節(jié)點發(fā)生故障.最后,機架故障相對硬盤故障和節(jié)點故障的發(fā)生頻率較低,在真實的生產(chǎn)環(huán)境中每年發(fā)生一次[3],但民航存儲系統(tǒng)分層架構(gòu)決定了考慮機架故障這一因素的重要性.關(guān)于存儲系統(tǒng)可靠性的研究[4-6]表明硬盤故障,節(jié)點故障和機架故障確實會影響系統(tǒng)的可靠性,從而造成系統(tǒng)發(fā)生數(shù)據(jù)丟失.

        副本技術(shù)[7]是一種典型的“故障發(fā)生—故障重構(gòu)”的被動容錯方式.但是該方式存在兩個明顯的缺點:一方面副本技術(shù)通過復(fù)制得到一定數(shù)量的副本會增加冗余[8].另一方面,由于較長的數(shù)據(jù)恢復(fù)窗口,大容量的硬盤在恢復(fù)過程中再次發(fā)生故障的概率會增大,這極易造成數(shù)據(jù)丟失.為了克服以上缺點,并且考慮到現(xiàn)代硬盤自帶SMART(Self-Monitoring Analysis And Reporting Technology)技術(shù)[9],故障預(yù)測準(zhǔn)確率只有3%—10%[10]的低準(zhǔn)確率問題[11],現(xiàn)有學(xué)者基于SMART屬性值的研究提出了具有更高預(yù)測準(zhǔn)確率的硬盤故障預(yù)測模型[10,12-14].該模型是一種主動容錯[8,15-18]機制,能夠?qū)ο到y(tǒng)中的硬盤進行實時健康監(jiān)測,可以更多更準(zhǔn)確的識別故障,并在其發(fā)生前發(fā)出預(yù)警,提醒用戶進行數(shù)據(jù)轉(zhuǎn)移.上述研究表明,主動容錯和被動容錯機制的結(jié)合可以有效減少不必要的長期備份冗余開銷,縮小備份冗余窗口,從而降低數(shù)據(jù)丟失的可能性,提高系統(tǒng)可靠性.

        本文在民航采用傳統(tǒng)副本技術(shù)存儲數(shù)據(jù)的背景下,綜合考慮硬盤故障,節(jié)點故障和機架故障因素,基于硬盤故障預(yù)測模型提出了多副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型,并據(jù)此設(shè)計了蒙特仿真方法對多副本民航存儲系統(tǒng)進行了全面的可靠性研究.

        2 基于主動容錯的多副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型

        2.1 民航存儲系統(tǒng)架構(gòu)與多副本策略

        民航存儲系統(tǒng)的系統(tǒng)架構(gòu)如圖1所示,是一種分層拓?fù)涞慕Y(jié)構(gòu)[6,19-21].存儲民航數(shù)據(jù)的硬盤被放置在節(jié)點上,節(jié)點掛載在機架上.同時,架頂交換機幫助同一機架內(nèi)部不同節(jié)點完成通信,網(wǎng)絡(luò)核心交換機則完成不同機架之間的通信[21].

        圖1 民航存儲系統(tǒng)架構(gòu)

        民航存儲系統(tǒng)將民航文件的數(shù)據(jù)分塊存儲,每個數(shù)據(jù)塊根據(jù)采用的副本策略保存一定數(shù)量的副本.系統(tǒng)副本發(fā)生故障后,數(shù)據(jù)重構(gòu)的工作可以利用其他存活副本進行[22],提高數(shù)據(jù)的存活效率.考慮到數(shù)據(jù)重構(gòu)的成本盡可能地小,民航存儲系統(tǒng)采用的是二副本和三副本策略.為了更好的研究機架故障和節(jié)點故障對民航存儲系統(tǒng)的可靠性影響,二副本策略是將兩個副本放置在跨機架的不同節(jié)點.三副本策略是將兩個副本放置在同一機架的不同節(jié)點,第3個副本則跨機架放置.

        2.2 民航存儲系統(tǒng)主動容錯方案

        民航存儲系統(tǒng)主動容錯方案的核心是實現(xiàn)硬盤潛在故障的提前預(yù)測和主動處理.民航存儲系統(tǒng)的主動容錯[23]方案主要包含5個部分.監(jiān)控器負(fù)責(zé)收集民航存儲系統(tǒng)中硬盤的SMART數(shù)據(jù).收集器負(fù)責(zé)實時收集監(jiān)控器中的數(shù)據(jù).基于系統(tǒng)后臺部署的硬盤故障預(yù)測模型,預(yù)測器主要負(fù)責(zé)實時監(jiān)控硬盤的工作運行狀態(tài),對潛在硬盤故障發(fā)出預(yù)警.訓(xùn)練器負(fù)責(zé)定期更新預(yù)測模型.管理器負(fù)責(zé)管理和調(diào)度危險硬盤上的數(shù)據(jù)遷移工作.

        2.3 民航存儲系統(tǒng)故障模式

        在民航存儲系統(tǒng)實際運行過程中,故障可以分為兩種:暫時性故障和永久性故障.暫時性故障是指由于網(wǎng)絡(luò)連接或系統(tǒng)維護等原因造成的系統(tǒng)暫時性不可用,但不會造成數(shù)據(jù)丟失的故障;永久性故障是指由于硬盤劃碰等原因可能導(dǎo)致系統(tǒng)發(fā)生數(shù)據(jù)丟失的故障.因此,本文重點分析可能會造成數(shù)據(jù)丟失的永久性故障,具體考慮4種故障模式:

        1)潛在塊故障:一種由潛在扇區(qū)錯誤和靜默的數(shù)據(jù)損壞造成的硬盤故障,可以通過“磁盤清洗”的方式處理[24].

        2)運行故障:一種由電路板芯片燒壞,固件信息丟失或紊亂等造成的硬盤故障,僅能通過替換硬盤進行修復(fù).

        3)節(jié)點故障:一種由軟件故障,硬件故障和服務(wù)器過熱等造成的故障.一旦節(jié)點發(fā)生故障,也會導(dǎo)致其上掛載的硬盤發(fā)生故障.

        4)機架故障:一種由于斷電原因造成的故障.高達1%的節(jié)點將在通電重啟后崩潰,并導(dǎo)致系統(tǒng)發(fā)生數(shù)據(jù)丟失[3].一旦機架發(fā)生故障,也會導(dǎo)致其上部署的節(jié)點不可訪問.

        2.4 多副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型

        民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型是基于系統(tǒng)的分層架構(gòu),主動容錯機制以及故障模式的研究構(gòu)建而成.模型描述了系統(tǒng)從正常運行的狀態(tài)到發(fā)生數(shù)據(jù)丟失之間的狀態(tài)轉(zhuǎn)換的過程.主動容錯多副本系統(tǒng)狀態(tài)轉(zhuǎn)換模型根本上是在系統(tǒng)采用副本冗余機制提高可靠性的基礎(chǔ)上實現(xiàn)了硬盤潛在故障的提前預(yù)測和主動處理.

        二副本民航存儲系統(tǒng)在以下兩種情況會發(fā)生數(shù)據(jù)丟失:1)某一機架上的硬盤發(fā)生運行故障,若其他機架上任意一塊硬盤發(fā)生運行故障,則判斷系統(tǒng)發(fā)生數(shù)據(jù)丟失;2)某一機架上的硬盤發(fā)生潛在塊故障,若受損副本的另一副本所在的硬盤發(fā)生運行故障,則判斷系統(tǒng)發(fā)生數(shù)據(jù)丟失.

        三副本民航存儲系統(tǒng)在以下4種情況會發(fā)生數(shù)據(jù)丟失:1)同一個機架上位于不同節(jié)點的兩塊硬盤同時發(fā)生運行故障,若其他機架上任意一塊硬盤發(fā)生運行故障,則判斷系統(tǒng)發(fā)生數(shù)據(jù)丟失;2)不同機架上的兩塊硬盤同時發(fā)生運行故障,若這兩個機架的不同節(jié)點上有一塊硬盤發(fā)生運行故障,則系統(tǒng)發(fā)生數(shù)據(jù)丟失;3)同一個機架上同時發(fā)生了運行故障和潛在塊故障,若發(fā)生潛在塊故障的硬盤受損副本的另一個副本所在的硬盤發(fā)生運行故障,則判斷系統(tǒng)發(fā)生數(shù)據(jù)丟失;4)一個機架上一塊硬盤發(fā)生運行故障,不同機架上一塊硬盤發(fā)生潛在塊故障,則發(fā)生潛在塊故障的硬盤受損副本的另一個副本所在的硬盤發(fā)生運行故障,則判斷系統(tǒng)發(fā)生數(shù)據(jù)丟失.

        多副本民航存儲系統(tǒng)的狀態(tài)轉(zhuǎn)換模型比較復(fù)雜,該模型中列出了可能導(dǎo)致系統(tǒng)發(fā)生數(shù)據(jù)丟失的關(guān)鍵狀態(tài).其中故障和預(yù)警均是指同一冗余組中的故障和預(yù)警事件.同時需要注意的是系統(tǒng)中可以同時有多個預(yù)警,且不會造成數(shù)據(jù)丟失.

        圖2分別展示了二副本民航存儲系統(tǒng)在主動和被動兩種情況下的狀態(tài)轉(zhuǎn)換模型.采用二副本冗余機制時故障只能發(fā)生一次,如果系統(tǒng)再次發(fā)生故障則數(shù)據(jù)就會發(fā)生丟失.采用被動容錯機制(如圖2(a)所示),二副本民航存儲系統(tǒng)從正常運行到發(fā)生數(shù)據(jù)丟失,只經(jīng)歷了一個故障發(fā)生的狀態(tài).采用主動容錯機制(如圖2(b)所示),二副本民航存儲系統(tǒng)從正常運行到發(fā)生數(shù)據(jù)丟失,經(jīng)歷了只有預(yù)警發(fā)生(包括一個預(yù)警或多個預(yù)警發(fā)生),只有一個故障發(fā)生以及一個故障和預(yù)警(包括一個預(yù)警或多個預(yù)警發(fā)生)同時發(fā)生的狀態(tài).因為這些狀態(tài)都是可以修復(fù)的,所以很大程度上避免了系統(tǒng)進入數(shù)據(jù)丟失的狀態(tài).另外,圖2中的系統(tǒng)狀態(tài)描述具體如表1所示,并且表2展示了系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)換的條件描述.

        表1 系統(tǒng)狀態(tài)描述

        表2 系統(tǒng)狀態(tài)轉(zhuǎn)換描述

        圖2 二副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型

        圖3分別展示了三副本民航存儲系統(tǒng)在主動和被動兩種情況下的狀態(tài)轉(zhuǎn)換模型.采用三副本冗余機制時故障只能發(fā)生兩次,如果系統(tǒng)發(fā)生第三次故障時數(shù)據(jù)就會發(fā)生丟失.采用被動容錯機制(如圖3(a)所示),三副本民航存儲系統(tǒng)從正常運行到發(fā)生數(shù)據(jù)丟失,經(jīng)歷了一個故障發(fā)生和兩個故障發(fā)生的狀態(tài).采用主動容錯機制(如圖3(a)所示),三副本民航存儲系統(tǒng)從正常運行到發(fā)生數(shù)據(jù)丟失,經(jīng)歷了只有預(yù)警發(fā)生(包括一個預(yù)警或多個預(yù)警發(fā)生),只有一個故障發(fā)生,有兩個故障發(fā)生,一個故障和預(yù)警(包括一個預(yù)警或多個預(yù)警發(fā)生)同時發(fā)生以及兩個故障和預(yù)警(包括一個預(yù)警或多個預(yù)警發(fā)生)同時發(fā)生的狀態(tài).相比主動容錯二副本系統(tǒng),更多可修復(fù)狀態(tài)的存在更大程度上避免了系統(tǒng)進入數(shù)據(jù)丟失的狀態(tài).另外,圖3中的系統(tǒng)狀態(tài)描述具體如表1所示,并且表2展示了系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)換的條件描述.

        圖3 三副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型

        3 蒙特卡洛仿真模擬

        根據(jù)多副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型,本文改進基于事件驅(qū)動的蒙特卡洛仿真方法模擬主動容錯多副本民航存儲系統(tǒng)的運行,并進行全面的可靠性研究.

        3.1 總體框架

        蒙特卡洛仿真方法通過迭代足夠多的次數(shù)來進行可靠性模擬.每一次迭代將民航存儲系統(tǒng)架構(gòu),副本冗余機制和觸發(fā)各個事件需要的參數(shù)作為初始化的輸入,其中一次迭代的過程如圖4所示.事件生成器會根據(jù)初始化參數(shù)分別為民航存儲系統(tǒng)的每一個機架,每一個節(jié)點以及節(jié)點上的每一塊硬盤隨機分配故障發(fā)生時間,生成一系列故障和故障修復(fù)完成事件.預(yù)警事件則根據(jù)硬盤故障預(yù)測準(zhǔn)確率(False Discovery Rate FDR)生成.之后程序按照事件發(fā)生時間的先后順序維護了一個以最小堆形式存在的事件堆.根據(jù)事件發(fā)生時間的順序,事件的類型將事件插入進不同的列表中,而后通過事件處理器采取不同的事件處理方法.程序一次迭代結(jié)束的標(biāo)志是達到系統(tǒng)預(yù)設(shè)的運行時間(例如5年),然后輸出可靠性度量指標(biāo).最后,輸出所有迭代的平均可靠性度量.

        圖4 基于事件驅(qū)動的蒙特卡洛仿真

        3.2 事件處理模塊與韋布分布模擬

        事件處理模塊的核心是實現(xiàn)系統(tǒng)狀態(tài)轉(zhuǎn)換模型,該模塊中的每個故障,預(yù)警和修復(fù)完成事件都是由五元組表示:1)事件發(fā)生時間,由系統(tǒng)根據(jù)事件服從的時間分布函數(shù)隨機生成;2)事件類型,如表3所示的10種不同事件類型,其中主動容錯機制可以通過事件m和事件n進行模擬;3)硬盤號;4)節(jié)點號;5)機架號.

        表3 故障/預(yù)警/修復(fù)完成事件

        民航存儲系統(tǒng)運行過程中采用韋布分布模擬各個事件.Schroeder和Gibson[18]通過對多個領(lǐng)域大量硬盤替換記錄數(shù)據(jù)的研究,發(fā)現(xiàn)硬盤故障率會隨著其使用年限的增加逐漸增加.進一步研究發(fā)現(xiàn)相對于指數(shù)分布,韋布分布能夠更好地模擬硬盤的生命周期.韋布分布的概率密度函數(shù)如公式所示:

        其中,α是表示特征生命的尺度參數(shù),β是控制分布形狀的形狀參數(shù).通過β參數(shù)取值的不同可以模擬不同時期的民航存儲系統(tǒng)運行情況.

        蒙特卡洛仿真方法中事件堆的堆頂元素代表當(dāng)前即將發(fā)生的事件.民航存儲系統(tǒng)可以針對不同的事件類型,采用不同的處理方法:

        1)若當(dāng)前事件是故障事件,則程序?qū)⒃撌录迦牍收狭斜?并檢測系統(tǒng)是否發(fā)生數(shù)據(jù)丟失:若系統(tǒng)發(fā)生數(shù)據(jù)丟失,程序記錄數(shù)據(jù)丟失的次數(shù),同時將有關(guān)該硬盤/節(jié)點/機架的故障修復(fù)完成事件從故障列表中移除,隨后為該硬盤/節(jié)點/機架生成一系列事件并插入事件堆.若系統(tǒng)未發(fā)生數(shù)據(jù)丟失,則程序為該故障生成故障修復(fù)事件插入事件堆.

        2)若當(dāng)前事件是故障修復(fù)完成事件,則程序?qū)⒂嘘P(guān)該硬盤/節(jié)點/機架的故障事件從故障列表中移除,隨后為這個硬盤/節(jié)點/機架生成一系列事件并插入事件堆.

        3)若當(dāng)前事件是預(yù)警事件,則程序?qū)⒃撌录迦腩A(yù)警列表,隨后為該預(yù)警生成預(yù)警修復(fù)完成事件插入事件堆.

        基于不同類型的事件處理方法的分析,機架故障和節(jié)點故障的處理步驟為:1)如果當(dāng)前事件類型為c/a,程序?qū)⒃撌录迦牍收狭斜?隨后刪除故障列表和事件堆中關(guān)于此節(jié)點/機架以及其上硬盤的所有事件;2)判斷此節(jié)點/機架是否發(fā)生數(shù)據(jù)丟失:若此節(jié)點/機架發(fā)生數(shù)據(jù)丟失,程序記錄數(shù)據(jù)丟失的次數(shù),隨后為該節(jié)點/機架生成故障修復(fù)完成事件.若此節(jié)點/機架未發(fā)生數(shù)據(jù)丟失,則程序為該節(jié)點/機架隨機生成故障修復(fù)完成事件;3)在發(fā)生數(shù)據(jù)丟失的情況下,若當(dāng)前事件是節(jié)點故障事件,則程序為該節(jié)點上的硬盤生成故障和預(yù)警事件;若當(dāng)前事件是機架故障事件,則程序為該機架上的節(jié)點生成故障事件,同時為每一個節(jié)點上的硬盤生成故障和預(yù)警事件.隨后將一系列事件插入事件堆;4)在未發(fā)生數(shù)據(jù)丟失的情況下,若當(dāng)前事件是節(jié)點故障事件,則程序為該節(jié)點上所有硬盤生成故障修復(fù)完成事件;若當(dāng)前事件是機架故障事件,則程序為該機架上所有的節(jié)點和硬盤都生成故障修復(fù)完成事件.隨后程序?qū)⒁幌盗惺录迦胧录?這里需要注意的是故障修復(fù)完成事件的發(fā)生時間需要考慮當(dāng)前時間.

        3.3 可靠性度量指標(biāo)

        民航存儲系統(tǒng)發(fā)生故障后,利用容錯機制可以重構(gòu)故障數(shù)據(jù),這說明民航存儲系統(tǒng)是可修復(fù)的.可修復(fù)存儲系統(tǒng)可靠性度量指標(biāo)主要包括MTTR(Mean Time to Repair)和MTTDL(Mean Time to Data Loss).然而,研究表明,MTTR受到許多因素的限制,比如要恢復(fù)的數(shù)據(jù)量、存儲介質(zhì)和冗余機制等.另外,民航存儲系統(tǒng)的實際運行時間與MTTDL相比非常短,因此MTTDL不能真正評估民航存儲系統(tǒng)的可靠性水平.基于以上不足,現(xiàn)代學(xué)者提出一定時間內(nèi)系統(tǒng)發(fā)生數(shù)據(jù)丟失的期望次數(shù)作為可靠性度量指標(biāo),該指標(biāo)不局限于其他不可控因素,并且能真實反映民航存儲系統(tǒng)的可靠性水平.因此,本文采用該可靠性度量指標(biāo)評價民航存儲系統(tǒng)可靠性.

        4 仿真實驗結(jié)果

        仿真實驗結(jié)果主要包括3個部分:1)參數(shù)設(shè)置;2)仿真實驗結(jié)果分析;3)敏感性分析.仿真實驗分析了主動容錯機制,系統(tǒng)運行時間以及修復(fù)帶寬對民航存儲系統(tǒng)的可靠性影響.

        4.1 仿真參數(shù)設(shè)置

        民航存儲系統(tǒng)架構(gòu)中參數(shù)設(shè)置如表4所示,其中r代表機架總數(shù),n代表單個機架的節(jié)點數(shù),d代表單個節(jié)點部署的硬盤數(shù).硬盤容量大小為1TB.如上參數(shù)所設(shè)置的系統(tǒng)規(guī)??梢栽诳刂葡嗤臄?shù)據(jù)容量下,對采用不同副本策略的民航存儲系統(tǒng)可靠性進行全面的比較.避免實驗存在偶然性,為減少實驗誤差,每組參數(shù)迭代運行200次取平均值作為最終的實驗結(jié)果.

        表4 實驗參數(shù)設(shè)置

        故障事件,預(yù)警事件和修復(fù)完成事件的參數(shù)如表5所示,具體分為以下4個部分:

        表5 故障、預(yù)警和修復(fù)模型參數(shù)設(shè)置

        1)硬盤故障和故障修復(fù):事件采用容量為1TB的SATA類型的driveA的參數(shù),該參數(shù)由Elerath和Schindler等[25]從數(shù)千個企業(yè)級存儲系統(tǒng)收集的真實硬盤數(shù)據(jù)中分析得出.

        2)節(jié)點故障和故障修復(fù):參數(shù)設(shè)置根據(jù)Yahoo!集群[3]每個月服務(wù)器發(fā)生故障頻率大約為0.8%,得到服務(wù)器的年平均故障時間為1080000小時.系統(tǒng)為每個故障修復(fù)事件分配相同的帶寬,則節(jié)點故障的修復(fù)時間與節(jié)點上部署硬盤的數(shù)量有關(guān).

        3)機架故障和故障修復(fù):假設(shè)系統(tǒng)每年發(fā)生一次斷電未重啟的情況,將影響單個機架暫時不可用,則機架的年平均故障時間大約為103680小時.與節(jié)點故障修復(fù)原理相同,機架故障的修復(fù)時間是硬盤故障修復(fù)時間的d×n倍.

        4)硬盤預(yù)警和預(yù)警修復(fù):當(dāng)系統(tǒng)硬盤故障預(yù)測模型達到95%的準(zhǔn)確率時,可以提前360小時預(yù)測故障時間[26].為實驗結(jié)果更具普適性,設(shè)置硬盤故障預(yù)測模型的準(zhǔn)確率為80%,系統(tǒng)預(yù)警時間為故障發(fā)生前300小時.另外,因為系統(tǒng)為預(yù)警處理和故障修復(fù)操作分配相同的網(wǎng)絡(luò)帶寬,所以預(yù)警處理的時間和故障修復(fù)的時間相同.

        4.2 實驗結(jié)果分析

        民航存儲系統(tǒng)可靠性受很多方面因素的限制,本文主要分析故障來源,主動容錯機制因素對民航存儲系統(tǒng)的可靠性影響.圖5表明了在相同運行時間內(nèi),民航存儲系統(tǒng)可靠性與不同故障來源和硬盤故障預(yù)測準(zhǔn)確率的關(guān)系.

        圖5 民航存儲系統(tǒng)可靠性變化結(jié)果

        首先,由圖5可以看出隨著硬盤故障預(yù)測模型準(zhǔn)確率的增加,系統(tǒng)數(shù)據(jù)丟失次數(shù)呈明顯下降的趨勢,系統(tǒng)可靠性越來越高.分析發(fā)現(xiàn),因為硬盤故障預(yù)測準(zhǔn)確率越高,則故障預(yù)測越準(zhǔn)確,所以系統(tǒng)可以對更多即將發(fā)生的故障提前發(fā)出預(yù)警并及時處理,從而避免系統(tǒng)發(fā)生故障,造成數(shù)據(jù)丟失.

        其次,進一步分析可以得出:1)當(dāng)硬盤故障預(yù)測準(zhǔn)確率大于50%時,隨著硬盤故障預(yù)測準(zhǔn)確率的增加,考慮節(jié)點故障和機架故障來源的系統(tǒng)數(shù)據(jù)丟失次數(shù)曲線偏離程度越來越大.此現(xiàn)象說明節(jié)點故障,機架故障對民航存儲系統(tǒng)的可靠性影響越來越大.現(xiàn)代學(xué)者研究的硬盤故障預(yù)測模型,目前可以達到95%或更高的預(yù)測準(zhǔn)確率.硬盤故障預(yù)測模型的更新和預(yù)測準(zhǔn)確率的增加,決定了民航存儲系統(tǒng)可靠性研究全面考慮故障因素的必要性;2)二副本民航存儲系統(tǒng)當(dāng)FDR為80%時發(fā)生數(shù)據(jù)丟失的次數(shù)相比FDR為0時減少了5倍左右,且三副本民航存儲系統(tǒng)當(dāng)FDR為80%時發(fā)生數(shù)據(jù)丟失的次數(shù)相比FDR為0時減少了9倍左右.該現(xiàn)象說明主動容錯機制能夠有效降低系統(tǒng)數(shù)據(jù)丟失次數(shù),提高系統(tǒng)可靠性.由于主動容錯機制可以提前預(yù)測故障,發(fā)出預(yù)警并處理預(yù)警,避免故障發(fā)生,減少系統(tǒng)發(fā)生數(shù)據(jù)丟失的次數(shù).以FDR等于80%為例,在相同的故障預(yù)測準(zhǔn)確率情況下,考慮硬盤和節(jié)點故障,二副本和三副本民航存儲系統(tǒng)的數(shù)據(jù)丟失率分別增大1.8倍和4倍;全面考慮故障因素,二副本和三副本民航存儲系統(tǒng)的數(shù)據(jù)丟失率分別增大2.6倍和6.3倍.根據(jù)以上兩點分析結(jié)果,說明本文基于主動容錯機制,全面考慮故障因素的模型對民航存儲系統(tǒng)可靠性研究工作是有幫助的.

        最后,實驗結(jié)果進一步觀察可以得出考慮硬盤潛在塊故障和不考慮的情況下,二副本和三副本系統(tǒng)實驗結(jié)果曲線幾乎重合,表明潛在塊故障對系統(tǒng)可靠性影響較小.該現(xiàn)象產(chǎn)生的原因是發(fā)生潛在塊故障的硬盤達到數(shù)據(jù)丟失狀態(tài)的條件是受損副本的另一副本所在的硬盤發(fā)生運行故障,這個條件苛刻不容易滿足.

        綜上所述,全面考慮故障因素,基于主動容錯機制構(gòu)建民航系統(tǒng)可靠性狀態(tài)轉(zhuǎn)移模型對提高系統(tǒng)可靠性確實有顯著效果,具有重要的研究和實用價值.

        4.3 敏感性分析

        從用戶角度考慮,基于主動容錯的多副本民航存儲系統(tǒng)的好壞主要通過系統(tǒng)長時間的運行狀態(tài)以及故障修復(fù)帶寬的多少兩個指標(biāo)決定.因此敏感性分析對民航存儲系統(tǒng)可靠性隨系統(tǒng)運行時間以及修復(fù)帶寬的變化情況進行了分析,具體如圖6所示.

        圖6 民航存儲系統(tǒng)可靠性隨運行時間和修復(fù)帶寬的變化情況

        圖6(a)通過改變系統(tǒng)運行時間參數(shù)展示了運行時間對民航存儲系統(tǒng)可靠性的影響.隨著系統(tǒng)運行時間的增加,民航存儲系統(tǒng)發(fā)生數(shù)據(jù)丟失的次數(shù)不斷增加.而主動容錯民航存儲系統(tǒng)相比被動容錯,發(fā)生數(shù)據(jù)丟失次數(shù)的曲線增勢緩慢,因此系統(tǒng)可靠性降低趨勢更加緩慢.出現(xiàn)上述現(xiàn)象的主要原因是系統(tǒng)運行時間越長,導(dǎo)致硬盤老化,從而使硬盤發(fā)生故障的概率越來越大.主動容錯系統(tǒng)通過預(yù)警機制使得前期硬盤故障頻率降低,有效減緩了硬盤老化的速度.

        系統(tǒng)會在故障發(fā)生后分配部分可用帶寬重構(gòu)故障數(shù)據(jù)塊.故障重構(gòu)時間的長短主要由修復(fù)帶寬的大小決定.圖6(b)展示了修復(fù)帶寬對民航存儲系統(tǒng)的可靠性影響.其中,故障重構(gòu)時間通過改變韋布分布的參數(shù)得到.首先,分析實驗結(jié)果發(fā)現(xiàn),修復(fù)時間越長,系統(tǒng)發(fā)生數(shù)據(jù)丟失的可能性越大.三副本民航存儲系統(tǒng)數(shù)據(jù)丟失次數(shù)曲線增勢相對二副本較明顯,說明三副本民航存儲系統(tǒng)對修復(fù)時間的敏感性更強.出現(xiàn)這種現(xiàn)象的主要原因是三副本民航存儲系統(tǒng)可以允許較多的故障發(fā)生,因此重構(gòu)時間的變化對其可靠性影響較明顯.其次,若將修復(fù)帶寬降低70%,主動容錯民航存儲系統(tǒng)幾乎可以與傳統(tǒng)被動容錯民航存儲系統(tǒng)的可靠性水平接近甚至超越.分析認(rèn)為由于主動容錯機制使系統(tǒng)狀態(tài)從“正常運行—故障重構(gòu)”轉(zhuǎn)換為“正常運行—預(yù)警處理—故障重構(gòu)”,系統(tǒng)處于故障重構(gòu)狀態(tài)的時間減少.因此主動容錯機制可以有效節(jié)約網(wǎng)絡(luò)帶寬資源.

        根據(jù)以上分析,基于主動容錯的民航系統(tǒng)可靠性狀態(tài)轉(zhuǎn)換模型在長時間內(nèi)更具可靠性優(yōu)勢且能夠有效節(jié)約網(wǎng)絡(luò)帶寬資源.

        5 結(jié) 論

        本文綜合考慮故障因素,基于主動容錯機制構(gòu)建多副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型,改進基于事件驅(qū)動的蒙特卡洛仿真方法對民航存儲系統(tǒng)進行廣泛的可靠性研究.研究得出以下結(jié)論:

        1)基于主動容錯的多副本民航存儲系統(tǒng)狀態(tài)轉(zhuǎn)換模型明顯提高了民航存儲系統(tǒng)的可靠性.

        2)硬盤故障,節(jié)點故障和機架故障三種故障因素均會使系統(tǒng)發(fā)生數(shù)據(jù)丟失,降低民航存儲系統(tǒng)的可靠性.

        3)主動容錯機制可以有效減緩硬盤老化的速度,延緩系統(tǒng)可靠性下降的趨勢.另外,主動容錯機制引入預(yù)警處理狀態(tài)使得系統(tǒng)減少了故障重構(gòu)時間,可以有效節(jié)約網(wǎng)絡(luò)帶寬資源.

        民航存儲系統(tǒng)采用的三副本策略具有更高的可靠性,但需要更多的存儲空間.二副本策略的可靠性相對較低,但存儲空間更少.在未來工作中,將會展開基于主動容錯機制的二副本和三副本策略的可靠性與存儲空間的平衡的研究和實現(xiàn).

        猜你喜歡
        故障
        故障一點通
        奔馳R320車ABS、ESP故障燈異常點亮
        WKT型可控停車器及其故障處理
        基于OpenMP的電力系統(tǒng)并行故障計算實現(xiàn)
        電測與儀表(2016年5期)2016-04-22 01:13:50
        故障一點通
        故障一點通
        故障一點通
        故障一點通
        故障一點通
        江淮車故障3例
        无码 免费 国产在线观看91| 亚洲成在人线在线播放无码 | 久久精品一区二区三区av| 亚洲AV无码秘 蜜桃1区| 日本在线免费一区二区三区| 91九色人妻精品一区二区三区| 99精品人妻无码专区在线视频区 | 国产伦精品一区二区三区视| 黑丝美女被内射在线观看| 美女扒开内裤让我捅的视频| 国产又粗又猛又黄又爽无遮挡| 又大又粗弄得我出好多水| 激情五月婷婷久久综合| 少妇太爽了在线观看免费| 好吊妞无缓冲视频观看 | av在线资源一区二区| 精品无码久久久久久久久| 在线观看午夜亚洲一区| 欧美成人高清手机在线视频| 日本黄网色三级三级三级| 国产av国片精品jk制服| 国产又色又爽无遮挡免费动态图| 国产精品nv在线观看| 人妻少妇猛烈井进入中文字幕| 少妇下面好紧好多水真爽播放| 国产亚洲欧美在线| 亚洲一区二区一区二区免费视频| 老鲁夜夜老鲁| 鲁鲁鲁爽爽爽在线视频观看| 久久久99精品成人片中文字幕| 在线观看日本一区二区三区| 久久精品中文字幕| 亚洲爱婷婷色婷婷五月| 国产人禽杂交18禁网站| 亚洲国产精品国自拍av| 免费无码一区二区三区蜜桃| 免费人成在线观看播放国产| 国产大屁股白浆一区二区三区 | 免费无遮挡禁18污污网站| 手机在线精品视频| 一区二区三区四区国产亚洲|