亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        存儲系統(tǒng)可靠性預測綜述*

        2017-03-16 07:22:34劉曉光李忠偉
        計算機與生活 2017年3期
        關鍵詞:系統(tǒng)可靠性存儲系統(tǒng)硬盤

        李 靜,王 剛,劉曉光,李忠偉+

        1.中國民航大學 計算機科學與技術學院,天津 300300

        2.南開大學 計算機與控制工程學院,天津 300350

        存儲系統(tǒng)可靠性預測綜述*

        李 靜1,2,王 剛2,劉曉光2,李忠偉2+

        1.中國民航大學 計算機科學與技術學院,天津 300300

        2.南開大學 計算機與控制工程學院,天津 300350

        對存儲系統(tǒng)的可靠性預測,可以用來評估、比較不同容錯機制以及評價不同系統(tǒng)參數(shù)對存儲系統(tǒng)可靠性的作用,有利于創(chuàng)建高可靠的存儲系統(tǒng)。因此,存儲系統(tǒng)可靠性預測的研究一直是領域熱點之一。從硬盤單體和存儲系統(tǒng)兩種預測對象的角度,對近年來該領域的相關研究進行了介紹和分析。首先從硬盤個體和群體兩種對象,主動容錯和被動容錯兩種容錯方式,以及糾刪碼和副本兩種冗余機制幾個角度分類介紹當前可靠性預測研究現(xiàn)狀,然后進一步指明當前該領域研究中尚未解決的一些難題和未來可能的發(fā)展方向。分析表明,目前對副本存儲系統(tǒng)和主動容錯存儲系統(tǒng)的可靠性預測研究尚顯不足,是未來很有價值的研究方向。

        存儲系統(tǒng);可靠性預測;主動容錯方式;被動容錯方式

        1 引言

        可靠性描述的是系統(tǒng)或設備能夠持續(xù)有效提供正確數(shù)據(jù)服務的能力。存儲系統(tǒng)中,由于用戶數(shù)據(jù)的巨大價值,可靠性是與性能和費用等指標重要性相當?shù)囊粋€評價標準。因此,存儲系統(tǒng)的可靠性一直以來都是存儲領域的研究熱點。

        在存儲系統(tǒng)構建之前或者潛在的數(shù)據(jù)丟失事件發(fā)生之前,可靠性評價(預測)可以幫助系統(tǒng)設計者量化分析不同系統(tǒng)的可靠性水平以及不同策略對系統(tǒng)可靠性的提升效果,能夠更好地指導高可靠存儲系統(tǒng)的創(chuàng)建。

        為了從根本上提高存儲系統(tǒng)的可靠性,很多研究者嘗試基于硬盤的SMART(self-monitoring,analysis and reporting technology)信息,使用統(tǒng)計學和機器學習的方法創(chuàng)建硬盤故障預測模型,提前預測出潛在硬盤故障,從而主動采取相應處理措施,可大幅度降低故障發(fā)生對系統(tǒng)可靠性和可用性的負面影響。

        本質上,傳統(tǒng)意義的存儲系統(tǒng)可靠性評價和故障預測可以統(tǒng)一為一個問題的兩面:可靠性評價可視為群體化的“靜態(tài)預測”,即對特定群體(如某種型號的硬盤、相同配置的一類磁盤陣列),依據(jù)故障模型,靜態(tài)預測群體的期望壽命;反過來,故障預測也可視為一種個體化的“動態(tài)評價”,即對特定個體(如某個硬盤、某個系統(tǒng)),依據(jù)實時狀態(tài)信息,動態(tài)評價其可靠性(健康還是潛在故障)。兩者的最終目的都是比較:“靜態(tài)評價”比較群體間可靠性,作用是分析系統(tǒng)參數(shù)對可靠性的影響,指導系統(tǒng)設計的優(yōu)化;“動態(tài)評價”則是比較系統(tǒng)運行中個體間可靠性(或者說潛在故障的緊迫程度)的高低,作用是指導人們利用有限的資源優(yōu)先修復系統(tǒng)中可靠性最薄弱之處。

        本文擬對近年來存儲系統(tǒng)可靠性預測領域的相關研究進行全面綜述和分析。第2章簡單介紹存儲系統(tǒng)可靠性預測領域的相關基礎知識;第3、第4章分類綜述當前可靠性預測研究的現(xiàn)狀;第5章指出當前存儲系統(tǒng)可靠性預測研究中尚未解決的難題和未來可能的研究方向。本文將從硬盤單體和存儲系統(tǒng)兩種預測對象的角度對可靠性預測進行介紹和分析。

        2 可靠性預測中的相關知識

        下面將介紹可靠性預測領域中的相關基礎知識,以幫助讀者更好地理解本文內容。

        2.1 數(shù)據(jù)容錯方式

        為了保護用戶數(shù)據(jù),存儲系統(tǒng)一般都要使用一定的容錯技術保證系統(tǒng)可靠性,在硬件設備故障之后(或之前),對故障(或預警)硬盤上的數(shù)據(jù)進行重構(或遷移),達到數(shù)據(jù)保護的目的。根據(jù)保護數(shù)據(jù)原理的不同,存儲系統(tǒng)采用的容錯方式可以分為兩類:被動容錯方式和主動容錯方式。

        2.1.1 被動容錯方式

        利用冗余信息實現(xiàn)故障數(shù)據(jù)的重構是存儲系統(tǒng)應對硬盤故障最常用的傳統(tǒng)容錯方式:如果發(fā)生了硬盤故障,故障盤上的數(shù)據(jù)可以利用其他健康硬盤上的數(shù)據(jù)進行恢復。其中,有兩類常用的冗余技術:糾刪碼技術(erasure code)和副本技術(replication)。

        糾刪碼技術[1]通過一定算法將用戶數(shù)據(jù)進行編碼得到冗余信息,并將原始數(shù)據(jù)和冗余信息一起存儲到系統(tǒng)中,以此達到容錯的目的。糾刪碼系統(tǒng)具有冗余率低和靈活性高等優(yōu)點,缺點是重構開銷比較大。副本技術為每個數(shù)據(jù)塊創(chuàng)建一定數(shù)量的副本,并按照某種規(guī)則散布在系統(tǒng)中,以此達到容錯的目的。副本系統(tǒng)利用高冗余率換取高容錯能力,具有很好的讀性能和重構能力。

        2.1.2 主動容錯方式

        隨著存儲系統(tǒng)規(guī)模的逐漸增大,故障事件發(fā)生的頻率越來越高,被動容錯系統(tǒng)只能通過增加冗余來保障系統(tǒng)的可靠性,而這無疑會增加系統(tǒng)成本和降低系統(tǒng)降級模式下的訪問性能。面對被動容錯模式的困境,一些研究者開始探討能否在硬盤故障發(fā)生前就將其預測出來,提前遷移保護有潛在危險的數(shù)據(jù),通過這種主動容錯模式從根本上提高存儲系統(tǒng)的可靠性。

        現(xiàn)代硬盤大都采用了SMART技術,可實時獲取硬盤狀態(tài)信息,并當任意一個屬性值超過預設閾值時發(fā)出警報。但閾值法只能提前預測出3%~10%的硬盤故障[2],不能滿足用戶的需求。因此有研究者提出利用統(tǒng)計學和機器學習的方法在硬盤SMART數(shù)據(jù)集上建立故障預測模型,以此提高預測準確率。

        當前主動容錯技術的具體研究方法是,預先收集大量硬盤的SMART數(shù)據(jù)信息和系統(tǒng)事件,并建立硬盤故障預測模型;然后實時監(jiān)測存儲系統(tǒng)中工作硬盤的狀態(tài),利用預測模型預測潛在硬盤故障,并對即將到來的故障提前進行處理,消除潛在的故障隱患,以此達到提高系統(tǒng)可靠性的目的。

        2.2 可靠性度量指標

        存儲系統(tǒng)可靠性預測/評價研究首先要解決的問題是設計合理的度量指標。下面將從硬盤單體和存儲系統(tǒng)兩方面介紹可靠性度量指標的相關研究。

        2.2.1 硬盤可靠性度量

        硬盤的可靠性是指,在給定的操作環(huán)境與條件下,硬盤在一段時間內可以正確讀寫的能力。硬盤可靠性受到設計、生產和使用環(huán)境的影響。把硬盤可靠性度量指標分為兩類:第一類是受型號和生產廠商影響的硬盤群體可靠性度量指標;第二類是受使用環(huán)境、工作負載和時間等因素影響的硬盤個體可靠性度量指標。

        硬盤的群體可靠性度量指標有年故障率(annual failure rate,AFR)和平均無故障時間(mean time to failure,MTTF)[3]。年故障率指一年內硬盤發(fā)生故障的期望概率;平均無故障時間是指在規(guī)定的環(huán)境下,硬盤正常運行至下一次故障的平均時間。

        硬盤的個體可靠性度量是預測模型根據(jù)硬盤某時刻的SMART信息得出的可靠性預測結果。故障預測模型[2,4-10]一般都是二分類模型,因此對硬盤個體給出的可靠性度量只能是一個二元指標:未來一段時間會發(fā)生故障或者不會。對故障預測模型本身,有3個評價指標:準確率或召回率(false discovery rate,F(xiàn)DR)、誤報率(false alarm rate,F(xiàn)AR)和提前預測時間(time in advance,TIA)。FDR是故障硬盤中可以被準確預測出的比例;FAR是好盤中被誤報為壞盤的比例;TIA描述的是可以提前多長時間預測出即將到來的故障。顯然,這3個指標也直接影響了存儲系統(tǒng)的可靠性和可用性。

        硬盤故障不是突然發(fā)生的,而是隨著時間流逝慢慢發(fā)生的,是一個逐漸老化的過程。這些故障在發(fā)生之前,一般都會出現(xiàn)一些異?,F(xiàn)象。比如,硬盤主軸馬達在使用過程中會慢慢磨損,將引起主軸偏心逐漸增大,從而使得磁道跟蹤難度加大,進而可能會引起跟蹤偏差而丟失數(shù)據(jù)。故障預測模型如能刻畫這種趨勢,不只是定性給出硬盤將要故障與否的二元預測,而是更細致描述硬盤某時刻的“健康度”(預期剩余壽命),就可以更有效地指導后期的預警處理。作者前期工作[11-13]提出創(chuàng)建硬盤“健康度”(health degree)預測模型,對硬盤的可靠性程度(預期剩余壽命)給出細致預測?!敖】刀取北硎居脖P將要發(fā)生故障的概率,或硬盤的預期剩余壽命,是根據(jù)硬盤當前SMART屬性值給出的硬盤個體可靠性度量值。例如,圖1是硬盤剩余壽命劃分實例[12],剩余壽命被劃分到6個“健康度”區(qū)間,離故障時刻越近,“健康度”越低,Level1表示硬盤的剩余壽命不足72小時,需要緊急處理。針對硬盤剩余壽命預測模型,目前的評價指標是“accuracy of residual life level assessment”(ACC),表示好/壞樣本(硬盤)中可以被預測到正確剩余壽命區(qū)間的比例。

        2.2.2 存儲系統(tǒng)可靠性度量

        存儲系統(tǒng)發(fā)生某些硬件故障之后,可以利用其自身的容錯機制恢復故障數(shù)據(jù),屬于可修復系統(tǒng)。系統(tǒng)級的可靠性度量指標主要有平均修復時間MTTR(mean time to repair)和平均數(shù)據(jù)丟失時間MTTDL(mean time to data loss)。

        如果發(fā)生了超出系統(tǒng)最大容錯能力的并發(fā)故障,導致系統(tǒng)中至少一個數(shù)據(jù)塊的信息發(fā)生了永久性丟失,這時認為系統(tǒng)發(fā)生了數(shù)據(jù)丟失事件。系統(tǒng)發(fā)生一次數(shù)據(jù)丟失事件的期望時間作為該系統(tǒng)的MTTDL。

        除了MTTDL之外,近年來很多研究者開始使用一段運行期間內發(fā)生的數(shù)據(jù)丟失事件的個數(shù)作為系統(tǒng)可靠性評價指標。相對于MTTDL,存儲系統(tǒng)實際運行時間很短,MTTDL并不能反映系統(tǒng)的真實可靠性水平,而系統(tǒng)實際運行期間(3年或5年)內發(fā)生數(shù)據(jù)丟失事件的期望個數(shù)(概率),可以更好地幫助系統(tǒng)設計者和用戶理解存儲系統(tǒng)的可靠性。

        Fig.1 An example of health degree settings圖1“健康度”設置例子

        3 硬盤可靠性預測的發(fā)展

        據(jù)統(tǒng)計,硬盤是當前數(shù)據(jù)中心最主要的故障源[3,14-15],微軟數(shù)據(jù)中心中故障硬盤的替換數(shù)量占所有硬件替換的78%[3]。因此,硬盤自身的可靠性對存儲系統(tǒng)整體可靠性的影響巨大,有很多研究關注硬盤的可靠性。

        對硬盤可靠性預測的研究大體可以分為兩類:第一類是通過對大規(guī)模真實硬盤數(shù)據(jù)的分析,預測硬盤群體的可靠性特征;第二類是通過創(chuàng)建硬盤故障預測模型,基于硬盤的SMART數(shù)據(jù)預測硬盤個體可靠性特征。

        3.1 硬盤群體可靠性分析的發(fā)展

        20世紀90年代初期,Gibson[16]發(fā)現(xiàn)硬盤故障率呈現(xiàn)出“浴盆曲線”規(guī)律,即初期故障率比較高,一段時間后呈現(xiàn)出較低較穩(wěn)定的故障率,到最后因為硬件老化,故障率又呈現(xiàn)出上升的趨勢。他認為可以用指數(shù)分布很好地模擬硬盤的故障時間分布,這為后來學者使用Markov模型預測存儲系統(tǒng)可靠性提供了理論指導。

        后來,指數(shù)分布假設被Schroeder和Gibson[3]以高置信度的結果推翻了,他們發(fā)現(xiàn)硬盤故障呈現(xiàn)出顯著的早發(fā)性磨損退化趨勢,而且與硬盤故障時間呈現(xiàn)出明顯的相關性和依賴性。因此,他們建議研究者使用真實的故障替換數(shù)據(jù),或是雙參分布(如韋布分布)模擬硬盤故障時間。

        潛在扇區(qū)錯誤是另一種故障類型,硬盤上一個或多個二進制位永久地損壞,不管嘗試多少次,都不可能正確地讀一個扇區(qū)。Ma等人[17]發(fā)現(xiàn)工作硬盤上潛在扇區(qū)錯誤的數(shù)量會隨著時間持續(xù)增長,不斷增加的扇區(qū)錯誤會導致硬盤可靠性持續(xù)降低,從而引發(fā)硬盤整體崩潰。另外,Bairavasundaram等人[18-19]通過對大量企業(yè)級和近線級硬盤數(shù)據(jù)的研究,發(fā)現(xiàn)潛在扇區(qū)錯誤和靜默的數(shù)據(jù)損壞具有空間局限性和時間局限性等特點,據(jù)此他們提出有針對性的“磁盤清洗”策略。

        還有一些研究[20-22]觀察故障機理的特性以及一些SMART屬性對硬盤整體故障率的影響。其中,Shah和Elerath[20]的研究發(fā)現(xiàn)污染和磁頭穩(wěn)定性是影響可靠性的重要因素,表明硬盤的可靠性和硬盤的制造商和型號非常相關;Pinheiro等人[21]發(fā)現(xiàn)一些SMART屬性如掃描錯誤(scan errors)、重定向數(shù)量(reallocation counts)等對硬盤故障有很大影響,而且與之前的研究不同,他們發(fā)現(xiàn)高溫對硬盤故障沒有太多影響,這個發(fā)現(xiàn)后來在El-Sayed等人[22]的工作中也得到了證實。

        3.2 硬盤個體可靠性預測的發(fā)展

        早在新世紀初,Hamerly和Elkan[4]就嘗試構建基于SMART屬性的硬盤故障預測模型,發(fā)現(xiàn)有些SMART屬性會對預測準確性造成負面影響,使用3個屬性的貝葉斯分類方法可達到最好的預測性能——誤報率1%和準確率55%。

        之后,Hughes博士領導的團隊對此問題進行了深入研究。他們發(fā)現(xiàn)很多SMART屬性是非參分布的,因此使用Wilcoxon秩和檢驗方法達到了誤報率0.5%和準確率60.0%的預測性能[5]。接下來,他們比較了支持向量機(support vector machine,SVM)、無監(jiān)督聚類、秩和檢驗與反向安排檢驗的預測性能,其中秩和檢驗性能最好,可達到0.5%的誤報率和33.2%的準確率[6]。這一工作的另一重要貢獻是給出一個包含178塊健康硬盤和191塊故障硬盤的開放數(shù)據(jù)集,成為很多后來研究工作的基礎。在進一步工作中[2],他們采用反向安排檢驗等方法進行特征選取,將SVM的預測性能提高到誤報率0和準確率50.6%。

        近年來,研究者又嘗試用其他統(tǒng)計學和機器學習方法解決硬盤故障預測問題。Zhao等人[7]將SMART屬性值視為時間序列數(shù)據(jù),使用隱馬爾可夫模型(hidden Markov model,HMM)和隱半馬爾可夫模型(hidden semi-Markov model,HSMM)在Hughes數(shù)據(jù)集上獲得了0的誤報率和52%的預測準確率。Wang等人[8]采用馬氏距離預測硬盤故障,并提出了一種“故障模式、機制和效果分析”的特征選取方法,使用優(yōu)選屬性獲得的預測性能顯著優(yōu)于使用全部屬性。在進一步的工作中[9],Wang等人又提出最小冗余最大相關法消除冗余屬性,在Hughes數(shù)據(jù)集上獲得了0的誤報率和67%的準確率,而且56%的故障可以被提前20小時預測出來。

        上述研究工作采用的模型都是“黑盒子”模型,只是給出硬盤是否即將故障的預測,并沒有給出預測的規(guī)則和標準,從而無法知道導致潛在故障的原因。

        作者前期工作中采用了人工神經網(wǎng)絡[10]和決策樹[11]等預測準確性、穩(wěn)定性和解釋性更佳的機器學習方法。該方法最好預測性能達到0.1%以下的誤報率和95%的準確率,且能提前一周以上預測出故障,為預警處理提供了充足時間。而且決策樹預測模型可以生成易于理解的規(guī)則,能夠幫助人們理解硬盤故障的原因,從而采取有針對性的措施降低故障率。

        圖2是基于決策樹[11]創(chuàng)建的硬盤故障預測模型。其中“,POH”“、RUE”、“TC”、“SUT”和“SER”代表某些SMART屬性。決策規(guī)則清晰地解釋了SMART屬性值與故障之間的關系。例如,依據(jù)開機時間屬性(POH)是否小于90將全部樣本(根結點)分裂為結點2(葉子)和結點3。這樣,決策樹模型除了預測故障之外,還能為采取措施并減少故障提供依據(jù)。

        Fig.2 Asimplified classification tree for hard drive failure prediction圖2 基于決策樹的硬盤故障預測模型

        最近,EMC公司的研究者[17]設計出一種RAID(redundant array of independent disks)系統(tǒng)保護機制——RAIDShield,其中包含PLATE和ARMOR兩個模塊。PLATE是一種簡單的基于RS(reallocated sectors)數(shù)量的閾值預測方法,可以達到2.5%的誤報率和65.0%的準確率。ARMOR模塊使用聯(lián)合故障概率方法量化每個RAID校驗組發(fā)生數(shù)據(jù)丟失的概率。通過設置合適的概率閾值,ARMOR可以檢測出80%的脆弱(vulnerability)RAID-6校驗組,從而可以消除大部分被PLATE模塊漏報的數(shù)據(jù)丟失事件。

        上述研究把硬盤故障預測看成單純的二元分類問題:一個硬盤是否將要發(fā)生故障。實驗結果[10-11]顯示,預警盤被預測模型檢測出來后,一般要經歷一段比較長的時間(TIA>300 h)才會真正發(fā)生故障,證實了硬盤故障不是突然發(fā)生,而是逐漸老化的過程。因此,提出了“健康度”預測模型[11]的概念,并基于回歸樹(regression trees)構造硬盤健康度預測模型,細致評價硬盤的健康程度(故障概率),為確定后期預警處理的優(yōu)先級提供量化指導。這樣,系統(tǒng)可以在有限的恢復帶寬下優(yōu)先處理最危急(故障概率最大)的硬盤,從而最大限度地保障系統(tǒng)的可靠性和可用性。然而“,故障概率”(健康度)不能直觀地指導預警處理。

        龐帥等人[13]用硬盤的剩余壽命(故障前剩余的工作時間)表示“健康度”,提出聯(lián)合貝葉斯網(wǎng)絡(combined Bayesian network,CBN)模型。該模型結合4個分類器——人工神經網(wǎng)絡、進化神經網(wǎng)絡、支持向量機和決策樹的預測結果,預測硬盤的剩余壽命。采用一個合適的剩余壽命劃分區(qū)間后,CBN模型可以達到60%的剩余壽命區(qū)間預測準確率。

        許暢等人[12]考慮到硬盤健康狀態(tài)具有長相關依賴特點,基于硬盤SMART屬性的時序性特征,采用遞歸神經網(wǎng)絡(recurrent neural network,RNN)模型預測硬盤的健康度,可以達到約40%~60%的剩余壽命區(qū)間預測準確率。

        3.3 硬盤可靠性預測總結

        目前,很多統(tǒng)計學和機器學習方法被用來構建硬盤故障預測模型,表1總結了各種不同預測模型的特點。“二分類”表示模型只能給出硬盤“是/否”將要故障的二分類預測結果;“健康度”表示模型的預測結果可以更細致地刻畫硬盤某時刻的健康狀況;“可解釋性”表示根據(jù)模型的預測結果,可以分析導致故障的原因;“時序特點”表示模型利用了硬盤樣本具有時序性的特點;“提前預測時間”表示評價了模型的提前預測時間。

        Table 1 Overview of hard drive failure prediction models表1 硬盤故障預測模型總結

        4 存儲系統(tǒng)可靠性預測的發(fā)展

        存儲系統(tǒng)的整體可靠性主要受兩個因素的影響:一方面受限于存儲介質的可靠性;另一方面取決于系統(tǒng)數(shù)據(jù)保護策略(主動或被動)以及冗余布局方式。

        4.1 被動容錯系統(tǒng)可靠性預測的發(fā)展

        冗余機制的研究貫穿存儲技術的發(fā)展過程,研究者已經提出了很多高效的糾刪碼方案和副本策略,對其可靠性的研究也一直是熱點方向。

        4.1.1 糾刪碼存儲系統(tǒng)的可靠性

        20世紀90年代初,Gibson等人[23]基于硬盤故障時間服從指數(shù)分布的假設,利用馬爾可夫過程構造出RAID-5和RAID-6磁盤陣列的可靠性預測模型,分析了磁盤陣列結構對系統(tǒng)可靠性的影響,并啟發(fā)后來學者使用馬爾可夫模型預測存儲系統(tǒng)可靠性。例如,對于具有高并發(fā)性、高可擴展性、高性價比等特點的集群存儲系統(tǒng),章宏燦等人[24]提出了一種基于馬爾可夫模型的集群RAID-5存儲系統(tǒng)的可靠性模型,定量分析了各種系統(tǒng)參數(shù)對系統(tǒng)可靠性的影響。經過分析,他們發(fā)現(xiàn)多層集群RAID-5的系統(tǒng)可靠性比單層集群RAID-5的要高;提高硬盤/節(jié)點的重構速率可以近似等幅度地提升系統(tǒng)可靠性;保證系統(tǒng)可靠性不變的前提下,重構速率10倍的提升可以使系統(tǒng)對節(jié)點平均失效時間的需求降低為原來的1/7。

        潛在扇區(qū)錯誤和靜默的數(shù)據(jù)損壞是由媒介故障或軟件缺陷等原因造成的塊級別錯誤,除非有讀操作嘗試讀取訪問,否則塊級別錯誤不會被發(fā)現(xiàn)。Venkatesan等人[25]通過概率分析的方式考察了潛在扇區(qū)錯誤對系統(tǒng)可靠性的影響,發(fā)現(xiàn)當潛在錯誤概率比較小時,MTTDL降低的幅度與冗余策略、校驗盤格式和系統(tǒng)規(guī)模大小沒有關系,但是當潛在錯誤概率比較大時,MTTDL的值類似于少用一個校驗盤的無潛在錯誤系統(tǒng)的可靠性結果。其實早在新世紀初期,IBM的專家們[26]在對非MDS(maximum distance separable)編碼的存儲系統(tǒng)創(chuàng)建馬爾可夫可靠性模型的過程中,就考慮了不可恢復的塊級別錯誤對可靠性的影響。在接下來的工作中[27],他們提出一種硬盤內部的冗余機制IDR(intra-disk redundancy)以消除塊級別錯誤對系統(tǒng)可靠性的負面影響,并使用馬爾可夫模型分析了帶IDR機制的RAID-5和RAID-6系統(tǒng)的可靠性,結果表明IDR機制可以有效增強RAID系統(tǒng)的可靠性。但是,因為數(shù)據(jù)存儲系統(tǒng)廣泛使用低價硬盤,導致塊級別的錯誤數(shù)量越來越多,由IDR機制帶來的可靠性提升受到不利影響。在進一步工作中[28],他們通過校正IDR機制的參數(shù)選擇,在付出最小I/O性能代價的前提下,得到存儲系統(tǒng)可靠性的最大提升。例如,帶IDR的RAID-5系統(tǒng)的可靠性和I/O性能均優(yōu)于平凡(不帶IDR)RAID-6系統(tǒng)的性能。而且,在Thomasian等人[29]的工作中,結果同樣顯示增加了IDR的RAID-5系統(tǒng)可以達到和平凡RAID-6同等的可靠性水平。

        除了IDR機制,“磁盤清洗”過程也可以有效預防塊級別錯誤對系統(tǒng)可靠性的影響。Paris等人[30]研究了運行在RAID-6磁盤陣列的磁盤清洗調度問題。對于RAID-6系統(tǒng),一個故障發(fā)生后,其余硬盤上的若干不可恢復的扇區(qū)錯誤會導致第二個硬盤故障,因此他們建議發(fā)生一個硬盤故障后應該立即啟動“緊急”(加速)清洗過程。分析結果顯示,無論是單獨運行,還是與周期清洗結合運行,這些加速清洗都可以大大改進磁盤陣列的平均數(shù)據(jù)丟失時間。

        大量的經驗觀察值都否定了硬盤故障指數(shù)分布的假設,認為硬盤故障和修復時間更符合韋布分布。為了擺脫硬盤故障符合指數(shù)分布的假設限制,Thomasian等人[31]使用概率分析的方法比較了不同磁盤鏡像(RAID-1)組織結構的可靠性。這些磁盤陣列是由相同故障分布特征的硬盤構成。他們發(fā)現(xiàn)相對鏈式散布(chained declustering,CD)陣列、交叉散布(interleaved declustering,ID)陣列和組旋轉散布(group rotate declustering,GRD)陣列,基本鏡像(basic mirroring,BM)陣列能夠容忍的雙盤并發(fā)故障的情況最多,具有最高的可靠性。

        隨著可靠性研究的深入,很多研究者發(fā)現(xiàn)以前研究采用的評價指標——平均數(shù)據(jù)丟失時間(MTTDL),并不能準確表示存儲系統(tǒng)的可靠性水平。比如,Paris等人[32-33]在研究硬盤故障率恒定假設對可靠性模型結果的影響時,發(fā)現(xiàn)由于存儲系統(tǒng)的實際生命周期相對MTTDL短得多,MTTDL方法通常會高估系統(tǒng)的長期可靠性,而明顯低估系統(tǒng)短期可靠性,因此他們建議關注存儲系統(tǒng)有效生命周期內的可靠性。

        Elerath等人[34]構建出N+1 RAID系統(tǒng)的非Markov模型的狀態(tài)轉換圖,并用順序蒙特卡羅方法模擬系統(tǒng)的運行,仿真出不同運行時期內系統(tǒng)發(fā)生數(shù)據(jù)丟失事件的期望次數(shù)。其中,硬盤故障時間、故障恢復時間、潛在扇區(qū)錯誤時間和磁盤清理時間都使用韋布分布,結果顯示之前MTTDL模型所用的假設導致了不正確的預測結果。在接下來的工作中[35-36],他們設計了兩個新的封閉公式,相對于時間開銷大的可靠性仿真程序,公式可以更方便快捷地估計出RAID-5和RAID-6磁盤陣列系統(tǒng)發(fā)生數(shù)據(jù)丟失事件的期望次數(shù)。同時,他們也建議用其他更合理的評價指標替代MTTDL,然而這個論斷遭到Iliadis等人[37]的反駁。

        對于采用非MDS編碼的異構存儲系統(tǒng),Greenan等人[38]提出了兩種基于XOR糾刪碼的冗余散布算法,并利用他們提出的相對MTTDL估計模型,分析比較了不同冗余散布策略系統(tǒng)對可靠性的影響。在后來的工作[39]中,Greenan等人提出一個新的可靠性評價指標NOMDL(normalized magnitude of data loss)——某個時期內每Terabyte用戶數(shù)據(jù)丟失的Byte數(shù),可以量化單位時間內數(shù)據(jù)丟失率,相對于MTTDL,NOMDL可以更準確地評價存儲系統(tǒng)的可靠性水平。

        4.1.2 副本存儲系統(tǒng)的可靠性

        如Qin等人[40]所說,隨著硬盤容量的增加,硬盤修復時間越來越長,在修復期間再次發(fā)生硬盤故障的概率會增大,RAID系統(tǒng)已不能提供足夠的可靠性,因此近年來副本技術成為提高存儲系統(tǒng)可靠性的主流技術之一,也涌現(xiàn)出一些對副本存儲系統(tǒng)可靠性預測的研究。

        相比單機系統(tǒng),通過網(wǎng)絡存儲節(jié)點實現(xiàn)的分布式存儲系統(tǒng)具有代價低、可擴展等優(yōu)點,為了獲得高可靠性,冗余必須在節(jié)點之間和節(jié)點內部散布,從而分別容忍節(jié)點和硬盤故障。Rao等人[41]分別對節(jié)點內部包含和不包含RAID冗余的分布式存儲系統(tǒng)創(chuàng)建分層和遞歸Markov可靠性模型,分析了多種系統(tǒng)參數(shù)及潛在扇區(qū)錯誤對系統(tǒng)可靠性的影響。綜合節(jié)點故障、數(shù)據(jù)平衡和提前拷貝因素后,Chen等人[42]構造出(brick)存儲系統(tǒng)Markov可靠性預測模型。這個模型可以指導存儲系統(tǒng)設計者充分利用系統(tǒng)資源,從而既可以減少系統(tǒng)構建和維護開銷,又可以提高數(shù)據(jù)的可靠性。類似的,穆飛等人[43]研究了延遲失效檢測對多副本存儲系統(tǒng)可靠性的影響;張薇等人[44]使用概率方法對異構分布式存儲系統(tǒng)可靠性進行預測;張林峰等人[45]提出基于對象粒度恢復的可靠性分析模型,分別計算了各個系統(tǒng)參數(shù)的獨立最優(yōu)值及其組合最優(yōu)值。

        數(shù)據(jù)副本的散布策略對副本存儲系統(tǒng)的性能和可靠性有明顯的影響。Leslie等人[46]使用組合概率分析和蒙特卡羅模擬方式評價了多種副本散布策略,包括后繼散布(successor placement)、前驅散布(predecessor placement)、指針散布(finger placement)、塊散布(block placement)和對稱散布(symmetric placement),對系統(tǒng)可靠性的影響,發(fā)現(xiàn)塊散布策略的可靠性最好。Venkatesan等人[47]通過比較聚集(clustered)和散布(declustered)策略對系統(tǒng)MTTDL的影響,發(fā)現(xiàn)聚集系統(tǒng)的MTTDL和節(jié)點個數(shù)成反比,而散布系統(tǒng)的MTTDL因重構過程的并行性并沒有隨著節(jié)點個數(shù)的增加而降低。而Cidon等人[48]提出介于完全聚集和完全散布兩種極端策略之間的拷貝集散布(copyset replication)策略,將存儲節(jié)點劃分成多個等量的集合(copysets),每個數(shù)據(jù)塊的所有副本只能存放到一個集合內的節(jié)點上,這樣只有某個集合的全部節(jié)點同時故障才會導致數(shù)據(jù)丟失的發(fā)生??截惣⒉疾呗钥梢越档鸵虿l(fā)節(jié)點故障而導致的數(shù)據(jù)丟失事件的概率,從而有效提高副本系統(tǒng)的可靠性。

        硬盤故障率呈現(xiàn)出典型的“浴盆曲線”特點,由于大規(guī)模存儲系統(tǒng)可能會同時替換大量新硬盤,它們很容易引起硬盤早期失效的“群體效應”。Qin等人[49]利用隱馬爾可夫模型和離散事件仿真方法研究了硬盤早期失效對大規(guī)模存儲系統(tǒng)可靠性的影響,發(fā)現(xiàn)忽略硬盤早期失效會導致對系統(tǒng)可靠性的過高估計,而且系統(tǒng)規(guī)模越大,早期失效的影響越大。為了降低硬盤早期失效的影響,一方面,他們提出了兩種硬盤替換策略——基于硬盤使用年限的策略和隨機的逐步替換策略;另一方面,他們建議不同使用年限硬盤上的數(shù)據(jù)采用不同的冗余策略,即“年輕”硬盤上的對象采用三副本冗余,“年老”硬盤上的對象使用糾刪碼冗余。另外,Venkatesan等人[50]考慮節(jié)點故障和修復時間非指數(shù)分布的通用情況,使用概率方法推導出副本系統(tǒng)的MTTDL,發(fā)現(xiàn)重構分布可變性高的系統(tǒng)具有較低的MTTDL。

        4.1.3 特殊存儲系統(tǒng)的可靠性

        大型歸檔存儲系統(tǒng)中的硬盤長期保持關機狀態(tài),多種原因(包含設備級別和塊級別的故障)會導致這些系統(tǒng)丟失數(shù)據(jù)。Schwarz等人[51]建議歸檔存儲系統(tǒng)中運行一個“磁盤清洗”過程,定期訪問硬盤以檢查硬盤故障。他們分析了磁盤清洗過程對大型歸檔存儲系統(tǒng)的影響,顯示清洗對長期數(shù)據(jù)的保存很重要,而且相對于“隨機”(random)和“確定”(deterministic)清洗策略,“伺機”(opportunistic)清洗策略(即只有當硬盤處于開機狀態(tài)時才對它們進行清洗)效果最好。后來,Paris等人[52]針對歸檔存儲系統(tǒng)設計了一個二維RAID架構,即增加一個超級校驗盤存放所有行/列校驗盤的異或結果。實驗表明,增加超級校驗盤可以大大提高系統(tǒng)的MTTDL,而且修復時間越短,可靠性的提升越明顯。

        另外,針對歸檔存儲系統(tǒng),Li等人[53]提出一個框架來關聯(lián)數(shù)據(jù)生存能力和存儲可靠性,并用來測量較少發(fā)生但是規(guī)模很大的事件對數(shù)據(jù)長期生存能力的影響,以此定量研究存儲在地理位置分散的異構存儲系統(tǒng)上數(shù)據(jù)對象的生存能力。他們發(fā)現(xiàn)以前存儲模型忽略的一些較少發(fā)生事件,比如地震,對數(shù)據(jù)生存能力具有真正的影響。甚至在一個中等使用年限的系統(tǒng)中,新設備的替換也會對數(shù)據(jù)的生存能力產生影響。

        空間利用率和數(shù)據(jù)可靠性是當代存儲系統(tǒng)關注的兩個主要問題,重復數(shù)據(jù)刪除技術(deduplication)實現(xiàn)數(shù)據(jù)對象或塊在文件之間的共享,在節(jié)省系統(tǒng)存儲空間的同時,對系統(tǒng)可靠性也產生了一定影響。Bhagwat等人[54]提出一個提高重復數(shù)據(jù)刪除系統(tǒng)可靠性的策略,即根據(jù)塊故障導致丟失的數(shù)據(jù)量多少確定數(shù)據(jù)塊的副本個數(shù),相比傳統(tǒng)的副本和壓縮技術組合的方法,該技術可以達到更高的系統(tǒng)穩(wěn)健性(權衡丟失的數(shù)據(jù)量),而且還能減少一半的存儲開銷。Li等人[55]呈現(xiàn)了一個使用糾刪碼冗余機制保證數(shù)據(jù)可靠性的重復數(shù)據(jù)刪除存儲系統(tǒng)HPKVS。該系統(tǒng)允許每個對象指定自己的可靠性水平,為系統(tǒng)設計者提供了一個可靠性分析方法,能夠確定在什么情況下重復數(shù)據(jù)刪除技術,既可以節(jié)省存儲空間,又不降低可靠性水平。

        對于一個在異構存儲硬件上存放異構數(shù)據(jù)的重復數(shù)據(jù)刪除系統(tǒng),Rozier等人[56]利用離散事件仿真方法定量分析了系統(tǒng)的可靠性,發(fā)現(xiàn)大規(guī)模重復數(shù)據(jù)刪除系統(tǒng)可靠性受到重復數(shù)據(jù)刪除技術的負面影響。然而在他們的后期工作[57]中,發(fā)現(xiàn)在重復引用更均勻散布的系統(tǒng)中,重復數(shù)據(jù)刪除技術反而提高了系統(tǒng)可靠性。

        4.2 主動容錯系統(tǒng)可靠性預測的發(fā)展

        相對被動容錯技術,主動容錯技術發(fā)展較晚,2000年后才開始被研究者關注,還沒有被廣泛應用到實際存儲系統(tǒng)中。故障預測模型并不能保證100%的預測準確性,仍然會有一些硬盤漏報或者沒有被及時修復,真正發(fā)生了故障,因此主動容錯技術不能完全避免存儲系統(tǒng)的故障,需要結合相應的被動容錯技術共同保證系統(tǒng)的可靠性,從而主動容錯存儲系統(tǒng)的可靠性研究比較復雜。

        目前,針對主動容錯存儲可靠性評價的研究相對較少,Eckart等人[58]利用馬爾可夫模型研究了主動容錯機制對單硬盤以及RAID-5陣列存儲系統(tǒng)可靠性的影響。實驗表明,具有50%預測準確率的故障預測模型可以將一個RAID-5系統(tǒng)的MTTDL提高近3倍。作者前期工作將此研究推廣到RAID-6陣列系統(tǒng)[11]和副本存儲系統(tǒng)[59],實驗結果表明,提出的決策樹預測模型可以將存儲系統(tǒng)的可靠性提高幾個數(shù)量級。

        4.3 存儲系統(tǒng)可靠性預測發(fā)展總結

        為了更清晰地描述存儲系統(tǒng)可靠性預測發(fā)展狀況,表2總結了當前存儲系統(tǒng)可靠性預測國內外研究進展?!疤厥庀到y(tǒng)”表示一些有特殊用處(如歸檔存儲系統(tǒng))或采用特殊技術(如重復數(shù)據(jù)刪除系統(tǒng))的存儲系統(tǒng)。針對各種系統(tǒng),“指數(shù)分布假設”列出基于硬盤故障時間指數(shù)分布假設的可靠性研究文獻;“塊故障影響”列出考察了潛在扇區(qū)錯誤等塊級別的故障對系統(tǒng)可靠性影響的文獻;“非指數(shù)/韋布分布”列出不再受限于硬盤故障指數(shù)分布假設限制,或者使用韋布分布等更接近實際的分布描述硬盤故障時間的文獻;“新評價指標”列出不再使用MTTDL作為評價可靠性的指標,而是使用一段時間內數(shù)據(jù)丟失事件期望個數(shù)等新評價指標的文獻。

        Table 2 Current state of research on storage system reliability prediction表2 國內外存儲系統(tǒng)可靠性預測研究現(xiàn)狀

        5 尚存問題

        本章對存儲系統(tǒng)可靠性預測領域一些尚未解決的重要科學問題進行分析,并指出未來的研究方向。

        5.1 硬盤故障預測模型的評價指標

        當前已有的硬盤故障預測模型大都是簡單的二元分類器,只能給出是/否的預測結果,對它們的評價指標是基于FDR和FAR的預測準確率。一些最近的研究工作嘗試預測硬盤的剩余壽命,預警處理算法就可以根據(jù)它們的預測結果,為預警硬盤分配適當?shù)膸?,在保護危險數(shù)據(jù)的同時,最大限度保證用戶的服務質量。對這些模型的評價指標仍是基于分類準確性:將剩余壽命劃分為多個區(qū)間,用落到準確區(qū)間的預測比例評價模型的預測準確率。

        總之,目前用于評價硬盤故障預測模型的評價指標都只孤立地關注預測模型本身,而未考慮預測模型和它們實際應用場景——存儲系統(tǒng),尤其是云存儲系統(tǒng)之間的關系。這些研究都是假設在其他條件都保持不變的前提下,高的預測準確率可以帶來大的收益。但實際上,提高預測準確率一般會導致其他性能的下降,比如提前預警時間(TIA)。例如,可以將一個預測模型的準確率提高到100%,但卻要付出TIA減少到1小時的代價。這種情況下,即使所有危險硬盤被提前預測出來,也會由于缺少足夠的可用資源而不能將處于危險中的數(shù)據(jù)及時遷移完畢。因此,預測準確率不能完全反映硬盤故障預測模型的最終目標(保護數(shù)據(jù),而不只是預測出硬盤故障)。

        硬盤故障預測的根本目的是防止數(shù)據(jù)丟失,這不僅需要準確預測出哪些硬盤將要故障,還需要在故障真正發(fā)生前完成數(shù)據(jù)遷移。為了創(chuàng)建更實用的硬盤故障預測模型,對它們的評價指標也需要考慮預警遷移的完成情況。另外,目前已有的硬盤剩余壽命預測模型的性能還不理想。因此,更有意義的評價指標和高性能的硬盤剩余壽命預測模型是硬盤個體可靠性預測領域需要解決的問題。

        5.2 主動容錯存儲系統(tǒng)的可靠性評價

        目前對主動容錯存儲系統(tǒng)的可靠性研究很是匱乏,僅限于利用馬爾可夫模型,基于硬盤故障泊松分布假設,對RAID-5/6和二/三副本存儲系統(tǒng)的可靠性進行預測。這些已有的研究存在以下幾個缺陷:

        (1)不準確的故障分布假設?,F(xiàn)有研究對可靠性的估計都是基于硬盤故障發(fā)生和修復服從指數(shù)分布的假設,在此假設下硬盤具有恒定不變的故障率和修復率,但是大量領域數(shù)據(jù)的分析結果以高置信度推翻了指數(shù)分布假設。

        (2)故障類型考慮不全?,F(xiàn)有研究只關注了硬盤整體故障,而忽略了潛在扇區(qū)錯誤等扇區(qū)或塊級別的錯誤對系統(tǒng)可靠性的影響。

        (3)不準確的可靠性度量指標。現(xiàn)有研究主要是用系統(tǒng)平均數(shù)據(jù)丟失時間(MTTDL)作為可靠性的評價指標,然而MTTDL相對于系統(tǒng)實際運行時間很長,并不能準確反映存儲系統(tǒng)的可靠性水平。

        因此,使用更接近實際的硬盤故障分布數(shù)據(jù),綜合考慮各種故障類型,對主動容錯存儲系統(tǒng)的可靠性預測也是未來需要重點研究的方向。

        5.3 系統(tǒng)級動態(tài)故障預測

        隨著云計算的發(fā)展,存儲系統(tǒng)的架構已經從傳統(tǒng)磁盤陣列演進到云存儲,存儲組織和冗余布局也從設備(硬盤)視角變?yōu)閿?shù)據(jù)(文件、對象)視角。但現(xiàn)有硬盤故障預測方法都只是一種設備視角的可靠性動態(tài)評價,即孤立地給出硬盤個體的健康或潛在故障的評級,并未考慮其對系統(tǒng)(數(shù)據(jù))可靠性的影響。

        例如,對于一個預警硬盤,如果它所屬于的某些校驗組(RAID校驗組或副本散布集合)已經處于降級模式,只要再發(fā)生一個故障就會出現(xiàn)數(shù)據(jù)丟失,那么該預警硬盤的健康狀況對系統(tǒng)可靠性的影響非常大;相反,如果它所屬于的所有校驗組都處于完全健康運行的模式下,可以容忍一個故障發(fā)生而不產生數(shù)據(jù)丟失,那么該預警盤的健康狀況對系統(tǒng)可靠性的影響比較小。

        因此,有效保障云存儲系統(tǒng)數(shù)據(jù)安全的故障預測,不僅要基于硬盤個體的實時健康度評價,更要結合硬盤在系統(tǒng)冗余布局中的角色,綜合評價硬盤潛在故障對系統(tǒng)(亦即數(shù)據(jù)——文件、對象)可靠性的影響(高低),作為預警處理的量化依據(jù)。

        6 總結

        隨著計算機技術以及信息技術的快速發(fā)展,數(shù)據(jù)中心的數(shù)據(jù)越來越多,因此帶來存儲系統(tǒng)可靠性和可用性的巨大挑戰(zhàn)。為了構建高可靠和高可用的存儲系統(tǒng),系統(tǒng)設計者以及存儲領域研究者越來越關注存儲系統(tǒng)可靠性預測研究。本文從存儲介質和存儲系統(tǒng)兩種不同預測對象角度,介紹了可靠性預測的度量指標以及當前研究的進展,并根據(jù)目前該領域存在的一些問題指出未來研究的方向。

        [1]Luo Xianghong,Shu Jiwu.Summary of research for erasure code in storage system[J].Journal of Computer Research and Development,2012,49(1):1-11.

        [2]Murray J F,Hughes G F,Kreutz-Delgado K.Machine learning methods for predicting failures in hard drives:a multipleinstance application[J].Journal of Machine Learning Research,2005,6(1):783-816.

        [3]Schroeder B,Gibson G A.Disk failures in the real world: what does an MTTF of 1,000,000 hours mean to you?[C]// Proceedings of the 5th USENIX Conference on File and Storage Technologies,San Jose,USA,Feb 13-16,2007.Berkeley,USA:USENIXAssociation,2007:1-16.

        [4]Hamerly G,Elkan C.Bayesian approaches to failure prediction for disk drives[C]//Proceedings of the 18th International Conference on Machine Learning,Williamstown,USA,Jun 28-Jul 1,2001.San Mateo,USA:Morgan Kaufmann,2001: 202-209.

        [5]Hughes G F,Murray J F,Kreutz-Delgado K,et al.Improved disk-drive failure warnings[J].IEEE Transactions on Reliability,2002,51(3):350-357.

        [6]Murray J F,Hughes G F,Kreutz-Delgado K.Hard drive failure prediction using non-parametric statistical methods[C]// Proceedings of the 2003 International Conference of Artificial Neural Networks and Neural Information,Istanbul,Turkey,Jun 26-29,2003.Berlin,Heidelberg:Springer,2003.

        [7]Zhao Ying,Liu Xiang,Gan Siqing,et al.Predicting disk failures with HMM-and HSMM-based approaches[M]//Advances in Data Mining Applications and Theoretical Aspects.Berlin,Heidelberg:Springer,2010:390-404.

        [8]Wang Yu,Miao Qiang,Pecht M.Health monitoring of hard disk drive based on Mahalanobis distance[C]//Proceedings of the 2011 Prognostics and System Health Management Conference,Shenzhen,China,May 24-25,2011.Washington:IEEE Computer Society,2011:1-8.

        [9]Wang Yu,Miao Qiang,Ma E W M,et al.Online anomaly detection for hard disk drives based on Mahalanobis distance[J].IEEE Transactions on Reliability,2013,62(1): 136-145.

        [10]Zhu Bingpeng,Wang Gang,Liu Xiaoguang,et al.Proactive drive failure prediction for large scale storage systems[C]// Proceedings of the 29th IEEE Symposium on Mass Storage Systems and Technologies,Lake Arrowhead,USA,May 6-10,2013.Washington:IEEE Computer Society,2013:1-5.

        [11]Li Jing,Ji Xinpu,Jia Yuhan,et al.Hard drive failure prediction using cassification and regression trees[C]//Proceedings of the 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks,Atlanta,USA, Jun 23-26,2014.Washington:IEEE Computer Society, 2014:383-394.

        [12]Xu Chang,Wang Gang,Liu Xiaoguang,et al.Health status assessment and failure prediction for hard drives with recurrent neural networks[J].IEEE Transactions on Computers, 2016,65(11):3502-3508.

        [13]Pang Shuai,Jia Yuhan,Stones R,et al.A combined Bayesian network method for predicting drive failure times from SMART attributes[C]//Proceedings of the 2016 International Joint Conference on Neural Networks,Vancouver,Canada, Jul 24-29,2016.Piscataway,USA:IEEE,2016:4850-4856.

        [14]Vishwanath K V,Nagappan N.Characterizing cloud computing hardware reliability[C]//Proceedings of the 1st ACM Symposium on Cloud Computing,Indianapolis,USA,Jun 10-11,2010.New York:ACM,2010:193-204.

        [15]Sankar S,Shaw M,Vaid K.Impact of temperature on hard disk drive reliability in large datacenters[C]//Proceedings of the 41st International Conference on Dependable Systems &Networks,Hong Kong,China,Jun 27-30,2011.Washington:IEEE Computer Society,2011:530-537.

        [16]Gibson G A.Redundant disk arrays:reliable,parallel secondary storage[M].Cambridge,USA:MTT Press,1992.

        [17]Ma Ao,Douglis F,Lu Guanlin,et al.RAIDShield:characterizing,monitoring,and proactively protecting against disk failures[C]//Proceedings of the 13th USENIX Conference on File and Storage Technologies,Santa Clara,USA,Feb 16-19, 2015.Berkeley,USA:USENIXAssociation,2015:241-256.

        [18]Bairavasundaram L N,Goodson G R,Pasupathy S,et al. An analysis of latent sector errors in disk drives[J].ACMSIGMETRICS Performance Evaluation Review,2007,35 (1):289-300.

        [19]Bairavasundaram L N,Arpaci-Dusseau A C,Arpaci-Dusseau R H,et al.An analysis of data corruption in the storage stack [J].ACM Transactions on Storage,2008,4(3):1-28.

        [20]Shah S,Elerath J G.Reliability analysis of disk drive failure mechanisms[C]//Proceedings of the 2005 Annual Symposium on Reliability and Maintainability,Jan 24-27,2005. Piscataway,USA:IEEE,2005:226-231.

        [21]Pinheiro E,Weber W D,Barroso L A.Failure trends in a large disk drive population[C]//Proceedings of the 5th USENIX Conference on File and Storage Technologies, San Jose,USA,Feb 13-16,2007.Berkeley,USA:USENIX Association,2007:17-29.

        [22]El-Sayed N,Stefanovici I A,Amvrosiadis G,et al.Temperature management in data centers:why some(might)like it hot[J].ACM SIGMETRICS Performance Evaluation Review,2012,40(1):163-174.

        [23]Gibson G A,Patterson D A.Designing disk arrays for high data reliability[J].Journal of Parallel and Distributed Computing,1993,17(1):4-27.

        [24]Zhang Hongcan,Xue Wei.Reliability analysis of cluster RAID5 storage system[J].Journal of Computer Research and Development,2010,47(4):727-735.

        [25]Venkatesan V,Iliadis I.Effect of latent errors on the reliability of data storage systems[C]//Proceedings of the 21st International Symposium on Modeling,Analysis&Simulation of Computer and Telecommunication Systems,San Francisco, USA,Aug 14-16,2013.Washington:IEEE Computer Society,2013:293-297.

        [26]Hafner J L,Rao K K.Notes on reliability models for non-MDS erasure codes,RJ10391[R].IBM Research,2006.

        [27]Dholakia A,Eleftheriou E,Hu Xiaoyu,et al.A new intradisk redundancy scheme for high-reliability RAID storage systems in the presence of unrecoverable errors[J].ACM Transactions on Storage,2008,4(1):373-374.

        [28]Iliadis I,Hu Xiaoyu.Reliability assurance of RAID storage systems for a wide range of latent sector errors[C]//Proceedings of the 2008 International Conference on Networking, Architecture,and Storage,Chongqing,China,Jun 12-14, 2008.Washington:IEEE Computer Society,2008:10-19.

        [29]Thomasian A,Blaum M.Higher reliability redundant disk arrays:organization,operation,and coding[J].ACM Transactions on Storage,2009,5(3):7.

        [30]Paris J F,Schwarz S J,Amer A,et al.Improving disk array reliability through expedited scrubbing[C]//Proceedings of the 5th International Conference on Networking,Architecture and Storage,Macau,China,Jul 15-17,2010.Washington:IEEE Computer Society,2010:119-125.

        [31]Thomasian A,Blaum M.Mirrored disk organization reliability analysis[J].IEEE Transactions on Computers,2006, 55(12):1640-1644.

        [32]Paris J F,Thomas J E,Schwarz S J.On the possibility of small,service-free disk based storage systems[C]//Proceedings of the 3rd International Conference on Availability, Reliability and Security,Barcelona,Spain,Mar 4-7,2008. Washington:IEEE Computer Society,2008:56-63.

        [33]Paris J F,Schwarz T J E,Long D D E,et al.When MTTDLs are not good enough:providing better estimates of disk array reliability[C]//Proceedings of the 7th International Information and Telecommunication Technologies Symposium,Bahia,Brazil,Dec 26-30,2008.Piscataway,USA:IEEE, 2008:140-145.

        [34]Elerath J G,Pecht M.Enhanced reliability modeling of RAID storage systems[C]//Proceedings of the 37th Annual IEEE/ IFIP International Conference on Dependable Systems and Networks,Edinburgh,UK,Jun 25-28,2007.Washington: IEEE Computer Society,2007:175-184.

        [35]Elerath J G.A simple equation for estimating reliability of anN+1 redundant array of independent disks(RAID)[C]// Proceedings of the 2009 IEEE/IFIP International Conference on Dependable Systems&Networks,Lisbon,Portugal,Jun 29-Jul 2,2009.Washington:IEEE Computer Society,2009:484-493.

        [36]Elerath J G,Schindler J.Beyond MTTDL:a closed-form RAID 6 reliability equation[J].ACM Transactions on Storage,2014,10(2):193-206.

        [37]Iliadis I,Venkatesan V.Rebuttal to“beyond MTTDL:aclosedform RAID-6 reliability equation”[J].ACM Transactions on Storage,2015,11(2):1-10.

        [38]Greenan K M,Miller E L,Wylie J J.Reliability of flat XOR-based erasure codes on heterogeneous devices[C]// Proceedings of the 2008 IEEE International Conference on Dependable Systems and Networks,Anchorage,USA,Jun 24-27,2008.Washington:IEEE Computer Society,2008: 147-156.

        [39]Greenan K M,Plank J S,Wylie J J.Mean time to meaningless:MTTDL,Markov models,and storage system reliability [C]//Proceedings of the 2nd USENIX Workshop on Hot Topics in Storage and File Systems,Boston,USA,Jun 22-25,2010.Berkeley,USA:USENIXAssociation,2010:5.

        [40]Qin Xin,Miller E L,Schwarz T,et al.Reliability mechanisms for very large storage systems[C]//Proceedings of the 20th IEEE/11th NASA Goddard Conference on Mass Storage Systems and Technologies,San Diego,USA,Apr 7-10, 2003.Washington:IEEE Computer Society,2003:146-156.

        [41]Rao K K,Hafner J L,Golding R.Reliability for networked storage nodes[C]//Proceedings of the 2006 International Conference on Dependable Systems and Networks,Sheraton Society Hill,USA,Jun 25-28,2006.Washington:IEEE Computer Society,2006:237-248.

        [42]Chen Ming,Chen Wei,Liu Likun,et al.An analytical framework and its applications for studying brick storage reliability[C]//Proceedings of the 26th IEEE International Symposium on Reliable Distributed Systems,Beijing,Oct 10-12,2007.Washington:IEEE Computer Society,2007: 242-252.

        [43]Mu Fei,Xue Wei,Shu Jiwu,et al.An analytical model for large-scale storage system with replicated data[J].Journal of Computer Research and Development,2009,46(5):756-761.

        [44]Zhang Wei,Ma Jianfeng,Yang Xiaoyuan.Reliability of distributed storage systems[J].Journal of Xidian University, 2009,36(3):480-485.

        [45]Zhang Linfeng,Tan Xiangjian,Du Kai.Optimal reliability analysis for large scale storage systems[J].Computer Engineering andApplications,2013,49(1):112-119.

        [46]Leslie M,Davies J,Huffman T.A comparison of replication strategies for reliable decentralised storage[J].Journal of Networks,2006,1(6):36-44.

        [47]Venkatesan V,Iliadis I,Fragouli C,et al.Reliability of clustered vs.declustered replica placement in data storage systems[C]//Proceedings of the 19th International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems,Singapore,Jul 25-27,2011. Washington:IEEE Computer Society,2011:307-317.

        [48]Cidon A,Rumble S M,Stutsman R,et al.Copysets:reducing the frequency of data loss in cloud storage[C]//Proceedings of the USENIX Annual Technical Conference,San Jose, USA,Jun 26-28,2013.Berkeley,USA:USENIX Association,2013:37-48.

        [49]Qin Xin,Schwarz T J E,Miller E L.Disk infant mortality in large storage systems[C]//Proceedings of the 13th IEEE International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems,Atlanta,USA,Sep 27-29,2005.Washington:IEEE Computer Society,2005:125-134.

        [50]Venkatesan V,Iliadis I.A general reliability model for data storage systems[C]//Proceedings of the 9th International Conference on Quantitative Evaluation of Systems,London,Sep 17-20,2012.Washington:IEEE Computer Society,2012:209-219.

        [51]Schwarz T J E,Qin Xin,Miller E L,et al.Disk scrubbing in large archival storage systems[C]//Proceedings of the 12th Annual International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunications Systems,Volendam,The Netherlands,Oct 4-8,2004.Washington:IEEE Computer Society,2004:409-418.

        [52]Paris J F,Schwarz S J,Amer A,et al.Highly reliable twodimensional RAID arrays for archival storage[C]//Proceedings of the 31st International Performance Computing and Communications Conference,Austin,USA,Dec 1-3,2012. Washington:IEEE Computer Society,2012:324-331.

        [53]Li Yan,Miller E L,Long D D E.Understanding data survivability in archival storage systems[C]//Proceedings of the 5th Annual International Systems and Storage Conference, Haifa,Israel,Jun 4-6,2012.New York:ACM,2012:1-12.

        [54]Bhagwat D,Pollack K,Long D D E,et al.Providing high reliability in a minimum redundancy archival storage system[C]//Proceedings of the 14th IEEE International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems,Monterey,USA,Sep 11-14, 2006.Washington:IEEE Computer Society,2006:413-421.

        [55]Li Xiaozhou,Lillibridge M,Uysal M.Reliability analysis of deduplicated and erasure-coded storage[J].ACM SIGMETRICS Performance Evaluation Review,2011,38(3):4-9.

        [56]Rozier E W D,Sanders W H,Zhou P,et al.Modeling the fault tolerance consequences of deduplication[C]//Proceedings of the 30th IEEE Symposium on Reliable Distributed Systems,Madrid,Spain,Oct 4-7,2011.Washington:IEEE Computer Society,2011:75-84.

        [57]Rozier E W D,Sanders W H.A framework for efficient evaluation of the fault tolerance of deduplicated storage sys-tems[C]//Proceedings of the 42nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks, Boston,USA,Jun 25-28,2012.Washington:IEEE Computer Society,2012:1-12.

        [58]Eckart B,Chen Xin,He Xubin,et al.Failure prediction models for proactive fault tolerance within storage systems [C]//Proceedings of the 2008 IEEE International Symposium on Modeling,Analysis and Simulation of Computers and Telecommunication Systems,Baltimore,USA,Sep 8-10,2008.Washington:IEEE Computer Society,2008:1-8.

        [59]Li Jing,Li Mingze,Wang Gang,et al.Global reliability evaluation for cloud storage systems with proactive fault tolerance[C]//LNCS 9531:Proceedings of the 15th International Conference on Algorithms and Architectures for Parallel Processing,Zhangjiajie,China,Nov 18-20,2015.Berlin,Heidelberg:Springer,2015:189-203.

        附中文參考文獻:

        [1]羅象宏,舒繼武.存儲系統(tǒng)中的糾刪碼研究綜述[J].計算機研究與發(fā)展,2012,49(1):1-11.

        [24]章宏燦,薛巍.集群RAID5存儲系統(tǒng)可靠性分析[J].計算機研究與發(fā)展,2010,47(4):727-735.

        [43]穆飛,薛巍,舒繼武,等.一種面向大規(guī)模副本存儲系統(tǒng)的可靠性模型[J].計算機研究與發(fā)展,2009,46(5):756-761.

        [44]張薇,馬建峰,楊曉元.分布式存儲系統(tǒng)的可靠性研究[J].西安電子科技大學學報,2009,36(3):480-485.

        [45]張林峰,譚湘鍵,杜凱.大規(guī)模存儲系統(tǒng)可靠性參數(shù)最優(yōu)化分析[J].計算機工程與應用,2013,49(1):112-119.

        LI Jing was born in 1982.She received the Ph.D.degree from College of Computer and Control Engineering,Nankai University in 2016.Now she is a lecturer at Civil Aviation University of China.Her research interests include mass data storage and machine learning,etc.

        李靜(1982—),女,山東德州人,2016年于南開大學計算機與控制工程學院獲得博士學位,現(xiàn)為中國民航大學講師,主要研究領域為大規(guī)模數(shù)據(jù)存儲,機器學習等。

        WANG Gang was born in 1974.He received the Ph.D.degree in computer science from Nankai University in 2002. Now he is a professor and Ph.D.supervisor at Nankai University,and the member of CCF.His research interests include storage systems and parallel computing,etc.

        王剛(1974—),男,北京人,2002年于南開大學獲得博士學位,現(xiàn)為南開大學教授、博士生導師,CCF會員,主要研究領域為存儲系統(tǒng),并行計算等。

        LIU Xiaoguang was born in 1974.He received the Ph.D.degree in computer science from Nankai University in 2002.Now he is a professor and Ph.D.supervisor at Nankai University,and the senior member of CCF.His research interests include parallel computing and storage systems,etc.

        劉曉光(1974—),男,河北人,2002年于南開大學獲得博士學位,現(xiàn)為南開大學教授、博士生導師,CCF高級會員,主要研究領域為并行計算,存儲系統(tǒng)等。

        LI Zhongwei was born in 1975.He received the Ph.D.degree in computer science and technology from Harbin Engineering University in 2006.Now he is an associate professor and M.S.supervisor at Nankai University,and the member of CCF.His research interests include machine learning and mass data storage,etc.

        李忠偉(1975—),男,甘肅人,2006年于哈爾濱工程大學獲得博士學位,現(xiàn)為南開大學副教授、碩士生導師, CCF會員,主要研究領域為機器學習,大規(guī)模數(shù)據(jù)存儲等。

        Review of Reliability Prediction for Storage System*

        LI Jing1,2,WANG Gang2,LIU Xiaoguang2,LI Zhongwei2+
        1.College of Computer Science and Technology,CivilAviation University of China,Tianjin 300300,China
        2.College of Computer and Control Engineering,Nankai University,Tianjin 300350,China
        +Corresponding author:E-mail:lizhongwei@nbjl.nankai.edu.cn

        The reliability prediction for storage system,which is useful to assess trade-offs,compare schemes and estimate the effect of several parameters on storage system reliability,can help system designers and administrators to build storage systems with high reliability.So the research on reliability prediction is always one of the research focuses in storage system.This paper makes careful introduction and analysis in the field of reliability prediction for storage system,respectively from two prediction objects—disk and storage system.Firstly,this paper carefully analyzes the current development status of storage system reliability prediction,from the perspectives of two objects—disk individual and disk family,two fault tolerant manners—proactive fault tolerant scheme and reactive fault tolerant scheme,and two redundant mechanisms—erasure code and replication.Then,this paper indicates the unresolved problems and the future trend in this field.From the analysis,this paper finds there are some weaknesses and drawbacks on the reliability prediction for replication storage and proactive fault tolerant systems,and they are the issues needing further study.

        10.3778/j.issn.1673-9418.1604049

        A

        :TP301

        *The National Natural Science Foundation of China under Grant Nos.61373018,11301288,11450110409(國家自然科學基金);the New Century Excellent Talent Foundation from MOE of China under Grant No.NCET-13-0301(教育部新世紀優(yōu)秀人才支持計劃);the Fundamental Research Funds for the Central Universities of China under Grant No.65141021(中央高?;究蒲袠I(yè)務費專項資金).

        Received 2016-04,Accepted 2016-07.

        CNKI網(wǎng)絡優(yōu)先出版:2016-07-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160701.1646.010.html

        LI Jing,WANG Gang,LIU Xiaoguang,et al.Review of reliability prediction for storage system.Journal of Frontiers of Computer Science and Technology,2017,11(3):341-354.

        Key words:storage system;reliability prediction;proactive fault tolerant;reactive fault tolerant

        猜你喜歡
        系統(tǒng)可靠性存儲系統(tǒng)硬盤
        分布式存儲系統(tǒng)在企業(yè)檔案管理中的應用
        哈爾濱軸承(2020年2期)2020-11-06 09:22:36
        HiFi級4K硬盤播放機 億格瑞A15
        Egreat(億格瑞)A10二代 4K硬盤播放機
        試析提高配網(wǎng)系統(tǒng)可靠性的技術措施
        電子制作(2019年20期)2019-12-04 03:51:54
        天河超算存儲系統(tǒng)在美創(chuàng)佳績
        電氣化鐵路牽引系統(tǒng)可靠性分析
        基于故障樹模型的光伏跟蹤系統(tǒng)可靠性分析
        電測與儀表(2016年3期)2016-04-12 00:27:30
        我區(qū)電視臺對硬盤播出系統(tǒng)的應用
        華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲系統(tǒng)
        一種基于STM32的具有斷電保護機制的采集存儲系統(tǒng)設計
        欧美日韩一线| 天天影视色香欲综合久久| 国产精品一区二区性色| 粉嫩小泬无遮挡久久久久久| 蜜桃一区二区三区| 国产色无码精品视频国产| 国产男女猛烈视频在线观看| 天天躁人人躁人人躁狂躁| 无码毛片高潮一级一免费| 国产成人精品aaaa视频一区| 亚洲一区二区三区av色婷婷| 亚洲中文中文字幕乱码| 国产精品久久久在线看| 久久精品夜色噜噜亚洲a∨| 蜜桃日本免费看mv免费版| 在线观看午夜亚洲一区| 毛片网站视频| 音影先锋色天堂av电影妓女久久| 极品少妇被后入内射视| 国产一区二区视频免费| 亚洲综合色区一区二区三区| 中文字幕在线日亚洲9| 色综合中文综合网| 一级呦女专区毛片| 亚洲中文字幕无码不卡电影| 日本成年少妇人妻中文字幕| 日韩人妻精品视频一区二区三区 | 欧美大片va欧美在线播放| 国产一区二区三区乱码| 精品丝袜人妻久久久久久| 青草青草伊人精品视频| 国产自拍精品视频免费观看| 国产精品亚洲av高清二区| 国产精品无码无卡无需播放器| 无码免费一区二区三区| AV无码中文字幕不卡一二三区| 成人国产在线播放自拍| 丰满人妻被持续侵犯中出在线 | 免费欧洲毛片a级视频老妇女| 性色av无码久久一区二区三区| 秋霞午夜无码鲁丝片午夜精品|