李 靜,王 剛,劉曉光,李忠偉+
1.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300
2.南開大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,天津 300350
存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)綜述*
李 靜1,2,王 剛2,劉曉光2,李忠偉2+
1.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300
2.南開大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,天津 300350
對(duì)存儲(chǔ)系統(tǒng)的可靠性預(yù)測(cè),可以用來(lái)評(píng)估、比較不同容錯(cuò)機(jī)制以及評(píng)價(jià)不同系統(tǒng)參數(shù)對(duì)存儲(chǔ)系統(tǒng)可靠性的作用,有利于創(chuàng)建高可靠的存儲(chǔ)系統(tǒng)。因此,存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)的研究一直是領(lǐng)域熱點(diǎn)之一。從硬盤單體和存儲(chǔ)系統(tǒng)兩種預(yù)測(cè)對(duì)象的角度,對(duì)近年來(lái)該領(lǐng)域的相關(guān)研究進(jìn)行了介紹和分析。首先從硬盤個(gè)體和群體兩種對(duì)象,主動(dòng)容錯(cuò)和被動(dòng)容錯(cuò)兩種容錯(cuò)方式,以及糾刪碼和副本兩種冗余機(jī)制幾個(gè)角度分類介紹當(dāng)前可靠性預(yù)測(cè)研究現(xiàn)狀,然后進(jìn)一步指明當(dāng)前該領(lǐng)域研究中尚未解決的一些難題和未來(lái)可能的發(fā)展方向。分析表明,目前對(duì)副本存儲(chǔ)系統(tǒng)和主動(dòng)容錯(cuò)存儲(chǔ)系統(tǒng)的可靠性預(yù)測(cè)研究尚顯不足,是未來(lái)很有價(jià)值的研究方向。
存儲(chǔ)系統(tǒng);可靠性預(yù)測(cè);主動(dòng)容錯(cuò)方式;被動(dòng)容錯(cuò)方式
可靠性描述的是系統(tǒng)或設(shè)備能夠持續(xù)有效提供正確數(shù)據(jù)服務(wù)的能力。存儲(chǔ)系統(tǒng)中,由于用戶數(shù)據(jù)的巨大價(jià)值,可靠性是與性能和費(fèi)用等指標(biāo)重要性相當(dāng)?shù)囊粋€(gè)評(píng)價(jià)標(biāo)準(zhǔn)。因此,存儲(chǔ)系統(tǒng)的可靠性一直以來(lái)都是存儲(chǔ)領(lǐng)域的研究熱點(diǎn)。
在存儲(chǔ)系統(tǒng)構(gòu)建之前或者潛在的數(shù)據(jù)丟失事件發(fā)生之前,可靠性評(píng)價(jià)(預(yù)測(cè))可以幫助系統(tǒng)設(shè)計(jì)者量化分析不同系統(tǒng)的可靠性水平以及不同策略對(duì)系統(tǒng)可靠性的提升效果,能夠更好地指導(dǎo)高可靠存儲(chǔ)系統(tǒng)的創(chuàng)建。
為了從根本上提高存儲(chǔ)系統(tǒng)的可靠性,很多研究者嘗試基于硬盤的SMART(self-monitoring,analysis and reporting technology)信息,使用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法創(chuàng)建硬盤故障預(yù)測(cè)模型,提前預(yù)測(cè)出潛在硬盤故障,從而主動(dòng)采取相應(yīng)處理措施,可大幅度降低故障發(fā)生對(duì)系統(tǒng)可靠性和可用性的負(fù)面影響。
本質(zhì)上,傳統(tǒng)意義的存儲(chǔ)系統(tǒng)可靠性評(píng)價(jià)和故障預(yù)測(cè)可以統(tǒng)一為一個(gè)問(wèn)題的兩面:可靠性評(píng)價(jià)可視為群體化的“靜態(tài)預(yù)測(cè)”,即對(duì)特定群體(如某種型號(hào)的硬盤、相同配置的一類磁盤陣列),依據(jù)故障模型,靜態(tài)預(yù)測(cè)群體的期望壽命;反過(guò)來(lái),故障預(yù)測(cè)也可視為一種個(gè)體化的“動(dòng)態(tài)評(píng)價(jià)”,即對(duì)特定個(gè)體(如某個(gè)硬盤、某個(gè)系統(tǒng)),依據(jù)實(shí)時(shí)狀態(tài)信息,動(dòng)態(tài)評(píng)價(jià)其可靠性(健康還是潛在故障)。兩者的最終目的都是比較:“靜態(tài)評(píng)價(jià)”比較群體間可靠性,作用是分析系統(tǒng)參數(shù)對(duì)可靠性的影響,指導(dǎo)系統(tǒng)設(shè)計(jì)的優(yōu)化;“動(dòng)態(tài)評(píng)價(jià)”則是比較系統(tǒng)運(yùn)行中個(gè)體間可靠性(或者說(shuō)潛在故障的緊迫程度)的高低,作用是指導(dǎo)人們利用有限的資源優(yōu)先修復(fù)系統(tǒng)中可靠性最薄弱之處。
本文擬對(duì)近年來(lái)存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)領(lǐng)域的相關(guān)研究進(jìn)行全面綜述和分析。第2章簡(jiǎn)單介紹存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)領(lǐng)域的相關(guān)基礎(chǔ)知識(shí);第3、第4章分類綜述當(dāng)前可靠性預(yù)測(cè)研究的現(xiàn)狀;第5章指出當(dāng)前存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)研究中尚未解決的難題和未來(lái)可能的研究方向。本文將從硬盤單體和存儲(chǔ)系統(tǒng)兩種預(yù)測(cè)對(duì)象的角度對(duì)可靠性預(yù)測(cè)進(jìn)行介紹和分析。
下面將介紹可靠性預(yù)測(cè)領(lǐng)域中的相關(guān)基礎(chǔ)知識(shí),以幫助讀者更好地理解本文內(nèi)容。
2.1 數(shù)據(jù)容錯(cuò)方式
為了保護(hù)用戶數(shù)據(jù),存儲(chǔ)系統(tǒng)一般都要使用一定的容錯(cuò)技術(shù)保證系統(tǒng)可靠性,在硬件設(shè)備故障之后(或之前),對(duì)故障(或預(yù)警)硬盤上的數(shù)據(jù)進(jìn)行重構(gòu)(或遷移),達(dá)到數(shù)據(jù)保護(hù)的目的。根據(jù)保護(hù)數(shù)據(jù)原理的不同,存儲(chǔ)系統(tǒng)采用的容錯(cuò)方式可以分為兩類:被動(dòng)容錯(cuò)方式和主動(dòng)容錯(cuò)方式。
2.1.1 被動(dòng)容錯(cuò)方式
利用冗余信息實(shí)現(xiàn)故障數(shù)據(jù)的重構(gòu)是存儲(chǔ)系統(tǒng)應(yīng)對(duì)硬盤故障最常用的傳統(tǒng)容錯(cuò)方式:如果發(fā)生了硬盤故障,故障盤上的數(shù)據(jù)可以利用其他健康硬盤上的數(shù)據(jù)進(jìn)行恢復(fù)。其中,有兩類常用的冗余技術(shù):糾刪碼技術(shù)(erasure code)和副本技術(shù)(replication)。
糾刪碼技術(shù)[1]通過(guò)一定算法將用戶數(shù)據(jù)進(jìn)行編碼得到冗余信息,并將原始數(shù)據(jù)和冗余信息一起存儲(chǔ)到系統(tǒng)中,以此達(dá)到容錯(cuò)的目的。糾刪碼系統(tǒng)具有冗余率低和靈活性高等優(yōu)點(diǎn),缺點(diǎn)是重構(gòu)開銷比較大。副本技術(shù)為每個(gè)數(shù)據(jù)塊創(chuàng)建一定數(shù)量的副本,并按照某種規(guī)則散布在系統(tǒng)中,以此達(dá)到容錯(cuò)的目的。副本系統(tǒng)利用高冗余率換取高容錯(cuò)能力,具有很好的讀性能和重構(gòu)能力。
2.1.2 主動(dòng)容錯(cuò)方式
隨著存儲(chǔ)系統(tǒng)規(guī)模的逐漸增大,故障事件發(fā)生的頻率越來(lái)越高,被動(dòng)容錯(cuò)系統(tǒng)只能通過(guò)增加冗余來(lái)保障系統(tǒng)的可靠性,而這無(wú)疑會(huì)增加系統(tǒng)成本和降低系統(tǒng)降級(jí)模式下的訪問(wèn)性能。面對(duì)被動(dòng)容錯(cuò)模式的困境,一些研究者開始探討能否在硬盤故障發(fā)生前就將其預(yù)測(cè)出來(lái),提前遷移保護(hù)有潛在危險(xiǎn)的數(shù)據(jù),通過(guò)這種主動(dòng)容錯(cuò)模式從根本上提高存儲(chǔ)系統(tǒng)的可靠性。
現(xiàn)代硬盤大都采用了SMART技術(shù),可實(shí)時(shí)獲取硬盤狀態(tài)信息,并當(dāng)任意一個(gè)屬性值超過(guò)預(yù)設(shè)閾值時(shí)發(fā)出警報(bào)。但閾值法只能提前預(yù)測(cè)出3%~10%的硬盤故障[2],不能滿足用戶的需求。因此有研究者提出利用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法在硬盤SMART數(shù)據(jù)集上建立故障預(yù)測(cè)模型,以此提高預(yù)測(cè)準(zhǔn)確率。
當(dāng)前主動(dòng)容錯(cuò)技術(shù)的具體研究方法是,預(yù)先收集大量硬盤的SMART數(shù)據(jù)信息和系統(tǒng)事件,并建立硬盤故障預(yù)測(cè)模型;然后實(shí)時(shí)監(jiān)測(cè)存儲(chǔ)系統(tǒng)中工作硬盤的狀態(tài),利用預(yù)測(cè)模型預(yù)測(cè)潛在硬盤故障,并對(duì)即將到來(lái)的故障提前進(jìn)行處理,消除潛在的故障隱患,以此達(dá)到提高系統(tǒng)可靠性的目的。
2.2 可靠性度量指標(biāo)
存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)/評(píng)價(jià)研究首先要解決的問(wèn)題是設(shè)計(jì)合理的度量指標(biāo)。下面將從硬盤單體和存儲(chǔ)系統(tǒng)兩方面介紹可靠性度量指標(biāo)的相關(guān)研究。
2.2.1 硬盤可靠性度量
硬盤的可靠性是指,在給定的操作環(huán)境與條件下,硬盤在一段時(shí)間內(nèi)可以正確讀寫的能力。硬盤可靠性受到設(shè)計(jì)、生產(chǎn)和使用環(huán)境的影響。把硬盤可靠性度量指標(biāo)分為兩類:第一類是受型號(hào)和生產(chǎn)廠商影響的硬盤群體可靠性度量指標(biāo);第二類是受使用環(huán)境、工作負(fù)載和時(shí)間等因素影響的硬盤個(gè)體可靠性度量指標(biāo)。
硬盤的群體可靠性度量指標(biāo)有年故障率(annual failure rate,AFR)和平均無(wú)故障時(shí)間(mean time to failure,MTTF)[3]。年故障率指一年內(nèi)硬盤發(fā)生故障的期望概率;平均無(wú)故障時(shí)間是指在規(guī)定的環(huán)境下,硬盤正常運(yùn)行至下一次故障的平均時(shí)間。
硬盤的個(gè)體可靠性度量是預(yù)測(cè)模型根據(jù)硬盤某時(shí)刻的SMART信息得出的可靠性預(yù)測(cè)結(jié)果。故障預(yù)測(cè)模型[2,4-10]一般都是二分類模型,因此對(duì)硬盤個(gè)體給出的可靠性度量只能是一個(gè)二元指標(biāo):未來(lái)一段時(shí)間會(huì)發(fā)生故障或者不會(huì)。對(duì)故障預(yù)測(cè)模型本身,有3個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率或召回率(false discovery rate,F(xiàn)DR)、誤報(bào)率(false alarm rate,F(xiàn)AR)和提前預(yù)測(cè)時(shí)間(time in advance,TIA)。FDR是故障硬盤中可以被準(zhǔn)確預(yù)測(cè)出的比例;FAR是好盤中被誤報(bào)為壞盤的比例;TIA描述的是可以提前多長(zhǎng)時(shí)間預(yù)測(cè)出即將到來(lái)的故障。顯然,這3個(gè)指標(biāo)也直接影響了存儲(chǔ)系統(tǒng)的可靠性和可用性。
硬盤故障不是突然發(fā)生的,而是隨著時(shí)間流逝慢慢發(fā)生的,是一個(gè)逐漸老化的過(guò)程。這些故障在發(fā)生之前,一般都會(huì)出現(xiàn)一些異常現(xiàn)象。比如,硬盤主軸馬達(dá)在使用過(guò)程中會(huì)慢慢磨損,將引起主軸偏心逐漸增大,從而使得磁道跟蹤難度加大,進(jìn)而可能會(huì)引起跟蹤偏差而丟失數(shù)據(jù)。故障預(yù)測(cè)模型如能刻畫這種趨勢(shì),不只是定性給出硬盤將要故障與否的二元預(yù)測(cè),而是更細(xì)致描述硬盤某時(shí)刻的“健康度”(預(yù)期剩余壽命),就可以更有效地指導(dǎo)后期的預(yù)警處理。作者前期工作[11-13]提出創(chuàng)建硬盤“健康度”(health degree)預(yù)測(cè)模型,對(duì)硬盤的可靠性程度(預(yù)期剩余壽命)給出細(xì)致預(yù)測(cè)?!敖】刀取北硎居脖P將要發(fā)生故障的概率,或硬盤的預(yù)期剩余壽命,是根據(jù)硬盤當(dāng)前SMART屬性值給出的硬盤個(gè)體可靠性度量值。例如,圖1是硬盤剩余壽命劃分實(shí)例[12],剩余壽命被劃分到6個(gè)“健康度”區(qū)間,離故障時(shí)刻越近,“健康度”越低,Level1表示硬盤的剩余壽命不足72小時(shí),需要緊急處理。針對(duì)硬盤剩余壽命預(yù)測(cè)模型,目前的評(píng)價(jià)指標(biāo)是“accuracy of residual life level assessment”(ACC),表示好/壞樣本(硬盤)中可以被預(yù)測(cè)到正確剩余壽命區(qū)間的比例。
2.2.2 存儲(chǔ)系統(tǒng)可靠性度量
存儲(chǔ)系統(tǒng)發(fā)生某些硬件故障之后,可以利用其自身的容錯(cuò)機(jī)制恢復(fù)故障數(shù)據(jù),屬于可修復(fù)系統(tǒng)。系統(tǒng)級(jí)的可靠性度量指標(biāo)主要有平均修復(fù)時(shí)間MTTR(mean time to repair)和平均數(shù)據(jù)丟失時(shí)間MTTDL(mean time to data loss)。
如果發(fā)生了超出系統(tǒng)最大容錯(cuò)能力的并發(fā)故障,導(dǎo)致系統(tǒng)中至少一個(gè)數(shù)據(jù)塊的信息發(fā)生了永久性丟失,這時(shí)認(rèn)為系統(tǒng)發(fā)生了數(shù)據(jù)丟失事件。系統(tǒng)發(fā)生一次數(shù)據(jù)丟失事件的期望時(shí)間作為該系統(tǒng)的MTTDL。
除了MTTDL之外,近年來(lái)很多研究者開始使用一段運(yùn)行期間內(nèi)發(fā)生的數(shù)據(jù)丟失事件的個(gè)數(shù)作為系統(tǒng)可靠性評(píng)價(jià)指標(biāo)。相對(duì)于MTTDL,存儲(chǔ)系統(tǒng)實(shí)際運(yùn)行時(shí)間很短,MTTDL并不能反映系統(tǒng)的真實(shí)可靠性水平,而系統(tǒng)實(shí)際運(yùn)行期間(3年或5年)內(nèi)發(fā)生數(shù)據(jù)丟失事件的期望個(gè)數(shù)(概率),可以更好地幫助系統(tǒng)設(shè)計(jì)者和用戶理解存儲(chǔ)系統(tǒng)的可靠性。
Fig.1 An example of health degree settings圖1“健康度”設(shè)置例子
據(jù)統(tǒng)計(jì),硬盤是當(dāng)前數(shù)據(jù)中心最主要的故障源[3,14-15],微軟數(shù)據(jù)中心中故障硬盤的替換數(shù)量占所有硬件替換的78%[3]。因此,硬盤自身的可靠性對(duì)存儲(chǔ)系統(tǒng)整體可靠性的影響巨大,有很多研究關(guān)注硬盤的可靠性。
對(duì)硬盤可靠性預(yù)測(cè)的研究大體可以分為兩類:第一類是通過(guò)對(duì)大規(guī)模真實(shí)硬盤數(shù)據(jù)的分析,預(yù)測(cè)硬盤群體的可靠性特征;第二類是通過(guò)創(chuàng)建硬盤故障預(yù)測(cè)模型,基于硬盤的SMART數(shù)據(jù)預(yù)測(cè)硬盤個(gè)體可靠性特征。
3.1 硬盤群體可靠性分析的發(fā)展
20世紀(jì)90年代初期,Gibson[16]發(fā)現(xiàn)硬盤故障率呈現(xiàn)出“浴盆曲線”規(guī)律,即初期故障率比較高,一段時(shí)間后呈現(xiàn)出較低較穩(wěn)定的故障率,到最后因?yàn)橛布匣?,故障率又呈現(xiàn)出上升的趨勢(shì)。他認(rèn)為可以用指數(shù)分布很好地模擬硬盤的故障時(shí)間分布,這為后來(lái)學(xué)者使用Markov模型預(yù)測(cè)存儲(chǔ)系統(tǒng)可靠性提供了理論指導(dǎo)。
后來(lái),指數(shù)分布假設(shè)被Schroeder和Gibson[3]以高置信度的結(jié)果推翻了,他們發(fā)現(xiàn)硬盤故障呈現(xiàn)出顯著的早發(fā)性磨損退化趨勢(shì),而且與硬盤故障時(shí)間呈現(xiàn)出明顯的相關(guān)性和依賴性。因此,他們建議研究者使用真實(shí)的故障替換數(shù)據(jù),或是雙參分布(如韋布分布)模擬硬盤故障時(shí)間。
潛在扇區(qū)錯(cuò)誤是另一種故障類型,硬盤上一個(gè)或多個(gè)二進(jìn)制位永久地?fù)p壞,不管嘗試多少次,都不可能正確地讀一個(gè)扇區(qū)。Ma等人[17]發(fā)現(xiàn)工作硬盤上潛在扇區(qū)錯(cuò)誤的數(shù)量會(huì)隨著時(shí)間持續(xù)增長(zhǎng),不斷增加的扇區(qū)錯(cuò)誤會(huì)導(dǎo)致硬盤可靠性持續(xù)降低,從而引發(fā)硬盤整體崩潰。另外,Bairavasundaram等人[18-19]通過(guò)對(duì)大量企業(yè)級(jí)和近線級(jí)硬盤數(shù)據(jù)的研究,發(fā)現(xiàn)潛在扇區(qū)錯(cuò)誤和靜默的數(shù)據(jù)損壞具有空間局限性和時(shí)間局限性等特點(diǎn),據(jù)此他們提出有針對(duì)性的“磁盤清洗”策略。
還有一些研究[20-22]觀察故障機(jī)理的特性以及一些SMART屬性對(duì)硬盤整體故障率的影響。其中,Shah和Elerath[20]的研究發(fā)現(xiàn)污染和磁頭穩(wěn)定性是影響可靠性的重要因素,表明硬盤的可靠性和硬盤的制造商和型號(hào)非常相關(guān);Pinheiro等人[21]發(fā)現(xiàn)一些SMART屬性如掃描錯(cuò)誤(scan errors)、重定向數(shù)量(reallocation counts)等對(duì)硬盤故障有很大影響,而且與之前的研究不同,他們發(fā)現(xiàn)高溫對(duì)硬盤故障沒有太多影響,這個(gè)發(fā)現(xiàn)后來(lái)在El-Sayed等人[22]的工作中也得到了證實(shí)。
3.2 硬盤個(gè)體可靠性預(yù)測(cè)的發(fā)展
早在新世紀(jì)初,Hamerly和Elkan[4]就嘗試構(gòu)建基于SMART屬性的硬盤故障預(yù)測(cè)模型,發(fā)現(xiàn)有些SMART屬性會(huì)對(duì)預(yù)測(cè)準(zhǔn)確性造成負(fù)面影響,使用3個(gè)屬性的貝葉斯分類方法可達(dá)到最好的預(yù)測(cè)性能——誤報(bào)率1%和準(zhǔn)確率55%。
之后,Hughes博士領(lǐng)導(dǎo)的團(tuán)隊(duì)對(duì)此問(wèn)題進(jìn)行了深入研究。他們發(fā)現(xiàn)很多SMART屬性是非參分布的,因此使用Wilcoxon秩和檢驗(yàn)方法達(dá)到了誤報(bào)率0.5%和準(zhǔn)確率60.0%的預(yù)測(cè)性能[5]。接下來(lái),他們比較了支持向量機(jī)(support vector machine,SVM)、無(wú)監(jiān)督聚類、秩和檢驗(yàn)與反向安排檢驗(yàn)的預(yù)測(cè)性能,其中秩和檢驗(yàn)性能最好,可達(dá)到0.5%的誤報(bào)率和33.2%的準(zhǔn)確率[6]。這一工作的另一重要貢獻(xiàn)是給出一個(gè)包含178塊健康硬盤和191塊故障硬盤的開放數(shù)據(jù)集,成為很多后來(lái)研究工作的基礎(chǔ)。在進(jìn)一步工作中[2],他們采用反向安排檢驗(yàn)等方法進(jìn)行特征選取,將SVM的預(yù)測(cè)性能提高到誤報(bào)率0和準(zhǔn)確率50.6%。
近年來(lái),研究者又嘗試用其他統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法解決硬盤故障預(yù)測(cè)問(wèn)題。Zhao等人[7]將SMART屬性值視為時(shí)間序列數(shù)據(jù),使用隱馬爾可夫模型(hidden Markov model,HMM)和隱半馬爾可夫模型(hidden semi-Markov model,HSMM)在Hughes數(shù)據(jù)集上獲得了0的誤報(bào)率和52%的預(yù)測(cè)準(zhǔn)確率。Wang等人[8]采用馬氏距離預(yù)測(cè)硬盤故障,并提出了一種“故障模式、機(jī)制和效果分析”的特征選取方法,使用優(yōu)選屬性獲得的預(yù)測(cè)性能顯著優(yōu)于使用全部屬性。在進(jìn)一步的工作中[9],Wang等人又提出最小冗余最大相關(guān)法消除冗余屬性,在Hughes數(shù)據(jù)集上獲得了0的誤報(bào)率和67%的準(zhǔn)確率,而且56%的故障可以被提前20小時(shí)預(yù)測(cè)出來(lái)。
上述研究工作采用的模型都是“黑盒子”模型,只是給出硬盤是否即將故障的預(yù)測(cè),并沒有給出預(yù)測(cè)的規(guī)則和標(biāo)準(zhǔn),從而無(wú)法知道導(dǎo)致潛在故障的原因。
作者前期工作中采用了人工神經(jīng)網(wǎng)絡(luò)[10]和決策樹[11]等預(yù)測(cè)準(zhǔn)確性、穩(wěn)定性和解釋性更佳的機(jī)器學(xué)習(xí)方法。該方法最好預(yù)測(cè)性能達(dá)到0.1%以下的誤報(bào)率和95%的準(zhǔn)確率,且能提前一周以上預(yù)測(cè)出故障,為預(yù)警處理提供了充足時(shí)間。而且決策樹預(yù)測(cè)模型可以生成易于理解的規(guī)則,能夠幫助人們理解硬盤故障的原因,從而采取有針對(duì)性的措施降低故障率。
圖2是基于決策樹[11]創(chuàng)建的硬盤故障預(yù)測(cè)模型。其中“,POH”“、RUE”、“TC”、“SUT”和“SER”代表某些SMART屬性。決策規(guī)則清晰地解釋了SMART屬性值與故障之間的關(guān)系。例如,依據(jù)開機(jī)時(shí)間屬性(POH)是否小于90將全部樣本(根結(jié)點(diǎn))分裂為結(jié)點(diǎn)2(葉子)和結(jié)點(diǎn)3。這樣,決策樹模型除了預(yù)測(cè)故障之外,還能為采取措施并減少故障提供依據(jù)。
Fig.2 Asimplified classification tree for hard drive failure prediction圖2 基于決策樹的硬盤故障預(yù)測(cè)模型
最近,EMC公司的研究者[17]設(shè)計(jì)出一種RAID(redundant array of independent disks)系統(tǒng)保護(hù)機(jī)制——RAIDShield,其中包含PLATE和ARMOR兩個(gè)模塊。PLATE是一種簡(jiǎn)單的基于RS(reallocated sectors)數(shù)量的閾值預(yù)測(cè)方法,可以達(dá)到2.5%的誤報(bào)率和65.0%的準(zhǔn)確率。ARMOR模塊使用聯(lián)合故障概率方法量化每個(gè)RAID校驗(yàn)組發(fā)生數(shù)據(jù)丟失的概率。通過(guò)設(shè)置合適的概率閾值,ARMOR可以檢測(cè)出80%的脆弱(vulnerability)RAID-6校驗(yàn)組,從而可以消除大部分被PLATE模塊漏報(bào)的數(shù)據(jù)丟失事件。
上述研究把硬盤故障預(yù)測(cè)看成單純的二元分類問(wèn)題:一個(gè)硬盤是否將要發(fā)生故障。實(shí)驗(yàn)結(jié)果[10-11]顯示,預(yù)警盤被預(yù)測(cè)模型檢測(cè)出來(lái)后,一般要經(jīng)歷一段比較長(zhǎng)的時(shí)間(TIA>300 h)才會(huì)真正發(fā)生故障,證實(shí)了硬盤故障不是突然發(fā)生,而是逐漸老化的過(guò)程。因此,提出了“健康度”預(yù)測(cè)模型[11]的概念,并基于回歸樹(regression trees)構(gòu)造硬盤健康度預(yù)測(cè)模型,細(xì)致評(píng)價(jià)硬盤的健康程度(故障概率),為確定后期預(yù)警處理的優(yōu)先級(jí)提供量化指導(dǎo)。這樣,系統(tǒng)可以在有限的恢復(fù)帶寬下優(yōu)先處理最危急(故障概率最大)的硬盤,從而最大限度地保障系統(tǒng)的可靠性和可用性。然而“,故障概率”(健康度)不能直觀地指導(dǎo)預(yù)警處理。
龐帥等人[13]用硬盤的剩余壽命(故障前剩余的工作時(shí)間)表示“健康度”,提出聯(lián)合貝葉斯網(wǎng)絡(luò)(combined Bayesian network,CBN)模型。該模型結(jié)合4個(gè)分類器——人工神經(jīng)網(wǎng)絡(luò)、進(jìn)化神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和決策樹的預(yù)測(cè)結(jié)果,預(yù)測(cè)硬盤的剩余壽命。采用一個(gè)合適的剩余壽命劃分區(qū)間后,CBN模型可以達(dá)到60%的剩余壽命區(qū)間預(yù)測(cè)準(zhǔn)確率。
許暢等人[12]考慮到硬盤健康狀態(tài)具有長(zhǎng)相關(guān)依賴特點(diǎn),基于硬盤SMART屬性的時(shí)序性特征,采用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型預(yù)測(cè)硬盤的健康度,可以達(dá)到約40%~60%的剩余壽命區(qū)間預(yù)測(cè)準(zhǔn)確率。
3.3 硬盤可靠性預(yù)測(cè)總結(jié)
目前,很多統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法被用來(lái)構(gòu)建硬盤故障預(yù)測(cè)模型,表1總結(jié)了各種不同預(yù)測(cè)模型的特點(diǎn)。“二分類”表示模型只能給出硬盤“是/否”將要故障的二分類預(yù)測(cè)結(jié)果;“健康度”表示模型的預(yù)測(cè)結(jié)果可以更細(xì)致地刻畫硬盤某時(shí)刻的健康狀況;“可解釋性”表示根據(jù)模型的預(yù)測(cè)結(jié)果,可以分析導(dǎo)致故障的原因;“時(shí)序特點(diǎn)”表示模型利用了硬盤樣本具有時(shí)序性的特點(diǎn);“提前預(yù)測(cè)時(shí)間”表示評(píng)價(jià)了模型的提前預(yù)測(cè)時(shí)間。
Table 1 Overview of hard drive failure prediction models表1 硬盤故障預(yù)測(cè)模型總結(jié)
存儲(chǔ)系統(tǒng)的整體可靠性主要受兩個(gè)因素的影響:一方面受限于存儲(chǔ)介質(zhì)的可靠性;另一方面取決于系統(tǒng)數(shù)據(jù)保護(hù)策略(主動(dòng)或被動(dòng))以及冗余布局方式。
4.1 被動(dòng)容錯(cuò)系統(tǒng)可靠性預(yù)測(cè)的發(fā)展
冗余機(jī)制的研究貫穿存儲(chǔ)技術(shù)的發(fā)展過(guò)程,研究者已經(jīng)提出了很多高效的糾刪碼方案和副本策略,對(duì)其可靠性的研究也一直是熱點(diǎn)方向。
4.1.1 糾刪碼存儲(chǔ)系統(tǒng)的可靠性
20世紀(jì)90年代初,Gibson等人[23]基于硬盤故障時(shí)間服從指數(shù)分布的假設(shè),利用馬爾可夫過(guò)程構(gòu)造出RAID-5和RAID-6磁盤陣列的可靠性預(yù)測(cè)模型,分析了磁盤陣列結(jié)構(gòu)對(duì)系統(tǒng)可靠性的影響,并啟發(fā)后來(lái)學(xué)者使用馬爾可夫模型預(yù)測(cè)存儲(chǔ)系統(tǒng)可靠性。例如,對(duì)于具有高并發(fā)性、高可擴(kuò)展性、高性價(jià)比等特點(diǎn)的集群存儲(chǔ)系統(tǒng),章宏?duì)N等人[24]提出了一種基于馬爾可夫模型的集群RAID-5存儲(chǔ)系統(tǒng)的可靠性模型,定量分析了各種系統(tǒng)參數(shù)對(duì)系統(tǒng)可靠性的影響。經(jīng)過(guò)分析,他們發(fā)現(xiàn)多層集群RAID-5的系統(tǒng)可靠性比單層集群RAID-5的要高;提高硬盤/節(jié)點(diǎn)的重構(gòu)速率可以近似等幅度地提升系統(tǒng)可靠性;保證系統(tǒng)可靠性不變的前提下,重構(gòu)速率10倍的提升可以使系統(tǒng)對(duì)節(jié)點(diǎn)平均失效時(shí)間的需求降低為原來(lái)的1/7。
潛在扇區(qū)錯(cuò)誤和靜默的數(shù)據(jù)損壞是由媒介故障或軟件缺陷等原因造成的塊級(jí)別錯(cuò)誤,除非有讀操作嘗試讀取訪問(wèn),否則塊級(jí)別錯(cuò)誤不會(huì)被發(fā)現(xiàn)。Venkatesan等人[25]通過(guò)概率分析的方式考察了潛在扇區(qū)錯(cuò)誤對(duì)系統(tǒng)可靠性的影響,發(fā)現(xiàn)當(dāng)潛在錯(cuò)誤概率比較小時(shí),MTTDL降低的幅度與冗余策略、校驗(yàn)盤格式和系統(tǒng)規(guī)模大小沒有關(guān)系,但是當(dāng)潛在錯(cuò)誤概率比較大時(shí),MTTDL的值類似于少用一個(gè)校驗(yàn)盤的無(wú)潛在錯(cuò)誤系統(tǒng)的可靠性結(jié)果。其實(shí)早在新世紀(jì)初期,IBM的專家們[26]在對(duì)非MDS(maximum distance separable)編碼的存儲(chǔ)系統(tǒng)創(chuàng)建馬爾可夫可靠性模型的過(guò)程中,就考慮了不可恢復(fù)的塊級(jí)別錯(cuò)誤對(duì)可靠性的影響。在接下來(lái)的工作中[27],他們提出一種硬盤內(nèi)部的冗余機(jī)制IDR(intra-disk redundancy)以消除塊級(jí)別錯(cuò)誤對(duì)系統(tǒng)可靠性的負(fù)面影響,并使用馬爾可夫模型分析了帶IDR機(jī)制的RAID-5和RAID-6系統(tǒng)的可靠性,結(jié)果表明IDR機(jī)制可以有效增強(qiáng)RAID系統(tǒng)的可靠性。但是,因?yàn)閿?shù)據(jù)存儲(chǔ)系統(tǒng)廣泛使用低價(jià)硬盤,導(dǎo)致塊級(jí)別的錯(cuò)誤數(shù)量越來(lái)越多,由IDR機(jī)制帶來(lái)的可靠性提升受到不利影響。在進(jìn)一步工作中[28],他們通過(guò)校正IDR機(jī)制的參數(shù)選擇,在付出最小I/O性能代價(jià)的前提下,得到存儲(chǔ)系統(tǒng)可靠性的最大提升。例如,帶IDR的RAID-5系統(tǒng)的可靠性和I/O性能均優(yōu)于平凡(不帶IDR)RAID-6系統(tǒng)的性能。而且,在Thomasian等人[29]的工作中,結(jié)果同樣顯示增加了IDR的RAID-5系統(tǒng)可以達(dá)到和平凡RAID-6同等的可靠性水平。
除了IDR機(jī)制,“磁盤清洗”過(guò)程也可以有效預(yù)防塊級(jí)別錯(cuò)誤對(duì)系統(tǒng)可靠性的影響。Paris等人[30]研究了運(yùn)行在RAID-6磁盤陣列的磁盤清洗調(diào)度問(wèn)題。對(duì)于RAID-6系統(tǒng),一個(gè)故障發(fā)生后,其余硬盤上的若干不可恢復(fù)的扇區(qū)錯(cuò)誤會(huì)導(dǎo)致第二個(gè)硬盤故障,因此他們建議發(fā)生一個(gè)硬盤故障后應(yīng)該立即啟動(dòng)“緊急”(加速)清洗過(guò)程。分析結(jié)果顯示,無(wú)論是單獨(dú)運(yùn)行,還是與周期清洗結(jié)合運(yùn)行,這些加速清洗都可以大大改進(jìn)磁盤陣列的平均數(shù)據(jù)丟失時(shí)間。
大量的經(jīng)驗(yàn)觀察值都否定了硬盤故障指數(shù)分布的假設(shè),認(rèn)為硬盤故障和修復(fù)時(shí)間更符合韋布分布。為了擺脫硬盤故障符合指數(shù)分布的假設(shè)限制,Thomasian等人[31]使用概率分析的方法比較了不同磁盤鏡像(RAID-1)組織結(jié)構(gòu)的可靠性。這些磁盤陣列是由相同故障分布特征的硬盤構(gòu)成。他們發(fā)現(xiàn)相對(duì)鏈?zhǔn)缴⒉迹╟hained declustering,CD)陣列、交叉散布(interleaved declustering,ID)陣列和組旋轉(zhuǎn)散布(group rotate declustering,GRD)陣列,基本鏡像(basic mirroring,BM)陣列能夠容忍的雙盤并發(fā)故障的情況最多,具有最高的可靠性。
隨著可靠性研究的深入,很多研究者發(fā)現(xiàn)以前研究采用的評(píng)價(jià)指標(biāo)——平均數(shù)據(jù)丟失時(shí)間(MTTDL),并不能準(zhǔn)確表示存儲(chǔ)系統(tǒng)的可靠性水平。比如,Paris等人[32-33]在研究硬盤故障率恒定假設(shè)對(duì)可靠性模型結(jié)果的影響時(shí),發(fā)現(xiàn)由于存儲(chǔ)系統(tǒng)的實(shí)際生命周期相對(duì)MTTDL短得多,MTTDL方法通常會(huì)高估系統(tǒng)的長(zhǎng)期可靠性,而明顯低估系統(tǒng)短期可靠性,因此他們建議關(guān)注存儲(chǔ)系統(tǒng)有效生命周期內(nèi)的可靠性。
Elerath等人[34]構(gòu)建出N+1 RAID系統(tǒng)的非Markov模型的狀態(tài)轉(zhuǎn)換圖,并用順序蒙特卡羅方法模擬系統(tǒng)的運(yùn)行,仿真出不同運(yùn)行時(shí)期內(nèi)系統(tǒng)發(fā)生數(shù)據(jù)丟失事件的期望次數(shù)。其中,硬盤故障時(shí)間、故障恢復(fù)時(shí)間、潛在扇區(qū)錯(cuò)誤時(shí)間和磁盤清理時(shí)間都使用韋布分布,結(jié)果顯示之前MTTDL模型所用的假設(shè)導(dǎo)致了不正確的預(yù)測(cè)結(jié)果。在接下來(lái)的工作中[35-36],他們?cè)O(shè)計(jì)了兩個(gè)新的封閉公式,相對(duì)于時(shí)間開銷大的可靠性仿真程序,公式可以更方便快捷地估計(jì)出RAID-5和RAID-6磁盤陣列系統(tǒng)發(fā)生數(shù)據(jù)丟失事件的期望次數(shù)。同時(shí),他們也建議用其他更合理的評(píng)價(jià)指標(biāo)替代MTTDL,然而這個(gè)論斷遭到Iliadis等人[37]的反駁。
對(duì)于采用非MDS編碼的異構(gòu)存儲(chǔ)系統(tǒng),Greenan等人[38]提出了兩種基于XOR糾刪碼的冗余散布算法,并利用他們提出的相對(duì)MTTDL估計(jì)模型,分析比較了不同冗余散布策略系統(tǒng)對(duì)可靠性的影響。在后來(lái)的工作[39]中,Greenan等人提出一個(gè)新的可靠性評(píng)價(jià)指標(biāo)NOMDL(normalized magnitude of data loss)——某個(gè)時(shí)期內(nèi)每Terabyte用戶數(shù)據(jù)丟失的Byte數(shù),可以量化單位時(shí)間內(nèi)數(shù)據(jù)丟失率,相對(duì)于MTTDL,NOMDL可以更準(zhǔn)確地評(píng)價(jià)存儲(chǔ)系統(tǒng)的可靠性水平。
4.1.2 副本存儲(chǔ)系統(tǒng)的可靠性
如Qin等人[40]所說(shuō),隨著硬盤容量的增加,硬盤修復(fù)時(shí)間越來(lái)越長(zhǎng),在修復(fù)期間再次發(fā)生硬盤故障的概率會(huì)增大,RAID系統(tǒng)已不能提供足夠的可靠性,因此近年來(lái)副本技術(shù)成為提高存儲(chǔ)系統(tǒng)可靠性的主流技術(shù)之一,也涌現(xiàn)出一些對(duì)副本存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)的研究。
相比單機(jī)系統(tǒng),通過(guò)網(wǎng)絡(luò)存儲(chǔ)節(jié)點(diǎn)實(shí)現(xiàn)的分布式存儲(chǔ)系統(tǒng)具有代價(jià)低、可擴(kuò)展等優(yōu)點(diǎn),為了獲得高可靠性,冗余必須在節(jié)點(diǎn)之間和節(jié)點(diǎn)內(nèi)部散布,從而分別容忍節(jié)點(diǎn)和硬盤故障。Rao等人[41]分別對(duì)節(jié)點(diǎn)內(nèi)部包含和不包含RAID冗余的分布式存儲(chǔ)系統(tǒng)創(chuàng)建分層和遞歸Markov可靠性模型,分析了多種系統(tǒng)參數(shù)及潛在扇區(qū)錯(cuò)誤對(duì)系統(tǒng)可靠性的影響。綜合節(jié)點(diǎn)故障、數(shù)據(jù)平衡和提前拷貝因素后,Chen等人[42]構(gòu)造出(brick)存儲(chǔ)系統(tǒng)Markov可靠性預(yù)測(cè)模型。這個(gè)模型可以指導(dǎo)存儲(chǔ)系統(tǒng)設(shè)計(jì)者充分利用系統(tǒng)資源,從而既可以減少系統(tǒng)構(gòu)建和維護(hù)開銷,又可以提高數(shù)據(jù)的可靠性。類似的,穆飛等人[43]研究了延遲失效檢測(cè)對(duì)多副本存儲(chǔ)系統(tǒng)可靠性的影響;張薇等人[44]使用概率方法對(duì)異構(gòu)分布式存儲(chǔ)系統(tǒng)可靠性進(jìn)行預(yù)測(cè);張林峰等人[45]提出基于對(duì)象粒度恢復(fù)的可靠性分析模型,分別計(jì)算了各個(gè)系統(tǒng)參數(shù)的獨(dú)立最優(yōu)值及其組合最優(yōu)值。
數(shù)據(jù)副本的散布策略對(duì)副本存儲(chǔ)系統(tǒng)的性能和可靠性有明顯的影響。Leslie等人[46]使用組合概率分析和蒙特卡羅模擬方式評(píng)價(jià)了多種副本散布策略,包括后繼散布(successor placement)、前驅(qū)散布(predecessor placement)、指針散布(finger placement)、塊散布(block placement)和對(duì)稱散布(symmetric placement),對(duì)系統(tǒng)可靠性的影響,發(fā)現(xiàn)塊散布策略的可靠性最好。Venkatesan等人[47]通過(guò)比較聚集(clustered)和散布(declustered)策略對(duì)系統(tǒng)MTTDL的影響,發(fā)現(xiàn)聚集系統(tǒng)的MTTDL和節(jié)點(diǎn)個(gè)數(shù)成反比,而散布系統(tǒng)的MTTDL因重構(gòu)過(guò)程的并行性并沒有隨著節(jié)點(diǎn)個(gè)數(shù)的增加而降低。而Cidon等人[48]提出介于完全聚集和完全散布兩種極端策略之間的拷貝集散布(copyset replication)策略,將存儲(chǔ)節(jié)點(diǎn)劃分成多個(gè)等量的集合(copysets),每個(gè)數(shù)據(jù)塊的所有副本只能存放到一個(gè)集合內(nèi)的節(jié)點(diǎn)上,這樣只有某個(gè)集合的全部節(jié)點(diǎn)同時(shí)故障才會(huì)導(dǎo)致數(shù)據(jù)丟失的發(fā)生。拷貝集散布策略可以降低因并發(fā)節(jié)點(diǎn)故障而導(dǎo)致的數(shù)據(jù)丟失事件的概率,從而有效提高副本系統(tǒng)的可靠性。
硬盤故障率呈現(xiàn)出典型的“浴盆曲線”特點(diǎn),由于大規(guī)模存儲(chǔ)系統(tǒng)可能會(huì)同時(shí)替換大量新硬盤,它們很容易引起硬盤早期失效的“群體效應(yīng)”。Qin等人[49]利用隱馬爾可夫模型和離散事件仿真方法研究了硬盤早期失效對(duì)大規(guī)模存儲(chǔ)系統(tǒng)可靠性的影響,發(fā)現(xiàn)忽略硬盤早期失效會(huì)導(dǎo)致對(duì)系統(tǒng)可靠性的過(guò)高估計(jì),而且系統(tǒng)規(guī)模越大,早期失效的影響越大。為了降低硬盤早期失效的影響,一方面,他們提出了兩種硬盤替換策略——基于硬盤使用年限的策略和隨機(jī)的逐步替換策略;另一方面,他們建議不同使用年限硬盤上的數(shù)據(jù)采用不同的冗余策略,即“年輕”硬盤上的對(duì)象采用三副本冗余,“年老”硬盤上的對(duì)象使用糾刪碼冗余。另外,Venkatesan等人[50]考慮節(jié)點(diǎn)故障和修復(fù)時(shí)間非指數(shù)分布的通用情況,使用概率方法推導(dǎo)出副本系統(tǒng)的MTTDL,發(fā)現(xiàn)重構(gòu)分布可變性高的系統(tǒng)具有較低的MTTDL。
4.1.3 特殊存儲(chǔ)系統(tǒng)的可靠性
大型歸檔存儲(chǔ)系統(tǒng)中的硬盤長(zhǎng)期保持關(guān)機(jī)狀態(tài),多種原因(包含設(shè)備級(jí)別和塊級(jí)別的故障)會(huì)導(dǎo)致這些系統(tǒng)丟失數(shù)據(jù)。Schwarz等人[51]建議歸檔存儲(chǔ)系統(tǒng)中運(yùn)行一個(gè)“磁盤清洗”過(guò)程,定期訪問(wèn)硬盤以檢查硬盤故障。他們分析了磁盤清洗過(guò)程對(duì)大型歸檔存儲(chǔ)系統(tǒng)的影響,顯示清洗對(duì)長(zhǎng)期數(shù)據(jù)的保存很重要,而且相對(duì)于“隨機(jī)”(random)和“確定”(deterministic)清洗策略,“伺機(jī)”(opportunistic)清洗策略(即只有當(dāng)硬盤處于開機(jī)狀態(tài)時(shí)才對(duì)它們進(jìn)行清洗)效果最好。后來(lái),Paris等人[52]針對(duì)歸檔存儲(chǔ)系統(tǒng)設(shè)計(jì)了一個(gè)二維RAID架構(gòu),即增加一個(gè)超級(jí)校驗(yàn)盤存放所有行/列校驗(yàn)盤的異或結(jié)果。實(shí)驗(yàn)表明,增加超級(jí)校驗(yàn)盤可以大大提高系統(tǒng)的MTTDL,而且修復(fù)時(shí)間越短,可靠性的提升越明顯。
另外,針對(duì)歸檔存儲(chǔ)系統(tǒng),Li等人[53]提出一個(gè)框架來(lái)關(guān)聯(lián)數(shù)據(jù)生存能力和存儲(chǔ)可靠性,并用來(lái)測(cè)量較少發(fā)生但是規(guī)模很大的事件對(duì)數(shù)據(jù)長(zhǎng)期生存能力的影響,以此定量研究存儲(chǔ)在地理位置分散的異構(gòu)存儲(chǔ)系統(tǒng)上數(shù)據(jù)對(duì)象的生存能力。他們發(fā)現(xiàn)以前存儲(chǔ)模型忽略的一些較少發(fā)生事件,比如地震,對(duì)數(shù)據(jù)生存能力具有真正的影響。甚至在一個(gè)中等使用年限的系統(tǒng)中,新設(shè)備的替換也會(huì)對(duì)數(shù)據(jù)的生存能力產(chǎn)生影響。
空間利用率和數(shù)據(jù)可靠性是當(dāng)代存儲(chǔ)系統(tǒng)關(guān)注的兩個(gè)主要問(wèn)題,重復(fù)數(shù)據(jù)刪除技術(shù)(deduplication)實(shí)現(xiàn)數(shù)據(jù)對(duì)象或塊在文件之間的共享,在節(jié)省系統(tǒng)存儲(chǔ)空間的同時(shí),對(duì)系統(tǒng)可靠性也產(chǎn)生了一定影響。Bhagwat等人[54]提出一個(gè)提高重復(fù)數(shù)據(jù)刪除系統(tǒng)可靠性的策略,即根據(jù)塊故障導(dǎo)致丟失的數(shù)據(jù)量多少確定數(shù)據(jù)塊的副本個(gè)數(shù),相比傳統(tǒng)的副本和壓縮技術(shù)組合的方法,該技術(shù)可以達(dá)到更高的系統(tǒng)穩(wěn)健性(權(quán)衡丟失的數(shù)據(jù)量),而且還能減少一半的存儲(chǔ)開銷。Li等人[55]呈現(xiàn)了一個(gè)使用糾刪碼冗余機(jī)制保證數(shù)據(jù)可靠性的重復(fù)數(shù)據(jù)刪除存儲(chǔ)系統(tǒng)HPKVS。該系統(tǒng)允許每個(gè)對(duì)象指定自己的可靠性水平,為系統(tǒng)設(shè)計(jì)者提供了一個(gè)可靠性分析方法,能夠確定在什么情況下重復(fù)數(shù)據(jù)刪除技術(shù),既可以節(jié)省存儲(chǔ)空間,又不降低可靠性水平。
對(duì)于一個(gè)在異構(gòu)存儲(chǔ)硬件上存放異構(gòu)數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除系統(tǒng),Rozier等人[56]利用離散事件仿真方法定量分析了系統(tǒng)的可靠性,發(fā)現(xiàn)大規(guī)模重復(fù)數(shù)據(jù)刪除系統(tǒng)可靠性受到重復(fù)數(shù)據(jù)刪除技術(shù)的負(fù)面影響。然而在他們的后期工作[57]中,發(fā)現(xiàn)在重復(fù)引用更均勻散布的系統(tǒng)中,重復(fù)數(shù)據(jù)刪除技術(shù)反而提高了系統(tǒng)可靠性。
4.2 主動(dòng)容錯(cuò)系統(tǒng)可靠性預(yù)測(cè)的發(fā)展
相對(duì)被動(dòng)容錯(cuò)技術(shù),主動(dòng)容錯(cuò)技術(shù)發(fā)展較晚,2000年后才開始被研究者關(guān)注,還沒有被廣泛應(yīng)用到實(shí)際存儲(chǔ)系統(tǒng)中。故障預(yù)測(cè)模型并不能保證100%的預(yù)測(cè)準(zhǔn)確性,仍然會(huì)有一些硬盤漏報(bào)或者沒有被及時(shí)修復(fù),真正發(fā)生了故障,因此主動(dòng)容錯(cuò)技術(shù)不能完全避免存儲(chǔ)系統(tǒng)的故障,需要結(jié)合相應(yīng)的被動(dòng)容錯(cuò)技術(shù)共同保證系統(tǒng)的可靠性,從而主動(dòng)容錯(cuò)存儲(chǔ)系統(tǒng)的可靠性研究比較復(fù)雜。
目前,針對(duì)主動(dòng)容錯(cuò)存儲(chǔ)可靠性評(píng)價(jià)的研究相對(duì)較少,Eckart等人[58]利用馬爾可夫模型研究了主動(dòng)容錯(cuò)機(jī)制對(duì)單硬盤以及RAID-5陣列存儲(chǔ)系統(tǒng)可靠性的影響。實(shí)驗(yàn)表明,具有50%預(yù)測(cè)準(zhǔn)確率的故障預(yù)測(cè)模型可以將一個(gè)RAID-5系統(tǒng)的MTTDL提高近3倍。作者前期工作將此研究推廣到RAID-6陣列系統(tǒng)[11]和副本存儲(chǔ)系統(tǒng)[59],實(shí)驗(yàn)結(jié)果表明,提出的決策樹預(yù)測(cè)模型可以將存儲(chǔ)系統(tǒng)的可靠性提高幾個(gè)數(shù)量級(jí)。
4.3 存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)發(fā)展總結(jié)
為了更清晰地描述存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)發(fā)展?fàn)顩r,表2總結(jié)了當(dāng)前存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)國(guó)內(nèi)外研究進(jìn)展?!疤厥庀到y(tǒng)”表示一些有特殊用處(如歸檔存儲(chǔ)系統(tǒng))或采用特殊技術(shù)(如重復(fù)數(shù)據(jù)刪除系統(tǒng))的存儲(chǔ)系統(tǒng)。針對(duì)各種系統(tǒng),“指數(shù)分布假設(shè)”列出基于硬盤故障時(shí)間指數(shù)分布假設(shè)的可靠性研究文獻(xiàn);“塊故障影響”列出考察了潛在扇區(qū)錯(cuò)誤等塊級(jí)別的故障對(duì)系統(tǒng)可靠性影響的文獻(xiàn);“非指數(shù)/韋布分布”列出不再受限于硬盤故障指數(shù)分布假設(shè)限制,或者使用韋布分布等更接近實(shí)際的分布描述硬盤故障時(shí)間的文獻(xiàn);“新評(píng)價(jià)指標(biāo)”列出不再使用MTTDL作為評(píng)價(jià)可靠性的指標(biāo),而是使用一段時(shí)間內(nèi)數(shù)據(jù)丟失事件期望個(gè)數(shù)等新評(píng)價(jià)指標(biāo)的文獻(xiàn)。
Table 2 Current state of research on storage system reliability prediction表2 國(guó)內(nèi)外存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)研究現(xiàn)狀
本章對(duì)存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)領(lǐng)域一些尚未解決的重要科學(xué)問(wèn)題進(jìn)行分析,并指出未來(lái)的研究方向。
5.1 硬盤故障預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)
當(dāng)前已有的硬盤故障預(yù)測(cè)模型大都是簡(jiǎn)單的二元分類器,只能給出是/否的預(yù)測(cè)結(jié)果,對(duì)它們的評(píng)價(jià)指標(biāo)是基于FDR和FAR的預(yù)測(cè)準(zhǔn)確率。一些最近的研究工作嘗試預(yù)測(cè)硬盤的剩余壽命,預(yù)警處理算法就可以根據(jù)它們的預(yù)測(cè)結(jié)果,為預(yù)警硬盤分配適當(dāng)?shù)膸?,在保護(hù)危險(xiǎn)數(shù)據(jù)的同時(shí),最大限度保證用戶的服務(wù)質(zhì)量。對(duì)這些模型的評(píng)價(jià)指標(biāo)仍是基于分類準(zhǔn)確性:將剩余壽命劃分為多個(gè)區(qū)間,用落到準(zhǔn)確區(qū)間的預(yù)測(cè)比例評(píng)價(jià)模型的預(yù)測(cè)準(zhǔn)確率。
總之,目前用于評(píng)價(jià)硬盤故障預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)都只孤立地關(guān)注預(yù)測(cè)模型本身,而未考慮預(yù)測(cè)模型和它們實(shí)際應(yīng)用場(chǎng)景——存儲(chǔ)系統(tǒng),尤其是云存儲(chǔ)系統(tǒng)之間的關(guān)系。這些研究都是假設(shè)在其他條件都保持不變的前提下,高的預(yù)測(cè)準(zhǔn)確率可以帶來(lái)大的收益。但實(shí)際上,提高預(yù)測(cè)準(zhǔn)確率一般會(huì)導(dǎo)致其他性能的下降,比如提前預(yù)警時(shí)間(TIA)。例如,可以將一個(gè)預(yù)測(cè)模型的準(zhǔn)確率提高到100%,但卻要付出TIA減少到1小時(shí)的代價(jià)。這種情況下,即使所有危險(xiǎn)硬盤被提前預(yù)測(cè)出來(lái),也會(huì)由于缺少足夠的可用資源而不能將處于危險(xiǎn)中的數(shù)據(jù)及時(shí)遷移完畢。因此,預(yù)測(cè)準(zhǔn)確率不能完全反映硬盤故障預(yù)測(cè)模型的最終目標(biāo)(保護(hù)數(shù)據(jù),而不只是預(yù)測(cè)出硬盤故障)。
硬盤故障預(yù)測(cè)的根本目的是防止數(shù)據(jù)丟失,這不僅需要準(zhǔn)確預(yù)測(cè)出哪些硬盤將要故障,還需要在故障真正發(fā)生前完成數(shù)據(jù)遷移。為了創(chuàng)建更實(shí)用的硬盤故障預(yù)測(cè)模型,對(duì)它們的評(píng)價(jià)指標(biāo)也需要考慮預(yù)警遷移的完成情況。另外,目前已有的硬盤剩余壽命預(yù)測(cè)模型的性能還不理想。因此,更有意義的評(píng)價(jià)指標(biāo)和高性能的硬盤剩余壽命預(yù)測(cè)模型是硬盤個(gè)體可靠性預(yù)測(cè)領(lǐng)域需要解決的問(wèn)題。
5.2 主動(dòng)容錯(cuò)存儲(chǔ)系統(tǒng)的可靠性評(píng)價(jià)
目前對(duì)主動(dòng)容錯(cuò)存儲(chǔ)系統(tǒng)的可靠性研究很是匱乏,僅限于利用馬爾可夫模型,基于硬盤故障泊松分布假設(shè),對(duì)RAID-5/6和二/三副本存儲(chǔ)系統(tǒng)的可靠性進(jìn)行預(yù)測(cè)。這些已有的研究存在以下幾個(gè)缺陷:
(1)不準(zhǔn)確的故障分布假設(shè)?,F(xiàn)有研究對(duì)可靠性的估計(jì)都是基于硬盤故障發(fā)生和修復(fù)服從指數(shù)分布的假設(shè),在此假設(shè)下硬盤具有恒定不變的故障率和修復(fù)率,但是大量領(lǐng)域數(shù)據(jù)的分析結(jié)果以高置信度推翻了指數(shù)分布假設(shè)。
(2)故障類型考慮不全?,F(xiàn)有研究只關(guān)注了硬盤整體故障,而忽略了潛在扇區(qū)錯(cuò)誤等扇區(qū)或塊級(jí)別的錯(cuò)誤對(duì)系統(tǒng)可靠性的影響。
(3)不準(zhǔn)確的可靠性度量指標(biāo)。現(xiàn)有研究主要是用系統(tǒng)平均數(shù)據(jù)丟失時(shí)間(MTTDL)作為可靠性的評(píng)價(jià)指標(biāo),然而MTTDL相對(duì)于系統(tǒng)實(shí)際運(yùn)行時(shí)間很長(zhǎng),并不能準(zhǔn)確反映存儲(chǔ)系統(tǒng)的可靠性水平。
因此,使用更接近實(shí)際的硬盤故障分布數(shù)據(jù),綜合考慮各種故障類型,對(duì)主動(dòng)容錯(cuò)存儲(chǔ)系統(tǒng)的可靠性預(yù)測(cè)也是未來(lái)需要重點(diǎn)研究的方向。
5.3 系統(tǒng)級(jí)動(dòng)態(tài)故障預(yù)測(cè)
隨著云計(jì)算的發(fā)展,存儲(chǔ)系統(tǒng)的架構(gòu)已經(jīng)從傳統(tǒng)磁盤陣列演進(jìn)到云存儲(chǔ),存儲(chǔ)組織和冗余布局也從設(shè)備(硬盤)視角變?yōu)閿?shù)據(jù)(文件、對(duì)象)視角。但現(xiàn)有硬盤故障預(yù)測(cè)方法都只是一種設(shè)備視角的可靠性動(dòng)態(tài)評(píng)價(jià),即孤立地給出硬盤個(gè)體的健康或潛在故障的評(píng)級(jí),并未考慮其對(duì)系統(tǒng)(數(shù)據(jù))可靠性的影響。
例如,對(duì)于一個(gè)預(yù)警硬盤,如果它所屬于的某些校驗(yàn)組(RAID校驗(yàn)組或副本散布集合)已經(jīng)處于降級(jí)模式,只要再發(fā)生一個(gè)故障就會(huì)出現(xiàn)數(shù)據(jù)丟失,那么該預(yù)警硬盤的健康狀況對(duì)系統(tǒng)可靠性的影響非常大;相反,如果它所屬于的所有校驗(yàn)組都處于完全健康運(yùn)行的模式下,可以容忍一個(gè)故障發(fā)生而不產(chǎn)生數(shù)據(jù)丟失,那么該預(yù)警盤的健康狀況對(duì)系統(tǒng)可靠性的影響比較小。
因此,有效保障云存儲(chǔ)系統(tǒng)數(shù)據(jù)安全的故障預(yù)測(cè),不僅要基于硬盤個(gè)體的實(shí)時(shí)健康度評(píng)價(jià),更要結(jié)合硬盤在系統(tǒng)冗余布局中的角色,綜合評(píng)價(jià)硬盤潛在故障對(duì)系統(tǒng)(亦即數(shù)據(jù)——文件、對(duì)象)可靠性的影響(高低),作為預(yù)警處理的量化依據(jù)。
隨著計(jì)算機(jī)技術(shù)以及信息技術(shù)的快速發(fā)展,數(shù)據(jù)中心的數(shù)據(jù)越來(lái)越多,因此帶來(lái)存儲(chǔ)系統(tǒng)可靠性和可用性的巨大挑戰(zhàn)。為了構(gòu)建高可靠和高可用的存儲(chǔ)系統(tǒng),系統(tǒng)設(shè)計(jì)者以及存儲(chǔ)領(lǐng)域研究者越來(lái)越關(guān)注存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)研究。本文從存儲(chǔ)介質(zhì)和存儲(chǔ)系統(tǒng)兩種不同預(yù)測(cè)對(duì)象角度,介紹了可靠性預(yù)測(cè)的度量指標(biāo)以及當(dāng)前研究的進(jìn)展,并根據(jù)目前該領(lǐng)域存在的一些問(wèn)題指出未來(lái)研究的方向。
[1]Luo Xianghong,Shu Jiwu.Summary of research for erasure code in storage system[J].Journal of Computer Research and Development,2012,49(1):1-11.
[2]Murray J F,Hughes G F,Kreutz-Delgado K.Machine learning methods for predicting failures in hard drives:a multipleinstance application[J].Journal of Machine Learning Research,2005,6(1):783-816.
[3]Schroeder B,Gibson G A.Disk failures in the real world: what does an MTTF of 1,000,000 hours mean to you?[C]// Proceedings of the 5th USENIX Conference on File and Storage Technologies,San Jose,USA,Feb 13-16,2007.Berkeley,USA:USENIXAssociation,2007:1-16.
[4]Hamerly G,Elkan C.Bayesian approaches to failure prediction for disk drives[C]//Proceedings of the 18th International Conference on Machine Learning,Williamstown,USA,Jun 28-Jul 1,2001.San Mateo,USA:Morgan Kaufmann,2001: 202-209.
[5]Hughes G F,Murray J F,Kreutz-Delgado K,et al.Improved disk-drive failure warnings[J].IEEE Transactions on Reliability,2002,51(3):350-357.
[6]Murray J F,Hughes G F,Kreutz-Delgado K.Hard drive failure prediction using non-parametric statistical methods[C]// Proceedings of the 2003 International Conference of Artificial Neural Networks and Neural Information,Istanbul,Turkey,Jun 26-29,2003.Berlin,Heidelberg:Springer,2003.
[7]Zhao Ying,Liu Xiang,Gan Siqing,et al.Predicting disk failures with HMM-and HSMM-based approaches[M]//Advances in Data Mining Applications and Theoretical Aspects.Berlin,Heidelberg:Springer,2010:390-404.
[8]Wang Yu,Miao Qiang,Pecht M.Health monitoring of hard disk drive based on Mahalanobis distance[C]//Proceedings of the 2011 Prognostics and System Health Management Conference,Shenzhen,China,May 24-25,2011.Washington:IEEE Computer Society,2011:1-8.
[9]Wang Yu,Miao Qiang,Ma E W M,et al.Online anomaly detection for hard disk drives based on Mahalanobis distance[J].IEEE Transactions on Reliability,2013,62(1): 136-145.
[10]Zhu Bingpeng,Wang Gang,Liu Xiaoguang,et al.Proactive drive failure prediction for large scale storage systems[C]// Proceedings of the 29th IEEE Symposium on Mass Storage Systems and Technologies,Lake Arrowhead,USA,May 6-10,2013.Washington:IEEE Computer Society,2013:1-5.
[11]Li Jing,Ji Xinpu,Jia Yuhan,et al.Hard drive failure prediction using cassification and regression trees[C]//Proceedings of the 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks,Atlanta,USA, Jun 23-26,2014.Washington:IEEE Computer Society, 2014:383-394.
[12]Xu Chang,Wang Gang,Liu Xiaoguang,et al.Health status assessment and failure prediction for hard drives with recurrent neural networks[J].IEEE Transactions on Computers, 2016,65(11):3502-3508.
[13]Pang Shuai,Jia Yuhan,Stones R,et al.A combined Bayesian network method for predicting drive failure times from SMART attributes[C]//Proceedings of the 2016 International Joint Conference on Neural Networks,Vancouver,Canada, Jul 24-29,2016.Piscataway,USA:IEEE,2016:4850-4856.
[14]Vishwanath K V,Nagappan N.Characterizing cloud computing hardware reliability[C]//Proceedings of the 1st ACM Symposium on Cloud Computing,Indianapolis,USA,Jun 10-11,2010.New York:ACM,2010:193-204.
[15]Sankar S,Shaw M,Vaid K.Impact of temperature on hard disk drive reliability in large datacenters[C]//Proceedings of the 41st International Conference on Dependable Systems &Networks,Hong Kong,China,Jun 27-30,2011.Washington:IEEE Computer Society,2011:530-537.
[16]Gibson G A.Redundant disk arrays:reliable,parallel secondary storage[M].Cambridge,USA:MTT Press,1992.
[17]Ma Ao,Douglis F,Lu Guanlin,et al.RAIDShield:characterizing,monitoring,and proactively protecting against disk failures[C]//Proceedings of the 13th USENIX Conference on File and Storage Technologies,Santa Clara,USA,Feb 16-19, 2015.Berkeley,USA:USENIXAssociation,2015:241-256.
[18]Bairavasundaram L N,Goodson G R,Pasupathy S,et al. An analysis of latent sector errors in disk drives[J].ACMSIGMETRICS Performance Evaluation Review,2007,35 (1):289-300.
[19]Bairavasundaram L N,Arpaci-Dusseau A C,Arpaci-Dusseau R H,et al.An analysis of data corruption in the storage stack [J].ACM Transactions on Storage,2008,4(3):1-28.
[20]Shah S,Elerath J G.Reliability analysis of disk drive failure mechanisms[C]//Proceedings of the 2005 Annual Symposium on Reliability and Maintainability,Jan 24-27,2005. Piscataway,USA:IEEE,2005:226-231.
[21]Pinheiro E,Weber W D,Barroso L A.Failure trends in a large disk drive population[C]//Proceedings of the 5th USENIX Conference on File and Storage Technologies, San Jose,USA,Feb 13-16,2007.Berkeley,USA:USENIX Association,2007:17-29.
[22]El-Sayed N,Stefanovici I A,Amvrosiadis G,et al.Temperature management in data centers:why some(might)like it hot[J].ACM SIGMETRICS Performance Evaluation Review,2012,40(1):163-174.
[23]Gibson G A,Patterson D A.Designing disk arrays for high data reliability[J].Journal of Parallel and Distributed Computing,1993,17(1):4-27.
[24]Zhang Hongcan,Xue Wei.Reliability analysis of cluster RAID5 storage system[J].Journal of Computer Research and Development,2010,47(4):727-735.
[25]Venkatesan V,Iliadis I.Effect of latent errors on the reliability of data storage systems[C]//Proceedings of the 21st International Symposium on Modeling,Analysis&Simulation of Computer and Telecommunication Systems,San Francisco, USA,Aug 14-16,2013.Washington:IEEE Computer Society,2013:293-297.
[26]Hafner J L,Rao K K.Notes on reliability models for non-MDS erasure codes,RJ10391[R].IBM Research,2006.
[27]Dholakia A,Eleftheriou E,Hu Xiaoyu,et al.A new intradisk redundancy scheme for high-reliability RAID storage systems in the presence of unrecoverable errors[J].ACM Transactions on Storage,2008,4(1):373-374.
[28]Iliadis I,Hu Xiaoyu.Reliability assurance of RAID storage systems for a wide range of latent sector errors[C]//Proceedings of the 2008 International Conference on Networking, Architecture,and Storage,Chongqing,China,Jun 12-14, 2008.Washington:IEEE Computer Society,2008:10-19.
[29]Thomasian A,Blaum M.Higher reliability redundant disk arrays:organization,operation,and coding[J].ACM Transactions on Storage,2009,5(3):7.
[30]Paris J F,Schwarz S J,Amer A,et al.Improving disk array reliability through expedited scrubbing[C]//Proceedings of the 5th International Conference on Networking,Architecture and Storage,Macau,China,Jul 15-17,2010.Washington:IEEE Computer Society,2010:119-125.
[31]Thomasian A,Blaum M.Mirrored disk organization reliability analysis[J].IEEE Transactions on Computers,2006, 55(12):1640-1644.
[32]Paris J F,Thomas J E,Schwarz S J.On the possibility of small,service-free disk based storage systems[C]//Proceedings of the 3rd International Conference on Availability, Reliability and Security,Barcelona,Spain,Mar 4-7,2008. Washington:IEEE Computer Society,2008:56-63.
[33]Paris J F,Schwarz T J E,Long D D E,et al.When MTTDLs are not good enough:providing better estimates of disk array reliability[C]//Proceedings of the 7th International Information and Telecommunication Technologies Symposium,Bahia,Brazil,Dec 26-30,2008.Piscataway,USA:IEEE, 2008:140-145.
[34]Elerath J G,Pecht M.Enhanced reliability modeling of RAID storage systems[C]//Proceedings of the 37th Annual IEEE/ IFIP International Conference on Dependable Systems and Networks,Edinburgh,UK,Jun 25-28,2007.Washington: IEEE Computer Society,2007:175-184.
[35]Elerath J G.A simple equation for estimating reliability of anN+1 redundant array of independent disks(RAID)[C]// Proceedings of the 2009 IEEE/IFIP International Conference on Dependable Systems&Networks,Lisbon,Portugal,Jun 29-Jul 2,2009.Washington:IEEE Computer Society,2009:484-493.
[36]Elerath J G,Schindler J.Beyond MTTDL:a closed-form RAID 6 reliability equation[J].ACM Transactions on Storage,2014,10(2):193-206.
[37]Iliadis I,Venkatesan V.Rebuttal to“beyond MTTDL:aclosedform RAID-6 reliability equation”[J].ACM Transactions on Storage,2015,11(2):1-10.
[38]Greenan K M,Miller E L,Wylie J J.Reliability of flat XOR-based erasure codes on heterogeneous devices[C]// Proceedings of the 2008 IEEE International Conference on Dependable Systems and Networks,Anchorage,USA,Jun 24-27,2008.Washington:IEEE Computer Society,2008: 147-156.
[39]Greenan K M,Plank J S,Wylie J J.Mean time to meaningless:MTTDL,Markov models,and storage system reliability [C]//Proceedings of the 2nd USENIX Workshop on Hot Topics in Storage and File Systems,Boston,USA,Jun 22-25,2010.Berkeley,USA:USENIXAssociation,2010:5.
[40]Qin Xin,Miller E L,Schwarz T,et al.Reliability mechanisms for very large storage systems[C]//Proceedings of the 20th IEEE/11th NASA Goddard Conference on Mass Storage Systems and Technologies,San Diego,USA,Apr 7-10, 2003.Washington:IEEE Computer Society,2003:146-156.
[41]Rao K K,Hafner J L,Golding R.Reliability for networked storage nodes[C]//Proceedings of the 2006 International Conference on Dependable Systems and Networks,Sheraton Society Hill,USA,Jun 25-28,2006.Washington:IEEE Computer Society,2006:237-248.
[42]Chen Ming,Chen Wei,Liu Likun,et al.An analytical framework and its applications for studying brick storage reliability[C]//Proceedings of the 26th IEEE International Symposium on Reliable Distributed Systems,Beijing,Oct 10-12,2007.Washington:IEEE Computer Society,2007: 242-252.
[43]Mu Fei,Xue Wei,Shu Jiwu,et al.An analytical model for large-scale storage system with replicated data[J].Journal of Computer Research and Development,2009,46(5):756-761.
[44]Zhang Wei,Ma Jianfeng,Yang Xiaoyuan.Reliability of distributed storage systems[J].Journal of Xidian University, 2009,36(3):480-485.
[45]Zhang Linfeng,Tan Xiangjian,Du Kai.Optimal reliability analysis for large scale storage systems[J].Computer Engineering andApplications,2013,49(1):112-119.
[46]Leslie M,Davies J,Huffman T.A comparison of replication strategies for reliable decentralised storage[J].Journal of Networks,2006,1(6):36-44.
[47]Venkatesan V,Iliadis I,Fragouli C,et al.Reliability of clustered vs.declustered replica placement in data storage systems[C]//Proceedings of the 19th International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems,Singapore,Jul 25-27,2011. Washington:IEEE Computer Society,2011:307-317.
[48]Cidon A,Rumble S M,Stutsman R,et al.Copysets:reducing the frequency of data loss in cloud storage[C]//Proceedings of the USENIX Annual Technical Conference,San Jose, USA,Jun 26-28,2013.Berkeley,USA:USENIX Association,2013:37-48.
[49]Qin Xin,Schwarz T J E,Miller E L.Disk infant mortality in large storage systems[C]//Proceedings of the 13th IEEE International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems,Atlanta,USA,Sep 27-29,2005.Washington:IEEE Computer Society,2005:125-134.
[50]Venkatesan V,Iliadis I.A general reliability model for data storage systems[C]//Proceedings of the 9th International Conference on Quantitative Evaluation of Systems,London,Sep 17-20,2012.Washington:IEEE Computer Society,2012:209-219.
[51]Schwarz T J E,Qin Xin,Miller E L,et al.Disk scrubbing in large archival storage systems[C]//Proceedings of the 12th Annual International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunications Systems,Volendam,The Netherlands,Oct 4-8,2004.Washington:IEEE Computer Society,2004:409-418.
[52]Paris J F,Schwarz S J,Amer A,et al.Highly reliable twodimensional RAID arrays for archival storage[C]//Proceedings of the 31st International Performance Computing and Communications Conference,Austin,USA,Dec 1-3,2012. Washington:IEEE Computer Society,2012:324-331.
[53]Li Yan,Miller E L,Long D D E.Understanding data survivability in archival storage systems[C]//Proceedings of the 5th Annual International Systems and Storage Conference, Haifa,Israel,Jun 4-6,2012.New York:ACM,2012:1-12.
[54]Bhagwat D,Pollack K,Long D D E,et al.Providing high reliability in a minimum redundancy archival storage system[C]//Proceedings of the 14th IEEE International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems,Monterey,USA,Sep 11-14, 2006.Washington:IEEE Computer Society,2006:413-421.
[55]Li Xiaozhou,Lillibridge M,Uysal M.Reliability analysis of deduplicated and erasure-coded storage[J].ACM SIGMETRICS Performance Evaluation Review,2011,38(3):4-9.
[56]Rozier E W D,Sanders W H,Zhou P,et al.Modeling the fault tolerance consequences of deduplication[C]//Proceedings of the 30th IEEE Symposium on Reliable Distributed Systems,Madrid,Spain,Oct 4-7,2011.Washington:IEEE Computer Society,2011:75-84.
[57]Rozier E W D,Sanders W H.A framework for efficient evaluation of the fault tolerance of deduplicated storage sys-tems[C]//Proceedings of the 42nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks, Boston,USA,Jun 25-28,2012.Washington:IEEE Computer Society,2012:1-12.
[58]Eckart B,Chen Xin,He Xubin,et al.Failure prediction models for proactive fault tolerance within storage systems [C]//Proceedings of the 2008 IEEE International Symposium on Modeling,Analysis and Simulation of Computers and Telecommunication Systems,Baltimore,USA,Sep 8-10,2008.Washington:IEEE Computer Society,2008:1-8.
[59]Li Jing,Li Mingze,Wang Gang,et al.Global reliability evaluation for cloud storage systems with proactive fault tolerance[C]//LNCS 9531:Proceedings of the 15th International Conference on Algorithms and Architectures for Parallel Processing,Zhangjiajie,China,Nov 18-20,2015.Berlin,Heidelberg:Springer,2015:189-203.
附中文參考文獻(xiàn):
[1]羅象宏,舒繼武.存儲(chǔ)系統(tǒng)中的糾刪碼研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2012,49(1):1-11.
[24]章宏?duì)N,薛巍.集群RAID5存儲(chǔ)系統(tǒng)可靠性分析[J].計(jì)算機(jī)研究與發(fā)展,2010,47(4):727-735.
[43]穆飛,薛巍,舒繼武,等.一種面向大規(guī)模副本存儲(chǔ)系統(tǒng)的可靠性模型[J].計(jì)算機(jī)研究與發(fā)展,2009,46(5):756-761.
[44]張薇,馬建峰,楊曉元.分布式存儲(chǔ)系統(tǒng)的可靠性研究[J].西安電子科技大學(xué)學(xué)報(bào),2009,36(3):480-485.
[45]張林峰,譚湘鍵,杜凱.大規(guī)模存儲(chǔ)系統(tǒng)可靠性參數(shù)最優(yōu)化分析[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(1):112-119.
LI Jing was born in 1982.She received the Ph.D.degree from College of Computer and Control Engineering,Nankai University in 2016.Now she is a lecturer at Civil Aviation University of China.Her research interests include mass data storage and machine learning,etc.
李靜(1982—),女,山東德州人,2016年于南開大學(xué)計(jì)算機(jī)與控制工程學(xué)院獲得博士學(xué)位,現(xiàn)為中國(guó)民航大學(xué)講師,主要研究領(lǐng)域?yàn)榇笠?guī)模數(shù)據(jù)存儲(chǔ),機(jī)器學(xué)習(xí)等。
WANG Gang was born in 1974.He received the Ph.D.degree in computer science from Nankai University in 2002. Now he is a professor and Ph.D.supervisor at Nankai University,and the member of CCF.His research interests include storage systems and parallel computing,etc.
王剛(1974—),男,北京人,2002年于南開大學(xué)獲得博士學(xué)位,現(xiàn)為南開大學(xué)教授、博士生導(dǎo)師,CCF會(huì)員,主要研究領(lǐng)域?yàn)榇鎯?chǔ)系統(tǒng),并行計(jì)算等。
LIU Xiaoguang was born in 1974.He received the Ph.D.degree in computer science from Nankai University in 2002.Now he is a professor and Ph.D.supervisor at Nankai University,and the senior member of CCF.His research interests include parallel computing and storage systems,etc.
劉曉光(1974—),男,河北人,2002年于南開大學(xué)獲得博士學(xué)位,現(xiàn)為南開大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)椴⑿杏?jì)算,存儲(chǔ)系統(tǒng)等。
LI Zhongwei was born in 1975.He received the Ph.D.degree in computer science and technology from Harbin Engineering University in 2006.Now he is an associate professor and M.S.supervisor at Nankai University,and the member of CCF.His research interests include machine learning and mass data storage,etc.
李忠偉(1975—),男,甘肅人,2006年于哈爾濱工程大學(xué)獲得博士學(xué)位,現(xiàn)為南開大學(xué)副教授、碩士生導(dǎo)師, CCF會(huì)員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),大規(guī)模數(shù)據(jù)存儲(chǔ)等。
Review of Reliability Prediction for Storage System*
LI Jing1,2,WANG Gang2,LIU Xiaoguang2,LI Zhongwei2+
1.College of Computer Science and Technology,CivilAviation University of China,Tianjin 300300,China
2.College of Computer and Control Engineering,Nankai University,Tianjin 300350,China
+Corresponding author:E-mail:lizhongwei@nbjl.nankai.edu.cn
The reliability prediction for storage system,which is useful to assess trade-offs,compare schemes and estimate the effect of several parameters on storage system reliability,can help system designers and administrators to build storage systems with high reliability.So the research on reliability prediction is always one of the research focuses in storage system.This paper makes careful introduction and analysis in the field of reliability prediction for storage system,respectively from two prediction objects—disk and storage system.Firstly,this paper carefully analyzes the current development status of storage system reliability prediction,from the perspectives of two objects—disk individual and disk family,two fault tolerant manners—proactive fault tolerant scheme and reactive fault tolerant scheme,and two redundant mechanisms—erasure code and replication.Then,this paper indicates the unresolved problems and the future trend in this field.From the analysis,this paper finds there are some weaknesses and drawbacks on the reliability prediction for replication storage and proactive fault tolerant systems,and they are the issues needing further study.
10.3778/j.issn.1673-9418.1604049
A
:TP301
*The National Natural Science Foundation of China under Grant Nos.61373018,11301288,11450110409(國(guó)家自然科學(xué)基金);the New Century Excellent Talent Foundation from MOE of China under Grant No.NCET-13-0301(教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃);the Fundamental Research Funds for the Central Universities of China under Grant No.65141021(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金).
Received 2016-04,Accepted 2016-07.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-07-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160701.1646.010.html
LI Jing,WANG Gang,LIU Xiaoguang,et al.Review of reliability prediction for storage system.Journal of Frontiers of Computer Science and Technology,2017,11(3):341-354.
Key words:storage system;reliability prediction;proactive fault tolerant;reactive fault tolerant