基于“采集—預(yù)測—遷移—反饋”機制的主動容錯技術(shù)

2020-02-19 03:55:08楊洪章楊雅輝屠要峰孫廣宇吳中海

計算機研究與發(fā)展 2020年2期

楊洪章楊雅輝屠要峰孫廣宇吳中海

1(北京大學軟件與微電子學院北京 102600)2(中興通訊股份有限公司廣東深圳 518057)3(北京大學信息科學技術(shù)學院北京 100871)

1 概述

1.1 硬盤故障頻發(fā)并帶來災(zāi)難性后果

據(jù)國際數(shù)據(jù)公司(International Data Corpora-tion， IDC)發(fā)布的《數(shù)據(jù)時代2025》白皮書[1]，到2025年全球數(shù)據(jù)量將會達到175 ZB，如果以12 TB容量的硬盤來計算，大約需要170億塊.而硬盤的年故障率在1%左右[2]，因此全球每年將有數(shù)以億計的故障硬盤出現(xiàn).對于一個PB級規(guī)模的數(shù)據(jù)中心，硬盤故障每天都在發(fā)生[3].不可否認的是，硬盤故障已經(jīng)成為數(shù)據(jù)中心最主要的故障來源[4].硬盤故障會直接導致災(zāi)難性后果，如數(shù)據(jù)丟失、業(yè)務(wù)中斷等，這無疑嚴重影響了數(shù)據(jù)的可靠性.

1.2 重新審視硬盤故障

正如人類個體在一生中經(jīng)歷的“生老病死”，硬盤個體也在經(jīng)歷著“健康態(tài)、亞健康態(tài)、瀕臨故障態(tài)、故障態(tài)”的必然性周期，這是因為隨著時間的流逝，硬件各部件的老化、磨損等原因?qū)е碌慕Y(jié)果.并且，與人類因先天生理缺陷導致的新生兒夭折，以及諸如車禍、地震、災(zāi)害、動物襲擊等意外造成的偶發(fā)性死亡類似，硬盤也存在因出廠缺陷和意外故障(如甲醛、震動、電壓突變、空氣濕度過大、運維人員操作不當?shù)?而造成的偶發(fā)性故障.

顯然硬盤的必然性故障具有一定時間的瀕臨故障窗口期，是具備預(yù)測的可能性的.如果在瀕臨故障窗口期內(nèi)及時將數(shù)據(jù)遷移，則可避免系統(tǒng)降級服務(wù).而硬盤的偶發(fā)性故障往往是突發(fā)的，幾乎不存在瀕臨故障窗口期，因此不具備預(yù)測的可能性，或需要相當大的代價去預(yù)測，但故障不可避免地迅速發(fā)生，數(shù)據(jù)根本來不及遷移，這樣的預(yù)測也沒有意義.

1.3 傳統(tǒng)被動容錯存在缺陷

傳統(tǒng)的數(shù)據(jù)容錯技術(shù)一般都是通過增加數(shù)據(jù)冗余來實現(xiàn)的[5]，主要有副本[6-7]、糾刪碼[8-9]、備份快照[10-11]等.這些技術(shù)都是在硬盤故障發(fā)生后，通過冗余滿足讀寫訪問和數(shù)據(jù)恢復(fù)，是被動式的處理手段.其缺陷體現(xiàn)在2方面：

1) 硬盤容量、恢復(fù)速度、讀寫服務(wù)之間存在矛盾.在數(shù)據(jù)恢復(fù)過程中，系統(tǒng)資源不可避免地被數(shù)據(jù)恢復(fù)占用，系統(tǒng)立即降級服務(wù).因此，系統(tǒng)面臨兩難選擇——如果數(shù)據(jù)恢復(fù)過快，系統(tǒng)正常讀寫受到嚴重干擾；如果數(shù)據(jù)恢復(fù)過慢，再出現(xiàn)新的故障盤將有可能引發(fā)數(shù)據(jù)永久丟失.并且，大容量硬盤的恢復(fù)需要更多的時間，進一步加深了上述矛盾.

2) 成本、性能、可靠性之間存在矛盾.副本技術(shù)雖然可以保證性能，但是存儲空間利用率僅為1n(其中n為副本個數(shù))，由此帶來成本上漲問題.糾刪碼技術(shù)在每一次讀寫操作時額外增加了計算量，對性能產(chǎn)生負面影響，但是存儲空間利用率較副本技術(shù)有了大幅提升.備份及快照技術(shù)可以保證性能，也不占用過多的額外存儲空間，但是備份及快照時間節(jié)點之后的數(shù)據(jù)卻無法保護.

1.4 新型主動容錯成為研究熱點

隨著智能運維[12]的不斷發(fā)展，通過采集硬盤SMART(self-monitoring analysis and reporting technology)指標，結(jié)合機器學習算法來預(yù)測硬盤故障，從而提前將數(shù)據(jù)遷移的主動容錯技術(shù)[13]成為新的研究熱點.一些國內(nèi)外的研究成果[14-21]對單一品牌型號的硬盤預(yù)測其故障的準確率達到85%以上.

主動容錯的好處不言而喻：1)在硬盤故障之前準確預(yù)測并將數(shù)據(jù)遷移到其他硬盤，避免了系統(tǒng)降級服務(wù)，提升了系統(tǒng)的可靠性.2)能夠有效指導硬盤采購規(guī)劃，克服了傳統(tǒng)被動容錯在故障發(fā)生后才去采購硬盤的缺陷.3)減少了運維人員的干預(yù)，被動容錯需要運維人員的臨場判斷和快速響應(yīng)，而主動容錯在預(yù)測和處理過程中充分發(fā)揮了機器的優(yōu)勢.4)準確性高，傳統(tǒng)被動容錯依賴運維人員的經(jīng)驗來對硬盤故障進行手工檢測，費時費力且誤判率高.

雖然主動容錯的現(xiàn)有技術(shù)在實驗原型系統(tǒng)中取得了令人驚嘆的故障預(yù)測準確率，但是在真實的業(yè)務(wù)場景中仍然問題百出、難以商用.其主要體現(xiàn)在：

1) 大規(guī)模SMART采集引發(fā)的災(zāi)難問題亟待解決.以固定周期對全體硬盤采集SMART時不可避免地占用系統(tǒng)資源.經(jīng)測試，在1萬塊硬盤的情況下，并行采集過程需經(jīng)過6 s以上，期間系統(tǒng)幾乎無法響應(yīng)任何正常讀寫操作，且經(jīng)常出現(xiàn)卡死的情況.因此，在大規(guī)模數(shù)據(jù)中心一次性采集全體硬盤SMART的方式迫切地需要改進.

2) 針對SAS(serial attached small computer system interface)硬盤和固態(tài)硬盤(solid state disk, SSD)的故障預(yù)測的空白亟待填補.現(xiàn)有文獻均僅針對SATA(serial advanced technology attachment)硬盤建立預(yù)測模型，而在實際的數(shù)據(jù)中心，SAS硬盤和固態(tài)硬盤的數(shù)量十分龐大.直接將SATA硬盤的預(yù)測模型套用在SAS硬盤和固態(tài)硬盤是不可行的，這是因為它們的SMART 差別巨大.此外，開源采集工具smartmontools直到版本6.0和6.1才陸續(xù)支持了在Windows操作系統(tǒng)和Linux操作系統(tǒng)中對SAS硬盤的SMART采集，直接導致對SAS硬盤的SMART采集年限短、積累的故障樣本少.固態(tài)硬盤作為電子式的存儲器件，相較于機械硬盤，其年故障率低[22-23]，且大規(guī)模應(yīng)用的年限遠短于SATA硬盤和SAS硬盤，固態(tài)硬盤同樣存在故障數(shù)量少的問題.因此迫切的需要專門對SAS硬盤和固態(tài)硬盤的故障進行建模預(yù)測，如此才能完整地預(yù)測數(shù)據(jù)中心的全體硬盤故障.

3) 正負樣本嚴重不均的難題亟待解決.現(xiàn)階段阻礙硬盤故障研究的最大問題是故障盤數(shù)量少、健康盤數(shù)量多、正負樣本嚴重不均衡.現(xiàn)有的技術(shù)文獻往往通過SMOTE(synthetic minority over-sampling technique)算法[24]來人工合成若干正樣本，以緩解該問題，但是缺點在于易產(chǎn)生模型過擬合的問題.因此迫切地需要提出新的上采樣方法，在不引起過擬合的前提下增加數(shù)倍的正樣本，從而徹底解決該難題.

4) 難以快速數(shù)據(jù)修復(fù)的問題亟待解決.現(xiàn)有技術(shù)讓瀕臨故障盤完全獨立地承擔數(shù)據(jù)修復(fù)，短時間內(nèi)連續(xù)集中的數(shù)據(jù)訪問會加速故障的發(fā)生，并且重構(gòu)時間窗口過長，因此迫切地需要提出多盤聯(lián)合修復(fù)，以加快數(shù)據(jù)修復(fù).

5) 預(yù)測結(jié)果的驗證與反饋機制亟待建立.預(yù)測錯誤包括故障盤的誤判、漏判、遲判.誤判會浪費硬盤生命周期.漏判和遲判會使得系統(tǒng)進入降級狀態(tài)，需要依賴傳統(tǒng)被動容錯保障可靠性.通過算法優(yōu)化能在一定程度上減少預(yù)測錯誤，但無法完全做到100%避免誤判，在出現(xiàn)預(yù)測錯誤時，現(xiàn)有技術(shù)往往通過更新預(yù)測模型的方式進行矯正，然而這種方式存在時間滯后性，因此迫切需要更加靈活的反饋機制.

1.5 本文的主要貢獻

為了克服現(xiàn)有主動容錯技術(shù)的上述缺陷，本文提出了一系列的關(guān)鍵技術(shù)，涵蓋“采集—預(yù)測—遷移—反饋”的全周期主動容錯，包括：1)提出分時硬盤信息采集方法，解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問題;2)提出滑動窗口記錄合并及樣本構(gòu)建方法，填補了針對SAS硬盤和固態(tài)硬盤故障預(yù)測的空白;3)提出多類型硬盤故障預(yù)測方法，攻克了正負樣本嚴重不均的難題;4)提出多盤聯(lián)合數(shù)據(jù)遷移方法，加快了數(shù)據(jù)的修復(fù)速度;5)提出預(yù)測結(jié)果二級驗證及快速反饋方法，靈活并快速地處理了預(yù)測錯誤.

2 相關(guān)研究

基于硬盤故障預(yù)測和數(shù)據(jù)遷移的主動容錯技術(shù)受到了學術(shù)界的持續(xù)關(guān)注，國內(nèi)外的研究人員從不同角度相繼提出了一些方案.

關(guān)于硬盤故障預(yù)測準確性提升：Pitakrat等人[14]僅選取硬盤SMART作為狀態(tài)特征數(shù)據(jù)，測試了21種不同的分類算法，其中NNC，RF，C4.5，REPTree，RIPPER，PART，K-Star，SVM等算法可將故障預(yù)測的準確性達到90%以上；Zhu等人[15]使用了SMRAT相關(guān)項在最近一段時間的變化值作為特征數(shù)據(jù)輸入，采用 SVM 作為分類算法建立預(yù)測模型，故障預(yù)測的準確性達到最高95%；Li等人[16]提出了基于決策樹的預(yù)測模型，能達到 95%以上的準確率，并且能夠提前一周預(yù)測出故障，決策規(guī)則清晰地解釋了SMART屬性值與故障之間的關(guān)系，為采取措施并減少故障提供依據(jù)；柳永康[17]提出二級預(yù)測方法，在預(yù)測磁盤是否即將要故障的基礎(chǔ)上，進一步預(yù)測磁盤故障的發(fā)生時間范圍，使用邏輯回歸算法，在提前5天預(yù)測的情況下，預(yù)測準確率最高達85.01%.

關(guān)于硬盤故障模型架構(gòu)：Xiao等人[18]提出一種基于在線隨機森林的硬盤故障預(yù)測模型架構(gòu)，解決了離線訓練和模型老化的問題，故障預(yù)測準確率達到93%～99%.Xie等人[19]提出一種基于一對多建模的硬盤故障預(yù)測模型OME(optimized modeling engine)，準確率總體比以前的工作高出18.5%.

關(guān)于數(shù)據(jù)提前修復(fù)：Ji等人[20]在預(yù)測到硬盤將要發(fā)生故障的情況下，主動將該硬盤上的數(shù)據(jù)遷移到健康盤，但限制數(shù)據(jù)遷移的速率，從而在硬盤故障發(fā)生時難以完成全部的數(shù)據(jù)遷移，仍舊需要依靠傳統(tǒng)被動容錯；Qin等人[21]提出了Fatman系統(tǒng)，對冷、熱數(shù)據(jù)分別使用RS(Reed Solomon)碼和副本機制，對于將要發(fā)生故障的硬盤提前進行數(shù)據(jù)遷移，在故障發(fā)生以后，熱數(shù)據(jù)可以通過其他副本來提供服務(wù)，而冷數(shù)據(jù)需要重構(gòu)丟失的數(shù)據(jù)，這樣可減少76.3%的重構(gòu)開銷.

綜上所述，現(xiàn)有研究工作主要關(guān)注提升SATA硬盤的故障預(yù)測準確率，忽略了針對SAS硬盤和固態(tài)硬盤的預(yù)測，并且對采集、遷移、反饋的研究較少，難以形成一個完整的主動容錯技術(shù)方案.

3 主動容錯技術(shù)

本節(jié)圍繞中興通訊承建并運營的國內(nèi)華南某數(shù)據(jù)中心的硬盤情況進行分析研究，提出完整的主動容錯機制，涵蓋采集、預(yù)測、遷移、反饋等各個環(huán)節(jié).該數(shù)據(jù)中心共有129 887塊硬盤，在2018年共出現(xiàn)1995塊故障盤，其品牌、類型的情況如表1所示，Htrue為實際健康盤的數(shù)量，F(xiàn)true為實際故障盤的數(shù)量.

Table 1 Hard Disk Situation in Data Center表1 本文研究數(shù)據(jù)中心的硬盤情況

Note:Htruestands for the truly healthy disk;Ftruestands for the truly failed disk.

3.1 分時硬盤信息采集方法

硬盤在故障前必然存在一系列的內(nèi)外部征兆，現(xiàn)有文獻過多地關(guān)注以SMART為代表的內(nèi)部征兆，而對硬盤IO情況、CPU使用率、內(nèi)存占用等外部征兆研究較少.處于亞健康和瀕臨故障的硬盤，其SMART情況不穩(wěn)定、時好時壞，一旦在采集的瞬間其恰巧處于健康狀態(tài)，這會直接導致誤判.在這種情況下，研究硬盤故障的外部征兆則是非常必要的補充，例如硬盤的IOPS和吞吐量很低，并且CPU使用量也很低但時延很高，這種情況同樣預(yù)示了硬盤即將故障.因此，本文采集硬盤的信息主要包括：硬盤SMART、硬盤IO情況、CPU使用率、內(nèi)存占用等.

在采集頻率上，現(xiàn)有的文獻均采用固定周期的采集方式，例如每天采集1次、每3 h采集1次等.誠然，采集越頻繁越有利于對故障的預(yù)測，能夠更加敏銳地捕捉到“震蕩”型的SMART表現(xiàn).然而考慮到采集硬盤信息對數(shù)據(jù)中心業(yè)務(wù)的必然影響，采集的頻率也不能過于頻繁.結(jié)合中興通訊數(shù)據(jù)中心視頻業(yè)務(wù)的特點，本文的采集方法為：1)考慮視頻業(yè)務(wù)高峰，原則上每個盤每小時采集1次，但關(guān)閉業(yè)務(wù)高峰時段(11∶30—13∶00，18∶00—23∶30)的采集.2)考慮視頻業(yè)務(wù)特點，電視節(jié)目多數(shù)以整點和半點作為切換點，因此每次采集時段為5～25 min，35～55 min.3)避免同時采集全體硬盤，應(yīng)以1 s為間隔，每次采集10塊盤.至此，以2～4 TB構(gòu)成的百PB級的數(shù)據(jù)中心，在1 h之內(nèi)可以采集完畢，且對業(yè)務(wù)影響降到最低.4)在業(yè)務(wù)低谷時段(2∶35—5∶25)更新模型、批量發(fā)送采集數(shù)據(jù)至計算節(jié)點.

由于采集間隔非固定，對硬盤的寫IO通過當前寫入速度描述，其計算公式為

(1)

其中，k表示第k次采集.讀IO的計算同理，此處不再贅述.

由于硬盤SMART 數(shù)據(jù)各數(shù)據(jù)項取值的規(guī)整方法不同，所以各數(shù)據(jù)項在數(shù)值上差異很大，如果按原值輸入作模型訓練時，數(shù)值較大的項會帶來較大影響，因為每個數(shù)據(jù)項其原始數(shù)值的取值規(guī)則不同，為了防止個別數(shù)據(jù)項對模型帶來較大偏差，因此進行歸一化處理，其計算公式為

(2)

3.2 滑動窗口記錄合并及樣本構(gòu)建

通過3.1節(jié)的采集方式，每天每塊硬盤采集16條記錄，經(jīng)過1年的采集，129 887塊硬盤中共出現(xiàn)故障盤1 995塊.健康盤與故障盤的比例約為64∶1，面對如此嚴重的不均衡，本文采用滑動窗口記錄合并及樣本構(gòu)建的方法解決該問題.

如圖1所示，對于故障盤，其在故障時刻前30天之內(nèi)的記錄作為故障記錄，每個記錄項按采樣時間先后進行排序，設(shè)定3天為時間窗口，截取時間窗口內(nèi)的48條記錄.時間窗口起始位置放在硬盤的故障時間上，然后時間窗向前滑動0.5天距離，即向前移動8條記錄，共滑動55次，直至時間窗口涵蓋故障前第30天的所有記錄.如圖2所示，對每次移動時間窗口所截取的記錄，以記錄項為單位對其計算平均值、方差、極差，從而將連續(xù)多個時間點的各記錄項信息合并為1條正樣本，將其計入訓練樣本集中.通過窗口的滑動，將構(gòu)建55倍于原始故障盤個數(shù)的正樣本數(shù).對于健康盤，則隨機選取連續(xù)3天的48條記錄，同樣針對每個記錄項計算平均值、方差、極差，作為負樣本計入訓練樣本集中.

Fig. 1 Sliding window record merging圖1 滑動窗口記錄合并

Fig. 2 Sample construction圖2 樣本構(gòu)建

通過滑動窗口記錄合并及樣本構(gòu)建方法，構(gòu)建出55倍故障盤的正樣本，相較于健康盤與故障盤之間64倍的比例差距，這幾乎填補了二者之間的鴻溝，正負樣本達到了相同的數(shù)量級.此外，在單條樣本中綜合體現(xiàn)多個時間點的硬盤狀態(tài)，不再孤立的審視單一時間點的硬盤狀態(tài)，能夠更加敏銳地發(fā)現(xiàn)并刻畫硬盤在故障前的各項指標的“陡增”、“陡減”、“震蕩”等狀態(tài)，從而為故障硬盤的判定提供了充分的依據(jù).

3.3 多類型硬盤故障預(yù)測

硬盤SMART是對硬盤各組件，如磁頭、馬達、盤片等部件的狀態(tài)進行分析監(jiān)控的技術(shù)，并非所有信息均與硬盤故障相關(guān)，圖3展現(xiàn)了4類典型的SMART信息在硬盤故障前的表現(xiàn)，分別是震蕩型、陡增型、陡減型以及平靜型，顯然平靜型的SMART是無助于區(qū)分硬盤是否將要故障的，因此需要特征篩選.

Fig. 3 Typical SMART information before disk failure圖3 典型的SMART信息在硬盤故障前的表現(xiàn)

本文研究的數(shù)據(jù)中心含有10種不同類型及品牌的硬盤，因不同型號的硬盤其采集到的SMART存在差異，甚至同一個ID的含義也可能不同，因此需針對每一種類型及品牌的硬盤分別進行建模.本文在特征篩選時，采用專家經(jīng)驗判斷、變化趨勢觀察、卡方檢驗、屬性方差、樹的特征選擇這5種方法，在3種以上方法出現(xiàn)的ID最終被選取.受篇幅限制，表2僅展現(xiàn)了3個典型的硬盤類型品牌用于預(yù)測建模的SMART選取情況.這些SMART與3.1節(jié)所述的外部征兆一起，用于建立故障預(yù)測模型.

Table 2 Selected SMART for Predicting Different Hard Disks表2 本文在不同類型硬盤選取的SMART指標

在算法方面，本文使用人工神經(jīng)網(wǎng)絡(luò)算法，設(shè)置神經(jīng)網(wǎng)絡(luò)隱含層個數(shù)為4個，每層的神經(jīng)元個數(shù)分別設(shè)為1 000，500，200，100，輸入層神經(jīng)元個數(shù)根據(jù)輸入數(shù)據(jù)特征維度確定，輸出層為3個，激活函數(shù)選擇tanh.為避免神經(jīng)網(wǎng)絡(luò)過擬合，將交叉熵代價函數(shù)和L2正則之和作為網(wǎng)絡(luò)的損失函數(shù).模型網(wǎng)絡(luò)的優(yōu)化算法使用了批量梯度下降法.事實上，本文在嘗試了10余種不同的算法及百余種不同的參數(shù)設(shè)置后，發(fā)現(xiàn)算法的優(yōu)劣對于硬盤故障預(yù)測的準確率影響微乎其微，而數(shù)據(jù)質(zhì)量高情形下對預(yù)測的準確性明顯優(yōu)于數(shù)據(jù)質(zhì)量低的情形，這充分說明了在硬盤故障預(yù)測的問題中數(shù)據(jù)質(zhì)量的重要性遠高于算法.

如圖4所示，在對10種硬盤接口、品牌分別進行建模后，多類型硬盤故障即具備上線運行的能力，在數(shù)據(jù)中心連續(xù)采集3天硬盤信息后，即可預(yù)測硬盤是否將要發(fā)生故障，首先根據(jù)硬盤類型選擇相應(yīng)的模型，隨后將連續(xù)48條樣本進行輸入，在超過36條樣本被判定為正樣本的情況下，該硬盤會被預(yù)測為瀕臨故障盤.在商用場景中，先引入初始模型，在系統(tǒng)的運行過程中定期進行模型更新和參數(shù)調(diào)節(jié).

Fig. 4 Failure prediction of multi-type hard disk圖4 多類型硬盤故障預(yù)測

3.4 多盤聯(lián)合數(shù)據(jù)遷移

主動容錯的最大價值是在預(yù)測到硬盤即將故障之時，利用該硬盤的剩余壽命把數(shù)據(jù)遷移到健康盤，從而避免進入降級模式，能夠同時保證高性能和高可靠.然而現(xiàn)有技術(shù)讓瀕臨故障盤獨立承擔數(shù)據(jù)修復(fù)，短時間內(nèi)連續(xù)集中的數(shù)據(jù)訪問會加速故障的發(fā)生，往往導致數(shù)據(jù)還未完全修復(fù)時故障就已發(fā)生，最終仍需依靠被動容錯方法.因此，在主動容錯技術(shù)中，恢復(fù)數(shù)據(jù)的任務(wù)不應(yīng)僅由瀕臨故障盤單獨承擔.

本節(jié)提出了多盤聯(lián)合數(shù)據(jù)遷移技術(shù)，基于糾刪碼系統(tǒng)，通過多盤聯(lián)合修復(fù)、拷貝與編解碼計算相結(jié)合的修復(fù)手段，加快了修復(fù)速度，有效避免系統(tǒng)進入降級狀態(tài)，同時均衡了網(wǎng)絡(luò)傳輸壓力.

多盤聯(lián)合數(shù)據(jù)修復(fù)的主要步驟包括：

1) 在硬盤A被預(yù)測為瀕臨故障后，立即啟動主動容錯數(shù)據(jù)修復(fù).

2) 確定參與共同修復(fù)的硬盤組，訪問系統(tǒng)元數(shù)據(jù)，遍歷硬盤A中的所有p個數(shù)據(jù)塊(strip)，讀取其所屬條帶(stripe)的硬盤編號，這些硬盤參與共同修復(fù)，稱之為硬盤組B.

3) 選擇空閑容量最大的健康硬盤作為修復(fù)目標盤，上述硬盤A和硬盤組B不得被選入，稱之為硬盤C.

4) 分別確定由硬盤A和硬盤組B負責修復(fù)的數(shù)據(jù)塊集合.假設(shè)共有p個數(shù)據(jù)塊待修復(fù)，為集合Q.由硬盤A承擔p×y個數(shù)據(jù)塊的修復(fù)，為集合T.由硬盤組B承擔剩余的p-p×y個數(shù)據(jù)塊的修復(fù)，為集合R.

5) 隨后同時進行硬盤A和硬盤組B的數(shù)據(jù)修復(fù)：通過拷貝的方法，將集合T中所有的數(shù)據(jù)塊由硬盤A修復(fù)到硬盤C；通過編解碼計算的方法，將集合R所有數(shù)據(jù)塊由硬盤組B修復(fù)到硬盤C.

6) 如果硬盤A修復(fù)完畢，硬盤組B仍有20%以上的數(shù)據(jù)塊尚未修復(fù)完成，則硬盤A接管部分硬盤組B的數(shù)據(jù)修復(fù)；反之亦然.

7) 如果硬盤A未修復(fù)完畢即發(fā)生故障，則系統(tǒng)進入降級模式，由硬盤組B承擔全部剩余修復(fù)任務(wù).

3.5 預(yù)測結(jié)果二級驗證及快速反饋

現(xiàn)有技術(shù)文獻缺乏對預(yù)測結(jié)果的進一步驗證，并且在出現(xiàn)誤判情況或主動修復(fù)策略不當時，無法及時改進，需要等待一定時間再將新采集的硬盤信息批量更新預(yù)測模型.因此本節(jié)提出預(yù)測結(jié)果二級驗證及快速反饋方法，其原理如圖5所示：

Fig. 5 Two-level verification and feedback圖5 二級驗證及反饋

對于被預(yù)測為故障的硬盤，立即進行主動修復(fù)：

1) 如果在修復(fù)過程中已出現(xiàn)故障，則系統(tǒng)降級服務(wù)，由健康盤完成剩余的所有修復(fù)工作，并且需調(diào)整故障閾值，后續(xù)應(yīng)盡早將該盤預(yù)測為故障盤；

2) 如果該盤的修復(fù)順利完成，但明顯快于或慢于協(xié)助其修復(fù)的其他健康盤的修復(fù)工作，則需調(diào)整修復(fù)策略，增大或減小由瀕臨故障盤承擔的修復(fù)數(shù)據(jù)比例；

3) 如果以上情況未出現(xiàn)，則對該盤進行破壞式寫入，直至該盤發(fā)生故障為止，或?qū)懭霑r間達剩余生命周期閾值z時為止.記錄寫入時間h.若h=z，則將其認定為誤判，反饋給訓練模型;若h>z4，則適當上調(diào)故障閾值x，并適當上調(diào)修復(fù)比例閾值y;若h

對于被預(yù)測為健康的硬盤，應(yīng)立即協(xié)助故障盤進行主動修復(fù)：

1) 如果在聯(lián)合修復(fù)過程中出現(xiàn)故障，則該盤被誤判為健康盤，需要樣本反轉(zhuǎn)為正樣本.

2) 如果修復(fù)順利完成，則持續(xù)觀察，如果在1個月之內(nèi)未出現(xiàn)故障，則預(yù)測正確，否則為預(yù)測錯誤.

在上述過程中，有3個重要閾值是反饋機制的重要組成部分，包括：

1) 故障閾值x，若同一塊硬盤的連續(xù)多條樣本健康度低于x，則認為該硬盤為瀕臨故障盤.

2) 修復(fù)比例閾值y，由瀕臨故障盤承擔的數(shù)據(jù)修復(fù)比例y，由其他健康盤承擔的數(shù)據(jù)修復(fù)比例為1-y.該值的最理想情況是，由瀕臨故障盤的數(shù)據(jù)修復(fù)時間恰好等于其他健康盤承擔的數(shù)據(jù)修復(fù)時間.一次主動數(shù)據(jù)修復(fù)由該2種修復(fù)同時進行，顯然，主動數(shù)據(jù)修復(fù)的時間等于用時較大者的時間.

3) 剩余生命周期閾值z，在主動數(shù)據(jù)修復(fù)之后，硬盤剩余生命周期越小越理想，最理想的情況是修復(fù)完畢時該盤恰好故障.若剩余生命周期大于該閾值z，則適當調(diào)節(jié)x和y.

通過二次驗證及快速反饋方法，針對不合理的主動修復(fù)策略和不及時的故障預(yù)測，能夠及時調(diào)整參數(shù)，在避免系統(tǒng)降級的前提下，能夠精準利用瀕臨故障硬盤的剩余生命周期；針對錯誤的預(yù)測，能夠快速甄別，及時反轉(zhuǎn)正負樣本標記，為模型更新提供準確的依據(jù).

3.6 本節(jié)小結(jié)

主動容錯技術(shù)框架如圖6所示.通過分時硬盤信息采集方法、滑動窗口記錄合并及樣本構(gòu)建方法、多類型硬盤故障預(yù)測方法、多盤聯(lián)合數(shù)據(jù)遷移方法、預(yù)測結(jié)果二級驗證及快速反饋方法五大技術(shù)，將主動容錯技術(shù)形成完整閉環(huán)，從而具備了商業(yè)應(yīng)用的條件.

Fig. 6 Framework of proactive fault tollerance technology圖6 主動容錯技術(shù)框架

4 實驗與結(jié)果

本節(jié)從3個方面對本文工作進行測試：

1) 測試采集硬盤信息對前臺業(yè)務(wù)的干擾，其評價指標是相較于不采集硬盤信息的情況，前臺業(yè)務(wù)的帶寬下降比例以及用戶視頻播放的實際體驗情況；

2) 測試硬盤故障預(yù)測的準確率，其評價指標是召回率和誤檢率；

3)測試數(shù)據(jù)修復(fù)速度，其評價指標是完成數(shù)據(jù)修復(fù)的時間.

4.1 測試采集硬盤信息對前臺業(yè)務(wù)的干擾

前臺業(yè)務(wù)是20個客戶端分別播放30 min直播視頻，其正常狀態(tài)是該數(shù)據(jù)中心對所有的客戶端提供等量、恒定的讀數(shù)據(jù)帶寬.圖7(a)為不采集硬盤信息的情況，圖7(b)為傳統(tǒng)方法一次性采集全體硬盤的情況，圖7(c)為本文工作的情況.圖7的縱坐標為客戶端的播放帶寬.

與圖7(a)相比，圖7(b)雖然平均帶寬整體僅下降0.88%，但在采集SMART時連續(xù)9.18 s系統(tǒng)不可服務(wù)，其前11.21 s及其后4.23 s出現(xiàn)明顯性能抖動，用戶在觀看直播視頻的過程中出現(xiàn)了超過20 s的嚴重卡頓；與圖7(a)相比，圖7(c)雖然平均帶寬整體下降0.96%，但全程未出現(xiàn)帶寬性能抖動，用戶對于視頻的播放未察覺任何異常.由此可見，本文工作提升了用戶體驗，降低了對前臺業(yè)務(wù)的干擾.

Fig. 7 Client bandwidth under different conditions圖7 在不同情況下客戶端播放視頻帶寬

4.2 測試硬盤故障預(yù)測準確率

在本節(jié)測試中，場景涵蓋：1)基于中興通訊已采集的數(shù)據(jù)進行建模和預(yù)測；2)基于中興通訊已采集的數(shù)據(jù)進行建模，在中興通訊真實場景中進行預(yù)測；3)基于Backblaze數(shù)據(jù)集進行建模和預(yù)測.并與其他文獻公開的方法進行了比較.

4.2.1 面向已采集的硬盤數(shù)據(jù)進行預(yù)測

中興通訊已采集的數(shù)據(jù)包括127 892塊健康盤、1 995塊故障盤，其中70%用于訓練建模，30%用于預(yù)測測試.其總體測試結(jié)果如表3所示，HPredicted為被預(yù)測為健康盤的數(shù)量，F(xiàn)Predicted為被預(yù)測為故障盤的數(shù)量.本文工作總體的召回率為94.66%，誤檢率為0.34%.對于各類型的細分測試結(jié)果如表4所示，SATA，SAS，SSD的召回率分別為94.64%，94.37%，97.14%，誤檢率分別為0.36%，0.35%，0.10%.可以看到，相較于機械硬盤，固態(tài)硬盤的預(yù)測準確性高、誤檢率低.

為了與本文工作進行比較，將文獻[15]和文獻[17]的方法分別作為對比系統(tǒng)1和對比系統(tǒng)2，但受困于現(xiàn)有文獻僅針對單一品牌類型的硬盤故障進行預(yù)測，本節(jié)僅選取了希捷SATA數(shù)據(jù)作為比較.如表5所示，本文工作、對比系統(tǒng)1、對比系統(tǒng)2的召回率分別為94.12%，88.24%，85.29%，誤檢率分別為0.30%，2.10%，1.01%，本文工作顯著降低了誤檢率.

Table 3 Prediction Results Based on Collected Data in Overall表3 基于已采集數(shù)據(jù)的總體預(yù)測結(jié)果

Nete:HPredictedstands for the predicted healthy disk;FPredictedstands for the predicted failed disk.

Table 4 Prediction Results Based on Collected Data in Detail表4 基于已采集數(shù)據(jù)的細分預(yù)測結(jié)果

4.2.2 面向真實場景進行預(yù)測

為了進一步驗證預(yù)測的準確性，本文系統(tǒng)在中興通訊的真實數(shù)據(jù)中心進行了安裝部署，對硬盤未來的故障進行預(yù)測，但關(guān)閉數(shù)據(jù)修復(fù)，以觀察是否真正故障.對于預(yù)測結(jié)果的判斷，需等待1個月后得出結(jié)論.系統(tǒng)運行3個月，共出現(xiàn)故障盤521塊.在模型訓練時使用100%已采集的硬盤數(shù)據(jù).測試結(jié)果如表6所示，召回率93.86%；誤檢率0.33%，預(yù)測準確性得到了真實場景的驗證.

Table 5 Comparison of Prediction Results Based onSeagate SATA表5 基于希捷SATA數(shù)據(jù)的預(yù)測結(jié)果比較

Table 6 Prediction Results Based on Real Scene表6 基于真實場景的預(yù)測結(jié)果

4.2.3 在Backblaze數(shù)據(jù)集評測

為了充分驗證本文工作的普遍適用性，本文選取了Backblaze網(wǎng)站免費公開的2017年的全年故障盤的數(shù)據(jù)集進行測試，其中希捷品牌的SATA硬盤共65 003塊，故障盤1 431塊，將其70%用于建模、30%用于測試.然而遺憾的是，該數(shù)據(jù)集的數(shù)據(jù)質(zhì)量較低，主要存在的問題包括：1)硬盤信息采集頻率較低，每天1次，且個別數(shù)據(jù)丟失；2)采集硬盤信息單一化，是僅采集硬盤SMART信息，未采集IO信息，這對于硬盤剩余壽命的衡量是不利的；3)硬盤類型單一化，僅涉及SATA硬盤，不涉及SAS硬盤和固態(tài)硬盤.4)硬盤品牌單一化，該數(shù)據(jù)集中希捷品牌的硬盤占據(jù)絕大多數(shù)，其他品牌鳳毛麟角.正因上述原因，測試時無法將4.2.1節(jié)中的模型直接與該數(shù)據(jù)集對接，在經(jīng)過一定的技術(shù)處理，例如不考慮IO、減少樣本合并數(shù)量、剔除故障盤數(shù)量在20塊以下的硬盤型號后，最終建立預(yù)測模型.

其結(jié)果如表7所示，本文工作、對比系統(tǒng)1、對比系統(tǒng)2的召回率分別為80.43%，75.19%，82.60%，誤檢率分別為3.45%，3.84%，2.57%.可以看到，在數(shù)據(jù)質(zhì)量較低的情況下，本文工作與2個對比系統(tǒng)的預(yù)測準確性均不理想，充分說明了數(shù)據(jù)質(zhì)量對預(yù)測結(jié)果的重要性.

Table 7 Test Results from the Backblaze Dataset表7 在Backblaze數(shù)據(jù)集的測試結(jié)果

4.3 測試數(shù)據(jù)修復(fù)的速度

在本節(jié)測試時，所有涉及的硬盤均為希捷ST8000DM002型號，糾刪碼類型為6+3型.因硬盤在瀕臨故障期間的讀寫速度不穩(wěn)定，為盡量排除干擾，每項測試都是10次，去掉2個最高值和2個最低值，剩余值取平均值.為了充分體現(xiàn)本文工作的優(yōu)勢，將瀕臨故障盤獨立且全速修復(fù)的傳統(tǒng)方法作為對比系統(tǒng)3，將文獻[20]的方法作為對比系統(tǒng)4，如圖8所示，在不同修復(fù)數(shù)據(jù)量的情況下，本文的工作均大幅減少了修復(fù)時間，相較于對比系統(tǒng)3,4的方法分別平均減少55.10%和84.56%的修復(fù)時間.

Fig. 8 Comparison of repair time under different data quantities圖8 在不同數(shù)據(jù)量的情況下的修復(fù)時間對比

4.4 實驗小結(jié)

本節(jié)從對前臺業(yè)務(wù)的干擾程度、對故障預(yù)測的準確性以及故障后的修復(fù)速度這3個維度對本文的工作進行了測試，其中采集硬盤信息對前臺業(yè)務(wù)影響僅為0.96%，對硬盤故障預(yù)測的召回率達到94.66%，數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時間.該系統(tǒng)已在中興通訊的數(shù)據(jù)中心正常運行9個月以上，期間超過90%的硬盤故障均通過主動容錯得以解決，系統(tǒng)降級服務(wù)的次數(shù)顯著降低，且未出現(xiàn)數(shù)據(jù)丟失.

5 總結(jié)

主動容錯技術(shù)的核心目標包括：1)高可靠.故障預(yù)測準確率高，避免存儲系統(tǒng)降級服務(wù).2)高智能.解放運維人員勞動力，自動處理.3)低干擾.在采集、分析、遷移等階段都盡可能降低對前端業(yè)務(wù)干擾，不影響數(shù)據(jù)中心的正常服務(wù).4)低成本.避免浪費硬盤壽命，充分利用硬盤剩余壽命.5)廣適用.能夠適應(yīng)真實的大規(guī)模數(shù)據(jù)中心業(yè)務(wù)場景，對不同品牌、型號、類型的硬盤都能支持，且安裝部署靈活方便.

然而遺憾的是，現(xiàn)有的主動容錯技術(shù)僅僅局限于對硬盤故障的高準確預(yù)測，但對采集、遷移、反饋等方面研究較少，這使得主動容錯技術(shù)在難以真正商用.

本文首次提出了“采集—預(yù)測—遷移—反饋”的全流程主動容錯技術(shù)方案，包括：1)提出了分時硬盤信息采集方法，解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問題；2)提出了滑動窗口記錄合并及樣本構(gòu)建方法，填補了針對SAS硬盤和固態(tài)硬盤故障預(yù)測的空白；3)提出了多類型硬盤故障預(yù)測方法，攻克了正負樣本嚴重不均的難題；4)提出了多盤聯(lián)合數(shù)據(jù)遷移方法，加快了數(shù)據(jù)的修復(fù)速度；5)提出了預(yù)測結(jié)果二級驗證及快速反饋方法，靈活并快速地處理了誤判、漏判、遲判的情形.測試表明，采集硬盤信息對前臺業(yè)務(wù)影響僅為0.96%，對硬盤故障預(yù)測的召回率達到94.66%，數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時間.本文的工作已在中興通訊的大規(guī)模數(shù)據(jù)中心穩(wěn)定商用，滿足了主動容錯技術(shù)在高可靠、高智能、低干擾、低成本、廣適用等方面的核心目標.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放