亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于“采集—預(yù)測—遷移—反饋”機制的主動容錯技術(shù)

        2020-02-19 03:55:08楊洪章楊雅輝屠要峰孫廣宇吳中海
        計算機研究與發(fā)展 2020年2期
        關(guān)鍵詞:硬盤數(shù)據(jù)中心樣本

        楊洪章 楊雅輝 屠要峰 孫廣宇 吳中海

        1(北京大學軟件與微電子學院 北京 102600)2(中興通訊股份有限公司 廣東深圳 518057)3(北京大學信息科學技術(shù)學院 北京 100871)

        1 概 述

        1.1 硬盤故障頻發(fā)并帶來災(zāi)難性后果

        據(jù)國際數(shù)據(jù)公司(International Data Corpora-tion, IDC)發(fā)布的《數(shù)據(jù)時代2025》白皮書[1],到2025年全球數(shù)據(jù)量將會達到175 ZB,如果以12 TB容量的硬盤來計算,大約需要170億塊.而硬盤的年故障率在1%左右[2],因此全球每年將有數(shù)以億計的故障硬盤出現(xiàn).對于一個PB級規(guī)模的數(shù)據(jù)中心,硬盤故障每天都在發(fā)生[3].不可否認的是,硬盤故障已經(jīng)成為數(shù)據(jù)中心最主要的故障來源[4].硬盤故障會直接導致災(zāi)難性后果,如數(shù)據(jù)丟失、業(yè)務(wù)中斷等,這無疑嚴重影響了數(shù)據(jù)的可靠性.

        1.2 重新審視硬盤故障

        正如人類個體在一生中經(jīng)歷的“生老病死”,硬盤個體也在經(jīng)歷著“健康態(tài)、亞健康態(tài)、瀕臨故障態(tài)、故障態(tài)”的必然性周期,這是因為隨著時間的流逝,硬件各部件的老化、磨損等原因?qū)е碌慕Y(jié)果.并且,與人類因先天生理缺陷導致的新生兒夭折,以及諸如車禍、地震、災(zāi)害、動物襲擊等意外造成的偶發(fā)性死亡類似,硬盤也存在因出廠缺陷和意外故障(如甲醛、震動、電壓突變、空氣濕度過大、運維人員操作不當?shù)?而造成的偶發(fā)性故障.

        顯然硬盤的必然性故障具有一定時間的瀕臨故障窗口期,是具備預(yù)測的可能性的.如果在瀕臨故障窗口期內(nèi)及時將數(shù)據(jù)遷移,則可避免系統(tǒng)降級服務(wù).而硬盤的偶發(fā)性故障往往是突發(fā)的,幾乎不存在瀕臨故障窗口期,因此不具備預(yù)測的可能性,或需要相當大的代價去預(yù)測,但故障不可避免地迅速發(fā)生,數(shù)據(jù)根本來不及遷移,這樣的預(yù)測也沒有意義.

        1.3 傳統(tǒng)被動容錯存在缺陷

        傳統(tǒng)的數(shù)據(jù)容錯技術(shù)一般都是通過增加數(shù)據(jù)冗余來實現(xiàn)的[5],主要有副本[6-7]、糾刪碼[8-9]、備份快照[10-11]等.這些技術(shù)都是在硬盤故障發(fā)生后,通過冗余滿足讀寫訪問和數(shù)據(jù)恢復(fù),是被動式的處理手段.其缺陷體現(xiàn)在2方面:

        1) 硬盤容量、恢復(fù)速度、讀寫服務(wù)之間存在矛盾.在數(shù)據(jù)恢復(fù)過程中,系統(tǒng)資源不可避免地被數(shù)據(jù)恢復(fù)占用,系統(tǒng)立即降級服務(wù).因此,系統(tǒng)面臨兩難選擇——如果數(shù)據(jù)恢復(fù)過快,系統(tǒng)正常讀寫受到嚴重干擾;如果數(shù)據(jù)恢復(fù)過慢,再出現(xiàn)新的故障盤將有可能引發(fā)數(shù)據(jù)永久丟失.并且,大容量硬盤的恢復(fù)需要更多的時間,進一步加深了上述矛盾.

        2) 成本、性能、可靠性之間存在矛盾.副本技術(shù)雖然可以保證性能,但是存儲空間利用率僅為1n(其中n為副本個數(shù)),由此帶來成本上漲問題.糾刪碼技術(shù)在每一次讀寫操作時額外增加了計算量,對性能產(chǎn)生負面影響,但是存儲空間利用率較副本技術(shù)有了大幅提升.備份及快照技術(shù)可以保證性能,也不占用過多的額外存儲空間,但是備份及快照時間節(jié)點之后的數(shù)據(jù)卻無法保護.

        1.4 新型主動容錯成為研究熱點

        隨著智能運維[12]的不斷發(fā)展,通過采集硬盤SMART(self-monitoring analysis and reporting technology)指標,結(jié)合機器學習算法來預(yù)測硬盤故障,從而提前將數(shù)據(jù)遷移的主動容錯技術(shù)[13]成為新的研究熱點.一些國內(nèi)外的研究成果[14-21]對單一品牌型號的硬盤預(yù)測其故障的準確率達到85%以上.

        主動容錯的好處不言而喻:1)在硬盤故障之前準確預(yù)測并將數(shù)據(jù)遷移到其他硬盤,避免了系統(tǒng)降級服務(wù),提升了系統(tǒng)的可靠性.2)能夠有效指導硬盤采購規(guī)劃,克服了傳統(tǒng)被動容錯在故障發(fā)生后才去采購硬盤的缺陷.3)減少了運維人員的干預(yù),被動容錯需要運維人員的臨場判斷和快速響應(yīng),而主動容錯在預(yù)測和處理過程中充分發(fā)揮了機器的優(yōu)勢.4)準確性高,傳統(tǒng)被動容錯依賴運維人員的經(jīng)驗來對硬盤故障進行手工檢測,費時費力且誤判率高.

        雖然主動容錯的現(xiàn)有技術(shù)在實驗原型系統(tǒng)中取得了令人驚嘆的故障預(yù)測準確率,但是在真實的業(yè)務(wù)場景中仍然問題百出、難以商用.其主要體現(xiàn)在:

        1) 大規(guī)模SMART采集引發(fā)的災(zāi)難問題亟待解決.以固定周期對全體硬盤采集SMART時不可避免地占用系統(tǒng)資源.經(jīng)測試,在1萬塊硬盤的情況下,并行采集過程需經(jīng)過6 s以上,期間系統(tǒng)幾乎無法響應(yīng)任何正常讀寫操作,且經(jīng)常出現(xiàn)卡死的情況.因此,在大規(guī)模數(shù)據(jù)中心一次性采集全體硬盤SMART的方式迫切地需要改進.

        2) 針對SAS(serial attached small computer system interface)硬盤和固態(tài)硬盤(solid state disk, SSD)的故障預(yù)測的空白亟待填補.現(xiàn)有文獻均僅針對SATA(serial advanced technology attachment)硬盤建立預(yù)測模型,而在實際的數(shù)據(jù)中心,SAS硬盤和固態(tài)硬盤的數(shù)量十分龐大.直接將SATA硬盤的預(yù)測模型套用在SAS硬盤和固態(tài)硬盤是不可行的,這是因為它們的SMART 差別巨大.此外,開源采集工具smartmontools直到版本6.0和6.1才陸續(xù)支持了在Windows操作系統(tǒng)和Linux操作系統(tǒng)中對SAS硬盤的SMART采集,直接導致對SAS硬盤的SMART采集年限短、積累的故障樣本少.固態(tài)硬盤作為電子式的存儲器件,相較于機械硬盤,其年故障率低[22-23],且大規(guī)模應(yīng)用的年限遠短于SATA硬盤和SAS硬盤,固態(tài)硬盤同樣存在故障數(shù)量少的問題.因此迫切的需要專門對SAS硬盤和固態(tài)硬盤的故障進行建模預(yù)測,如此才能完整地預(yù)測數(shù)據(jù)中心的全體硬盤故障.

        3) 正負樣本嚴重不均的難題亟待解決.現(xiàn)階段阻礙硬盤故障研究的最大問題是故障盤數(shù)量少、健康盤數(shù)量多、正負樣本嚴重不均衡.現(xiàn)有的技術(shù)文獻往往通過SMOTE(synthetic minority over-sampling technique)算法[24]來人工合成若干正樣本,以緩解該問題,但是缺點在于易產(chǎn)生模型過擬合的問題.因此迫切地需要提出新的上采樣方法,在不引起過擬合的前提下增加數(shù)倍的正樣本,從而徹底解決該難題.

        4) 難以快速數(shù)據(jù)修復(fù)的問題亟待解決.現(xiàn)有技術(shù)讓瀕臨故障盤完全獨立地承擔數(shù)據(jù)修復(fù),短時間內(nèi)連續(xù)集中的數(shù)據(jù)訪問會加速故障的發(fā)生,并且重構(gòu)時間窗口過長,因此迫切地需要提出多盤聯(lián)合修復(fù),以加快數(shù)據(jù)修復(fù).

        5) 預(yù)測結(jié)果的驗證與反饋機制亟待建立.預(yù)測錯誤包括故障盤的誤判、漏判、遲判.誤判會浪費硬盤生命周期.漏判和遲判會使得系統(tǒng)進入降級狀態(tài),需要依賴傳統(tǒng)被動容錯保障可靠性.通過算法優(yōu)化能在一定程度上減少預(yù)測錯誤,但無法完全做到100%避免誤判,在出現(xiàn)預(yù)測錯誤時,現(xiàn)有技術(shù)往往通過更新預(yù)測模型的方式進行矯正,然而這種方式存在時間滯后性,因此迫切需要更加靈活的反饋機制.

        1.5 本文的主要貢獻

        為了克服現(xiàn)有主動容錯技術(shù)的上述缺陷,本文提出了一系列的關(guān)鍵技術(shù),涵蓋“采集—預(yù)測—遷移—反饋”的全周期主動容錯,包括:1)提出分時硬盤信息采集方法,解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問題;2)提出滑動窗口記錄合并及樣本構(gòu)建方法,填補了針對SAS硬盤和固態(tài)硬盤故障預(yù)測的空白;3)提出多類型硬盤故障預(yù)測方法,攻克了正負樣本嚴重不均的難題;4)提出多盤聯(lián)合數(shù)據(jù)遷移方法,加快了數(shù)據(jù)的修復(fù)速度;5)提出預(yù)測結(jié)果二級驗證及快速反饋方法,靈活并快速地處理了預(yù)測錯誤.

        2 相關(guān)研究

        基于硬盤故障預(yù)測和數(shù)據(jù)遷移的主動容錯技術(shù)受到了學術(shù)界的持續(xù)關(guān)注,國內(nèi)外的研究人員從不同角度相繼提出了一些方案.

        關(guān)于硬盤故障預(yù)測準確性提升:Pitakrat等人[14]僅選取硬盤SMART作為狀態(tài)特征數(shù)據(jù),測試了21種不同的分類算法,其中NNC,RF,C4.5,REPTree,RIPPER,PART,K-Star,SVM等算法可將故障預(yù)測的準確性達到90%以上;Zhu等人[15]使用了SMRAT相關(guān)項在最近一段時間的變化值作為特征數(shù)據(jù)輸入,采用 SVM 作為分類算法建立預(yù)測模型,故障預(yù)測的準確性達到最高95%;Li等人[16]提出了基于決策樹的預(yù)測模型,能達到 95%以上的準確率,并且能夠提前一周預(yù)測出故障,決策規(guī)則清晰地解釋了SMART屬性值與故障之間的關(guān)系,為采取措施并減少故障提供依據(jù);柳永康[17]提出二級預(yù)測方法,在預(yù)測磁盤是否即將要故障的基礎(chǔ)上,進一步預(yù)測磁盤故障的發(fā)生時間范圍,使用邏輯回歸算法,在提前5天預(yù)測的情況下,預(yù)測準確率最高達85.01%.

        關(guān)于硬盤故障模型架構(gòu):Xiao等人[18]提出一種基于在線隨機森林的硬盤故障預(yù)測模型架構(gòu),解決了離線訓練和模型老化的問題,故障預(yù)測準確率達到93%~99%.Xie等人[19]提出一種基于一對多建模的硬盤故障預(yù)測模型OME(optimized modeling engine),準確率總體比以前的工作高出18.5%.

        關(guān)于數(shù)據(jù)提前修復(fù):Ji等人[20]在預(yù)測到硬盤將要發(fā)生故障的情況下,主動將該硬盤上的數(shù)據(jù)遷移到健康盤,但限制數(shù)據(jù)遷移的速率,從而在硬盤故障發(fā)生時難以完成全部的數(shù)據(jù)遷移,仍舊需要依靠傳統(tǒng)被動容錯;Qin等人[21]提出了Fatman系統(tǒng),對冷、熱數(shù)據(jù)分別使用RS(Reed Solomon)碼和副本機制,對于將要發(fā)生故障的硬盤提前進行數(shù)據(jù)遷移,在故障發(fā)生以后,熱數(shù)據(jù)可以通過其他副本來提供服務(wù),而冷數(shù)據(jù)需要重構(gòu)丟失的數(shù)據(jù),這樣可減少76.3%的重構(gòu)開銷.

        綜上所述,現(xiàn)有研究工作主要關(guān)注提升SATA硬盤的故障預(yù)測準確率,忽略了針對SAS硬盤和固態(tài)硬盤的預(yù)測,并且對采集、遷移、反饋的研究較少,難以形成一個完整的主動容錯技術(shù)方案.

        3 主動容錯技術(shù)

        本節(jié)圍繞中興通訊承建并運營的國內(nèi)華南某數(shù)據(jù)中心的硬盤情況進行分析研究,提出完整的主動容錯機制,涵蓋采集、預(yù)測、遷移、反饋等各個環(huán)節(jié).該數(shù)據(jù)中心共有129 887塊硬盤,在2018年共出現(xiàn)1995塊故障盤,其品牌、類型的情況如表1所示,Htrue為實際健康盤的數(shù)量,F(xiàn)true為實際故障盤的數(shù)量.

        Table 1 Hard Disk Situation in Data Center表1 本文研究數(shù)據(jù)中心的硬盤情況

        Note:Htruestands for the truly healthy disk;Ftruestands for the truly failed disk.

        3.1 分時硬盤信息采集方法

        硬盤在故障前必然存在一系列的內(nèi)外部征兆,現(xiàn)有文獻過多地關(guān)注以SMART為代表的內(nèi)部征兆,而對硬盤IO情況、CPU使用率、內(nèi)存占用等外部征兆研究較少.處于亞健康和瀕臨故障的硬盤,其SMART情況不穩(wěn)定、時好時壞,一旦在采集的瞬間其恰巧處于健康狀態(tài),這會直接導致誤判.在這種情況下,研究硬盤故障的外部征兆則是非常必要的補充,例如硬盤的IOPS和吞吐量很低,并且CPU使用量也很低但時延很高,這種情況同樣預(yù)示了硬盤即將故障.因此,本文采集硬盤的信息主要包括:硬盤SMART、硬盤IO情況、CPU使用率、內(nèi)存占用等.

        在采集頻率上,現(xiàn)有的文獻均采用固定周期的采集方式,例如每天采集1次、每3 h采集1次等.誠然,采集越頻繁越有利于對故障的預(yù)測,能夠更加敏銳地捕捉到“震蕩”型的SMART表現(xiàn).然而考慮到采集硬盤信息對數(shù)據(jù)中心業(yè)務(wù)的必然影響,采集的頻率也不能過于頻繁.結(jié)合中興通訊數(shù)據(jù)中心視頻業(yè)務(wù)的特點,本文的采集方法為:1)考慮視頻業(yè)務(wù)高峰,原則上每個盤每小時采集1次,但關(guān)閉業(yè)務(wù)高峰時段(11∶30—13∶00,18∶00—23∶30)的采集.2)考慮視頻業(yè)務(wù)特點,電視節(jié)目多數(shù)以整點和半點作為切換點,因此每次采集時段為5~25 min,35~55 min.3)避免同時采集全體硬盤,應(yīng)以1 s為間隔,每次采集10塊盤.至此,以2~4 TB構(gòu)成的百PB級的數(shù)據(jù)中心,在1 h之內(nèi)可以采集完畢,且對業(yè)務(wù)影響降到最低.4)在業(yè)務(wù)低谷時段(2∶35—5∶25)更新模型、批量發(fā)送采集數(shù)據(jù)至計算節(jié)點.

        由于采集間隔非固定,對硬盤的寫IO通過當前寫入速度描述,其計算公式為

        (1)

        其中,k表示第k次采集.讀IO的計算同理,此處不再贅述.

        由于硬盤SMART 數(shù)據(jù)各數(shù)據(jù)項取值的規(guī)整方法不同,所以各數(shù)據(jù)項在數(shù)值上差異很大,如果按原值輸入作模型訓練時,數(shù)值較大的項會帶來較大影響,因為每個數(shù)據(jù)項其原始數(shù)值的取值規(guī)則不同,為了防止個別數(shù)據(jù)項對模型帶來較大偏差,因此進行歸一化處理,其計算公式為

        (2)

        3.2 滑動窗口記錄合并及樣本構(gòu)建

        通過3.1節(jié)的采集方式,每天每塊硬盤采集16條記錄,經(jīng)過1年的采集,129 887塊硬盤中共出現(xiàn)故障盤1 995塊.健康盤與故障盤的比例約為64∶1,面對如此嚴重的不均衡,本文采用滑動窗口記錄合并及樣本構(gòu)建的方法解決該問題.

        如圖1所示,對于故障盤,其在故障時刻前30天之內(nèi)的記錄作為故障記錄,每個記錄項按采樣時間先后進行排序,設(shè)定3天為時間窗口,截取時間窗口內(nèi)的48條記錄.時間窗口起始位置放在硬盤的故障時間上,然后時間窗向前滑動0.5天距離,即向前移動8條記錄,共滑動55次,直至時間窗口涵蓋故障前第30天的所有記錄.如圖2所示,對每次移動時間窗口所截取的記錄,以記錄項為單位對其計算平均值、方差、極差,從而將連續(xù)多個時間點的各記錄項信息合并為1條正樣本,將其計入訓練樣本集中.通過窗口的滑動,將構(gòu)建55倍于原始故障盤個數(shù)的正樣本數(shù).對于健康盤,則隨機選取連續(xù)3天的48條記錄,同樣針對每個記錄項計算平均值、方差、極差,作為負樣本計入訓練樣本集中.

        Fig. 1 Sliding window record merging圖1 滑動窗口記錄合并

        Fig. 2 Sample construction圖2 樣本構(gòu)建

        通過滑動窗口記錄合并及樣本構(gòu)建方法,構(gòu)建出55倍故障盤的正樣本,相較于健康盤與故障盤之間64倍的比例差距,這幾乎填補了二者之間的鴻溝,正負樣本達到了相同的數(shù)量級.此外,在單條樣本中綜合體現(xiàn)多個時間點的硬盤狀態(tài),不再孤立的審視單一時間點的硬盤狀態(tài),能夠更加敏銳地發(fā)現(xiàn)并刻畫硬盤在故障前的各項指標的“陡增”、“陡減”、“震蕩”等狀態(tài),從而為故障硬盤的判定提供了充分的依據(jù).

        3.3 多類型硬盤故障預(yù)測

        硬盤SMART是對硬盤各組件,如磁頭、馬達、盤片等部件的狀態(tài)進行分析監(jiān)控的技術(shù),并非所有信息均與硬盤故障相關(guān),圖3展現(xiàn)了4類典型的SMART信息在硬盤故障前的表現(xiàn),分別是震蕩型、陡增型、陡減型以及平靜型,顯然平靜型的SMART是無助于區(qū)分硬盤是否將要故障的,因此需要特征篩選.

        Fig. 3 Typical SMART information before disk failure圖3 典型的SMART信息在硬盤故障前的表現(xiàn)

        本文研究的數(shù)據(jù)中心含有10種不同類型及品牌的硬盤,因不同型號的硬盤其采集到的SMART存在差異,甚至同一個ID的含義也可能不同,因此需針對每一種類型及品牌的硬盤分別進行建模.本文在特征篩選時,采用專家經(jīng)驗判斷、變化趨勢觀察、卡方檢驗、屬性方差、樹的特征選擇這5種方法,在3種以上方法出現(xiàn)的ID最終被選取.受篇幅限制,表2僅展現(xiàn)了3個典型的硬盤類型品牌用于預(yù)測建模的SMART選取情況.這些SMART與3.1節(jié)所述的外部征兆一起,用于建立故障預(yù)測模型.

        Table 2 Selected SMART for Predicting Different Hard Disks表2 本文在不同類型硬盤選取的SMART指標

        在算法方面,本文使用人工神經(jīng)網(wǎng)絡(luò)算法,設(shè)置神經(jīng)網(wǎng)絡(luò)隱含層個數(shù)為4個,每層的神經(jīng)元個數(shù)分別設(shè)為1 000,500,200,100,輸入層神經(jīng)元個數(shù)根據(jù)輸入數(shù)據(jù)特征維度確定,輸出層為3個,激活函數(shù)選擇tanh.為避免神經(jīng)網(wǎng)絡(luò)過擬合,將交叉熵代價函數(shù)和L2正則之和作為網(wǎng)絡(luò)的損失函數(shù).模型網(wǎng)絡(luò)的優(yōu)化算法使用了批量梯度下降法.事實上,本文在嘗試了10余種不同的算法及百余種不同的參數(shù)設(shè)置后,發(fā)現(xiàn)算法的優(yōu)劣對于硬盤故障預(yù)測的準確率影響微乎其微,而數(shù)據(jù)質(zhì)量高情形下對預(yù)測的準確性明顯優(yōu)于數(shù)據(jù)質(zhì)量低的情形,這充分說明了在硬盤故障預(yù)測的問題中數(shù)據(jù)質(zhì)量的重要性遠高于算法.

        如圖4所示,在對10種硬盤接口、品牌分別進行建模后,多類型硬盤故障即具備上線運行的能力,在數(shù)據(jù)中心連續(xù)采集3天硬盤信息后,即可預(yù)測硬盤是否將要發(fā)生故障,首先根據(jù)硬盤類型選擇相應(yīng)的模型,隨后將連續(xù)48條樣本進行輸入,在超過36條樣本被判定為正樣本的情況下,該硬盤會被預(yù)測為瀕臨故障盤.在商用場景中,先引入初始模型,在系統(tǒng)的運行過程中定期進行模型更新和參數(shù)調(diào)節(jié).

        Fig. 4 Failure prediction of multi-type hard disk圖4 多類型硬盤故障預(yù)測

        3.4 多盤聯(lián)合數(shù)據(jù)遷移

        主動容錯的最大價值是在預(yù)測到硬盤即將故障之時,利用該硬盤的剩余壽命把數(shù)據(jù)遷移到健康盤,從而避免進入降級模式,能夠同時保證高性能和高可靠.然而現(xiàn)有技術(shù)讓瀕臨故障盤獨立承擔數(shù)據(jù)修復(fù),短時間內(nèi)連續(xù)集中的數(shù)據(jù)訪問會加速故障的發(fā)生,往往導致數(shù)據(jù)還未完全修復(fù)時故障就已發(fā)生,最終仍需依靠被動容錯方法.因此,在主動容錯技術(shù)中,恢復(fù)數(shù)據(jù)的任務(wù)不應(yīng)僅由瀕臨故障盤單獨承擔.

        本節(jié)提出了多盤聯(lián)合數(shù)據(jù)遷移技術(shù),基于糾刪碼系統(tǒng),通過多盤聯(lián)合修復(fù)、拷貝與編解碼計算相結(jié)合的修復(fù)手段,加快了修復(fù)速度,有效避免系統(tǒng)進入降級狀態(tài),同時均衡了網(wǎng)絡(luò)傳輸壓力.

        多盤聯(lián)合數(shù)據(jù)修復(fù)的主要步驟包括:

        1) 在硬盤A被預(yù)測為瀕臨故障后,立即啟動主動容錯數(shù)據(jù)修復(fù).

        2) 確定參與共同修復(fù)的硬盤組,訪問系統(tǒng)元數(shù)據(jù),遍歷硬盤A中的所有p個數(shù)據(jù)塊(strip),讀取其所屬條帶(stripe)的硬盤編號,這些硬盤參與共同修復(fù),稱之為硬盤組B.

        3) 選擇空閑容量最大的健康硬盤作為修復(fù)目標盤,上述硬盤A和硬盤組B不得被選入,稱之為硬盤C.

        4) 分別確定由硬盤A和硬盤組B負責修復(fù)的數(shù)據(jù)塊集合.假設(shè)共有p個數(shù)據(jù)塊待修復(fù),為集合Q.由硬盤A承擔p×y個數(shù)據(jù)塊的修復(fù),為集合T.由硬盤組B承擔剩余的p-p×y個數(shù)據(jù)塊的修復(fù),為集合R.

        5) 隨后同時進行硬盤A和硬盤組B的數(shù)據(jù)修復(fù):通過拷貝的方法,將集合T中所有的數(shù)據(jù)塊由硬盤A修復(fù)到硬盤C;通過編解碼計算的方法,將集合R所有數(shù)據(jù)塊由硬盤組B修復(fù)到硬盤C.

        6) 如果硬盤A修復(fù)完畢,硬盤組B仍有20%以上的數(shù)據(jù)塊尚未修復(fù)完成,則硬盤A接管部分硬盤組B的數(shù)據(jù)修復(fù);反之亦然.

        7) 如果硬盤A未修復(fù)完畢即發(fā)生故障,則系統(tǒng)進入降級模式,由硬盤組B承擔全部剩余修復(fù)任務(wù).

        3.5 預(yù)測結(jié)果二級驗證及快速反饋

        現(xiàn)有技術(shù)文獻缺乏對預(yù)測結(jié)果的進一步驗證,并且在出現(xiàn)誤判情況或主動修復(fù)策略不當時,無法及時改進,需要等待一定時間再將新采集的硬盤信息批量更新預(yù)測模型.因此本節(jié)提出預(yù)測結(jié)果二級驗證及快速反饋方法,其原理如圖5所示:

        Fig. 5 Two-level verification and feedback圖5 二級驗證及反饋

        對于被預(yù)測為故障的硬盤,立即進行主動修復(fù):

        1) 如果在修復(fù)過程中已出現(xiàn)故障,則系統(tǒng)降級服務(wù),由健康盤完成剩余的所有修復(fù)工作,并且需調(diào)整故障閾值,后續(xù)應(yīng)盡早將該盤預(yù)測為故障盤;

        2) 如果該盤的修復(fù)順利完成,但明顯快于或慢于協(xié)助其修復(fù)的其他健康盤的修復(fù)工作,則需調(diào)整修復(fù)策略,增大或減小由瀕臨故障盤承擔的修復(fù)數(shù)據(jù)比例;

        3) 如果以上情況未出現(xiàn),則對該盤進行破壞式寫入,直至該盤發(fā)生故障為止,或?qū)懭霑r間達剩余生命周期閾值z時為止.記錄寫入時間h.若h=z,則將其認定為誤判,反饋給訓練模型;若h>z4,則適當上調(diào)故障閾值x,并適當上調(diào)修復(fù)比例閾值y;若h

        對于被預(yù)測為健康的硬盤,應(yīng)立即協(xié)助故障盤進行主動修復(fù):

        1) 如果在聯(lián)合修復(fù)過程中出現(xiàn)故障,則該盤被誤判為健康盤,需要樣本反轉(zhuǎn)為正樣本.

        2) 如果修復(fù)順利完成,則持續(xù)觀察,如果在1個月之內(nèi)未出現(xiàn)故障,則預(yù)測正確,否則為預(yù)測錯誤.

        在上述過程中,有3個重要閾值是反饋機制的重要組成部分,包括:

        1) 故障閾值x,若同一塊硬盤的連續(xù)多條樣本健康度低于x,則認為該硬盤為瀕臨故障盤.

        2) 修復(fù)比例閾值y,由瀕臨故障盤承擔的數(shù)據(jù)修復(fù)比例y,由其他健康盤承擔的數(shù)據(jù)修復(fù)比例為1-y.該值的最理想情況是,由瀕臨故障盤的數(shù)據(jù)修復(fù)時間恰好等于其他健康盤承擔的數(shù)據(jù)修復(fù)時間.一次主動數(shù)據(jù)修復(fù)由該2種修復(fù)同時進行,顯然,主動數(shù)據(jù)修復(fù)的時間等于用時較大者的時間.

        3) 剩余生命周期閾值z,在主動數(shù)據(jù)修復(fù)之后,硬盤剩余生命周期越小越理想,最理想的情況是修復(fù)完畢時該盤恰好故障.若剩余生命周期大于該閾值z,則適當調(diào)節(jié)x和y.

        通過二次驗證及快速反饋方法,針對不合理的主動修復(fù)策略和不及時的故障預(yù)測,能夠及時調(diào)整參數(shù),在避免系統(tǒng)降級的前提下,能夠精準利用瀕臨故障硬盤的剩余生命周期;針對錯誤的預(yù)測,能夠快速甄別,及時反轉(zhuǎn)正負樣本標記,為模型更新提供準確的依據(jù).

        3.6 本節(jié)小結(jié)

        主動容錯技術(shù)框架如圖6所示.通過分時硬盤信息采集方法、滑動窗口記錄合并及樣本構(gòu)建方法、多類型硬盤故障預(yù)測方法、多盤聯(lián)合數(shù)據(jù)遷移方法、預(yù)測結(jié)果二級驗證及快速反饋方法五大技術(shù),將主動容錯技術(shù)形成完整閉環(huán),從而具備了商業(yè)應(yīng)用的條件.

        Fig. 6 Framework of proactive fault tollerance technology圖6 主動容錯技術(shù)框架

        4 實驗與結(jié)果

        本節(jié)從3個方面對本文工作進行測試:

        1) 測試采集硬盤信息對前臺業(yè)務(wù)的干擾,其評價指標是相較于不采集硬盤信息的情況,前臺業(yè)務(wù)的帶寬下降比例以及用戶視頻播放的實際體驗情況;

        2) 測試硬盤故障預(yù)測的準確率,其評價指標是召回率和誤檢率;

        3)測試數(shù)據(jù)修復(fù)速度,其評價指標是完成數(shù)據(jù)修復(fù)的時間.

        4.1 測試采集硬盤信息對前臺業(yè)務(wù)的干擾

        前臺業(yè)務(wù)是20個客戶端分別播放30 min直播視頻,其正常狀態(tài)是該數(shù)據(jù)中心對所有的客戶端提供等量、恒定的讀數(shù)據(jù)帶寬.圖7(a)為不采集硬盤信息的情況,圖7(b)為傳統(tǒng)方法一次性采集全體硬盤的情況,圖7(c)為本文工作的情況.圖7的縱坐標為客戶端的播放帶寬.

        與圖7(a)相比,圖7(b)雖然平均帶寬整體僅下降0.88%,但在采集SMART時連續(xù)9.18 s系統(tǒng)不可服務(wù),其前11.21 s及其后4.23 s出現(xiàn)明顯性能抖動,用戶在觀看直播視頻的過程中出現(xiàn)了超過20 s的嚴重卡頓;與圖7(a)相比,圖7(c)雖然平均帶寬整體下降0.96%,但全程未出現(xiàn)帶寬性能抖動,用戶對于視頻的播放未察覺任何異常.由此可見,本文工作提升了用戶體驗,降低了對前臺業(yè)務(wù)的干擾.

        Fig. 7 Client bandwidth under different conditions圖7 在不同情況下客戶端播放視頻帶寬

        4.2 測試硬盤故障預(yù)測準確率

        在本節(jié)測試中,場景涵蓋:1)基于中興通訊已采集的數(shù)據(jù)進行建模和預(yù)測;2)基于中興通訊已采集的數(shù)據(jù)進行建模,在中興通訊真實場景中進行預(yù)測;3)基于Backblaze數(shù)據(jù)集進行建模和預(yù)測.并與其他文獻公開的方法進行了比較.

        4.2.1 面向已采集的硬盤數(shù)據(jù)進行預(yù)測

        中興通訊已采集的數(shù)據(jù)包括127 892塊健康盤、1 995塊故障盤,其中70%用于訓練建模,30%用于預(yù)測測試.其總體測試結(jié)果如表3所示,HPredicted為被預(yù)測為健康盤的數(shù)量,F(xiàn)Predicted為被預(yù)測為故障盤的數(shù)量.本文工作總體的召回率為94.66%,誤檢率為0.34%.對于各類型的細分測試結(jié)果如表4所示,SATA,SAS,SSD的召回率分別為94.64%,94.37%,97.14%,誤檢率分別為0.36%,0.35%,0.10%.可以看到,相較于機械硬盤,固態(tài)硬盤的預(yù)測準確性高、誤檢率低.

        為了與本文工作進行比較,將文獻[15]和文獻[17]的方法分別作為對比系統(tǒng)1和對比系統(tǒng)2,但受困于現(xiàn)有文獻僅針對單一品牌類型的硬盤故障進行預(yù)測,本節(jié)僅選取了希捷SATA數(shù)據(jù)作為比較.如表5所示,本文工作、對比系統(tǒng)1、對比系統(tǒng)2的召回率分別為94.12%,88.24%,85.29%,誤檢率分別為0.30%,2.10%,1.01%,本文工作顯著降低了誤檢率.

        Table 3 Prediction Results Based on Collected Data in Overall表3 基于已采集數(shù)據(jù)的總體預(yù)測結(jié)果

        Nete:HPredictedstands for the predicted healthy disk;FPredictedstands for the predicted failed disk.

        Table 4 Prediction Results Based on Collected Data in Detail表4 基于已采集數(shù)據(jù)的細分預(yù)測結(jié)果

        4.2.2 面向真實場景進行預(yù)測

        為了進一步驗證預(yù)測的準確性,本文系統(tǒng)在中興通訊的真實數(shù)據(jù)中心進行了安裝部署,對硬盤未來的故障進行預(yù)測,但關(guān)閉數(shù)據(jù)修復(fù),以觀察是否真正故障.對于預(yù)測結(jié)果的判斷,需等待1個月后得出結(jié)論.系統(tǒng)運行3個月,共出現(xiàn)故障盤521塊.在模型訓練時使用100%已采集的硬盤數(shù)據(jù).測試結(jié)果如表6所示,召回率93.86%;誤檢率0.33%,預(yù)測準確性得到了真實場景的驗證.

        Table 5 Comparison of Prediction Results Based onSeagate SATA表5 基于希捷SATA數(shù)據(jù)的預(yù)測結(jié)果比較

        Table 6 Prediction Results Based on Real Scene表6 基于真實場景的預(yù)測結(jié)果

        4.2.3 在Backblaze數(shù)據(jù)集評測

        為了充分驗證本文工作的普遍適用性,本文選取了Backblaze網(wǎng)站免費公開的2017年的全年故障盤的數(shù)據(jù)集進行測試,其中希捷品牌的SATA硬盤共65 003塊,故障盤1 431塊,將其70%用于建模、30%用于測試.然而遺憾的是,該數(shù)據(jù)集的數(shù)據(jù)質(zhì)量較低,主要存在的問題包括:1)硬盤信息采集頻率較低,每天1次,且個別數(shù)據(jù)丟失;2)采集硬盤信息單一化,是僅采集硬盤SMART信息,未采集IO信息,這對于硬盤剩余壽命的衡量是不利的;3)硬盤類型單一化,僅涉及SATA硬盤,不涉及SAS硬盤和固態(tài)硬盤.4)硬盤品牌單一化,該數(shù)據(jù)集中希捷品牌的硬盤占據(jù)絕大多數(shù),其他品牌鳳毛麟角.正因上述原因,測試時無法將4.2.1節(jié)中的模型直接與該數(shù)據(jù)集對接,在經(jīng)過一定的技術(shù)處理,例如不考慮IO、減少樣本合并數(shù)量、剔除故障盤數(shù)量在20塊以下的硬盤型號后,最終建立預(yù)測模型.

        其結(jié)果如表7所示,本文工作、對比系統(tǒng)1、對比系統(tǒng)2的召回率分別為80.43%,75.19%,82.60%,誤檢率分別為3.45%,3.84%,2.57%.可以看到,在數(shù)據(jù)質(zhì)量較低的情況下,本文工作與2個對比系統(tǒng)的預(yù)測準確性均不理想,充分說明了數(shù)據(jù)質(zhì)量對預(yù)測結(jié)果的重要性.

        Table 7 Test Results from the Backblaze Dataset表7 在Backblaze數(shù)據(jù)集的測試結(jié)果

        4.3 測試數(shù)據(jù)修復(fù)的速度

        在本節(jié)測試時,所有涉及的硬盤均為希捷ST8000DM002型號,糾刪碼類型為6+3型.因硬盤在瀕臨故障期間的讀寫速度不穩(wěn)定,為盡量排除干擾,每項測試都是10次,去掉2個最高值和2個最低值,剩余值取平均值.為了充分體現(xiàn)本文工作的優(yōu)勢,將瀕臨故障盤獨立且全速修復(fù)的傳統(tǒng)方法作為對比系統(tǒng)3,將文獻[20]的方法作為對比系統(tǒng)4,如圖8所示,在不同修復(fù)數(shù)據(jù)量的情況下,本文的工作均大幅減少了修復(fù)時間,相較于對比系統(tǒng)3,4的方法分別平均減少55.10%和84.56%的修復(fù)時間.

        Fig. 8 Comparison of repair time under different data quantities圖8 在不同數(shù)據(jù)量的情況下的修復(fù)時間對比

        4.4 實驗小結(jié)

        本節(jié)從對前臺業(yè)務(wù)的干擾程度、對故障預(yù)測的準確性以及故障后的修復(fù)速度這3個維度對本文的工作進行了測試,其中采集硬盤信息對前臺業(yè)務(wù)影響僅為0.96%,對硬盤故障預(yù)測的召回率達到94.66%,數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時間.該系統(tǒng)已在中興通訊的數(shù)據(jù)中心正常運行9個月以上,期間超過90%的硬盤故障均通過主動容錯得以解決,系統(tǒng)降級服務(wù)的次數(shù)顯著降低,且未出現(xiàn)數(shù)據(jù)丟失.

        5 總 結(jié)

        主動容錯技術(shù)的核心目標包括:1)高可靠.故障預(yù)測準確率高,避免存儲系統(tǒng)降級服務(wù).2)高智能.解放運維人員勞動力,自動處理.3)低干擾.在采集、分析、遷移等階段都盡可能降低對前端業(yè)務(wù)干擾,不影響數(shù)據(jù)中心的正常服務(wù).4)低成本.避免浪費硬盤壽命,充分利用硬盤剩余壽命.5)廣適用.能夠適應(yīng)真實的大規(guī)模數(shù)據(jù)中心業(yè)務(wù)場景,對不同品牌、型號、類型的硬盤都能支持,且安裝部署靈活方便.

        然而遺憾的是,現(xiàn)有的主動容錯技術(shù)僅僅局限于對硬盤故障的高準確預(yù)測,但對采集、遷移、反饋等方面研究較少,這使得主動容錯技術(shù)在難以真正商用.

        本文首次提出了“采集—預(yù)測—遷移—反饋”的全流程主動容錯技術(shù)方案,包括:1)提出了分時硬盤信息采集方法,解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問題;2)提出了滑動窗口記錄合并及樣本構(gòu)建方法,填補了針對SAS硬盤和固態(tài)硬盤故障預(yù)測的空白;3)提出了多類型硬盤故障預(yù)測方法,攻克了正負樣本嚴重不均的難題;4)提出了多盤聯(lián)合數(shù)據(jù)遷移方法,加快了數(shù)據(jù)的修復(fù)速度;5)提出了預(yù)測結(jié)果二級驗證及快速反饋方法,靈活并快速地處理了誤判、漏判、遲判的情形.測試表明,采集硬盤信息對前臺業(yè)務(wù)影響僅為0.96%,對硬盤故障預(yù)測的召回率達到94.66%,數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時間.本文的工作已在中興通訊的大規(guī)模數(shù)據(jù)中心穩(wěn)定商用,滿足了主動容錯技術(shù)在高可靠、高智能、低干擾、低成本、廣適用等方面的核心目標.

        猜你喜歡
        硬盤數(shù)據(jù)中心樣本
        酒泉云計算大數(shù)據(jù)中心
        用樣本估計總體復(fù)習點撥
        HiFi級4K硬盤播放機 億格瑞A15
        Egreat(億格瑞)A10二代 4K硬盤播放機
        推動醫(yī)改的“直銷樣本”
        民航綠色云數(shù)據(jù)中心PUE控制
        電子測試(2018年11期)2018-06-26 05:56:24
        隨機微分方程的樣本Lyapunov二次型估計
        村企共贏的樣本
        我區(qū)電視臺對硬盤播出系統(tǒng)的應(yīng)用
        基于云計算的交通運輸數(shù)據(jù)中心實現(xiàn)與應(yīng)用
        亚洲毛片一区二区在线| 国产精品国产三级在线高清观看| 中文字幕亚洲综合久久| 中文字幕成人精品久久不卡91| 成年美女黄网站色大免费视频 | 小雪好紧好滑好湿好爽视频| 伊人久久大香线蕉av一区| 欧美精品中文字幕亚洲专区| 在线免费观看视频播放| 国产成人高清在线观看视频| 97午夜理论片影院在线播放| 亚洲h视频| 亚洲人成无码网www| 老熟女一区二区免费| 国产韩国一区二区三区| 自由成熟女性性毛茸茸应用特色| 国产av一区二区精品凹凸| 成 人 网 站 免 费 av| 国产精品无码片在线观看| 久久国产精品av在线观看| 久久精品亚洲熟女av蜜謦| 48沈阳熟女高潮嗷嗷叫| 亚洲午夜成人片| 中文字幕精品久久一区二区三区 | 国产性猛交╳xxx乱大交| 亚洲人成绝费网站色www| 久久精品久99精品免费| 亚洲色偷偷综合亚洲avyp| 国产美女露脸口爆吞精| 国产目拍亚洲精品一区二区| 秀人网嫩模李梓熙大尺度| 国产免费二区三区视频| 中文无码日韩欧| 亚洲av美女在线播放啊| 色偷偷亚洲精品一区二区| 成人欧美一区二区三区在线观看 | 国产人在线成免费视频| 狠狠色噜噜狠狠狠狠97俺也去| 国产精品不卡免费版在线观看| 天堂资源中文网| 人妻影音先锋啪啪av资源 |